EnergyGPT Benchmark

{
  • "headers": [
    • "T",
    • "Model",
    • "Média Geral ⬆️",
    • "PLUE",
    • "Energy",
    • "Reasoning",
    • "#Params (B)",
    • "AFA",
    • "ASSIN2_RTE",
    • "ASSIN2_STS",
    • "Architecture",
    • "Available on the hub",
    • "BCB",
    • "BLUEX",
    • "BNDES",
    • "CACD_1",
    • "CACD_2",
    • "CFCES",
    • "CNPU",
    • "Computação",
    • "Discurso de Ódio",
    • "ENADE",
    • "ENAM",
    • "ENEM",
    • "ENERGY_DATASET",
    • "Economia e Contabilidade",
    • "FAQUAD_NLI",
    • "HATEBR",
    • "Hub License",
    • "Hub ❤️",
    • "IME",
    • "ITA",
    • "MREX",
    • "Model sha",
    • "Multidisciplinar",
    • "OAB",
    • "OBI",
    • "POSCOMP",
    • "PT_HATE_SPEECH",
    • "Precision",
    • "Provas Militares",
    • "REASONING_DATASET",
    • "REVALIDA",
    • "Semântica e Inferência",
    • "TWEETSENTBR",
    • "Type",
    • "Weight type",
    • "Área Médica",
    • "Área do Direito"
    ],
  • "data": [
    • [
      • "SFT",
      • "Qwen/Qwen2.5-7B-Instruct",
      • 0.64,
      • 0.71,
      • 0.5,
      • 0.5,
      • 7,
      • 0,
      • 0.92,
      • 0.73,
      • "-",
      • false,
      • 0,
      • 0.66,
      • 0,
      • 0,
      • 0,
      • 0,
      • 0,
      • "-",
      • 0.77,
      • 0,
      • 0,
      • 0.75,
      • 0.5,
      • "-",
      • 0.89,
      • 0.83,
      • "qwen-research",
      • 0,
      • 0,
      • 0,
      • 0,
      • "-",
      • 0.7,
      • 0.52,
      • 0,
      • 0,
      • 0.77,
      • "BF16",
      • "-",
      • 0.5,
      • 0,
      • 0.85,
      • 0.71,
      • "SFT : Supervised Finetuning",
      • "Original",
      • "-",
      • 0.52
      ],
    • [
      • "SFT",
      • "qwen2.5-7B-2E_fulltrain",
      • 0.56,
      • 0.59,
      • 0.5,
      • 0.5,
      • 7,
      • 0,
      • 0.92,
      • 0.67,
      • "-",
      • false,
      • 0,
      • 0.45,
      • 0,
      • 0,
      • 0,
      • 0,
      • 0,
      • "-",
      • 0.66,
      • 0,
      • 0,
      • 0.54,
      • 0.5,
      • "-",
      • 0.84,
      • 0.78,
      • "qwen-research",
      • 0,
      • 0,
      • 0,
      • 0,
      • "-",
      • 0.5,
      • 0.39,
      • 0,
      • 0,
      • 0.75,
      • "BF16",
      • "-",
      • 0.5,
      • 0,
      • 0.81,
      • 0.46,
      • "SFT : Supervised Finetuning",
      • "Original",
      • "-",
      • 0.39
      ],
    • [
      • "SFT",
      • "qwen2.5-7B-1E_fulltrain",
      • 0.55,
      • 0.57,
      • 0.5,
      • 0.5,
      • 7,
      • 0,
      • 0.92,
      • 0.69,
      • "-",
      • false,
      • 0,
      • 0.44,
      • 0,
      • 0,
      • 0,
      • 0,
      • 0,
      • "-",
      • 0.54,
      • 0,
      • 0,
      • 0.55,
      • 0.5,
      • "-",
      • 0.97,
      • 0.72,
      • "qwen-research",
      • 0,
      • 0,
      • 0,
      • 0,
      • "-",
      • 0.49,
      • 0.39,
      • 0,
      • 0,
      • 0.73,
      • "BF16",
      • "-",
      • 0.5,
      • 0,
      • 0.86,
      • 0.17,
      • "SFT : Supervised Finetuning",
      • "Original",
      • "-",
      • 0.39
      ]
    ],
  • "metadata": null
}