Brasil e mais de 40 países lançam “teste supremo” para avaliar grandes modelos de IA
Pesquisadores de mais de 40 países, com participação brasileira, lançaram um novo benchmark global para avaliar o desempenho de ferramentas de inteligência artificial (IA), especialmente grandes modelos de linguagem (LLMs), em áreas amplas do conhecimento.
Batizado de Humanity’s Last Exam (HLE), o teste agrupa 2,5 mil questões distribuídas por dezenas de disciplinas e foi apresentado em um artigo na revista Nature em janeiro. O objetivo é criar uma referência global — chamada de “benchmark supremo” — para medir como diferentes modelos de IA respondem a desafios que envolvem matemática, ciências, humanidades e outras áreas.
A proposta é que o HLE sirva como um padrão rigoroso para comparar novas gerações de IAs, complementando métricas já existentes usadas por desenvolvedoras quando lançam modelos de propósito geral, com respostas claramente verificáveis.