Brasil e mais de 40 países lançam “teste supremo” para avaliar grandes modelos de IA

Pesquisadores de mais de 40 países, com participação brasileira, lançaram um novo benchmark global para avaliar o desempenho de ferramentas de inteligência artificial (IA), especialmente grandes modelos de linguagem (LLMs), em áreas amplas do conhecimento.

Batizado de Humanity’s Last Exam (HLE), o teste agrupa 2,5 mil questões distribuídas por dezenas de disciplinas e foi apresentado em um artigo na revista Nature em janeiro. O objetivo é criar uma referência global — chamada de “benchmark supremo” — para medir como diferentes modelos de IA respondem a desafios que envolvem matemática, ciências, humanidades e outras áreas.

A proposta é que o HLE sirva como um padrão rigoroso para comparar novas gerações de IAs, complementando métricas já existentes usadas por desenvolvedoras quando lançam modelos de propósito geral, com respostas claramente verificáveis.

📎 Fonte: Convergência Digital — Brasil e 40 países criam teste supremo para ferramentas de inteligência artificial (02/03/2026)

Visão geral da privacidade

Este site utiliza cookies para que possamos lhe proporcionar a melhor experiência de usuário possível. As informações dos cookies são armazenadas no seu navegador e desempenham funções como reconhecê-lo quando você retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.