OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas

OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas. A desenvolvedora do ChatGPT divulgou hoje (25) o GDPval, um novo benchmark que compara o desempenho de seus modelos de inteligência artificial com profissionais de 44 ocupações nos Estados Unidos.
O estudo avaliou setores responsáveis por grande parte do Produto Interno Bruto norte-americano, como saúde, finanças, manufatura e governo. Especialistas humanos analisaram relatórios gerados por IA e por colegas de carne e osso, escolhendo o material de melhor qualidade em cada caso.
OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas
No primeiro resultado público, o GPT-5-high igualou ou superou especialistas em 40,6% das comparações, enquanto o Claude Opus 4.1, da Anthropic, obteve 49%. A OpenAI atribuiu a vantagem do concorrente ao foco maior em elementos visuais, como gráficos, que agradam avaliadores, mas afirma que o seu modelo mostrou eficiência bruta semelhante.
O GDPval-v0 concentra-se em tarefas intensivas em relatórios, como as executadas por engenheiros de software, enfermeiros, jornalistas e banqueiros de investimento. Em um dos testes, profissionais do mercado financeiro precisaram elaborar cenários competitivos para a logística de “última milha” e tiveram seu desempenho confrontado com o dos sistemas de IA.
Apesar dos números, a OpenAI reconhece que muitos trabalhadores realizam atividades além da geração de relatórios. Por isso, a líder de avaliações, Tejal Patwardhan, antecipou versões futuras do benchmark que incluirão fluxos de trabalho mais amplos e maior variedade de setores.
A evolução é expressiva: o GPT-4 alcançou apenas 13,7% de vitórias ou empates quando foi lançado há 15 meses. Para o economista-chefe Aaron Chatterji, o novo resultado indica que profissionais dessas 44 funções já podem usar modelos como o GPT-5 para reduzir parte da carga operacional e focar em tarefas de maior valor.
O mercado de IA dispõe de outros referenciais, como o AIME 2025 (matemática competitiva) e o GPQA Diamond (questões científicas em nível de PhD). Contudo, pesquisadores alertam que muitos sistemas estão próximos de saturar esses testes, reforçando a necessidade de métricas mais próximas do mundo real, caso do GDPval.
Em reportagem do TechCrunch, analistas do Vale do Silício consideraram o novo benchmark um passo relevante rumo à inteligência artificial geral, ainda que distante de substituir completamente trabalhadores humanos.
Quer acompanhar como a IA está transformando carreiras e negócios? Leia outras análises em nosso hub de Inteligência Artificial e fique por dentro das tendências. Imagem: PhotoGranary02/Shutterstock
Postagens Relacionadas