OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas

OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas

OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas. A desenvolvedora do ChatGPT divulgou hoje (25) o GDPval, um novo benchmark que compara o desempenho de seus modelos de inteligência artificial com profissionais de 44 ocupações nos Estados Unidos.

O estudo avaliou setores responsáveis por grande parte do Produto Interno Bruto norte-americano, como saúde, finanças, manufatura e governo. Especialistas humanos analisaram relatórios gerados por IA e por colegas de carne e osso, escolhendo o material de melhor qualidade em cada caso.

OpenAI testa GPT-5: IA iguala humanos em 40% das tarefas

No primeiro resultado público, o GPT-5-high igualou ou superou especialistas em 40,6% das comparações, enquanto o Claude Opus 4.1, da Anthropic, obteve 49%. A OpenAI atribuiu a vantagem do concorrente ao foco maior em elementos visuais, como gráficos, que agradam avaliadores, mas afirma que o seu modelo mostrou eficiência bruta semelhante.

O GDPval-v0 concentra-se em tarefas intensivas em relatórios, como as executadas por engenheiros de software, enfermeiros, jornalistas e banqueiros de investimento. Em um dos testes, profissionais do mercado financeiro precisaram elaborar cenários competitivos para a logística de “última milha” e tiveram seu desempenho confrontado com o dos sistemas de IA.

Apesar dos números, a OpenAI reconhece que muitos trabalhadores realizam atividades além da geração de relatórios. Por isso, a líder de avaliações, Tejal Patwardhan, antecipou versões futuras do benchmark que incluirão fluxos de trabalho mais amplos e maior variedade de setores.

A evolução é expressiva: o GPT-4 alcançou apenas 13,7% de vitórias ou empates quando foi lançado há 15 meses. Para o economista-chefe Aaron Chatterji, o novo resultado indica que profissionais dessas 44 funções já podem usar modelos como o GPT-5 para reduzir parte da carga operacional e focar em tarefas de maior valor.

O mercado de IA dispõe de outros referenciais, como o AIME 2025 (matemática competitiva) e o GPQA Diamond (questões científicas em nível de PhD). Contudo, pesquisadores alertam que muitos sistemas estão próximos de saturar esses testes, reforçando a necessidade de métricas mais próximas do mundo real, caso do GDPval.

Em reportagem do TechCrunch, analistas do Vale do Silício consideraram o novo benchmark um passo relevante rumo à inteligência artificial geral, ainda que distante de substituir completamente trabalhadores humanos.

Quer acompanhar como a IA está transformando carreiras e negócios? Leia outras análises em nosso hub de Inteligência Artificial e fique por dentro das tendências. Imagem: PhotoGranary02/Shutterstock

zairasilva

Olá! Eu sou a Zaira Silva — apaixonada por marketing digital, criação de conteúdo e tudo que envolve compartilhar conhecimento de forma simples e acessível. Gosto de transformar temas complexos em conteúdos claros, úteis e bem organizados. Se você também acredita no poder da informação bem feita, estamos no mesmo caminho. ✨📚No tempo livre, Zaira gosta de viajar e fotografar paisagens urbanas e naturais, combinando sua curiosidade tecnológica com um olhar artístico. Acompanhe suas publicações para se manter atualizado com insights práticos e interessantes sobre o mundo da tecnologia.

Postagens Relacionadas

Go up

Usamos cookies para garantir que oferecemos a melhor experiência em nosso site. Se você continuar a usar este site, assumiremos que você está satisfeito com ele. OK