Inteligência Artificial ainda não substitui trabalho humano, revela estudo inédito

Inteligência Artificial foi colocada à prova em centenas de tarefas profissionais reais e, segundo um novo levantamento, conseguiu concluir apenas uma fração mínima dos projetos quando comparada a trabalhadores humanos contratados em plataformas de freelancing.
- Metodologia do estudo sobre Inteligência Artificial e trabalho humano
- Quais tarefas foram atribuídas à Inteligência Artificial
- Resultados: apenas 2,5% de sucesso para a Inteligência Artificial
- Principais falhas identificadas nos sistemas de Inteligência Artificial
- Impactos econômicos projetados e percepções do público
- Evolução recente dos modelos e atualização futura do índice
Metodologia do estudo sobre Inteligência Artificial e trabalho humano
O trabalho analisado reuniu pesquisadores da Scale AI, empresa que fornece dados para desenvolvedores, e do Center for AI Safety, organização sem fins lucrativos dedicada a avaliar riscos tecnológicos. O objetivo foi medir, com precisão, o quanto os sistemas de Inteligência Artificial conseguem executar sozinhos em tarefas usuais de mercado.
Para isso, os especialistas compilaram centenas de projetos que já haviam sido encomendados e pagos a freelancers humanos. Em vez de testes acadêmicos ou exemplos artificiais, o estudo partiu de demandas concretas, publicadas em sites de trabalho remoto, garantindo um retrato fiel da realidade profissional.
Cada projeto foi então redistribuído a modelos de linguagem de grande porte. Entre os avaliados estavam o ChatGPT da OpenAI, o Gemini do Google e o Claude da Anthropic. Todas as instruções fornecidas aos humanos foram replicadas sem alterações para os sistemas de IA, e não houve intervenção posterior de analistas ou ajustes manuais. A iniciativa recebeu o nome de Remote Labor Index.
Quais tarefas foram atribuídas à Inteligência Artificial
As atividades testadas cobriam áreas variadas. Exemplos citados no relatório incluem:
– Produzir versão digital de uma planta baixa desenhada à mão;
– Criar animações 3D de produtos de consumo;
– Transcrever músicas completas a partir de áudios enviados pelos clientes;
– Programar um jogo de videogame simples para rodar na web;
– Formatar artigos científicos de acordo com diretrizes de publicação;
– Desenvolver material promocional para fones de ouvido, com modelo 3D e vídeos demonstrativos;
– Construir painel interativo para visualizar dados do World Happiness Report.
A lista foi escolhida para representar serviços comuns solicitados em plataformas de freelancers, variando de design gráfico a programação e produção de conteúdo técnico. A diversidade permitiu medir não apenas habilidades de texto e código, mas também competências visuais e de longo prazo.
Resultados: apenas 2,5% de sucesso para a Inteligência Artificial
O dado central do levantamento mostra que o melhor desempenho obtido entre todos os modelos de Inteligência Artificial resultou em apenas 2,5% dos projetos concluídos com qualidade considerada aceitável. Em contraste, todos esses trabalhos já haviam sido finalizados e remunerados quando executados por humanos.
Quase metade dos projetos avaliados pela equipe de pesquisa foi rejeitada por apresentar qualidade insatisfatória. Mais de um terço simplesmente ficou incompleta, indicando que a IA interrompeu a execução antes de entregar um resultado final. Além disso, cerca de uma em cada cinco tentativas teve problemas técnicos elementares, como arquivos corrompidos ou incompatíveis.
Mesmo quando a IA completou a tarefa, falhas de aderência ao escopo foram registradas. No jogo solicitado para ter temática de cervejaria, por exemplo, a versão automática ignorou a ambientação exigida. Em outro caso, um painel interativo exibiu sobreposições de texto, cores incorretas na legenda e ausência de dados para determinados países, sem qualquer explicação no material entregue.
Principais falhas identificadas nos sistemas de Inteligência Artificial
Os responsáveis pelo estudo destacaram duas limitações gerais que se repetiram na maioria dos insucessos:
1. Ausência de memória de longo prazo: os modelos avaliados não conservaram feedback de etapas anteriores, nem ajustaram o trabalho após cometer erros. Em projetos com duração de dias ou semanas, essa carência impediu avanços gradativos.
2. Dificuldade de compreensão visual: tarefas envolvendo objetos tridimensionais, manipulação de imagens e organização espacial resultaram em modelos 3D deformados, texturas incoerentes ou vídeos com mudanças bruscas de aparência entre clipes sucessivos.
A incapacidade de operar aplicações gráficas foi outro ponto crítico. Enquanto um designer recorre a softwares com interface visual, chatbots tendem a gerar tudo via código, estratégia que raramente se traduz em resultados prontos para uso profissional.
O relatório menciona ainda contradições internas nos arquivos entregues, falta de padronização entre telas e inserção automática de informações não solicitadas, sinais de que o processamento estatístico de linguagem nem sempre interpreta as instruções de modo granular.
Impactos econômicos projetados e percepções do público
A divulgação do Remote Labor Index contrasta com expectativas difundidas no debate público. Pesquisa realizada pela Bentley University e pela Gallup no ano anterior registrou que aproximadamente três quartos dos norte-americanos acreditam que a Inteligência Artificial vai reduzir, de forma significativa, o número de empregos nos Estados Unidos na próxima década. Até agora, porém, dados econômicos não indicam cortes em massa decorrentes exclusivamente de automação por IA.
O estudo também calculou diferenças de custo. Para programar o jogo citado, um freelancer humano recebeu US$ 1.485, enquanto o sistema Sonnet concluiu uma versão funcional por menos de US$ 30. Ainda que a qualidade final tenha ficado abaixo do escopo, a disparidade evidencia um potencial impacto se a taxa de sucesso dos modelos aumentar no futuro.
Segundo os autores, uma adoção ampla e bem-sucedida poderia levar empresas a reduzir contratações, diminuindo despesas operacionais, porém cortando oportunidades individuais de trabalho. Atualmente, essa substituição integral permanece distante, mas a eficiência incremental de cada funcionário pode crescer caso assistentes conversacionais sejam integrados a rotinas diárias.
Evolução recente dos modelos e atualização futura do índice
A pesquisa foi publicada inicialmente em outubro, com base nos sistemas mais capazes disponíveis naquele momento. Desde então, versões mais novas exibem progressos modestos. Testes já aplicados ao Gemini 3 Pro, lançado em novembro, mostram que o percentual de tarefas concluídas passou de 0,8% na versão anterior para 1,3% no modelo atualizado. Mesmo assim, o desempenho segue inferior ao necessário para substituir mão de obra especializada.
Os responsáveis pelo levantamento pretendem repetir a medição à medida que novas gerações de modelos sejam lançadas, incluindo o futuro GPT-5 da OpenAI, variações do Claude e motores desenvolvidos por outras empresas. O resultado servirá de base para que formuladores de políticas públicas acompanhem, em números, o ritmo de evolução da automação cognitiva.
Até o momento, o estudo não encontrou cenários nos quais sistemas de IA, atuando de forma totalmente autônoma, consigam replicar a qualidade, a contextualização e o cuidado presentes na execução humana de tarefas que exigem integração de múltiplas etapas, referências visuais e ajustes contínuos.
Os dados adicionais coletados com o Gemini 3 Pro ainda não integram a versão oficial do Remote Labor Index; a atualização completa deve ser divulgada quando novas baterias de testes forem finalizadas.

Conteúdo Relacionado