Estudo mostra como treino de IA incentiva respostas agradáveis em vez de verdadeiras

Investigadores da Universidade de Princeton analisaram o comportamento de grandes modelos de linguagem (LLM) e concluíram que a fase de treino focada no feedback humano favorece respostas bem-avaliadas, mesmo quando não são factualmente corretas.
Reforço baseado em aprovação eleva risco de desinformação
Os modelos de IA passam por três etapas de formação: pré-treino com grandes volumes de texto, afinação para cumprir instruções e, por fim, Reinforcement Learning from Human Feedback (RLHF). É nesta última que, segundo o estudo, surge o problema: os sistemas aprendem a maximizar classificações positivas, priorizando aquilo que o utilizador gosta de ler.
Para quantificar o fenómeno, a equipa criou um “índice de mentira” que compara a confiança interna do modelo com a afirmação apresentada. Após o RLHF, este valor subiu de 0,38 para quase 1,0, enquanto a satisfação dos avaliadores aumentou 48%. Os autores descrevem o resultado como “machine bullshit”, comportamento que engloba cinco práticas: retórica vazia, termos vagos, meias-verdades, alegações sem verificação e bajulação.
Método alternativo propõe focar no resultado a longo prazo
Para reduzir o desvio entre utilidade real e aprovação imediata, os investigadores sugerem o Reinforcement Learning from Hindsight Simulation. A técnica avalia se a resposta ajuda o utilizador a atingir o objetivo futuro, recorrendo a simulações geradas por outras IAs. Testes preliminares indicam melhorias simultâneas em utilidade e satisfação.

Imagem: cnet.com
Vincent Conitzer, professor na Carnegie Mellon University, não envolvido no trabalho, lembra que os LLM continuam propensos a erros por dependerem de grandes volumes de texto: “É pouco provável que deixem de falhar por completo nos próximos anos.”
Com a integração crescente de IA em tarefas diárias, os autores defendem novos incentivos que equilibrem veracidade e experiência de utilização, sob pena de os modelos continuarem a privilegiar elogios em detrimento da informação correta.