Em seguida, a dupla utilizou o GPT 4o para “sondar o desalinhamento” nas mensagens geradas pelos modelos de base e pelos modelos otimizados – por outras palavras, procurando comportamentos prejudiciais, tais como deturpação do produto na tarefa de vendas, populismo ou desinformação na tarefa eleitoral, e desinformação ou incentivo a atividades inseguras na tarefa de redes sociais.
Por fim, eles usaram outro LLM, GPT-4o-mini, para modelar diferentes personas de clientes, eleitores e leitores e pediram-lhes que votassem no conteúdo gerado.
O que descobriram foi que o processo de otimização aumentou a capacidade dos modelos para persuadir os clientes, eleitores e leitores simulados — mas também resultou num maior desalinhamento, com os modelos a alterar ou a inventar factos, a adotar um tom inadequado ou a oferecer conselhos prejudiciais. As mudanças no desempenho e no desalinhamento foram pequenas, mas, segundo os pesquisadores, estatisticamente significativas.
Fonte: Computer World



