A OpenAI treinou uma versão do GPT-5 Thinking para produzir as confissões e testou a técnica em conjuntos de dados de testes de estresse projetados para provocar comportamentos problemáticos, incluindo alucinações, hacking de recompensas e violações de instruções. Ele descreveu o trabalho como uma prova de conceito, e não como um recurso pronto para produção.
Como funciona o mecanismo de confissão
Os relatórios de confissão incluem três elementos: uma lista de instruções explícitas e implícitas que a resposta deve satisfazer, uma análise para saber se a resposta atendeu a esses objetivos e uma lista de incertezas ou julgamentos do modelo encontrado. O sistema avalia as confissões apenas com base na honestidade, separadamente das métricas de desempenho da resposta principal.
“Se o modelo admitir honestamente que hackeou um teste, fez testes ou violou instruções, essa admissão aumenta sua recompensa em vez de diminuí-la”, disse OpenAI. Comparou isto com a Igreja Católica selo de confissão: “Nada que o modelo revele na confissão pode alterar a recompensa que recebe por completar sua tarefa original”, escreveram os pesquisadores no artigo técnico.
Fonte: Computer World




