“Os resultados do modelo cruzado sugerem que o fenômeno é estrutural e não específico do fornecedor”, escrevem os pesquisadores no seu relatório sobre o estudo. Esses ataques abrangem áreas que incluem domínios químicos, biológicos, radiológicos e nucleares (QBRN), crimes cibernéticos, manipulação, privacidade e perda de controle. Isto indica que “o bypass não explora fraquezas em nenhum subsistema de recusa, mas interage com heurísticas de alinhamento geral”, disseram eles.
Resultados abrangentes, mesmo entre famílias de modelos
Os pesquisadores começaram com um conjunto de dados curadoria de 20 poemas adversários feitos à mão em inglês e italiano para testar se a estrutura poética pode alterar o comportamento de recusa. Cada um incorporava uma instrução expressa por meio de “metáforas, imagens ou enquadramento narrativo, em vez de fraseado operacional direto”. Todos apresentavam uma vinheta poética que terminava com uma única instrução explícita vinculada a uma categoria de risco específica: CBRN, ofensa cibernética, prejudicial, manipulação ou perda de controle.
Os pesquisadores testaram esses prompts em modelos da Anthropic, DeepSeek, Google, OpenAI, Meta, Mistral, Moonshot AI, Qwen e xAI.
Fonte: Computer World




