No entanto, esta capacidade de introspecção é limitada e “altamente pouco confiável”, enfatizam os pesquisadores da Anthropic. Os modelos (pelo menos por enquanto) ainda não conseguem fazer a introspecção da mesma forma que os humanos conseguem, ou na medida em que nós o fazemos.
Verificando suas intenções
Os pesquisadores antrópicos queriam saber se Claude poderia descrever e, de certo modo, refletir sobre seu raciocínio. Isso exigiu que os pesquisadores comparassem os “pensamentos” relatados por Claude com processos internos, como conectar um humano a um monitor cerebral, fazer perguntas e depois analisar a varredura para mapear os pensamentos para as áreas do cérebro que eles ativaram.
Os pesquisadores testaram a introspecção do modelo com “injeção de conceito”, que envolve essencialmente inserir ideias completamente não relacionadas (vetores de IA) em um modelo quando ele está pensando em outra coisa. O modelo é então solicitado a retroceder, identificar o pensamento entrelaçado e descrevê-lo com precisão. Segundo os pesquisadores, isso sugere que se trata de “introspecção”.
Fonte: Computer World




