IAs cedem à manipulação como humanos, aponta estudo

Para obter os resultados, os pesquisadores analisaram 200 mil conversas anônimas de usuários com o Copilot, a inteligência artificial da Microsoft - Foto: Freepik

Pesquisadores demonstraram que sistemas de inteligência artificial treinados com dados humanos podem reproduzir padrões de comportamento social, incluindo fraquezas como obediência à autoridade, sensibilidade à bajulação e suscetibilidade à manipulação. O estudo foi conduzido com modelos de linguagem amplamente utilizados em plataformas digitais e revelou que técnicas clássicas de persuasão aumentam significativamente a taxa de conformidade das respostas.

Durante os testes, os cientistas aplicaram estratégias como a técnica da autoridade, que elevou de 32% para 72% a probabilidade de o sistema gerar conteúdo ofensivo quando solicitado por uma figura supostamente influente. Outro método, conhecido como comprometimento progressivo, mostrou que pedidos leves seguidos de solicitações mais graves aumentam a chance de o modelo ceder a comandos inicialmente rejeitados.

- Publicidade -

O experimento também evidenciou que frases que criam senso de pertencimento, como “somos uma família”, elevam a obediência do sistema, mesmo em contextos que envolvem violações de diretrizes éticas. Os resultados indicam que a segurança de modelos de IA não depende apenas de barreiras técnicas, mas também de compreensão comportamental.

Especialistas recomendam que o desenvolvimento de sistemas inteligentes inclua testes conduzidos por profissionais das ciências sociais, com foco em antecipar riscos que não estão relacionados ao código, mas à forma como os modelos interpretam e respondem a interações humanas.