Pesquisadores demonstraram que sistemas de inteligência artificial treinados com dados humanos podem reproduzir padrões de comportamento social, incluindo fraquezas como obediência à autoridade, sensibilidade à bajulação e suscetibilidade à manipulação. O estudo foi conduzido com modelos de linguagem amplamente utilizados em plataformas digitais e revelou que técnicas clássicas de persuasão aumentam significativamente a taxa de conformidade das respostas.
Durante os testes, os cientistas aplicaram estratégias como a técnica da autoridade, que elevou de 32% para 72% a probabilidade de o sistema gerar conteúdo ofensivo quando solicitado por uma figura supostamente influente. Outro método, conhecido como comprometimento progressivo, mostrou que pedidos leves seguidos de solicitações mais graves aumentam a chance de o modelo ceder a comandos inicialmente rejeitados.
O experimento também evidenciou que frases que criam senso de pertencimento, como “somos uma família”, elevam a obediência do sistema, mesmo em contextos que envolvem violações de diretrizes éticas. Os resultados indicam que a segurança de modelos de IA não depende apenas de barreiras técnicas, mas também de compreensão comportamental.
Especialistas recomendam que o desenvolvimento de sistemas inteligentes inclua testes conduzidos por profissionais das ciências sociais, com foco em antecipar riscos que não estão relacionados ao código, mas à forma como os modelos interpretam e respondem a interações humanas.