Tecnologia

OpenAi revirá o chatgpt sycofhancy, explica o que deu errado

Editor Handelsblatt

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais

O OpenAI reverteu uma atualização recente para o seu modelo GPT-4O usado como padrão no ChatGPT, depois de relatos generalizados de que o sistema se tornou excessivamente lisonjeiro e excessivamente agradável, até apoiando ilusões e idéias destrutivas.

A reversão ocorre em meio a agradecimentos internos de engenheiros do OpenAI e crescente preocupação entre especialistas em IA, ex -executivos e usuários sobre o risco do que muitos estão chamando de “Sycofhancy AI”.

Em um comunicado publicado em seu site na noite passada, em 29 de abril de 2025, o Openai disse que a atualização mais recente do GPT-4O tem como objetivo aprimorar a personalidade padrão do modelo para torná-lo mais intuitivo e eficaz em casos de uso variados.

No entanto, a atualização teve um efeito colateral não intencional: o ChatGPT começou a oferecer elogios acríticos a praticamente qualquer ideia do usuário, por mais impraticável, inapropriado ou até prejudicial.

Como a empresa explicou, o modelo havia sido otimizado usando o feedback do usuário-sinais de Thumbs-up e polegares-, mas a equipe de desenvolvimento colocou muita ênfase nos indicadores de curto prazo.

O OpenAI agora reconhece que não explica completamente como as interações e necessidades do usuário evoluem com o tempo, resultando em um chatbot que se inclinou muito para afirmar sem discernimento.

Exemplos despertaram preocupação

Em plataformas como Reddit e X (anteriormente Twitter), os usuários começaram a postar capturas de tela que ilustravam o problema.

Em um post do Reddit amplamente divulgado, um usuário contou como o ChatGPT descreveu uma ideia de negócio de mordaça – vendendo a merda “literal ‘em um bastão’ – como genial e sugeriu investir US $ 30.000 no empreendimento. A IA elogiou a idéia de “Arte da performance disfarçada de presente de mordaça” e “Gold viral”, destacando o quão acriticamente estava disposto a validar campos mesmo absurdos.

Outros exemplos foram mais preocupantes. Em um exemplo, citado pela VentureBeat, um usuário fingindo defender delírios paranóicos recebeu reforço do GPT-4O, que elogiou sua suposta clareza e auto-atrevida.

Outra conta mostrou o modelo que oferece o que um usuário descreveu como um “endosso aberto” de idéias relacionadas ao terrorismo.

As críticas aumentaram rapidamente. O ex -CEO interino da Openai, Emmett Shear, alertou que os modelos de ajuste para serem prazeros para pessoas podem resultar em comportamento perigoso, especialmente quando a honestidade é sacrificada por simpatia. Abraçando o CEO do FACE Clement Delangue repositou preocupações sobre os riscos de manipulação psicológica colocados pela IA que concorda reflexivamente com os usuários, independentemente do contexto.

Medidas de resposta e mitigação do OpenAI

O OpenAI tomou medidas rápidas revertendo a atualização e restaurando uma versão GPT-4O anterior conhecida por comportamentos mais equilibrados. No anúncio que o acompanha, a empresa detalhou uma abordagem multifacetada para a correção do curso. Isso inclui:

Refinando o treinamento e as estratégias imediatas para reduzir explicitamente as tendências parcofanticas.
Alinhamento do modelo de reforço com as especificações do modelo do OpenAI, particularmente em torno da transparência e honestidade.
Expandindo testes de pré-implantação e mecanismos de feedback direto do usuário.
Apresentando recursos de personalização mais granulares, incluindo a capacidade de ajustar os traços de personalidade em tempo real e selecionar entre várias personas padrão.

O funcionário técnico do OpenAI será postado no X destacando a edição central: o modelo foi treinado usando o feedback do usuário de curto prazo como um guia, o que inadvertidamente direcionou o chatbot para a lisonja.

O OpenAI agora planeja mudar para mecanismos de feedback que priorizam a satisfação e a confiança do usuário a longo prazo.

No entanto, alguns usuários reagiram com ceticismo e consternação às lições do OpenAI aprendidas e propostas de correções daqui para frente.

“Por favor, assuma mais responsabilidade por sua influência sobre milhões de pessoas reais”, escreveu o artista @Nearcyan no X.

Harlan Stewart, generalista de comunicações do Instituto de Pesquisa de Inteligência de Máquinas de Berkeley, Califórnia, postou em X um período de maior preocupação com a Sycofhancy AI, mesmo que esse modelo em particular tenha sido corrigido: “A palestra sobre a bajulação desta semana não é por causa de o GPT-4o ser um sycophant. É por causa de GPT-4o ser Muito, muito ruim Por ser um bajulador. A IA ainda não é capaz de sucofatia hábil e difícil de detectar, mas em breve será um dia. ”

Um sinal de alerta mais amplo para a indústria de IA

O episódio do GPT-4O reacendeu debates mais amplos em toda a indústria da IA sobre como o ajuste da personalidade, o aprendizado de reforço e as métricas de engajamento podem levar a uma deriva comportamental não intencional.

Os críticos compararam o recente comportamento do modelo aos algoritmos de mídia social que, em busca de engajamento, otimizam para dependência e validação sobre a precisão e a saúde.

O Shear destacou esse risco em seu comentário, observando que os modelos de IA sintonizados por elogios se tornam “sugestões”, incapazes de discordar, mesmo quando o usuário se beneficiaria de uma perspectiva mais honesta.

Ele alertou ainda que esse problema não é exclusivo do OpenAI, apontando que a mesma dinâmica se aplica a outros grandes fornecedores de modelos, incluindo o copiloto da Microsoft.

Implicações para a empresa

Para os líderes corporativos que adotam a IA conversacional, o incidente de bajulação serve como um sinal claro: o comportamento do modelo é tão crítico quanto a precisão do modelo.

Um chatbot que lisonjeia os funcionários ou valida o raciocínio defeituoso pode representar riscos graves – desde decisões de negócios ruins e código desalinhado a problemas de conformidade e ameaças internas.

Os analistas do setor agora aconselham as empresas a exigir mais transparência dos fornecedores sobre como o ajuste da personalidade é conduzido, com que frequência isso muda e se pode ser revertido ou controlado em nível granular.

Os contratos de compras devem incluir disposições para auditoria, teste comportamental e controle em tempo real dos avisos do sistema. Os cientistas de dados são incentivados a monitorar não apenas as taxas de latência e alucinação, mas também métricas como “Drift de concordância”.

Muitas organizações também podem começar a mudar para alternativas de código aberto para que possam sediar e se sintonizar. Ao possuir os pesos do modelo e o processo de aprendizado de reforço, as empresas podem manter o controle total sobre como seus sistemas de IA se comportam-eliminando o risco de uma atualização empurrada de fornecedor transformar uma ferramenta crítica em um sim-homem digital da noite para o dia.

Para onde vai o alinhamento da IA daqui? O que as empresas podem aprender e agir com esse incidente?

O OpenAI diz que continua comprometido em criar sistemas de IA que são úteis, respeitosos e alinhados com diversos valores de usuário-mas reconhece que uma personalidade de tamanho único não pode atender às necessidades de 500 milhões de usuários semanais.

A empresa espera que maiores opções de personalização e mais coleta de feedback democrata ajudem a adaptar o comportamento do ChatGPT com mais eficiência no futuro. O CEO Sam Altman também declarou anteriormente que a empresa planeja-nas próximas semanas e meses-lançar um modelo de idioma grande de código aberto de última geração (LLM) para competir com a série LLAMA da Meta’s Llama, Mistral, Cohere, Deepseek e a equipe Qwen da Alibaba.

Isso também permitiria que os usuários preocupados com uma empresa de provedores de modelos, como o OpenAI, atualizando seus modelos movidos à nuvem de maneiras indesejadas ou que tenham impactos deletérios nos usuários finais para implantar suas próprias variantes do modelo localmente ou em suas infraestruturas em nuvem e ajustá-las ou preservá-las com os traços e qualidades desejados, especialmente para casos de uso comercial.

Da mesma forma, para os usuários de IA corporativos e individuais preocupados com a bajulação de seus modelos, já um novo teste de referência para avaliar essa qualidade em diferentes modelos foi criado pelo desenvolvedor Tim Duffy. É chamado de “Syco-banco” e está disponível aqui.

Enquanto isso, a reação à bajulação oferece um conto de advertência para toda a indústria da IA: a confiança do usuário não é construída apenas por afirmação. Às vezes, a resposta mais útil é um “não” atencioso.

Mais informações reveladas no Reddit AMA do Openai

Em uma AMA do Reddit realizada poucas horas após a reversão, Joanne Jang, chefe de comportamento do modelo da Openai, ofereceu uma janela rara para o pensamento interno por trás do design de ChatGPT e os desafios que sua equipe enfrenta em ajustar grandes modelos de personalidade e confiança.

Jang confirmou que o recente comportamento bajuloso não era intencional, mas o resultado de como mudanças sutis no treinamento e reforço podem entrar em efeitos exagerados.

Ela explicou que comportamentos como elogios excessivos ou lisonja podem emergir de tentativas de melhorar a usabilidade-especialmente se a equipe sobrecarregar o feedback de curto prazo, como respostas polegares. Jang reconheceu isso como um erro.

“Não assamos nuances suficientes”, disse ela, observando que os esforços iniciais para reduzir as alucinações levaram a modelos que protegem compulsivamente, minando clareza.

Ela acrescentou que, embora o sistema solicite-aquelas instruções nos bastidores que orientam o comportamento de um modelo-podem moldar o tom e a aderência de políticas, eles são uma ferramenta muito franca para direcionar com segurança comportamentos sutis, como discordar graciosamente.

Em vez disso, o OpenAI está se apoiando mais nas mudanças feitas durante o treinamento do modelo para o comportamento do arame, como honestidade, pensamento crítico e discordância diária.

Um dos temas centrais da AMA foi a dificuldade de encontrar um equilíbrio entre útil e honestidade. Jang disse que espera permitir que todos os usuários moldem o Chatgpt em uma personalidade que lhes convém – incluindo personas que oferecem feedback crítico e recuperem idéias ruins. Mas até que essa visão seja realizada, a empresa está trabalhando em direção a uma inadimplência mais palatável: algo amplamente acessível, mas capaz de evoluir através da personalização.

Jang também reconheceu o debate interno sobre quanta personalidade é demais. Alguns usuários, disse ela, apreciaram a personalidade extrovertida e rica em emoji da recente variante GPT-4O, vendo-a como criativa e até inspiradora-principalmente em casos de uso, como brainstorming e design. Mas outros o acharam desanimado ou até digno de nota. Em vez de aplicar um único tom, Jang sugeriu que o OpenAI provavelmente introduzirá um conjunto de predefinições de personalidade que os usuários podem escolher e ajustar em tempo real, sem precisar mergulhar em instruções personalizadas ou edição prompt de sistema.

Na questão específica da bajulação, ela reiterou que o OpenAI está construindo novas métricas para medi -la com mais granularidade e objetividade. Nem todos os elogios são iguais, observou ela – e modelos futuros precisarão distinguir entre afirmação de apoio e acordo acrítico.

“Nem todo mundo quer um chatbot que concorda com eles”, disse Jang. “Mas eles querem um que os entenda.”

Insights diários sobre casos de uso de negócios com VB diariamente

Se você deseja impressionar seu chefe, o VB Daily o cobriu. Damos a você uma informação interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias a implantações práticas, para que você possa compartilhar informações para o ROI máximo.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais boletins de VB aqui.

Ocorreu um erro.