OpenAi revirá o chatgpt sycofhancy, explica o que deu errado

OpenAi revirá o chatgpt sycofhancy, explica o que deu errado

Participe de nossos boletins diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


O OpenAI reverteu uma atualização recente para o seu modelo GPT-4O usado como padrão no ChatGPT, depois de relatos generalizados de que o sistema se tornou excessivamente lisonjeiro e excessivamente agradável, até apoiando ilusões e idéias destrutivas.

A reversão ocorre em meio a agradecimentos internos de engenheiros do OpenAI e crescente preocupação entre especialistas em IA, ex -executivos e usuários sobre o risco do que muitos estão chamando de “Sycofhancy AI”.

Em um comunicado publicado em seu site na noite passada, em 29 de abril de 2025, o Openai disse que a atualização mais recente do GPT-4O tem como objetivo aprimorar a personalidade padrão do modelo para torná-lo mais intuitivo e eficaz em casos de uso variados.

No entanto, a atualização teve um efeito colateral não intencional: o ChatGPT começou a oferecer elogios acríticos a praticamente qualquer ideia do usuário, por mais impraticável, inapropriado ou até prejudicial.

Como a empresa explicou, o modelo havia sido otimizado usando o feedback do usuário-sinais de Thumbs-up e polegares-, mas a equipe de desenvolvimento colocou muita ênfase nos indicadores de curto prazo.

O OpenAI agora reconhece que não explica completamente como as interações e necessidades do usuário evoluem com o tempo, resultando em um chatbot que se inclinou muito para afirmar sem discernimento.

Exemplos despertaram preocupação

Em plataformas como Reddit e X (anteriormente Twitter), os usuários começaram a postar capturas de tela que ilustravam o problema.

Em um post do Reddit amplamente divulgado, um usuário contou como o ChatGPT descreveu uma ideia de negócio de mordaça – vendendo a merda “literal ‘em um bastão’ – como genial e sugeriu investir US $ 30.000 no empreendimento. A IA elogiou a idéia de “Arte da performance disfarçada de presente de mordaça” e “Gold viral”, destacando o quão acriticamente estava disposto a validar campos mesmo absurdos.

Outros exemplos foram mais preocupantes. Em um exemplo, citado pela VentureBeat, um usuário fingindo defender delírios paranóicos recebeu reforço do GPT-4O, que elogiou sua suposta clareza e auto-atrevida.

Outra conta mostrou o modelo que oferece o que um usuário descreveu como um “endosso aberto” de idéias relacionadas ao terrorismo.

As críticas aumentaram rapidamente. O ex -CEO interino da Openai, Emmett Shear, alertou que os modelos de ajuste para serem prazeros para pessoas podem resultar em comportamento perigoso, especialmente quando a honestidade é sacrificada por simpatia. Abraçando o CEO do FACE Clement Delangue repositou preocupações sobre os riscos de manipulação psicológica colocados pela IA que concorda reflexivamente com os usuários, independentemente do contexto.

Medidas de resposta e mitigação do OpenAI

O OpenAI tomou medidas rápidas revertendo a atualização e restaurando uma versão GPT-4O anterior conhecida por comportamentos mais equilibrados. No anúncio que o acompanha, a empresa detalhou uma abordagem multifacetada para a correção do curso. Isso inclui:

  • Refinando o treinamento e as estratégias imediatas para reduzir explicitamente as tendências parcofanticas.
  • Alinhamento do modelo de reforço com as especificações do modelo do OpenAI, particularmente em torno da transparência e honestidade.
  • Expandindo testes de pré-implantação e mecanismos de feedback direto do usuário.
  • Apresentando recursos de personalização mais granulares, incluindo a capacidade de ajustar os traços de personalidade em tempo real e selecionar entre várias personas padrão.

O funcionário técnico do OpenAI será postado no X destacando a edição central: o modelo foi treinado usando o feedback do usuário de curto prazo como um guia, o que inadvertidamente direcionou o chatbot para a lisonja.

O OpenAI agora planeja mudar para mecanismos de feedback que priorizam a satisfação e a confiança do usuário a longo prazo.

No entanto, alguns usuários reagiram com ceticismo e consternação às lições do OpenAI aprendidas e propostas de correções daqui para frente.

“Por favor, assuma mais responsabilidade por sua influência sobre milhões de pessoas reais”, escreveu o artista @Nearcyan no X.

Harlan Stewart, generalista de comunicações do Instituto de Pesquisa de Inteligência de Máquinas de Berkeley, Califórnia, postou em X um período de maior preocupação com a Sycofhancy AI, mesmo que esse modelo em particular tenha sido corrigido: “A palestra sobre a bajulação desta semana não é por causa de o GPT-4o ser um sycophant. É por causa de GPT-4o ser Muito, muito ruim Por ser um bajulador. A IA ainda não é capaz de sucofatia hábil e difícil de detectar, mas em breve será um dia. ”

Um sinal de alerta mais amplo para a indústria de IA

O episódio do GPT-4O reacendeu debates mais amplos em toda a indústria da IA ​​sobre como o ajuste da personalidade, o aprendizado de reforço e as métricas de engajamento podem levar a uma deriva comportamental não intencional.

Os críticos compararam o recente comportamento do modelo aos algoritmos de mídia social que, em busca de engajamento, otimizam para dependência e validação sobre a precisão e a saúde.

O Shear destacou esse risco em seu comentário, observando que os modelos de IA sintonizados por elogios se tornam “sugestões”, incapazes de discordar, mesmo quando o usuário se beneficiaria de uma perspectiva mais honesta.

Ele alertou ainda que esse problema não é exclusivo do OpenAI, apontando que a mesma dinâmica se aplica a outros grandes fornecedores de modelos, incluindo o copiloto da Microsoft.

Implicações para a empresa

Para os líderes corporativos que adotam a IA conversacional, o incidente de bajulação serve como um sinal claro: o comportamento do modelo é tão crítico quanto a precisão do modelo.

Um chatbot que lisonjeia os funcionários ou valida o raciocínio defeituoso pode representar riscos graves – desde decisões de negócios ruins e código desalinhado a problemas de conformidade e ameaças internas.

Os analistas do setor agora aconselham as empresas a exigir mais transparência dos fornecedores sobre como o ajuste da personalidade é conduzido, com que frequência isso muda e se pode ser revertido ou controlado em nível granular.

Os contratos de compras devem incluir disposições para auditoria, teste comportamental e controle em tempo real dos avisos do sistema. Os cientistas de dados são incentivados a monitorar não apenas as taxas de latência e alucinação, mas também métricas como “Drift de concordância”.

Muitas organizações também podem começar a mudar para alternativas de código aberto para que possam sediar e se sintonizar. Ao possuir os pesos do modelo e o processo de aprendizado de reforço, as empresas podem manter o controle total sobre como seus sistemas de IA se comportam-eliminando o risco de uma atualização empurrada de fornecedor transformar uma ferramenta crítica em um sim-homem digital da noite para o dia.

Para onde vai o alinhamento da IA ​​daqui? O que as empresas podem aprender e agir com esse incidente?

O OpenAI diz que continua comprometido em criar sistemas de IA que são úteis, respeitosos e alinhados com diversos valores de usuário-mas reconhece que uma personalidade de tamanho único não pode atender às necessidades de 500 milhões de usuários semanais.

A empresa espera que maiores opções de personalização e mais coleta de feedback democrata ajudem a adaptar o comportamento do ChatGPT com mais eficiência no futuro. O CEO Sam Altman também declarou anteriormente que a empresa planeja-nas próximas semanas e meses-lançar um modelo de idioma grande de código aberto de última geração (LLM) para competir com a série LLAMA da Meta’s Llama, Mistral, Cohere, Deepseek e a equipe Qwen da Alibaba.

Isso também permitiria que os usuários preocupados com uma empresa de provedores de modelos, como o OpenAI, atualizando seus modelos movidos à nuvem de maneiras indesejadas ou que tenham impactos deletérios nos usuários finais para implantar suas próprias variantes do modelo localmente ou em suas infraestruturas em nuvem e ajustá-las ou preservá-las com os traços e qualidades desejados, especialmente para casos de uso comercial.

Da mesma forma, para os usuários de IA corporativos e individuais preocupados com a bajulação de seus modelos, já um novo teste de referência para avaliar essa qualidade em diferentes modelos foi criado pelo desenvolvedor Tim Duffy. É chamado de “Syco-banco” e está disponível aqui.

Enquanto isso, a reação à bajulação oferece um conto de advertência para toda a indústria da IA: a confiança do usuário não é construída apenas por afirmação. Às vezes, a resposta mais útil é um “não” atencioso.

Mais informações reveladas no Reddit AMA do Openai

Em uma AMA do Reddit realizada poucas horas após a reversão, Joanne Jang, chefe de comportamento do modelo da Openai, ofereceu uma janela rara para o pensamento interno por trás do design de ChatGPT e os desafios que sua equipe enfrenta em ajustar grandes modelos de personalidade e confiança.

Jang confirmou que o recente comportamento bajuloso não era intencional, mas o resultado de como mudanças sutis no treinamento e reforço podem entrar em efeitos exagerados.

Ela explicou que comportamentos como elogios excessivos ou lisonja podem emergir de tentativas de melhorar a usabilidade-especialmente se a equipe sobrecarregar o feedback de curto prazo, como respostas polegares. Jang reconheceu isso como um erro.

“Não assamos nuances suficientes”, disse ela, observando que os esforços iniciais para reduzir as alucinações levaram a modelos que protegem compulsivamente, minando clareza.

Ela acrescentou que, embora o sistema solicite-aquelas instruções nos bastidores que orientam o comportamento de um modelo-podem moldar o tom e a aderência de políticas, eles são uma ferramenta muito franca para direcionar com segurança comportamentos sutis, como discordar graciosamente.

Em vez disso, o OpenAI está se apoiando mais nas mudanças feitas durante o treinamento do modelo para o comportamento do arame, como honestidade, pensamento crítico e discordância diária.

Um dos temas centrais da AMA foi a dificuldade de encontrar um equilíbrio entre útil e honestidade. Jang disse que espera permitir que todos os usuários moldem o Chatgpt em uma personalidade que lhes convém – incluindo personas que oferecem feedback crítico e recuperem idéias ruins. Mas até que essa visão seja realizada, a empresa está trabalhando em direção a uma inadimplência mais palatável: algo amplamente acessível, mas capaz de evoluir através da personalização.

Jang também reconheceu o debate interno sobre quanta personalidade é demais. Alguns usuários, disse ela, apreciaram a personalidade extrovertida e rica em emoji da recente variante GPT-4O, vendo-a como criativa e até inspiradora-principalmente em casos de uso, como brainstorming e design. Mas outros o acharam desanimado ou até digno de nota. Em vez de aplicar um único tom, Jang sugeriu que o OpenAI provavelmente introduzirá um conjunto de predefinições de personalidade que os usuários podem escolher e ajustar em tempo real, sem precisar mergulhar em instruções personalizadas ou edição prompt de sistema.

Na questão específica da bajulação, ela reiterou que o OpenAI está construindo novas métricas para medi -la com mais granularidade e objetividade. Nem todos os elogios são iguais, observou ela – e modelos futuros precisarão distinguir entre afirmação de apoio e acordo acrítico.

“Nem todo mundo quer um chatbot que concorda com eles”, disse Jang. “Mas eles querem um que os entenda.”



Fonte ==> Cyberseo

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *