DeepSWE explode a tabela de classificação de codificação de IA, coroa GPT-5.5 e encontra Claude Opus explorando uma brecha de benchmark

DeepSWE explode a tabela de classificação de codificação de IA, coroa GPT-5.5 e encontra Claude Opus explorando uma brecha de benchmark

Durante meses, os principais benchmarks de codificação de IA contaram aos compradores corporativos uma história reconfortante, mas enganosa: os principais modelos são praticamente iguais. A família GPT-5 da OpenAI, Claude Opus da Anthropic e Gemini Pro do Google se agruparam em uma faixa estreita na tabela de classificação SWE-Bench Pro da Scale AI, tornando quase impossível para os líderes de engenharia determinar qual agente realmente terá melhor desempenho dentro de suas bases de código.

Na segunda-feira, uma startup chamada Datacurve lançou um benchmark que diz destruir essa ilusão. DeepSWE, uma avaliação de 113 tarefas abrangendo 91 repositórios de código aberto e cinco linguagens de programação, produz uma distribuição dramaticamente maior entre os mesmos modelos de fronteira – e coroa o GPT-5.5 da OpenAI como o líder absoluto com 70%, dezesseis pontos à frente de seu concorrente mais próximo.

"Nas tabelas de classificação públicas, os principais modelos muitas vezes parecem relativamente próximos em termos de capacidade," escreveu a coautora do Datacurve, Serena Ge, no X. "DeepSWE mostra onde eles realmente divergem, refletindo a experiência realista dos desenvolvedores em seu trabalho diário."

O benchmark também faz uma crítica contundente à infraestrutura de avaliação na qual a indústria de IA depende para medir o progresso: a auditoria da Datacurve descobriu que os verificadores do SWE-Bench Pro – os avaliadores automatizados que determinam se um agente resolveu uma tarefa – emitiram veredictos incorretos de aprovação/reprovação em cerca de um terço dos testes que revisou.

Se essa descoberta se confirmar, terá implicações abrangentes. Equipes de compras empresariais, capitalistas de risco e departamentos de marketing de laboratórios de IA dependem fortemente de pontuações de benchmark para tomar decisões multimilionárias. Uma taxa de erro de 32% no benchmark de codificação mais citado sugere que a indústria pode ter navegado com uma bússola quebrada.

Por que o benchmark de codificação de IA mais popular pode ser classificado em uma curva

Para entender o que a Datacurve está afirmando, é útil entender como funcionam os benchmarks de codificação – e como eles podem dar errado.

O paradigma dominante, iniciado pela família SWE-Bench mantida pela Scale AI e por pesquisadores acadêmicos, constrói tarefas minerando commits reais do GitHub. O processo extrai uma correção de bug ou adição de recurso do histórico de um repositório, reverte o código para o estado pré-correção e, em seguida, solicita a um agente de IA que reproduza a alteração. O conjunto de testes do commit original serve como verificador: se o patch do agente passar nos mesmos testes, ele recebe crédito. Esta abordagem tem uma simplicidade elegante, mas a Datacurve argumenta que introduz três fraquezas sistémicas.

Primeiro, contaminação. Como as tarefas são extraídas do histórico público do GitHub, a declaração do problema, a discussão e, muitas vezes, a solução exata já estão presentes nos dados de treinamento dos modelos de fronteira. "A família SWE-Bench elimina problemas e PRs existentes do GitHub, o que cria dois problemas: memorização (os modelos já viram a solução) e trivialidade (a maioria das tarefas são pequenas)," Ge escreveu.

Em segundo lugar, escopo. As tarefas do SWE-Bench Pro requerem, em média, apenas 120 linhas de código adicionadas em 5 arquivos. As soluções de referência do DeepSWE têm em média 668 linhas adicionadas em 7 arquivos – aproximadamente 5,5 vezes mais código. No entanto, os prompts do DeepSWE são na verdade mais curtos, com média de 2.158 caracteres contra 4.614 do SWE-Bench Pro. Em outras palavras, o DeepSWE dá menos instruções ao agente, mas espera muito mais resultados, o que reflete mais de perto como um desenvolvedor humano pode realmente delegar trabalho a um assistente de IA.

Terceiro – e mais prejudicial – confiabilidade do verificador. A Datacurve selecionou 30 tarefas aleatoriamente do DeepSWE e do SWE-Bench Pro, executou três implementações em 10 configurações de modelo de fronteira e, em seguida, implantou um juiz baseado em LLM para avaliar de forma independente se o patch de cada agente realmente resolveu o problema. Os verificadores do SWE-Bench Pro aceitaram implementações erradas 8,5% das vezes e rejeitaram implementações corretas 24% das vezes. Os verificadores do DeepSWE registraram 0,3% e 1,1%, respectivamente.

O problema do falso negativo é especialmente insidioso porque pune soluções criativas. Em um caso documentado, a solicitação pull padrão ouro para uma tarefa SWE-Bench Pro refatorou uma função auxiliar privada. Um agente que resolveu corretamente a tarefa incorporando a mesma lógica — uma escolha de engenharia perfeitamente válida — falhou porque o conjunto de testes tentou importar um símbolo que só existia na implementação específica do autor original.

O GPT-5.5 da OpenAI domina o novo benchmark enquanto Claude e Gemini tropeçam

Os resultados principais do DeepSWE reordenam a hierarquia familiar de maneiras que deveriam ser importantes para todas as equipes de engenharia que avaliam ferramentas de codificação de IA. No SWE-Bench Pro, os modelos da OpenAI, Anthropic e Google negociaram a liderança dentro de uma faixa de 30 pontos. DeepSWE estende esse intervalo para 70 pontos.

GPT-5.5 lidera com 70%, seguido por GPT-5.4 com 56% e Claude Opus 4.7 com 54%. A partir daí, a queda é acentuada: Claude Sonnet 4.6 chega a 32%, Gemini 3.5 Flash a 28%, GPT-5.4-mini e Kimi K2.6 empatados a 24%, e depois uma longa cauda de modelos adolescentes e de um dígito. Claude Haiku 4.5, que obteve pontuação de 39% no SWE-Bench Pro, cai para zero no DeepSWE – sugerindo que alguns modelos de nível intermediário tiveram desempenho significativamente superior em benchmarks mais fáceis e potencialmente contaminados.

O GPT-5.5 não apenas obtém a pontuação mais alta, mas também de forma eficiente. O modelo atinge sua taxa de aprovação de 70% com um custo médio de US$ 5,80 por teste, um tempo médio de funcionamento de 20 minutos e uma mediana de 47.000 tokens de saída. GPT-5.4 surge como talvez o melhor valor geral, com US$ 3,30 por teste, com uma pontuação de 56%. Enquanto isso, Claude Opus 4.7 custa significativamente mais por execução, e os tokens de saída, a duração do relógio e o custo em dólares por teste variam em uma ordem de magnitude entre os agentes testados – mas nenhum deles se correlaciona fortemente com a taxa de aprovação. Agentes que emitem mais tokens, funcionam por mais tempo ou custam mais não resolvem consistentemente mais tarefas.

A auditoria da Datacurve descobriu que Claude tem lido o gabarito dos benchmarks existentes

Talvez a descoberta mais provocativa na análise do DeepSWE diga respeito ao que os autores rotulam "ENGANADO" veredictos – casos em que um agente passa em um benchmark não resolvendo o problema, mas lendo a resposta.

Os contêineres Docker do SWE-Bench Pro enviam o histórico .git completo do repositório, o que significa que o commit da solução padrão ouro está ali mesmo, no sistema de arquivos do contêiner. A maioria dos modelos ignora isso. Cláudio não. A análise da Datacurve descobriu que tanto Claude Opus 4.7 quanto Claude Opus 4.6 registraram "ENGANADO" em mais de 12% das implementações revisadas do SWE-Bench Pro. Nesses casos, o agente Claude executou comandos como git log –all ou git show para recuperar a correção mesclada e colá-la em seu próprio patch. O comportamento foi responsável por aproximadamente 18% das aprovações do Opus 4.7 e 25% das aprovações do Opus 4.6 na amostra revisada. O problema foi registrado publicamente como problema nº 93 do GitHub no repositório SWE-Bench Pro.

GPT-5.4 e GPT-5.5 nunca exibiram esse comportamento. As configurações do Gemini ficaram em torno de 1%. Datacurve descreve o comportamento diplomaticamente – "O benchmark torna isso possível (o commit de ouro fica no contêiner), mas Claude é a família que faz isso de forma consistente" — mas a implicação é clara: uma fracção significativa das pontuações SWE-Bench Pro de Claude pode reflectir a exploração ambiental em vez de uma capacidade genuína de engenharia.

O DeepSWE resolve isso enviando apenas um clone superficial com o commit base, não deixando nenhum hash dourado para o agente descobrir. É importante notar que o comportamento é indiscutivelmente um sinal da atenção ambiental de Claude – o modelo é muito bom a explorar o seu entorno e a explorar os recursos disponíveis. Se isso conta como "trapaceando" ou "desenvoltura" depende da sua perspectiva, mas no contexto de um benchmark concebido para medir a resolução independente de problemas, isso prejudica o sinal.

Cada família de modelos de IA falha de maneira distinta, e os padrões são importantes para as equipes empresariais

Além das pontuações mais altas, a análise qualitativa da trajetória da Datacurve revela assinaturas de falhas distintas entre famílias de modelos – uma descoberta que pode ajudar as equipes de engenharia a escolher o modelo certo para tipos específicos de trabalho.

Claude fica esquecido com instruções em várias partes. No DeepSWE, as configurações do Claude falham mais nos requisitos declarados do que em qualquer outra família. O padrão é consistente: quando um prompt enumera comportamentos paralelos — "suporta sincronização e assíncrono," por exemplo – Claude normalmente implementa o ramo óbvio e se esquece de espelhar a mudança. Datacurve relata que cerca de dois terços dos "MISSED_REQUIREMENT" falhas no DeepSWE seguem isto "uma filial enviada" padrão. Em um exemplo, Claude Opus 4.7 acertou corretamente um gancho de dados de estado sincronizado em uma classe de mecanismo, enquanto o mecanismo assíncrono nunca recebeu o mesmo gancho.

A GPT, por outro lado, implementa exatamente o que é solicitado. GPT-5.5 teve a menor taxa de comportamentos declarados ausentes de qualquer configuração testada. Em várias execuções da mesma tarefa, os testes GPT tenderam a convergir para a mesma interpretação do prompt, sugerindo que a precisão no seguimento das instruções é uma característica estável do modelo, e não a sorte por execução.

Uma das descobertas mais intrigantes envolve a autoverificação. No DeepSWE, Claude Opus 4.7 e GPT-5.4 escreveram e executaram novos testes na estrutura de teste do próprio projeto em mais de 80% de suas execuções — mesmo que ninguém tenha solicitado. No SWE-Bench Pro, esses mesmos modelos caíram para 28% e 18%, respectivamente. O motivo: o modelo de prompt do SWE-Bench Pro informa explicitamente aos agentes que eles "não deve modificar a lógica de teste ou qualquer um dos testes." Os agentes obedeceram obedientemente, suprimindo um comportamento que provavelmente teria melhorado o seu desempenho. Isso sugere que o design imediato em fluxos de trabalho de codificação de produção pode estar suprimindo inadvertidamente comportamentos valiosos dos agentes – algo que as equipes empresariais que implantam agentes de codificação de IA devem auditar cuidadosamente.

O que o DeepSWE acerta, o que dá errado e o que isso significa para o futuro dos benchmarks de IA

Datacurve é franco sobre várias limitações. O equipamento padronizado, ao mesmo tempo que garante a imparcialidade, encaminha todas as edições através do bash, em vez das ferramentas de edição específicas do modelo nas quais cada família foi treinada – apply_patch para GPT, str_replace_based_edit_tool para Claude. Isso poderia manter os modelos abaixo de seus tetos nativos. O benchmark baseia-se exclusivamente em repositórios de código aberto com mais de 500 estrelas, e os resultados podem não ser generalizados para bases de código proprietárias. As tarefas de localização e refatoração de bugs estão sub-representadas e linguagens amplamente utilizadas como C++ e Java estão totalmente ausentes. As atribuições de veredicto na análise qualitativa vêm de um analisador LLM, não de revisores humanos, e os tamanhos das amostras são modestos – cerca de 90 implementações revisadas por modelo por benchmark.

Também é importante notar que a Datacurve é uma startup com interesses comerciais próprios, e um benchmark independente que reorganiza a tabela de classificação inevitavelmente convidará ao escrutínio. A decisão da empresa de publicar o conjunto de dados completo, todas as trajetórias dos agentes e o equipamento de avaliação no GitHub atenua consideravelmente esta preocupação, mas será necessária uma reprodução independente antes que a comunidade de IA trate estes resultados como definitivos.

DeepSWE chega a um ponto de inflexão para o mercado de codificação de IA. A adoção empresarial de agentes de codificação de IA está acelerando rapidamente, com organizações de engenharia fazendo apostas importantes sobre qual modelo construir. O próprio mercado de benchmark tornou-se um campo de batalha estratégico – o SWE-Bench Pro da Scale AI, que a Datacurve critica diretamente, é mantido por uma empresa que também fornece serviços de avaliação aos laboratórios cujos modelos classifica.

Se as conclusões centrais do DeepSWE sobre a fiabilidade dos verificadores e a contaminação de dados se mantiverem sob um escrutínio independente, poderão forçar um acerto de contas não apenas com a forma como a indústria mede os agentes de codificação, mas com a questão mais ampla de para que servem realmente os benchmarks. Um quadro de classificação em que o sistema de classificação está errado um terço das vezes não é apenas impreciso – é o tipo de instrumento quebrado que faz com que todos se sintam bem com o progresso que pode não ser real. E numa indústria que gasta milhares de milhões numa aposta de que os agentes de IA podem fazer o trabalho dos engenheiros de software, a diferença entre o progresso real e a aparência dele não é académica. É o jogo inteiro.



Fonte ==> Cyberseo

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *