Player Live
AO VIVO
28 de maio de 2026
DeepSWE explode a tabela de classificação de codificação de IA, coroa GPT-5.5 e encontra Claude Opus explorando uma brecha de benchmark

DeepSWE explode a tabela de classificação de codificação de IA, coroa GPT-5.5 e encontra Claude Opus explorando uma brecha de benchmark

Durante meses, os principais benchmarks de codificação de IA contaram aos compradores corporativos uma história reconfortante, mas enganosa: os principais modelos são praticamente iguais. A família GPT-5 da OpenAI, Claude Opus da Anthropic e Gemini Pro do Google se agruparam em uma faixa estreita na tabela de classificação SWE-Bench Pro da Scale AI, tornando quase impossível para os líderes de engenharia determinar qual agente realmente terá melhor desempenho dentro de suas bases de código. Na segunda-feira, uma startup chamada Datacurve lançou um benchmark que diz destruir essa ilusão. DeepSWE, uma avaliação de 113 tarefas abrangendo 91 repositórios de código aberto e cinco linguagens de programação, produz uma distribuição dramaticamente maior entre os mesmos modelos de fronteira – e coroa o GPT-5.5 da OpenAI como o líder absoluto com 70%, dezesseis pontos à frente de seu concorrente mais próximo. "Nas tabelas de classificação públicas, os principais modelos muitas vezes parecem relativamente próximos em termos de capacidade," escreveu a coautora do Datacurve, Serena Ge, no X. "DeepSWE mostra onde eles realmente divergem, refletindo a experiência realista dos desenvolvedores em seu trabalho diário." O benchmark também faz uma crítica contundente à infraestrutura de avaliação na qual a indústria de IA depende para medir o progresso: a auditoria da Datacurve descobriu que os verificadores do SWE-Bench Pro – os avaliadores automatizados que determinam se um agente resolveu uma tarefa – emitiram veredictos incorretos de aprovação/reprovação em cerca de um terço dos testes que revisou. Se essa descoberta se confirmar, terá implicações abrangentes. Equipes de compras empresariais, capitalistas de risco e departamentos de marketing de laboratórios de IA dependem fortemente de pontuações de benchmark para tomar decisões multimilionárias. Uma taxa de erro de 32% no benchmark de codificação mais citado sugere que a indústria pode ter navegado com uma bússola quebrada. Por que o benchmark de codificação de IA mais popular pode ser classificado em uma curva Para entender o que a Datacurve está afirmando, é útil entender como funcionam os benchmarks de codificação – e como eles podem dar errado. O paradigma dominante, iniciado pela família SWE-Bench mantida pela Scale AI e por pesquisadores acadêmicos, constrói tarefas minerando commits reais do GitHub. O processo extrai uma correção de bug ou adição de recurso do histórico de um repositório, reverte o código para o estado pré-correção e, em seguida, solicita a um agente de IA que reproduza a alteração. O conjunto de testes do commit original serve como verificador: se o patch do agente passar nos mesmos testes, ele recebe crédito. Esta abordagem tem uma simplicidade elegante, mas a Datacurve argumenta que introduz três fraquezas sistémicas. Primeiro, contaminação. Como as tarefas são extraídas do histórico público do GitHub, a declaração do problema, a discussão e, muitas vezes, a solução exata já estão presentes nos dados de treinamento dos modelos de fronteira. "A família SWE-Bench elimina problemas e PRs existentes do GitHub, o que cria dois problemas: memorização (os modelos já viram a solução) e trivialidade (a maioria das tarefas são pequenas)," Ge escreveu. Em segundo lugar, escopo. As tarefas do SWE-Bench Pro requerem, em média, apenas 120 linhas de código adicionadas em 5 arquivos. As soluções de referência do DeepSWE têm em média 668 linhas adicionadas em 7 arquivos – aproximadamente 5,5 vezes mais código. No entanto, os prompts do DeepSWE são na verdade mais curtos, com média de 2.158 caracteres contra 4.614 do SWE-Bench Pro. Em outras palavras, o DeepSWE dá menos instruções ao agente, mas espera muito mais resultados, o que reflete mais de perto como um desenvolvedor humano pode realmente delegar trabalho a um assistente de IA. Terceiro – e mais prejudicial – confiabilidade do verificador. A Datacurve selecionou 30 tarefas aleatoriamente do DeepSWE e do SWE-Bench Pro, executou três implementações em 10 configurações de modelo de fronteira e, em seguida, implantou um juiz baseado em LLM para avaliar de forma independente se o patch de cada agente realmente resolveu o problema. Os verificadores do SWE-Bench Pro aceitaram implementações erradas 8,5% das vezes e rejeitaram implementações corretas 24% das vezes. Os verificadores do DeepSWE registraram 0,3% e 1,1%, respectivamente. O problema do falso negativo é especialmente insidioso porque pune soluções criativas. Em um caso documentado, a solicitação pull padrão ouro para uma tarefa SWE-Bench Pro refatorou uma função auxiliar privada. Um agente que resolveu corretamente a tarefa incorporando a mesma lógica — uma escolha de engenharia perfeitamente válida — falhou porque o conjunto de testes tentou importar um símbolo que só existia na implementação específica do autor original. O GPT-5.5 da OpenAI domina o novo benchmark enquanto Claude e Gemini tropeçam Os resultados principais do DeepSWE reordenam a hierarquia familiar de maneiras que deveriam ser importantes para todas as equipes de engenharia que avaliam ferramentas de codificação de IA. No SWE-Bench Pro, os modelos da OpenAI, Anthropic e Google negociaram a liderança dentro de uma faixa de 30 pontos. DeepSWE estende esse intervalo para 70 pontos. GPT-5.5 lidera com 70%, seguido por GPT-5.4 com 56% e Claude Opus 4.7 com 54%. A partir daí, a queda é acentuada: Claude Sonnet 4.6 chega a 32%, Gemini 3.5 Flash a 28%, GPT-5.4-mini e Kimi K2.6 empatados a 24%, e depois uma longa cauda de modelos adolescentes e de um dígito. Claude Haiku 4.5, que obteve pontuação de 39% no SWE-Bench Pro, cai para zero no DeepSWE – sugerindo que alguns modelos de nível intermediário tiveram desempenho significativamente superior em benchmarks mais fáceis e potencialmente contaminados. O GPT-5.5 não apenas obtém a pontuação mais alta, mas também de forma eficiente. O modelo atinge sua taxa de aprovação de 70% com um custo médio de US$ 5,80 por teste, um tempo médio de funcionamento de 20 minutos e uma mediana de 47.000 tokens de saída. GPT-5.4 surge como talvez o melhor valor geral, com US$ 3,30 por teste, com uma pontuação de 56%. Enquanto isso, Claude Opus 4.7 custa significativamente mais por execução, e os tokens de saída, a duração do relógio e o custo em dólares por teste variam em uma ordem de magnitude

Leia Mais »