
Marina Ramos / Câmara dos Deputados Motta: “É fundamental o diálogo com o governo” O

Pedro Menezes/Governo de Pernambuco Deputada quer discutir como assegurar continuidade e utilização longo do tempo

Vinicius Loures/Câmara dos Deputados Reunião da Comissão Especial sobre o Fim da Escala 6×1 (PEC

Kayo Magalhães / Câmara dos Deputados Laura Carneiro, relatora da proposta A Comissão de Previdência,

Considerado uma das principais vitrines do artesanato nacional, o Salão reúne expositores de diversas regiões

Em abril, os funcionários da Meta ficaram sabendo que 8 mil deles seriam cortados da

Durante meses, os principais benchmarks de codificação de IA contaram aos compradores corporativos uma história reconfortante, mas enganosa: os principais modelos são praticamente iguais. A família GPT-5 da OpenAI, Claude Opus da Anthropic e Gemini Pro do Google se agruparam em uma faixa estreita na tabela de classificação SWE-Bench Pro da Scale AI, tornando quase impossível para os líderes de engenharia determinar qual agente realmente terá melhor desempenho dentro de suas bases de código. Na segunda-feira, uma startup chamada Datacurve lançou um benchmark que diz destruir essa ilusão. DeepSWE, uma avaliação de 113 tarefas abrangendo 91 repositórios de código aberto e cinco linguagens de programação, produz uma distribuição dramaticamente maior entre os mesmos modelos de fronteira – e coroa o GPT-5.5 da OpenAI como o líder absoluto com 70%, dezesseis pontos à frente de seu concorrente mais próximo. "Nas tabelas de classificação públicas, os principais modelos muitas vezes parecem relativamente próximos em termos de capacidade," escreveu a coautora do Datacurve, Serena Ge, no X. "DeepSWE mostra onde eles realmente divergem, refletindo a experiência realista dos desenvolvedores em seu trabalho diário." O benchmark também faz uma crítica contundente à infraestrutura de avaliação na qual a indústria de IA depende para medir o progresso: a auditoria da Datacurve descobriu que os verificadores do SWE-Bench Pro – os avaliadores automatizados que determinam se um agente resolveu uma tarefa – emitiram veredictos incorretos de aprovação/reprovação em cerca de um terço dos testes que revisou. Se essa descoberta se confirmar, terá implicações abrangentes. Equipes de compras empresariais, capitalistas de risco e departamentos de marketing de laboratórios de IA dependem fortemente de pontuações de benchmark para tomar decisões multimilionárias. Uma taxa de erro de 32% no benchmark de codificação mais citado sugere que a indústria pode ter navegado com uma bússola quebrada. Por que o benchmark de codificação de IA mais popular pode ser classificado em uma curva Para entender o que a Datacurve está afirmando, é útil entender como funcionam os benchmarks de codificação – e como eles podem dar errado. O paradigma dominante, iniciado pela família SWE-Bench mantida pela Scale AI e por pesquisadores acadêmicos, constrói tarefas minerando commits reais do GitHub. O processo extrai uma correção de bug ou adição de recurso do histórico de um repositório, reverte o código para o estado pré-correção e, em seguida, solicita a um agente de IA que reproduza a alteração. O conjunto de testes do commit original serve como verificador: se o patch do agente passar nos mesmos testes, ele recebe crédito. Esta abordagem tem uma simplicidade elegante, mas a Datacurve argumenta que introduz três fraquezas sistémicas. Primeiro, contaminação. Como as tarefas são extraídas do histórico público do GitHub, a declaração do problema, a discussão e, muitas vezes, a solução exata já estão presentes nos dados de treinamento dos modelos de fronteira. "A família SWE-Bench elimina problemas e PRs existentes do GitHub, o que cria dois problemas: memorização (os modelos já viram a solução) e trivialidade (a maioria das tarefas são pequenas)," Ge escreveu. Em segundo lugar, escopo. As tarefas do SWE-Bench Pro requerem, em média, apenas 120 linhas de código adicionadas em 5 arquivos. As soluções de referência do DeepSWE têm em média 668 linhas adicionadas em 7 arquivos – aproximadamente 5,5 vezes mais código. No entanto, os prompts do DeepSWE são na verdade mais curtos, com média de 2.158 caracteres contra 4.614 do SWE-Bench Pro. Em outras palavras, o DeepSWE dá menos instruções ao agente, mas espera muito mais resultados, o que reflete mais de perto como um desenvolvedor humano pode realmente delegar trabalho a um assistente de IA. Terceiro – e mais prejudicial – confiabilidade do verificador. A Datacurve selecionou 30 tarefas aleatoriamente do DeepSWE e do SWE-Bench Pro, executou três implementações em 10 configurações de modelo de fronteira e, em seguida, implantou um juiz baseado em LLM para avaliar de forma independente se o patch de cada agente realmente resolveu o problema. Os verificadores do SWE-Bench Pro aceitaram implementações erradas 8,5% das vezes e rejeitaram implementações corretas 24% das vezes. Os verificadores do DeepSWE registraram 0,3% e 1,1%, respectivamente. O problema do falso negativo é especialmente insidioso porque pune soluções criativas. Em um caso documentado, a solicitação pull padrão ouro para uma tarefa SWE-Bench Pro refatorou uma função auxiliar privada. Um agente que resolveu corretamente a tarefa incorporando a mesma lógica — uma escolha de engenharia perfeitamente válida — falhou porque o conjunto de testes tentou importar um símbolo que só existia na implementação específica do autor original. O GPT-5.5 da OpenAI domina o novo benchmark enquanto Claude e Gemini tropeçam Os resultados principais do DeepSWE reordenam a hierarquia familiar de maneiras que deveriam ser importantes para todas as equipes de engenharia que avaliam ferramentas de codificação de IA. No SWE-Bench Pro, os modelos da OpenAI, Anthropic e Google negociaram a liderança dentro de uma faixa de 30 pontos. DeepSWE estende esse intervalo para 70 pontos. GPT-5.5 lidera com 70%, seguido por GPT-5.4 com 56% e Claude Opus 4.7 com 54%. A partir daí, a queda é acentuada: Claude Sonnet 4.6 chega a 32%, Gemini 3.5 Flash a 28%, GPT-5.4-mini e Kimi K2.6 empatados a 24%, e depois uma longa cauda de modelos adolescentes e de um dígito. Claude Haiku 4.5, que obteve pontuação de 39% no SWE-Bench Pro, cai para zero no DeepSWE – sugerindo que alguns modelos de nível intermediário tiveram desempenho significativamente superior em benchmarks mais fáceis e potencialmente contaminados. O GPT-5.5 não apenas obtém a pontuação mais alta, mas também de forma eficiente. O modelo atinge sua taxa de aprovação de 70% com um custo médio de US$ 5,80 por teste, um tempo médio de funcionamento de 20 minutos e uma mediana de 47.000 tokens de saída. GPT-5.4 surge como talvez o melhor valor geral, com US$ 3,30 por teste, com uma pontuação de 56%. Enquanto isso, Claude Opus 4.7 custa significativamente mais por execução, e os tokens de saída, a duração do relógio e o custo em dólares por teste variam em uma ordem de magnitude

Nas últimas duas décadas, a dívida técnica significou arquitetura desatualizada, código confuso e documentação mal conservada. Essa definição já não é suficiente na

Há uma categoria de incidente de produção que as equipes de engenharia ainda não estão rastreando — porque ela não se ajusta a

Quando os fluxos de trabalho de agente falham, os desenvolvedores geralmente presumem que o problema está nas habilidades de raciocínio do modelo subjacente.

Em 19 de maio, 633 versões maliciosas de pacotes npm passaram na verificação de proveniência do Sigstore. Eles foram apagados pelo sistema porque

Empresa brasileira opera o primeiro condomínio residencial do país com entregas autônomas financiadas pelos moradores e amplia atuação em restaurantes, varejo e hospitalidade

FLEX aprimora o design de fachadas, apoia o trabalho de mídia no varejo e fornece insights sobre perdas A Sensormatic Solutions, portfólio global

A Dun & Bradstreet passou mais de 180 anos construindo um banco de dados comercial abrangente. Seu Gráfico Comercial, que abrange 642 milhões

Resolve AI, the production-operations startup backed by Greylock and Lightspeed Venture Partners, today announced a sweeping expansion of its platform that introduces always-on

Com menor exposição solar e clima mais ameno, os meses frios favorecem a recuperação da pele e potencializam os resultados dos procedimentos a

O Spirit, no Fairmont Copacabana, recebeu pela segunda vez consecutiva o prêmio anual da Associação dos Embaixadores de Turismo do Rio de Janeiro,

Durante muito tempo, os domingos em São Paulo foram vistos apenas como uma transição silenciosa entre o fim de semana e o início

A história da coquetelaria acompanha a própria evolução da vida social moderna. Os primeiros coquetéis surgiram como misturas simples entre destilados, ervas, especiarias

O empresário Otacilio Ramalho, presidente do OR Banker, participou do tradicional evento realizado no JBJ Ranch, em Goiás, onde aconteceu o maior leilão

A discussão sobre os impactos da Inteligência Artificial (IA) na educação, na produção do conhecimento e na sociedade ganhou destaque em Goiás com

Ana Lopes recebe reconhecimento durante participação na Confraria dos Palcos, ao lado de Bruna Grah e Fernando Freitas, em evento voltado à comunicação

O Nações Mall aposta em experiência, permanência e convivência como pilares da nova geração de centros comerciais no Brasil.

Em uma era marcada por ansiedade, excesso de informação e desgaste emocional, cresce o número de pessoas em busca de respostas mais profundas
Após a Take-Two cravar o lançamento de GTA 6 para o dia 19 de novembro no último relatório fiscal, divulgado em 21 de

Considerado uma das principais vitrines do artesanato nacional, o Salão reúne expositores de diversas regiões do Brasil e conecta artesãos a compradores e

Pedro Menezes/Governo de Pernambuco Deputada quer discutir como assegurar continuidade e utilização longo do tempo A Comissão de Comunicação da Câmara dos Deputados
© 2025 Todos os direitos reservados a Handelsblatt