Tecnologia

Claude Opus 4.5 da Anthropic está aqui: IA mais barata, bate-papos infinitos e habilidades de codificação que superam os humanos

Editor Handelsblatt

A Anthropic lançou seu modelo de inteligência artificial mais capaz na segunda-feira, reduzindo os preços em cerca de dois terços e ao mesmo tempo reivindicando desempenho de última geração em tarefas de engenharia de software – um movimento estratégico que intensifica a competição da startup de IA com os rivais endinheirados OpenAI e Google.

O novo modelo, Claude Opus 4.5, obteve pontuação mais alta na avaliação de engenharia interna mais desafiadora da Anthropic do que qualquer candidato a emprego humano na história da empresa, de acordo com materiais revisados pela VentureBeat. O resultado sublinha tanto o rápido avanço das capacidades dos sistemas de IA como as crescentes questões sobre como a tecnologia irá remodelar as profissões de colarinho branco.

A empresa apoiada pela Amazon está fixando o preço de Claude Opus 4.5 em US$ 5 por milhão de tokens de entrada e US$ 25 por milhão de tokens de saída – uma redução dramática em relação às taxas de US$ 15 e US$ 75 de seu antecessor, Claude Opus 4.1, lançado no início deste ano. A mudança torna os recursos de IA de ponta acessíveis a um grupo mais amplo de desenvolvedores e empresas, ao mesmo tempo que pressiona os concorrentes para que correspondam ao desempenho e aos preços.

"Queremos ter certeza de que isso realmente funciona para as pessoas que desejam trabalhar com esses modelos," disse Alex Albert, chefe de relações com desenvolvedores da Anthropic, em entrevista exclusiva ao VentureBeat. "Esse é realmente o nosso foco: como podemos permitir que Claude seja melhor em ajudá-lo a fazer coisas que você não necessariamente deseja fazer em seu trabalho?"

O anúncio ocorre no momento em que a Antrópica corre para manter sua posição em um campo cada vez mais concorrido. A OpenAI lançou recentemente o GPT-5.1 e um modelo de codificação especializado chamado Codex Max que pode funcionar de forma autônoma por longos períodos. O Google revelou o Gemini 3 na semana passada, suscitando preocupações até mesmo da OpenAI sobre o progresso do gigante das buscas, de acordo com um relatório recente da The Information.

Opus 4.5 demonstra melhor julgamento em tarefas do mundo real, dizem os desenvolvedores

Os testes internos da Anthropic revelaram o que a empresa descreve como um salto qualitativo nas capacidades de raciocínio do Claude Opus 4.5. O modelo alcançou 80,9% de precisão no SWE-bench Verified, um benchmark que mede tarefas de engenharia de software do mundo real, superando o GPT-5.1-Codex-Max da OpenAI (77,9%), o próprio Sonnet 4.5 da Anthropic (77,2%) e o Gemini 3 Pro do Google (76,2%), de acordo com os dados da empresa. O resultado marca um avanço notável em relação ao atual modelo de última geração da OpenAI, lançado apenas cinco dias antes.

Mas os benchmarks técnicos contam apenas parte da história. Albert disse que os testadores de funcionários relataram consistentemente que o modelo demonstra melhor julgamento e intuição em diversas tarefas – uma mudança que ele descreveu como o modelo que desenvolve uma noção do que é importante em contextos do mundo real.

"O modelo meio que entende," Alberto disse. "Simplesmente desenvolveu esse tipo de intuição e julgamento sobre muitas coisas do mundo real que parece qualitativamente um grande salto em relação aos modelos anteriores."

Ele apontou seu próprio fluxo de trabalho como exemplo. Anteriormente, disse Albert, ele pedia aos modelos de IA para coletar informações, mas hesitava em confiar em sua síntese ou priorização. Com o Opus 4.5, ele delega tarefas mais completas, conectando-as ao Slack e a documentos internos para produzir resumos coerentes que correspondam às suas prioridades.

Opus 4.5 supera todos os candidatos humanos no teste de engenharia mais difícil da empresa

O desempenho do modelo na avaliação interna de engenharia da Anthropic é um marco notável. O exame para levar para casa, projetado para possíveis candidatos a engenharia de desempenho, tem como objetivo avaliar a capacidade técnica e o julgamento sob pressão de tempo dentro de um limite prescrito de duas horas.

Usando uma técnica chamada computação paralela em tempo de teste – que agrega múltiplas tentativas do modelo e seleciona o melhor resultado – o Opus 4.5 obteve pontuação mais alta do que qualquer candidato humano que tenha feito o teste, de acordo com a empresa. Sem limite de tempo, o modelo correspondeu ao desempenho do melhor candidato humano de todos os tempos quando usado no Claude Code, o ambiente de codificação da Antrópico.

A empresa reconheceu que o teste não mede outras competências profissionais cruciais, como colaboração, comunicação ou os instintos que se desenvolvem ao longo de anos de experiência. Ainda assim, a Anthropic disse que o resultado "levanta questões sobre como a IA mudará a engenharia como profissão."

Albert enfatizou a importância da descoberta. "Acho que isso é uma espécie de sinal, talvez, do que está por vir em torno de como esses modelos podem realmente ser úteis em um contexto de trabalho e para nossos empregos," ele disse. "Claro, esta foi uma tarefa de engenharia, e eu diria que os modelos estão relativamente à frente na engenharia em comparação com outras áreas, mas acho que é um sinal muito importante ao qual prestar atenção."

Melhorias drásticas de eficiência reduziram o uso de tokens em até 76% nos principais benchmarks

Além do desempenho bruto, a Anthropic aposta que melhorias de eficiência irão diferenciar o Claude Opus 4.5 no mercado. A empresa afirma que o modelo usa muito menos tokens – as unidades de texto que os sistemas de IA processam – para obter resultados semelhantes ou melhores em comparação com os antecessores.

Em um nível de esforço médio, o Opus 4.5 corresponde à melhor pontuação do modelo Sonnet 4.5 anterior no SWE-bench Verified, usando 76% menos tokens de saída, de acordo com a Anthropic. No nível de esforço mais alto, o Opus 4.5 excede o desempenho do Sonnet 4.5 em 4,3 pontos percentuais, embora ainda use 48% menos tokens.

Para dar aos desenvolvedores mais controle, a Anthropic introduziu um "parâmetro de esforço" que permite aos usuários ajustar quanto trabalho computacional o modelo aplica a cada tarefa – equilibrando o desempenho em relação à latência e ao custo.

Os clientes empresariais forneceram validação antecipada das declarações de eficiência. "O Opus 4.5 supera o Sonnet 4.5 e a concorrência em nossos benchmarks internos, usando menos tokens para resolver os mesmos problemas," disse Michele Catasta, presidente da Replit, uma plataforma de codificação baseada em nuvem, em comunicado à VentureBeat. "Em escala, essa eficiência aumenta."

O diretor de produtos do GitHub, Mario Rodriguez, disse que os primeiros testes mostram o Opus 4.5 "supera os benchmarks de codificação interna enquanto reduz o uso de token pela metade e é especialmente adequado para tarefas como migração e refatoração de código."

Os primeiros clientes relatam agentes de IA que aprendem com a experiência e refinam suas próprias habilidades

Uma das capacidades mais impressionantes demonstradas pelos primeiros clientes envolve o que a Anthropic chama "agentes de autoaperfeiçoamento" — Sistemas de IA que possam aperfeiçoar o seu próprio desempenho através da aprendizagem iterativa.

A Rakuten, empresa japonesa de comércio eletrônico e internet, testou Claude Opus 4.5 na automação de tarefas de escritório. "Nossos agentes foram capazes de refinar autonomamente suas próprias capacidades — alcançando desempenho máximo em 4 iterações, enquanto outros modelos não conseguiram igualar essa qualidade após 10," disse Yusuke Kaji, gerente geral de IA para negócios da Rakuten.

Albert explicou que o modelo não está atualizando seus próprios pesos – os parâmetros fundamentais que definem o comportamento de um sistema de IA – mas sim melhorando iterativamente as ferramentas e abordagens que utiliza para resolver problemas. "Foi refinar iterativamente uma habilidade para uma tarefa e ver que está tentando otimizar a habilidade para obter melhor desempenho para poder realizar essa tarefa," ele disse.

A capacidade vai além da codificação. Albert disse que a Anthropic observou melhorias significativas na criação de documentos, planilhas e apresentações profissionais. "Eles estão dizendo que este foi o maior salto que já viram entre gerações de modelos," Alberto disse. "Então, indo do Sonnet 4.5 para o Opus 4.5, um salto maior do que quaisquer dois modelos consecutivos no passado."

Fundamental Research Labs, uma empresa de modelagem financeira, informou que "a precisão em nossas avaliações internas melhorou 20%, a eficiência aumentou 15% e tarefas complexas que antes pareciam fora de alcance tornaram-se realizáveis," de acordo com o cofundador Nico Christie.

Novos recursos são direcionados a usuários do Excel, fluxos de trabalho do Chrome e eliminam limites de duração do bate-papo

Juntamente com o lançamento do modelo, a Anthropic lançou um conjunto de atualizações de produtos voltadas para usuários corporativos. Claude for Excel tornou-se disponível para usuários Max, Team e Enterprise com novo suporte para tabelas dinâmicas, gráficos e uploads de arquivos. A extensão do navegador Chrome agora está disponível para todos os usuários do Max.

Talvez o mais significativo seja que a Antrópica introduziu "bate-papos infinitos" — um recurso que elimina as limitações da janela de contexto, resumindo automaticamente as partes anteriores das conversas à medida que elas crescem. "Dentro do Claude AI, dentro do próprio produto, você obtém efetivamente esse tipo de janela de contexto infinita devido à compactação, além de algumas coisas de memória que estamos fazendo," Alberto explicou.

Para desenvolvedores, a Anthropic lançou "chamada de ferramenta programática," o que permite que Claude escreva e execute código que invoca funções diretamente. Claude Code ganhou uma versão atualizada "Modo de planejamento" e ficou disponível no desktop na visualização de pesquisa, permitindo que os desenvolvedores executassem várias sessões de agente de IA em paralelo.

O mercado esquenta à medida que OpenAI e Google correm para igualar desempenho e preços

A Anthropic atingiu US$ 2 bilhões em receita anualizada durante o primeiro trimestre de 2025, mais que dobrando em relação aos US$ 1 bilhão do período anterior. O número de clientes que gastam mais de US$ 100.000 anualmente aumentou oito vezes em relação ao ano anterior.

O rápido lançamento do Opus 4.5 – poucas semanas depois do Haiku 4.5 em outubro e do Sonnet 4.5 em setembro – reflete uma dinâmica mais ampla da indústria. A OpenAI lançou várias variantes do GPT-5 ao longo de 2025, incluindo um modelo Codex Max especializado em novembro que pode funcionar de forma autônoma por até 24 horas. O Google lançou o Gemini 3 em meados de novembro, após meses de desenvolvimento.

Albert atribuiu o ritmo acelerado da Anthropic em parte ao uso de Claude para acelerar seu próprio desenvolvimento. "Estamos vendo muita assistência e aceleração por parte do próprio Claude, seja no lado da construção do produto ou no lado da pesquisa do modelo," ele disse.

A redução dos preços do Opus 4.5 poderá pressionar as margens e, ao mesmo tempo, expandir potencialmente o mercado endereçável. "Espero ver muitas startups começarem a incorporar muito mais isso em seus produtos e a apresentá-lo com destaque," Alberto disse.

No entanto, a rentabilidade continua a ser difícil para os principais laboratórios de IA, uma vez que investem fortemente em infraestruturas informáticas e em talentos de investigação. Prevê-se que o mercado da IA ultrapasse 1 bilião de dólares em receitas dentro de uma década, mas nenhum fornecedor estabeleceu uma posição dominante no mercado – mesmo quando os modelos atingem um limiar onde podem automatizar significativamente o trabalho de conhecimento complexo.

Michael Truell, CEO do Cursor, um editor de código baseado em IA, chamado Opus 4.5 "uma melhoria notável em relação aos modelos Claude anteriores dentro do Cursor, com preços aprimorados e inteligência em tarefas difíceis de codificação." Scott Wu, CEO da Cognition, uma startup de codificação de IA, disse que o modelo oferece "resultados mais sólidos em nossas avaliações mais difíceis e desempenho consistente por meio de sessões de codificação autônomas de 30 minutos."

Para as empresas e os promotores, a concorrência traduz-se numa rápida melhoria das capacidades a preços em queda. Mas à medida que o desempenho da IA em tarefas técnicas se aproxima — e por vezes excede — os níveis de peritos humanos, o impacto da tecnologia no trabalho profissional torna-se menos teórico.

Quando questionado sobre os resultados dos exames de engenharia e o que eles sinalizam sobre a trajetória da IA, Albert foi direto: "Acho que é um sinal muito importante ao qual prestar atenção."

Fonte ==> Cyberseo

Editor Handelsblatt

Colunas

Relacionados

Vertical Connect: a liderança brasileira que transforma engenharia em realidade e reposiciona o país na corrida global dos eVTOLs

Discussão e Votação de Propostas Legislativas. Dep. Zé Haroldo Cathedral (PSD - RR)

Comissão aprova uso mais amplo da linguagem Braille no cotidiano

Suzi Cley Ribeiro de Oliveira: Uma Trajetória de Resiliência, Liderança e Transformação

Novo Símbolo da Pessoa com Deficiência é Oficial no Brasil

Síndrome do Impostor na Aprendizagem: Por que Atrapalha o Crescimento de Habilidades

90% das empresas, 30% do PIB: o paradoxo das PMEs no Brasil

Brasil manifesta preocupação com reforma tarifária aprovada no México

Claude Opus 4.5 da Anthropic está aqui: IA mais barata, bate-papos infinitos e habilidades de codificação que superam os humanos

Editor Handelsblatt

Opus 4.5 demonstra melhor julgamento em tarefas do mundo real, dizem os desenvolvedores

Opus 4.5 supera todos os candidatos humanos no teste de engenharia mais difícil da empresa

Melhorias drásticas de eficiência reduziram o uso de tokens em até 76% nos principais benchmarks

Os primeiros clientes relatam agentes de IA que aprendem com a experiência e refinam suas próprias habilidades

Novos recursos são direcionados a usuários do Excel, fluxos de trabalho do Chrome e eliminam limites de duração do bate-papo

O mercado esquenta à medida que OpenAI e Google correm para igualar desempenho e preços

Editor Handelsblatt

Relacionados

Deixe um comentário Cancelar resposta