AI IQ está aqui: um novo site pontua modelos de IA de ponta na escala de QI humano. Os resultados já estão dividindo a tecnologia.

AI IQ está aqui: um novo site pontua modelos de IA de ponta na escala de QI humano. Os resultados já estão dividindo a tecnologia.

Durante décadas, o teste de QI tem sido um dos parâmetros mais familiares – e mais contestados – da inteligência humana. Agora, um projeto de startup chamado AI IQ está aplicando a mesma metáfora à inteligência artificial, atribuindo quocientes de inteligência estimados a mais de 50 dos modelos de linguagem mais poderosos do mundo e plotando-os em uma curva padrão.

O resultado é um conjunto de visualizações interativas no aiiq.org que ricochetearam nas redes sociais na semana passada, atraindo elogios de tecnólogos empresariais que dizem que os gráficos tornam legível um mercado incrivelmente complexo – e críticas duras de pesquisadores e comentaristas que alertam que toda a estrutura é enganosa.

"Isso é muito útil," escreveu Thibaut Mélen, comentarista de tecnologia, no X. "É muito mais fácil entender o progresso do modelo quando ele é mapeado dessa forma, em vez de outra tabela gigante de classificação."

Brian Vellmure, estrategista de negócios, ofereceu um endosso semelhante: "Isso é útil. Acompanha anedóticamente a experiência pessoal."

Mas a reação chegou com a mesma rapidez. "É um absurdo. A IA é muito irregular. O mapa não é o território," postou AI Deeply, um relato de comentários sobre inteligência artificial, cristalizando uma preocupação compartilhada por muitos pesquisadores: que reduzir as capacidades desiguais e extensas de um modelo de linguagem a um único número cria uma perigosa ilusão de precisão.

Doze benchmarks, quatro dimensões e um número controverso: como o AI IQ realmente funciona

AI IQ foi criado por Ryan Shea, engenheiro, empresário e investidor anjo mais conhecido como cofundador da plataforma blockchain Stacks. Shea também foi cofundador da Voterbase e investiu nos estágios iniciais de vários unicórnios, incluindo OpenSea, Lattice, Anchorage e Mercury. Ele é bacharel em Engenharia Mecânica pela Universidade de Princeton.

A metodologia do site baseia-se numa fórmula aparentemente simples. O AI IQ agrupa 12 benchmarks em quatro dimensões de raciocínio: abstrata, matemática, programática e acadêmica. O QI composto é uma média direta dessas pontuações de quatro dimensões: QI = ¼ (IQ_Abstract + IQ_Math + IQ_Prog + IQ_Acad).

A dimensão do raciocínio abstrato baseia-se no ARC-AGI-1 e no ARC-AGI-2, os benchmarks de reconhecimento de padrões notoriamente difíceis, projetados para testar a inteligência fluida geral. O raciocínio matemático inclui FrontierMath (Níveis 1–3 e Nível 4), AIME e ProofBench. O raciocínio programático usa Terminal-Bench 2.0, SWE-Bench Verified e SciCode. O raciocínio acadêmico baseia-se no Último Exame da Humanidade, CritPt e GPQA Diamond.

Cada pontuação bruta de benchmark é mapeada para um QI implícito por meio do que o site descreve como "curvas de dificuldade calibradas manualmente." Crucialmente, a metodologia comprime os limites máximos para os índices de referência considerados mais fáceis ou mais suscetíveis à contaminação de dados, impedindo-os de inflacionar pontuações acima de 100. Os índices de referência mais difíceis e menos jogáveis ​​mantêm limites máximos mais elevados. O sistema também trata os dados em falta de forma conservadora: os modelos precisam de pontuações em pelo menos duas das quatro dimensões para receber um QI derivado e, quando os parâmetros de referência estão ausentes, o pipeline reduz deliberadamente as pontuações em vez de as aumentar. O site afirma que "cada QI derivado calcula a média de todas as quatro dimensões, portanto, a falta de cobertura não pode fazer um modelo parecer melhor por omissão."

OpenAI lidera a curva do sino, mas a diferença entre os principais modelos de IA nunca foi tão pequena

Em meados de maio de 2026, os gráficos de QI da IA ​​contam uma história de rápida convergência no topo da fronteira — e de aumento da diversidade nos níveis abaixo.

De acordo com o gráfico Frontier IQ Over Time, o GPT-5.5 da OpenAI atualmente está no pico da curva em forma de sino, com um QI estimado próximo a 136 – o mais alto de qualquer modelo rastreado. É seguido de perto por GPT-5.4 (aproximadamente 131), Opus 4.7 da Anthropic (aproximadamente 132) e Opus 4.6 (aproximadamente 129). O Gemini 3.1 Pro do Google chega perto de 131, tornando o cluster superior extraordinariamente compacto.

Essa compressão não é exclusiva da estrutura do AI IQ. Visual Capitalist, baseado em uma classificação separada baseada em Mensa da TrackingAI, observou recentemente a mesma dinâmica, observando que "a maior conclusão é o quão comprimido o topo da tabela de classificação se tornou." Nessa escala, Grok-4.20 Expert Mode e GPT 5.4 Pro empataram em 145, com Gemini 3.1 Pro em 141.

Abaixo do cluster fronteiriço, os gráficos do AI IQ mostram um meio-campo lotado. Modelos de laboratórios chineses – Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6, MiniMax-M2.7 – agrupam-se entre aproximadamente 112 e 118, tornando o nível de custo-desempenho cada vez mais competitivo para compradores empresariais que não precisam do melhor modelo absoluto para cada tarefa. Um usuário X, ovsky, observou que os dados "confirma a experiência com o soneto 4.6 sendo um burro de carga absoluto, em oposição ao opus 4.5" – apontando para a forma como os gráficos podem validar as intuições dos profissionais que as classificações das manchetes muitas vezes ignoram.

Por que as pontuações de inteligência emocional estão se tornando o novo campo de batalha nas classificações de modelos de IA

O que distingue o AI IQ da maioria dos outros esforços de benchmarking é a inclusão de um "equalização" — inteligência emocional — pontuação. O site mapeia a pontuação EQ-Bench 3 Elo de cada modelo e a pontuação Arena Elo para um EQ estimado usando escalas lineares por partes calibradas e, em seguida, obtém uma composição ponderada 50/50 dos dois.

As pontuações de QE produzem uma classificação significativamente diferente do QI sozinho. No gráfico de dispersão de QI vs. EQ, o Opus 4.7 da Anthropic lidera em EQ com uma pontuação próxima a 132, empurrando-o para o quadrante superior direito – a posição mais desejável, sinalizando alta inteligência cognitiva e emocional. O cluster GPT-5.5 e GPT-5.4 da OpenAI está na zona de alto QI, mas fica ligeiramente atrás no EQ. O Gemini 3.1 Pro do Google ocupa uma posição intermediária forte em ambos os eixos.

Uma escolha metodológica notável chamou a atenção: o EQ-Bench 3 é julgado por Claude, um modelo antrópico, que o site reconhece "cria potencial viés de pontuação em favor dos modelos antrópicos." Para corrigir isso, o AI IQ subtrai uma penalidade Elo de 200 pontos do componente EQ-Bench para todos os modelos antrópicos antes de mapear para o EQ implícito. O componente Arena não é afetado porque utiliza juízes humanos. Essa autocorreção é incomum no mundo do benchmarking e sugere que Shea está ciente do campo minado metodológico em que entrou. Ainda assim, a dimensão do QE capta algo que o QI por si só não consegue: a importância crescente da qualidade conversacional, da colaboração e da confiança em modelos implementados para o trabalho voltado para o utilizador.

O gráfico de custo-desempenho de IA que os compradores empresariais realmente precisam ver

Talvez o gráfico mais prático do site não seja a curva em forma de sino, mas o gráfico de dispersão de QI versus custo efetivo. Ele mapeia o QI estimado de cada modelo em relação a um "custo efetivo" métrica — definida como o custo do token para uma tarefa usando 2 milhões de tokens de entrada e 1 milhão de tokens de saída, multiplicado por um fator de eficiência de uso.

O gráfico revela um padrão familiar na tecnologia empresarial: os melhores modelos nem sempre têm o melhor valor. GPT-5.5 e Opus 4.7 ficam no canto superior esquerdo – alto QI, alto custo, com custos efetivos por tarefa ao norte de US$ 30 e US$ 50, respectivamente. Enquanto isso, modelos como GPT-5.4-mini, DeepSeek-V3.2 e MiniMax-M2.7 ocupam um ponto ideal no meio: pontuações de QI respeitáveis ​​entre 112 e 120, com custos efetivos que variam de aproximadamente US$ 1 a US$ 5 por tarefa. No extremo mais barato, o GPT-oss-20b (um modelo OpenAI de código aberto) parece um custo efetivo próximo de US$ 0,20 com um QI em torno de 107 – potencialmente a opção mais econômica para cargas de trabalho de classificação ou extração em massa.

O site também oferece uma visualização 3D mapeando QI, EQ e custo efetivo simultaneamente. Uma linha tracejada que atravessa o cubo aponta para o ideal: QI mais alto, QE mais alto e custo mais baixo. Modelos perto do "fim verde" desse eixo estão acordos gerais mais fortes; aqueles perto do "extremidade vermelha" capacidade de sacrifício, eficiência de custos ou ambos. Para os CIOs que analisam faturas de API, a implicação é clara: a lacuna de inteligência entre um modelo de US$ 50 e um modelo de US$ 3 diminuiu o suficiente para que o roteamento — usando modelos caros para problemas difíceis e modelos baratos para todo o resto — não seja mais opcional. É a arquitetura dominante para implantações sérias de IA.

Os críticos dizem que a IA "irregular" capacidades tornam uma única pontuação de QI perigosamente enganosa

A objeção mais veemente ao QI da IA ​​é filosófica e atinge profundamente. Os críticos argumentam que agrupar as capacidades desiguais de um modelo numa única pontuação obscurece mais do que revela.

"O QI como proxy está desaparecendo – estamos vendo picos de densidade de raciocínio que não são mapeados para o fator g," postou Zaya, um comentarista de tecnologia, no X. "O GPT-5.5 já atingiu a saturação no MMLU-Pro, mas ainda falha no ClockBench 50% das vezes."

Essa observação aborda o que os pesquisadores de IA chamam de "irregularidade" Problema: grandes modelos de linguagem muitas vezes exibem capacidades extremamente desiguais, destacando-se em física de pós-graduação e falhando em tarefas que uma criança poderia realizar. Uma pontuação composta pode cobrir essas lacunas.

Pressureangle, outro usuário do X, postou uma crítica mais granular, chamando "total falta de transparência" e argumentando que o site nunca divulga completamente como suas curvas de calibração foram criadas ou validadas. Para ser justo, o AI IQ lista seus 12 benchmarks e mostra a forma de cada curva de calibração em seu modal de metodologia. Mas os dados brutos e as transformações matemáticas precisas não são publicados como conjuntos de dados abertos – uma lacuna que é importante para os investigadores habituados a métodos totalmente reproduzíveis.

Outros questionaram a própria premissa. "Tão inútil quanto o teste de QI humano," escreveu haashim no X. Shubham Sharma, um escritor de IA e tecnologia, ofereceu uma alternativa construtiva: "Por que não fazer com que os Modelos façam um teste oficial (MENSA-Grade)? Não seria esta a forma mais precisa e mais “comparável aos seres humanos” de avaliar a inteligência?" Essa abordagem já existe através do TrackingAI, que administra o teste de QI Mensa Norway para modelos de linguagem. Mas os testes do estilo Mensa medem apenas o reconhecimento de padrões abstratos, enquanto o AI IQ tenta uma composição mais ampla entre codificação, matemática e raciocínio acadêmico. Como observou o Visual Capitalist, "um benchmark no estilo IQ captura apenas uma fatia da capacidade." Cada abordagem tem vantagens e desvantagens – e nenhuma delas ganhou a discussão ainda.

A verdadeira corrida não é pela pontuação mais alta – é pela pilha de modelos mais inteligente

Apesar de todo o debate sobre metodologia, o sinal mais importante nos dados do AI IQ pode não ser a pontuação de um único modelo. É a forma do mercado que os gráficos revelam.

Existem agora mais de 50 modelos de ponta disponíveis através de APIs, de pelo menos 14 grandes fornecedores abrangendo os Estados Unidos, China e Europa. Cada fornecedor publica os seus próprios benchmarks, muitas vezes escolhidos a dedo para mostrar os seus pontos fortes. O resultado é uma Torre de Babel onde não há duas empresas que meçam a mesma coisa da mesma maneira. A pesquisa acadêmica destacou que "a maioria dos benchmarks introduz preconceitos ao focar em um tipo específico de domínio," e o gráfico Frontier IQ Over Time no AI IQ mostra a rapidez com que os alvos estão se movendo: em outubro de 2023, o GPT-4-turbo estava próximo de um QI estimado de 75. No início de 2026, os principais modelos estavam atingindo 135 – cerca de 60 pontos de melhoria em 30 meses.

Esse ritmo levanta uma questão fundamental sobre se algum sistema de pontuação consegue acompanhar. O site comprime os tetos para benchmarks saturados, mas à medida que os modelos continuam a maximizar até mesmo os testes mais difíceis – ARC-AGI-2, FrontierMath Tier 4, Último Exame da Humanidade – a estrutura enfrentará os mesmos efeitos de teto que afetaram todas as avaliações de IA anteriores. Connor Forsyth apontou para esta dinâmica no X: "ARC AGI 3 discorda," escreveu ele, referindo-se a um benchmark de próxima geração que pode já estar minando as pontuações atuais.

O QI da IA ​​não é perfeito. Sua metodologia é parcialmente opaca. A sua metáfora de QI pode enganar. E seu criador reconhece preconceitos conhecidos, embora provavelmente ignore outros. Mas a alternativa – percorrer dezenas de tabelas de benchmark específicas de fornecedores, cada uma usando diferentes conjuntos de testes e convenções de pontuação – é pior. O site oferece aos compradores corporativos algo genuinamente escasso: uma estrutura única para comparar modelos entre fornecedores, dimensões e faixas de preço, atualizada regularmente, com nuances suficientes para mostrar que a resposta certa para "qual modelo é melhor?" é quase sempre "depende da tarefa."

Como Debdoot Ghosh refletiu sobre X depois de ver os gráficos: "Agora, o papel do ser humano é apenas orquestrar?"

Talvez. Mas se os dados do AI IQ mostram alguma coisa claramente, é que a orquestração – saber qual modelo implementar, quando e a que preço – se tornou a sua própria forma de inteligência. E para isso ainda não existe um benchmark.



Fonte ==> Cyberseo

Relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *