Player Live
AO VIVO
9 de março de 2026
A Marcha dos Nove de Karpathy mostra por que 90% de confiabilidade da IA ​​não está nem perto do suficiente

A Marcha dos Nove de Karpathy mostra por que 90% de confiabilidade da IA ​​não está nem perto do suficiente

“Quando você recebe uma demonstração e algo funciona 90% das vezes, são apenas os primeiros nove.” – Andrej Karpatia A “Marcha dos Nove” enquadra uma realidade de produção comum: você pode alcançar os primeiros 90% de confiabilidade com uma demonstração forte, e cada nove adicionais geralmente exigem um esforço de engenharia comparável. Para equipes empresariais, a distância entre “normalmente funciona” e “opera como software confiável” determina a adoção. A matemática composta por trás da Marcha dos Nove “Cada nove é a mesma quantidade de trabalho.” -Andréj Karpathy Fluxos de trabalho agentes agravam falhas. Um fluxo empresarial típico pode incluir: análise de intenção, recuperação de contexto, planejamento, uma ou mais chamadas de ferramenta, validação, formatação e registro de auditoria. Se um fluxo de trabalho tiver n etapas e cada etapa for bem-sucedida com probabilidade po sucesso de ponta a ponta é aproximadamente p^n. Em um fluxo de trabalho de 10 etapas, o sucesso de ponta a ponta aumenta devido às falhas de cada etapa. Interrupções correlacionadas (autenticação, limites de taxa, conectores) dominarão, a menos que você reforce as dependências compartilhadas. Sucesso por etapa (p) Sucesso em 10 etapas (p ^ 10) Taxa de falha no fluxo de trabalho A 10 fluxos de trabalho/dia O que isso significa na prática 90,00% 34,87% 65,13% ~6,5 interrupções/dia Território protótipo. A maioria dos fluxos de trabalho é interrompida 99,00% 90,44% 9,56% ~1 a cada 1,0 dia Ótimo para uma demonstração, mas as interrupções ainda são frequentes no uso real. 99,90% 99,00% 1,00% ~1 a cada 10,0 dias Ainda não parece confiável porque os erros continuam comuns. 99,99% 99,90% 0,10% ~1 a cada 3,3 meses É aqui que começa a parecer um software confiável de nível empresarial. Defina confiabilidade como SLOs mensuráveis “Faz muito mais sentido gastar um pouco mais de tempo para ser mais concreto em suas instruções.” – Andrej Karpatia As equipes alcançam resultados mais elevados transformando a confiabilidade em objetivos mensuráveis ​​e, em seguida, investindo em controles que reduzem a variância. Comece com um pequeno conjunto de SLIs que descrevem o comportamento do modelo e o sistema circundante: Taxa de conclusão do fluxo de trabalho (sucesso ou escalonamento explícito). Taxa de sucesso de chamada de ferramenta dentro do tempo limite, com validação de esquema rigorosa em entradas e saídas. Taxa de saída válida para esquema para cada resposta estruturada (JSON/argumentos). Taxa de conformidade com políticas (PII, segredos e restrições de segurança). Latência ponta a ponta p95 e custo por fluxo de trabalho. Taxa de fallback (modelo mais seguro, dados em cache ou revisão humana). Defina metas de SLO por nível de fluxo de trabalho (impacto baixo/médio/alto) e gerencie um orçamento de erros para que os experimentos permaneçam controlados. Nove alavancas que adicionam noves de forma confiável 1) Restringir a autonomia com um gráfico de fluxo de trabalho explícito A confiabilidade aumenta quando o sistema tem estados limitados e tratamento determinístico para novas tentativas, tempos limite e resultados terminais. As chamadas de modelo ficam dentro de uma máquina de estado ou DAG, onde cada nó define ferramentas permitidas, número máximo de tentativas e um predicado de sucesso. Persista o estado com chaves idempotentes para que as novas tentativas sejam seguras e depuráveis. 2) Fazer cumprir contratos em todas as fronteiras A maioria das falhas de produção começa como desvio de interface: JSON malformado, campos ausentes, unidades erradas ou identificadores inventados. Use JSON Schema/protobuf para cada saída estruturada e valide no lado do servidor antes da execução de qualquer ferramenta. Use enums, IDs canônicos e normalize o tempo (ISO-8601 + fuso horário) e unidades (SI). 3) Validadores de camada: sintaxe, semântica, regras de negócio A validação do esquema captura a formatação. As verificações semânticas e de regras de negócios evitam respostas plausíveis que quebram os sistemas. Verificações semânticas: integridade referencial, limites numéricos, verificações de permissão e junções determinísticas por ID, quando disponíveis. Regras de negócios: aprovações para ações de gravação, restrições de residência de dados e restrições de nível de cliente. 4) Rota por risco usando sinais de incerteza Ações de alto impacto merecem maior garantia. O roteamento baseado em risco transforma a incerteza em um recurso do produto. Use sinais de confiança (classificadores, verificações de consistência ou um verificador de segundo modelo) para decidir o roteamento. Garanta etapas arriscadas por trás de modelos mais fortes, verificação adicional ou aprovação humana. 5) Chamadas de ferramentas de engenharia como sistemas distribuídos Conectores e dependências geralmente dominam as taxas de falha em sistemas agentes. Aplique tempos limite por ferramenta, espera com jitter, disjuntores e limites de simultaneidade. Versão de esquemas de ferramentas e validação de respostas de ferramentas para evitar quebras silenciosas quando as APIs mudam. 6) Torne a recuperação previsível e observável A qualidade da recuperação determina o quão fundamentada será sua aplicação. Trate-o como um produto de dados versionado com métricas de cobertura. Rastreie a taxa de recuperação vazia, a atualização do documento e a taxa de acertos em consultas rotuladas. O índice de envio muda com canários, para que você saiba se algo irá falhar antes de falhar. Aplique acesso e redação com privilégios mínimos na camada de recuperação para reduzir o risco de vazamento. 7) Construa um pipeline de avaliação de produção Os últimos noves dependem da localização rápida de falhas raras e da prevenção de regressões. Mantenha um conjunto dourado orientado a incidentes do tráfego de produção e execute-o em cada mudança. Execute o modo sombra e canários A/B com reversão automática em regressões SLI. 8) Investir em observabilidade e resposta operacional Quando as falhas se tornam raras, a velocidade do diagnóstico e da remediação torna-se o fator limitante. Emita rastreamentos/extensões por etapa, armazene prompts editados e E/S de ferramentas com fortes controles de acesso e classifique cada falha em uma taxonomia. Use runbooks e alternâncias de “modo de segurança” (desative ferramentas arriscadas, alterne modelos, exija aprovação humana) para mitigação rápida. 9) Envie um controle deslizante de autonomia com alternativas determinísticas Os sistemas falíveis precisam de supervisão e o software de produção precisa de uma forma segura de aumentar a autonomia

Leia Mais »