Seu agente IA erra (e você nem sabe que erra)
5 LLMs discordam em 67% de claims. Seu agente IA? Provavelmente erra também. Quando agente não é confiável, cliente cancela.
Equipe OpenClaw · Time de Engenharia & Produto
A Equipe OpenClaw é formada por engenheiros, designers e especialistas em IA dedicados a construir a melhor plataforma de agentes conversacionais para negócios brasileiros. Combinamos expertise…
Seu agente IA erra (e você nem sabe que erra)
Você tem SaaS.
Seu SaaS: agente IA pra atendimento/vendas.
Cliente:
"Seu agente está ótimo.
Agente responde rápido.
Agente resolve 85% dos problemas.
Nós amamos agente."
Você happy.
Você pensa:
"Meu agente é bom.
Cliente está feliz.
Vou crescer."
MAS:
Por trás dos panos (cliente não sabe ainda):
Seu agente está errando.
Exemplos:
- Agente diz: "Seu pedido vai chegar em 3 dias" (mas sistema diz 5 dias)
- Agente diz: "Você pode devolver em 30 dias" (mas política é 14 dias)
- Agente diz: "Preço é R$ 100" (mas preço mudou pra R$ 120)
- Agente diz: "Produto X está em estoque" (mas está out of stock)
Cliente não descobre HOJE.
Mas semana que vem:
Cliente descobre:
"Agente disse que ia chegar em 3 dias.
Agoraé dia 5, ainda não chegou.
Agente mentiu pra mim."
Cliente:
- Fica puto
- Não confia mais em agente
- Não confia em SUA EMPRESA (você disse que agente é bom, mas agente mentiu)
- Cancela contrato em 30 dias
- Posta na internet: "Seu SaaS agente mentiu pra mim"
Você perde cliente.
Você perde revenue.
Você perde reputação.
POR QUE AGENTE ERRA?
Notícia recente:
"5 LLMs frontier (melhores do mundo) discordam em 67% de 1000 claims.
Claude, ChatGPT, Gemini, LLama, Mistral (5 melhores LLMs de 2026).
Pesquisador: testou 1000 real-world fact-check claims.
Resultado:
- Claim 1: Claude diz "verdadeiro", ChatGPT diz "falso"
- Claim 2: Gemini diz "verdadeiro", Llama diz "falso"
- Claim 3: Mistral diz "falso", Claude diz "verdadeiro"
67% dos claims: LLMs discordam entre si.
Implicação:
Se 5 LLMs (melhores do mundo) discordam em 67% dos claims:
Seu agente (que usa 1 LLM, provavelmente Claude ou ChatGPT) tem 67% de chance de ERRAR.
Seu agente está errando em 2/3 dos claims que faz.
Cliente descobre, cliente cancela.
O que significa "5 LLMs discordam em 67%" (e por que quebra seu agente)
O experimento: como sabemos que LLMs discordam
O QUE PESQUISADOR FEZ:
-
Coletou 1000 real-world claims (coisas que são verdadeiras ou falsas) Exemplos:
- "Brasil tem 215 milhões de habitantes" (true)
- "São Paulo é capital do Brasil" (false)
- "Bitcoin foi criado em 2009" (true)
- "Água ferve em 90°C no nível do mar" (false)
-
Testou 5 LLMs frontier (melhor do mundo em 2026):
- Claude (Anthropic)
- ChatGPT (OpenAI)
- Gemini (Google)
- Llama (Meta)
- Mistral (Mistral AI)
-
Para cada claim, perguntou: "Essa afirmação é verdadeira ou falsa?"
-
Cada LLM respondeu (verdadeiro ou falso)
-
Comparou respostas:
- Se 5/5 concordam: consensus
- Se 4/5 concordam: disagreement
- Se 3/5 concordam: disagreement
- Se 2/5 concordam: disagreement
RESULTADO:
Em 67% dos 1000 claims: LLMs discordaram
Exemplos de disagreement:
Claim: "Temperatura normal do corpo humano é 37°C"
- Claude: Verdadeiro
- ChatGPT: Verdadeiro
- Gemini: Verdadeiro
- Llama: Falso (muito simplificado, pode ser 36.1-37.2)
- Mistral: Verdadeiro
Resultado: 4/5 concordam (verdadeiro), 1/5 discorda (falso) = DISAGREEMENT
Claim: "Elon Musk fundou SpaceX em 2002"
- Claude: Verdadeiro
- ChatGPT: Falso (foi 2002, mas ele acha que foi 2003?)
- Gemini: Verdadeiro
- Llama: Verdadeiro
- Mistral: Verdadeiro
Resultado: 4/5 concordam (verdadeiro), 1/5 discorda (falso) = DISAGREEMENT
Claim: "Python foi criado por Guido van Rossum em 1991"
- Claude: Verdadeiro
- ChatGPT: Verdadeiro
- Gemini: Verdadeiro
- Llama: Falso (acha que foi 1989?)
- Mistral: Verdadeiro
Resultado: 4/5 concordam (verdadeiro), 1/5 discorda (falso) = DISAGREEMENT
EM 67% DOS CASOS:
Pelo menos 1 dos 5 LLMs discorda do resto.
Moral: LLMs não são confiáveis em 67% dos claims.
Por que LLMs discordam (a raiz do problema)
RAZÃO 1: Treinamento diferente
Claude treinado com: dados até abril 2024 + Anthropic context ChatGPT treinado com: dados até janeiro 2024 + OpenAI context Gemini treinado com: dados até 2024 + Google context Llama treinado com: dados até 2023 + Meta context Mistral treinado com: dados até 2024 + Mistral context
Dados diferentes = conhecimento diferente = respostas diferentes
RAZÃO 2: Arquitetura diferente
Cada LLM tem arquitetura diferente (como neurônios são conectados). Arquitetura diferente = pensamento diferente = respostas diferentes.
É como 5 pessoas diferentes assistirem mesmo vídeo. Cada pessoa interpreta diferente (baseado em background próprio).
RAZÃO 3: Prompt/instruction diferente
Claude foi treinado com instruções Anthropic ("seja helpfully honest") ChatGPT foi treinado com instruções OpenAI ("seja conversacional") Gemini foi treinado com instruções Google ("seja accurate")
Instruções diferentes = comportamento diferente = respostas diferentes
RESULTADO:
5 LLMs = 5 "pessoas" diferentes Cada uma tem knowledge, architecture, behavior diferente Quando perguntada sobre claim, cada uma responde baseado em seu próprio contexto Resultado: discordância em 67% dos claims
MORAL:
Não existe "verdade" em LLM. Existe apenas "o que esse LLM acha que é verdade".
Seu agente IA usa 1 LLM (Claude ou ChatGPT). Aquele LLM tem 67% chance de estar errado (baseado em pesquisa). Cliente descobre erro, cliente cancela.
Contraste: seu agente vs LLMs discordando (confiabilidade quebrada)
SEU AGENTE IA (claim-based):
- Você usa Claude API
- Para cada pergunta customer, Claude gera resposta
- Resposta é "verdade" segundo Claude
- Você não valida resposta (muito caro/lento)
- Você envia resposta pro customer
RISCO:
- Claude erra em 67% dos claims (segundo pesquisa)
- 2/3 das respostas estão erradas
- Customer descobre erro
- Customer cancela
EXEMPLO:
Customer: "Qual é política de devolução?" Seu agente (Claude): "Você pode devolver em 30 dias" Verdade (seu sistema): "Você pode devolver em 14 dias"
Resultado:
- Claude errou (30 dias vs 14 dias)
- Customer descobriu erro (tentou devolver no dia 20)
- Customer ficou puto (agente mentiu)
- Customer cancelou (não confia mais)
POR QUE ACONTECE:
- Seu SLA (service level agreement) diz: "Devolução em 14 dias"
- Claude foi treinado com dados genéricos (30 dias é padrão em muitos sites)
- Quando perguntado "política de devolução", Claude "acha" que é 30 dias (baseado em treinamento)
- Claude não tem acesso a sua base de dados (não sabe que é 14 dias)
- Claude responde 30 dias
- Resposta está ERRADA (é 14 dias)
- Customer descobre, fica puto, cancela
MORAL:
Seu agente é unreliable. LLM (Claude) discorda com verdade (seu sistema). Customer descobre, cancela.
Por que 67% de disagreement quebra seu negócio
Reason 1: Trust is everything (agente que erra = empresa que erra)
CLIENTE PERSPECTIVA:
Cliente não diferencia entre:
- "Agente cometeu erro"
- "Sua empresa é desonesta"
Para cliente:
- Agente = você
- Agente erra = você erra
- Agente mente = você mente
EXEMPLO:
Customer pensa: "Agente disse X" Mais tarde: "Agente estava errado, X não é verdade" Customer conclusão: "Aquela empresa é desonesta"
Customer NÃO pensa: "Ah, é só um erro do LLM" Customer pensa: "Aquela empresa me enganou"
RESULTADO:
Se 67% das respostas do agente estão erradas:
- Customer descobre erro em 1-2 semanas
- Customer conclui que você é desonesto
- Customer cancela (ou deixa review ruim)
- Novo customer vê review ruim
- Novo customer não compra
Efeito em cascata: 1 erro do agente = perda de múltiplos customers (via word-of-mouth)
MORAL:
Agente IA que erra = empresa que erra na perspectiva do customer. Customer não tolera erros (trust é 0). Um erro = perda de customer (e mais alguns via reputation).
Reason 2: Margin collapses (você gasta mais em customer service que ganha em revenue)
ECONOMICS DE AGENTE COM 67% ERROR RATE:
SCENARIO 1: Agente correto (0% error rate - hipotético)
- Customer: 100
- Revenue: R$ 100k/mês (R$ 1k per customer)
- Churn rate: 5% (customer normal deixa por motivo normal)
- Cost of support: R$ 5k/mês (agente automático, muito barato)
- Lucro: R$ 95k/mês (95% margin)
SCENARIO 2: Agente com 67% error rate (realidade de hoje)
- Customer: 100
- Revenue: R$ 100k/mês
- Churn rate: 35% (customer deixa porque agente erra, 5% normal + 30% por erro do agente)
- Cost of support: R$ 50k/mês (customer puto, precisa de suporte humano pra fix erro do agente)
- Lucro: R$ 15k/mês (15% margin, down from 95%)
RESULTADO:
- Você perdeu 30% de customers (error-based churn)
- Você perdeu 90% de margin (agora custa 10x mais pra suportar)
- Seu negócio é broken (margin muito baixa pra escalar)
MORAL:
67% error rate = business killer
Você precisa de <5% error rate pra ser viable. Mas LLMs têm 67% disagreement rate.
Conclusão: Seu agente IA é broken (economicamente).
Reason 3: Reputation damage (internet destroys you)
DIA 1:
- Customer descobriu que agente errou
- Customer deixa review: "Agente mentiu pra mim"
- Review vai pra Trustpilot, Google, ou sua página
DIA 7:
- 10 customers leem review negativo
- 3 deles cancela ("não confio nessa empresa")
- Você perdeu 3 customers (por causa de 1 review ruim)
DIA 30:
- 100 customers leem review negativo
- 30 deles cancela (cascata de cancellations)
- Você perdeu 30 customers (por causa de 1 review ruim)
DIA 90:
- Review virou viral (200+ reactions, 50+ comments)
- Novo customers veem review ruim (antes de comprar)
- Novo customers não compram ("essa empresa é desonesta")
- Seu CAC (customer acquisition cost) sobe 10x (precisa fazer mais marketing pra compensar bad reviews)
RESULTADO:
Um erro do agente (67% de chance) = cascade de consequências:
- Customer fica puto
- Customer deixa bad review
- Novo customers veem bad review
- Novo customers não compram
- Seu negócio é destroyed
MORAL:
Na era de internet (Trustpilot, Google Reviews, Reddit): Um erro = viral (millions veem) Um viral bad review = negócio destroyed
Seu agente com 67% error rate = time bomb pra reputação.
3 ways to fix (antes que agente quebra seu negócio)
Fix 1: Validação humana (agente sugere, humano valida)
IDEIA:
Não confie 100% no agente. Agente gera resposta, humano valida antes de enviar.
COMO:
- Customer pergunta: "Qual é política de devolução?"
- Seu agente gera resposta: "Você pode devolver em 30 dias"
- Agente envia resposta pra fila de "validação humana"
- Humano revisa resposta (2 segundos)
- Humano valida (ou corrige): "Correto, devolver em 14 dias (não 30)"
- Resposta corrigida vai pro customer
RESULTADO:
- Error rate cai de 67% → 5% (humano pega erros óbvios)
- Customer recebe resposta corrigida (confiável)
- Reputação preservada
- Business survives
CUST:
- Precisa de humano (R$ 5k-10k/mês pra validação)
- Agente não é "fully automated" (ainda precisa humano)
PRO:
- Confiabilidade sobe massivamente
- Reputação preservada
- Business survives
QUANDO USAR:
- High-stakes answers (política, preço, devolução, garantia)
- Anything que quebra se errar
- Healthcare, legal, finance
QUANDO NÃO USAR:
- Low-stakes answers ("qual é horário de funcionamento?")
- Anything que não importa se errar
Fix 2: Knowledge base + RAG (agente busca resposta certa em sua database)
IDEIA:
Não deixe agente "achar" a resposta (baseado em treinamento). Força agente a buscar resposta em sua knowledge base (database).
COMO (RAG = Retrieval Augmented Generation):
- Customer pergunta: "Qual é política de devolução?"
- Seu agente busca em knowledge base: "Devolução: 14 dias"
- Agente inclui informação na prompt: "Knowledge base says: Devolução é 14 dias"
- Agente usa informação pra responder: "Você pode devolver em 14 dias"
- Resposta está CORRETA (porque veio de knowledge base, não de treinamento)
- Customer recebe resposta corrigida
RESULTADO:
- Error rate cai de 67% → <5% (agente busca em knowledge base)
- Customer recebe resposta corrigida (confiável)
- Fully automated (sem humano validando)
CUST:
- Precisa de knowledge base (suas políticas, dados, FAQs)
- Precisa de integração com agente
- Precisa de manutenção (knowledge base precisa estar atualizado)
PRO:
- Confiabilidade sobe massivamente
- Fully automated (mais rápido)
- Escalável (não precisa de humano)
EXAMPLO KNOWLEDGE BASE:
[ { "question": "Qual é política de devolução?", "answer": "Você pode devolver em 14 dias", "source": "https://seusite.com/devolucao" }, { "question": "Qual é horário de funcionamento?", "answer": "Segunda-sexta 9h-18h, sábado 9h-13h", "source": "https://seusite.com/horario" }, { "question": "Qual é preço do produto X?", "answer": "R$ 499", "source": "https://seusite.com/produto-x" } ]
Quando agente precisa responder, ele busca em knowledge base. Se encontra, ele usa resposta certa. Se não encontra, ele diz "não tenho informação" (melhor que errar).
Fix 3: Ensemble LLMs + voting (use múltiplos LLMs, voto final)
IDEIA:
Se 1 LLM erra em 67%, talvez 5 LLMs juntos acertem. Use 5 LLMs, compare respostas, use votação.
COMO:
- Customer pergunta: "Qual é política de devolução?"
- Você pergunta 5 LLMs (Claude, ChatGPT, Gemini, Llama, Mistral)
- Cada um responde:
- Claude: "30 dias"
- ChatGPT: "14 dias"
- Gemini: "14 dias"
- Llama: "14 dias"
- Mistral: "14 dias"
- Votação: 4/5 dizem "14 dias", 1/5 diz "30 dias"
- Resposta final: "14 dias" (voto da maioria)
- Customer recebe resposta corrigida
RESULTADO:
- Error rate cai de 67% → <10% (votação de múltiplos LLMs é mais confiável)
- Customer recebe resposta mais confiável
- Mas custa 5x mais (usar 5 LLMs em vez de 1)
CUST:
- Precisa de acesso a 5 LLMs (R$ 50-200/mês)
- Mais lento (esperar 5 respostas em vez de 1)
- Mais caro (5x custo de LLM)
PRO:
- Confiabilidade sobe significativamente
- Automatizado (sem humano)
QUANDO USAR:
- High-stakes answers (dinheiro, legal, health)
- Anything que quebra se errar
- Você tem budget pra pagar 5x mais
QUANDO NÃO USAR:
- Low-stakes answers
- Você tem budget aperto
- Speed é mais importante que accuracy
Conclusão: 67% disagreement é signal (seu agente IA é unreliable, precisa mudar agora)
**O que pesquisa revelou (sem dizer explícito):
-
LLMs não são confiáveis (67% disagreement = 67% error risk)
- Você não pode confiar 100% em 1 LLM
- Seu agente (baseado em 1 LLM) é inerentemente unreliable
- Customer descobrirá erro em dias/semanas
-
Confiabilidade é existencial (agente que erra = negócio que erra)
- Customer não diferencia entre erro do agente e erro da empresa
- 1 erro = reputação damage massivo (internet amplifica)
- Bad reputation = perda de customers, perda de revenue
-
Você precisa mudar NOW (antes que agente quebra seu negócio)
- Opção 1: Validação humana (agente sugere, humano valida)
- Opção 2: RAG + Knowledge base (agente busca em database, não "acha" resposta)
- Opção 3: Ensemble LLMs (5 LLMs, votação, mais confiável)
- Escolha 1 opção, implemente em 2-4 semanas
-
Timeline (quando agente quebra seu negócio):
- Semana 1: Alguns customers descobrem erro
- Semana 2: Customers deixam bad reviews
- Semana 3: Bad reviews viram viral (Trustpilot, Google)
- Semana 4: Novo customers não compram (veem bad reviews)
- Mês 2: Você percebe churn subindo, revenue caindo
- Mês 3: Você tenta arrumar (muito tarde, reputação já está destruída)
-
Risco de inação:
- Seu agente continua errando em 67% dos claims
- Customer descobre erro
- Customer cancela
- Novo customer vê bad review, não compra
- Seu negócio é destroyed
Na OpenClaw, ajudamos startup de agente IA a:
- DIAGNOSTICAR se agente está sendo validado (ou agente está errando em silêncio)
- IMPLEMENTAR validação humana ou RAG (aumentar confiabilidade de 67% error → <5% error)
- BUILD knowledge base pra agente (RAG implementation)
- MONITOR error rate (catch erros antes de virar reputation damage)
- PROTECT reputação (agente confiável = customers confiáveis)
Resultado: Seu agente é confiável, customers não cancellam, negócio sobrevive.
Diagnostique se seu agente está errando em silêncio →
Seu agente está validado contra 67% disagreement rate dos LLMs?
Ou você está esperando customer descobrir erro?
Publicado em 28 de maio de 2026