Uma pesquisa recente conduzida pela Legal Guardian Digital, empresa de SEO para o setor jurídico, avaliou a confiabilidade dos chatbots de IA mais populares do mercado e encontrou diferenças relevantes entre os modelos. Segundo o estudo, o Google Gemini aparece como a ferramenta com maior taxa de alucinação, entregando informações incorretas em 32% das respostas.
O levantamento explica que as chamadas “alucinações” acontecem porque os Grandes Modelos de Linguagem (LLMs) são treinados para prever a próxima palavra mais provável em uma sequência. Quando o sistema não encontra um padrão confiável para responder, pode acabar gerando uma informação plausível, mas falsa. O relatório destaca que, com 25% dos trabalhadores americanos usando IA regularmente, a checagem humana de dados como nomes, datas e valores continua sendo essencial.
Para montar o ranking, a Legal Guardian Digital considerou variáveis, como a frequência de respostas falsas, satisfação do cliente, consistência e qualidade das respostas e taxa de disponibilidade (uptime). A partir disso, foi criado um score geral de 0 a 100, que pondera diferentes métricas além da taxa de erro
-
Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.
-
Nesse ranking de índice, o Perplexity AI ficou em primeiro lugar com 85 pontos, seguido pelo Grok (79) e pelo DeepSeek (76). Já o ChatGPT apareceu apenas na 6ª posição, com 50 pontos, enquanto o Google Gemini terminou em 8º lugar, com 41 pontos. O Meta AI fechou a lista, com apenas 37 pontos.
Além disso, o levantamento detalhou quais modelos se destacaram em critérios específicos. Em satisfação do cliente, DeepSeek e ChatGPT dividiram a liderança com nota 4,7 de 5, enquanto a Meta AI ficou na última posição, com 3,4. Já no critério de consistência e qualidade, o destaque foi o Kimi, com a maior pontuação da categoria (4,3 de 5). Em disponibilidade, apenas Perplexity AI e Grok mantiveram 100% de uptime durante o período analisado, já o Claude teve o menor índice (98,68%).
Ranking das IAs que mais alucinam
A porcentagem é a taxa de alucinação, ou seja, em quantas respostas a IA deu informação errada dentro do teste. Confira o ranking:
- Google Gemini: 32%
- ChatGPT: 30%
- Kimi: 27%
- Microsoft Copilot: 27%
- Meta AI: 25%
- Claude: 20%
- Grok: 15%
- DeepSeek: 14%
- Perplexity AI: 13%
Dessa forma, o Gemini tem 32%, o que significa que a cada 100 respostas analisadas, cerca de 32 continham algum dado factualmente incorreto.
Com 30% de alucinação, o ChatGPT teria mais que o dobro de chance de apresentar informações incorretas do que o DeepSeek, que marcou 14%. O detalhe curioso é que o DeepSeek teria sido treinado com apenas uma fração do custo investido pela OpenAI no desenvolvimento do ChatGPT.
Se você gostou do texto, talvez também se interesse por saber como treinar uma inteligência artificial.
Leia a matéria no Canaltech.

