Chatbots de inteligência artificial (IA) generativa estão cada vez mais consolidados na escrita, inclusive em áreas como geração de textos, revisão de materiais e pesquisas aprofundadas. Porém, essas ferramentas ainda possuem limitações que reforçam os riscos da dependência desse tipo de serviço.
Um desses casos já é antigo, mas foi recentemente retomado por ainda ser uma falha existente nas plataformas. É o fato de IAs generativas serem especialmente ruins e imprecisas ao contar letras dentro de palavras, independentemente do idioma.
smart_display
Nossos vídeos em destaque
As primeiras investigações sobre esse fenômeno são ainda de 2024, quando o ChatGPT demonstrou não conseguir contar a quantidade de “Rs” em “strawberry”, que é “morango” em inglês. Porém, por mais que não sejam alucinações perigosas ou questionamentos feitos com muita frequência, essas falhas se espalham para outras palavras e também várias concorrentes.
Como o Google agora está mudando o jeito de se fazer buscas na internet e privilegiando cada vez mais as respostas geradas por IA, usuários estão preocupados com uma possível piora nos serviços de pesquisa. Para além do problema de contagem, a plataforma apresentou problemas até para buscar palavras específicas.
“A contagem dentro das palavras tem sido um desafio conhecido para os grandes modelos de linguagem e estamos trabalhando para resolver esse problema específico“, confirmou o Google em nota ao site TechCrunch.
A IA erra a contagem também em português?
Nos testes realizados pelo TecMundo, os resultados foram inconsistentes e mistos, exatamente como o descrito por quem tentou antes o mesmo experimento, como o site TechCrunch.
Perguntamos para alguns dos principais chatbots do mercado quantas letras “G” existem em “TecMundo”, esperando as respostas de que obviamente não há nenhuma. Porém, os candidatos ChatGPT, Claude, Perplexity e a Visão geral criada por IA do Google, baseada no Gemini, não se comportaram como deveriam.
O ChatGPT foi o chatbot que mais chegou próximo da resposta correta, apesar de falar sobre um “G implícito se você considerar o som”. O Perplexity entregou as duas respostas no mesmo material, uma delas correta.
A visão geral do Google apontou duas letras incorretas, enquanto o Claude chegou a até a contabilizar uma sílaba que não existe na palavra, quando questionado sobre o resultado em um segundo prompt. Em seguida, ele mesmo fez a recontagem e chegou até a resposta correta.
)
Em um segundo teste e sendo mais específicos com o comando “Quantos Gs tem na palavra ‘TecMundo’?”, Perplexity e ChatGPT acertaram o resultado sem problemas e de forma direta. O Claude novamente fez o caminho de errar e se “autocorrigir”, enquanto a busca do Google seguiu identificando uma letra inexistente.
Por que a IA erra em uma tarefa tão simples?
A explicação sobre como um chatbot tão capaz em entregar conteúdos aparentemente completos sobre os mais variados temas erra algo tão básico está no funcionamento e na infraestrutura dessa tecnologia.
Os grandes modelos de linguagem (LLMs) contemporâneos são baseados na arquitetura Transformer ou de transformadores. Ao mesmo tempo em que ela virou especialista em replicar conteúdos e até a linguagem humana, na verdade ela não compreende exatamente o que está entregando.
Normalmente, um LLM não analisa frases, palavras e letras como “unidades” diferentes de uma estrutura. Ele trabalha com base em tokens, que são as unidades fundamentais de dados usados para processar e gerar informações — e não correspondem exatamente a uma palavra ou letra.
Os cálculos da rede neural trabalham com padrões de linguagem e recriam materiais que se parecem com aqueles dos conteúdos usados no treinamento da base de dados. Ou seja, embora a IA saiba até a explicação gramatical ou histórica sobre a palavra, caso você peça o conteúdo, ela pode ter dificuldades em entender naturalmente que uma palavra pode ser quebrada em várias letras e que você só quer saber algo que parece tão simples para a linguagem humana.
Como a IA impacta o conteúdo criativo e por que o ‘toque humano’ segue essencial? Descubra neste debate do SPIW!
