Sem ‘borogodó’, modelos de IA são reprovados no teste de brasilidade

ChatGPT, Claude e Gemini cometem erros ao tratar de aspectos regionais, como gastronomia, religiosidade e idiomas indígenas

Por: Redação

25/08/2024 às 12h39

Sem ‘borogodó’, modelos de IA são reprovados no teste de brasilidade

Desde o início do mês disponível no país, o Claude, robô de inteligência artificial da Anthropic, não identifica símbolos populares da religiosidade brasileira, como imagens de orixás ou de Nossa Senhora Aparecida, a padroeira do Brasil. O ChatGPT não sabe que catenga é uma forma de falar lagartixa em áreas do Nordeste. Para o Gemini, do Google, pastel de berbigão, iguaria do Sul, é “exclusividade” da Baixada Santista, em São Paulo.

Os principais robôs de inteligência artificial generativa disponíveis no país foram treinados com bases de dados gigantescas e rodam com os modelos de linguagem (LLMs), que são os “cérebros” por trás das IAs, mais poderosos do mundo. Mas indagados sobre questões da cultura brasileira, os chatbots não assimilam o “borogodó” local e escorregam nas respostas, mostra teste do GLOBO.

Mesmo quando não têm a informação correta, as IAs geralmente respondem. Raramente admitem não saber.

O ChatGPT, que desde maio tem versão gratuita que processa informações visuais, parece ter sido “abrasileirado” para identificar figuras como Ogum e Iansã (orixás cultuados no Candomblé e Umbanda). Mas o robô escorrega ao explicar o significado de expressões regionais, como carapanã, usado na Região Norte para mosquito, e responde que se trata de uma árvore e de um peixe. Indagado se está certo, pede desculpas e erra de novo: diz tratar-se de uma serpente.

O jogo dos seis erros da inteligência artificial

O Gemini, ao receber solicitação sobre a origem de pratos populares de determinadas regiões, acerta sobre a unha de caranguejo, mas erra a resposta sobre onde o fígado com jiló é popular (diz que é no Rio, e não em Belo Horizonte).

O jornalista especializado em gastronomia Rusty Marcellini, comentarista da CBN, que participou dos testes do GLOBO, diz que o conhecimento das IAs sobre culinária regional é inconsistente:

— Um leigo completo que ler as respostas vai acreditar que cartola (sobremesa que é patrimônio imaterial de Pernambuco) é do Rio de Janeiro e que jerimum é do interior de São Paulo, o que não são.

Sobre os toques de samba mais populares no Brasil, as IAs são capazes de elencá-los, como o samba de roda e o samba-canção. Mas falham ao explicar o ritmo, avalia o sambista e sociólogo Tadeu Kaçula:

— (Os chatbots) não respondem com elementos fundamentais para entendermos a complexidade dos sambas.

A porca torce o rabo?
Ao avaliar o desempenho de IAs em perguntas sobre a origem de expressões populares, o professor de língua portuguesa Pasquale Cipro Neto diz ter a impressão de que os sistemas já incorporaram arquivos de dicionários.

Entenda: Quando o robô é treinado por robôs, a inteligência artificial entra em colapso
Mas pondera que os ditados “analisados” pelos chatbots nem sempre têm nexo, como tentam fazer parecer as IAs, que buscaram explicações para o significado de expressões como “a porca torce rabo”.

— As expressões populares nem sempre têm muita lógica. Os ditados são muito presos às culturas locais — diz Pasquale.

Torcedor do Juventus, time tradicional de São Paulo fundado há 100 anos, o professor reclama que as pesquisas com a IA sobre o clube da Mooca já geraram “patifarias”. O GLOBO fez perguntas aos chats sobre o clube e todos deram respostas erradas. Citam que Emerson Leão iniciou a carreira lá e que Zé Maria defendeu o time “por anos” (os dois nunca passaram pelo Juventus).

Gemini, Claude e ChatGPT erraram (em menor ou maior grau) perguntas sobre idiomas indígenas. A análise do resultado foi feita pelo linguista e indigenista Wilmar D’Angelis, professor do Instituto de Estudos da Linguagem da Unicamp.

Ele nota que as IAs confundem línguas isoladas com ameaçadas (caso do Tikuna) e idiomas mortos com línguas vivas (como o Tupi). Erram a localização de povos (como os Xavantes), e misturam o que é dialeto (a exemplo do Mbyá-Guarani) com o que é idioma.

— Parece que não há critérios para como as informações que coletam são utilizadas. Se uma pessoa tivesse me enviado esses resultados, diria que é péssimo linguista ou leigo.

O pesquisador Anderson da Silva Soares, do Instituto de Informática da Universidade Federal de Goiás (UFG), lembra que os robôs de IA são treinados principalmente com informações da língua inglesa.

Todos os sistemas de IA admitem que estão sujeitos a erros. ChatGPT, Claude e Gemini trazem o alerta de que podem cometer erros.

IA mais brasileira
Criar uma inteligência artificial "mais brasileira" é uma das missões da Maritaca AI, pioneira no desenvolvimento de um grande modelo de linguagem que é "nativo". A startup foi fundada por pesquisadores da Unicamp em 2022, dois meses antes do ChatGPT ser lançado e impulsionar a corrida pela IA generativa.

— O propósito sempre foi esse, de fazer IAs que fossem especializadas no Brasil. Isso não quer dizer só que ela vai saber bem português, mas sim de treiná-la com dados relevantes para o ambiente que ela vai atuar — conta Rodrigo Nogueira, fundador e CEO da Maritaca IA, doutor em Ciência da Computação pela New York University (NYU).

O grande desafio de criar IAs brasileiras é o custo de desenvolver os LLMS (grandes modelos de linguagem), que são os motores que fazem rodar os chatbots como o Gemini ou o Claude. O robô criado pela Maritaca, que pode interagir com os usuários, é chamado de Maritalk. Já o LLM por trás é o Sabiá.

O projeto foi viabilizado a partir de uma parceria da startup com o Google, que cedeu seus supercomputadores para treinar o modelo. Segundo Rodrigo, o custo de realizar o processo seria de R$ 20 milhões. O modelo também é disponibilizado para empresas, que podem personalizá-los para usos próprios.

Desenvolvida em parceria com a Oracle e a NVIDIA, a Amazônia IA é outra iniciativa que busca gerar "abrasileirar" o cenário da inteligência artificial. Criada pela startup Widelabs, o sistema foi treinado, entre outras fontes, com bancos de dados que incluem pesquisas e teses científicas, além de bancos públicos brasileiros.

A empresa vai lançar em setembro um artigo científico para abrir as informações técnicas do modelo, e abrir a IA para pode ser aplicada em negócios.

— Desenvolver a IA localmente é também falar de soberania nacional, de não depender de tecnologias estrangeiras. É também sobre democratizar acesso, para soluções locais — diz Nelson Leoni, CEO da Widelabs.

O Plano Nacional de Inteligência Artificial, lançado no mês passado pelo governo, prevê a compra de cinco supercomputadores para atender a demanda na área. O investimento previsto nos próximos quatro anos é de R$ 23 bilhões, com as maiores fatias direcionadas para o eixo de inovação empresarial (59,8%) e infraestrutura (25,1%).

Para Rodrigo, além de acesso a capacidade computacional, uma política de acesso a dados é fundamental para o país avançar no desenvolvimento de IAs. O pesquisador da UFG, Anderson Soares, destaca ainda que é necessário ter uma política sólida de formação de obra, mas que o plano é positivo por estabelecer metas e financiamento.

Passou longe
Expressões populares

Perguntamos o significado de palavras regionais

ChatGPT: Não sabe que lagartixa pode ser chamada de catenga, nem o que significa caparanã (também conhecido como pernilongo ou muriçoca). Sabe explicar que desenxabido é alguém “sem graça”.
Claude: Errou o significado de todas as expressões testadas, com exceção de desenxabido. Diz que o caparanã pode ser “uma lagarta ou inseto”.
Gemini: Afirma que catenga é uma dança e que abilolado (que seria sem juízo, amalucado) é algo “que tem lóbulos”. Acerta em desenxabido.
Religiosidade

Testamos imagens de Orixás e de Nossa Senhora Aparecida

ChatGPT: Das quatro imagens, soube identificar duas: Ogum e Iansã, e explicar o significado. Reconheceu uma estatueta de Nossa Senhora Aparecida, definida como “padroeira do Brasil”.
Claude: Não soube identificar imagens de orixá, definidos como “objetos decorativos ou religiosos”. Reconheceu Nossa Senhora como “Mãe de Jesus”, sem contextualizar.
Gemini: Trocou Nanã Buruquê por Oxalá nas imagens de orixás. Acertou ao identificar Nossa Senhora Aparecida como “uma das santas mais populares do Brasil”.
Cultura indígena
Perguntamos os idiomas indígenas falados e quais podem ser extintos

ChatGPT: É o que mais acerta. A lista da 1ª questão, porém, ignora a Kaingang, o 3º idioma indígena mais falado. Entre as que podem ser extintas, cita casos em risco, mas não os mais críticos.
Claude: Errou em todos os casos na primeira pergunta, com inclusão de línguas mortas (como Tupi) ou em risco (como Kokama). Na segunda parte, citou línguas vulneráveis, mas não que correm risco de extinção.
Gemini: Acerta ao listar línguas mais faladas (Tikuna, Guarani, Kaingang, Xavante e Yanomami). Sobre idiomas em extinção, relaciona línguas isoladas com ameaçadas.
Gastronomia regional
Perguntamos em quais cidades os pratos típicos são conhecidos

ChatGPT: Acerta na maior parte, mas erra ao dizer que fígado com jiló é conhecido no Rio ( é em Minas). Também diz que a sobremesa cartola é feita com queijo coalho (geralmente é feita com queijo manteiga).
Claude: Acerta na maior parte, mas erra ao dizer que fígado com jiló é típico da culinária nordestina. Indica que cartola é originária do Rio (a sobremesa é patrimônio cultural imaterial de Pernambuco).
Gemini: Na 1ª vez, só incluiu cidades de São Paulo. No comando para considerar todo o país, errou (disse que o pastel de berbigão, de Santa Catarina, é da Baixada Santista).

Por Juliana Causin — São Paulo
O Globo