top of page
ai_abre4_edited.jpg

Chatbots e o ano da inteligência artificial

Entrevista

Marcelo Finger

Professor titular da USP e coordenador do grupo NLP2 do Center for Artificial Intelligence fala sobre os chatbots, o grande desenvolvimento do processamento de linguagem natural e as pesquisas para levar o português ao nível das principais línguas na inteligência artificial 

finger_dentro.webp
Sobre

Professor titular da Universidade de São Paulo (USP), é pesquisador principal do Center for Artificial Intelligence (C4AI), onde coordena o grupo NLP2 de processamento de linguagem natural em português. É editor das revistas South American Journal of Logic, São Paulo Journal of Mathematical Sciences e editor convidado da Theoretical Computer Science e da Anals of Mathematics in Artificial Intelligence. Possui graduação em Engenharia Eletrônica pela USP, mestrado em Foundations of Advanced Information Technology e doutorado em PhD in Computing, ambos pelo Imperial College. Realiza pesquisas principalmente nos temas Lógica, Inteligência Artificial, Humanidades Digitais e Linguística Computacional.

FCW – Nos últimos anos, a inteligência artificial tem experimentado uma grande efervescência, com muitas pesquisas, projetos, ideias e novidades, inclusive no Brasil, como vemos com o C4AI. Quais são as principais causas do momento atual na área?

Marcelo Finger – Primeiramente, é preciso dizer que, como em diversas áreas tecnológicas, na inteligência artificial há muito hype, muito exagero, o que não é bom do ponto de vista científico. Ficamos sem saber o que é ciência e o que é barulho. Acontece que descobrimos recentemente um veio muito promissor. Se alguém falasse há apenas dez anos que estaríamos hoje fazendo o que fazemos eu não acreditaria e olha que trabalho com computação há 30 anos. Mas falando sobre o veio promissor e o momento atual, na inteligência artificial há três grandes áreas principais: a simbólica, baseada na lógica formal e suas variantes; a área baseada em modelagem probabilística; e a área com base em processamento neural. Existem outras, mas essas são os três grandes motores da inteligência artificial e o impulso recebido particularmente pela área de processamento neural foi gigantesco. Do ponto de vista científico, mostrou-se algo que a comunidade não sabia, que é a capacidade das redes neurais artificiais de reconhecerem padrões relevantes a partir de uma grande quantidade de dados. E essa capacidade recebeu dois impulsos fundamentais: as grandes quantidades de dados com a explosão da internet e a grande capacidade de processamento com as GPUs, as unidades de processamento gráfico. Quer dizer, de um lado, temos muitos dados. Do outro, mais capacidade para processar esses dados. Tanto que nas ferramentas mais recentes a quantidade de dados e de parâmetros processados é absurda, da ordem de trilhões de parâmetros – e não estou falando de forma hiperbólica – e muitos gigaflops de processamento. Tudo gigantesco. Mas se isso coloca em evidência a capacidade de processamento, por outro lado leva a uma série de problemas, como problemas de desigualdade. Quem tem acesso a tantos dados? Quem tem acesso a tanto processamento? A OpenAI, por exemplo, para rodar os algoritmos GPT3, como os do ChatGPT, usa uma rede de supercomputadores. Não estamos falando de um ou dois supercomputadores mas de algo massivo, capaz de rodar em semanas processamentos que há alguns anos seriam impensáveis. 

 

FCW – Quer dizer, são poucas empresas, instituições e mesmo países capazes de fazer isso. 

Marcelo Finger – Além da desigualdade econômica, tem outras questões. Em pesquisas em linguagem natural, por exemplo, há muito mais dados para o inglês e o chinês do que para outras línguas. Outro ponto é que os dados disponíveis não passam por uma curadoria. Os preconceitos sociais e outros problemas acabam sendo reforçados por que não estão explícitos, mas estão subjacentes nos dados. Preconceitos de gênero, de raça ou o que mais for estão nos dados. Isso abre o potencial de continuar reproduzindo as informações enviesadas contidas nos dados disponíveis.  

 

FCW – O que se pode fazer para evitar os vieses contidos nesses dados?

Marcelo Finger – Os novos sistemas já estão sendo feitos para detectar vieses, sejam programas de texto ou de reconhecimento de voz. Por exemplo, para fazer a transcrição do que alguém está falando em um texto escrito em português precisamos detectar as perturbações da voz no sinal sonoro, que é um viés, e tentar transformar aquilo, mas vem junto uma série de outros vieses culturais ou sociais. 

 

FCW – Os chatbots, sistemas que usam a inteligência artificial para conversar com pessoas, estão em evidência por conta do ChatGPT e do LaMDA. Alguns dizem que eles mudarão a forma como os humanos se relacionam com a tecnologia. O que acha disso? 

Marcelo Finger – Não sou do ramo da bola de cristal, mas estamos sempre mudando. Foi assim com o transistor, com o computador e com a internet. Sobre esses novos chatbots, toda tecnologia surpreende no começo, mas depois que você passa a usar, percebe o limite. Antes, não havia expectativa e ela apresenta algo e você se impressiona, mas depois se acostuma, sua expectativa cresce e daqui a pouco ela é ultrapassada. Todo sistema obsolesce por uso, exatamente por que a expectativa do usuário muda. O sistema continua igual, mas você espera cada vez mais dele e o sistema vai ficar obsoleto por uso. Isso aconteceu com todos os sistemas e não vejo motivo para que seja diferente com os novos chatbots. Mas isso não é ruim, além de ser inevitável. É da própria natureza da inovação, não apenas em inteligência artificial mas em todas as áreas. Antigamente, essa curva era muito lenta. Nas tecnologias agrícolas, por exemplo, levava muito tempo para se perceber o que era ruim e o que era bom. Era preciso plantar uma, duas, dez vezes, uma geração de agricultores passava seus conhecimentos para a seguinte. Agora, é muito rápido. O ciclo entre atuar no sistema e detectar suas limitações é muito rápido. 

 

FCW – Tecnicamente, qual é a sua opinião sobre o ChatGPT, que você testou logo após o lançamento?

Marcelo Finger – O ChatGPT deriva de uma tecnologia de 2017 que foi sendo desenvolvida e no ano seguinte entrou em cena a questão do treinamento de redes neurais por transferência de conhecimento (transfer learning), que foi uma inovação importante. Além disso, há o uso da força bruta, da capacidade de processamento gigantesco por trás do ChatGPT. De qualquer maneira, é uma tecnologia limitada, não é ainda o que estão falando, de que poderemos conversar com máquinas, que terão consciência, essa coisa toda. É uma tecnologia que não funciona como o cérebro humano, aliás, não funciona como o cérebro de nenhum animal. Não é nem parecida, é fracamente inspirada no funcionamento de neurônios biológicos.

 

FCW – Como assim?

Marcelo Finger – Até mesmo uma lesma marinha, que não tem cérebro, mas apenas alguns gânglios de neurônios, é mais sofisticada do que um sistema atual de inteligência artificial. Todo sistema baseado em neurônios funciona da seguinte maneira. O ser toma uma atitude, uma ação no ambiente e nota o efeito que teve essa ação. Então faz outra coisa, nota o efeito e compara. Se tem um objetivo, vai tentando se moldar a esse objetivo para chegar onde quer. Por exemplo, estou olhando para a tela nesse momento, enquanto conversamos. Parece que estou olhando fixamente, mas não estou. O olho humano dá umas sacadas, pequenos saltos em várias direções e compara o tempo todo, ele não fica quieto. Quando olhamos fixamente, no fundo não estamos olhando fixamente. Os olhos dão pequenos saltos e cada salto vê uma parte pequena da imagem, o resultado é composto e percebido. Os chatbots não funcionam dessa maneira. Eles pegam dados, aprendem e fazem alguma coisa, mas não atuam no ambiente. São tremendos reconhecedores de padrões. Você fornece um monte de dados e ele aprende os padrões, o que há alguns anos não se achava possível de fazer. E são muitos padrões. Tem os bons e os ruins, tem alguns tão sutis que nem sabemos que estão lá, só descobrimos depois de usar o sistema um bom tempo. A grosso modo, é isso o que um chatbot faz. Ele não faz o equivalente a interagir com o meio e observar, interagir de modo um pouco diferente e comparar para então tomar uma decisão. Novamente a lesma marinha, que foi um animal muito usado para estudar memória, precisa se locomover, se alimentar, reproduzir e muito mais na interação com o meio. Os neurônios propagam impulsos nas lesmas marinhas da mesma forma como fazem nas lulas ou em qualquer outro animal. Os novos sistemas de processamento de linguagem natural têm uma competência impressionante e usam métodos neurais capazes de aprender padrões de forma inimaginável há apenas dez anos, mas estão muito longe dos sistemas de neurônios dos seres vivos.  

 

FCW – Por que é tão difícil para uma máquina conversar? O que torna a linguagem natural algo tão complexo para reproduzir ou recriar?

Marcelo Finger – Diferentemente da Física, da Química e da Biologia, que estudam sistemas naturais, a linguagem não é um sistema físico ou químico, ela existe no cérebro humano e não é observável. Não observamos a gênese da linguagem, observamos a linguagem. Em um fenômeno físico, por exemplo, há elétrons, partículas, equações, você testa algo em um estudo e às vezes dá certo, em outras dá errado e vão se formando teorias. A linguagem é um fenômeno 100% restrito ao cérebro. Mesmo se abríssemos a cabeça de alguém para estudar a linguagem, uma suposição absurda, ainda assim não veríamos como ela funciona. Podemos ver as árvores, mas não a floresta. Por muito tempo nos estudos de linguagem houve uma disputa entre examinar a introspecção, para ver o que as pessoas pensam, ou a performance, que é o texto. Nas décadas de 1960 ou 1970, nas pesquisas em inteligência artificial sobre linguagem, a performance estava em segundo plano. Diziam que as pessoas falavam errado, de modos diferentes, que seria impossível processar tantas variações, tantos dados, que era preciso examinar a introspecção, a gramaticalidade e perguntar para o falante. Mas com o processamento de big data, passamos a olhar para a performance e conseguimos captar uma série de padrões sociais, culturais e linguísticos. Até a década de 1990, analisávamos apenas a introspecção e hoje, com as redes neurais, é 100% performance. Há críticos que dizem que conseguimos captar esses padrões mas que isso não significa que sabemos ou aprendemos alguma coisa sobre linguagem. Mas essa é uma briga boa, essa tensão entre conceitos e visões faz a ciência evoluir. 

 

FCW – Como o uso das redes neurais para a análise de quantidades gigantescas de dados tem contribuído para o conhecimento sobre linguagem? 

Marcelo Finger – Quando se faz um processamento de big data, capturamos muitos padrões, mas que não explicam como a linguagem funciona. É como se ainda estivéssemos tentando voar batendo as asas. A humanidade levou muito tempo tentando copiar o bater de asas dos pássaros até que entendeu a dinâmica dos fluidos, a aerodinâmica, e hoje temos aviões que voam sem precisar bater as asas. Com as redes neurais, conseguimos bater as asas, imitar, ter alguma performance, só que não temos uma compreensão exata do que é linguagem, mas estamos progredindo. Ficou claro que conseguimos detectar padrões muito interessantes. Por exemplo, uma de nossas pesquisas recentes surgiu com a Covid. Estamos trabalhando com a detecção pela voz de insuficiência respiratória, que é a condição que te leva para o hospital. Todo mundo que tem um trato respiratório está sujeito a ter insuficiência respiratória. 

 

FCW – É o Estudo Spira, certo? Poderia falar sobre ele e os resultados?

Marcelo Finger – Na primeira fase da Covid, tivemos ajuda de estudantes de medicina para a coleta de dados, de gravações de áudio com pacientes. Conseguimos chegar a 91% de acerto. Hoje estamos com 96,5%. Nem em sonhos eu achava que conseguiríamos detectar insuficiência respiratória em doentes de Covid com essa porcentagem. Usamos redes neurais para identificar padrões que antes não se conhecia. Ao mesmo tempo, analisamos propriedades da voz, de fonoaudiologia, de fonética, de fonologia, propriedades digamos mais tradicionais e comparamos com os padrões identificados pelas redes neurais. E o fenômeno que estamos notando é linguístico, não é uma vibração, um espectro de frequência. Para simplificar, as redes neurais aprendem a esperar, aprendem o padrão normal de pausas na voz e quando esse padrão é quebrado identifica a insuficiência respiratória. Em suma, quando o ser humano fala, ele tem um determinado padrão. Quando fala com insuficiência respiratória tem outro padrão e as redes neurais são capazes de detectar isso. Quem quiser contribuir com o estudo pode enviar uma gravação pelo site spira.ime.usp.br

 

FCW – Quais são os objetivos dos estudos feitos com linguagem natural no NLP2, o grupo que coordena no Center for Artificial Intelligence (C4AI)?

Marcelo Finger – O objetivo inicial do NLP2 é tirar o português do nível das linguagens com baixos recursos, quer dizer, com poucos dados disponíveis para pesquisas em inteligência artificial. Não sei se conseguiremos chegar ao nível do inglês e do chinês, mas queremos levar o português ao patamar do espanhol ou do francês. Primeiramente o português brasileiro e depois, eventualmente, o português falado em Portugal ou na África. Avançamos principalmente em três frentes. A primeira é a de textos em português em geral. Tem que ter textos, muitos textos, para poder treinar os modelos de linguagem natural e para fazer estudos de linguagem. E em nossos textos sabemos a origem, de onde vêm e quando foram baixados. Na maioria dos córpus linguísticos feitos pela web não se sabe do direito de publicar ou não, em geral não se sabe de onde veio, se o texto está inteiro ou se é apenas um pedaço. Não é o nosso caso e estamos falando de muito texto. Com menos de dois anos de trabalho, conseguimos chegar a 650 milhões de palavras e queremos chegar à ordem do bilhão em 2023. Além disso, temos textos marcados, sabemos sujeito, predicado, verbo, qual a classe gramatical de uma palavra, a chamada etiqueta morfossintática. Isso tudo tem que ser anotado em um trabalho muito minucioso e que requer o emprego de especialistas treinados em linguística para utilizar um determinado processo, um método de etiquetagem, é algo que leva tempo e custa caro. Trabalhamos com textos gerais, com textos marcados e com voz transcrita. Pessoas falando, depoimentos de vida, conversas, entrevistas, o que for, tudo transcrito. Falas com legendas.

 

FCW – Com todas essas palavras etiquetadas e processadas, com todos esses dados, que aplicações poderão ser desenvolvidas?

Marcelo Finger – É um trabalho cujo resultado permite o desenvolvimento de muita coisa. Por exemplo, de um transcritor do português, de um sistema para classificar o falante, de um identificador de autoria. Já temos aplicações, como o Spira, com o reconhecimento de insuficiência respiratória. Estamos também fazendo um software para medir a fluência de leitura em crianças. Medimos quantas palavras elas estão lendo por minuto e quantas são as palavras corretas e as erradas. Se estão lendo bem ou não. Há fatores como entonação, difíceis de identificar, mas vamos aprender. Já temos 600 horas de gravações e queremos chegar a 1,2 mil. Ter mais dados permite desenvolver atividades voltadas para a nossa linguagem, como a fluência da leitura em português. 

 

FCW – Onde ficam ou ficarão esses dados? Serão abertos para que outros pesquisadores e interessados possam utilizá-los?

Marcelo Finger – É uma base toda aberta, todos os dados já processados estão disponíveis em bases públicas. Os 650 milhões de palavras do Corpus Carolina, um corpus geral do português brasileiro contemporâneo, estão por enquanto em dois lugares, no Hugging Face, um site com dados de redes neurais, e no Portulan Clarin, que é um site de recursos do português em geral. Estamos também atrás de recursos para que possamos, no C4AI, hospedar e disponibilizar publicamente nossos dados.  

Entrevista e edição: Heitor Shimizu

Publicado em: 23/01/2023
Entrevista concedida em: 12/12/2022

Foto: Márcia Yamamoto / Alesp (Ciclo ILP-FAPESP)

Revista FCW Cultura Científica v. 1 n 1 janeiro - março 2023

bottom of page