“Não vamos criar inteligência a sério nos próximos tempos”

Entrevista a Adam Cheyer, investigador em inteligência artificial e criador da Siri, o assistente pessoal do iPhone.

Foto
Enric Vives-Rubio

A Siri é a aplicação que serve de assistente pessoal no iPhone e no iPad. É provavelmente o mais próximo que existe no mercado de Samantha, o software ultra-inteligente a que Scarlett Johansson dá voz no recente filme Uma História de Amor, no qual um homem se apaixona por um sistema operativo. Um dos criadores da Siri, Adam Cheyer, esteve este sábado em Lisboa, para falar de empreendedorismo, numa conferência chamada Go Youth.

Cheyer trabalhou vários anos como investigador na área da inteligência artificial e foi director no maior projecto nesta área feito nos EUA, financiado pelo Departamento de Defesa. Em 2007 criou a empresa por trás da Siri. Em 2010, juntamente com os outros fundadores, vendeu-a à Apple por 200 milhões de dólares. Numa entrevista ao PÚBLICO, explicou que não estamos sequer perto de criar inteligência artificial da forma como as pessoas tipicamente a concebem e que a Siri está muito longe de poder ser uma Samantha.

A Apple tirou algumas funcionalidades da Siri, para a adaptar à estratégia comercial. Está contente com a forma como a tecnologia da aplicação se transformou num produto nas mãos da Apple?
Houve muitas versões da Siri. Como criei muitas delas, gosto de todas. Toda a gente sabe o que lá está agora, mas muito ficou pelo caminho. A versão original da Siri, por exemplo, fazia uma chamada para o telemóvel se precisasse de contactar o utilizador. A versão da Apple não faz isso. Mas tem coisas que eu nunca tinha feito nas versões anteriores. As versões anteriores não tinham voz. O utilizador falava e a Siri respondia com texto.

Vê a interação por voz como algo que se pode massificar? Há os problemas das diferentes linguagens, até dos diferentes sotaques.
O reconhecimento de voz tem-se tornado melhor a cada ano. Há dois anos, fiz uma previsão de que os cinco anos seguintes seriam os do maior salto em termos de tecnologia de reconhecimento de voz.

O reconhecimento de voz assenta em algoritmos e em hardware. Mas é sobretudo um problema de dados. Para se construir um sistema de reconhecimento de voz, é preciso recolher o áudio e alguém o transcreve. E o sistema aprende: quando ouve um som, aprende que corresponde a uma palavra. Antes, não havia muitos dados disponíveis. Havia os noticiários na televisão (para alguns havia legendas) e os discursos dos políticos, de que existe a versão escrita. Portanto, desde que o utilizador falasse como um pivô de televisão, funcionava muito bem. Mas se fosse uma criança ou tivesse um sotaque regional… Mas, hoje, quem usa a Siri, ou o sistema do Google, tem um telemóvel. São geolocalizados. Por isso, temos dados regionais [sobre a forma como as pessoas falam]. Os sistemas de reconhecimento de voz funcionam bem para alguns utilizadores. Acho que, por causa de todos estes dados, vão começar a funcionar bem para toda a gente.

O ecrã do iPhone trouxe novas formas de interacção com aparelhos. Mas também temos mecanismos que estão cá desde antes da computação pessoal, como o rato. Vão tornar-se obsoletos?
Disse isto ao Steve [Jobs] na nossa primeira reunião: se está no ecrã, a forma mais fácil é interagir directamente. Se é o ecrã do computador, então usamos o rato para clicar e arrastar. O iPhone redefiniu o que é interagir com o ecrã, graças aos gestos. Foi uma revolução. Mas se estamos fora do ecrã, a melhor forma [de fazer uma tarefa] é pedir. O interface ideal é combinar ambos de uma forma tão contínua que nem pensamos nisso. Podemos estar a falar para interagir com coisas que não estão no ecrã, enquanto trabalhamos com coisas que estão. O rato não vai desaparecer. É mais simples e rápido. Nunca niguém vai dizer “clica no terceiro ícone da esquerda”. Mas o reconhecimento de voz vai ser um sistema cada vez mais importante no dia-a-dia. Ainda estamos muito no início. Até já há filmes, como o Her [Uma História de Amor]... Estamos muito longe disso, mas já é possível perceber para onde estamos a ir.

Ao desenvolver um assistente virtual, qual é o maior desafio? A interacção com humanos ou agregar e compreender toda a informação disponível online?
É difícil escolher um. Tudo é difícil. E nem todos os sistemas são iguais. O Google tem um sistema pro-activo, que tenta adivinhar o que o utilizador quer antes de este pedir. Na Siri, o maior desafio técnico foram as enormes quantidades de dados.

Sistemas como o do Google podem ser estranhos. Não há o risco de se assustar os utilizadores com assistentes virtuais muito inteligentes? Não vou ao ponto de dizer que a Siri tem personalidade…
Tem alguma personalidade.

E não acha que isso pode assustar os utilizadores?
Trabalhei no maior projecto de inteligência artificial nos EUA e posso dizer uma coisa: inteligência é algo que não vai acontecer em breve. No sentido de inteligência com que nos tenhamos de preocupar.

Os computadores não vão tomar conta do mundo...
Não estamos sequer perto. Esses receios vão dissipar-se. A questão é: isto torna a minha vida mais fácil? E a Siri é isso. Na Siri original podia-se dizer “Quero ir a São Francisco com a minha mulher neste fim-de-semana”. E depois dizia-se “Reserva-me um hotel”. Não era preciso estar outra vez a dizer onde era, a Siri mantinha a informação de que era no fim-de-semana e eram duas pessoas. Era a forma mais rápida de fazer aquela tarefa. Acho que as pessoas se vão sentir confortáveis com isto.

Quanto à personalidade, é preciso ter cuidado. Como não vamos criar inteligência a sério nos próximos tempos, não queremos enganar as pessoas.

Quais são os maiores obstáculos a criar inteligência a sério?
O termo inteligência artificial é muito estranho. Quando se atinge uma meta, deixa de ser inteligência artificial. O xadrez, por exemplo, é um dos maiores desafios intelectuais para os humanos. Criámos um computador que ganha ao campeão mundial de xadrez. E vieram logo dizer que não era inteligência. Era só força bruta, era apenas calcular as imensas possibilidades. Ter um sistema de reconhecimento de voz, que reconhece discurso humano sobre vários assuntos, em que não é preciso falar como um robô, com as palavras espaçadas… Hoje já não é considerado inteligência. Mas antes era.
O problema da inteligência artifical é que é um ponteiro em movimento. As pessoas têm um conceito do que é ser humano, do que é ter uma alma, do que é perceber todo este conhecimento comum partilhado pela humanidade e poder usá-lo… Eu posso dizer-lhe “o McDonald’s” e não preciso de dizer “o restaurante chamado McDonald’s”. Não o conheço a si, mas diria que sabe o que é o McDonald’s. Para uma máquina saber tudo isto, ter esta experiência que é partilhada entre pessoas, é muito difícil. Acredito que de cada vez que conseguimos algo novo não é de inteligência que se trata. Aquilo que as pessoas estão à procura como sendo a verdadeira inteligência é difícil e não estamos perto.

Porque queremos algo muito semelhante ao funcionamento do cérebro humano?
O melhor programa de inteligência artificial não pode desempenhar novas tarefas e aprender como faz uma criança de um ano. Fazer tudo aquilo que os humanos fazem é incrivelmente difícil.

Sugerir correcção
Comentar