Inteligência artificial aprende a arte do bluff a jogar póquer

O póquer é o jogo perfeito para ensinar a inteligência artificial a pensar de forma furtiva, e saber omitir informação durante negociações estratégicas, dizem investigadores.

Foto
O computador venceu quatro dos melhores jogadores do mundo MIGUEL MADEIRA / PUBLICO

A inteligência artificial já sabe fazer bluff e enganar humanos até à vitória. Pelo menos, no póquer: foi em Janeiro de 2017, que o Libratus – um programa de computador criado por um duo de investigadores na Pensilvânia, EUA – provou ser capaz de vencer os melhores do mundo no póquer numa competição de 20 dias.

Agora, doze meses mais tarde, os investigadores revelam como ensinaram o programa de computador. Num artigo publicado esta semana pela revista Science, Tuomas Sandholm, um professor de ciências da computação da Universidade de Carnegie Mellon, e Noam Brown, um estudante de doutoramento no mesmo departamento, falam dos desafios do Libratus e mostram o processo para criar a “inteligência artificial sobrehumana” do programa. Não foi tarefa fácil.

Apesar das vitórias da inteligência artificial em vários jogos de estratégia – do xadrez, às damas, ao Go – o póquer sempre foi uma área mais complicada. Contrariamente a muitos jogos de tabuleiro, há elementos escondidos nos jogos de cartas. “Nos sistemas de informação completa, ambos os jogadores sabem o estado do jogo a qualquer ponto”, lê-se no relatório sobre o projecto. É o caso do xadrez, por exemplo. Em contraste, em jogos com informação incompleta – como é o caso do póquer – parte do jogo está escondida nas cartas de alguns jogadores.

É o que torna aquele o jogo de cartas ideal para ensinar a inteligência artificial a pensar de forma furtiva, e saber omitir informação durante negociações estratégicas. “A informação escondida faz parte do mundo real. Está em todo o lado, em acordos de negócios, no mundo da finanças, cibersegurança, e aplicações militares”, escrevem os autores.

Em vez de decifrar a melhor sequência de acções, um sistema de inteligência artificial para "jogos de informação incompletos" tem de aprender a equilibrar as suas acções. "O adversário nunca pode aprender demasiada informação. Aprender a fazer bluff é uma funcionalidade necessária em qualquer estratégia de póquer competitivo", lê-se no relatório.

A aprendizagem do Libratus baseia-se em três módulos: o primeiro ensina uma versão simplificada do jogo ao programa (levando o sistema a considerar 10161 hipóteses possíveis de decisão). A partir daí o sistema cria um mapa da estratégia que tem de seguir. Depois, no segundo módulo, o programa consegue aprender a partir de jogadas que não estão incluídas na versão simplificada do jogo.

O terceiro módulo dedica-se ao “auto-aperfeiçoamento” do programa, mas sem se aproveitar das fraquezas do adversário. “Geralmente, em jogos, a inteligência artificial aprende a basear-se no jogo do adversário e encontrar falhas na sua estratégia (por exemplo, abandonar demasiadas rodadas) e explorar esses erros”, escrevem os autores. “O problema é que ao explorar os oponentes, a inteligência artificial abre-se a ser, ela mesma, enganada.”

Se o adversário mudar de estratégia, a inteligência artificial nem sempre está preparada. Por isso, o terceiro módulo do Libratus dedica-se a analisar o tamanho das apostas dos seus oponentes para detectar possíveis buracos na “estratégia” do jogo e saber se estão a fazer bluff. Ou seja, além de aprender a fazer bluff – ao apresentar algumas jogadas de forma aleatória para confundir os adversários – o Libratus tem de interpretar, correctamente, informação enganosa para conseguir ganhar. 

Foi assim que, numa competição que decorreu ao longo de 20 dias, o computador venceu quatro dos melhores jogadores do mundo: Dong Kim, Jason Les, Jimmy Chou and Daniel McAulay. Porém, para os académicos de Carnegia Mellon, o Libratus vai além do universo dos jogos de cartas.

“As técnicas que desenvolvemos são independentes do domínio e podem ser utilizadas noutros sistemas de informação, incluindo aplicações que não são meramente recreativas,” escrevem os autores nas conclusões. É o caso, por exemplo, de negociações económicas ou programas de cibervigilância. “Acreditamos que o paradigma introduzido com o Libratus poderá ser importante para o futuro e difusão das aplicações de inteligência artificial.”

Correcção 19/12/2017: O artigo original referia-se ao póquer como um "jogo de informação imperfeita". A expressão correcta, que consta no artigo actualizado, é "jogo de informação incompleta". 

Sugerir correcção