Inteligência artificial aprende a ver de outra perspectiva

Sistema desenvolvido pela DeepMind analisa imagens de espaços e objectos e foi capaz de aprender sozinho como seria observar as mesmas cenas de outros pontos de vista.

Janela, Design, Ilustração, Design de produto
Foto
Visão artística dos resultados da investigação, representando os objectos em diferentes perspectivas DeepMind

Um humano que olhe para um muro sabe que do outro lado está, pelo menos, o outro lado do muro. Sabe também que a abertura no muro que vê à sua esquerda estaria à direita se por acaso ele próprio se encontrasse do lado oposto. E também tem a noção de que pode haver algo escondido do outro lado, que não é visível do ponto onde se encontra. Este tipo de capacidade de representação do espaço foi agora desenvolvido num sistema de inteligência artificial, embora de forma mais limitada, por investigadores da DeepMind, a cada vez mais falada empresa de inteligência artificial do Google. 

A equipa desenvolveu um sistema para que as máquinas possam “olhar” para imagens bidimensionais de um espaço tridimensional com objectos, conceber como seria esse espaço se o estivessem a “ver” de outra perspectiva e reconhecer que determinados pontos de vista podem esconder elementos – tudo num processo que prescinde de explicações introduzidas por humanos. Os detalhes da investigação são publicados nesta sexta-feira, num artigo científico na revista Science, no qual os investigadores defendem que a técnica é um passo na direcção de “máquinas que aprendem autonomamente a compreender o mundo à sua volta”.

Os investigadores recorreram a redes neuronais artificiais, uma tecnologia popular de inteligência artificial que é vagamente inspirada no funcionamento do cérebro. As redes neuronais já são frequentemente usadas para identificar os elementos de uma imagem, incluindo por empresas como o Google e o Facebook. Tipicamente, usam descrições humanas para aprender o que são os elementos nas imagens (“uma vaca num prado” ou “um automóvel numa ponte”) e para conseguir detectar elementos semelhantes noutras imagens.

O sistema criado pela equipa da DeepMind é composto por duas redes: uma para analisar as imagens bidimensionais e criar uma representação interna do espaço mostrado, e a outra para gerar novas imagens. As imagens que o algoritmo analisou para compreender o espaço não mostravam cenários do mundo real, mas antes cenários significativamente mais simples, que foram criados em computador: salas com algumas estruturas dispersas, como esferas, cilindros e cones. Contudo, as redes neuronais não contavam com a ajuda de uma explicação humana – ninguém dizia aos computadores que um determinado conjunto de píxeis era uma esfera vermelha e que outro conjunto era uma parede preta. Em vez disso, aprenderam sozinhas (através da análise de milhões de exemplos) a identificar elementos como as cores, o tamanho, a textura, bem como a disposição e o número de objectos. A partir daí, quando lhes eram dadas algumas imagens de um espaço tridimensional que nunca tinham visto (nalgumas das experiências, contaram apenas com uma única imagem), as redes neuronais eram capazes de gerar novas imagens que mostravam como seria observar aquele espaço de um ponto de vista diferente (que era determinado aleatoriamente). Estas novas imagens incluíam elementos como a direcção da luz e a projecção de sombras, sem que as máquinas tivessem conhecimento prévio do comportamento da luz ou das regras da perspectiva. 

Para além deste tipo de salas, os cientistas usaram imagens de labirintos virtuais, o que colocava um desafio mais complexo. Nestes casos, conseguiram treinar o sistema para que gerasse tanto novas imagens do labirinto numa perspectiva de primeira pessoa, como imagens do labirinto visto de cima, semelhantes a um mapa. A tecnologia foi ainda usada para controlar um braço robótico virtual, depois de analisadas imagens do braço e do objecto que este devia alcançar.

Em alguns casos, o algoritmo criado pela DeepMind reconhecia que não tinha informação suficiente. Por vezes, a imagem que a máquina recebia era pouco reveladora – por exemplo, como se estivesse a observar a sala de um ponto muito próximo de uma grande esfera, que escondia praticamente tudo o resto. Nestas situações, conseguia gerar várias imagens (“plausíveis”, dizem os cientistas) para mostrar como eventualmente seria ver a sala de outros pontos de vista. Em algumas experiências, a inteligência artificial colocava objectos novos nas imagens geradas. Fosse um humano a fazer o mesmo e dir-se-ia que estava a adivinhar, ou a imaginar, o que poderia existir nas zonas tapadas.

Este sistema “não chega sem as suas limitações”, observa o académico Matthias Zwicker, da Universidade de Maryland, nos EUA, num comentário também publicado na Science. “As experiências estão restritas a cenas 3D simples, que consistem em alguns objectos geométricos básicos. Por isso, continua a não ser claro quão perto está a abordagem deles de compreender ambientes complexos do mundo real, o que a tornaria útil, por exemplo, para implementar um controlo prático de robôs.”

Os investigadores, por seu lado, dizem esperar conseguir aumentar a complexidade das cenas e argumentam que a investigação abre caminho “à compreensão de cenários, à imaginação, planeamento e comportamento sem qualquer supervisão”.