Um Tumba! nacional

O Tumba! é um motor de busca na Web destinado à comunidade portuguesa. Tem mais de um milhar de utilizadores diários e alguns sítios da Web já o usam nas suas pesquisas internas. Indexou os sítios da Web da administração pública e encontrou mais de 1 milhão de páginas. Mas o que faz a sua diferença relativamente a ferramentas semelhantes?Localizado em www.tumba.pt, o seu nome resulta das iniciais da frase "Temos Um Motor de Busca Alternativo!" e foi desenvolvido pelo Laboratório de Sistemas Informáticos de Grande Escala da Faculdade de Ciências da Universidade de Lisboa (FCUL). A coordenação coube a Mário Gaspar da Silva, que, à questão "Faz sentido um motor de busca para Portugal ou, pelo menos, um motor afinado para servir os portugueses?", responde: "A realidade é que a Web hoje não é só uma, mas sim uma teia de várias 'webs'", com interesses, línguas e comunidades próprias, e "os seus membros acedem maioritariamente a páginas escritas por elementos dessa comunidade nessa língua". E porque "as comunidades existentes na sociedade se reflectem na estrutura de 'links' criados na Web entre os elementos dessas comunidades", usa-se "esse conhecimento para criar um motor de pesquisa que indexa primariamente as páginas da comunidade portuguesa".Um resultado evidente passa por uma pequena experiência, realizada na semana passada, pondo em despique o Tumba! com o conhecido Google. Procurando os termos "código justiça militar", o motor nacional fornece um total de 242 documentos com a primeira ligação para a legislação do Ministério da Defesa Nacional. No Google, conseguem-se 27.800 documentos mas o primeiro listado refere-se a um tribunal brasileiro. Quando se afina a pesquisa e se acrescenta "Portugal" às três palavras, obtêm-se 4130 resultados, sendo o primeiro uma notícia portuguesa sobre o assunto.A comparação - inevitável, até porque existe um Google.pt - acabará por ser ganha pelo Tumba! graças ao melhor conhecimento que tem da Web portuguesa, dos seus textos e de futuros desenvolvimentos pensados para os portugueses, assegura Mário Silva nas respostas dadas por E-mail. "Quando os portugueses procuram 'biblioteca' ou 'passaporte', não estão, na grande maioria, à procura de uma biblioteca na Argentina ou de como tirar um passaporte no Brasil. O Tumba! não considera essas páginas relevantes, enquanto, para um motor global como o Google, por haver mais interessados em passaportes brasileiros que em passaportes portugueses, será natural aparecerem os primeiros em maior destaque".A mesma relevância nacional é sentida quando o utilizador se engana e erra na palavra pesquisada. "Procure 'restaurante lisbor' e o Google responder-lhe-á: 'Did you mean: restaurant lisbon'", enquanto o Tumba!, "com um corrector ortográfico do português, vai-lhe dar uma sugestão alternativa 'Queria antes dizer restaurante lisboa?'" É verdade. No entanto, quando depois se pesquisa "restaurante lisboa", o Google apresenta um restaurante no topo da lista de resultados e o Tumba! remete para um sítio sobre turismo em Lisboa...O motor de busca nacional tem ainda a vantagem de usar dicionários portugueses. Enquanto, "no Google, pode ouvir a pronunciação dos termos ingleses, no Tumba! (graças a uma contribuição do grupo de processamento da fala do Inesc), pode ouvir a pronunciação dos termos em português".As funcionalidades entre os dois são evidentes e o Tumba! não inventa nenhuma roda, a não ser que cria de raiz uma ferramenta para a Web nacional. Mas o contrário também já sucedeu, em moldes empresariais. Mário Silva e ex-elementos do grupo da faculdade lançaram o Linxs, um motor de pesquisa que apenas indexa páginas de órgãos de comunicação social portugueses, três anos antes de ter surgido o Google News, que não se ocupa deles.Ao indexar a Web portuguesa, o Tumba! serve igualmente como arquivo da Web nacional: "Daqui a uns anos, pretendemos permitir ao utilizador que coloque o ano de visualização da Web em 2003 e a veja tal como ela é hoje", refere Mário Silva. Esta funcionalidade já existe mas "não está disponível para consulta pelo público em geral (nem estará possivelmente, por haver direitos de propriedade intelectual a respeitar)". Apenas se poderá verificar numa outra opção, igualmente disponível no Google, que é a "cache" - funcionalidade que permite guardar uma cópia da página Web quando da última visita do "crawler" (ver caixa).Mais uma vez, as comparações internacionais são inevitáveis, neste caso com o projecto Internet Archive, mais ambicioso mas também mais voltado para a Web norte-americana. Na opção "Wayback Machine", podem-se pesquisar, por exemplo, algumas páginas do PÚBLICO.pt desde Dezembro de 1998 até Novembro de 2002. Os resultados comprovam a escassez de páginas indexadas e sustentam a opinião de Mário Silva: "Não é difícil inferir que a cobertura da Web portuguesa por esta via é muito mais reduzida do que qualquer arquivista português entenderá como minimamente necessário."No caso português, a periodicidade do registo não é frequente por falta de pessoal e de equipamento. O último data de 2002, quando foram indexadas mais de 1,1 milhões de páginas, estando-se actualmente em fase de nova recolha, num processo que dura cerca de dois meses.Essas páginas indexadas são aquelas que se encontram sob o domínio ".pt", bem como "as referidas a partir destas que se encontram escritas na língua portuguesa nos domínios '.com', '.net', '.org', '.tv' e '.tk'", explica o investigador. A razão deve-se a terem verificado "que a quase totalidade dos portugueses aloja os seus 'sites' num destes domínios" e porque sabem, "estatisticamente, que o número relativo de páginas em português obtido ao varrer os restantes domínios seria muito reduzido".Quanto ao facto de, por exemplo, se encontrarem "weblogs" brasileiros nos resultados e falharem alguns portugueses, Mário Silva explica que eles podiam não existir quando da última recolha de páginas, estarem "em baixo" quando foram visitados ou não existir uma ligação a partir de um sítio registado em ".pt". "Não recolhemos 'sites' no domínio '.br' mas recolhemos alguns em brasileiro em domínios '.com' porque é difícil arranjar um processo automático que nos diga se o 'site' é brasileiro ou português".Em breve e com indexações bimensais, o Tumba! terá, nas palavras de Mário Silva, a recolha "mais extensa alguma vez feita da Web portuguesa" e que se estima chegar aos 5 milhões de páginas.Ao nível das aplicações futuras, salientam-se as relacionadas com informação geográfica, "o que possibilitará muitas aplicações interessantes nos sistemas de comunicação móveis da próxima geração" - estando disponível uma demonstração para organizadores pessoais (os chamados PDA) e telemóveis WAP em http://movel.tumba.pt .

Sugerir correcção