Sem saber, internautas ajudam a decifrar textos antigos

reCaptcha usa inteligência coletiva dos usuários da rede para corrigir as transcrições automáticas de textos digitalizados

New York Times |

New York Times
Sistema reCaptcha ajuda a transcrever digitalmente documentos como reportagens históricas do século XIX
Antigamente, qualquer interessado em ver um jogo do Mets durante uma viagem a Nova York teria de ligar para o time, escrever ou esperar até chegar à cidade e visitar a bilheteria. Isso não existe mais. Agora, você só precisa procurar por um distribuidor online de ingressos. É acessar o site, clicar em “Mets”, escolher a data e pagar.

Contudo, antes de aceitar o dinheiro, o site pode apresentar ao comprador dois conjuntos de letras ondulantes e distorcidas, pedindo por uma transcrição. Eles são chamado de “captchas”, e só podem ser lidos por humanos. Os captchas garantem que nenhum robô conseguirá invadir sites seguros.

O que os internautas não sabem, porém, é que eles também foram alistados num projeto para transformar livros antigos, revistas, jornais ou panfletos em arquivos de texto precisos, buscáveis e facilmente classificáveis.

Uma das palavras deformadas veio, muito provavelmente, da imagem digitalizada de algum texto velho e mofado e, embora a página original já tenha sido digitalizada para um banco de dados online, os programas de escaneamento cometeram muitos erros. Os fãs do Mets e outros usuários da internet estão corrigindo esses erros. Compre um ingresso para o jogo e ajude a preservar a história.

O conjunto de ferramentas de software que realiza essa proeza é chamado de “reCaptcha”, e foi desenvolvido por uma equipe de pesquisadores liderada por Luis von Ahn, cientista da computação da Universidade Carnegie Mellon, em Pittsburgh.

Seu projeto-piloto era limpar o arquivo digitalizado do “New York Times”.

Hoje, ele se tornou o principal método usado pelo Google para autenticar textos no Google Books, o vasto projeto para digitalizar e disseminar textos raros e esgotados pela internet.

Geralmente, a digitalização é um processo de três estágios: criar uma imagem fotográfica do texto, conhecida como “bitmap”; codificar o texto num formato compacto de fácil manuseio e busca, usando softwares de reconhecimento ótico de caracteres, comumente chamados de OCR, e, finalmente, corrigir os erros.

A tecnologia atual torna os dois primeiros passos relativamente fáceis. O terceiro, porém, pode ser incrivelmente complexo. Para textos em inglês do século XIX, os programas OCR erram ou deixam passar de 10% a 30% das palavras. Somente humanos conseguem corrigir os erros. O método padrão, chamado “afinar e verificar”, usa dois transcritores para digitar separadamente o texto, comparando em seguida os resultados. Isso leva tempo, e é extremamente caro.

Em 2006, entretanto, a equipe de von Ahn criou uma forma de contornar esse obstáculo. Os onipresentes captchas, conhecidos até pelos internautas mais casuais, eram a ferramenta perfeita. Os captchas, abreviação em inglês para “teste público Turing completamente automatizado para diferenciar humanos de computadores”, não podem ser decifrados por máquinas – mas são simples para humanos. O teste tem o nome do pioneiro da computação britânico Alan Turing.

A equipe de von Ahn estimou que, ao redor do mundo, humanos decodifiquem pelo menos 200 milhões de captchas por dia, levando 10 segundos cada. Isso representa 500 mil horas por dia – uma montanha de poder intelectual sendo gasta no que von Ahn classifica como um exercício fundamentalmente maquinal.

“Então nos perguntamos: 'Podemos fazer algo de útil com esse tempo?”', recordou von Ahn numa entrevista por telefone. Em vez de criar captchas a partir de palavras aleatórias impressas de forma confusa, por que não pedir que os internautas traduzam palavras problemáticas de textos arquivados? Pela estimativa de von Ahn, o reCaptcha está sendo usado por 70% a 90% dos sites que possuem captchas – incluindo Ticketmaster, Facebook e agências bancárias locais.

O Google comprou a empresa de von Ahn em 2009 – não diremos qual foi o preço – e a colocou para trabalhar no Google Books. Ele afirma que “diversos milhões” de palavras estão sendo traduzidos diariamente.

O jornal “The Times”, publicado desde 1851, já havia transcrito oticamente seu arquivo quando contatou von Ahn. Robert Larson, vice-presidente da empresa para produtos de busca, disse que o jornal havia “buscado por diversas maneiras” de editar o texto, mas que “o método de Luis era mais rápido e mais barato”.

Imagens de páginas, especialmente aquelas impressas antes de 1900, são cobertas de manchas, borrões, marcas d’água e tipologias tortas, tudo atrapalhando o OCR. Para corrigir os erros, von Ahn utiliza diversos programas: quando aplicados na sequência correta, magicamente transformam passagens problemáticas numa prosa clara e direta.

O primeiro passo é feito internamente. Dois programas OCR diferentes mapeiam a imagem fotográfica. Ambos cometerão erros, mas não necessariamente os mesmos.

O reCaptcha marca como “suspeita” qualquer palavra decifrada diferentemente pelos dois programas, ou que não esteja num dicionário de inglês. O dicionário capta palavras que aparecem com os mesmos erros ortográficos nos dois OCRs. Outros programas examinam as palavras antes e depois da palavra suspeita, e fazem outra suposição baseada nessa análise.

Em seguida, cada palavra suspeita é transformada num captcha. É essencial compreender que o captcha é uma versão distorcida da palavra, conforme ela foi impressa na imagem fotográfica original. Ele não é feito da tradução imaginada pelo OCR, muitas vezes ininteligível. A palavra desconhecida é pareada com uma segunda palavra em captcha, cuja tradução correta já é conhecida. Essa segunda palavra é o “controle”. Então, usuários da internet tentando acessar sites seguros visualizam as duas palavras e as decifram separadamente.

Uma resposta correta para a palavra de controle prova que o usuário é um humano, e não uma máquina. As respostas para a palavra desconhecida são comparadas às suposições do OCR e à análise de contexto. Se o sistema considerar que a resposta está correta, o jogo termina.

Von Ahn reconheceu que algumas palavras não podem ser transcritas, geralmente quando o texto original está rasgado ou danificado de alguma outra forma. Se um número suficiente de usuários falhar em identificar uma palavra desconhecida, ela é considerada indecifrável e marcada como tal.

O reCaptcha também se sai mal com letras cursivas, afirmou von Ahn, acrescentando que “hoje ninguém mais lê caligrafia”. E, até agora, o programa só traduz palavras em inglês, embora muitos sites com o reCaptcha tenham clientes estrangeiros – cujos usuários nem usam a língua inglesa.

Mesmo com todas essas restrições, o reCaptcha alcança uma exatidão superior a 99%, ultrapassando a eficácia de transcritores humanos profissionais. E von Ahn está convencido de que o desempenho ficará melhor com a experiência, algo que certamente não faltará.

“Continuaremos fazendo isso por muito tempo”, disse ele. “Existe muito material impresso por aí”.

    Leia tudo sobre: captcharecaptchanew york timesturing

    Notícias Relacionadas


      Mais destaques

      Destaques da home iG