“Prove que você é humano”: a história do Captcha

Quem dedicou horas à votação do Big Brother Brasil em 2021 virou craque em identificar semáforos, carros ou bicicletas na tela. É o famoso Captcha, sistema de verificação usado não só em paredões, mas também para o cadastro em sites e qualquer procedimento online que esteja vulnerável à ação de bots – programas de computador que podem desempenhar uma tarefa específica repetidamente. Como votar milhares de vezes.

Em 2020, a Globo precisou se pronunciar sobre acusações de fraude no paredão disputado entre Manu Gavassi, Felipe Prior e Mari Gonzalez. O site registrou 1,5 bilhão de votos, mais do que toda a população da China – virou até recorde no Guinness. É como se cada brasileiro tivesse votado sete vezes em um intervalo de apenas dois dias.

(Claro, a gente sabe que muita gente não assiste ao BBB, tampouco vota nos paredões. Mas deu para sacar a dimensão da coisa).

Muita gente disse que o número poderia ser resultado da ação de bots, mas a emissora descartou a hipótese. Dentre os argumentos utilizados pela equipe de segurança cibernética, está a verificação do Captcha a cada voto computado. Mas, afinal, por que ele é tão bom assim em evitar bots?

Como funciona

Vamos começar pelo nome. Captcha é uma sigla em inglês para Completely Automated Public Turing Test to Tell Computers and Humans Apart (ou “teste público de Turing completamente automatizado para distinguir computadores e pessoas”). Ou seja: trata-se de uma ferramenta para verificar se quem está na frente do computador é uma pessoa – e não um robô.

A lógica do Captcha é a mesma do teste de Turing, criado pelo matemático inglês Alan Turing em 1950. Sim, o mesmo cara que quebrou a criptografia das mensagens nazistas na Segunda Guerra Mundial – e que foi decisivo para o avanço da computação e da inteligência artificial.

O objetivo do teste é simples: avaliar se uma máquina consegue se passar por um humano. Na versão original, voluntários humanos são colocados diante de duas salas: uma com um computador, outra com uma pessoa. Eles são avisados que, numa delas, há uma máquina, e é preciso descobrir quem é quem. Se mais de um terço dos voluntários errar ao fazer o palpite, bingo: temos uma máquina inteligente.

Se você acha que identificar semáforos ou clicar em “Não sou um robô” são testes fáceis de burlar, ótimo! Significa que você é humano. Bots, contudo, têm mais dificuldade em tarefas de interpretação – por exemplo, identificar letras que estão distorcidas (há outros mecanismos de verificação, mas chegaremos nele mais adiante).

Como surgiu

No início dos anos 2000, o problema não era a votação no BBB, mas sim spams enviados por email e contas falsas criadas no chat do Yahoo!. A empresa de tecnologia, então, entrou em contato com a Universidade de Carnegie Mellon, nos EUA, para pensar em uma solução. Um grupo de estudantes liderado por Luis von Ahn criou a primeira forma de Captcha, baseada na identificação de letras.

O sistema mostrava imagens de letras e números distorcidos, ou com elementos para dificultar a visualização. Um computador não consegue interpretar a imagem; um humano, sim. Para pessoas com deficiência visual, há a opção de ouvir o que está na tela. Atualmente, existem diversos tipos de Captchas, com base em textos, fotos e ilustrações.

Outros Captchas

Após alguns anos, contudo, von Ahn percebeu que o Captcha forçava milhões de pessoas a digitarem palavras sem sentido diariamente – o que, para ele, parecia um desperdício de esforço humano. Foi quando pensou: “E se o sistema tivesse alguma utilidade para além da verificação?”

Em 2011, foi criado o reCaptcha, uma versão que utiliza trechos de livros ou artigos digitalizados. Ele mostrava duas palavras para o usuário: uma que seria a verificação, de fato; a outra, um termo de uma obra antiga que não conseguiu ser lido por um computador. É aí que está o pulo do gato: ao fazer o preenchimento rotineiro, as pessoas estariam ajudando a transcrever um livro. Palavra por palavra.

<span class="hidden">–</span>creativecommons/Reprodução

À medida que os sistemas de reconhecimento de texto se aprimoraram, o Captcha precisou evoluir também. As letras ficaram cada vez mais distorcidas, tornando a identificação difícil até nós, humanos. Mas a verdade é que os Captchas de texto são, hoje, cada vez mais raros – os sites têm optado pela versão em que você identifica objetos na imagem.

Em 2014, o Google lançou o “No-Captcha reCaptcha”, que hoje é a versão mais utilizada na internet. Ela pede que o usuário apenas clique em uma caixinha afirmando que não é um robô. Mas não se iluda com a simplicidade: a frase é meramente ilustrativa.

O que o sistema realmente faz é monitorar o seu comportamento naquela página – a maneira como o mouse se move, como a página é arrastada para baixo, como são feitos os cliques e por aí vai. Daí, se o Captcha não suspeitar que você é um robô, passa tranquilo pela blitz cibernética.

<span class="hidden">–</span>Google/Reprodução

No entanto, se você estiver se comportando como um bot (por exemplo, votando repetidamente no paredão do BBB), o Captcha mostra imagens ou ilustrações e pede para identificar algum animal ou objeto. Por enquanto, esse se mostrou um jeito eficaz de evitar robôs, mas é provável que não dure por muito tempo. Há casos de algoritmos que conseguiram burlar os sistemas anteriores e atuaram como spammers.

Há ainda uma terceira versão do reCaptcha, lançada em 2018 pelo Google. Há pouco o que falar sobre ele, pois seu funcionamento é pouco detalhado. O que se sabe é que, quando uma pessoa entra em um site com o reCaptcha 3.0, mais aspectos comportamentais são monitorados. O usuário não precisa, em nenhum momento, marcar a caixinha ou interpretar imagens. Uma coisa é certa: à medida que os bots se tornarão mais sofisticados, os Captchas continuarão se reinventando.