Antes de explicar en que consiste el ReCaptcha, se definir primero el CAPTCHA. 1.
CAPTCHA Captcha es el acrnimo de Completely Automated Public Turing test to tell Computers and Humans Apart (Prueba de Turing pblica y automtica para diferenciar mquinas y humanos).
Este es un tpico test para la secuencia "smwm" que dificulta el reconocimiento de la mquina distorsionando las letras y aadiendo un degradado de fondo Se trata de una prueba desafo-respuesta utilizada en computacin para determinar cundo el usuario es o no humano. El trmino se empez a utilizar en el ao 2000 por Luis von Ahn, Manuel Blum y Nicholas J. Hopper de la Carnegie Mellon University, y John Langford de IBM. La tpica prueba consiste en que el usuario introduzca un conjunto de caracteres que se muestran en una imagen distorsionada que aparece en pantalla. Se supone que una mquina no es capaz de comprender e introducir la secuencia de forma correcta por lo que solamente el humano podra hacerlo. Como el test es controlado por una mquina en lugar de un humano como en la Prueba de Turing, tambin se denomina Prueba de Turing Inversa.
a.
APLICACIONES Los captchas son utilizados para evitar que robots, tambin llamados spambots, puedan utilizar ciertos servicios. Por ejemplo, para que no puedan participar en encuestas, registrarse para usar cuentas de correo electrnico (o su uso para envo de correo basura) y/o ms recientemente, para evitar que correo basura pueda ser enviado por un robot (el remitente debe pasar el test antes de que se entregue al destinatario).
b.
CARACTERSTICAS El sistema captcha tiene las siguientes caractersticas por definicin: Son completamente automatizados, es decir, no es necesario ningn tipo de mantenimiento / intervencin humana para su realizacin. Esto supone grandes beneficios en cuanto a fiabilidad y coste. El algoritmo utilizado es pblico. De esta forma la ruptura de un captcha pasa a ser un problema de inteligencia artificial y no la ruptura de un algoritmo secreto.
2.
ReCAPTCHA Es una extensin de la prueba CAPTCHA que se utiliza para reconocer texto presente en imgenes. Emplea por tanto la prueba desafo-respuesta utilizada en computacin para determinar cundo el usuario es o no humano para, a su vez, mejorar la digitalizacin de textos. ReCAPTCHA se basa en el hecho de que para un ser humano puede ser simple determinar el texto presente en una imagen cuando para una mquina esta tarea resulta en ocasiones demasiado compleja.
CMO FUNCIONA?
El reCAPTCHA trata de solucionar un problema de partida: cuando se digitaliza un documento impreso se toman fotografas del mismo y esas fotografas se convierten a texto empleando sistemas OCR. Sin embargo, ocurre que hay palabras que presentan dificultades para ser reconocidas automticamente: aquellas que contienen letras deformes, manchas producto de defectos en la impresin del papel, pginas con polvo, entre otras. Estas palabras pueden ser identificadas por personas de manera mucho ms confiable que por un sistema OCR computarizado. ReCAPTCHA emplea esta facilidad del ser humano, para as lograr un mtodo de reconocimiento de texto mucho ms confiable. El uso de reCAPTCHA consiste en sustituir al sistema CAPTCHA, colocando dos palabras a reconocer (en lugar de una que emplea tpicamente la prueba CAPTCHA). Una de las palabras es conocida y la
otra es desconocida para el sistema. La palabra desconocida es una que no pudo ser obtenida de una imagen mediante un sistema OCR automatizado. El sistema pide al usuario (quien desconoce qu palabra es conocida y cul no lo es) que introduzca ambas palabras como texto. Si la palabra conocida por el sistema es introducida correctamente por un humano, el sistema reCAPTCHA asume que hay probabilidades altas de que el usuario tambin haya introducido la palabra desconocida correctamente. Si la palabra desconocida recibe en mltiples ocasiones la misma transcripcin humana (traduccin de imagen a texto) se considera que esa transcripcin es correcta. De esta forma, a la prueba desaforespuesta utilizada en computacin para determinar cundo el usuario es o no humano (prueba CAPTCHA) se le suma la utilidad de permitir mejorar la digitalizacin de textos. Las palabras que fueron traducidas en muchas ocasiones de la misma manera, se pueden incorporar como palabras conocidas dentro del propio sistema. Actualmente reCAPTCHA es utilizado para digitalizar ediciones impresas del New York Times. 2 La compaa duea del sistema reCAPTCHA fue adquirida por Google que podr usar el sistema como apoyo para su proyecto Google Books.
3. Google compra reCAPTCHA
Con la compra de reCAPTCHA, por parte Google ha aumentado sus capacidades de reconocimiento ptico de caracteres. Desde Google explican que Captcha est diseado para el ojo humano con el objetivo de impedir que programas maliciosos consigan millones de cuentas de correo electrnico para enviar spam. Un detalle que desvela Google es que la mayora de los Captchas que ofrece la compaa proceden de peridicos y libros viejos escaneados. Por lo tanto para los ordenadores es difcil reconocer estas palabras porque la tinta y el papel se han degradado con el tiempo, de forma que la tecnologa de la compaa tambin se puede utilizar para mejorar procesos de OCR para convertir imgenes escaneadas en texto plano. La tecnologa se puede utilizar para proyectos de escaneo de textos a gran escala como Google Books y Google News Archive Search. Tener la versin en texto de un documento es importante porque el texto plano se puede buscar, exportar a dispositivos mviles y mostrar visualmente a usuarios incapacitados. Con la compra Google afirma que no slo incrementar la proteccin ante el fraude y el spam de los productos de la compaa, sino que tambin mejorar el proceso de escaneado de sus libros y peridicos.