Copia y edita el texto de cualquier imagen en la web

Una nueva extensión de Chrome, llamada Proyecto Naptha, permite a los usuarios copiar y borrar textos de imágenes. El proyecto es interesante porque en general los textos que aparecen en imágenes no son accesibles, no se pueden manipular. Sin embargo, ahora parece ser que con esta extensión se pueden copiar textos que estén en las imágenes directamente.

Esta idea no es nueva y de hecho ya está en otros programas como Microsoft OneNote, Google Drive y Google Street View, que usan reconocimiento óptico de caracteres (OCR, por sus siglas en inglés), para identificar texto dentro de las imágenes. En el caso del proyecto Naptha, se usa un método llamado Stroke Width Transform (SWT), que fue desarrollado por Microsoft Research. Debido a que los métodos que usan OCR no son muy satisfactorios en algunos casos, el desarrollador Kevin Kwok intentó hallar una solución alternativa. La idea es usar un modelo avanzado del lenguaje para construir una especie de reconocedor de texto (de fuerza bruta).

Después de muchas pruebas, decidió usar SWT. Este enfoque usa el ancho de las líneas que hacen las letras para identificar los elementos que potencialmente califican como texto, en lugar de intentar hallar características separadas para marcarlas como si fuesen texto. Esto tiene ciertas ventajas sobre el enfoque que se usa en el OCR.

“Stroke Width Transformation es capaz de identificar regiones de texto de manera agnóstica”, explicó Kwok. “En cierto sentido es lo que hacen los seres humanos: podemos reconocer un signo en un lenguaje escrito aunque no conozcamos de qué lenguaje se trata y aunque ni siquiera sepamos qué dice”.

SWT es capaz de detectar texto en ángulos (por ejemplo, cuando se usan cursivas) y texto en fotos y de hecho, originalmente se desarrolló para esto. Esto significa que no está limitado a producir textos de escaneos de letras impresas o de pantallas tomadas de la web, en donde la ocurrencia del texto tiende a ser más familiar de producirse por la computadora y más fácil de capturar.

Kwok explica que el proyecto Naptha fue originalmente parte del hackatón en el MIT (donde obtuvo el segundo lugar). “Seleccionar texto de imágenes era algo importante de lograr en un nivel técnico, esto es, la tecnología para hacer esto ya existía, pero por alguna razón inexplicable, no se había hecho antes. Todo, la transcripción, traducción borrado del texto y las modificaciones se convirtieron en algo obvio y trivial una vez que la primera parte fue hecha”.

Kwok da un número de ejemplos donde el proyecto Naptha puede ser usado, incluyendo imágenes escaneadas, fotos conteniendo textos, diagramas con etiquetas, copias de pantallas de computadora con texto encimado. También el autor demostró las posibilidades sobre cómo se puede borrar texto cuando hay overlays o bien el enfatizar las imágenes que serán trasladadas. Para dar una mejor experiencia al usuario, Naptha monitorea el movimiento del cursor y contínuamente extrapola sobre la posición y la velocidad, por lo que se puede procesar cualquier texto potencial que pueda tenerse en alguna imagen. Kwok indica que Naptha puede mejorarse y que sin embargo, en esta etapa básica, es funcional y utilizable. El potencial sin embargo, para este tipo de tecnología parece ser muy emocionante.

“Pienso que el valor real de Naptha es la experiencia que da, la cual es sin precedente hasta ahora”, dice Kwok. “En términos de sus varios subcomponentes y algoritmos, es probable que estemos muy pocos años detrás del estado del arte, y una de las cosas más emocionantes será la posibilidad de estar en un equipo que reduzca la brecha entre investigadores y consumidores”, indicó.

Referencias:

Project Naptha

Gizmag