Mejoran correctores ortográficos... ¿con redes neuronales?

Uno podría pensar que, en ciertos temas, las soluciones en cómputo ya están dadas. Por ejemplo, los correctores ortográficos hacen bastante bien la tarea encomendada, aunque evidentemente no son perfectos.

Un problema es que estos programas reconocen cuando se escriben mal las palabras basándose en un diccionario el cual consultan a gran velocidad. Pero en muchos casos la corrección falla porque ningún sistema por el momento, puede corregir palabras que se escriben de una manera de acuerdo al contexto.

Por ejemplo, si escribo: “yo sólo sé que no sé nada”, las palabras “sé” y “sólo” llevan acento diacrítico, es decir, que depende del contexto en que se dice. O bien, “vota” y “bota”, ambas palabras se pueden escribir pero claramente tienen diferente significado. Así, si escribo: “debes ir a botar”, el corrector normalmente no hallará problemas en “botar” a pesar de que cualquier se dará cuenta que la frase está mal escrita.

Considerando esto, un nuevo artículo técnico ha aparecido: “Robsut Wrod Reocginiton via semi-Character Recurrent Neural Network” y no, no está mal escrito, sino que hace referencia a un correo que se volvió viral hace años en donde se decía que “Sgeún un eiudsto de una uinsrvdiead iglensa, no iomtpra el odern en el que las lerats eátsn ectasirs, la úcina csoa inrmptoate es que la prirmea y úlimta lreta eétsn esracits en la poóicisn ccrertoa. El resto peduen eastr ttmeatolne mal y aún párdos lelreo sin poamblers. Etso es pruoqe no leeoms cdaa ltrea por sí mmsia, snio la pbarlaa cmoo un tdoo. Peonmrestalne me pacere ilnírebce”.

El artículo discute este efecto llamado “Universidad de Cambridge”, y del cómo podemos hacer un corrector ortográfico que sea mejor que los que tenemos actualmente. Lo interesante es que este tipo de programas pueden leer ahora texto que está severamente distorsionado por la transposición de letras en las palabras y hacerle sentido.

El equipo de investigadores en la Universidad John Hopkins, decidió investigar cuál es el máximo de palabras que podemos revolver una palabra para que pierda el sentido a quien a lee. Trabajos previos revelaron que la dificultad en la lectura se incrementa cuando se juega con las letras al inicio de la misma. Para ponerlo en pocas palabras: lo que importa son las primeras letras en la palabra para poder discernir de qué se trata el asunto.

Para los investigadores, corregir las palabras transpuestas es algo que una red neuronal debería poder hacer. Los investigadores usaron una colección de palabras en donde dejaron la primera y última letra fija, en cada palabra, y revolvieron todas las demás. Después de haber sido entrenada la red neuronal, los científicos hallaron que corregía mejor los textos que el enfoque tradicional de corrección ortográfica.

Hay quien piensa que el artículo está sesgado porque trata con escritos muy desordenados en palabras, lo cual no es el caso común en la corrección ortográfica. Quizás el contrastar así los resultados de la red neuronal contra el enfoque tradicional de corrección de textos aquí no sea muy justo. Como sea, la idea suena interesante.

Referencias: Robsut Wrod Reocginiton via semi-Character Recurrent Neural Network Keisuke Sakaguchi, Kevin Duh, Matt Post, Benjamin Van Durme; i-programmer

Mejoran correctores ortográficos… ¿con redes neuronales?