Análisis criptográfico fascinante

Kevin Knight, del Instituto de Ciencias de la Información, en California, junto con Beáta Megyesi y Christian Schaefer, del Departamento de Lingüística y Filología, de la Universidad Uppsala, en Suecia, parecen haber descifrado un documento de 1866, el cual hasta ahora, había sido imposible de decodificar. Se trata del “Copiale Cipher“, un texto de 105 páginas, datado en 1866.

Las características del texto son las siguientes:

Tiene 105 páginas de longitud y unos 75,000 símbolos escritos a mano.
El texto está escrito con mucho cuidado y calidad.
Algunos símbolos son letras romanas, mientras que otros son símbolos abstractos. Las letras romanas aparecen en mayúsculas y minúsculas.
Las líneas del texto están justificadas a la izquierda y derecha.
Hay sólo un par de correcciones por parte del autor.
No hay espacios entre las “palabras”.
No hay ilustraciones o separación de capítulos.
El texto parece estar formateado. Los párrafos están indentados. Algunas líneas están centradas.
Algunas secciones del texto contienen doble comillas antes de cada línea.
Algunas líneas terminan con punto. El punto y coma es un elemento frecuente en el texto.
Los párrafos y los títulos de las aparentes secciones, empiezan con letras romanas mayúsculas.
Las únicas inscripciones no cifradas en el libro son “Phillips 1866” y “Copiale 3“, de donde salió el nombre del manuscrito.

Los investigadores primero decidieron pasar a una simbología definida los caracteres que se veían en el manuscrito, de manera que pudiesen manipularlo con la computadora. Hallaron aproximadamente 90 letras cifradas, incluyendo 26 letras romanas no acentuadas (a-z). Las letras c, h, m, n, p, r, s y x tienen una forma especial con un punto encima de ellas. Evidentemente el análisis fue exhaustivo, pero quizás sirvió de mucho que es un texto prolijo, el cual parece haber sido cifrado mediante una técnica muy particular, cuya clave de desciframiento -desde luego- se desconoce.

Texto cifrado

Los investigadores contaron la frecuencia de las letras y sus contextos (es decir, en dónde aparecían). Y consideraron que las similitudes con las letras romanas era quienes llevaban toda la información de la codificación, mientras que los demás símbolos no tenían importancia (con la única intención de confundir el análisis criptográfico).Al quitar todos esos símbolso, el resultado fue un texto con la distribución de un lenguaje humano, con la letra más popular ocurriendo un 12% de las veces y la menos popular ocurriendo raramente.

Texto decodificado

Con esto en mente, decidieron que el código estaba cifrado bajo un esquema de sustitución simple. Así, atacaron por fuera bruta la secuencia revelada de las “palabras” romanas y asumieron primero que el lenguaje original era el alemán, aunque después probaron inglés, latin y otros cuarenta idiomas europeos y no europeos.

Texto traducido al inglés

Sin embargo, este primer enfoque no parecía haber resuelto el problema. Entonces se consideró que los símbolos extras, que originalmente parecían solamente para confundir a quien quisiese descifrar el código, podían servir para definir qué letra era la que correspondía a cada símbolo del texto. Su nuevo ataque por computadora dio resultados e identificaron el texto, de manera razonable, aunque hay de forma imperfecta.

Para pulir sus hallazgos, entonces hurgaron en la historia del documento y aparentemente es de origen alemán. Eso le dio pistas para limpiar sus primeras versiones del texto desencriptado. Sin duda un trabajo notable y fascinante, que puede leerse completo aquí.