Con un par de palabras de un correo se puede identificar a quien lo escribió

El Dr. David Wright, un experto en lingüística forense, ha examinado miles de correos electrónicos para mostrar que es posible identificar a alguien analizando pequeñas secuencias de palabras y probar así de quién es el autor. La investigación busca ayudar en los retos que se tienen cuando se enfrentan con evidencia lingüística en la Corte o en reportes específicos.

Los científicos usan métodos como algoritmos y análisis estadístico para medir la similitud entre textos. Sin embargo, esto puede ser para los expertos difícil de explicar, es decir, el por qué estos esquemas distinguen entre los estilos de escritura de las personas y los hacen únicos.

Como parte de su investigación, el Dr. Wright analizó miles de correos de 12 empleados de una excompañía de energía e identificó correctamente en un 95% a los autores de los mismos, en donde las muestras de correo no eran mayores de 1000 palabras.

La técnica usada fue comparar qué tan frecuentemente los empleados usaban una secuencia particular de palabras en sus correos. estas secuencias de palabras eran de longitud variable, de dos a seis palabras y eran tan básicas como “por favor, revisemos y entonces discutamos en asunto”, por ejemplo. Esto es como medir si aparecen las “muletillas” que todos tenemos en el lenguaje y que, desde luego, también se observa en el idioma escrito.

La investigación se basó en miles de correos electrónicos de la compañía de energía estadounidense Enron. Más de 1.7 millones de correos de esta empresa se liberaron al público y se han usado desde entonces para propósitos de investigación académica.

Mediante el análisis de estos correos, el Dr. Wright también encontró la forma en que las personas juntas pocas palabras de una forma única, y que están influenciados por las formas diferentes de hablar y escribir, las cuales son consecuencia en alguna medida del entorno en donde viven. El Dr. Wright se enfocó en el caso de un empleado, quien era un abogado de la compañía. Comparó sus correos contra muestras de otros 175 empleados y descubrió que la mayoría de las frases distintivas tenías secuencias de cinco palabras en general.

Otros abogados de Enron, en cambio, usaban otro tipo de frases que eran distintas a las del sujeto en el caso de estudio, sugiriendo que de alguna manera ciertas frases eran únicas para una persona en particular. De nuevo, hablamos de muletillas pero que se identifican en particular para una persona en el estudio.

El Dr. Wright, de la escuela de artes y humanidades de la Universidad, dijo: “La repetición de estas frases muestra que el individuo de estudio ha desarrollado sus propias frases, las cuales hacen el trabajo esperado mientras que el sujeto en cuestión trabaja en otros roles de su actividad como abogado”.

“Esto muestra que cuando se enfrenta a evidencia escrita en casos legales, en donde la autoría de un texto está en disputa, hay claves en la identidad del escritor que pueden verse en frases pequeñas, cotidianas”. Y concluye el académico: “Esto puede llevar a mejorar la confiabilidad en la evidencia que se da en las Cortes y en última instancia, el hacer justicia”.