Un algoritmo para detectar Fake News, mejor que los seres humanos

Investigadores de la Universidad de Michigan han desarrollado un sistema que es comparable en eficiencia y en ocasiones, mejor que los seres humanos para detectar noticias falsas, es decir, “fake news”.

En un estudio reciente, el sistema detecto el 76% de las veces las historias falsas, contra un 70% de aciertos humanos. Además, el enfoque del análisis lingüístico podría ser útil para identificar noticias falsas en artículos noticiosos que en muchas ocasiones son demasiado novedosos para hacer referencias cruzadas con otras historias.

Rada Mihalcea, la responsable del proyecto, dijo que la solución automatizada podría ser una herramienta importante para los sitios que luchan cotidianamente con notas falsas, historias irreales, entre otros mecanismos para generar clicks y manipular la opinión pública.

El hallar historias falsas, sin embargo, antes de que tengas consecuencias reales, puede ser difícil pues los editores de muchos sitios confían en lo que leen de otras fuentes pues no pueden llevar control de toda la información que se produce. Además, mucha de la desmitificación de algunas historias depende de la verificación externa de hechos, lo cual es problemático cuando aparece una nueva historia. Frecuentemente, para cuando se probó que la historia es falsa, el daño ya está hecho.

Pero el análisis lingüístico toma otro camino, analizando los atributos cuantificables como la estructura gramatical, la elección de las palabras, la puntuación y la complejidad. El sistema trabaja más rápido que los seres humanos y puede ser usado en una variedad de tipos de noticias.

“Uno puede imaginarse cualquier número de aplicaciones para esto, por ejemplo, en un sitio de redes sociales”, dice Mihalcea. “Esto incluso podría dar a los usuarios un estimado sobre una historia en particular o sobre todo un sitio. O bien podría ser una primera línea de defensa en donde se publican historias continuamente, como las redes sociales. Un 76% de éxito deja un margen de error importante aun, pero esto podría dar cierta valía a las historias que se publican”.

Los algoritmos lingüísticos que analizan textos escritos son muy común hoy día, dice el investigador. El reto es construir un detector de noticias falsas, que no en construir el algoritmo por sí mismo, pero encontrando los datos correctos que permitan entrenar al sistema, dice Mihalcea.

Hay que decir que las historias falsas aparecen y desaparecen rápidamente, lo que hace difícil recolectarlas. Vienen en muchos géneros, complicando muchas veces esta tarea de recolección. Noticias satíricas, por ejemplo, son fáciles de recolectar, pero el uso de la ironía y del absurdo hace menos útil para poder entrenar al algoritmo que detecta noticias falsas. De ahí los errores que se pueden cometer.

En última instancia, el equipo de Mihalcea creó sus propios datos, haciendo crowdsourcing con un equipo en línea que hizo ingeniería en reversa de nuevas historias verificadas y las hizo falsas. De hecho, esta es la manera en como se crean las “fake news”, es decir, cuando algún individuo escribe rápidamente una historia para recibir un pago casi de inmediato.

Los participantes del estudio, reclutados con la ayuda de “Amazon Mechanical Turk”, se les pagó por crear nuevas historias falsas a partir de historias verdaderas, intentando simular el estilo de la nota original. Al final del proceso, el equipo de investigación tuvo un conjunto de datos de 500 historias reales y falsas.

Estas historias se alimentaron al sistema para que hiciese un análisis lingüístico, aprendiendo así a distinguir entre lo real y lo falso, entre noticias reales y noticias falsas. Finalmente el equipo puso el conjunto de datos a analizar y de ahí salió el 76% del éxito en el experimento.

Los detalles del trabajo están disponibles gratuitamente as quien le interese. Mihalcea dice que podría usarse en sitios de noticias y en otras entidades para así construir sus propios sistemas de detección de noticias falsas.

El artículo de este estudio se presentará en la Conferencia Internacional 27 sobre Computación Lingüística, que se llevará a cabo en Santa Fe, del 24 al 27 de agosto. El artículo lleva como título:
“Automatic detection of Fake News.”