NLUlite:Una base de datos con lenguaje natural integrado

Las bases de datos sirven para guardar información, evidentemente, pero el poder de las mismas se basa en la manera que se pueden hacer consultas a éstas. Normalmente se tienen lenguajes de consultas (queries), para precisamente estas cuestiones, pero en ocasiones requieren de cierto entrenamiento por quienes quieren consultar los datos contenidos en estas bases. Por eso, es de llamar la atención una base de datos con un sistema de consulta en lenguaje natural, que lee frases (en inglés) y puede responder sobre las mismas. NLUlite ha salido ahora en versión public alpha.

NLUlite se creó para ser amigable con el desarrollador, y consiste en un servidor y en un cliente escrito en Python. Se usa pasando textos al programa cliente. La información textual se marca en términos de frecuencias y las oraciones se analizan a través de las frecuencias halladas en las mismas. Una “distancia” entre palabras se obtiene usando el Wordnet corpus (3.1), que lo proveé el Open American National Corpus (OANC). Una vez hecho esto, el analizador mejora las oraciones y les da sentido de acuerdo al conjunto del marco de datos que se está usando.

Como un ejemplo, si se pasa un texto de la Wikipedia sobre serpientes, el sistema podría ser capaz de responder a las preguntas: ¿Qué saben hacer las serpientes?, ¿dónde viven con mayor frecuencia?, etcétera.

Los textos pueden incluir reglas simples de inferencia, tales como “si el animal no tiene extremidades no puede caminar”, con lo que el usuario podría preguntar: “¿Qué es lo que no camina?” y recibir la respuesta en términos del texto que se dio y las reglas de inferencia dadas con antelación.

Las fuentes de datos para este manejador de bases de datos textuales pueden incluir páginas web y RSS feeds. Los datos se mantienen como objetos en una clase llamada “wisdom”. El código puede definir muchos objetos de esta naturaleza, cada uno es una base de conocimientos separada. Por el momento sólo se puede usar NLUlite para analizar textos que sean menores a un megabyte, aunque el desarrollador planea incrementarlo en las versiones siguientes. Una vez que el texto es analizado, la información se guarda como XML.

NLUlite se puede conseguir sin costo en una versión no paralela (unsolo thread o hilo de ejecución), o bien, en una versión con muchos hilos de ejecución (comercial), que analiza las páginas mucho más rápidamente. Hay otros proyectos, como el Stanford Natural Language Processing Group y el Natural Language Toolkit, pero ambos también están apenas en estapa de desarrollo.

Referencias:

NLUlite
i-programmer