Búsqueda en bibliotecas digitales será más eficiente - Universidad Nacional de Colombia Sede Manizales

Manizales,, Sep. 29 de 2014 - Agencia de Noticias UN– El diseño de un sistema híbrido basado en metadatos permitirá realizar de manera más eficaz la búsqueda de objetos de aprendizaje en bibliotecas y archivos digitales.

Los objetos de aprendizaje hacen referencia a la unidad de contenido educativo en formato digital. Están compuestos por metadatos (datos altamente estructurados que describen información, calidad, condición y otras características de los datos) que se buscan de manera semántica, haciendo uso de palabras clave o etiquetas que describen la información contenida en los repositorios.

Germán Augusto Osorio, profesor del Departamento de Informática y Computación de la U.N. Sede Manizales, desarrolla actualmente un estudio que permite hacer más eficiente la búsqueda de datos en repositorios y bibliotecas digitales, a partir de la técnica de análisis semántico latente.

“Se trata de una teoría y un método para extraer y representar el significado contextual de las palabras, mediante cálculos estadísticos aplicados a un amplio corpus de textos”, explica el docente, quien añade que con esta herramienta, el documento es visto como un todo y no de manera fraccionada, por lo que resulta más efectivo obtener coincidencias.

Contexto de las palabras

Los repositorios son bibliotecas digitales que almacenan documentos o archivos asociados a metadatos. Estos últimos componen la estructura detallada del texto y describen atributos, propiedades y características de objetos que pueden encontrarse y utilizarse, en referencia al autor, título o editorial, pertinentes para acceder al documento.

Según el profesor Osorio, en la mayoría de bibliotecas digitales los buscadores de información están basados en la relación entre las palabras coincidentes de la consulta con las que hay en el documento. Esta búsqueda presenta algunas dificultades en cuanto a sinónimos y homónimos.

Por ejemplo, si se busca en el repositorio todo lo referente a la palabra ‘carro’, pero se escriben términos similares como ‘vehículo’ o ‘coche’, muchos documentos o información relevante podrían quedar por fuera de la consulta, ya que pasan desapercibidos.

Asimismo, las palabras homónimas, al tener la misma forma gramatical, pero diferente significado, generan conflictos semánticos en la búsqueda de información, como ocurre con la palabra banco.

La búsqueda semántica permite llegar a documentos que, aunque en principio las palabras de búsqueda no coincidan, su significado semántico es parecido.

El diseño está basado en la aplicación del algebra lineal sobre un modelo de espacio vectorial, que convierte las palabras contenidas en una matriz, de la cual se despliegan los diferentes documentos que las mencionan en forma de columnas.

A través de una operación matemática, se compara la columna consultada con las existentes, definiendo coincidencias y mejorando la precisión en los resultados de la búsqueda.

“Nunca en la historia de la humanidad se ha tenido tanta información a la mano; quizás hoy el problema no es acceder a ella, sino cómo hacerlo”, enfatiza el experto.

En entornos educativos, cuando se busca un tema, aparecen cientos de documentos que no se pueden revisar uno a uno. En la medida en que se logre reducir ese número, en cuanto al uso de las palabras, la búsqueda será más productiva y eficaz para el investigador.

Actualmente el estudio se lleva a cabo con el Grupo de Investigación en Ambientes Inteligentes Adaptativos de la U.N. Sede Manizales.

(Por:Fin/MLIA/dmh/AC)