Printer Friendly

RESULTS OBTAINED IN A DATA MINING PROCESS APPLIED TO A DATABASE CONTAINING BIBLIOGRAPHIC INFORMATION CONCERNING FOUR SEGMENTS OF SCIENCE/RESULTADOS OBTENIDOS EN UN PROCESO DE MINERIA DE DATOS APLICADO A UNA BASE DE DATOS QUE CONTIENE INFORMACION BIBLIOGRAFICA REFERIDA A CUATRO SEGMENTOS DE LA CIENCIA.

INTRODUCCION

La mineria de datos es el proceso mas revolucionario hasta el momento, que se encarga de la extraccion no trivial de patrones ocultos, utiles y que residen de forma implicita en los datos y tambien la forma mas rapida de estudiar grandes volumenes de informacion.

Estas dos razones sirvieron de justificacion para que estas tecnicas de analisis fueran aplicadas dentro de la tesis doctoral Metodologia para los estudios de Datos Bibliograficos con el empleo de la Mineria de Datos y mientras se conforma el marco teorico, se decidio analizar algunos resultados logrados con las herramientas de mineria de datos seleccionada, para determinar que seria lo mas apropiado para esta investigacion.

Aunque la mineria de datos son tecnicas de analisis que ya tienen algunos anos de explotacion en la economia, en los negocios, en la medicina, etc., para la Biblioteca de Ciencia y Tecnica del IDICT, es una forma de analisis novedoso, porque por primera vez esta siendo aplicada aqui y con sus resultados se ha logrado proponer nuevos productos y servicios que han reanimado el trabajo de la Biblioteca, ademas que la nueva calidad de la informacion de la base de datos ha permitido un mejor funcionamiento del Sistema Gestor de Informacion. (Candas Romero, 2006)

La base de datos que se procesa almacena informacion cientifica cubana de las tesis doctorales (T), los premios academicos (PA), las publicaciones seriadas (S), como las revistas cientificas y los manuscritos depositados (MD), de cuatro segmentos de las ciencias, como son las Ciencias Agropecuarias, las Ciencias Biomedicas, las Ciencias Tecnicas y las Ciencias Sociales. Es una base de datos que ya tiene mas de 32 000 registros.

Para lograr estos resultados se ejecutaron varios procesos de mineria de datos a la informacion bibliografica y se encontraron diferentes patrones, que permitieron hacer mejoras en los productos y servicios bibliotecarios e inclusive dejaron abierta la posibilidad de hacer otras investigaciones futuras. (Rueda-Clausen, Villa-Roel, & Rueda-Clausen, 2005)

BREVE MARCO HISTORICO

Desde que los autores Scott Nicholson y Stanton acunaron en el 2002 que la aplicacion de la mineria de datos en bibliotecas se denominara bibliomineria (bibliomining) y tambien definieron a la bibliomineria como "la combinacion de la mineria de datos, la bibliometria, la estadistica y las herramientas de elaboracion de informes y extraccion de patrones de comportamiento, basados en los sistemas bibliotecarios" (Nicholson, 2003), son muchos los intentos de querer implementar los procesos de mineria de datos, dentro de las bibliotecas avanzadas del primer mundo.

Sin embargo en Cuba se ha migrado al software libre buscando ahorro por concepto de compra de softwares, pero los sistemas de gestion bibliotecarios, no incluyen los procesos de mineria de datos, por lo tanto, implementar un proceso de mineria de datos que permita mejorar la informacion de la base de datos que trabaja con el sistema de gestion bibliotecario, es imprescindible para obtener el beneficio que aporta el mejoramiento de la informacion en la base de datos y el valor de los patrones obtenidos con los procesos de mineria de datos, porque es la unica forma hasta el momento, de reanimar la informacion guardada en las bases de datos de las bibliotecas y comenzar a brindar una mejor gestion de la informacion, una mejor gestion del conocimiento, que ayude en el trabajo diario, tanto de los usuarios, como de los propios bibliotecarios.(Herrera Varela, 2006)

Es por eso, que este trabajo muestra algunos de los patrones encontrados, y de ellos se analizaron con mayor detalle los patrones logrados con las tecnicas de Arboles de Decisiones y la Matriz de Correlacion, por ser estos patrones resultados de la clusterizacion, que aporta conocimiento sobre el comportamiento de la informacion en la base de datos.

Algunos de estos patrones se muestran en forma textual, otros en forma grafica y ambas formas permiten hacer una mejor comprension de los resultados encontrados con las tecnicas aplicadas. Ambas salidas ayudan a mejorar servicios y productos, que es uno de los objetivos propuesto.

MATERIALES Y METODOS

Dentro de los materiales empleados se encuentra la base de datos con su informacion bibliografica, esta base de datos recoge campos como Nombre del autor, Titulo de la publicacion, Segmento de la ciencia al cual pertenece la publicacion, Idioma, Ano de publicacion, Resumen y seis palabras claves por cada registro (seis metadatos).

La herramienta digital seleccionada para aplicar las tecnicas de mineria de datos fue Rapid Miner v.5.2, esta es una herramienta libre, que supera al software Weka por la calidad de sus resultados, graficas y que ademas ofrece la posibilidad de adjuntarle extensiones, que aumentan las prestaciones digitales que ofrece el software en su forma original.

El metodo utilizado para la aplicacion del proceso de mineria de datos consta de cinco procesos fundamentales, las cuales se ordenan de la siguiente manera segun su autor (Cabena, 1998):

1. Determinacion de los Objetivos.

2. Preparacion de datos.

a. Seleccion: Identificacion de las fuentes de informacion externas e internas y seleccion del subconjunto de datos necesario.

a. Preprocesamiento: estudio de la calidad de los datos y determinacion de las operaciones de mineria que se pueden realizar.

a. Transformacion de datos: conversion de datos en un modelo analitico.

3. Mineria de datos.

a. Tratamiento automatizado de los datos seleccionados con una combinacion apropiada de algoritmos.

4. Analisis de Resultados.

a. Interpretacion de los resultados obtenidos en la etapa anterior, generalmente con la ayuda de una tecnica de visualizacion.

5. Asimilacion del conocimiento.

a. Aplicacion del conocimiento descubierto.

Dentro de las tecnicas que se utilizaron para encontrar los patrones en la informacion, estan los Arboles de Decision y la Matriz de Correlacion, y dentro de las graficas que se seleccionaron para mostrar algunos resultados esta el Grafico de Scatter Plot 3D, el Surface 3D y la Desviacion. Estos resultados forman parte de una tesis doctoral como ya se menciono, y hasta aqui se hizo un corte para determinar que ofrecen estos patrones encontrados.

RESULTADOS OBTENIDOS

Despues de aplicar las diferentes tecnicas de mineria de datos, uno de los resultados mas interesante logrados, son las salidas de los Arboles de Decision, porque utilizan las tecnicas de Clasificacion, ademas de ser procesos de autoaprendizaje (Madrid, 2009), razon del porque cada resultado es diferente al anterior, tambien crea una salida en forma de tabla, con todos los metadatos que entraron al analisis.

Los Arboles de Decision se consideran dentro de los procesos no supervisados (Gutierrez Rodriguez, 2012), pero el algoritmo requiere conocer a la variable independiente, en este caso la variable fue el Segmento, para a partir de ahi comenzar con la clusterizacion de las palabras claves y el aprendizaje, por eso se aprecia en la grafica los cuatros segmentos de la ciencia, cada uno como una rama del arbol. Para este proceso se tomo una muestra de 10 491 registros. Ver Fig. I

Esta grafica muestra una distribucion muy interesante. El segmento Biomed muestra una sola palabra clave (Neurologia), el segmento CAgrop igualmente muestra una sola palabra clave, que en este caso es Coffea arabica y Csoci tambien muestra una sola palabra clave que es Cuba. Estas son las palabras claves con mayor peso en la primera ejecucion, sin embargo, para el segmento de CTecn existe un desglose diferente, primero por anos (Year) y despues por Idioma.

Detectados los errores dentro de la informacion, se procedio a una segunda revision y limpieza de la informacion de la base de datos y nuevamente fue ejecutado el mismo algoritmo, con la misma base de datos, la misma cantidad de registros y tomando nuevamente el mismo juego de variables, donde se declara otra vez que el Segmento es la variable independiente para el proceso de mineria de datos y el nuevo resultado emitido, muestra una nueva distribucion de la informacion por Segmento con mas detalles, sobre los diferentes metadatos de mayor peso dentro de la base de datos.

Haciendo una simple comparacion de estas dos graficas (Fig. I y Fig. II), se puede detectar que el Segmento de Csoci, muestra la palabra clave 'Cuba' igual que la Fig. I, mientras que en el caso del Segmento de CAgro se observa que la palabra clave ahora es 'Variedades', a diferencia de la Fig. I, que contenia 'Coffea arabica', sin embargo para los Segmentos de Biomed y CTecn encontramos que la Fig. II despliega diferentes revistas que pertenecen a esos Segmentos, ademas que hay revistas que tambien desglosa por Idioma y palabras claves (Keywords).

Estos resultados se lograron con solo mejorar la base de datos en cuanto a la calidad de la informacion y ejecutar nuevamente el proceso, demostrando de esta manera que una de las fases determinante en los resultados que se obtienen, dependen directamente del pre procesamiento que han tenido los datos, antes de someterse al proceso de mineria.

Con todos estos patrones logrados a traves de los Arboles de Decision, se puede conocer por cada Segmento las tematicas mas investigadas, es decir el comportamiento que estan teniendo las investigaciones en el pais, y tambien demuestra que la utilizacion de la palabra 'Cuba' como el contenido de un metadato es una incorrecta asignacion, porque desperdicia la posibilidad de asignar la tematica relacionada a ese trabajo de investigacion.

Otro de los resultados obtenidos fue la Matriz de Correlacion, que ha confirmado relaciones muy interesantes entre variables. El tipo de resultado que muestra la Matriz de Correlacion tiene su interpretacion basado en el concepto, que mientras mas cercano este el valor a 1, la relacion entre variables es mas fuerte. Evidentemente la relacion mas fuerte es la de una variable con ella misma, como se ve en la grafica. Ver Fig. III

Haciendo un breve analisis de las variables de la matriz tenemos que:

1. La variable Autor tiene una relacion con las variables Revista, Segmento y con las tres primeras palabras claves (Keywordl, Keyword2 y Keyword3) utilizadas en cada articulo, estando por encima del 0.5, pero pierde relacion con el resto de las variables.

2. La variable Revista tiene una relacion con las variables Segmento y Keywordl por encima del 0.5, no asi con el resto de las Keywords.

3. Las variables TD, Year e Idioma, son variables que tienen una relacion debil con las demas.

Este tipo de patrones sirve para hacer estudios sobre la relacion que existe entre los campos de la base de datos. En el caso de las palabras claves (Keyword4, Keyword5 y Keyword6) estan confirmando la perdida de relacion con el contenido de la informacion, de igual forma que sucedio con los Arboles de Decision con la Keyword que contiene la palabra Cuba. Se debe tener en cuenta que si de los seis metadatos que tiene cada registro, solo los tres primeros metadatos mantienen una relacion fuerte (> a 0.5), entre sus metadatos y el tema de los trabajos presentados, mientras que los otros tres metadatos restantes tienen una relacion debil, los sistemas de gestion de informacion no podran hacer una correcta recuperacion de esos registros. Se estan desperdiciando tres metadatos para referenciar correctamente cada registro de la base de datos.

Otro inconveniente que esto provoca es sobre la vigilancia tecnologica, estos problemas de mala recuperacion tambien estarian reflejados en este proceso, porque el grado de confiabilidad de la recuperacion de la informacion no es buena.

Entre las salidas que ofrece el software Rapid Miner v 5.2 estan los diferentes graficos, entre ellos se encuentran el grafico Scatter Plot 3D y Surface 3D, que son utilizados para hacer una representacion visual de la matriz de correlacion sobre un eje de coordenadas de tres dimensiones. Ver Fig. IV, donde se muestran los valores representados en el espacio tridimensional.

La interpretacion de este tipo de grafica tridimensional consiste en que muestran valores de un conjunto de datos basandose en dos variables, en estos casos el eje X representa la variable independiente o parametro de control, el eje Y puede representar una variable dependiente o independiente y la coordenada Z muestra el grado de relacion que existe entre las variables, que no es otra cosa que el grado de correlacion entre las variables, quedando entonces que la representacion que suma cada par de valores como las coordenadas de un punto, conforman un conjunto de puntos que se conoce como la nube de puntos o diagrama de dispersion. (Escudero Maximiliano, 2013)

En este grafico en particular el primer atributo es el Autor por el eje de la X y el segundo atributo es la Revista por el eje de las Y. Cada campo de la base de datos esta representado por un color, estas imagenes se pueden ampliar y rotar para ver con mayor claridad la correlacion entre variables. Dicho de otra forma, la Fig. IV es la representacion grafica de la matriz de Correlacion de la Fig. III

Este otro grafico debajo, llamado Surface 3D, Fig. V, es otra forma de representacion tridimensional y al igual que en la Fig. IV plotea la Correlacion que existe entre las variables, pero en este caso une los puntos con lineas creando una superficie que da forma a una figura.

En ambas imagenes, Fig. IV y Fig. V, se puede observar que los picos en el diseno de la imagen, se relacionan a los valores mas altos de la matriz, al igual que la simetria de la imagen, que corresponde con la simetria de la matriz de correlacion Fig. III.

En la Fig. VI debajo, se puede observar la representacion grafica de la desviacion estandar que tiene el campo Revistas frente al resto de la informacion de la base de datos. La desviacion estandar se calcula como raiz cuadrada de la varianza y se interpreta como la dispersion promedio que hay entre los diferentes valores de la variable respecto de la media aritmetica. (Suarez-Ibujes, 2008)

Es la medida de dispersion mas importante y juntamente con la media aritmetica describen a un conjunto de datos. La desviacion estandar de un grupo repetido de medidas nos da la precision de estas y la precision es uno de los valores que se toma en cuenta, para determinar si el modelo escogido es el apropiado. En este caso el modelo es el correcto, porque las medidas de dispersion de todas las variables se mantienen sobre la media, lo que permite suponer que el grado de relacion que tiene la informacion que se encuentra dentro de los campos tambien esta correcta. (Yat Pop, 2008)

La representacion visual de la medida de desviacion estandar de los datos se puede ver en la Fig. VI

Es decir, se puede observar que tomando el campo Revista como referencia, existe una gran dispersion de todos los campos restantes. En especial a partir de la Keyword2 a la Keyword4, la dispersion aumenta mientras que ya en la Keyword5, la dispersion comienza a disminuir.

No obstante, la dispersion de su valor se mantiene en torno a la media, y por tanto el contenido de esas variables guardan relacion directa con el tipo de articulo.

DISCUSION

Con este estudio se planteo el interes de aplicar las tecnicas de mineria de datos a la informacion bibliografica, para lograr los objetivos de:

1. mejorar la calidad de la informacion de la base de datos, para mejorar el funcionamiento del sistema gestor.

2. encontrar patrones ocultos que sirvan para proponer mejoras en los productos y servicios bibliotecarios.

3. mejorar la gestion de la informacion y del conocimiento.

Los resultados alcanzados despues de la aplicacion de las tecnicas de mineria de datos, demostraron que todos los objetivos propuestos se lograron. Es decir, los diferentes patrones encontrados a traves de los Arboles de Decision, la Matriz de Correlacion, la visualizacion grafica de la Correlacion a traves del Scatter 3D Plot, el Surface 3D y la Desviacion Standard, permitieron mostrar que:
   Durante el desarrollo del proceso de mineria de datos que abarca
   los aspectos relacionados a la Preparacion de datos, quedo
   demostrado que en la seleccion del subconjunto de datos y la
   seleccion de los campos seleccionados para aplicar la mineria de
   datos fue la correcta.

   Durante el Preprocesamiento de la informacion, se logro mejorar la
   calidad de la informacion que tiene la base de datos, a traves de
   la estandarizacion de la informacion, caracteristica que permite
   que la informacion pueda ser utilizada, por cualquier otro sistema
   de gestion de informacion.

   Los Arboles de Decision mostraron las tematicas que mas se estan
   investigando a nivel nacional, ordenada por los campos Segmentos y
   Revistas. Con esta informacion se propuso la instalacion de un
   repositorio que sirve de apoyo a un servicio de vigilancia
   tecnologica, que permite conocer el avance que tienen las
   investigaciones a nivel nacional en comparacion con la de otros
   paises.


CONCLUSIONES

Se cumplio con el mejoramiento de la calidad de la informacion de la base de datos y esto permitio un mejor funcionamiento del Sistema de Gestion Bibliotecario.

Se cumplio con el objetivo de proponer nuevos productos y servicios para la Biblioteca, haciendo uso de los patrones encontrados a traves de la mineria de datos.

Se creo un repositorio con los resultados de los patrones de la mineria de datos, que es usada para estudios de vigilancia y prospeccion.

DOI: 10.4301/S1807-1775201815003

REFERENCIAS BIBLIOGRAFICAS

Cabena, P., Hadjinian, P., Stadler, R., Verhees, J. Zanasi, A. . (1998). Discovering Data Mining: From Concept to Implementation. from http://www.zanasi-alessandro.eu/publications/cabena-p-hadjinian-pstadler-r-verhees-j- zanasi-a-1998-discovering-data-mining-from-concept-to-implementation/

Candas Romero, J. (2006). Mineria de datos en bibliotecas: bibliomineria. from http://www.ub.edu/bid/17canda2.htm

Escudero Maximiliano, J., Lujan Ganuza, M., Wilberger, D., Martig, Sergio R. (2013). Scatter Plot 3D. from http://sedici.unlp.edu.ar/bitstream/handle/10915/20366/Documento_completo.pdf?sequence=1

Gutierrez Rodriguez, A. E., Garcia Borroto, M. & Martinez Trinidad, J.F (2012). Algoritmo de agrupamiento basado en patrones utilizando arboles de decision no supervisados. from http://3c.inaoep. mx/portalfiles/CCC-12-002.pdf

Herrera Varela, R. (2006). Bibliomining: mineria de datos y descubrimiento de conocimiento en bases de datos aplicados al ambito bibliotecario. from http://lemi.uc3m.es/est/forinf@/index.php/Forinfa/article/ view/122/127

Madrid, U. C. I. d. (2009). Analisis de Cluster y Arboles de Clasificacion. from http://halweb.uc3m.es/esp/ Personal/personas/jmmarin/esp/DM/tema6dm.pdf

Nicholson, S. (2003). Bibliomining for automated collection development in a digital library setting: Using data mining to discover web-based scholarly research works. Journal of the American Society for Information Science and Technology,54(12). from http://bibliomining.com/nicholson/asisdiss.html

Rueda-Clausen, G. C. F., Villa-Roel, G. C., & Rueda-Clausen, P. C. E. (2005). Indicadores bibliometricos: origen, aplicacion, contradiccion y nuevas propuestas. MedUNAB, Vol 8, No 1. from http://revistas.unab. edu.co/index.php?journal=medunab&page=article&op=view&path[]=208&path[]=191

Suarez-Ibujes, M. O. (2008). Conceptos basicos de Probabilidades y Estadistica Inferencial. from https:// es.scribd.com/doc/129480693/Conceptos-basicos-de-Probabilidades-y-Estadistica-Inferencial#download

Yat Pop, O. (2008). Regresion y Correlacion. from http://oscarmanuelyatpop.blogspot.com/2008/06/ regresion-y-correlacion.html

E.M. Ruiz Lobaina (iD) https://orcid.org/0000-0003-2932-0182

Instituto de Informacion Cientifica y Tecnologica, Havana, Cuba

C. P. Romero Suarez (iD) https://orcid.org/0000-0003-4640-3502

Instituto Superior de Tecnologia y Ciencias Aplicadas, Havana, Cuba

Manuscript first received: 2014/06/04. Manuscript accepted: 2018/05/03

Address for correspondence:

Esther Marina Ruiz Lobaina, Especialista en Sistemas de Informacion, Instituto de Informacion Cientifica y Tecnologica (IDICT), CITMA, Cuba. E-mail: marina@idict.cu, marinajfr@yahoo.com

Pedro Lazaro Romero Suarez, Profesor Titular, Instituto Superior de Tecnologia y Ciencias Aplicadas (INSTEC), Cuba. E-mail: lromerocu@gmail.com

Caption: Figura I. Arbol de Decision logrado con la herramienta Rapid Miner v5.2

Caption: Figura II. Nuevo Arbol de Decision logrado con Rapid Miner v5.2

Caption: Figura III. Matriz de Correlacion lograda con la Herramienta Rapid Miner v5.2

Caption: Figura IV. Scatter Plot 3D logrado con la herramienta Rapid Miner v5.2

Caption: Figura V. Surface 3D logrado con la herramienta Rapid Miner v5.2

Caption: Figura VI. Desviacion lograda con la herramienta Rapid Miner v5.2
COPYRIGHT 2018 TECSI - FEA - USP
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2018 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Lobaina, E.M. Ruiz; Suarez, C.P. Romero
Publication:Journal of Information Systems & Technology Management
Article Type:Report
Date:Jan 1, 2018
Words:3299
Previous Article:MODELOS DE AUDITORIA CONTINUA: UNA PROPUESTA TAXONOMICA.
Next Article:CHANGE IN CONSOLIDATED BUSINESS MODELS: THE STUDY OF RADIO TAXI COOPERATIVES IN BRAZIL AFTER THE INCLUSION OF MOBILE APPLICATIONS IN THE...
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters