Printer Friendly

Propuesta de desarrollo de un repositorio digital de documentos de investigacion para la FISI utilizando software libre.

Development proposal of a repository of digital research papers for the FISI using free software

1. INTRODUCCION

Un repositorio digital es un deposito o archivo en un sitio web centralizado, en donde se almacena y mantiene informacion digital, en bases de datos o archivos informaticos. Los archivos pueden estar en su servidor o referenciar desde su web al alojamiento originario. Los repositorios generalmente son de caracter academico e institucional y tienen por objetivo organizar, archivar, preservar y difundir la produccion intelectual de la organizacion [1]. Algunas de las herramientas libres mas utilizadas que permiten la implementacion de estos repositorios son: el DSPACE, E-print, LUCENE, Protocolo OAI-PMH, etc.

Los recursos mencionados permiten a organizaciones, tanto publicas como privadas, construir sus repositorios digitales, de tal manera que estas pueden organizar su informacion y administrarla. La informacion, que basicamente son documentos como informes, proyectos, articulos, etc. pueden ser vistos y actualizados por los miembros de la organizacion si tienen permisos para hacerlo. Otros usuarios de la web, que no son miembros de la organizacion, pueden acceder a documentos que se han registrado para ser compartidos. Por ejemplo, articulos de investigacion elaborados por miembros de la organizacion.

Son cientos de organizaciones publicas y privadas a nivel mundial que utilizan estos recursos informaticos con la finalidad de organizar los documentos que manejan, en particular las instituciones academicas. En el Peru, hay varias instituciones que cuentan con repositorios digitales, la Universidad Nacional Mayor de San Marcos, cuenta con uno en la Biblioteca Central; sin embargo, no se conoce de alguna Facultad de la universidad que maneje estos recursos. Se presenta esta propuesta para la Facultad de Ingenieria de Sistemas e Informatica, en concreto para el Instituto de Investigacion, que es el de construir un repositorio de documentos utilizando alguna de las herramientas libres mecionadas en el primer parrafo.

Los objetivos principales que se describen en este trabajo son: a) realizar un estudio de las herramientas libres para la construccion de un repositorio digital; y b) presentar una propuesta de desarrollo de un repositorio de documentos de investigacion que se producen en el Instituto de Investigacion de la Facultad de Ingenieria de Sistemas e Informatica de la Universidad Nacional Mayor de San Marcos.

La estructura del presente articulo es la siguiente: En la seccion 2 se bosqueja el marco organizacional y tecnologico que corresponde a los repositorios digitales; en la secciones 3 se presentan los requerimientos y diseno de la aplicacion para la implementacion de un repositorio digital; mientras que la seccion 4 corresponde a las Conclusiones del trabajo realizado y se proponen tareas futuras para su implementacion; y finalmente en 6 se presentan las referencias bibliograficas y bibliografia utilizada.

2. ORGANIZACION Y TECNOLOGIA UTILIZADA EN REPOSITORIOS DIGITALES

A partir del ano 1990 se dieron varios movimientos de intelectuales, en torno al acceso libre al conocimiento, a partir de sus encuentros se forma el Open Access community, comunidad que defiende y promueve el acceso gratuito y sin barreras al conocimiento cientifico. Estos movimientos permitieron entre otras actividades, definir los estandares para la creacion de los repositorios digitales.

En JISC, 2005, se define a los repositorios digitales institucionales como "Sistema en red de hardware y software, que proporciona servicios referidos a una coleccion de objetos digitales. Estos pueden ser recuperados, compartidos, exportados con diferentes propositos y contextos".

OpenDoar es un directorio de repositorios academicos de acceso abierto. Ademas, proporciona informacion estadistica de estos repositorios y permite la busqueda de repositorios o sus contenidos [13]. En la Figura 1 se puede observar uno de los reportes que emite OpenDoar, en el que se muestra el porcentaje de los tipos de produccion intelectual que almacenan las organizaciones en sus repositorios.

Algunas de las tecnologias y herramientas libres mas utilizadas que permiten la implementacion de estos repositorios son: el DSPACE, E-prints, LUCENE, Protocolo OAI-PMH, etc. Algunos de estos se presentan brevemente en las siguientes subsecciones.

2.1. DSpace

Dspace es un repositorio digital que captura, guarda, indexa y permite la consulta de la produccion intelectual de los grupos y centros de investigacion de Universidades. Creado por el Instituto Tecnologico de Masachuset y Hewlett-Packard, en la actualidad es una herramienta libre disponible para instituciones de investigacion a nivel mundial. Su uso se ha extendido tambien a instituciones privadas [1,2]. En la actualidad tienen registrado repositorios de alrededor de 963 empresas publicas y privadas a nivel mundial, la mayor parte de ellas instituciones academicas.

2.2. E-prints

Eprints es un software libre que facilita la creacion de repositorios virtuales, creado por la universidad de Southampton. Creado con la finalidad de crear un repositorio institucional de edicion electronica para la investigacion academica, pero puede ser usado para otros propositos [3]. Esta disenado con el objetivo de ser facil, rapido de instalacion y gratuito. Eprints se distribuye bajo la licencia GNU, lo cual significa que el codigo fuente es accesible y modificable por cualquier programador, con la condicion que las modificaciones se hagan tambien accesibles publicamente. Eprints puede funcionar en cualquier ordenador con sistema operativo Linux.

2.3. OAI-PMH (Open Archive Initiative-Protocol for Metadata Harvesting)

OAI-PMH (Open Archive Initiative-Protocol for Metadata Harvesting) es un protocolo para la transmision de contenidos en internet, creado por investigadores a nivel mundial a partir de su primera reunion en Octubre de 1999 en Nuevo Mexico, USA. Cuya finalidad es desarrollar y promover estandares de interoperabilidad para facilitar la difusion eficiente de contenidos en Internet [5].

Su arquitectura es basada en el modelo cliente-servidor. Los clientes son los archivos que proporcionan la informacion (proveedores de datos), y los servidores son los recolectores o servicios que toman los datos, con el objetivo de incorporar algun valor anadido y presentarlos a los usuarios finales (proveedores de servicios). En las Figura 3 se presentan la arquitectura de OAI-PMH, en el que se destacan sus funciones como proveedores de servicios y datos.

[FIGURA 2 OMITIR]

2.4. Lucene

Lucene es un software que permite crear buscadores de contenidos, basicamente permite indexacion y busqueda de documentos. Utilizado por numerosos proyectos, y es software libre respaldado por la fundacion Apache [4].

Define un modelo de clases compacto y de facil comprension, permitiendo que una implementacion inicial completa de busqueda e indizacion se puede realizar con muy pocas lineas de codigo y pocas instancias de objetos de Lucene. Es una libreria que permite incorporar capacidades de indexacion y busqueda a las aplicaciones. La Figura 3 muestra la Arquitectura de Lucene, en donde se muestran los modulos de indexacion y busqueda de Lucene, y su interfaz con el ambiente de la aplicacion.

[FIGURA 3 OMITIR]

3. REQUERIMIENTOS Y DISENO DE La APLICACION

En esta seccion se presenta y disena una propuesta de aplicacion para la construccion de un repositorio digital que utilice alguna de las herramientas libres para su implementacion.

3.1. Area de aplicacion y requerimientos

El instituto de Investigacion de la Facultad de Ingenieria de Sistemas e Informatica de la UNMSM, recibe y registra documentos impresos y digitales, de sus investigadores como:

--Propuestas de proyectos de investigacion,

--Informes tecnicos de proyectos de investigacion, estos proyectos pueden ser con financiamiento o sin financiamiento por parte del Vicerrectorado de investigacion.

--Asimismo, el area produce revistas de investigacion al menos dos revistas al ano, los cuales contienen articulos elaborados por los investigadores.

--Registra Proyectos de tesis de pregrado y postgrado que se van a sustentar

--Entre otros documentos de investigacion, como informes tecnicos de grupos de investigacion, etc.

Contar con un repositorio digital de estos documentos de investigacion que maneja el Instituto de Investigacion permitiria un control, manejo y documentacion eficiente de los mismos. Cada ano se generan en el Instituto decenas de estos documentos. Permitiendo ademas compartir esta informacion con otros investigadores nacionales e internacionales. De esta manera, el Instituto, asi como cientos de organizaciones, utilizarian este tipo de tecnologias de la informacion.

Los requerimientos funcionales para la construccion del repositorio serian los siguientes:

--Registro y actualizacion de los documentos de investigacion: propuestas, informes tecnicos, proyectos de tesis, pre y postgrado, articulos de revistas, etc.

--Consultas por tipos de lineas de investigacion, autores, fechas, etc.

--Informacion estadistica de la produccion cientifica de la Facultad.

--Administracion de usuarios que registran documentos.

--Los requerimientos No funcionales basicos para la construccion del repositorio serian:

--Utilizar DSpace para la construccion del repositorio

--Lenguaje de programacion Java para el desarrollo de las interfaces

--Sistema operativo Windows para las interfaces de usuario

--Se requiere de un computador de escritorio para el desarrollo de las aplicaciones.

3.2. Funcionalidades de la aplicacion del repositorio

En este punto se presentan los Casos de uso del Sistema prioritarios, que representan las funcionalidades que el sistema debe realizar, y se presentan con sus respectivos diagramas, los que se muestran en la Figura 4:

[FIGURA 4 OMITIR]

Actualizar documentos permite registrar, actualizar y eliminar documentos del repositorio. El usuario es un administrador del sistema o un investigador.

Consultar documentos, los usuarios de esta funcionalidad pueden ser del Instituto o investigadores interesados en la informacion registrada, de otros centros nacionales o internacionales.

Emitir de informacion estadistica, los usuarios de este caso de uso serian los directores y asesores del Instituto interesados en la produccion cientifica de la Facultad.

3.3. Seleccion de la tecnologia utilizada

Debido a una evaluacion realizada de las tecnologias y herramientas presentadas en la seccion 2 de este articulo; asi como basados en la experiencia realizada en el curso de Taller de Proyectos, en donde se realizaron dos implementaciones de prototipos de repositorios de proyectos de tesis de pregrado de la Facultad de Ingenieria de Sistemas e Informatica de la Universidad Nacional Mayor de San Marcos. Se puede concluir que las herramientas Lucene y DSpace presentan las caracteristicas mas adecuadas y viables para ser seleccionadas en el presente trabajo.

De las dos herramientas preseleccionadas podemos argumentar que Dspace es una de las mas utilizadas en la construccion de repositorios; sin embargo, no es facil su implementacion, y es rigida en cuanto al diseno de interfaces, limitando algunas funcionalidades que una aplicacion de repositorio podria querer considerar.

De esta manera, la herramienta que estamos seleccionando es el Lucene, debido a la facilidad de implementacion, y al volumen de documentos que maneja el presente proyecto, asi como un diseno flexible de las interfaces de la aplicacion del repositorio que se plantea implementar.

3.4. Arquitectura del diseno

En la Figura 5 se muestra un diseno de Arquitectura del repositorio propuesto. Se observan los procesos que corresponden al area de aplicacion y al area de Lucene. En la parte izquierda de la imagen se observan el conjunto de documentos digitales que despues del proceso de registro se van a almacenar en el repositorio digital. En la parte derecha de la imagen, un usuario del sistema realiza una consulta (pregunta por un documento), y el sistema le devuelve un resultado de la busqueda.

3.5. Diseno de interfaces

En la Figura 6 se muestra un diseno estandar de interface para repositorios digitales, en el ejemplo corresponde al repositorio de la Universidad de Alcala, modelo que se podria adoptar para el repositorio de II-FISI. Los aspectos principales que se pueden destacar, en el recuadro de la izquierda, la etiqueta "Navegar', aqui se presenta un menu para realizar busquedas por alguna de las opciones: comunidades (areas de la institucion), fechas, autor, titulos o materias. En la parte central de la imagen, primero se presenta al repositorio, hacia el medio se presenta la opcion "Buscar', a partir de textos que se ingresan, y luego se exhiben los enlaces de las comunidades definidas en el repositorio.

[FIGURA 5 OMITIR]

4. EVALUACION Y CONCLUSIONES DEL TRABAJO DESARROLLADO

El trabajo que se presenta en este articulo se desarrolla en el marco de los Repositorios virtuales para contenidos digitales. En particular, se presenta una propuesta de requerimiento y diseno de implementacion de un repositorio digital para el Instituto de Investigacion de la Facultad de Ingenieria de Sistemas e Informatica de la Universidad Nacional Mayor de San Marcos. El repositorio permitira organizar, mantener y consultar documentos relacionados a la produccion de la investigacion en el Instituto. Se ha hecho un estudio y seleccion de la herramienta libre que permitira la construccion del repositorio, esta tecnica es el Luecene. En este trabajo, ademas se presentan los requerimientos y un diseno de la aplicacion.

Se ha cumplido en un 100% de los objetivos propuestos en este Trabajo, los cuales son:

1. Estudio detallado de las herramientas libres mas utilizadas.

2. Elaborar los requerimientos de un area usuaria de la universidad para la parte de aplicacion.

3. Desarrollar el analisis y diseno para el repositorio digital de documentos de investigacion de la II-FISI.

[FIGURA 6 OMITIR]

Si bien se propone el analisis y diseno del repositorio para documentos de investigacion de la FISI UNMSM. Resta por realizar la implementacion. Dos de las herramientas libres que son candidatas para ser seleccionadas para la construccion del repositorio serian DSpace y Lucene.

Asimismo la implementacion del repositorio podria replicarse en otros Institutos de Investigacion de la Universidad.

A continuacion se presentan los resultados obtenidos en la realizacion del presente trabajo. Como trabajo futuro se propone la implementacion, es decir la codificacion y pruebas, del repositorio digital.

Los productos obtenidos como resultado de la investigacion son:

1. 100 % de los objetivos propuestos del proyecto.

2. Analisis y diseno de la Propuesta de desarrollo de un repositorio digital para documentos de investigacion de la FISI UNMSM.

5. REFERENCIAS BIBLIOGRAFICAS

[1] dspace.mit.edu Repositorio institucional, consultado el 05-11-2010.

[2] www.dspace.org Pagina oficial Dspace, consultado el 05-11-2010.

[3] www.eprints.org Pagina oficial de Eprints, consultado el 05-03-2010.

[4] Lucene.apache.org Pagina oficial Lucene, consultado el 05-03-2010.

[5] www.openarchives.org/OAI/ The Open Archives Initiative Protocol for Metadata Harvestin. Consultado el 05-03-2010.

[6] Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval. Maryland: Addison-Wesley-Longman Publishing co, 1999.

[7] Brin, S. and Page, L. The anatomy of a large-scale hypertextual Web search engine. Computer Netsorks and ISDN Systems, 30, 1998. p. 107-117

[8] Chu, H. and Rosenthal, M. "Search engines for the WWW: A comparative study and evaluation methodology' En http://www.asis.org/annual-96/ ElectronicProceedings/chu.html

[9] Delgado Dominguez "Mecanismos de recuperacion de Informacion en la www', Universidad de Islas Baliares, Espana. 1998. http://dmi.uib.es/people/ adelaida/tice/modul6/memfin.pdf

[10] Frakes W.B. y Baeza Yates R. "Information Retrieval: data structures and algorithms'. Prentice Hall 1998.

[11] La Serna P. N. y grupo, Diseno del Sistema de Recuperacion de Informacion para la biblioteca FISI. Vol 2. Revista RISI 2005.

[12] Manning, C. Prabhakar R., and Hinrich S. Introduction to Information Retrival. Cambridge University Press, 2008.

[13] The Directory of Open Access Repositories--OpenDOAR. www.opendoar.org.

Nora La Serna Palomino, Augusto Cortez Vasquez, Fernando Gomez Jaime

Universidad Nacional Mayor de San Marcos

Facultad de Ingenieria de Sistemas e Informatica

nlasernap@unmsm.edu.pe, cortez_augusto@yahoo.fr
Figura No. 1. Repositorios por herramientas
utilizadas.

Content type in OpenDOAR Repositories
Worlwide

                           Percentage of
                           Repositories

Journal articles           1075 = 63%
Theses and dissertations   883 = 51%
Unpublished reports and    689 = 40%
  working papers
Conference and workshop    604 = 35%
  papers
Books, chapters and        542 = 31%
  sections
Multimedia and             395 = 23%
  audio-visual
  materials
Other special              285 = 16%
  item types
Bibliographic              260 = 15%
  references
Learning Objects           259 = 15%
Datasets                   74 = 4%
Software                   32 = 1%
Patents                    31 = 1%

Total = 1783 repositories

Fuente: (OpenDOAR, 2010)

Nota: Tabla derivada de grafico de barra.
COPYRIGHT 2010 Universidad Nacional Mayor de San Marcos
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2010 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:La Serna Palomino, Nora; Cortez Vasquez, Augusto; Gomez Jaime, Fernando
Publication:Revista de investigacion de Sistemas e Informatica
Article Type:Report
Date:Jul 1, 2010
Words:2802
Previous Article:Programacion en N capas.
Next Article:Radiofrecuencia de identificacion (RFID): microtecnologia de gran impacto.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters