Printer Friendly

Marco de trabajo para la integracion de recursos digitales basado en un enfoque de web semantica.

Framework for the integration of digital resources based-on a Semantic Web approach

1. Introduccion

Internet genera un escenario global en el que las condiciones de interoperabilidad (IEEE, 1990) son las que garantizan el descubrimiento, la distribucion y re-uso de recursos digitales, mas alla de condiciones de gestion local, de modelos tecnologicos y de herramientas de cualquier tipo. Para lograr la interoperabilidad entre repositorios de librerias digitales la Iniciativa de Archivos Abiertos (OAI) propone el protocolo para la recoleccion de metadatos denominado OAI-PMH (OAI, 2015). OAI-PMH se basa en estandares abiertos, por tanto, garantiza la interoperabilidad automatica entre emisores y receptores de recursos digitales, con independencia del software utilizado e incentivando la neutralidad tecnologica y la innovacion. Aunque OAI-PMH facilita el intercambio de metadatos en la Web, aun pueden persistir problemas para integrar los datos extraidos desde diversos repositorios. En un entorno abierto como la Web, no es posible estandarizar los procesos de descripcion y publicacion de metadatos, por tanto, cada institucion puede manejar diferentes formatos de datos o esquemas de metadatos o vocabularios.

Con el objetivo de reducir las barreras para integrar la informacion de las librerias digitales, en un entorno heterogeneo, se esta apostando por enfoques basados en tecnologias de la Web Semantica, especificamente Datos Enlazados (Linked Data). Con el concepto de la Web como repositorio global de datos enlazados se han conseguido significativos avances al momento de extraer y recuperar informacion util para los usuarios, procesar el significado o semantica de la informacion, recuperar el conocimiento que forma parte de las paginas web, o incluso cuando se trata de interpretar sentencias de busqueda en el contexto de la necesidad del usuario.

En este trabajo, se presenta un marco de trabajo para la publicacion de los datos bibliograficos extraidos de repositorios digitales que usan OAI-PMH, siguiendo los principios de Linked Data y el ciclo de vida para la publicacion de datos enlazados. En el siguiente apartado, se describen las tecnologias y las propuestas actuales para mejorar la interoperabilidad de metadatos. En la Seccion 3, se describe el marco de trabajo propuesto para la cosecha de metadatos y posterior publicacion de datos enlazados; un piloto aplicado a repositorios de universidades ecuatorianas es detallado en la seccion 4. A continuacion, en la Seccion 5, se describen ciertos escenarios de uso de los datos generados. Finalmente, en la seccion 6 se presentan las respectivas conclusiones y lineas de trabajo futuro.

2. Antecedentes y Trabajos Relacionados

En esta seccion se presenta una breve introduccion al protocolo OAI-PMH, Dublin Core y Datos Enlazados. Ademas se describen los enfoques existentes relacionados con este trabajo.

2.1. Protocolo OAI-PMH.

Desde el punto de vista tecnologico, las librerias digitales son repositorios que almacenan objetos digitales y utilizan OAI-PMH para exponer sus metadatos. OAI-PMH es un protocolo propuesto por la Open Archives Initiative que facilita la extraccion de metadatos (descritos segun un formato y esquema de metadatos) desde repositorios digitales. Para obtener los metadatos se utilizan los servidores de datos, que realizan solicitudes conocidas como verbos. OAI-PMH soporta 6 verbos que permiten obtener informacion relacionada a: el repositorio digital, el formato de metadatos, las colecciones de recursos y la descripcion detallada de cada recurso.

OAI-PMH es compatible con muchas herramientas que permiten la creacion de repositorios institucionales como Eprints (1), Dspace (2), Fedora (3), entre otros. OAI-PMH divide este fenomeno en proveedores de datos y proveedores de servicios; los primeros son repositorios que exponen sus metadatos a traves de OAI-PMH; los segundos, tambien llamados "harvesters o recolectores", desarrollan servicios de valor agregado basados en los metadatos obtenidos de los proveedores. En OAI-MPH cada repositorio almacena sus objetos digitales de manera independiente.

2.2. Esquema de Metadatos Dublin Core (DC).

Dublin Core o la Iniciativa de Metadatos Dublin Core (DCMI (4)) es el esquema de meta-informacion mas utilizado a nivel mundial (5), para describir los metadatos de los recursos digitales. Para maximizar las posibilidades de interoperar con otras colecciones de datos, se ha utilizado a DC como base este esquema de metadatos. En los ultimos anos, el conjunto de elementos DC se ha convertido en una infraestructura operacional del desarrollo de la Web Semantica. Entre los metadatos DC para describir contenido web, estan: Title, Subject, Description, Source, Language, Creator, Publisher y Rights. Ademas de los elementos basicos (ninguno obligatorio y todos repetibles) existen otros mecanismos que sirven para adaptar DC a las necesidades concretas de informacion y que hacen que este modelo de metadatos sea aplicable a cualquier proyecto de sistema o servicio de informacion digital.

2.3. Hacia la integracion de repositorios a traves de Datos Enlazados.

La Web Semantica visionada por Berners-Lee (2001) anade a la Web de Documentos del significado que le hace falta para disponer de un entorno en el que sea posible acceder a los datos contenidos en sitios Web y procesar automaticamente la informacion de un modo mas exacto y completo. En este trabajo, los autores se centran en el concepto de Web Semantica, desde una perspectiva del procesamiento de grandes volumenes de datos enlazados (Linked Data). Esta vision implica que los datos estan almacenados en una base de datos global distribuida (Heath & Bizer, 2011).

La publicacion de Datos Enlazados se fundamenta en cuatro principios basicos de diseno propuestos por Tim Berners-Lee (2006):

1. Usar URIs para identificar los recursos de la Web.

2. Usar URIs-HTTP para que los usuarios puedan localizar y consultar estos recursos.

3. Proporcionar informacion util acerca del recurso cuando la URI haya sido consultada, utilizando RDF6 para describir recursos y SPARQL7 para consultarlos.

4. Incluir enlaces a otras URIs relacionadas con los datos contenidos en el recurso, de forma que se potencie el descubrimiento de informacion en la Web.

El enfoque de Linked Data ofrece ventajas significativas sobre las practicas actuales de publicacion de datos, pues mediante el uso de identificadores unicos (URIs) las bibliotecas permitiran que los recursos sean mas facilmente accesibles. Este enfoque tiene ventajas sobre un contexto basado solamente en OAI-PMH, en el que la Web es la infraestructura de transporte de datos y metadatos, mientras que desde Linked Data, los datos y su semantica son parte de la misma Web, estan identificados a traves de URIs y descritos en un lenguaje que permite la lectura y procesamiento automatico por parte de agentes maquina (Ver Figura 1).

[FIGURA 1 OMITIR]

Diferentes comunidades pueden beneficiarse de la adopcion de un enfoque de integracion e interoperabilidad semantica, asi: (a) el movimiento de recursos educativos abiertos (Tovar, E. & Piedra, N. 2014); (b) usuarios en general que dispondran de acceso a un conjunto mas rico de informacion proveniente desde diferentes repositorios (busquedas federadas); (c) los bibliotecarios y archivistas que pueden tener acceso a datos compartidos para describir sus recursos y reducir la redundancia; (e) Desarrolladores Web que enfrentan menores problemas de heterogeneidad en formatos y semantica de datos (Baker y otros, 2011); (f) investigadores que realizan extraccion del conocimiento desde repositorios abiertos, por ejemplo para la busqueda de expertos en un dominio determinado, deteccion de nuevos temas de investigacion, analisis de redes cientificas, (Rowlands & Bawden, 1999); entre otros.

2.4. Trabajos Relacionados.

Un escenario de integracion hace posible la combinacion de recursos de informacion existentes en diversas fuentes, esto proporciona al usuario una vista unificada de dichos recursos y tambien puede actuar como una fuente de datos para diversas aplicaciones (Lenzerini, 2002). Para conseguir este proposito, primero se deben resolver problemas de heterogeneidad a nivel de: (a) repositorios, (b) formatos de datos, (c) esquemas de metadatos, y (d) vocabularios o diccionarios de datos. Para abordar cada una de estas dimensiones, existen diferentes propuestas. El grado mas bajo de interoperabilidad (a nivel de repositorios) se consigue con protocolos como OAI-PMH, el cual facilita la extraccion e intercambio de metadatos, aunque su uso no asegura el reuso e integracion de la informacion. Para asegurar la interoperabilidad semantica entre diferentes colecciones o esquemas (Gendt et al. 2006 y Francesconi et al. 2008) proponen crear links entre objetos equivalentes. En este sentido, el uso de vocabularios abiertos y la generacion de datos abiertos en formatos legibles para maquinas, pueden ser claves para integrar elementos de diferentes repositorios, mas alla de estandares y acuerdos previos entre los proveedores. En (Zengenene et al. 2014) se propone un marco teorico enfocado a proyectos de librerias digitales que intentan publicar sus metadatos mediante un enfoque de datos enlazados. Casos recientes de generacion de datos enlazados son presentados en trabajos como (Malakhov et al., 2014, Anibaldi et al. 2015 y Sztyler et al., 2014). En esta misma linea, mediante el presente trabajo, los autores intentan contribuir a mejorar el intercambio, el reuso, la comparticion, el enriquecimiento de datos y la colaboracion institucional y academica a nivel de librerias digitales.

3. Marco de Trabajo para la Publicacion de Datos Enlazados.

El ciclo de publicacion de datos enlazados comprende una serie de componentes y actividades interrelacionadas. En la Figura 2, se presenta el marco de trabajo propuesto para de extraccion de metadatos usando OAI-PMH y su publicacion como datos enlazados (Piedra y otros, 2014).

1. Seleccion de fuentes de datos, se refiere a las librerias digitales que son de interes para un determinado proyecto. La Federacion de Librerias Digitales define a las bibliotecas como organizaciones que proporcionan los recursos y el personal especializado para seleccionar, estructurar, ofrecer acceso intelectual, interpretar, distribuir, preservar la integridad y asegurar la persistencia en el tiempo de las colecciones de obras digitales, de tal manera que sean de facil acceso y economicamente disponibles para su uso por una comunidad o por un conjunto de comunidades (Chinwe & Majesty, 2011).

2. Cosecha de metadatos desde repositorios:

2.1 Uso de libreria Harvester 2.0 para extraer los metadatos de los repositorios, a traves del protocolo OAI-PMH.

2.2 Almacenamiento de datos cosechados en un repositorio relacional y en formato de tripletas OAI.

3. Modelamiento del vocabulario u ontologia. En esta fase se establecen relaciones de mapeado con otros vocabularios. El re-uso de recursos ontologicos y no-ontologicos es clave para incrementar el grado de interoperabilidad en el escenario de Linked Open Data.

4. Conversion de datos a formato RDF:

4.1 Conversion de datos extraidos a formatos estandar, abiertos e interoperables, de manera que se contribuya a facilitar su acceso y reutilizacion, y se resuelva el problema de disponer de recursos digitales aislados en silos.

4.2 Limpieza de datos generados: actividades que buscan reducir la ambiguedad y purgar la informacion extraida y generada durante el proceso de conversion.

5. Enlazado de datos a traves de sus relaciones semanticas (idiomas, organismos, conceptos) con fuentes existentes, de este modo se podra establecer vinculos entre conjuntos de datos abiertos, y contribuir a una integracion a escala global y generar el efecto de red.

6. Publicacion y Explotacion de datos. La publicacion de datos en la Web mediante tecnologias estandar propuestas por la W3C mejora la accesibilidad, disponibilidad e integracion de estos recursos a otros.

4. Publicacion de Datos Enlazados de repositorios institucionales

En base al marco de trabajo definido en el apartado anterior, en este punto, se describe el proceso de publicacion de datos enlazados de un conjunto de repositorios seleccionados.

4.1. Seleccion de fuentes de datos

La coleccion de librerias digitales corresponde a las universidades miembro de la Red de Repositorios del Consorcio Ecuatoriano para el Desarrollo de Internet Avanzado (CEDIA (8)). CEDIA esta integrado por mas de 30 instituciones de educacion superior del Ecuador y tiene multiples alianzas internaciones con otras redes. El material incluido en los repositorios seleccionados comprende: atlas, CDs, DVDs, ebooks, enciclopedias, folletos, juegos, libros, memorias, revistas, tesis; esto representa una oportunidad inmejorable para analizar los datos contenidos.

[FIGURA 2 OMITIR]

4.2.Cosecha de metadatos desde repositorios OAI

El protocolo OAI-PMH es la base del modelo de cosecha de metadatos de recursos academicos, definidos segun el esquema Dublin Core. La aplicacion Harvester2 fue utilizada para cosechar metadatos a traves de OAI-PMH a traves del verbo "listRecords". Los metadatos extraidos se almacenan en una base de datos relacional en forma de tripletas.

4.3.Limpieza de datos

La limpieza de los datos extraidos se realiza con el objetivo de detectar y corregir datos corruptos o erroneos. El proceso consiste en analizar patrones inconsistentes en los datos y ejecutar un esquema de limpieza. Entre los casos detectados esta la variacion en el formato de ciertos metadatos. Un caso concreto se detecto en el lenguaje de los recursos; se encontraron terminos como: "en", "en_US", "eng" e "English" para referirse al lenguaje ingles. Tambien se detectaron variaciones en la descripcion de autores. Se considero como patron valido a los nombres con la secuencia: <Apellidos, Nombres>. En la Figura 3, se describen ejemplos de patrones inconsistentes y la respectiva correccion. Finalmente, se eliminaron problemas de ambiguedad en los topicos (dc:subject) anadidos a cada recurso digital. Un esquema de correccion semi-automatica pudo ser implementado en base a limpieza de patrones detectados.

4.4.Modelamiento del Vocabulario

Las ontologias y los vocabularios abiertos constituyen el esquema base a partir del cual se describen los recursos y entidades de la Web. Por tanto, se han examinado vocabularios para representar recursos digitales, clasificacion de topicos, descripcion de organizaciones, autores, catalogos de datos y repositorios. Las actividades que comprende el modelamiento de una ontologia son: (a) mapeo de conceptos, (b) busqueda de recursos ontologicos y no ontologicos a reusar y (c) Diseno de URIs persistentes.

4.4.1. Mapeo de conceptos.

Esta actividad trata de mapear los principales terminos relacionados al dominio de los repositorios digitales institucionales. Entre los conceptos identificados estan: (a) Recurso bibliografico: entidad bibliografica; (b) Persona: creador o contribuyente de la entidad bibliografica; (c) Corporacion: organizacion que realizo la publicacion de la entidad bibliografica; (d) Topicos o temas: topicos relacionados a la entidad bibliografica. En el contexto de este trabajo, los metadatos de una obra digital se clasificaron en tres grupos. Cada grupo indica la clase o el ambito de la informacion que se guarda en ellos: elementos relacionados al contenido del recurso, elementos relacionados al recurso cuando es visto como propiedad intelectual y elementos relacionados con la instanciacion del recurso (ver Tabla 1).

En cuanto a la clasificacion tematica de los materiales bibliograficos, se mapearon estos conceptos mediante el vocabulario recomendado por la W3C para organizar conocimiento, SKOS. SKOS modela conceptos y esquemas de conceptos, etiquetas lexicas, relaciones semanticas, documentacion, colecciones de conceptos, propiedades de mapeado y anotaciones.

4.4.2. Busqueda de recursos ontologicos y no ontologicos a reusar

El reuso de recursos ontologicos y no-ontologicos reduce el tiempo de desarrollo y los costes asociados en esta fase, tambien contribuye a la calidad de la ontologia (Villazon-Terrazas, 2011). Debido a que existen varios vocabularios para modelar recursos bibliograficos, se han seleccionado a aquellos que favorecen la integracion e interoperabilidad de datos en la Web:

* RDF Schema (9), y OWL (10) para describir conceptos del vocabulario.

* Simple Knowledge Organization System (SKOS) para establecer un modelo de organizacion del conocimiento, taxonomias, y otras jerarquias tematicas. El vocabulario SKOS permite representar conceptos o temas tratados por el recurso.

* DCAT (11) disenado para facilitar la interoperabilidad entre catalogos de datos publicados en la Web.

* FOAF (12), desarrollado para representar a personas y organizaciones con sus atributos y relaciones hacia otros conceptos.

* Dublin Core (DC) proporciona un vocabulario de caracteristicas "base", capaces de proporcionar informacion descriptiva basica sobre cualquier recurso.

* Dublin Core Metadata Initiative (DCMI) Metadata Terms (13) usado para representar documentos, asi como sus atributos como titulo, creador, y relaciones con otras entidades.

* Bibliographic Ontology Specification (14) (BIBO) provee los principales conceptos y propiedades para describir citas y referencias bibliograficas.

* VIVO (15) que permite describir diferentes conceptos en el dominio academico y cientifico.

Open Provenance Model Vocabulary (16) para describir la procedencia de datos en la Web. Schema (17) permite describir conceptos como materiales y sus propiedades de datos y relaciones entre clases.

Los vocabularios mencionados describen semanticamente conceptos relacionados en el dominio de trabajo. Los atributos, propiedades y entidades que no son considerados en estos vocabularios, han sido disenados como parte de un vocabulario abierto (ver Figura 4).

[FIGURA 4 OMITIR]

4.4.3. Estrategia para identificar a los recursos a traves de URIs persistentes

Se han disenado dos tipos de URIs: 1) para identificar los componentes del vocabulario (clases, propiedades y relaciones); y, 2) para describir el material bibliografico. Para describir los materiales se han utilizado URIs HTTP tomando en cuenta los principios para la publicacion de datos propuestos por Tim Berners-Lee, segun los siguientes patrones:

* Prefix: oar-utpl

* URI base: http://data.utpl.edu.ec/serendipity/oar/

* Schema: http://data.utpl.edu.ec/serendipity/oar/schema#

* Resources: http://data.utpl.edu.ec/serendipity/oar/resource/

* Properties: http://data.utpl.edu.ec/serendipity/oar/property/

* Categories: http://data.utpl.edu.ec/serendipity/oar/category/

* Graph: http://data.utpl.edu.ec/serendipity/oar

* SPARQL endpoint: http://data.utpl.edu.ec/serendipity/oar/sparql

4.5. Generacion y Publicacion de Datos Enlazados

Para la generacion en RDF de los datos cosechados, se desarrollo un generador propio basado en Jena. Un paso importante en el proceso de generacion de datos RDF es asignar URIs a los textos extraidos; en este sentido, los metadatos de los recursos bibliograficos se mapearon con los URIs de los terminos mas apropiados, esto permite que los recursos puedan interoperarse e integrarse con otros conjuntos de datos. En la Tabla 2, se muestra un ejemplo del mapeo de texto correspondiente a tipo de material bibliografico con su correspondiente URI.

Una vez que se han generado y almacenado los datos RDF, se pueden elegir algunas interfaces o aplicaciones web para mostrar estos datos en formato legible para las personas. Existen algunas herramientas que se conectan al repositorio RDF y presentan los datos recuperados como paginas Web o como esquemas graficos. Una de las herramientas mas populares para mostrar datos RDF en formato tabular es Pubby (18), aplicacion java que es utilizada por reconocidos repositorios de tripletas. Como parte de la validacion del proceso realizado, se implementaron algunas consultas SPARQL.

Consulta 01: Material bibliografico relacionado a tematicas de software

Para obtener los recursos academicos relacionados a tematicas de software, se utilizan diferentes filtros sobre el titulo, la descripcion y los topicos de cada obra.
SELECT DISTINCT ?link ?title ?subject
WHERE {
  ?bibresource a <http://purl.org/dc/terms/BibliographicResource>.
  ?bibresource <http://purl.org/dc/terms/title> ?title.
  ?bibresource <http://purl.org/dc/terms/subject> ?subjectresource.
  ?bibresource <http://purl.org/dc/terms/description> ?desc.
  OPTIONAL {
?bibresource <http://purl.org/dc/terms/identifier> ?link .
    ?subjectresource rdfs:label ?subject.
  }
  FILTER ((REGEX(?title, "software", "i")
    [paralelo]REGEX(?subject, "software", "i")) &&
    (REGEX(?desc, "engenharia", "i") [paralelo]
    REGEX(?desc, "engineering", "i") [paralelo]
    REGEX(?desc, "Ingenieria", "i")))
} GROUP BY ?bibresource ORDER BY ?title


Consulta 02: Top 10 de los temas mas referidos en el campo de Software

Cada recurso digital es asociado a uno o varios topicos, la relacion es establecida a traves del metadato DC: http://purl.org/dc/terms/subject.
SELECT DISTINCT ?subject
WHERE {
  ?bibresource a <http://purl.org/dc/terms/BibliographicResource>.
  ?bibresource <http://purl.org/dc/terms/subject> ?subjectresource.
  OPTIONAL{
    ?subjectresource rdfs:label ?subject.
  }
  FILTER REGEX(?subject, "software", "i")
} ORDER BY DESC(count(?subject))
LIMIT 10


Resultados: Software-Desarrollo, Software libre, Software-diseno, Software educativo, Software WASP 7, Modelo matematico, Software MVC, Software Gravmag V.1.7-Utilizacion, Software para bibliotecas, Software web.

4.6.Enriquecimiento y reconciliacion de datos

Para mejorar el descubrimiento de los recursos es necesario crear enlaces RDF hacia recursos externos publicados en la nube de Linked Open Data y con datos de repositorios externos. Se han enlazado los topicos y palabras claves de cada recurso digital con el contenido de vocabularios controlados y esquemas de clasificacion. Se uso SILK y un componente de enlazado desarrollado a medida. De forma concreta, se han creado enlaces externos con la Nomenclatura de la UNESCO, y con DBpedia en ingles, DBpedia en espanol y DBpedia Latinoamerica. En la Tabla 3, se indica un subconjunto de los datos mapeados.

5. Explotacion de Datos Enlazados

La gestion de grandes colecciones de recursos digitales debe asegurar la localizacion exitosa de los contenidos mas adecuados para un usuario. En este punto, se presentan dos servicios que aprovechan el potencial de los datos enlazados y de las tecnologias de la Web Semantica con el objetivo de mejorar la recuperacion de recursos Web.

5.1. Sugerencia de topicos

Mediante un algoritmo iterativo, basado en consultas SPARQL, es posible recorrer la red de conceptos relacionados a un determinado termino (topico o area de conocimiento).

En la Tabla 4 se muestra un conjunto de terminos cercanos al concepto "Software Engineering." En este caso, se ha aprovechado el contenido dinamico del repositorio DBPedia y se han utilizado las relaciones jerarquicas establecidas entre dos conceptos SKOS. DBPedia tiene datos estructurados sobre tipo de cosas: lenguajes, localizaciones, personas, conceptos, organizaciones, etc. Se alimenta del contenido creado socialmente en la enciclopedia mas grande del mundo, la Wikipedia.

5.2. Visualizacion de conceptos de un dominios de conocimiento

Las herramientas de busqueda pueden utilizar los terminos relacionados a un determinado topico (como el caso ejemplificado en la Tabla 5) para expandir los terminos utilizados durante la recuperacion de contenidos. Por otra parte, para un agente humano, puede resultarle util una nube de etiquetas interactiva (basada en datos enlazados), para mejorar su comprension del dominio y retroalimentar al sistema mediante terminos mas concretos (ver Figura 5).

[FIGURA 5 OMITIR]

6. Conclusiones y Trabajos Futuros

En un contexto de acceso abierto, los proveedores de recursos digitales abiertos deben adoptar un modelo que mejore la integracion de repositorios, de manera que puedan soportar estandares de metadatos formales y abiertos para la descripcion de recursos, y cuyo nivel de especificidad, granularidad y complejidad sea realizable. El modelo a adoptar debe respetar y garantizar condiciones de autonomia local en un marco de interoperabilidad tecnologica global. El enfoque de Linked Data potencia la interoperabilidad e integracion en un contexto como la Web: alta heterogeneidad en un contexto distribuido.

En este trabajo se presento un marco tecnologico y un metodo para la publicacion y enlazado de datos bibliograficos digitales, siguiendo las buenas practicas de publicacion de datos enlazados en un espacio global. El proceso definido fue aplicado a un conjunto de repositorios digitales de instituciones ecuatorianas; las actividades desarrolladas aseguran la reproducibilidad del ciclo de publicacion de datos enlazados sobre cualquier otro repositorio OAI.

Es de particular interes de los autores, contribuir a mejorar la visibilidad y acceso a los materiales digitales que se usan o generan en el ambito academico y cientifico, por esta razon, se continuan disenando servicios que explotan el potencial de los datos enlazados. De forma especifica, se estan explorando otras redes de repositorios federados de Latinoamerica, con el objetivo de conformar un hub central que proporcione informacion integrada de las obras y lineas de trabajo de cada institucion de la region; ademas esta en construccion un buscador semantico basado en facetas, que permite la exploracion de contenido a traves de categorias que han sido asociadas a los recursos. Este tipo de navegacion permite especificar filtros sobre distintos atributos de los documentos y asi cualquier usuario podra encontrar mas facilmente recursos relevantes.

Recebido/Recibido: 10/3/2015

Aceitagao/Aceptacion: 30/3/2015

Agradecimientos

Este trabajo ha sido desarrollado con el apoyo de la Comision Europea a traves del proyecto ESVI-AL--"Educacion Superior Virtual Inclusiva--America Latina" del programa ALFA III, y el Consorcio Ecuatoriano para Desarrollo de Internet Avanzado (CEDIA) a traves de la convocatoria CEPRA y el Grupo de Trabajo de Repositorios Abiertos. Los autores agradecen el soporte recibido por el equipo de Tecnologias Avanzadas de la Web y Sistemas Basados en Conocimiento de la UTPL.

Referencias Bibliograficas

Anibaldi, S., Jaques, Y., Celli, F., Stellato, A., Keizer, J. (2015) Migrating bibliographic datasets to the Semantic Web: The AGRIS case. Semantic Web, 6(2), 113-120.

Baker, T., Bermes, E., Coyle, k., Dunsire, G., Isaac, A., Murray, P., y otros (2011). Library Linked Data Incubator Group Final Report. Obtenido de http://www.w3.org/2005/ Incubator/lld/XGR-lld-20rn025/#Benefits_of_the_Linked_Data_Approach.

Berners-Lee, Tim; Hendler, J.; Lassila, Ora (2001). The Semantic Web, Scientific American, 284(5), 34-43.

Berners-Lee, Tim (2006). Linked Data-Design Issues. Obtenido de: http://www.w3.org/ DesignIssues/LinkedData.html

Chinwe, V. A., & Majesty, I. E. (2011). Digital library deployment in a university. Library Hi Tech, 29(2), 373-386. doi:http://dx.doi.org/10.1108/07378831111138233

Gendt, M.; Isaac, A.; Meij, L. & Schlobach, S. (2006). Semantic Web Techniques for Multiple Views on Heterogeneous Collections: A Case Study. Research and Advanced Technology for Digital Libraries. Springer Berling Heidelberg, vol. 4172.

Francesconi, E.; Faro, S.; Marinai, E. & Perugi, G. (1008). A Methodological Framework for Thesaurus Semantic Interoperability. Proceeding of the Fifth European Semantic Web Conference, 76-87.

Heath, Tom & Bizer, Christian (2011). Linked Data: Evolving the Web into a Global Data Space. Synthesis Lectures on the Semantic Web: Theory and Technology, 1(1), 1-136. Morgan & Claypool.

Ian Rowlands and David Bawden (1999), "Digital Libraries: a conceptual framework," Libri Journal, vol. 49, pp. 192-202.

IEEE (1990). IEEE Standard Glossary of Software Engineering Terminology. IEEE Standards Board, New York.

Lenzerini, M. (2002). Data Integration: A Theoretical Perspective. In Proceedings of the Twenty-first ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems, June 3-5, Madison, Wisconsin, USA. doi: 10.1145/543613.543644

Malakhov, D., Serebryakov, V., Teymurazov, K., Shorin, O. (2014) Semantic integration of bibliographic records. CEUR Workshop Proceedings, 35-41.

Piedra, N. Tovar, E. Lopez, J. Chicaiza, J. (2014). Consuming and producing linked Open Data: The case of Opencourseware. EmeraldEarlyCite. DOI: 10.1108/PROG-07-2012-0045

OAI (2015). The Open Arvhives Initiative Protocolo for Metadata Harvesting, Implementation GuideLines. Obtenido de: http://www.openarchives.org/OAI/ openarchivesprotocol.html.

Sztyler, T., Huber, J., Noessner, J., Murdock, J., Allen, C., Niepert, M. (2014). LODE: Linking digital humanities content to the web of data. Proceedings of the ACM/ IEEE Joint Conference on Digital Libraries, 423-424.

Tovar, E. & Piedra, N. (2014). Open Educational Resources in Engineering Education: a perspective to improve Reusability of Resources and Data. IEEE Transactions on Education, 57(4). DOI: http://10.1109/TE.2014.2359257

Villazon-Terrazas, B. (2011). A Method for Reusing and Re-engineering Non-ontological Resources for Building Ontologies.

Zengenene, D., Casarosa, V., Meghini, C. (2014). Towards a Methodology for Publishing Library Linked Data. Communications in Computer and Information Science, 385 CCIS, 81-92.

(1) http://www.eprints.org/

(2) http://www.dspace.org/

(3) http://fedorarepository.org/

(4) http://www.dublincore.org

(5) http://www.sedic.es/autoformacion/metadatos/tema7.htm

(6) Resource Framework Description, es un lenguaje para representar y publicar datos estructurados en la Web.

(7) SPARQL es el lenguaje para consultar grafos modelados con RDF.

(8) https://www.cedia.org.ec/

(9) W3C Recomendation: http://www.w3.org/TR/rdf-schema/

(10) W3C Recomendation: http://www.w3.org/TR/owl2-overview/

(11) http://www.w3.org/TR/vocab-dcat

(12) http://xmlns.com/foaf/spec/

(13) http://dublincore.org/documents/2012/06/14/dcmi-terms/

(14) http://purl.org/ontology/bibo/

(15) http://vivoweb.org/ontology/core

(16) http://open-biomed.sourceforge.net/opmv/ns.html#Process

(17) http://schema.org

(18) Pubby esta disponible en: http://wif05-03.informatik.uni-mannheim.de/pubby/

Nelson Piedra (1), Janneth Chicaiza (1), Pricila Quichimbo (1), Victor Saquicela (2), Elizabeth Cadme (1), Jorge Lopez (1), Mauricio Espinoza (2) y Edmundo Tovar (3)

nopiedra@utpl.edu.ec, jachicaiza@utpl.edu.ec, pvquichimbo@utpl.edu.ec, victor.saquicela@ ucuenca.edu.ec, iecadme@utpl.edu.ec, jalopez2@utpl.edu.ec, mauricio.espinoza@ucuenca. edu.ec, edmundo.tovar@upm.es

(1) Universidad Tecnica Particular de Loja, San Cayetano Alto S/N, 1101608, Loja, Ecuador.

(2) Universidad de Cuenca, Av. 12 de Abril, 010150, Cuenca, Ecuador.

(3) Universidad Politecnica de Madrid, Avda. Monteprincipe S/N, 28660, Madrid, Espana.

DOI: 10.17013/risti.e3.55-70
Tabla 1--Mapeo de metadatos Dublin Core

Contenido

Titulo                dc:title         Titulo del recurso

Topico                dc:subject       Frases que describen el
                                       titulo o contenido del
                                       recurso

Descripcion           dc:description   Resumen o descripcion del
                                       contenido

Fuente                dc:source        Secuencia de caracteres
                                       usados para identificar
                                       univocamente un trabajo a
                                       partir del cual proviene el
                                       recurso actual

Tipo                  dc:type          Categoria del recurso

Relacion              dc:relation      Es un identificador de un
                                       segundo recurso y su
                                       relacion con el recurso
                                       actual

Cobertura             dc:coverage      Caracteristica de cobertura
                                       espacial o temporal del
                                       contenido intelectual del
                                       recurso

Propiedad intelectual

Autor o creador       dc:creator       Persona responsable de la
                                       creacion del contenido
                                       intelectual del recurso

Editor                dc:publisher     Entidad responsable de hacer
                                       que el recurso se encuentre
                                       disponible en la red en su
                                       formato actual

Otros colaboradores   dc:contributor   Persona u organizacion que
                                       haya tenido una contribucion
                                       intelectual significativa,
                                       pero que esta sea secundaria

Derechos              dc:rights        Nota sobre los derechos de
                                       autor

Instanciacion

Fecha                 dc:date          Fecha en la cual el recurso
                                       se puso a disposicion del
                                       usuario

Formato               dc:format        Es el formato de datos de un
                                       recurso

Identificador         dc:identifier    Secuencia de caracteres para
                                       identificar univocamente al
                                       recurso, por ejemplo: URN,
                                       URL, ISBN, etc.

Lenguaje              dc:language      Lenguaje del contenido
                                       intelectual del recurso

Tabla 2--Mapping entre terminos del dominio y conceptos relacionados

Tipo de recurso    URI del concepto equivalente

Article            http://purl.org/ontology/bibo/AcademicArticle
Article            http://schema.org/Article
Book               http://purl.org/ontology/bibo/Book
Book               http://schema.org/Book
Other              http://purl.org/ontology/bibo/Document
Presentation       http://purl.org/ontology/bibo/Slideshow
Presentation       http://vivoweb.org/ontology/core#Presentation
Technical Report   http://purl.org/net/nknouf/ns/bibtex#Techreport
Technical Report   http://purl.org/ontology/bibo/Report
Thesis             http://purl.org/ontology/bibo/Thesis
Thesis             http://purl.org/ontology/bibo/ThesisDegree

Tabla 3--Ejemplo de enlazado de Universidades con fuentes externas

Texto a enlazar             URI del recurso externo relacionado

Universidad Tecnica         http://dbpedia.org/resource/Universidad
  Particular de Loja          _T%C3%A9cnica_Particular_de_Loja
                            http://es-la.dbpedia.org/resource/
                              Universidad_T%C3%A9cnica_
                              Particular_de_Loja
Universidade Federal do     http://dbpedia.org/resource/
  Rio Grande do Sul           Universidade_Federal_do_Rio_
                              Grande_do_Sul
Universidade de Sao Paulo   http://es-la.dbpedia.org/resource/
                              Universidad_de_S%C3%A30_Paulo

Tabla 4--Top 5 de los recursos relacionados al tema de
"Software Engineering"

Posicion   URI del Recurso enlazado a DBPedia    Termino

1          http://dbpedia.org/resource/          Systems engineering
             Category:Systems_engineering
2          http://dbpedia.org/resource/          Software development
             Category:Software_development_        process
             process
3          http://schema.org/Organization        Organization
4          http://dbpedia.org/resource/          Reliability
             Category:Reliability_engineering      engineering
5          http://dbpedia.org/resource/          Meta-process modeling
             Meta-process_modeling

Figura 3--Limpieza de Autores

o                                o_syn

Velasco Vaca.Grijalva Rodas,     Velasco Vaca, Angelica Marisol
Angelica Marisol.Ruth Cecilia

Velasco Vaca.Grijalva Rodas,     Grijalva Rodas, Ruth Cecilia
Angelica Marisol.Ruth Cecilia

Aguilar Salazar, Byron Gloria    Aguilar Salazar, Gloria Ximena
Ximena Bustamante

Aguilar Salazar, Byron Gloria    Bustamante. Byron
Ximena Bustamante

Cueva Rivera Ximena Edditta      Cueva Rivera. Ximena Edditta

Alvarez V. Achig A..             Alvarez V., Jacqueline A.
Jacqueline A. Vickys.S

Alvarez V. Achig A..             Achig A., Vickys.S
Jacqueline A. Vickys.S
COPYRIGHT 2015 AISTI (Iberian Association for Information Systems and Technologies)
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2015 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Piedra, Nelson; Chicaiza, Janneth; Quichimbo, Pricila; Saquicela, Victor; Cadme, Elizabeth; Lopez, J
Publication:RISTI (Revista Iberica de Sistemas e Tecnologias de Informacao)
Date:Mar 1, 2015
Words:5497
Previous Article:Metropoli digital: una plataforma web para la inclusion integral de las PyMES, sociedad y gobierno en el uso de las tecnologias de la informacion en...
Next Article:Diseno y evaluacion de un juego serio para la formacion de estudiantes universitarios en habilidades de trabajo en equipo.

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters