Printer Friendly

Evaluacion de herramientas de recuperacion de informacion electronica.

Evaluation of Electronic Information Retrieval Tools

Introduccion

En la denominada sociedad de informacion, se concibe este recurso como estrategico y logra consolidarse en la actualidad con alta importancia, quizas superior a la acreditada a otros bienes en otras epocas. Parte de lo planteado, se acredita al avance de la tecnologia, la cual se ve reflejado en muchos ambitos de la cotidianidad hasta las formas de ensenanza. De tal manera, que la informacion no ha sido ajena a este avance tecnologico, ni puede quedarse al margen de ella, esto se ve reflejado en la explosion de informacion en la red conocida como Internet, parte integrante de la concepcion de las tecnologias de la informacion.

Las tecnologias de informacion, han producido cambios insospechados respecto a como se produce y se utiliza la informacion en la actualidad. La informacion, como uno de los activos principales de las organizaciones y labor profesional, ha sufrido cambios tanto en la forma de generarse y distribuirse como en la que se obtiene.

El avance tecnologico al que se hace referencia, se genero a finales del siglo XX y se proyecta su crecimiento y desarrollo en el presente, mediante nuevas formas de crear informacion, principalmente apoyadas en medios electronicos, haciendo posible que casi cualquier persona pueda crear y publicar en Internet. Tal situacion, ha ocasionado que se incremente de manera incontrolable la informacion disponible en la red, lo cual trae como consecuencia que los usuarios se enfrenten a una red con diversidad de problemas entre los cuales se mencionan como poder acceder de forma directa y organizada, asi como tambien poder recuperar la informacion que sea relevante y de interes ante las demandas y necesidades de los usuarios.

Entre las causas mas comunes a las que se enfrenta el usuario, al tratar de recuperar documentos electronicos en las herramientas de busqueda que se encuentran en la red, estan las siguientes: la falta de datos suficientes para su indizacion, inadecuado uso de estructuras de metadatos y el uso de protocolos inadecuados. Razones por la que han surgido diferentes propuestas para mejorar las formas de organizacion de la informacion, con el fin de recuperar eficientemente la informacion de la red.

En funcion de lo expuesto, se han considerado los metadatos, como un mecanismo mediante la cual se organiza la forma en que un sitio es indexado por los motores de busqueda. Es importante mencionar, que en la actualidad la mayoria de los principales buscadores utilizan metadatos para construir los indices de sus bases de datos. De este modo, el objetivo de esta investigacion es el de evaluar el funcionamiento de diferentes herramientas de busqueda y recuperacion de la informacion disponible en la Web, para identificar si existe relacion entre la recuperacion de la informacion y el uso de metadatos.

Para su desarrollo, se parte de los siguientes supuestos: si se utiliza una estructura de metadatos adecuada en la organizacion de la informacion, se obtiene un mayor indice de recuperacion de la informacion. Sin embargo, muchas de las herramientas de busqueda de informacion de la web no cuentan con estructuras de metadatos adecuadas, lo que dificulta la recuperacion de la informacion, en particular la recuperacion tematica.

Explosion de la informacion en la Web

La red de redes Internet, en particular la web esta viviendo su propio Big Bang. Ano con ano, la numerosa informacion que cerca de mil 100 millones de usuarios suben a las redes sociales, sitios web y otros se multiplica considerablemente, marcando un crecimiento nunca antes visto. Es decir, que la informacion de la web crece el 60% al ano, del cual los usuarios aportan el 75% de lo publicado. (Gantz, John; Reinsel David, 2010) El estudio "Extracting Value from Chaos" se menciona que es tanta la informacion que existe en la web, que ya no es posible medirla en Gigabytes: ahora la medida va en Zettabytes (es decir, un millon de millones de Gigabytes). (Gantz, John; Reinsel David 2011)

Durante el 2010, la cantidad de datos supero holgadamente el zettabyte, y se espera que ano con ano la informacion alcance los 1,8 ZB. Para el 2020, esta informacion debiera alcanzar 35.2 ZB, producto de multiples factores que van aportando a este crecimiento: las producciones de los usuarios, tales como fotos, correo y variedad de escritos, que han ido migrando hacia sus versiones digitales, destronando en ciertos casos a los formatos en papel. Si a eso sumamos la expansion de las nuevas formas de comunicacion--como mensajeria instantanea, redes sociales y blogs--y las herramientas para compartir, copiar y replicar contenidos, se puede explicar buena parte de dicho crecimiento. (Gantz, John; Reinsel David 2011)

Segun estudio realizado por Nielsen Online * en 2010 se presenta como aumento el numero de sitios web con 47 millones en el ano 2009, asimismo (blog pulse, 2010) menciona que en 2009 habia aproximadamente 126 millones de blogs en Internet. Con respecto a fotos y videos, hasta octubre del 2009 Flickr tenia alojadas 4,000,000,000 fotos y en el caso de Facebook se suben 2,500,000,000 de fotos al mes y 30 mil millones de fotos al ano. En el caso de los videos pasa algo completamente diferente a las fotos, esto debido a que es muy dificil calcular el numero de videos que existen en la red, como es el caso de YouTube que en un dia se consultan aproximadamente mil millones de videos y al mes se ven 12,200 millones de videos.

Lo antes expuesto, permite conocer desde una aproximacion en la actualidad la cantidad de informacion que existe en Internet. Sin embargo, aun mas impresionante es la presentacion de la siguiente informacion tomada de una infografia llamada Data Never Sleeps How munch Data is Generated Every Minute, creada por el personal de DOMO junto a Column Five Media que se enfoca principalmente en la gigantesca cantidad de informacion que se mueve cada minuto en Internet. (Domo.com 2012)

La infografia presentada, permite evidenciar los datos del crecimiento de Internet minuto a minuto. Segun se especifica:

* La Web Movil recibe 217 nuevos usuarios.

* Los usuarios de YouTube suben 48 horas de nuevos videos.

* Se envian 204.166.667 de correos electronicos.

* Google recibe 2.000.000 de busquedas.

* Los usuarios de Facebook comparten 684.478 piezas de contenido.

* Los usuarios de WordPress publican 347 nuevos posts.

* Son creados 571 nuevos sitios.

* Los usuarios de Foursquare realizan 2.083 check-ins.

* Los usuarios de Instagram comparten 3.600 nuevas fotos.

* Apple recibe 47.000 descargas de aplicaciones.

* Los usuarios de Tumblr publican 27.778 nuevos posts.

* Los usuarios de Flickr agregan 3.125 nuevas imagenes.

* Las organizaciones en Facebook reciben 64.722 nuevos "Me Gusta".

* Se envian 100.000 tweets en Twitter.

* Se gastan U$S272.070 dolares en compras por Internet.

Lo descrito ha ocasionado, el incremento alarmante de la informacion disponible en la red. Situacion que trae como consecuencia, que los usuarios se enfrenten a una red con muchos problemas y carente de organizacion para poder recuperar la informacion que sea relevante para sus necesidades. Asimismo, la transformacion de lo impreso a medios electronicos es, sin duda alguna, muestra de los cambios que se evidencian en nuestra epoca. El uso de tecnologias de informacion, como el caso de la Internet en la generacion, la busqueda, distribucion y recuperacion de informacion abre una nueva posibilidad dentro del ambito bibliotecario.

Metadatos y recuperacion de informacion

En la actualidad uno de los medios de alta preferencia es la web, requerida para buscar e investigar sobre un tema en particular, de alli la importancia de conocer como funciona y las alternativas para logara el efectiva recuperacion de informacion en la Red. Si bien es cierto, que la web de altos volumenes de volumenes de informacion, tambien dispone de diferentes herramientas que nos permiten recuperar la informacion pertinente para satisfacer las necesidades de informacion de los usuarios. El proceso de busquedas de informacion en la Red, resulta para los usuarios en frecuentes oportunidades dos problemas, el primero es el exceso de informacion y en ocasiones es muy dificil separar las paginas que disponen de soportes academicos con respecto a los que no lo tienen.

El segundo problema, son las debilidades para recuperar documentos con las caracteristicas requeridas, esto ocasiona la perdida de informacion en la red, y se considera como una de las causas que los recursos de informacion son almacenados en el web, por sus propios creadores, sin ningun tipo de descripcion que permita su organizacion y posterior recuperacion, y esto posiblemente sea uno de los puntos debiles de la red. En consecuencia, son incalculables los documentos que no pueden ser recuperados por no contar con una adecuada descripcion de sus caracteristicas que le permita a las herramientas de busqueda su localizacion y recuperacion.

Por esta razon los metadatos, surgen como un punto de apoyo para ayudar a organizar y posteriormente recuperar la informacion. Caplan (1995) menciona que en el ambito bibliotecario, el termino metadatos fue acunado por Jack Myers en la decada de los 60 para describir conjuntos de datos. La primera acepcion que se le dio (y actualmente la mas extendida) fue la de dato sobre el dato, ya que proporcionaban la informacion minima necesaria para identificar un recurso.

En el sentido actual, los metadatos son datos sobre los datos, esto es metaelementos sobre el contenido y el contexto de los documentos digitales que permiten marcar los campos utilizados por los robots de busqueda para clasificar y encontrar la informacion. Descriptor basico de recursos que facilita su identificacion y recuperacion. (Pinto y Lancaster 2001)

Por lo tanto, los metadatos deben contener informacion estructurada para que las maquinas las entiendan, en este sentido los metadatos son datos altamente estructurados que describen informacion, contenido, la calidad, proceso de produccion de datos, detalles de formatos y otras caracteristicas de los datos. Las estructuras de metadatos se encuentran conformadas por campos, lo que permite su facil utilizacion en la organizacion y recuperacion de la informacion.

Dentro del ambito de las herramientas de busqueda en la Web, ademas de crearlas y utilizarlas, es necesario conocer cual es la forma en la que estan trabajando, para saber si cumplen con su objetivo principal, el de permitir que los usuarios recuperen la informacion que necesitan en pro de la satisfaccion de las demandas presentadas. Para conocer si estas herramientas recuperan adecuadamente la informacion, es necesario realizar un estudio, consistente en una busqueda de informacion utilizando una estrategia, que nos permita conocer el grado de efectividad con que las herramientas de busqueda recuperan la informacion y que tipo de metadatos utilizan.

Herramientas de busqueda de informacion

Para organizar la informacion y recuperarla se han desarrollado herramientas de busqueda, orientadas hacia la posibilidad de garantizar la recuperacion rapida, efectiva y eficiente de la informacion. Como es sabido, prevalecen un sin numero de documentos que pueden ser accedidos mediante las herramientas de recuperacion de informacion que existen, entre los cuales se mencionan los siguientes tipos de buscadores, entre los que se encuentran: directorios, motores de busqueda, metabuscadores, multibuscadores, agentes inteligentes de busqueda de informacion y buscadores semanticos

Las opciones mencionadas, presentan diferentes caracteristicas, lo cual ha ocasionado que los usuarios no conozcan que tipo de herramienta es la que estan utilizando y por lo tanto usan el termino de buscador o motor de busqueda de manera indistinta. Por esta razon, de forma breve se presenta la conceptualizacion de cada una de las herramientas mencionadas

Buscadores: en la decada de los 90s, los buscadores tuvieron un desarrollo impresionante. Desde los primeros dias de la web, estos se han convertido en una herramienta indispensable para los usuarios de Internet. Por lo tanto, son los que contienen los indices de la informacion que se encuentra en la Web, ademas de ser necesarios para los usuarios que buscan y crean recursos de informacion, asi como tambien puedan utilizar estos indices que se encuentran almacenados en cada buscador.

El buscador ha sido definido como un programa informatico disenado para la busqueda de diferentes formatos de archivos digitales como paginas web, documentos de texto, archivos de video y musica, imagenes. Los cuales se encuentran alojados en un disco duro o servidor local, asi como en la red de Internet, presentando los resultados de la busqueda en una serie de enlaces que conectan con los archivos o la informacion solicitada. (Que es un buscador.2016)

En terminos generales, un buscador es un programa informatico, que permite consultar una base de datos en la cual se encuentran los indices que relacionan direcciones de paginas web con su contenido. Su uso facilita enormemente la obtencion de un listado de paginas web que contienen informacion sobre algun tema en particular www.quees.info, (2016).

Asimismo, Levene 2000 mencionan que existe una gran cantidad de buscadores, clasificados en tres grandes rubros, como ya se menciono en parrafos anteriores: directorios, motores de busqueda, metabuscadores. Estos tres tipos de buscadores, son los mas utilizados por los usuarios que requeiere hacer busquedas de informacion en la WWW, asimismo cada uno de ellos cuenta con sus caracteristicas propias, ventajas y desventajas en la recuperacion de informacion.

Directorios

Los directorios fueron las primeras herramientas de recuperacion de informacion utilizadas en Internet, su funcionamiento tiene que ver con el trabajo humano, principalmente bibliotecarios, que indexan en una base de datos, una serie de datos relevantes sobre un recurso de informacion, como son: el titulo, resumen del contenido y la direccion electronica o URL. Segun, el sitio www.quees.info, (2016) todo esto, dividido en categorias, con el objetivo de garantizar al usuario la efectividad de las busquedas de informacion, la base de datos le devolvera una lista de enlaces hacia las paginas webs que tienen relacion con las palabras o frases buscadas.

Los directorios, son indices tematicos en los que se pretende clasificar los sitios web mediante categorias tematicas jerarquizadas. Generalmente son indexados por personal bibliotecario, aunque en la actualidad, existen algunos directorios como Yahoo, que iniciaron su indizacion de manera manual, pero con el incremento de informacion en la red, migraron su forma de indizar la informacion y actualmente conservan su estructura de directorio pero ahora utilizan los robots de Google y Bing para indizar automaticamente los recursos de informacion en su base de datos, www.quees.info, (2016).

De igual manera, son consideradas "guias estructuradas y sistematizada por clases y sub clases reflejan diferentes direcciones y descripciones por diversas areas del conocimiento de acuerdo a la fuente", Escobar, Paredes y Barroso, (2015). Los directorios, son utiles para los usuarios que acceden a la red sin una clara orientacion de como buscar informacion. Dentro de las caracteristicas que podemos mencionar de estos directorios se encuentran las siguientes: construidos por seleccion humana. (en algunos casos), organizados por categorias tematicas, alta calidad en contenido de los sitios web indizados, los hay de diferentes tamanos desde pequenos hasta mas amplios y especializados, pero siempre mas pequenos que los motores de busqueda.

Motores de busqueda

Estas herramientas de busqueda, son las mas comunes en la Red. Los motores de busqueda son un tipo de buscador basado en programas informaticos que automatizan el rastreo y la indexacion de las paginas web disponibles, estos surgen de la necesidad de organizar la informacion anarquica contenida en Internet, a diferencia de los directorios los cuales necesitan de una parte humana para la verificacion e indexacion de las paginas web. El funcionamiento de los motores de busqueda se basa en 3 etapas o fases: rastreo, indexacion y rankeo y consulta, www.quees.info, (2016).

En la primera fase un programa informatico denominado robot o arana rastrea y recoge los datos de todos los recursos de informacion en el Web, a traves de los enlaces compartidos, permitiendo ampliar enormemente el campo de rastreo a un gran numero de informacion. En el segundo, paso un algoritmo toma la informacion captada por el robot o arana y la valora rankeandola segun criterios establecidos por el algoritmo, posteriormente se indexa la informacion en gigantescas bases de datos. Por ultimo, www.quees. info, (2016) cuando se realiza una busqueda el programa consulta a la base de datos mostrando una serie de enlaces o datos numerados y jerarquizados segun el rankeo o relevancia calculada por el algoritmo.

Cuando un motor efectua una busqueda, la informacion es rastreada en el contenido de una base de datos (no se busca directamente en el World Wide Web), por lo que ninguno de estos buscadores incluye en su base de datos todos los indices de la informacion existente en el WWW, por lo tanto se obtienen resultados diferentes.

Dentro de las principales caracteristicas que podemos mencionar de estos buscadores se encuentran las siguientes: construyen sus bases de datos con la ayuda de programas llamados spiders, robots, no estan organizados por temas, no son evaluados, contienen paginas de todo tipo y sus bases de datos son enormes.

Es importante mencionar, que las diferencias en los resultados obtenidos en las busquedas son debido a las caracteristicas particulares de cada uno de los buscadores.

Metabuscadores

Con la continua aparicion de diferentes herramientas y para agilizar la busqueda y recuperacion de informacion en internet, han aparecido otras herramientas de busqueda de informacion en la red, como es el caso de los metabuscadores. Estos son programas informaticos que permiten la realizacion de una misma busqueda en diversos buscadores de forma simultanea, su funcionamiento se basa en lanzar las consultas requeridas por los usuarios sobre un conjunto de motores de busqueda y directorios, aprovechando los algoritmos de busqueda desarrollados por cada uno de ellos, posteriormente el metabuscador rankea todos los resultados mostrandolos segun criterios de relevancia establecidos, su interes radica en la reduccion del tiempo de busqueda por la simultaneidad de herramientas que revisa.

Dentro de las principales caracteristicas de los metabuscadores encontramos las siguientes: eliminan los resultados duplicados, eliminan los links rotos, o que no estan disponibles, utilizan la logica de recuperacion de otros buscadores y no cuentan con base de datos propia. Estos metabuscadores, cada vez se han ido mejorando, en la actualidad algunos trabajan por medio de cluster (clustering), que permite reducir el volumen de informacion mediante la categorizacion o agrupamiento de los datos con caracteristicas similares, la cual es una tarea natural del intelecto humano, www.quees.info, (2016).

El clustering, aprovecha esta caracteristica aportando herramientas que faciliten la construccion automatica de taxonomias y minimizando la intervencion humana en este proceso. Este tipo de clasificacion automatica es conocida tambien como taxonomia numerica, debido a que fue desarrollada originalmente para ser aplicada en clasificaciones biologicas. Existen alrededor de 150 tecnicas diferentes de clustering. En documentacion se han utilizado sobre todo tecnicas jerarquicas. (Pinto 2005)

Multibuscadores

Al existir una gran cantidad de diferentes buscadores en el web, y para ayudar a los usuarios a consultar en una sola pantalla, sin salir de ella, diferentes directorios, motores de busqueda y metabuscadores, aparecieron los llamados multibuscadores, ellos se limitan a colocar en una pagina web una lista con las herramientas mas populares y con una ventana de texto para poder enviar la cadena de busqueda introducida por el usuario a cada uno de ellas. Al usar un multibuscador se envia la cadena de busqueda a una serie de motores de busqueda y directorios previamente definidos.

Una vez realizada la consulta a los buscadores prefijados, el multibuscador devolvera la informacion de todos los enlaces encontrados. Con la utilizacion de multibuscadores, el usuario se evita tener que ir de buscador en buscador hasta encontrar la informacion deseada. El usuario elige los buscadores que quiere utilizar y desde alli realiza su consulta que ofrecera las respuestas buscador por buscador. La unica ventaja, es la posibilidad de consultar un gran numero de buscadores partiendo de una unica pagina. La exhaustividad privara sobre la precision, ya que el usuario encontrara un gran numero de enlaces y muchas paginas repetidas www.quees. info, (2016).

Agentes inteligentes de busqueda de informacion

En parrafos anteriores se ha mencionado del gran crecimiento de internet y de la proliferacion de buscadores y metabuscadores, como una ayuda para la recuperacion de la informacion, a estos se han sumado otras herramientas de busqueda denominadas agentes inteligentes de busqueda de informacion. Estas herramientas constituyen la evolucion logica de los metabuscadores, debido a que buscan tambien en varios motores de busqueda y directorios, solo que para su utilizacion es necesario la instalacion de softwares clientes.

Dentro de las principales caracteristicas de los agentes inteligentes encontramos las siguientes: eliminan los documentos duplicados, permiten el trabajo offline, esto es, sin estar conectados a internet, permiten editar y guardar las estrategias de busqueda

Buscadores semanticos

Este tipo de buscadores, se pueden considerar como la evolucion en la recuperacion de informacion, es decir, son las herramientas del futuro, para llegar no propiamente a la Web semantica, sino a una tecnica semantica de recuperar la informacion en cualquier sistema de informacion.

Un buscador semantico debera efectuar la busqueda atendiendo al significado del grupo de palabras que se solicita en una busqueda. Los buscadores semanticos, interpretaran las busquedas de los usuarios y los textos de los documentos en la web a traves del uso de algoritmos que representan comprension o entendimiento, ofreciendo resultados correctos de una manera rapida, sin que el usuario tenga que abrir los documentos e inspeccionarlos. De esta manera, los buscadores semanticos reconocen el contexto de las palabras o sentencias de busqueda. Con los buscadores semanticos, se persigue que la busqueda que realice el usuario sea mas precisa y origine resultados relevantes con la minima intervencion de este.

En funcion de lo expuesto, se mencionan los elementos necesarios para que este este tipo de recursos pueda realizar busquedas semanticas: en primer lugar necesitan utilizar metadatos codificados, es decir, que deben utilizar un esquema de codificacion que podria ser el formato MARC o bien un lenguaje de marcado como el XML, los cuales permitirian codificar los metadatos. En segunda instancia, es necesario que cuente con un esquema que le permita dotar a los documentos de un significado de relaciones entre diferentes aspectos de un documento, como podria ser que relacion tiene el tipo de recurso, con el titulo y el autor, en este sentido el esquema que podria solucionar los aspectos antes mencionados, es el RDF (Marco de Descripcion de Recursos) Resource Description Framework (RDF), (2014).

Y finalmente debe contener tambien ontologias, las que introduciran un mayor grado de profundizacion semantica y proporcionaran una descripcion logica y formal que pueda ser interpretada, tanto por las personas, como por las maquinas, asimismo las ontologias permiten la interoperabilidad entre distintos sistemas.

En la actualidad existe una serie de buscadores llamados semanticos, sin embargo es necesario evaluarlos para saber si reunen las caracteristicas que debe de tener un buscador, para realizar busquedas con una tecnica semantica apropiada para recuperar eficientemente la informacion. La creacion y uso de estos buscadores en la Web todavia es incipiente, pero se siguen haciendo esfuerzos para llegar a tener herramientas que ayuden de manera importante a los usuarios de la red a recuperar la informacion de manera mas eficiente.

Metodologia de la Evaluacion

Para conocer si las herramientas previamente desarrolladas, recuperan adecuadamente la informacion, se llevo a cabo un estudio, que permitiese conocer el grado de efectividad con que las herramientas de busqueda recuperan la informacion. Para tales efectos, se realizo una seleccion de los buscadores que se encuentran operando en la red. Lo cual resulto dificil, debido a que existe una gran cantidad de diferentes tipos y tamanos. Por lo cual, se utilizaron solo los motores de busqueda, de mayor frecuencia de uso en la Web, previa identificacion del rankeo correspondiente, de los cuales se mencionan los tres principales: eBizMBA(2016), ListofSearchEngines (2016) y Reliablesoft (2016).

Con respecto a los metabuscadores, se tomo como referencia para su seleccion a los que aparecen en la pagina de ListofSearchEngines, en el rubro de metabuscadores y por ser los mas utilizados. Para la seleccion de los buscadores semanticos, se utilizaron dos sitios Web: Search engine journal (2016) y Makeuseof(2016).

Es importante aclarar que solo se utilizaron 4 buscadores semanticos por ser los unicos disponibles. Como resultado de este proceso de seleccion de herramientas de busqueda de informacion, se consideraron cinco motores de busqueda, cinco metabuscadores y cuatro buscadores semanticos ver tabla 1, estos fueron:
Tabla 1. Motores de Busquedas, metabuscadores, buscadores semanticos

Motores de busqueda   Metabuscadores   Buscadores semanticos

Google                  WebCrawler            Kngine
Yahoo                    Dogpile              Exalead
Bing                     Info.com           DuckDuckgo
Ask                      Zapmeta              Swoogle
AOL                       Exite

Fuente: eBizMBA, Listofsearchengnes, Reliablesof.


Finalmente fue necesario estructurar una estrategia de busqueda, que nos permitiera conocer si las herramientas de busqueda recuperaban la informacion eficientemente. Como otro aspecto importante, en la investigacion fue la seleccion del tema para efectuar las busquedas en las diferentes herramientas, el tema seleccionado, fue:

En espanol: Las relaciones diplomaticas entre Estados Unidos y Cuba

En ingles: Diplomatic relations between the United States and Cuba

La decision de incluir este tema obedecio a que es una tematica muy relevante en estos momentos, tanto para los dos paises involucrados, Estados Unidos y Cuba, asi como para el ambito internacional. Por otro lado, se decidio que la busqueda deberia realizarse en idioma Ingles y espanol, debido a que son los idiomas oficiales de los paises protagonistas. Por lo que, se procedio a realizar tres tipos de busqueda:

Busqueda libre, donde se incluian todos los terminos:

Ejem. espanol: relaciones diplomaticas entre estados unidos cuba

Ejem. Ingles: diplomatic relations between united states cuba

Busqueda utilizando operadores logicos boleanos, solo operador AND y comillas. Ejem. espanol: relaciones AND diplomaticas AND entre AND "estados unidos" AND cuba Ejem. Ingles: diplomatic AND relations AND between AND "united states" AND cuba Busqueda utilizando operadores logicos en el campo de titulo.

Ejem. espanol: intitle:relaciones AND intitle:diplomaticas AND intitle:entre

AND intile:"estados unidos" AND intitle:cuba Ejem. Ingles: intitle:diplomatic

AND intitle:relations AND intitle:between AND

intitle: "united states" AND intitle:cuba

Resultados

La busqueda de la informacion antes mencionada, en los diferentes motores de busqueda, metabuscadores y buscadores semanticos, seleccionados para este estudio, permiten observar que en la busqueda libre en espanol, los motores de busqueda recuperaron enormes cantidades de informacion.

Entre los motores que mas resultados ofrecieron se encuentran, en primer lugar el motor Bing con 2,660,000, en segundo lugar AOL con 608,000, en tercero Google con 520,000, en cuarto lugar Yahoo con 145,000 y en quinto lugar ASK con solo 100 resultados.(vease tabla 2)

En la busqueda utilizando operadores logicos los resultados fueron similares, en primer lugar fue el motor Bing con 2.290,000 resultados, en segundo lugar AOL con 462,000, en tercer lugar Google con 457,000, en cuarto Yahoo con 129,000 y en quinto lugar ASK con 100 resultados. Los resultados en la busqueda utilizando el campo de titulo quedaron de la siguiente manera, en primer lugar el motor Yahoo con 5,720 resultados, en segundo Bing con 1,860, en tercero Google con 14, los motores ASK y AOL no obtuvieron resultados.(vease tabla 2)

Con respecto a los resultados obtenidos a traves de los cinco motores, en las busquedas en espanol de forma libre, utilizando los operadores logicos boleanos y utilizando el campo de titulo, fueron los siguientes ver tabla 3:
Tabla 3. Resultados de los motores de busqueda

Google   Yahoo     Bing     Ask      AOL

L=331    L=183    L=380    L=100    L=203
O=331    O=189    O=423    O=100    O=186
T= 13    T=121    T=389     T=0      T=0

Fuente: elaboracion propia, (2016).



Con respecto a las busquedas en espanol en los metabuscadores, los resultados fueron los siguientes permitieron determinar que en la busqueda libre en primer lugar, el metabuscador que mas resultados obtuvo fue Zapmeta con 1,650,000, en segundo lugar Dogpile con 940, en tercero WebCrawler con 730, en cuarto Exite con 400 y en quinto Info.com con 300 resultados. La busqueda con operadores logicos, en primer lugar con mas resultados aparecio Zapmeta con 33,800 resultados, en segundo WebCrawler con 670, en tercero Exite con 400, en cuarto Dogpile con 370 y en quinto con 320 resultados. La Busqueda en el campo de titulo, no obtuvo resultados en ningun metabuscador.(vease tabla 4)

Los resultados que se pudieron visualizar en los cinco metabuscadores en las busquedas en espanol, de forma libre, con operadores logicos boleanos y utilizando el campo de titulo, fueron los siguientes ver tabla 5:
Tabla 5. Resultados visibles de los metabuscadores en espanol

WebCrawler   Dogpile   Zapmeta   Info.com   Exite

L=730         L=940     L=50      L=300     L=400
O=670         o=370     O=50      O=320     O=400
T=0            T=0       T=0       T=0       T=0

Fuente: elaboracion propia, (2016).


Los resultados de las busquedas en espanol, en los buscadores semanticos fueron los siguientes, con mas resultados aparecio en primer lugar Exalead con 40,790, en segundo DuckDuckgo con 100, en tercero Kngine con 15 resultados y el buscador Swoogle no recupero ningun resultado. En la busqueda con operadores logicos, con mas resultados en primer lugar aparecio Exalead con 44,297 resultados, en segundo DuckDuckgo con 100, en tercero Kngine con 15 resultados y Swoogle no obtuvo resultados. En las busquedas en el campo de titulo, solamente el buscador semantico Exalead recupero 41 resultados, los otros buscadores no obtuvieron ningun resultado.(vease tabla 6)

Los resultados que se pudieron visualizar en los cuatro buscadores semanticos, utilizando los tres tipos de busquedas en espanol, fueron los siguientes ver tabla 7:
Tabla 7. Resultados visibles de buscadores semanticos en espanol

Kngine   Exaleade    DuckDuckgo   Swoogle

L=15     L=40,790      L=100        L=0
O=15     O=44,297      O=100        O=0
T=0        T=41         T=0         T=0

Fuente: elaboracion propia, (2016).


Los resultados relacionados con la busqueda libre en ingles, permitieron la recuperacion de enormes cantidades de informacion, entre los motores que mas resultados ofrecieron se encuentran, primer lugar el motor AOL con 14, 300,000, en segundo lugar aparecio Google con 10.900,000, en tercero Bing con 9, 960,000, en cuarto lugar Yahoo con 7, 270, 000 y en quinto lugar ASK con solo 100 resultados. En la busqueda utilizando operadores logicos, los resultados fueron similares, en primer lugar fue el motor AOL con 12, 400,000 resultados, en segundo lugar Google con 10,100,000, en tercer lugar Bing con 4, 140,000, en cuarto Yahoo con 606, 000 y en quinto lugar ASK con 100 resultados.(vease tabla 7)

Los resultados en la busqueda utilizando el campo de titulo quedaron de la siguiente manera, en primer lugar el motor Yahoo con 46, 800 resultados, en segundo Bing con 128, en tercero Google con 63, los motores ASK y AOL no obtuvieron resultados. (vease tabla 8)

Con respecto a los resultados que visualizados en los cinco motores, utilizando los tres tipos de busquedas en ingles, fueron los siguientes ver tabla 9:
Tabla 9. Resultados visibles de los motores de busqueda en ingles

Google   Yahoo     Bing     Ask      AOL

L=352    L=190    L=445    L=100    L=192
O=352    O=200    O=441    O=100    O=194
T=27     T=222    T=128     T=0      T=0

Fuente: elaboracion propia, (2016).


Con respecto a las busquedas en ingles en los metabuscadores, los resultados fueron los siguientes: en la busqueda libre en primer lugar, el metabuscador que mas resultados obtuvo fue Zapmeta con 39.600,000, en segundo lugar WebCrawler con 430, en tercero Dogpile con 410, en cuarto Info.com con 400 y en quinto Exite sin resultados. La busqueda con operadores logicos, en primer lugar con mas resultados aparecio Zapmeta con 1,230,000 resultados, en segundo Exite 460, en tercero Info.com con 380, en cuarto WebCrawler con 300 y en quinto Dogpile con 10 resultados. La Busqueda en el campo de titulo, Dogpile con 130 resultados, Exite con 100, Info.com con 10 y Zapmeta y WebCrawler no se obtuvieron resultados. (vease tabla 10)

En el caso de los resultados que se pudieron visualizar en los cinco metabuscadores, utilizando los tres tipos de busqueda en ingles, fueron ver tabla 11:
Tabla 11. Resultados visibles de los metabuscadores en ingles

WebCrawler    Dogpile    Zapmeta     Info.com     Exite

L=430          L=410      L=50        L=400        L=0
O=300          O=10       O=50        O=380       O=460
T=0            T=130       T=0         T=10       T=100

Fuente: elaboracion propia, (2016).


Los resultados de las busquedas en ingles, en los buscadores semanticos fueron los siguientes, con mayor resultados aparecio en primer lugar Exalead con 153,277, en segundo DuckDuckgo con 100, en tercero Kngine con 15 resultados y el buscador Swoogle no recupero ningun resultado. En la busqueda con operadores logicos, con mas resultados en primer lugar aparecio Exalead con 94,753 resultados, en segundo DuckDuckgo con 100, en tercero Kngine con 15 resultados y Swoogle no obtuvo resultados. En las busquedas en el campo de titulo, solamente el buscador semantico Exalead recupero 10 resultados, los otros buscadores no obtuvieron ningun resultado. (vease tabla 12).

Los resultados visualizados en los cuatro buscadores semanticos, utilizando los tres tipos de busqueda, quedando de la siguiente manera ver tabla 13:
Tabla 13. Resultados visibles de las busquedas en ingles, en los
buscadores semanticos.

Kngine    Exaleade    DuckDuckgo   Swoogle

L=15     L=153,277      L=100        L=0
O=15      O=94,753      O=100        O=0
T=0         T=10         T=0         T=0

Fuente: elaboracion propia, (2016).


Analisis de los resultados

A traves de los resultados obtenidos, se observa que los motores de busqueda, en los diferentes ejemplos presentados tanto en espanol como en ingles, presentaron diferentes resultados, en la busqueda libre cuatro de ellos , recuperaron enormes cantidades de informacion y solamente uno recupero 100 resultados, como parte de la interpretacion se considera que entre mas terminos se incluyan de forma libre en una busqueda mas resultados de obtienen, debido a que las bases de datos de los motores de busqueda tienen asignado por default el operador logico OR, de tal manera que cada termino que se anexa a la busqueda recupera mas informacion que no es tan precisa, por lo tanto las busquedas de este tipo recuperan mas informacion que no tiene nada que ver con la verdadera busqueda.

En el caso de la busqueda utilizando las comillas y el operador logico AND presento en cuatro motores una reduccion importante con respecto a los resultados obtenidos en la busqueda libre y solamente un motor recupero 100 resultados, lo cual indica que este ultimo motor no trabaja de la misma manera que los otros cuatro, debido a que al utilizar los operadores logicos boleanos, la mayoria de los motores garantizan que todos los terminos de la busqueda aparecen en el mismo documento y por lo tanto el numero de resultados se reduce de manera importante.

Con respecto a la busqueda en el campo de titulo, solo tres motores recuperaron informacion y los otros dos no recuperaron ningun documento, tal situacion permite pensar que estos motores al recuperar informacion en el campo de titulo, sus bases de datos si utilizan metadatos para la organizacion de los indices de informacion que estan almacenados en sus bases de datos, pero definitivamente los metadatos que utilizan no son los adecuados para organizar la informacion y por lo tanto la recuperacion de informacion no es tan precisa.

Otro aspecto importante en estas busquedas es que al tratar de visualizar los documentos que recuperaron los diferentes motores, solamente se podia tener accesibilidad a una cantidad muy pequena de los que supuestamente recupero el motor, por lo tanto esto reafirma que los metadatos que utilizan estos motores de busqueda no son los adecuados y por lo tanto no se puede revisar todos los documentos obtenidos, o tambien se puede pensar que los motores presentan el numero de veces que un termino aparece en sus indices y no el numero de documentos que existen indizados en sus bases de datos.

En el caso de los resultados que se obtuvieron en los metabuscadores, tanto en espanol como en ingles, en la busqueda libre, se puede mencionar que existe una reduccion en la recuperacion de documentos en la mayoria de los metabuscadores, aunque Zapmeta recupero una gran cantidad de documentos, y los otros cuatro recuperaron menos de 1000 cada uno, por lo tanto se observa que los metabuscadores al recuperar la informacion en diferentes bases de datos de los motores de los cuales tienen autorizacion para buscar en sus indices, hacen una seleccion de los mejores resultados, es decir buscan y recuperan los documentos mas relevantes en cada busqueda y los presentan al usuario.

Al realizar la busqueda utilizando operadores logicos boleanos en estos metabuscadores, se observa que en realidad si hacen una reduccion de resultados, pero aun asi, no existe una precision en la recuperacion de informacion.

Por otro lado al realizar la busqueda en el campo de titulo no se obtuvieron resultados en ningun metabuscador, por lo tanto esto indica que no utilizan metadatos, por obvia razon, al utilizar la estructura de busqueda de los motores y no contar con bases de datos propias, solamente presentan los resultados que recuperan en estos motores de busqueda.

En el caso de los buscadores semanticos en la busqueda libre, dos buscadores recuperaron la misma cantidad de resultados, tanto en la busqueda libre como en la busqueda con operadores logicos boleanos, en la busqueda en el campo de titulo no obtuvieron resultados, el buscador Swoogle, no recupero ningun resultado en las tres busquedas y solamente un buscador recupero una gran cantidad de resultados en la busqueda libre y con la utilizacion de operadores tambien se vio una reduccion de documentos, finalmente en la busqueda por titulo tambien recupero informacion.

Situacion que conlleva a pensar que si de cuatro buscadores semanticos solamente uno trabaja de forma adecuada los otros tres no utilizan alguna estructura de metadatos en sus bases de datos para organizar y recuperar la informacion, el unico de estos buscadores es Exalead que de alguna manera si utiliza una estructura de metadatos creada por ellos, la cual cuenta con 12 campos en los cuales se indizan los datos de cada documento que se anexa a sus indices, lo que permite que se pueda recuperar la informacion adecuadamente, otro aspecto importante de este buscador es que cuenta con el apoyo de clusters dinamicos y ontologias, que hacen mas accesible la busqueda de informacion y al utilizar metadatos todos los documentos que recupera, pueden ser consultados en su totalidad.

Conclusiones

La evaluacion sobre el funcionamiento de diferentes herramientas de busqueda y recuperacion de la informacion que se encuentran en la Web, asi como la identificacion de si existe relacion entre la recuperacion de la informacion y el uso de metadatos permitio confirmar los supuestos planteados al inicio del trabajo, en donde se menciona que, si se utiliza una estructura de metadatos adecuada en la organizacion de la informacion, se obtiene un mayor indice de recuperacion. Sin embargo, muchas de las herramientas de busqueda de informacion de la web no cuentan con estructuras de metadatos adecuadas, lo que dificulta la recuperacion de la informacion, en particular la recuperacion tematica.

En tal sentido, como aspecto de alta importancia se menciona el incremento de informacion en Internet, es una muestra del desarrollo que han alcanzado las tecnologias de informacion, al crear herramientas que le permiten a los usuarios de la red poder buscar y recuperar informacion para sus investigaciones, ademas de permitirles un espacio en sus servidores para que puedan subir sus documentos de interes a la Web, ocasionando que se incremente el numero de informacion dia con dia, sin ningun elemento para su organizacion.

Asimismo, existe un gran porcentaje de usuarios de la red, que representan un segmento de alta importancia por la funcion que desempenan e identificados como los profesionales de la informacion, quienes contribuyen de forma asertiva en los procesos de busqueda y recuperacion de informacion En lineas generales, poder superar las debilidades que surgen al momento de recuperar la informacion por causas de las herramientas de busqueda, llamese motores de busqueda, metabuscadores y buscadores semanticos, requiere de la identificacion de una serie de caracteristicas, las cuales al ser resueltas facilitan la recuperar la informacion, siempre y cuando el usuario sea capaz de identificarlas y las solvente adecuadamente.

En tal sentido, las herramientas que han sido analizadas, cuentan con diferentes formas de realizar busquedas en sus indices para recuperar informacion, por lo que se requiere claridad sobre la manera de presentar la informacion y de no ser correcta, fallo la forma de utilizar las estructuras de metadatos adecuadas. Es por ello, necesario que al momento de realizar busquedas de informacion se recuperen una gran cantidad de documentos, haciendo muy dificil para el usuario seleccionar los de mayor pertinencia entre tantos.

De tal manera que los motores de busqueda convencionales, son y seguiran siendo una puerta para acceder a la informacion que se encuentra en la red, pero desafortunadamente tienen limitantes que no les permiten recuperar informacion relevante que se encuentran en algunos sitios de Internet. Con respecto, a los metabuscadores, al utilizar las plataformas de los motores de busqueda, tienden a recuperar menos documentos, pero tambien sufren diferentes problemas en la recuperacion, debido a la falta de bases de datos.

Finalmente en el caso de los buscadores semanticos, solamente el buscador Exalead, fue el unico que recupero informacion de calidad y en la presentacion de resultados tambien fue el unico que permitio visualizar todos los documentos que recupero. Los resultados de la investigacion presentada, conllevan a establecer las bases para realizar otros que complementen el supuesto de la existencia de una relacion entre el uso de estructuras de metadatos y la recuperacion de informacion eficiente.

Referencias

BlogPulse: una herramienta de medicion de Nielsen (2010). Recuperado el 11 de noviembre del 2016, de http://www.blogpulse.com

Caplan, P. (1995). You call it corn, we call it syntax-independent metadata for documentlike objects. The Public Access Computer Systems Review, 4(6). Recuperado el 18 de diciembre del 2016, de http:// fiprfiss.lib.uh.fidu/pr/v6/n4/capl6n4.html

Data Never Sleeps How munch Data is Generated Every Minute. (2012). Recuperado el 18 de diciembre del 2016, dehttp://www.domo.com/blog/2012/06/how-much-data-is-created-every-minute/

eBizMBA (2016) Top 15 Most Popular Search Engines. Recuperado el 4 de diciembre del 2016, de http:// www.ebizmba.com/articles/search-engines

Escobar, L., Paredes, A., y Barroso, M. (2015). Competencias del profesional de la informacion ante la evolucion de las fuentes de informacion digitales. Accesbib: Revista de Bibliotecologia y Ciencias de la Informacion, 4(1), 53-66. Recuperado de http://www.revista.accesbib.org/index.php/revacc/article/ view/3/4

El universo digital: ?Cuanta informacion existe en Internet? (2010) .Recuperado el 1 de diciembre del 2016, de http://w5.cl/2011/09/14/el-universo-digital-%C2%BFcuanta-informacion-existe-en- internet/

Gantz, J. y Reinsel, D. (2011) Extracting Value from Chaos. Recuperado el 8 de diciembre del 2016, de http:// www.emc.com/digital_universe.

Gantz, J. y Reinsel, D. (2010) The Digital Universe Decade-Are You Ready. Recuperado el 18 de diciembre de http://www.emc.com/digital_universe.

Levene, Mark (2010) An introduction to search engines and Web navigation. Recuperado el 18 enero del 2017, de https://luwj.googlecode.com/svn/tr11nk/Ebook/An%20Introduction%20to%20Search%20 Engines%20and%20Wfib%20Na.vigation%202nd.pdf

Listofsearchengnes (2016) Top 10 Search Engines List. Recuperado el 18 de diciembre de http://www. listofsearchengines.org/

Pinto, M. y Lancaster, F. (2001). "Hacia la modelizacion del documento cientifico" en Procesamiento de la informacion cientifica. Madrid: Arco/libros, p. 41-67

Que es un buscador. (2016). Recuperado el 18 de diciembre dehttp://www.quees.info/que-es-un-buscador. html

Reliablesoft (2016) Top 10 search engines in the World. Recuperado el 18 de diciembre del 2016, de https:// www.reliablesoft.net/top-10-search-engines-in-the-world/

RDF Working Group, Resource Description Framework (RDF), (2014). Recuperado el 20 de noviembre del 2016 de http://www.w3.org/RDF/

Top 7 Semantic Search Engines as an Alternative to Google. (2016) [en linea] Recuperado el 5 de enero del 2017, de http://www.makeuseof.com/tag/top-7-semantic-search-engines-alternative- google-search/

9 Semantic Search Engines That Will Change the World of Search.(2016). Recuperado el 18 de diciembre del 2017, de https://www.searchenginejournal.com/semantic-search-engines/9832/

WWW.quees.info. Que es un buscador. (2016). Recuperado el 5 de enero del 2017, de http://www.quees.info/ que-es- un-buscador.html

Recibido: 11/1/17 Devuelto para revision: 23/1/17 Aceptado: 20/2/17

Miguel Angel Amaya Ramirez (1)

(1) Profesor de tiempo completo en el Colegio de Bibliotecologia de la UNAM. Estudiante del Doctorado en Bibliotecologia y Estudios de la Informacion de la Universidad Nacional Autonoma de Mexico. Maestria en Bibliotecologia, FFyL-UNAM. Licenciatura en Bibliotecologia, FFyL-UNAM. Correo electronico: amay@unam.mx

Leyenda: Fuente: Data Never Sleeps Infographic, DOMO (2012).
Tabla 2 Resultados de los motores de busqueda en espanol

Motor      Libre      Operadores logicos   Campo de titulo

Google    520, 000         457, 000              14
Yahoo     145, 000         129, 000            5, 720
Bing     2, 660,000       2, 290,000            1,860
Ask         100              100                  0
AOL       608,000          462,000                0

Fuente: elaboracion propia, (2016).

Tabla 4 Resultados de los metabuscadores en espanol

Metabuscadores     Libre      Operadores logicos   Campo de titulo

WebCrawler          730              670                  0
Dogpile             940              370                  0
Zapmeta          1, 650,000         33,800                0
Info.com            300              320                  0
Exite               400              400                  0

Fuente: elaboracion propia, (2016).

Tabla 6 Resultados de buscadores semanticos en espanol

Buscadores Semanticos   Libre    Operadores logicos   Campo de titulo

Kngine                    15             15                  0
Exalead                 40,790         44,297               41
DuckDuckgo               100            100                  0
Swoogle                   0              0                   0

Fuente: elaboracion propia, (2016).

Tabla 8 Resultados de los motores de busqueda en ingles

Motor       Libre      Operadores logicos   Campo de titulo

Google   10,900,000        10,100,000             63
Yahoo    7, 270, 000        606, 000            46, 800
Bing     9, 960,000        4, 140,000             128
Ask          100              100                  0
AOL      14, 300,000      12, 400,000              0

Fuente: elaboracion propia, (2016).

Tabla 10 Resultados de los metabuscadores en ingles

Metabuscadores      Libre      Operadores logicos   Campo de titulo

WebCrawler           430              300                  0
Dogpile              410               10                 130
Zapmeta          39, 600,000       1, 230,000              0
Info.com             400              380                 10
Exite                 0               460                 100

Fuente: elaboracion propia, (2016).

Tabla 12. Resultados de las busquedas en ingles, en los
buscadores semanticos.

Buscadores    Libre    Operadores logicos   Campo de titulo
Semanticos

Kngine         15              15                  0
Exalead      153,277         94,753               10
DuckDuckgo     100            100                  0
Swoogle         0              0                   0

Fuente: elaboracion propia, (2016).
COPYRIGHT 2017 Universidad del Zulia, Facultad Experimental de Ciencias Departamento de Computacion
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2017 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Amaya Ramirez, Miguel Angel
Publication:Enl@ce: Revista Venezolana de Informacion, Tecnologia y Conocimiento
Date:Jan 1, 2017
Words:8521
Previous Article:Gestion estrategica y efectividad en las tecnologias de informacion: reto para la profesion contable.
Next Article:Conocimiento y procesos organizacionales en Unidades de Informacion de Maracaibo-Venezuela.
Topics:

Terms of use | Privacy policy | Copyright © 2019 Farlex, Inc. | Feedback | For webmasters