Printer Friendly

ENKI-DB: sistema de informacion taxonomica y molecular de especies propias de la biodiversidad colombiana.

ENKI-DB: Molecular and taxonomic data integration system for Colombian species

RESUMEN

ENKI-DB, es un sistema de informacion taxonomica y molecular de especies propias de la biodiversidad colombiana, accesible via Internet. Mediante ENKI-DB se tiene acceso inmediato a toda la informacion taxonomica y molecular presente en las bases de datos SPICA[R], SIB, EMBL y UNIPROT para especies propias de la biodiversidad colombiana exclusivamente. Hasta la fecha el sistema ha logrado enlazar 10 808 registros de especies propias de la biodiversidad colombiana (presentes en las bases de datos SIB y SPICA[R]), para las que han encontrado 1 976 751 registros moleculares, 96 337 provenientes de las bases de datos de informacion proteica (UniprotKb, Uniref y Uniparc) y 1 880 414 de la base de datos EMBL de DNA. Aunque esta informacion se encuentra presente tambien, de manera independiente, en cada una de estas bases de datos, a traves de ENKI- DB los datos son accesibles desde una sola interfase y de manera integrada y depurada. El sistema permite ademas realizar alineamientos locales utilizando la implementacion del algoritmo BLAST del NCBI.

ENKI- DB ha sido desarrollado en su totalidad en PHP y PERL, haciendo uso de las librerias Bio-PHP, Bio-PERL y utilizando la base de datos MySQL como repositorio central de informacion. ENKI-DB es accesible via Internet, de manera completamente gratuita y publica en la siguiente direccion: http://bioinf.ibun.unal.edu.co/enkidb/ Contacto: cenbio_nal@unal.edu.co

Palabras clave: ENKI, molecular, taxonomia, biodiversidad colombiana, bioinformatica.

ABSTRACT

ENKI-DB is a taxonomic and molecular integration system for Colombian species which is available on the internet. This system provides users with immediate access to all taxonomic and molecular data present in SPICA[R], SIB, EMBL and UNIPROT databases for all Colombian species. To date, our system has been able to link 10,808 Colombian species (SIB and SPICA[R] databases) to 1 976 751 molecular entries, 96 337 from UniprotKb, Uniref and Uniparc and 1,880,414 from the EMBL DNA database. Although this information is also available on each database independently, ENKI-DB allows users to reach all that integrated information through one interface. We have also integrated the NCBI-BLAST programme with the ENKI-DB system which allows users to run pair-wise comparisons on the same ENKI-DB web interface. ENKI-DB has been developed with Bio-PHP and Bio-PERL and uses MySQL RDBMS as backup.

Availability: http://bioinf.ibun.unal.edu.co/enkidb/

Contact: cenbio_nal@unal.edu.co

Key words: ENKI, molecular integration system, taxonomy, Colombian biodiversity, bioinformatics.

INTRODUCCION

Durante decadas, los repositorios digitales y publicos de informacion biologica han sido parte integral y critica de la investigacion cientifica alrededor del mundo. Gracias a este tipo de sistemas es posible no solo centralizar la informacion biologica, producto de esfuerzos simultaneos alrededor del mundo por diversos proyectos de investigacion, sino que ademas pueden estar disponibles inmediatamente, para cualquier persona en el mundo con acceso a Internet.

En este sentido existen innumerables esfuerzos que han cambiado drasticamente la manera de entender y acceder a la informacion biologica, en la actualidad existen 858 bases de datos que contienen principalmente informacion biologica molecular (Galperin, 2006) y que cubren casi todos los rangos posibles de esta: rutas metabolicas (Kanehisa, et al., 2006); DNA (Cochrane, et al., 2006); proteinas (Apweiler, et al., 2004; Berman, et al., 2003), etc. Se destacan dentro de estas bases de datos el European Bioinformatics Institute (EMBL, 2006) como una coleccion de secuencias de ADN y ARN que diariamente es actualizada y sincronizada con las bases de datos National Center for Biotechnology Information (GENBANK, 2006) y National Institute of Genetics of Japan (DDBJ, 2006), generando igualdad de contenido en las tres y que actualmente cuenta con mas de 60 millones de registros y UNIPROT (Uniprot, 2006) con mas de 2,3 millones de registros de secuencias de proteinas y su informacion funcional, la cual incluye informacion de la tres mas importantes bases de datos de proteinas: SwissProt, TrEMBL (Expasy Proteomics Server, 2006) y PIR (Georgetown University Medical Center, 2006).

Ademas de la facilidad de acceso y de la constante actualizacion de estos sistemas de informacion, existe una caracteristica relevante com un a todos ellos: la capacidad de crear nexos entre su informacion y otras bases de datos, llegando a crear complejas redes de informacion biologica, en las cuales cada fuente puede conectar directa o indirectamente con el resto de informacion asociada al recurso que ofrece. Es esta caracteristica la que permite que a partir de una simple busqueda de por ejemplo una secuencia proteica en SwissProt se pueda acceder no solo a dicha secuencia, sino al gen que la origina en la base de datos EMBL; a su posible relacion con desordenes geneticos en la base de datos OMIM y a su estructura terciaria en la base de datos PDB, por nombrar solamente algunas posibilidades.

De esta manera se puede constatar que, si bien la sistematizacion de la informacion biologica ha sido un gran avance para el conocimiento del mundo natural, el hecho que nos lleva cada vez mas cerca de su comprension es la interconexion entre las diversas fuentes y tipos de datos, lo que permite, aproximarse de una manera mas real, a la comprensi on de que los organismos no estan aislados de su entorno, ni de sus estructuras moleculares o funciones biologicas, de modo que es posible encontrar nuevas relaciones entre todos estos elementos, relaciones que a primera vista no son evidentes.

Por otra parte, a pesar de la gran cantidad de informacion biologica disponible actualmente, la inmensa mayoria de los datos interconectados y de dominio publico son de caracter molecular y la informacion taxonomica, que ha sido sistematizada desde hace mucho tiempo se encontraba, en su mayoria, aislada de los datos moleculares. Este hecho tiene sus raices en la manera como se han desarrollado las areas cientificas alrededor de esta informacion. En general los datos taxonomicos se han mantenido reservados tal vez por el cuidado que los investigadores tienen con las colecciones o por la oportunidad de generar alguna publicacion cientifica. En el caso de los datos moleculares en general se han mantenido en el dominio publico y con la tendencia a compartir las herramientas informaticas, generando proyectos interinstitucionales e internacionales, como es el caso del proyecto del genoma humano.

En cuanto a los datos taxonomicos, desde hace unos diez anos se inicio un proceso similar al acaecido en el caso de los datos moleculares. Es asi como se han disenado proyectos internacionales que buscan superar la escasa interconexion y comunicacion entre grupos de investigacion y eliminar la redundancia entre las diferentes colecciones de datos biologicos. Esto permitiria superar el hecho de que solo el 2% de las especies conocidas a nivel mundial tienen sistematizados los datos morfologicos y a que dado el desarrollo principalmente de la biologia molecular casi hayan desaparecido los taxonomos expertos de los que depende en gran medida la calidad de los datos. Por tanto, en una clara extension de la bioinformatica al campo de la biodiversidad se ha buscado hacer accesible, de manera digital, la enorme cantidad de informacion de la biodiversidad global, haciendo que dicha informacion sea consistente y compatible entre diversos sistemas informaticos a traves de la implementacion de iniciativas globales como: Species 2000 (Species 2000, 2006) una federacion de organizaciones de bases de datos que trabaja en conjunto con usuarios, taxonomos, y agencias patrocinadoras como United Nations Environment Programme UNEP y la Global Environment Facility GEF, buscando incluir dentro de sus registros a todos los organismos conocidos en la tierra (40% del total de especies conocidas hasta ahora); o el Global Biodiversity Information Facility (GBIF, 2006) cuya mision es similar a la de Species 2000, apoyada por la Organizacion para el Desarrollo y Cooperacion Econ omica (OCDE) o el proyecto arbol de la vida (Tree of Life web Project, 2005) que intenta proveer informacion acerca de diversidad, historia evolutiva y caracteristicas de los organismos en la tierra con la colaboracion de biologos alrededor del mundo.

Por otro lado, en coordinacion con las iniciativas globales se desarrollan proyectos en los diferentes continentes como The Biological Collection Access Service (BioCASE, 2006), que busca brindar un servicio de acceso a informacion de las colecciones biologicas en Europa, vinculando mas de 30 instituciones en su mayoria como nodos nacionales que se encargan del mantenimiento de la informacion que es compartida a traves de un sistema que intercambia metadatos y que permite consultar cualquiera de las bases de datos como si fueran una sola. Tambien en America se encuentran iniciativas similares como el Sistema de Informacion Integrado Taxonomico de Norteamerica, (ITIS, 2006) base de datos de facil acceso, con informacion confiable sobre las especies de Mexico, Estados Unidos de America y Canada y su clasificacion jerarquica; Comision Nacional para el Conocimiento y Uso de la Biodiversidad en Mexico (CONABIO) con imagenes satelitales en linea, informacion de colecciones, taxonomos y especies nativas mexicanas; y el Centro de Investigacion y Gestion de la Biodiversidad en Costa Rica (INBio, 2006) establecido para apoyar los esfuerzos para conocer la diversidad biologica y promover su uso sostenible en Costa Rica.

En Colombia tambien existen varias iniciativas para la recopilacion de informacion biologica, dentro de las cuales se pueden mencionar, el Sistema de Informacion sobre Biodiversidad (SIB, 2006) del Instituto Alexander von Humboldt y el Sistema de Informacion Biotico Ambiental (SPICA[R], 2006) del Instituto de Ciencias Naturales de la Universidad Nacional de Colombia, entre otras. El Sistema de Informacion sobre Biodiversidad es una iniciativa de caracter nacional, encaminada a satisfacer las necesidades de informacion del pais en cuanto a la conservacion y el uso sostenible de sus recursos biologicos. El Instituto von Humboldt es la entidad responsable de la coordinacion y puesta en marcha de dicho sistema que involucra otras entidades como universidades y centros de investigacion, de acuerdo con su papel en la gesti on y generacion de datos e informacion sobre biodiversidad. El proceso de implementacion del SIB gira en torno a tres ejes principales: capacidad para gestionar eficientemente datos e informacion sobre biodiversidad entre las diferentas instituciones, infraestructura que incluye los elementos fisicos (hardware), logicos (software), los estandares y la arquitectura del sistema, entre otros, y contenido de informacion con el que se promueve la generacion y disponibilidad de datos e informacion interoperables, coherentes y pertinentes a los diferentes fines definidos para el sistema. En la actualidad el sistema ha avanzando en la integracion de los archivos de autoridad taxonomica y en la integracion de las bases de datos de diferentes actores entre los cuales se incluyen centros de investigacion y universidades, a traves de una estructura de intercambio de metadatos que sigue estandares internacionales, lo que facilita la interoperabilidad del sistema.

El Sistema Biotico Ambiental --SPICA[R]-- registrado, desarrollado e implementado por la Universidad Nacional de Colombia, es un sistema de informacion sobre flora y fauna colombiana, disenado para la articulacion de diversos sectores de investigacion de las ciencias naturales, sociales y economicas. Fue desarrollado para el manejo de colecciones biologicas de: entomologia, ornitologia, herpetologia, mastozoologia e ictiologia, y planteado como un sistema de proyeccion muy amplia que puede ser adecuado a las diferentes necesidades del estudio de la biota. De hecho su implementacion en diversas instituciones ha permitido, entre otras, la construccion del Sistema de Informacion del Choco biogeografico, realizado por el Instituto de Investigacion Ambiental del Pacifico --IIAP-- con apoyo de la Universidad Nacional de Colombia; del Sistema de Estadisticas Forestales de Colombia para la caracterizacion y divulgacion de la flora forestal, existiendo la posibilidad de consulta directa sobre aproximadamente 945 especies y de una plataforma de trabajo de varios proyectos del Instituto de Hidrologia, Meteorologia y Estudios Ambientales --IDEAM--.

De forma general, tanto para las colecciones de datos moleculares como para las de biodiversidad, no existe un mecanismo de conexion directa de unas con otras, es decir no se encuentra una manera en la que, a traves de una base de datos molecular, se pueda recuperar la informacion morfologica y taxonomica del organismo que dio origen a la secuencia, ubicandolo dentro de la biodiversidad de un determinado lugar y viceversa, pues no existe un nexo claro, explicito que las una y los investigadores se encuentran frecuentemente con la frustrante experiencia de tener que revisar diversos sistemas de datos para obtener la misma informacion que deberiamos obtener facilmente a traves de uno solo, y sin informacion acerca de la procedencia del organismo a partir del cual fue obtenida la secuencia. Este problema tambien se observa en el entorno colombiano donde la informacion sobre secuencias de acidos nucleicos y proteinas, de organismos nativos de Colombia, se encuentra dispersa, ya que cada grupo genera y almacena sus propios datos y una gran parte de ellos se encuentran en los bancos de datos mundiales sin referencia a su origen y aunque esta previsto su almacenamiento en sistemas como SPICA[R] y SIB, aun estos no cuentan con este tipo de datos.

Es claro por tanto, que es necesaria la interconexi on entre los sistemas de informacion de biodiversidad y bases de datos de secuencias acidos nucleicos y proteinas como el EMBL y Unipro, que mantienen la mayor coleccion de datos moleculares del mundo, a traves de un sistema que realice los nexos necesarios entre la informacion taxonomica de las especies y su informacion molecular asociada.

En esta direccion este trabajo presenta a ENKIDB como prototipo de un sistema de informacion disenado para el establecimiento de dichos nexos moleculares y taxonomicos, agregando ademas un componente de vital importancia para la informacion sobre biodiversidad que es mantener la relacion entre una secuencia y el organismo y su procedencia, en este caso dedicada a organismos exclusivamente presentes en Colombia.

Sistema de integracion de datos ENKI. El sistema ENKI-DB se orienta a la creacion de un repositorio de datos moleculares relacionados con organismos propios de la biodiversidad colombiana, con la capacidad de interactuar con sistemas que almacenan otro tipo de informacion biologica (habitat nativo, taxomonia, etc.) almacenados en sistemas de informacion en Colombia, como el SIB y SPICA[R],como se representa en al figura 1. Las fuentes de informacion molecular que alimenta a ENKI-DB son las bases de datos EMBL y UNIPROT de secuencias de acidos nucleicos y proteinas respectivamente, ya que son las mas grandes y completas a nivel mundial.

[FIGURA 1 OMITIR]

El modelo ENKI-DB (figura 1) se estructuro con la idea de que interactuara con cada una de las bases de datos tanto moleculares (EMBL, UNIPROT) como de biodiversidad (SIB, SPICA[R]), de tal forma que se pudieran cruzar sus datos sin tener la necesidad de tener las colecciones de datos completos de manera local, de cada una de ellas y asi obviar la enorme capacidad de almacenamiento que se requeriria y mas importante aun, evitar los problemas tecnicos que implica el desarrollo de un sistema que unifique las diversas tecnologias que fueron empleadas para la implementacion de estas bases de datos, que van desde una implementacion en Oracle en el caso de SPICA[R] hasta archivos en texto plano (EMBL, UNIPROT), pasando por manejo de metadatos y formato XML (SIB).

Al evaluar las diferentes bases de datos y las necesidades de los posibles usuarios del sistema ENKI--DB (figura 2) se establecio que el nombre de la especie y la secuencia (de nucleotidos o amino acidos) serian los datos requeridos por un usuario que quisiera consultar el sistema y obtener el cruce entre el nombre de la especie y los datos moleculares asociados a ella, siempre que se trate de una especie reportada como parte de la biodiversidad colombiana en las bases de datos SIB o SPICA[R]. Tambien, si el usuario intenta ver si hay organismos que tengan secuencias parecidas a una secuencia problema, reportados dentro de la diversidad colombiana, deberia conseguir dicha informacion a traves de una busqueda BLAST, (McGinnins, et al., 2004), implementada especificamente dentro de ENKI- DB y recuperar rapidamente los registros correspondientes a secuencias similares que esten incluidas en EMBL y UNIPROT y cuyas especies esten reportadas en el SIB o en SPICA[R].

[FIGURA 2 OMITIR]

El diagrama de casos de uso (figura 2) muestra que el sistema ENKI- DB interactua con las bases de datos SIB y Spica[R], recuperando un listado con los nombres de las especies almacenadas en cada una de ellas y un codigo identificador (ID) que sirve de referencia dentro de cada una para recuperar rapidamente la informacion contenida en la misma. Con la lista de nombres de especies se procede a hacer una busqueda de las secuencias reportadas para cada especie en las bases de datos EMBL y UNIPROT, para lo cual se utiliza el servidor del Sistema de Recuperacion de Secuencias (SRS), implementado para tal fin, (http://srs.ibun.unal.edu. co:8080/srs81/) y que se encarga de hacer esta busqueda especializada con la que se obtienen los datos y referencias que alimentan a ENKI y que permiten crear los indices cruzados entre las diferentes bases datos.

El sistema de integracion de datos de origen taxonomico y molecular ENKI-DB, se articulo en 3 grandes capas (figura 3):

[FIGURA 3 OMITIR]

La primera capa denominada capa de datos corresponde al almacenamiento fisico de datos, el cual es realizado utilizando MySQL version 4.0.18, el Sistema de Recuperacion de Secuencias (SRS), bases de datos especialmente formateadas que operan conjuntamente con el programa de analisis de secuencias Basic Local Aligment Search Tool (BLAST) y el sistema de archivos propio del sistema operativo SuSE Linux 9.0 de Linux, operando en un servidor SunV40z, AMD Opteron 1800Mhz (x2), 2Gb RAM.

La capa logica esta conformada por el conjunto de rutinas de programacion que permiten la ejecucion de las solicitudes de usuario y de las peticiones propias del sistema, desarrolladas en lenguaje PHP (http://www.php.net) version 4.3.4, utilizando algunas subrutinas PERL (http://perl.org) version 5.8.3 y los modulos BioPerl (http://www.bioperl.org) y BioPHP version 1.0 (http://www.biophp.org). Esta capa opera todos los procesos concernientes a la actividad de ENKI-DB y como se puede ver en la figura 3 esta conformada por los siguientes modulos:

* Busqueda. Constituido por el conjunto de rutinas e interfaces que permiten al usuario realizar peticiones al sistema.

* Actualizacion. Encargado de mantener actualizados los registros tanto moleculares como taxonomicos del sistema, es el mas complejo de todos y sobre el reposa la actividad principal de ENKI --DB, ya que sus cuatro submodulos se encargan de realizar los procesos de actualizacion semanal de los datos provenientes SPICA[R] y el SIB; la busqueda y actualizacion de informacion molecular asociada a cada una de las especies presentes; el registro de dicha informacion en el sistema de bases de datos de ENKI-DB; y la creacion de las entradas apropiadas en la base de datos BLAST-ENKI.

* Registro de investigacion. Permite a investigadores nacionales e internacionales registrar directamente la informacion molecular derivada de sus investigaciones en biodiversidad colombiana en ENKI-DB.

* Estadistica. Encargado de generar los datos estadisticos sobre el sistema, tales como el numero total de secuencias, el numero de especies presentes, tiempos de operacion, fechas de actualizacion, uso de disco y en general, informacion relevante para el mantenimiento del sistema.

* Gestion de transacciones. es el encargado de gestionar las negociaciones con las bases de datos, como es de esperarse su papel es central en la operacion de la capa logica, ya que todas las actividades de la misma requieren en algun punto de su funcionamiento.

La integracion del sistema ENKI-DB la completa la capa de presentacion, que constituye la parte "visible" del sistema, ya que es la interfase con la cual el usuario final interactua a traves del sitio web implementado utilizando plantillas Smarty (Ohrt M., Zmievski A., 2005) (figura 4). Esta interfase permite al usuario acceder a los procesos de consulta, presentacion de resultados, estadistica y a la posibilidad de registrar secuencias obtenidas a partir de organismos de la biodiversidad colombiana dentro del sistema.

[FIGURA 4 OMITIR]

Disponibilidad del sistema. ENKI-DB es accesible en Internet en la siguiente direccion: http://bioinf.ibun.unal.edu.co/enkidb/.

RESULTADOS Y CONCLUSIONES

La implementacion de ENKI-DB como plataforma de informacion prototipo que cruza las bases de datos SIB y SPICA[R] con las moleculares EMBL y UNIPROT, da como resultado un sistema que permite la busqueda de secuencias de acidos nucleicos y proteinas relacionadas con especies de organismos propios de la biodiversidad de colombiana, a partir del nombre de la especie o de una secuencia problema. El cruce de estas bases de datos provee a la comunidad cientifica nacional e internacional de un sistema que permite relacionar hasta el momento, 10 808 especies propias de la biodiversidad colombiana con 96 337 registros de la base de datos UNIPROT, que comprende dos fuentes de informacion: UNIPROT Swissprot y UNIPROT Trembl (tabla 1), vinculados a 3 062 especies (28.33% del total, en promedio 31,46 entradas por especie) es decir, que 7 746 de dichas especies (71.67%) no cuentan, hasta la fecha, con informacion molecular registrada en UNIPROT.

Tambien se pueden relacionar con estas 10 808 especies pertenecientes a la diversidad colombiana registradas hasta ahora, 1 880 414 registros en la base de datos EMBL, la cual comprende 9 fuentes de informacion: emblrelest, emblrelgss, emblrelhtg, emblrelmain, emblnew, emblcontigs, emblwgsrelease, emblwgsnew y embltpa, vinculados a 2 930 especies (28.11%), es decir que 7 878 de dichas especies (72.89%) no cuentan, hasta la fecha, con informacion molecular registrada en EMBL.

Es importante anotar que los registros encontrados en las bases de datos moleculares corresponden a organismos de la misma especie a los reportados dentro de las base de datos de biodiversidad colombiana, pero no fue posible obtener de las bases de datos moleculares el origen del especimen, lo cual es una limitacion para cierto tipo de estudios biologicos como los epidemiologicos, biogeograficos o los de filogenia, aunque los datos del sistema sirvan con referencia. Este hecho es un problema que se presenta a nivel mundial ya que, al revisar la mayoria de estas bases de datos moleculares, no se encuentra el sitio de origen de las muestras de las que fueron obtenidas las secuencias, probablemente debido a inconvenientes en las regulaciones de cada pais o a la omision por parte de los disenadores de las bases de datos.

La implementacion de ENKI-DB, facilita a los investigadores el registro del origen de las secuencias, un sistema de registro de muestras, el cual fue probado con los datos de secuencia de los genes 16RNA ribosomal y citocromo 2B de algunas especies del genero Eleutherodactylus, los cuales fueron almacenados a manera de prueba dentro del prototipo de ENKI-DB. Este prototipo fue creado con el objeto de animar a todas las personas involucradas en el conocimiento de la biodiversidad a explicitar el origen exacto de los materiales con los que adelantan sus investigaciones a nivel molecular y promover la discusion sobre el tema.

ENKI-DB como prototipo puede ser adaptado facilmente para recibir informacion de otras bases de datos tanto del tipo de SPICA[R] y SIB como de tipo molecular, ya que con pequenas modificaciones y un minimo de acuerdo con los responsables de cada base de datos, es posible incorporar la nueva informacion dentro del sistema y cruzar los datos automaticamente con los datos moleculares.

ENKI-DB cuenta con informacion completamente actualizada de todas las especies registradas en las bases de datos taxonomicos SPICA[R] y SIB, conjuntamente con sus datos moleculares (ADN y proteinas) proporcionando, de manera gratuita, informacion a investigadores e interesados en el area, quienes pueden consultar de manera actualizada la informacion molecular y taxonomica de las especies colombianas de su interes de una manera efectiva, llenando el vacio creado por los desarrollos independientes en cada area del conocimiento.

A pesar de que ENKI-DB ha sido implementado como un medio que contribuye al conocimiento de la biodiversidad colombiana, no significa que funcione exclusivamente para Colombia o para una region determinada, sino que es un modelo que puede ser facilmente implementado por cualquier pais o incluso como un sistema de integracion de datos taxonomicos y moleculares a nivel mundial.

Direccion futura. Se estan desarrollando nuevas caracteristicas al sistema que mejoran tanto su experiencia de uso, como el tipo de analisis e informacion que provee. En este sentido se encuentra en fase de estudio la posible implementacion en ENKI-DB de un sistema de analisis similar a ENSEMBL (Hubbard, et al., 2005), a partir del cual se pueda generar informacion novedosa en genomica comparativa y funcional con referencia a la biodiversidad colombiana. Adicionalmente se esta en el proceso de integracion del paquete de analisis EMBOSS al modulo de visualizacion ya existente, de tal manera que sea posible realizar, por ejemplo, una busqueda de microsatelites o una identificacion de marcos de lectura abiertos directamente desde la pagina de resultados.

Otro aspecto fundamental que se esta abordando es que el flujo de informacion se pueda dar en las dos vias, tanto desde ENKI-DB hacia SIB/ SPICA[R], como desde estos dos ultimos hacia ENKI-DB.

AGRADECIMIENTOS

Este proyecto no hubiese sido posible sin el apoyo financiero de COLCIENCIAS y de la Division de Investigacion de Bogota de la Universidad Nacional de Colombia y la colaboracion e incondicional ayuda del Instituto von Humboldt y del Instituto de Ciencias Naturales de la Universidad Nacional de Colombia, a cuyos miembros expresamos nuestros mas sinceros agradecimientos.

BIBLIOGRAFIA

Apweiler, R.; Bairoch, A.; Wu, Ch.; Barrer, W.C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, MJ.; Natale, DA.; O.Donovan, C.; Redaschi, N.; Yeh, L.S. 2004. UniProt: the Universal Protein Knowledgebase. Nucleic Acids Res. 32: D115-D119.

Berman, H.M.; Henrick, K.; Nakamura, H. 2003. Announcing the worldwide Protein Data Bank. Nature Structural Biology. 10 (12), 980.

Centro de Investigacion y Gestion de la Biodiversidad en Costa Rica. 2006. [en linea], disponible en: www.inbio.ac.cr. Fecha de consulta: 10/09/2006. Fecha de actualizacion: 11/08/2006.

Cochrane, G.; Aldebert, P.; Althorpe, N.; Andersson, M.; Baker, W.; Baldwin, A.; Bates, K.; Bhattacharyya, S.; Browne, P.; Van Den Broek, A.; Castro, M.; Duggan, K.; Eberhardt, R.; Faruque, N.; Gamble, J.; Kanz, C.; Kulikova, T.; Lee, C.; Leinonen, R.; Lin Q.; Lombard, V.; Lopez, R.; McHale, M.; McWilliam, H.; Mukherjee, G.; Nardote, F.; Pastor, M.P.; Sobhany, S.; Store, P.; Tzouvara, K.; Vaughan, R.; Wu, D.; Zhu, W.; Apweiler, R. 2006. EMBL Nucleotide Sequence Database: developments in 2005. Nucleic Acids Research. 34, D10-D5.

Comision Nacional para el Conocimiento y Uso de la Biodiversidad en Mexico (CONABIO). 2006. [en linea], disponible en: http://www.conabio.gob.mx/. Fecha de consulta: 10/09/2006. Fecha de actualizacion: 27/04/2006.

European Bioinformatics Institute (EMBL) 2006. [en linea], disponible en: http://www.ebi.ac.uk/embl/. Fecha de consulta: 10/09/2006. Fecha de actualizacion: 09/09/2006.

Expasy Proteomics Server (TrEMBL). 2006. [en linea], disponible en: http://ca.expasy.org/. Fecha de consulta: 09/11/2006. Fecha de actualizacion: 10/08/2006.

Galperin, M.Y. 2006. The Molecular Biology Database Collection: 2006 update. Nucleic. Acids Res. 34: D3-D5.

Georgetown University Medical Center, Protein Information Resource (PIR). 2006. [en linea], disponible en: http://pir.georgetown.edu/. Fecha de consulta: 10/07/2006. Fecha de actualizacion: 05/07/2006.

Global Biodiversity Information Facility. 2006. [en linea], disponible en: http://www.gbif.org/. Fecha de consulta: 10/09/2006.

Hubbard, T.; Andrews, D.; Caccamo, M.; Cameron, G.; Chen, Y.; Clamp, M.; Clarke, L.; Coates, G.; Cox, T.; Cunningham, F.; Curwen, V.; Cutis, T.; Down, T.; Durban, R.; Fernandez-Suarez, X.M.; Gilbert, J.; Hammond, M.; Herrero, J.; Hotz, H.; Howe, K.; Iyer, V.; Jekosch, K.; Cari, A.; Kasprzyk, A.; Keefe, D.; Keenan, S.; Kokocinsci, F.; London, D.; Longden, I.; McVicker, G.; Melsopp, C.; Meidl, P.; Potter, S.; Proctor, G.; Rae, M.; Rios, D.; Schuster, M.; Searle, S.; Severin, J.; Slater, G.; Smedley, D.; Smith, J.; Spooner, W.; Stabenau, A.; Stalker, J.; Storey, R.; Trevanion, S.; Ureta-Vidal A.; Vogel, J.; White, S.; Woodwark, C.; Birney, E. 2005. Ensembl 2005. Nucleic Acids Res. 33, D447-D453.

Kanehisa, M.; Goto, S.; Hattori, M.; Aoki-Kinoshita, K.F.; Itoh, M.; Kawashima, S.; Katayama, T.; Araki, M.; and Hirakawa, M. 2006. From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Research. 34, D354- 357.

McGinnis, S.; Madden, T.L. 2004. BLAST: at the core of a powerful and diverse set of sequence analysis tools. Nucleic Acids Res. 32, W20-W25.

National Center for Biotechnology Information. GENBANK. 2006. [en linea], disponible en: http://www.ncbi.nlm.nih.gov/Genbank/index.html. Fecha de consulta: 26/09/2006. Fecha de actualizacion 04/10/2006.

National Institute of Genetics of Japan. DDBJ. 2006. [en linea], disponible en: http://www.ddbj.nig.ac.jp/. Fecha de consulta: 29/09/2006. Fecha de actualizacion 26/09/2006.

Ohrt, M.; Zmievski, A. 2005. Smarty manual. New Digital Group, 179 p.

Rice, P.; Longden, I.; Bleasby, A. 2000. EMBOSS: The European Molecular Biology Open Software Suite. Trends in Genetics. 16(6), 276-277.

Sistema de Informacion Biotico Ambiental. (SPICA). 2006. [en linea], disponible en: http://www.spica.unal.edu.co/. Fecha de consulta: 10/ 09/2006.

Sistema de Informacion Integrado Taxonomico de Norteamerica. 2006. [en linea], disponible en: www.itis.usda.gov. Fecha de consulta: 21/11/ 2006. Fecha de actualizacion: 19/11/2006.

Sistema de Informacion sobre Biodiversidad, (SIB) 2006. [en linea], disponible en: http://www.siac.net.co/. Fecha de consulta: 29/11/ 2006. Fecha de actualizacion: 26/11/2006.

Sistema de Recuperacion de Secuencias, (SRS) 2006. [en linea], disponible en: http://srs.ibun.unal.edu.co:8080/srs81/. Fecha de consulta: 10/09/2006. Fecha de actualizacion: 09/ 09/2006.

Species 2000. 2006. [en linea], disponible en: http://www.sp2000.org/. Fecha de consulta: 25/09/ 2006. Fecha de actualizacion: 20/09/2006.

The Biological Collection Access Service. 2006. [en linea], disponible en: http://www.biocase.org/. Fecha de consulta: 10/09/2006. Fecha de actualizacion: 03/07/2006.

Tree of Life web Project. 2005. [en linea], disponible en: http://tolweb.org. Fecha de consulta: 10/09/ 2006.

UNIPROT. [en linea], disponible en: http://www.pir.uniprot.org/index.shtml. Fecha de consulta: 10/05/2006.

Recibido: mayo 05 de 2006 Aceptado: junio de 2006

Andres M. Pinzon **, Maria Teresa Reguero ***, y Emiliano Barreto *

* MSc en Farmacologia. Centro de Bioinformatica, Instituto de Biotecnologia, Universidad Nacional de Colombia. Correo electronico: ebarretoh@unal.edu.co

** Biologo. Centro de Bioinformatica, Instituto de Biotecnologia, Universidad Nacional de Colombia. ampinzonv@unal.edu.co

*** MSc en Ciencias Quimicas. Centro de Bioinformatica, Instituto de Biotecnologia, Universidad Nacional de Colombia. Correo electronico: mtregueror@unal.edu.co
Tabla 1. Numero de registros moleculares enlazados por el sistema
ENKI- DB

Base de                       Numero de   registros
datos     Seccion             registros   totales

UNIPROT   Uniprot Swissprot   195058      2'701.944
          Uniprot Trembl      2506886

EMBL      emblrelest          31990232
          emblrelgas          13405392
          emblrelhtg          78979
          emblrelmain         6867693
          emblnew             4088271
          embleontigs         493341
          emblwgsrelease      9107071
          emblwgsnew          3057592
          embltpa             4647

          Numero de
          especles     Registros
          con          asociados a
Base de   registros    especies en   Representacion
datos     en ENK-DBI   ENK-DBI       mundial

UNIPROT      3062         96337          0.11%

EMBL
COPYRIGHT 2006 Universidad Nacional de Colombia, Instituto de Biotecnologia
No portion of this article can be reproduced without the express written permission from the copyright holder.
Copyright 2006 Gale, Cengage Learning. All rights reserved.

Article Details
Printer friendly Cite/link Email Feedback
Author:Pinzon, Andres M.; Reguero, Maria Teresa; Barreto, Emiliano
Publication:Revista Colombiana de Biotecnologia
Date:Jul 1, 2006
Words:5574
Previous Article:Analisis bioinformatico y prediccion de genes en secuencias genomicas de Clostridium sp. IBUN22A.
Next Article:Es responsabilidad de todos resolver el problema de acceso.
Topics:

Terms of use | Privacy policy | Copyright © 2020 Farlex, Inc. | Feedback | For webmasters