Científicos del IRB Barcelona desarrollan The Bioteque para poner en común datos biológicos
3 min readSe están realizando muchas investigaciones en todo el mundo, y eso significa una gran cantidad de datos.
A nivel personal, hemos visto discos duros de computadoras rebotando constantemente en la memoria para mantener toda la información, imágenes más grandes, etc. Mucha gente tiene una unidad externa con 1 TB (terabyte) o 2 TB de almacenamiento.
Para mostrar el alcance del problema, el Instituto Europeo de Bioinformática (EMBL-EBI), pasó de gestionar un volumen de 40 petabytes a 250 petabytes en tan solo seis años. Un petabyte equivale a 1024 terabytes, lo que equivale a 256 000 de estas unidades de 1 TB.
El rápido desarrollo de diferentes disciplinas en los campos de la investigación biológica y biomédica (como la genómica, la proteómica y la transcriptómica) en las últimas décadas ha llevado a un crecimiento exponencial en la cantidad de datos biologicos disponible.
Sobre la bioteca desarrollada por científicos del IRB Barcelona
Los científicos liderados por Patrick Aloy, investigador de ICREA y responsable del laboratorio de bioinformática estructural y biología de redes del IRB Barcelona, han desarrollado una herramienta informática para armonizar, integrar y simplificar estos datos. El resultado es un gráfico de conocimiento que proporciona información sobre cómo las diferentes entidades biológicas se relacionan entre sí, incluidas más de 30 millones de interacciones funcionales.
La Bioteca funciona integrando diferentes niveles de complejidad biológica y puede informar, por ejemplo, sobre dos genes que están vinculados, si interactúan físicamente, si están activos en el mismo tipo de célula y si están vinculados a la misma enfermedad. También puede predecir la sensibilidad o resistencia de un tipo de célula a un fármaco específico.
“Este recurso de cómputo que hemos desarrollado es uno de los primeros destinados a unificar la información biológica y es el único que aborda tal diversidad y cantidad de datos. Brinda acceso, de manera simple y armonizada, a prácticamente todo el conocimiento biológico disponible en la actualidad, y tiene un enorme potencial para acelerar la investigación biomédica”, dijo Aloy.
Cerca de 1000 descriptores para 12 entidades biológicas
La información contenida en la Bioteca se estructura en 12 tipos de entidades biológicas, como gen, enfermedad, tejido, célula, etc. Para cada una de estas entidades, la herramienta considera una serie de descriptores o características, por ejemplo, el patrón de mutaciones de un gen, el perfil de las interacciones físicas de las proteínas resultantes, la expresión del gen en diferentes tipos de células o su relación con diferentes enfermedades. Entre las 12 entidades biológicas, el sistema cubre alrededor de 1000 tipos de descriptores.
“Trabajamos con información de 150 bases de datos diferentes, entonces primero tuvimos que integrarlas, es decir, ponerlas todas en el mismo ‘lenguaje’. Y luego convertimos ese conocimiento en descriptores numéricos que pudieran ser interpretados por algoritmos, y en este forma en que podríamos explotar estas redes y conexiones mediante computación”, dijo Adrià Fernández, el primer autor del artículo y estudiante de doctorado en el mismo laboratorio.
La Bioteque se irá enriqueciendo periódicamente con nuevas bases de datos, a medida que se hagan públicas. Los dos herramienta y bases de datos y algoritmos son de libre acceso.
“Increíble aficionado a la música. Estudiante. Empollón empedernido del café. Jugador. Especialista web aficionado. Pionero malvado de la cultura pop”.