0% encontró este documento útil (0 votos)
345 vistas7 páginas

Biología y su Impacto en la Web Semántica

La web semántica tiene el potencial de mejorar la búsqueda y recuperación de información en la web mediante el uso de ontologías y metadatos para codificar el significado de los datos. Aunque todavía no se ha implementado a gran escala, la biología ha adoptado con éxito estas tecnologías semánticas para gestionar y compartir mejor sus enormes cantidades de datos biomoleculares, lo que podría ayudar a la web semántica a extenderse a otros dominios.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • tecnología,
  • estándares abiertos,
  • ontologías,
  • relaciones biológicas,
  • sistemas intuitivos,
  • sistemas de búsqueda,
  • contenido semántico,
  • sistemas de información,
  • anotaciones,
  • ciencia colaborativa
0% encontró este documento útil (0 votos)
345 vistas7 páginas

Biología y su Impacto en la Web Semántica

La web semántica tiene el potencial de mejorar la búsqueda y recuperación de información en la web mediante el uso de ontologías y metadatos para codificar el significado de los datos. Aunque todavía no se ha implementado a gran escala, la biología ha adoptado con éxito estas tecnologías semánticas para gestionar y compartir mejor sus enormes cantidades de datos biomoleculares, lo que podría ayudar a la web semántica a extenderse a otros dominios.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • tecnología,
  • estándares abiertos,
  • ontologías,
  • relaciones biológicas,
  • sistemas intuitivos,
  • sistemas de búsqueda,
  • contenido semántico,
  • sistemas de información,
  • anotaciones,
  • ciencia colaborativa

QU PUEDE HACER LA WEB SEMNTICA POR LA

BIOLOGA?
Mikel Egaa Aranguren - http://www.mikeleganaaranguren.com

INTRODUCCIN
En realidad, la pregunta habra que formularla al revs: Qu puede hacer la Biologa por la web
semntica? La web semntica es una visin de lo que debera ser la web (o internet, o World
Wide Web, ...) pero todava no lo es. Todava no lo es por que implantar una nueva tecnologa,
tan distinta de lo que manejamos hoy en da, requiere de grandes esfuerzos por parte de las
comunidades de pioneros que primero adoptan esa tecnologa, con todos sus riesgos. La
Bioinformtica (la parte de la Biologa que estudia como manejar los datos Biolgicos de una
manera eficiente) es una de las pocas disciplinas que se ha atrevido a dar ese paso,
beneficindose de la tecnologa de la web semntica y a la vez facilitando una ejrcito de
"cobayas" a los impulsores de la misma, que de otra manera no hubiesen aplicado esa tecnologa
a ningn problema real. Si la web semntica llega a implantarse algn da, ser en gran parte
gracias a la Biologa, sobretodo a la Biologa Molecular y al Bioinformtica. Este artculo intenta
dilucidar los porqus de ese maridaje, mostrando a la vez los atractivos de una futura web
semntica, no slo aplicada a la Biologa.

LA WEB SEMNTICA
Tim Berners Lee, un fsico que trabajaba en el prestigioso CERN (Laboratorio Europeo de Fsica
de Partculas de Ginebra), public a finales de los 80 el principio bsico de la web: para facilitar
a los cientficos compartir artculos y leerlos visitando otros artculos a la vez, se invent el ya
famoso enlace. El mecanismo bsico era sencillo y robusto: ciertos estndares como HTTP y
HTML permitan incluir fcilmente enlaces a otros documentos dentro del documento que el
cientfico estaba leyendo. As, un cientfico poda visitar todos los artculos relacionados,
navegando de enlace en enlace (y por tanto de documento a documento) por la red (la red exista
antes que la web, aunque mucha gente piense lo contrario). La idea cal tan hondo que ese
mismo sistema se usa hoy en da para todo tipo de documentos (pginas web) enlazados en una
maraa que no para de crecer y hacerse ms compleja. Una vez establecido el marco tecnolgico
bsico, el fenmeno no ha parado de crecer, con buscadores como google, blogs (bitcoras),
foros, catlogos fotogrficos, enciclopedias colaborativas, y todo tipo de espacios cada vez ms
interactivos y sociales. Tim Berners Lee fund el W3C (World Wide Web Consortium: http:
//www.w3.org/), una fundacin que establece recomendaciones oficiales de como deberan ser
los protocolos en la red, para mantener una estructura los ms abierta y eficiente posible, ya que
precisamente el invento de Berners Lee se impuso con tal facilidad debido a que era una estndar
completamente abierto y no propietario.

Pero semejante mare magnum de informacin es ms intil de lo que parece: por ejemplo, De
qu nos sirve tener acceso a cientos de pginas web de aerolneas de bajo coste, si no tenemos
tiempo de comparar los precios? Es decir, hay un flujo inmenso de informacin, pero la
informacin til, que de ahora en adelante denominaremos "conocimiento"1, sigue siendo
mnima; a nosotros lo que nos importa son los mejores vuelos segn nuestras preferencias, no
todos los vuelos de todas las pginas web. Lo ideal sera que un buscador, con un interfaz
sencillo, comparse por nosotros no slo los precios, sino todo tipo de parmetros sobre vuelos
de bajo coste, y nos devolviese una lista de vuelos, evitndonos el tener que visitar cada pgina:
nosotros introduciramos nuestras preferencias y el buscador hara el resto. Es ms, lo ideal sera
que el buscador fuese totalmente general y pudiese dar ese tipo de servicios sin importar el
conocimiento que estemos buscando, sea vuelos de bajo coste, vinos, servicios mdicos, libros,
informacin sobre un tema, citas con otras personas, etc. Incluso sera deseable que combinase
conocimiento de diferentes recursos: podra cuadrar, autmaticamente, los vuelos que
deberamos comprar con las fechas de la gira de nuestro grupo preferido, slo en una ciudades
concretas y a un precio asequible.
Para ser justos, ya existen soluciones de este tipo, pero son soluciones completamente ad hoc y
un programador con experiencia las tiene que producir para cada caso particular. Los protocolos
que posibilitan la programacin de esas soluciones generales (como nuestro hipottico buscador
"sabelotodo") estn en fase muy experimental y no se usan tan masivamente como HTML y
HTTP, aunque ya han sido publicadso por el W3C. Como veremos ms adelante, s se usan en la
disciplina que nos ocupa, la Biologa.
Para que el "buscador de conocimiento" sea posible, los protocolos actuales como HTML no
bastan, ya que carecen de algo crucial: lo que a partir de aqui denominaremos "contenido
semantico".
El contenido semntico de algo, en ciencias de la informacin, no es su "significado", como lo
entendemos normalmente. La palabra "gato", por ejemplo, tiene un significado concreto, que
podemos buscar en el diccionario. Sin embargo, cuando escribimos "gato" (la especie Felis
silvestris) en la pantalla de un ordenador, para el sistema no es ms que una cadena de
caracteres. Para darle significado deberamos codificar el concepto de una manera que el
ordenador pueda "entenderlo", o por lo menos ser capaz de gestionar el concepto como tal.
Para que eso sea posible se puede codificar de muchas maneras; por ejemplo, podemos definir
"gato" como el conjunto de individuos que forma parte de otro conjunto de individuos llamado
"felino". El ordenador puede manejar los conjuntos, debido a que son constructos matemticos
bien definidos, y as gestionar el concepto. Para el ordenador, son los conjuntos lo que importa, y
nosotros aadimos las etiquetas "gato" y "felino" para que esos conjuntos sean entendibles para
los humanos:
La palabra "conocimiento" se usa aqu de una manera muy laxa; no nos referimos al
conocimiento como el proceso cognitivo que cualquier humano lleva a cabo por ejemplo al leer
este artculo. Definimos "conocimiento" como un grupo de conceptos y sus relaciones que
conforman un modelo til para llevar a cabo alguna funcin o describir algn dominio.
1

Los modelos del tipo que acabamos de describir se llaman "ontologas". En filosofa, ontologa
es la disciplina que estudia lo que es y existe. En informtica, una ontologa es un modelo
matemtico que describe un dominio de la realidad (para ser ms exactos, el consenso al que han
llegado una serie de personas sobre cmo quieren describir un dominio). En ese modelo, "gato"
es un clase de individuos cuya superclase es la clase "felino", que tambin es un conjunto de
individuos (la clase "gato" es una subclase o subconjunto de la clase "felino": todos los gatos son
felinos, pero no todos los felinos son gatos). Es importante subrayar que los nombres de las
clases son completamente triviales para el ordenador: esas mismas clases se podran llamar "X" e
"Y" y seran semnticamente equivalentes, para el ordenador lo que importa es la estructura.
Las ontologas son mucho ms complejas que el ejemplo del gato y el felino, pueden definirse
propiedades de las clases (juega con algo, vive en algn sitio, ...) y toda una pltora de
constructos lgicos de toda clase:

Existen tambin una serie de programas, llamados razonadores, que son capazes de "analizar"
una ontologa y contestar "preguntas" que se les haga: Todos los gatos juegan con bolas de
lana?Cul es el animal que juega con bolas de lana?Si algo juega con bolas de lana, es
necesariamente un gato? Etc. (Estas "preguntas" se hacen a travs de un interfaz grfico con una

sintaxis concreta). Los razonadores tambin pueden deducir cosas a partir de una ontologa, o
combinar varias ontologas y hacer deducciones todava ms interesantes.
De modo que las ontologas posibilitan que los ordenadores accedan al contenido semntico, y
los razonadores pueden gestionar ese contenido y hacer deducciones. Eso las hace muy buenas
candidatas para construir la web semntica: volviendo al ejemplo de los vuelos, si hay una
ontologa que describe vuelos de bajos coste, y una ontologa que describe los conciertos de la
gira de mi grupo favorito, en teora un razonador debera ser capaz de deducir para nosotros qu
vuelos nos convienen.
Pero todava falta un elemento clave en esta utopa llamada web semntica: hay que describir el
contenido para que sea gestionable a travs de las ontologas (o cualquier otra tecnologa
semntica). Eso se puede conseguir mediante los "metadatos", es decir, datos sobre los datos; es
como poner etiquetas a las palabras. Si en nuestra pgina web sobre gatos, ponemos una
"etiqueta" en el trmino "gato" que diga que es un GATO (el gato de la ontologa), el resto lo
har la web semntica por nosotros. A ese proceso se le llama "anotar" la informacin, y a las
"etiquetas", "anotaciones".
Nadie sabe a ciencia cierta si la web semntica llegar algn da. Pero est claro que en el
camino est produciendo mucha tecnologa muy til, que ya se est usando en Biologia
Molecular. El W3C ya ha propuesto un estndar para crear ontologas en la web, Web Ontology
Language (OWL: http://www.w3.org/2004/OWL/) y existen muy buenos programas para crear
ontologas (por ejemplo Protg: http://protege.stanford.edu/) y razonadores (por ejemplo
FaCT++: http://owl.man.ac.uk/factplusplus/).
Uno de los problemas de la web semntica es que es de muy difcil implementacin, ya que
necesita de mucho trabajo por parte de los usuarios: crear una pgina web es relativamente
sencillo, pero crear una buena ontologa no. Sin embargo, en dominios como la Biologa
Molecular, dnde hay usuarios dispuestos a crear ontologas y a anotar trminos, un embrin de
lo que podra llegar a ser la web semntica est en pleno desarrollo.

BIOLOGIA MOLECULAR: INFORMACION VS. CONOCIMIENTO


La Biologa es una ciencia basada en el conocimiento y en la descripcin ms que en la pura
abstraccin. A diferencia de la fsica, por ejemplo, dnde se intenta buscar una ecuacin que
describa muchos procesos, en Biologa Molecular describimos los procesos y eso forma el
corpus de la disciplina: por ejemplo, lo ms probable es que nunca llegemos a tener una "teora
general unficada" que describa de una manera universal el plegamiento de las protenas, pero el
saber como se pliegan todas y cada una de las protenas es muy til y nos permite avanzar en la
Biologa Molecular.
Eso hace que la recoleccin y gestin de la informacin de un modo eficiente y lo ms
automtico posible sea de vital importancia en Biologa Molecular. Sobretodo despus de la
revolucin biotecnolgica iniciada en los 80, ya que se producen cada vez ms y mas datos

(sobretodo secuencias), pero eso no se traduce en "conocimiento" (como lo definiamos al


principio): De que nos sirve tener acceso simultneo a miles de secuencias? Lo que necesitamos
saber es en que procesos toman parte, cules son sus roles en esos procesos, en qu parte de la
clula se localizan, con que otras secuencias interactuan y cmo, etc.
El mismo problema puede encontrarse en la literatura cientfica: hoy en da se publica como
nunca, pero ese volumen de informacin no es manejable como conocimiento prctico: lo que
necesitamos saber son los modelos que describen las publicaciones: por ejemplo, si una veintena
de publicaciones tienen secuencias que se relacionan, lo que importa es el modelo de esa
relacin, no el proceso experimental con el que llegaron a esas conclusiones (probablemente
tambin habr cientficos que estn interesados en el procedimiento experimental, y se
encontrarn en una situacin similar).
Enfrentados a este problema, los bilogos empezaron a dar pasos haca una solucin, y
empezaron a usar ontologas. Muchas de esas ontologas se pueden encontrar en el proyecto
Open Biomedical Ontologies (http://obo.sourceforge.net/). La ms famosa es Gene Ontology
(GO: http://geneontology.org/): GO desribe las propiedades de genes (la localizacin celular, la
funcin molecular y el proceso biolgico). GO provee un sistema para integrar de facto
diferentes bases de datos que tengan entrada anotadas contra trminos de GO. Por ejemplo,
podemos buscar genes en esas bases de datos a travs de los trminos de GO, como "binding",
obteniendo todos los genes de esa funcin molecular. Tambin se puede usar GO para gestionar
la informacin: si tengo un gen anotado a un termino de GO, puedo usar las relaciones que tiene
ese trmino con otro trminos para acceder a ms informacin sobre el gen.
GO tuvo un xito impresionante gracias a su simplicidad: slo tiene dos tipos de relaciones
("is_a" y "part_of", es decir "es_un" y "part_de") y el formalismo semntico asociado a las
ontologa es virtualmente inexistente, de modo que los biolgos se sienten muy cmodos con la
ontologa por que es muy intuitiva. Pero desde el punto de vista informtico, GO es cuando
menos "mejorable", por ejemplo portndola a OWL (un esfuerzo que ya est en marcha).
Otras ontologas Biolgicas ya estn siendo implementedas en OWL, como BioPAX, que
describe "pathways" metablicos (http://www.biopax.org/), o CCO, que describe el ciclo
celular (Cell Cycle Ontology: http://www.cellcycleontology.org). Por ejemplo se espera que
CCO sea capaz de generar nuevas hiptesis sobre el ciclo celular, a parte de integrar datos de
diferentes bases de datos y contestar a las "preguntas" que tengan mucho bilogos sobre el ciclo
celular.
Tambin hay otros proyectos basados en OWL: PhosPhabase (http://www.bioinf.manchester.ac.
uk/phosphabase/index.html), por ejemplo, hace uso de OWL y un razonador para clasificar
automticamente familias de fosfatasas, con nuevos resultados bastante interesantes.
Todos estos proyectos y ontologas no son un exponente de la web semntica, pero son una
demostracin de que la tecnologa es til e implementable. Dar la web semntica el siguiente
paso, de la Biologa Molecular a los dems usuarios? No lo sabemos. Quizs la web semntica

nunca se implante y se limite a ciertas disciplinas como la Biologa, pero en cualquier caso habr
contribuido a una mejor gestin de la informacin en la Biologa Molecular, que es algo muy
positivo en s mismo.

PARA SABER MS
La wikipedia (http://es.wikipedia.org) ofrece entradas sobre todos los temas tratados en este
artculo.
Un artculo que describe las diferencias entre informticos y bilogos en cuanto a los
formalismos para construir ontologas se puede encontrar en:
http://www.biomedcentral.com/1471-2105/8/57.
El artculo original que describe la web semntica, escrito por Tim Berners Lee, se puede
encontrar en el volumen de Mayo del 2001 de la revista Scientific American (Investigacin y
Ciencia).
El W3C tambin tiene pgina en espaol: http://www.w3c.es/.

Se otorga permiso para copiar, distribuir y/o modificar este documento bajo las condiciones de la Licencia Creative Commons ReconocimientoCompartirIgual 2.5 Espaa (http://creativecommons.org/licenses/by-sa/2.5/es/), con las siguientes opciones:
Usted es libre de:
-copiar, distribuir y comunicar pblicamente la obra.
-hacer obras derivadas.
Bajo las condiciones siguientes:
-Reconocimiento. Debe reconocer los crditos de la obra de la manera especificada por el autor o el licenciador (pero no de una manera que
sugiera que tiene su apoyo o apoyan el uso que hace de su obra).
-Compartir bajo la misma licencia. Si altera o transforma esta obra, o genera una obra derivada, slo puede distribuir la obra generada bajo una
licencia idntica a sta.
-Al reutilizar o distribuir la obra, tiene que dejar bien claro los trminos de la licencia de esta obra.
-Alguna de estas condiciones puede no aplicarse si se obtiene el permiso del titular de los derechos de autor
-Nada en esta licencia menoscaba o restringe los derechos morales del autor

Common questions

Con tecnología de IA

Biology, particularly Bioinformatics and Molecular Biology, has significantly contributed to the advancement of semantic web technologies by providing a real-world application and a community of early adopters willing to leverage the semantic web's capabilities. The semantic web requires substantial effort to implement new technologies, and the bioinformatics community has acted as 'guinea pigs,' facilitating experimentation and adoption . Furthermore, many biological ontologies, such as Gene Ontology, have shown the utility of semantic technologies by integrating vast amounts of biological data, which has led to a better management system for organizing knowledge within the field .

Semantic content is crucial for the development of advanced tools like a 'knowledge search engine' because it allows computers to understand and process data in a more human-like manner. Such tools require the ability to compare and synthesize information from diverse domains to provide meaningful and context-aware results. Traditional web technologies lack this semantic layer, so while they can handle vast data, they cannot effectively parse the underlying meaning without semantic annotations. Incorporating semantic content makes it possible for these tools to perform complex tasks, like synchronizing concert dates with flight schedules .

'Content semantic' distinguishes the semantic web from the traditional web by enabling machines to process the meaning and relationships of data rather than merely displaying information as text. In the traditional web, data is largely unstructured and lacks inherent meaning to computers, rendering complex queries impossible. By incorporating content semantics via ontologies and annotations, the semantic web elevates data to a knowledge level, where interrelations and context allow for intelligent search capabilities, data combination, and automated reasoning, thus transforming the web into a machine-readable knowledge network .

In information science, an ontology is a mathematical model that describes a domain of reality, specifically the consensus among a group of people on how that domain should be represented. It defines concepts and relationships within a domain, such as 'class,' 'subclass,' and 'attributes,' which the computer uses to process data semantically . In contrast, in philosophy, ontology examines the nature of being and existence, which is more abstract and does not necessarily pertain to computer models or structured data .

Ontologies define the structure and relationships of concepts within a domain, providing a framework for data interpretation. Reasoners are programs designed to analyze these ontologies and answer specific queries based on the defined relationships and properties. By utilizing reasoners, the semantic web can deduce new information and integrate across multiple ontologies, leading to a comprehensive understanding and practical use of the data. This combined functionality allows the semantic web to offer advanced querying and inference capabilities beyond simple keyword searches .

The implementation of the semantic web faces several challenges outside of Biology, including the complexity involved in creating comprehensive ontologies and the effort required for annotations. Unlike a standard web page, developing an ontology demands a deep understanding of the domain and consensus among domain experts, making it a resource-intensive task. Furthermore, user participation for semantic annotation is limited unless they see clear benefits, making widespread adoption difficult. Additionally, the current standards and protocols are still experimental and not as widely used as necessary for the semantic web's potential .

The Gene Ontology (GO) has demonstrated ontology utility by providing a standardized vocabulary to describe gene attributes across species and databases. It facilitates data integration by employing simple yet effective relationships ('is_a,' 'part_of'), allowing users to perform functional searches, such as finding all genes associated with specific molecular functions. Additionally, GO enables cross-database linking and information retrieval based on shared annotations, demonstrating how ontologies can enhance data accessibility and usability in biology .

The semantic web promises to vastly improve the management of biological data by enabling the integration and retrieval of knowledge from disparate data sources in an automated and meaningful way. Unlike current web technologies, which treat data as isolated pieces of information, the semantic web uses ontologies to represent data relationships and meaning, allowing for more sophisticated queries and reasoning. This can lead to new insights and hypotheses in biology, as ontology-based tools can integrate various datasets and provide a comprehensive understanding of biological processes .

Semantic technologies in Molecular Biology are uniquely suited due to the discipline's reliance on vast amounts of data and complex relationships. Here, ontologies help integrate and synthesize this data to generate knowledge by reflecting biological processes and interactions. In contrast, other sciences may not generate as much discrete data requiring integration, or may not benefit from predefined relationship modeling to the same extent. Also, in biology, there's a community already invested in developing resources like ontologies, which aids the technology's gradual acceptance, unlike fields where the utility might not be immediately clear or incentivized .

Metadata and annotations are critical for the semantic web as they provide the necessary context for machines to interpret data semantically. By attaching metadata to data elements, we enable sophisticated computer systems to process information in a more meaningful way, facilitating tasks like advanced searching and reasoning. This allows the semantic web to move beyond simple keyword matching, enabling intelligent data management and automated integration across different domains, leading to applications like knowledge-based search engines and more informed decision-making processes .

También podría gustarte