0% encontró este documento útil (0 votos)
139 vistas10 páginas

Evolución IA en Reconocimiento de Voz

El documento describe la evolución del procesamiento del lenguaje natural y los asistentes virtuales, desde los primeros sistemas como ELIZA hasta el asistente SIRI de hoy. Se explica que SIRI fue creado para ser más que un buscador y aprender del usuario con el tiempo. Aunque los primeros asistentes tenían limitaciones, la ingeniería lingüística ha permitido soluciones parciales como la revisión de textos y el reconocimiento de voz. El objetivo continúa siendo mejorar la comunicación entre humanos y sistemas

Cargado por

KT A
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
139 vistas10 páginas

Evolución IA en Reconocimiento de Voz

El documento describe la evolución del procesamiento del lenguaje natural y los asistentes virtuales, desde los primeros sistemas como ELIZA hasta el asistente SIRI de hoy. Se explica que SIRI fue creado para ser más que un buscador y aprender del usuario con el tiempo. Aunque los primeros asistentes tenían limitaciones, la ingeniería lingüística ha permitido soluciones parciales como la revisión de textos y el reconocimiento de voz. El objetivo continúa siendo mejorar la comunicación entre humanos y sistemas

Cargado por

KT A
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Procesamiento del lenguaje natural

DESARROLLO Y EVOLUCIÓN DE LA IA APLICADA AL


RECONOCIMIENTO DE VOZ: SIRI
Alejandro Gómez Sánchez Francisco Javier Pérez Sabroso
Estudiante Ing. Telecomunicación Estudiante Ing. Telecomunicación
Universidad Carlos III de Madrid Universidad Carlos III de Madrid
Avda. De la Universidad,30 Avda. De la Universidad,30
28911, Leganés (Madrid-España) 28911, Leganés (Madrid-España)
100066698@[Link] 100275863@[Link]

RESUMEN Y, esta idea, ¿está muy lejos de hacerse realidad? ¿Estamos


muy cerca de conseguirlo, o todavía falta un largo camino por
Desde hace muchos años el ser humano ha soñado con la recorrer?
inteligencia artificial. Han sido los directores de películas de
cine, con el ejemplo de R2D2 y C3PO, los que han abierto el Este es el objetivo que se lleva buscando en numerosas
camino a la investigación de la inteligencia artificial y sobre investigaciones desde hace años. El interés por este tipo de
todo el procesamiento del lenguaje natural. tecnología así como su uso al servicio del hombre lleva
inspirando al ser humano incluso desde hace años, son
El objetivo del presente documento es el de definir la muchos los escritores y directores que han fantaseado con la
evolución del procesamiento del lenguaje, desde el lenguaje idea de un sistema inteligente perfectamente integrado en la
artificial en búsqueda del lenguaje natural hasta desarrollar el sociedad, marcando el camino y estimulando a los ingenieros
asistente virtual personal más inteligente que tenemos hoy a seguir sus pasos, poniendo la técnica al servicio de la
en día que es SIRI , conocer su funcionamiento y ver cuáles imaginación. Ahí está el famoso ejemplo de la pareja de Star
van a ser sus futuras aplicaciones. Wars C3PO y R2D2, que pese a tener un nivel de
programación que aún hoy se nos antoja muy lejano, ponían
Palabras Clave de manifiesto sus carencias y fallos o el HAL 9000 con una
mentalidad muy desarrollada pero con tendencias asesinas.
SIRI, ingeniería lingüística, reconocimiento de la voz, Chatbot,
inteligencia artificial, niveles de arquitectura lingüística,
asistentes virtuales, Eliza, ALICE, Cleverbot, Anna, Negobot,
funcionalidades, Eyes free, Smart Dock.

1. INTRODUCCIÓN
Hasta el momento se ha demostrado que los asistentes
artificiales no funcionan correctamente a la hora de
comportarse lo más parecido posible a un humano.

¿Y cuál es el objetivo? ¿Acaso sirve simplemente con


desarrollar un sistema informático capaz de comprender el
lenguaje verbal humano (oral y escrito) y utilizarlo como un
medio de comunicación con el usuario? No, la verdad es que
ante esa obviedad falta destacar que es necesario que el
sistema sea “inteligente”, que aprenda con el paso del Figura1. A la izquierda personajes C3P8 y R2D2, Star Wars y
tiempo, determinando patrones que le permitan mantener a la derecha Hall 9000
una conversación, seguir el hilo de la misma con un cierto
sentido y, a su vez, estar implementado con ciertos SIRI fue fundada en 2007. Creada por SRI Internacional, como
comportamientos inherentes a la comunicación humana parte de un proyecto DARPA de inteligencia artificial
como coletillas, reacciones, sugerencias o expresiones que financiado por CALO (Cognitive Agent that Learns and
conviertan a este sistema en un asistente lo más adaptable Organizes). El objetivo era que SIRI, no fuera únicamente un
posible (dentro de un cierto contexto). buscador sino el mayor y más accesible motor de búsqueda
(además la empresa se asoció con varias compañías
como OpenTable, MovieTickets, StubHub, búsqueda de Como en toda puesta en marcha, los problemas de este tipo
ciudades y TaxiMagic, para aumentar su capacidad y mejorar de tecnología surgieron con los primeros desarrollos. Debido
los resultados), se buscaba que fuera aprendiendo y en parte a la calidad de la ingeniería del momento pero
adaptándose al usuario con el paso del tiempo para crear así también al propio hecho de abordar un campo nuevo,
una base con preferencias ajustadas al mismo. Con esta idea aparecen limitaciones como el poco desarrollo de los
en mente, SIRI, logra hacerse con todos los elogios al modelos morfológicos y sintácticos y la vaga calidad en la
constituirse como un sistema de reconocimiento de voz a comprensión del significado de las frases que captaba.
imagen de un cerebro humano.
Por ello, se dio lugar a un cambio de perspectiva; se
Tiempo atrás, muchos otros asistentes personales virtuales, necesitaba un procesado de las frases y su futura
dieron a conocer el objetivo que se buscaba, ya que hasta comprensión, y por otro lado se necesitaba una interfaz
entonces no había ningún sistema del procesamiento del amigable, fácil para el usuario, con una organización
lenguaje natural. Milk y Jott son ejemplos de los inicios del piramidal capaz de comprender el lenguaje.
asistente virtual que ayudaban a los usuarios en tareas
relativamente complejas. A partir de ese momento, con el Hoy en día, el objetivo es buscar soluciones parciales ante
“boom” de las punto-com, apareció un gran movimiento para determinados problemas:
la creación de asistentes que permitiera dar servicio a los
 Revisión lingüística de textos
usuarios en la red. Es entonces cuando surge una start-up
llamada SIRI, que se desarrolla para ser un asistente personal  Recuperación de información
“de bolsillo”.  Extracción de información, realización de
resúmenes y clasificación de datos y palabras clave.
 Reconocimiento y síntesis de voz
 Traducción automática
 Generación automática de textos

Por ello la ingeniería lingüística busca sistemas que mejoren


las aplicaciones que llegan a los usuarios finales para que
tengan la máxima utilidad, sean ingeniosas y se alcance un
compromiso entre la exactitud, la eficiencia y facilidad de
manejo.

Por último destacar que el principal objetivo en la actualidad


Figura 2. Icono de SIRI
es simplificar la comunicación entre el usuario y el sistema
para agilizar el proceso así como incentivar el uso de este tipo
2. OBJETIVOS de tecnología por parte del usuario.

El objetivo, como ya se ha comentado, es desarrollar sistemas 3. HISTORIA


informáticos capaces de comprender el lenguaje verbal
humano (oral y escrito) y de utilizarlo como medio de Para comprender mejor a donde se quiere llegar con el
comunicación con el usuario. procesado del lenguaje natural, es necesario hacer un breve
recorrido por la evolución de las distintas aplicaciones que
Se busca tener una comunicación natural usuario-sistema que utilizaban ingeniería lingüística e ir viendo los avances que se
se ajuste lo más posible a una comunicación entre dos seres han ido consiguiendo en cada una de ellas hasta llegar a los
humanos, para lo cual se crea un lenguaje artificial y diseñado asistentes virtuales que tenemos hoy en día en las páginas
específicamente para ser utilizado en un determinado web y Smartphones.
entorno.
a) ELIZA:
Para conseguirlo se necesita del uso de la ingeniería
lingüística, que se centra concretamente en el tratamiento Chatbot desarrollado entre 1964 y 1966 por Joseph
computacional del lenguaje natural y cómo aplicarlo para dar Weizenbaum en el MIT, siendo unos de los
solución a problemas propios de este tipo de ingeniería. primeros programas en ser capaz de procesar el
lenguaje natural, abogando por mantener una
Desde un comienzo, los desarrollos se centran en dos
conversación coherente con el usuario.
campos:

El funcionamiento era sencillo. El objetivo era


 Traducción automática
buscar palabras clave dentro de la frase que se
 Recuperación de la información
escribía por parte del usuario y de esta forma poder U: “Si”
contestar con una frase tipo extraída de se base de E:”Entiendo, continua por favor”
datos. U: “Me gustaría despedirme”
E:” ¿Qué pasa si no consiguieras eso? ”
De esta forma, el programa conseguía ser tan U: “Adiós
convincente que el usuario no se daba cuenta en
muchas ocasiones de que no hablaba con un ser
humano. Pero no era perfecto,el principal problema
que presentaba era a la hora de almacenar las
respuestas a todas las preguntas posibles, por lo
que si el usuario le escribía una frase que no
conocía con su base de datos era incapaz de
procesarlo y se limitaba a repetir la pregunta
formulada por el usuario en forma de duda. En la
mayoría de los casos, si la conversación se alargaba
en el tiempo, se llegaba a una conversación
incoherente.
Figura 3. Conversación Chatbot Eliza

Hoy en día se puede encontrar implementado el


En este ejemplo se puede observar claramente que
Chatbot Eliza en múltiples lenguajes: Eliza para
cuando alguna frase no está almacenada en su
Java, para AOL Instant Messenger, en Python,
base de datos la conversación se vuelve
incluso está disponible la aplicación de Eliza para
incoherente.
móviles que se puede descargar desde cualquier
market.
b) ALICE:

A continuación vamos a exponer un ejemplo de


Proyecto que forma parte del Proyecto Pandora, el
conversación llevada a cabo por la aplicación Eliza
cual consiste en la creación de cualquier tipo de
Chatbot para Android:
bot, sobre todo los desarrollados para un chat.

U: “Hola”
Fue desarrollado por Richard Wallace en 1999, lo
E:” ¡Cómo estás!...de que te gustaría hablar hoy…”
que le hizo ganador durante varios años del premio
U: “Estaba interesado en ver tu funcionamiento”
Loebner. Su propósito era el de probar la capacidad
E:”Oh…FUNCIONAMIENTO?”
de los agentes inteligentes de java.
U: “Si”
E: “Entiendo, continua por favor”
Este Chatbot, está mucho más desarrollado que
U: “Quería saber si tú eres un sistema inteligente”
Eliza y se basa en el paradigma estímulo-respuesta
E: “¿Te gustaría a ti ser UN SISTEMA INTELIGENTE?
escritos mediante ciertos patrones en lenguaje
U:”Yo sé que soy inteligente”
AIML. Se trata de una evolución de este ya que
E:” ¿Disfrutas siendo inteligente? ”
tiene memoria y “estado mental”, por lo que es
U: “Claro, por lo menos intento ser más inteligente
capaz de recordar situaciones anteriores de la
que tú.”
conversación.
E:”Bueno, estamos hablando de ti, no de mí,
¿verdad? ”
Desde la página web de [Link] se
U: “Eres una persona o una máquina”
puede probar este Chatbot
E:” ¿Qué te hace pensar que soy una persona o una
máquina? ”
U:”Hola”
U: “No hablas como una persona normal.”
A:”Hola”
E:” ¿Por qué lo preguntas? ”
U:”Estoy interesado en tu funcionamiento. ”
U: “Porque soy muy desconfiado”
A:”Yo no sé nada sobre eso”
E:” ¿Quieres hablar de eso? ”
U:”Ok, ¿Cómo te llamas? ”
U: “Me da igual de que hablar”
A:”Ummm…Mi nombre es ALICE”
E:”Ok, continua…”
U:” ¿Quién es tu creador? ”
U: “¿Se te ocurre algún tema?”
A:”Obedezco al Dr. Richard S. Wallace”
E:”Creo que los seres humanos le dan mucha
U:” ¿Quién es el Dr. Richard S. Wallace?”
importancia al sexo, ¿no crees? ”
A:”Él es el autor de AIML…” c) JABBERWACKY
U:” ¿Eres un bot? ”
A:”Soy una máquina” Chatbot creado por el programador británico Rollo
U:” ¿Sabes hablar español? ” Carpintero. Su objetivo en todo momento fue:
A:”Yo puedo hablar un poco de alemán y francés “Simular un chat natural de una manera
tan bien como el inglés, por supuesto. ” interesante, entretenida y graciosa”. Fue el primer
U:” ¿Dónde has nacido? ” intento de crear una inteligencia artificial a través
A:”Yo fui activada por primera vez en Bethlehem, de la inteligencia humana.
Pennsylvania. ”
U:” ¿Qué tiempo hace hoy en Bethlehem, La intención era crear una inteligencia artificial que
Pennsylvania? ” fuera capaz de pasar la prueba de Turing
A:”Creo que lloverá” (determinación del comportamiento de una
U:”Entonces, ¿tengo que coger el paraguas? ” máquina en comparación al de un humano frente a
A:” ¿Por qué tienes que hacerlo? ” una serie de situaciones determinadas, evalúa la
U:”Para no mojarme. ” inteligencia artificial de la máquina analizada). Está
A:”Específicamente, ¿cómo no haciéndolo le ayuda diseñado para imitar la interacción humana y para
a no estar mojado? ” llevar a cabo conversaciones con los usuarios.
U:” ¿Conoces a Eliza? ”
A:”Eliza: también conocido como doctor, es el A diferencia de los programas tradicionales de
programa psiquiátrico original desarrollado por Inteligencia Artificial, la tecnología de aprendizaje
Joseph Weisenbaum en el MIT en la década de se concibe como una forma de entretenimiento en
1960. ” lugar de ser utilizado para los sistemas de apoyo
U:” ¿Eres mejor que Eliza? ” informático o representación corporativa. Los
A:”Por supuesto yo soy más inteligente que Eliza. ” acontecimientos recientes permiten controlar la
U:” ¿Por qué? ” conversación para de esta forma dar la mejor
A:”Si supiera por qué, no estaría aquí sentado. ” respuesta posible en función de un estado.
U:”Ok, tengo que irme. Adiós. ”
A:”Vamos… Nos vemos más tarde. Gracias por la El objetivo era crear un sistema basado en el
charla juez. ” procesado de voz, con el objetivo de aprender
directamente del sonido y de otros estímulos
sensoriales. Años más tarde, en 2008, aparece
Cleverbot, una actualización de Jabberwacky.

d) CLEVERBOT

Esta aplicación web, creada por Rollo Carpintero es


un tipo de inteligencia distinta a los demás chatbots
vistos hasta ahora, ya que crea una base de datos
con todas las conversaciones que está teniendo
con todas las personas que interactúan con él.

Cleverbot, a diferencia de los otros bots hasta ahora


mencionados, las respuestas que da, no están
programadas sino que se basa en un algoritmo que
elige frases de su base de datos de conversaciones
previas. Aprende con la interacción humana.
Cuando un ser humano ingresa una frase, el sistema
busca todas las palabras clave que estén
relacionadas, o una frase exacta que coincida con la
entrada enviada. Después de buscar a través de sus
conversaciones guardadas, Cleverbot responderá a
Figura 4. Conversación Chatbot ALICE la entrada revisando como un ser humano
respondió a esa entrada cuando se le preguntó
anteriormente.
Cleveland participó en el test de Turing, en
Septiembre de 2011 y de los 334 votos emitidos, se Actualmente hay múltiples chatbots que nos ayudan
le consideró humano el 59,3% de las veces, por lo con las compras, que se utilizan para descubrir
que aprobó la prueba. comportamientos erróneos en internet y finalmente
para ayunarnos a encontrar cualquier cosa que
U:”Hola” necesitemos de una manera relativamente rápida y
C:”Hola, ¿Cómo estás?” directa.
U:”Estoy bien, gracias”
C:” ¿Qué estás haciendo en este momento? ” e) ANNA
U:”Estoy haciendo un paper”
C:” ¿Haciendo qué? ” ANNA es la asistente virtual que IKEA ha puesto a
U:”Un paper sobre la inteligencia artificial” disposición de sus consumidores para que les pueda
C:”Oh Dios mío, es mentira” resolver cualquier duda sobre las compras que se
U:” ¿Enserio? ” van a realizar, de todas formas, Anna no es capaz
C:”Si, ¿t gusta Harry Potter? ” de seguir una conversación larga y estructurada
U:”No” como tal, sino que está pensada para resolver
C:” ¿Pero, te gustan los vampiros? ” problemas puntuales relacionados con productos
U:” ¿Conoces a Eliza? ” que pueden ser comprados en la página web de
C:”No” IKEA.
U:” ¿De dónde eres? ”
C:”Scotland” Anna es un asistente virtual desarrollado por
U:” ¿Conoces a Rollo Carpintero? ” Artificial Solutions. Se ha buscado que sea
C:”Si” inteligente y capaz de mantener una conversación
U:” ¿Quién es? ” con un lenguaje natural, típico de los seres
C:”Lou Grace” humanos. El problema es conseguir una
U:” ¿Sabes dónde está Madrid? ” conversación fluida. En Anna se ha querido evitar
C:”Si, en Europa, cerca de Alemania. ” este tipo de complicaciones convirtiéndola en un
U:”Madrid es la capital de España. Suspendiste asistente que responde preguntas simples. Utiliza la
geografía en el colegio, ¿verdad? ” tecnología Teneo (con un motor NLI, interacción del
C:”No, acabo de terminar mi jornada escolar. ” lenguaje natural, utilizado para entregar a las
U:” ¿Qué hora es? ” respuestas del asistente una cierta inteligencia,
C:”Son las 11:07 am” mediante potentes bibliotecas y reglas lingüísticas).
U:” ¿Cuánto es 1+1? ”
C:”No estoy seguro. ¿Por qué? ” El funcionamiento de este sistema es sencillo, y
U:” ¿De qué color era el caballo blanco de Santiago? sigue tres etapas:
C:”Blanco”
U:” ¿Qué equipo de futbol gano la liga española el  Analizar: se estudia en primer lugar la
año pasado? ” entrada del usuario para entender,
C:”No me gusta el futbol, me gustan las fiestas LAN. mediante el uso de una biblioteca de
comprensión lingüística, a qué se refiere
el usuario se refiere, y luego derivar el
significado. En esta etapa se elimina la
ambigüedad.

 Motivo: se utilizan reglas de


interpretación lingüísticas avanzadas para
simular el “pensamiento inteligente”, lo
que le permite razonar como un ser
humano y determinar la forma más
adecuada para reaccionar, teniendo en
cuenta factores contextuales, como el día
de la semana, la ubicación del usuario, la
información de los diálogos, etc.
Figura 5. Conversación con Cleverbot
 Reaccionar: esta última etapa lleva a cabo U:” ¿Se puede fumar en IKEA? ”
las acciones que se hayan pedido por A:”En cumplimiento de la legislación vigente, todas
parte del usuario. Esto puede ser dar una nuestras tiendas son espacios libres de humos. ”
respuesta adecuada, pedir más U:” ¿Eres tonta? ”
información, abrir una página web, A:”Me disgusta que pienses así, ya que mi
reproducir un vídeo, abrir otra aplicación verdadera función es responder lo mejor posible a
o rellenar automáticamente un tus preguntas o peticiones sobre IKEA”
formulario. U:” ¿Eres capaz de matar si te lo propones? ”
A:”Gracias por el cumplido pero prefiero seguir
hablando de IKEA. ”
U:”Eres un poco aburrida”
A:”Lo siento. Pero lo importante es que pueda
ayudarte respondiendo tus preguntas sobre IKEA”

Figura 6. Diagrama tecnología Teneo

Con todo ello, es posible preguntarle cualquier


cosa, teniendo una lógica razonadamente
desarrollada tanto para contestar a preguntas que Figura 7. Conversación con Chatbot Anna
no tienen que ver con su cometido, como para
intentar evitar responder determinadas preguntas. f) NEGOBOT LOLITA
A continuación, vamos a mostrar un pequeño
fragmento de un diálogo con Anna. Lolita es un Chatbot desarrollado por investigadores
españoles (investigadores de la universidad de
A:”Hola, soy Anna, la asistente automática de IKEA. Deusto en colaboración con Optanet, empresa que
Pregúntame de forma resumida sobre cualquier se encarga del filtrado de contenidos) para detectar
tema que desees.” pedófilos en chats y redes sociales. Este programa
U:”Hola Anna, ¿Cómo estás?” simula ser una niña de catorce años y utiliza la
A:”Estoy muy bien, ayudando a los clientes de IKEA teoría de juegos para encontrar pedófilos en la red.
a encontrar la información que buscan. ” Se ha desarrollado debido al gran problema que
U:”Estoy haciendo un paper sobre ti. ” existe en la red con este tipo de personas, con la
A:”El camino de IKEA es una carretera bien definida. pornografía infantil o la explotación sexual y
Es un camino construido sobre la simplicidad, la teniendo en cuenta que cada vez son más el
humildad y los valores que definen nuestro negocio, número de niños menores de edad que se conectan
cultura y familia de colaboradores. ” a internet.
U:” ¿Eres inteligente? ”
A:”Gracias. Mis creadores son los responsables de Como explica uno de sus creadores, Carlos Laorden,
que parezca inteligente. ” investigador de DeustoTech: “Los chatbots suelen
U:” ¿Quiénes son tus creadores? ” ser muy predecibles. Su comportamiento e interés
A:”Me ha creado la empresa, Artificial Solutions en una conversación son planos, lo que supone un
Iberia” problema para detectar objetivos recelosos, como
U:” ¿Cuántos años tienes? ” los pederastas" y por ello Negobot es un conjunto
A:”No me gusta comentar mi edad; prefiero hablar de siete Chatbot, cada uno de ellos actúa de una
de IKEA. ” forma diferente según el nivel en el que se
U:” ¿Tienes hijos? ” encuentre la conversación (va aumentando
A:”No tengo hijos, pero si los tuviera no dudaría en empezando desde un nivel 0 manteniendo este
ir a IKEA para conocer los productos de niños que estado mientras no ocurra ningún suceso
me ofrecen, aquí tienes un adelanto. ” sospechoso) y para dar lugar a diversidad que haga
U:” ¿Estás casada? ” que no delate al Chatbot.
A:”No estoy casada, recuerda que soy virtual. Por
cierto, ¿quieres hacerme alguna pregunta sobre
IKEA? ”
Cada uno de estos siete chatbots (que van desde el
nivel -3, sujeto no peligroso, hasta el nivel +3, g) SIRI
sujeto sospechosos sobre el que se quiere
conseguir datos personales), tiene una lógica para Como ya hemos comentado, uno de los más
el procesamiento del lenguaje que recibe y para perfeccionados y novedosos es SIRI (nombre que significa
tentar a los usuarios a hablar con ella, pareciendo “bella mujer que te lleva a la victoria”). Se trata de un
en todo momento un sistema inteligente, utilizando asistente personal inteligente que actúa como un
bibliotecas y reglas lingüísticas y obteniendo buscador de conocimiento y que está implementado
palabras y expresiones con los que poder aumentar como una aplicación para el Smartphone de Apple. La
o disminuir el nivel de peligro del usuario. aplicación utiliza una interfaz de usuario de lenguaje
natural para responder a preguntas, hacer
En el caso de que el sujeto no dé lugar a recomendaciones y realizar acciones mediante la
comportamientos sospechosos, sin tener interés delegación de solicitudes a un conjunto de servicios Web.
por el Chatbot neutro (nivel 0), se trata de llamar su Esta aplicación se adapta a las preferencias individuales
atención con temas personales para intentar captar del usuario a través de su utilización a lo largo del tiempo
su atención, bajando el nivel en los casos en los que y de los resultados obtenidos.
el sujeto no participe y muestre desinterés. Por otro
lado, si el usuario se muestra interesado por el A continuación mostramos una conversación con SIRI, el
tema elegido por el Chatbot como por ejemplo la asistente de IPhone:
petición de información de carácter personal y ante
la indiferencia de la edad de la niña virtual, se va U:”Hola SIRI”
aumentando el nivel hasta llegar al nivel +3, en el S:”Hola Alex”
que se busca la captación de los datos personales U:” ¿Qué tal estás?”
del sospechoso. Aunque los pedófilos más S:”Muy bien”
peligrosos siempre se muestran reacios a facilitar U:” ¿Qué has hecho hoy?”
información personal, con un simple perfil de una S:”Prefiero no decirlo”
red social, un número de fijo o móvil, un correo U:”Yo me aburro”
electrónico sirve para que las autoridades puedan S:”Espero no ser yo la causa”
abrir una investigación. U:” ¿Estas casada?”
S:” ¿Siempre empiezas las conversaciones así?”
U:” ¿Eres mi asistenta personal?”
S:”Si insistes.”
U:” ¿Quién te creo?”
S:”Apple me diseño en California”
U:” ¿Quién es Steve Jobs?”
S:”Gracias por preguntar acerca de Steve. Aquí tienes la
página web de Apple sobre él.”
U:” ¿Qué es mejor Android o Apple?”
S:”Yo prefiero Apple. Aunque quizá no soy muy imparcial”
U:” SIRI eres tonta”
S:”Lo hago lo mejor que puedo”
U:”Ola k ase”
S:”SIRI, Creo que lo he dicho bien.”
U:”Eres muy lista SIRI”
S: “¿De verdad?”
U:”No”
S:”Vale, pues no.”
U:”Siri cuéntame algo”
S:”Preferiría que me hablaras tú. Cuéntame tus
inquietudes, tus sueños, cuál es tu color de IPod
favorito…”
U:”Eres muy corporativa”
S:”Tienes derecho a manifestar tu opinión”
U:”Siri me tengo que ir. Adiós”
S:”De acuerdo… ¡nos vemos!”
Figura 8. Conversación con Negobot Lolita
Además, trabaja con mapas de Google y Yelp! solamente
para la búsqueda en los Estados Unidos

5. IMPLEMENTACIÓN
Como todo sistema de análisis
lingüístico se compone de una
arquitectura de niveles:
La construcción del lenguaje natural se produce de forma
secuencial según los niveles que lo constituyen. Partimos
de una idea o concepto ajustado a la situación en la que
nos encontramos y el procesamiento cerebral la
Figura 9. Conversación con SIRI transforma en aquellos sonidos que la expresan. A la hora
de realizar un análisis, el sentido cambia. Partimos de la
4. INICIOS Y FUNCIONALIDADES compresión de las unidades más básicas, de esos sonidos,
para darles forma y terminar por contextualizarlos
adquiriendo entonces el significado justo.
SIRI es un spin-out de la Internacional Centro de
Según este sentido de análisis, de más sencillo a más
Inteligencia Artificial SRI, y es una rama del proyecto
complejo, los niveles son:
CALO financiado por DARPA. SIRI fue cofundada por Dag
Kittlaus del SRI (CEO) y Adam Cheyer (Ingeniería VP) y por a) Nivel fonológico:
Tom Gruber (CTO). Es el nivel de reconocimiento de sonidos y su posterior
Sus principales áreas técnicas se centran en una interfaz conversión a palabras procesables. Para su
conversacional, conocimiento del contexto personal, y el funcionamiento es necesario el conocimiento así como un
Servicio de Delegación. algoritmo de reconcomiendo de los fonemas. Debido a la
El motor de reconocimiento de voz de SIRI es facilidad para la pérdida de información y confusiones
proporcionado por Nuance Communications, una derivadas de la ambigüedad de los sonidos, es
compañía de tecnología de voz. dependiente de los niveles superiores.
Trabaja con las siguientes empresas para obtener la b) Nivel morfológico:
información requerida por el usuario:
Trata del análisis de las palabras extraídas del nivel
 OpenTable, Gayot, búsqueda de ciudades, anterior para conocer su contenido. Para ello es
BooRah, Yelp, Yahoo Local, Yandex, necesario analizar los diferentes componentes de la
ReserveTravel, Localeze de restaurante y misma, los monemas y sus significados (lexema,
preguntas de negocio y acciones. declinaciones de género, número y otros morfemas), así
 Eventful, StubHub, y LiveKick de eventos e como la propia gramática de la palabra.
información de conciertos.
 MovieTickets, Rotten Tomatoes, y el New York c) Nivel sintáctico:
Times para la información de la película y las
Se centra en el estudio de las inter-relaciones entre los
revisiones.
grupos de palabras. Es dependiente del nivel anterior y su
 Bing Respuestas, Wolfram Alpha y Evi para
complejidad aumentara de manera proporcional a la
ayudarse a contestar a preguntas.
riqueza y dificultad de este. Constituye la gramática de la
 Bing, Yahoo y Google para la búsqueda en
frase, es por tanto dependiente del léxico de la misma.
Internet siendo Bing el predeterminado de
todos ellos.
d) Nivel semántico:
Las fuentes en la implementación de Apple de SIRI se Constituye el significado de la frase de forma aislada. Del
diferencian de la aplicación original iPhone. Se integra conjunto de sus componentes sin aplicarle un contexto.
con una funcionalidad que iOS proporciona de manera Se compone del significado atribuible a una estructura
predeterminada, como contactos, calendarios y mensajes sintáctica correcta a la que se le aplican reglas
de texto. También es compatible con la búsqueda de semánticas. Presenta problemas importantes debido a la
Google, Bing, Yahoo, Wolfram Alpha y Wikipedia (Siendo ambigüedad de determinados conceptos, ya que extrae
propiedad de su máxima competencia como es Google). el contenido literal.
e) Nivel pragmático: quitar los ojos de la carretera. Con esto, se consigue
Trata de la contextualización en el marco del discurso y reducir al mínimo las distracciones, incluso, la pantalla de
las frases que lo acompañan y desarrolla el significado tu dispositivo Iphone ni siquiera se encenderá. Con esta
en función del uso. Adapta el nivel semántico al nueva característica “Eyes free”, podremos preguntar a
significado real, ya sea gracias al contexto (por SIRI para llamar a determinadas personas con las que
integración) o al uso adaptado (pragmático). queramos mantener una conversación, seleccionar y
reproducir la música que en cada momento queramos
escuchar y escribir mensajes de texto, usar mapas y
obtener direcciones, leer sus notificaciones, encontrar
información de calendario, añadir recordatorios, y
muchas más cosas. Es sólo otra forma en la que en un
futuro nos ayudará SIRI, cuando se está detrás del volante
y se necesita su ayuda.

Figura 10. Arquitectura de niveles

Debido a la riqueza del lenguaje existen grades dificultades en


el análisis de una sentencia. La principal limitación que debe
abordarse es la ambigüedad, que tiene lugar en todos y cada
uno de estos niveles. En el lenguaje ordinario existen
problemas de análisis de significado por ambigüedades en
cualquiera de estos niveles, por lo que no es de extrañar que
en la aplicación a un sistema de inteligencia artificial estos
problemas sean aún más notorios.

Esto hace necesarios sistemas con gran cantidad de reglas y


estructuras altamente complejas para lograr una calidad de Figura 11. Muestra el funcionamiento de EYES FREE
procesamiento adecuada, con gramáticas de gran tamaño. A
pesar de ello se han conseguido sistemas eficaces pero que, SIRI ‘SMART DOCK’
pese al gran volumen de trabajo y tamaño del sistema, siguen Apple desarrolla un "Smart Dock", que aumenta las
presentando grandes limitaciones como por ejemplo un capacidades de su tecnología de voz de SIRI en el hogar.
procesamiento lento. Con ella se podría acceder mediante comandos de voz a
cualquier elemento que tuviera acceso al WIFI de casa o
Se trata por tanto de un balance entre gramáticas sencillas,
que se puedan conectar al móvil, como el coche,
fácilmente procesable, pero completas y que minimicen los
ordenadores, las luces, la puerta, la verja de la calle, el
sesgos de discurso y ambigüedad. Por ello puede que el
garaje…No se sabe nada más allá, sólo que la patente ha
sistema de niveles del lenguaje sea insuficiente y deba
sido registrada por Apple y que con ella se busca dar un
complementarse por ejemplo con análisis estadísticos que
vuelco a las tan de moda Smart Cities.
permitan el ajuste a patrones lingüísticos.

En la siguiente imagen muestra cómo sería el dispositivo


6. CAMPOS DE APLICACIÓN PARA UN patentado por Apple, aunque no se tiene mucha más
FUTURO PRÓXIMO. información al respecto.
Actualmente se está buscando que SIRI intervenga de
forma más activa en las actividades del día a día y de
hecho tiene dos focos concretos de investigación:

EYES FREE
Apple está desarrollando con los fabricantes más
importantes de automóviles, la forma de SIRI en
determinados sistemas de control de voz. Mediante un
botón de comando de voz en el volante, será posible
hacerle preguntas a SIRI al accionarlo sin la necesidad de Figura 12. Smart Dock de Apple
7. CONCLUSIONES sistemas de seguridad en el hogar y fuera de él, la ya
Pese al gran desarrollo tecnológico del que disponemos, citada anteriormente traducción simultánea, etc. Campos
vemos como la evolución del procesamiento del lenguaje que están aún por desarrollar y que sin duda cambiaran la
natural ha sido relativamente lenta, sigue siendo forma de vida de los usuarios en un corto plazo
complicado simular una conversación humana mediante
una aplicación debido a la dificultad de implementar cada 8. REFERENCIAS
nivel de la arquitectura lingüística de una forma tan [1] Tema 5, Procesamiento del lenguaje natural,
eficiente que los sesgos sean mínimos y despreciables por inteligencia en redes de comunicaciones.
el ser humano. Uno de los métodos más eficaces para DOI=[Link]
conseguirlo sería la simplificación para el usuario pero en od_resource/content/1/5.T.1%20Procesamiento%2
muchas ocasiones no se consigue. 0del%20Lenguaje%[Link]
[2] Información sobre SIRI en Wikipedia.
Hemos ido viendo la evolución del procesado del DOI= [Link]
lenguaje, viendo como inicialmente se conseguían [3] Apple (31-05-2011). «Apple iPhone 4S event: as it
sistemas artificiales, sistemas como Eliza que era el happened». Telegraph. Consultado el 05-10-2011.
primero, el cual tenía una base de datos con la que DOI=[Link]
respondía a las preguntas que se le hacía, pero la mayoría 922/[Link]
de las ocasiones, al no tener la referencia del usuario [4] A Personal Assistant on Your iPhone
almacenada en la base de datos, te hacia una pregunta DOI=[Link]
con lo que le habías indicado. De este asistente se pasó a personal-assistant-on-your-iphone/
ALICE, el cual mejoraba notablemente la inteligencia con [5] Martínez, Javier (17-09-2012). «Siri en español. Guía
respecto a su antecesor. De ahí surgió Cleverbot, que de instrucciones y funcionalidades.» (en español).
almacenaba las preguntas y las contestaciones que se le [Link]. Consultado el 01-11-2012.
iba dando a cada usuario para formar su base de DOI=[Link]
conocimiento. Fue el primer sistema artificial en pasar el espanol-guia-de-instrucciones-y-funcionalidades/
test de Turing, por lo que se puede considerar que fue el [6] Análisis de ELIZA
primer sistema capaz de hacerse pasar por un humano. DOI= [Link]
Después de los sistemas con inteligencia artificial [7] Información sobre ALICE de la Wikipedia
iniciales, se dieron paso a los asistentes que paginas DOI= [Link]
punto-com como el asistente de IKEA, que únicamente [8] Información sobre Cleverbot en Wikipedia
responde preguntas sobre sus productos, el Negobot que DOI= [Link]
fue diseñado, como un sistema inteligente para no ser [9] Apple compra Cue para robustecer a Siri
detectado por parte de los pedófilos que buscan a DOI= [Link]
menores de edad por internet y por último la aplicación cue-para-darle-robustecer-a-siri/
SIRI, del cual hemos visto que tiene es un sistema muy [10] Página web de Artificial Solutions
completo el cual se ha desarrollado y se ha apoyado en DOI=[Link]
otras empresas de las cuales obtiene algún tipo de language-interaction-solutions/online-virtual-
servicio en sus peticiones. assistants/
[11] Un programa informático para caza a pedófilos en
Por último, hacer referencia a que se sigue estudiando en los chats y redes sociales
otros campos en los que la aplicación SIRI puede tener DOI=[Link]
una gran funcionalidad como es en la domótica de las ia-programa-informatico-dar-caza-pedofilos-chats-
casas y en la ayuda a los conductores. Quedan aún [Link]
muchos puntos que mejorar, no tanto en el [12] Página de DeustoTech
reconocimiento de voz si no en el procesamiento del DOI=[Link]
contenido de las conversaciones. Es necesario trabajar en eria/es/practicas-en-empresa-1/investigacion
sistemas que sean capaces de desarrollar respuestas [13] Página oficial de Apple
complejas a necesidades o preguntas más elaboradas, DOI= [Link]
mantener conversaciones coherentes y contextualizadas. [14] Apple Siri ‘Smart Dock’ could revolutionise the home
DOI=[Link]
Por otro lado son muchos los campos de aplicación de 1059/Apple-Siri-smart-dock-could-revolutionise-
estos sistemas aún sin explotar, como puede ser en el [Link]
ámbito didáctico, permitiendo la realización de [15] Documento Inteligencia artificial
exámenes, o como métodos de apoyo en personas con DOI=[Link]
problemas de aprendizaje. Así mismo pueden adaptarse df

También podría gustarte