Evolución IA en Reconocimiento de Voz
Evolución IA en Reconocimiento de Voz
1. INTRODUCCIÓN
Hasta el momento se ha demostrado que los asistentes
artificiales no funcionan correctamente a la hora de
comportarse lo más parecido posible a un humano.
U: “Hola”
Fue desarrollado por Richard Wallace en 1999, lo
E:” ¡Cómo estás!...de que te gustaría hablar hoy…”
que le hizo ganador durante varios años del premio
U: “Estaba interesado en ver tu funcionamiento”
Loebner. Su propósito era el de probar la capacidad
E:”Oh…FUNCIONAMIENTO?”
de los agentes inteligentes de java.
U: “Si”
E: “Entiendo, continua por favor”
Este Chatbot, está mucho más desarrollado que
U: “Quería saber si tú eres un sistema inteligente”
Eliza y se basa en el paradigma estímulo-respuesta
E: “¿Te gustaría a ti ser UN SISTEMA INTELIGENTE?
escritos mediante ciertos patrones en lenguaje
U:”Yo sé que soy inteligente”
AIML. Se trata de una evolución de este ya que
E:” ¿Disfrutas siendo inteligente? ”
tiene memoria y “estado mental”, por lo que es
U: “Claro, por lo menos intento ser más inteligente
capaz de recordar situaciones anteriores de la
que tú.”
conversación.
E:”Bueno, estamos hablando de ti, no de mí,
¿verdad? ”
Desde la página web de [Link] se
U: “Eres una persona o una máquina”
puede probar este Chatbot
E:” ¿Qué te hace pensar que soy una persona o una
máquina? ”
U:”Hola”
U: “No hablas como una persona normal.”
A:”Hola”
E:” ¿Por qué lo preguntas? ”
U:”Estoy interesado en tu funcionamiento. ”
U: “Porque soy muy desconfiado”
A:”Yo no sé nada sobre eso”
E:” ¿Quieres hablar de eso? ”
U:”Ok, ¿Cómo te llamas? ”
U: “Me da igual de que hablar”
A:”Ummm…Mi nombre es ALICE”
E:”Ok, continua…”
U:” ¿Quién es tu creador? ”
U: “¿Se te ocurre algún tema?”
A:”Obedezco al Dr. Richard S. Wallace”
E:”Creo que los seres humanos le dan mucha
U:” ¿Quién es el Dr. Richard S. Wallace?”
importancia al sexo, ¿no crees? ”
A:”Él es el autor de AIML…” c) JABBERWACKY
U:” ¿Eres un bot? ”
A:”Soy una máquina” Chatbot creado por el programador británico Rollo
U:” ¿Sabes hablar español? ” Carpintero. Su objetivo en todo momento fue:
A:”Yo puedo hablar un poco de alemán y francés “Simular un chat natural de una manera
tan bien como el inglés, por supuesto. ” interesante, entretenida y graciosa”. Fue el primer
U:” ¿Dónde has nacido? ” intento de crear una inteligencia artificial a través
A:”Yo fui activada por primera vez en Bethlehem, de la inteligencia humana.
Pennsylvania. ”
U:” ¿Qué tiempo hace hoy en Bethlehem, La intención era crear una inteligencia artificial que
Pennsylvania? ” fuera capaz de pasar la prueba de Turing
A:”Creo que lloverá” (determinación del comportamiento de una
U:”Entonces, ¿tengo que coger el paraguas? ” máquina en comparación al de un humano frente a
A:” ¿Por qué tienes que hacerlo? ” una serie de situaciones determinadas, evalúa la
U:”Para no mojarme. ” inteligencia artificial de la máquina analizada). Está
A:”Específicamente, ¿cómo no haciéndolo le ayuda diseñado para imitar la interacción humana y para
a no estar mojado? ” llevar a cabo conversaciones con los usuarios.
U:” ¿Conoces a Eliza? ”
A:”Eliza: también conocido como doctor, es el A diferencia de los programas tradicionales de
programa psiquiátrico original desarrollado por Inteligencia Artificial, la tecnología de aprendizaje
Joseph Weisenbaum en el MIT en la década de se concibe como una forma de entretenimiento en
1960. ” lugar de ser utilizado para los sistemas de apoyo
U:” ¿Eres mejor que Eliza? ” informático o representación corporativa. Los
A:”Por supuesto yo soy más inteligente que Eliza. ” acontecimientos recientes permiten controlar la
U:” ¿Por qué? ” conversación para de esta forma dar la mejor
A:”Si supiera por qué, no estaría aquí sentado. ” respuesta posible en función de un estado.
U:”Ok, tengo que irme. Adiós. ”
A:”Vamos… Nos vemos más tarde. Gracias por la El objetivo era crear un sistema basado en el
charla juez. ” procesado de voz, con el objetivo de aprender
directamente del sonido y de otros estímulos
sensoriales. Años más tarde, en 2008, aparece
Cleverbot, una actualización de Jabberwacky.
d) CLEVERBOT
5. IMPLEMENTACIÓN
Como todo sistema de análisis
lingüístico se compone de una
arquitectura de niveles:
La construcción del lenguaje natural se produce de forma
secuencial según los niveles que lo constituyen. Partimos
de una idea o concepto ajustado a la situación en la que
nos encontramos y el procesamiento cerebral la
Figura 9. Conversación con SIRI transforma en aquellos sonidos que la expresan. A la hora
de realizar un análisis, el sentido cambia. Partimos de la
4. INICIOS Y FUNCIONALIDADES compresión de las unidades más básicas, de esos sonidos,
para darles forma y terminar por contextualizarlos
adquiriendo entonces el significado justo.
SIRI es un spin-out de la Internacional Centro de
Según este sentido de análisis, de más sencillo a más
Inteligencia Artificial SRI, y es una rama del proyecto
complejo, los niveles son:
CALO financiado por DARPA. SIRI fue cofundada por Dag
Kittlaus del SRI (CEO) y Adam Cheyer (Ingeniería VP) y por a) Nivel fonológico:
Tom Gruber (CTO). Es el nivel de reconocimiento de sonidos y su posterior
Sus principales áreas técnicas se centran en una interfaz conversión a palabras procesables. Para su
conversacional, conocimiento del contexto personal, y el funcionamiento es necesario el conocimiento así como un
Servicio de Delegación. algoritmo de reconcomiendo de los fonemas. Debido a la
El motor de reconocimiento de voz de SIRI es facilidad para la pérdida de información y confusiones
proporcionado por Nuance Communications, una derivadas de la ambigüedad de los sonidos, es
compañía de tecnología de voz. dependiente de los niveles superiores.
Trabaja con las siguientes empresas para obtener la b) Nivel morfológico:
información requerida por el usuario:
Trata del análisis de las palabras extraídas del nivel
OpenTable, Gayot, búsqueda de ciudades, anterior para conocer su contenido. Para ello es
BooRah, Yelp, Yahoo Local, Yandex, necesario analizar los diferentes componentes de la
ReserveTravel, Localeze de restaurante y misma, los monemas y sus significados (lexema,
preguntas de negocio y acciones. declinaciones de género, número y otros morfemas), así
Eventful, StubHub, y LiveKick de eventos e como la propia gramática de la palabra.
información de conciertos.
MovieTickets, Rotten Tomatoes, y el New York c) Nivel sintáctico:
Times para la información de la película y las
Se centra en el estudio de las inter-relaciones entre los
revisiones.
grupos de palabras. Es dependiente del nivel anterior y su
Bing Respuestas, Wolfram Alpha y Evi para
complejidad aumentara de manera proporcional a la
ayudarse a contestar a preguntas.
riqueza y dificultad de este. Constituye la gramática de la
Bing, Yahoo y Google para la búsqueda en
frase, es por tanto dependiente del léxico de la misma.
Internet siendo Bing el predeterminado de
todos ellos.
d) Nivel semántico:
Las fuentes en la implementación de Apple de SIRI se Constituye el significado de la frase de forma aislada. Del
diferencian de la aplicación original iPhone. Se integra conjunto de sus componentes sin aplicarle un contexto.
con una funcionalidad que iOS proporciona de manera Se compone del significado atribuible a una estructura
predeterminada, como contactos, calendarios y mensajes sintáctica correcta a la que se le aplican reglas
de texto. También es compatible con la búsqueda de semánticas. Presenta problemas importantes debido a la
Google, Bing, Yahoo, Wolfram Alpha y Wikipedia (Siendo ambigüedad de determinados conceptos, ya que extrae
propiedad de su máxima competencia como es Google). el contenido literal.
e) Nivel pragmático: quitar los ojos de la carretera. Con esto, se consigue
Trata de la contextualización en el marco del discurso y reducir al mínimo las distracciones, incluso, la pantalla de
las frases que lo acompañan y desarrolla el significado tu dispositivo Iphone ni siquiera se encenderá. Con esta
en función del uso. Adapta el nivel semántico al nueva característica “Eyes free”, podremos preguntar a
significado real, ya sea gracias al contexto (por SIRI para llamar a determinadas personas con las que
integración) o al uso adaptado (pragmático). queramos mantener una conversación, seleccionar y
reproducir la música que en cada momento queramos
escuchar y escribir mensajes de texto, usar mapas y
obtener direcciones, leer sus notificaciones, encontrar
información de calendario, añadir recordatorios, y
muchas más cosas. Es sólo otra forma en la que en un
futuro nos ayudará SIRI, cuando se está detrás del volante
y se necesita su ayuda.
EYES FREE
Apple está desarrollando con los fabricantes más
importantes de automóviles, la forma de SIRI en
determinados sistemas de control de voz. Mediante un
botón de comando de voz en el volante, será posible
hacerle preguntas a SIRI al accionarlo sin la necesidad de Figura 12. Smart Dock de Apple
7. CONCLUSIONES sistemas de seguridad en el hogar y fuera de él, la ya
Pese al gran desarrollo tecnológico del que disponemos, citada anteriormente traducción simultánea, etc. Campos
vemos como la evolución del procesamiento del lenguaje que están aún por desarrollar y que sin duda cambiaran la
natural ha sido relativamente lenta, sigue siendo forma de vida de los usuarios en un corto plazo
complicado simular una conversación humana mediante
una aplicación debido a la dificultad de implementar cada 8. REFERENCIAS
nivel de la arquitectura lingüística de una forma tan [1] Tema 5, Procesamiento del lenguaje natural,
eficiente que los sesgos sean mínimos y despreciables por inteligencia en redes de comunicaciones.
el ser humano. Uno de los métodos más eficaces para DOI=[Link]
conseguirlo sería la simplificación para el usuario pero en od_resource/content/1/5.T.1%20Procesamiento%2
muchas ocasiones no se consigue. 0del%20Lenguaje%[Link]
[2] Información sobre SIRI en Wikipedia.
Hemos ido viendo la evolución del procesado del DOI= [Link]
lenguaje, viendo como inicialmente se conseguían [3] Apple (31-05-2011). «Apple iPhone 4S event: as it
sistemas artificiales, sistemas como Eliza que era el happened». Telegraph. Consultado el 05-10-2011.
primero, el cual tenía una base de datos con la que DOI=[Link]
respondía a las preguntas que se le hacía, pero la mayoría 922/[Link]
de las ocasiones, al no tener la referencia del usuario [4] A Personal Assistant on Your iPhone
almacenada en la base de datos, te hacia una pregunta DOI=[Link]
con lo que le habías indicado. De este asistente se pasó a personal-assistant-on-your-iphone/
ALICE, el cual mejoraba notablemente la inteligencia con [5] Martínez, Javier (17-09-2012). «Siri en español. Guía
respecto a su antecesor. De ahí surgió Cleverbot, que de instrucciones y funcionalidades.» (en español).
almacenaba las preguntas y las contestaciones que se le [Link]. Consultado el 01-11-2012.
iba dando a cada usuario para formar su base de DOI=[Link]
conocimiento. Fue el primer sistema artificial en pasar el espanol-guia-de-instrucciones-y-funcionalidades/
test de Turing, por lo que se puede considerar que fue el [6] Análisis de ELIZA
primer sistema capaz de hacerse pasar por un humano. DOI= [Link]
Después de los sistemas con inteligencia artificial [7] Información sobre ALICE de la Wikipedia
iniciales, se dieron paso a los asistentes que paginas DOI= [Link]
punto-com como el asistente de IKEA, que únicamente [8] Información sobre Cleverbot en Wikipedia
responde preguntas sobre sus productos, el Negobot que DOI= [Link]
fue diseñado, como un sistema inteligente para no ser [9] Apple compra Cue para robustecer a Siri
detectado por parte de los pedófilos que buscan a DOI= [Link]
menores de edad por internet y por último la aplicación cue-para-darle-robustecer-a-siri/
SIRI, del cual hemos visto que tiene es un sistema muy [10] Página web de Artificial Solutions
completo el cual se ha desarrollado y se ha apoyado en DOI=[Link]
otras empresas de las cuales obtiene algún tipo de language-interaction-solutions/online-virtual-
servicio en sus peticiones. assistants/
[11] Un programa informático para caza a pedófilos en
Por último, hacer referencia a que se sigue estudiando en los chats y redes sociales
otros campos en los que la aplicación SIRI puede tener DOI=[Link]
una gran funcionalidad como es en la domótica de las ia-programa-informatico-dar-caza-pedofilos-chats-
casas y en la ayuda a los conductores. Quedan aún [Link]
muchos puntos que mejorar, no tanto en el [12] Página de DeustoTech
reconocimiento de voz si no en el procesamiento del DOI=[Link]
contenido de las conversaciones. Es necesario trabajar en eria/es/practicas-en-empresa-1/investigacion
sistemas que sean capaces de desarrollar respuestas [13] Página oficial de Apple
complejas a necesidades o preguntas más elaboradas, DOI= [Link]
mantener conversaciones coherentes y contextualizadas. [14] Apple Siri ‘Smart Dock’ could revolutionise the home
DOI=[Link]
Por otro lado son muchos los campos de aplicación de 1059/Apple-Siri-smart-dock-could-revolutionise-
estos sistemas aún sin explotar, como puede ser en el [Link]
ámbito didáctico, permitiendo la realización de [15] Documento Inteligencia artificial
exámenes, o como métodos de apoyo en personas con DOI=[Link]
problemas de aprendizaje. Así mismo pueden adaptarse df