Introducción a la Telefonía IP
Introducción a la Telefonía IP
Por otro lado, la telefonía IP no utiliza circuitos físicos, sino que envía múltiples conversaciones a
través del mismo canal (circuito virtual) mediante codificación en paquetes y flujos independientes.
Desde que las primeras comunicaciones de voz aparecieron en 1995, gracias a las tecnologías
desarrolladas por la empresa VocalTec, aparecieron distintos niveles de desarrollo hacia la
convergencia de redes tales como voz en Internet, VoIP, telefonía IP, fax sobre IP…, entre otros.
La Voz sobre IP (VoIP, Voice over IP) es una tecnología que permite la transmisión de la voz a
través de redes IP en forma de paquetes de datos.
La Telefonía IP es una aplicación inmediata de esta tecnología, de forma que permita la realización
de llamadas telefónicas ordinarias sobre redes IP u otras redes de paquetes.
3
INTRODUCCIÓN A LA TELEFONÍA IP
Las redes IP parecen a priori la solución más rápida y factible para alcanzar la convergencia de
redes debido sobre todo a la gran cobertura actual y a su aceptación por parte de los usuarios.
✓ Ahorros de costos: llevando el tráfico de voz sobre redes IP, las compañías pueden reducir o
eliminar los cargos asociados con el transporte de llamadas sobre la red telefónica pública
conmutada (PSTN). El costo de transmisión de llamadas por IP podría ser de hasta la cuarta
parte de las llamadas por la red telefónica pública conmutada y los gastos de mantenimiento
podrían reducirse en 50 ó 60 % porque las llamadas VoIP sólo utilizan 10 % del ancho de banda
necesaria para una llamada por la red pública.
La voz sobre IP enfrenta problemáticas propias de las redes de datos, que se manifiestan como
degradaciones en la calidad del servicio percibida por los usuarios (QoS).
4
INTRODUCCIÓN A LA TELEFONÍA IP
Para realizar una transmisión de voz, es necesario que todos los paquetes lleguen ordenados, que
se garantice una mínima tasa de transmisión y sobre todo que no haya pérdidas de paquetes.
Cada paquete contiene aproximadamente unos 20 milisegundos de señal vocal (depende del
códec empleado), lo que equivale a medio fonema. Los principales problemas que se deben
solventar para conseguirlo son:
✓ Jitter: puede definirse como variabilidad, respecto a la media, del retardo que sufren los
paquetes en su viaje de la fuente al destino, y llega a ser más perjudicial que el propio retardo.
Si un paquete se retarda más de lo debido, no llegará a tiempo al receptor, por lo que se dará
por perdido y se actuará en consecuencia. La principal causa de jitter son las variaciones del
retardo de encolado debido a los cambios dinámicos que sufre la carga de tráfico de la red.
También influyen las diferencias en el retardo de propagación.
6
INTRODUCCIÓN A LA TELEFONÍA IP
✓ Eco: Es consecuencia de las reflexiones que sufre la señal en el otro extremo. Cuando el
retardo del eco supera un cierto umbral (establecido por la ITU en 5 milisegundos), el hablante
comienza a escuchar una versión retardada de sus propias palabras. Si dicho retardo alcanzara
niveles muy elevados, mantener una conversación podría llegar a ser imposible.
Para tratar de minimizar las degradaciones producidas por los factores expuestos y lograr la
calidad de servicio especificada un cada momento, se han desarrollado un conjunto de
mecanismos cuyo uso mejora significativamente la calidad obtenida. Estas soluciones son:
7
INTRODUCCIÓN A LA TELEFONÍA IP
✓ Cálculo del ancho de banda necesario: Uno de los procesos críticos en el diseño de una red
integrada es el cálculo del ancho de banda necesario. La mejor forma de obtenerlo es emplear
para el análisis las aplicaciones de datos y vídeos más restrictivas, esto es, las que más ancho de
banda requieran y sumarlas al ancho de banda requerido para el transporte de voz.
✓ Priorizar el tráfico: Es el propio operador de red (ya sea pública o privada) quién va a
determinar si la clasificación se va a llevar a cabo analizando las características del tráfico de cada
paquete en base a una sesión, es decir, en función de lo que se establezca en la fase de
negociación de parámetros extremo a extremo que tiene lugar antes de la transmisión. En cuanto
a la política de clasificación, existen criterios muy variados: tipo de tráfico contenido en el
paquete, dirección IP, puerto, etc.
8
INTRODUCCIÓN A LA TELEFONÍA IP
Según los criterios de QoS, los servicios multimedia se han clasificado como:
➢ Conversacional.- es para aplicaciones como el habla. Es la más sensible al retraso de las cuatro
clases. Un ejemplo típico de esta clase es la video telefonía, voz sobre IP (VoIP). En esta clase, el
retraso se basa en la percepción humana de la aplicación, por lo tanto, tiene requisitos estrictos
para la QoS.
➢ Streaming.- se refiere al flujo de tráfico, que es constante y continuo. Es de tipo servidor a usuario.
El ejemplo más común en esta clase es Internet. Hay dos componentes de esta clase: mensajería y
recuperación. Un ejemplo típico es la descarga de videos.
➢ Interactivo.- La navegación web es un ejemplo típico de la
clase interactiva. En este caso, el usuario solicita datos de
una entidad remota. Un usuario podrá acceder a información
como horarios de autobuses y trenes, horarios de vuelos,
restaurantes y cualquier información local que pueda ser útil.
Infraestructura IP: transporte tanto para la señalización de las llamadas como para la voz.
Esta Red debe seguir unas condiciones de diseño específicas que permitan el transporte de la voz
con la calidad adecuada.
10
INTRODUCCIÓN A LA TELEFONÍA IP
Equipo de Cliente o Gateway Residencial: encargado de originar o recibir las llamadas del
cliente. Estos pueden ser equipos que se integran directamente en la red VoIP (teléfonos
H.323,...) o gateways de cliente que proporcionan una interfaz hacia la red y una o más
interfaces tradicionales de voz hacia el cliente (POTS, RDSI,...).
Modalidades de Voz/IP
➢ De PC a PC
➢ De PC a la red pública conmutada
➢ De teléfono a PC
➢ Teléfono IP
➢ Teléfono Wi-Fi
➢ De teléfono a teléfono
Gateway de Red: permite la comunicación entre la red VoIP y las Redes tradicionales de
Conmutación de Circuitos (PSTN). Estos elementos se encargan de convertir las llamadas VoIP
con voz en paquetes a llamadas de conmutación de circuitos. Por lo general la comunicación con
la red tradicional se basará en el protocolo SS7.
11
INTRODUCCIÓN A LA TELEFONÍA IP
SoftSwitch: elemento central de la red. Realiza la misma función de control de red que el nodo
de conmutación de una red de voz tradicional. Sus principales funciones son el enrutamiento de
las llamadas y proporcionar servicios suplementarios. El SoftSwitch se encarga de recibir la
señalización de las llamadas y de enrutarlas hacia su destino.
12
INTRODUCCIÓN A LA TELEFONÍA IP
Voz sobre IP es una tecnología que permite realizar una conversación oral haciendo uso de la red
de conmutación de paquetes mediante el empleo del protocolo IP y conjugándolo con el protocolo
RTP (Real Time Transport Protocol), el cual permite ejecutar aplicaciones en tiempo real.
Los pasos básicos para la generación de una llamada telefónica a través de Internet consisten en la
conversión de la voz analógica a un formato digital y la compresión y empaquetamiento de la señal
obtenida para su transmisión. En el extremo opuesto se realiza el proceso inverso para recuperar la
señal vocal.
En cuanto a los dispositivos necesarios para llevar a cabo este proceso pueden ser tanto un
ordenador, un teléfono VoIP como un teléfono tradicional con o sin adaptador, dependiendo del tipo
de servicio deseado.
El uso de la telefonía sobre IP aumenta la productividad y genera costos operacionales más bajos,
debido a que es necesaria una única red para la transmisión de voz y datos. De acuerdo con Cisco
el gasto de videoconferencias se reduce en un 30% con respecto a la telefonía tradicional.
13
INTRODUCCIÓN A LA TELEFONÍA IP
Los estándares establecidos para VoIP se centran en tres pilares básicamente:
• Los códecs de audio
• Los protocolos de transporte
• Los servicios de directorio.
En el año 1996, la ITU definió la especificación H.323, la cual se basaba en el uso de RTP/RTCP
(RTP Control Protocol), que determinaba cómo el tráfico de voz, datos y video debe ser
transportado sobre una red local basada en IP. Dentro del conjunto de recomendaciones que
compone H.323, se halla el estándar G.729 para códec de audio.
Más adelante se llega al acuerdo de sacrificar parte de la calidad del sonido en beneficio del
ancho de banda usado. Tal es así que se implanta G.723, el cual requiere 6.3 kbps frente a los
8 kbps necesarios anteriormente.
14
CÓDECS
Los códecs son algoritmos matemáticos implementados en software que realizan el proceso de
convertir ondas analógicas en información digital mediante un COdificador-DECodificador.
Después de que la voz digitalizada haya alcanzado su destino, debe decodificarse a su formato
analógico original para que la persona que recibe la llamada pueda oír y entender al usuario
que la inició.
El sistema auditivo del ser humano es capaz de captar las frecuencias comprendidas entre los
20Hz y 20KHz y la mayoría de códecs procesan la información dentro de la banda de 300 Hz-3.4
KHz (banda de voz) para que, al reconstruir la señal, ésta siga siendo legible.
A grandes rasgos, tras filtrar la voz ésta se muestrea y es el códec el que se encarga de analizar
dichas muestras y generar las tramas.
El hecho de que la voz sea intermitente permite un ahorro en el ancho de banda a consumir,
utilizando detectores de actividad vocal (VAD), que determinan cuando el hablante está en
silencio y esas muestras no se codifican, y se insertan en el lugar correspondiente tramas de
descripción de silencio (SID) para que en el receptor se interprete correctamente la conversación.
Una vez las tramas se han generado, se les añade la cabecera de transporte adecuada. Estas
cabeceras son compartidas por un número de tramas de códec, puesto que el número de octetos
de la cabecera es muy grande comparado con el de una trama de códec. El número de tramas
que comparten cabecera está limitado tanto por el retardo (el eco) como por la temporización
(marca de tiempo).
16
CÓDECS
Los códecs pueden ser clasificados en base a distintos factores que los caracterizan, como
pueden ser su tasa de bits, la calidad del audio codificado, su complejidad, el tipo de tecnología
que usan o el retardo que introducen.
Originariamente, los códecs fueron diseñados para ser usados en el rango de frecuencias donde
se concentra la mayor parte de energía, entre los 300 Hz y los 3,4 KHz. Estos códecs se
conocen como de banda estrecha (NB, NarrowBand).
Con posterioridad, se han incluido códecs capaces de trabajar en rangos más amplios, entre
50Hz y 7KHz, considerados de banda ancha (WB, WideBand).
Los códecs de banda completa presentan una nueva experiencia en la transmisión del audio
que no sólo busca proporcionar una alta calidad en la voz humana, sino que pretende captar el
sonido ambiental. Los dos más recientes son las extensiones de G.711.1 y G.722.
17
CÓDECS
18
CÓDECS
20
CÓDECS
22
CÓDECS
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
El objetivo de los protocolos usados para llevar las señales de voz sobre la red IP es dividir en
paquetes los flujos de audio para transportarlos sobre redes basadas en IP. Los protocolos de las
redes IP no fueron diseñados originalmente para el transporte en tiempo real de audio o cualquier
otro tipo de flujo de audio/video, por lo que se han creado diversos protocolos cuyo mecanismo de
conexión incluye una serie de transacciones de señalización entre terminales, que establecen flujos
de audio para cada dirección de la conversación. En los siguientes apartados se describen los más
utilizados.
24
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
SIP (Session Initiation Protocol)
Es un protocolo desarrollado por el IETF (Internet Engineering Task Force) como el estándar RFC 3261, para la
iniciación, moderación y finalización de sesiones multimedia entre dos pares (unicast) o multipares (multicast).
SIP ofrece flexibilidad para controlar sesiones multimedia, como llamadas de voz y video, videoconferencia,
mensajería instantánea, juegos en línea y telefonía IP. Una sesión puede ser una simple llamada telefónica de
doble vía o una conferencia multimedia con muchos participantes.
Es un protocolo de señalización orientado a conexiones terminal a terminal (end-to-end). Esto quiere decir que
toda la lógica se encuentra almacenada en los dispositivos terminales (salvo el enrutamiento de mensajes SIP).
La ventaja es la estabilidad que se obtiene porque los servidores no son saturados con mensajes SIP, y la
desventaja es que los encabezados son mucho mayores.
El protocolo SIP permite el establecimiento de sesiones multimedia entre dos o más usuarios mediante el
intercambio de mensajes entre las partes.
26
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
Existen dos tipos básicos de mensajes SIP: Peticiones y Respuestas. Ambos tipos emplean un formato de
mensaje genérico, que consiste en una línea inicial (Start Line) seguida de uno o más campos de
cabecera (Message Header), una línea vacía que indica el final de las cabeceras, y por último el cuerpo
28 del mensaje (Message Body), que es opcional.
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
La línea inicial contiene la versión
del protocolo, y el método y
direcciones involucradas en la
sesión
29
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
Protocolos RTP/RTCP
Son los protocolos usados para transportar flujos de audio/video en Telefonía IP. RTP es utilizado para transportar
flujos en tiempo real (real-time streaming) y RTCP para monitorear la calidad del servicio, así como para transportar
información acerca de los participantes en la sesión. Sus funciones generales son:
30
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
H.323
Forma parte del grupo de recomendaciones H.300 de la UIT-T que define el funcionamiento de sistemas y
equipos terminales para servicios audiovisuales. Particularmente, H.323 es una recomendación que agrupa
diferentes estándares para especificar un sistema de comunicaciones multimedia a través de redes de paquetes
IP.
Su primera versión fue definida en el año 1996, tiempo en el cual no había disponible ningún estándar que
permitiera establecer mecanismos de interoperabilidad entre fabricantes y desarrolladores de sistemas de VoIP;
por este motivo se convirtió en el protocolo más utilizado y de mayor aceptación en el mercado.
Actualmente sigue siendo utilizado en gran medida por los grandes operadores de VoIP, y a la par del protocolo
SIP es uno de los estándares más utilizados por los desarrolladores de soluciones IP.
La versión actual de la recomendación es la H.323 V8, que fue publicada en el 2022. Los protocolos más
relevantes involucrados en H.323 son:
H.225: Es el encargado de definir los procesos de señalización de las llamadas, así como de la gestión del
registro y las características de los usuarios del sistema.
31
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
H.245. Su labor es controlar las llamadas, definiendo los parámetros para el establecimiento,
mantenimiento y cierre de los canales lógicos utilizados.
H.450.x: Establece los servicios suplementarios de H.323, como desvío y llamada en espera.
H.235: Define los mecanismos de seguridad y autenticación para las comunicaciones multimedia.
32
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
Es importante destacar que los protocolos anteriores se encargan de la señalización de las comunicaciones;
una vez establecido el canal H.323, se utiliza el protocolo RTP para el transporte de los paquetes
audiovisuales involucrados en la llamada.
Terminales: Son componentes en los que terminan las comunicaciones de voz y opcionalmente video y
datos. Es obligatorio que los terminales soporten comunicaciones con el códec G.711 y los protocolos
H.245, H.225 y RAS (Registro, Admisión y Estado). Otros protocolos y códecs son opcionales según los tipos
de servicios que se estén prestando.
Controladores de acceso: Son los nodos centrales de un sistema H.323. Se encargan de controlar las
comunicaciones y la conexión entre los terminales. Su presencia no es necesaria para la realización de
comunicaciones entre terminales de un mismo segmento, aunque sí es recomendable. Tienen las siguientes
tareas fundamentales:
33
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
• Conversión de direcciones de terminales H.323 a direcciones IP o E.164, para que sea posible la
comunicación con terminales de otros segmentos o de una RTPC.
• Administración del ancho de banda, asignando un ancho de banda a cada conferencia entre terminales y
estableciendo comunicaciones hasta que se alcanza el ancho de banda máximo permitido, momento en el
cual empieza a rechazar las solicitudes desde los terminales.
• Control de admisión, a través del protocolo RAS, aceptando o negando solicitudes dependiendo del
terminal o pasarela que las esté realizando.
Pasarelas: Es un nodo opcional dentro de una zona H.323, encargado de garantizar la compatibilidad con otro
tipo de redes distintas a H.323, como redes SIP o RTPC. Se encarga de la conversión de los protocolos de
señalización de las llamadas y también de los formatos de audio y video entre las redes.
MCU: Es un elemento también opcional, encargado de brindar el soporte para las conferencias que constan
de tres o más terminales H.323. Está constituido por dos componentes: el MC (Controlador Multipunto), que
controla la conexión con los diferentes terminales, definiendo el códec y el ancho de banda entre otros, y el
MP (Procesador Multipunto), que lleva a cabo la multidifusión de los datos de audio y video entre los distintos
terminales.
34
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
35
CALIDAD DE LA VOZ
MEDIDA DE LA CALIDAD DE LA VOZ
ITU-T P.862.3
Establece valores de referencia
de MOS para diferentes codecs
38
CALIDAD DE LA VOZ
39
CALIDAD DE LA VOZ
ITU-T P.563
i. Desnaturalización de la voz.- Análisis del tracto vocal, tratando de identificar si existe una marcada
“robotización”
iv. Cada clase de distorsión utiliza una combinación lineal de varios parámetros, con lo que se genera una
calidad vocal intermedia.
v. La calidad vocal definitiva se calcula combinando los resultados de calidad vocal intermedia con
algunas características adicionales de la señal.
40
CALIDAD DE LA VOZ