0% encontró este documento útil (0 votos)
40 vistas41 páginas

Introducción a la Telefonía IP

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
40 vistas41 páginas

Introducción a la Telefonía IP

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

VoIP

M. en C. Miriam Cuevas León


INTRODUCCIÓN A LA TELEFONÍA IP
En los últimos años, se ha produjo un aumento de la demanda de comunicación de voz y datos en
el mundo, generando un tráfico que la infraestructura de red de conmutación de circuitos existente
(PSTN, Public Switched Telephone Network) no estaba preparada para llevar. Esto generó la
creciente tendencia de las compañías de telecomunicaciones a integrar las redes de datos y voz en
una misma arquitectura.

La convergencia de estas redes se agrupa bajo el


concepto de redes de próxima generación, NGN
(Next Generation Networking).

El éxito de estas redes reside en la posibilidad de


integrar tecnologías multimedia y la capacidad de
soportar un gran volumen de datos, generando
nuevos servicios y beneficios para los usuarios, sin
olvidar el abaratamiento del uso de redes IP frente a
las redes de conmutación de circuitos.

El servicio de voz sobre este tipo de redes se llama


VoIP (Voice over Internet Protocol) y permite el uso
de redes de datos para realizar llamadas de voz.
2
INTRODUCCIÓN A LA TELEFONÍA IP
La tecnología VoIP permite encapsular la voz en paquetes para ser transportados sobre redes IP sin
necesidad de disponer de circuitos conmutados como en el caso de la telefonía tradicional.

La red convencional de telefonía se basa en la conmutación de circuitos, estableciendo circuitos


físicos durante todo el tiempo que se mantenga la conversación. Esto implica la reserva de recursos
hasta que la comunicación finalice, y no pueden ser utilizados por otras comunicaciones.

Por otro lado, la telefonía IP no utiliza circuitos físicos, sino que envía múltiples conversaciones a
través del mismo canal (circuito virtual) mediante codificación en paquetes y flujos independientes.

Desde que las primeras comunicaciones de voz aparecieron en 1995, gracias a las tecnologías
desarrolladas por la empresa VocalTec, aparecieron distintos niveles de desarrollo hacia la
convergencia de redes tales como voz en Internet, VoIP, telefonía IP, fax sobre IP…, entre otros.

La Voz sobre IP (VoIP, Voice over IP) es una tecnología que permite la transmisión de la voz a
través de redes IP en forma de paquetes de datos.

La Telefonía IP es una aplicación inmediata de esta tecnología, de forma que permita la realización
de llamadas telefónicas ordinarias sobre redes IP u otras redes de paquetes.
3
INTRODUCCIÓN A LA TELEFONÍA IP
Las redes IP parecen a priori la solución más rápida y factible para alcanzar la convergencia de
redes debido sobre todo a la gran cobertura actual y a su aceptación por parte de los usuarios.

La integración de la voz en redes IP mediante tecnología VoIP aporta múltiples ventajas:

✓ Ahorros de costos: llevando el tráfico de voz sobre redes IP, las compañías pueden reducir o
eliminar los cargos asociados con el transporte de llamadas sobre la red telefónica pública
conmutada (PSTN). El costo de transmisión de llamadas por IP podría ser de hasta la cuarta
parte de las llamadas por la red telefónica pública conmutada y los gastos de mantenimiento
podrían reducirse en 50 ó 60 % porque las llamadas VoIP sólo utilizan 10 % del ancho de banda
necesaria para una llamada por la red pública.

✓ Ahorro de Ancho de Banda en las comunicaciones: El uso de códecs perceptuales permite


reducir drásticamente el ancho de banda, lo que se traduce en un rendimiento
considerablemente mayor de los medios de transmisión con el consiguiente ahorro.

La voz sobre IP enfrenta problemáticas propias de las redes de datos, que se manifiestan como
degradaciones en la calidad del servicio percibida por los usuarios (QoS).

4
INTRODUCCIÓN A LA TELEFONÍA IP
Para realizar una transmisión de voz, es necesario que todos los paquetes lleguen ordenados, que
se garantice una mínima tasa de transmisión y sobre todo que no haya pérdidas de paquetes.

Cada paquete contiene aproximadamente unos 20 milisegundos de señal vocal (depende del
códec empleado), lo que equivale a medio fonema. Los principales problemas que se deben
solventar para conseguirlo son:

✓ Ancho de banda: el ancho de banda o capacidad de transmisión necesaria para la transmisión de la


señal de voz es función del algoritmo de codificación y compresión del códec utilizado. Como
cualquier red, una red de conmutación de paquetes se va a caracterizar por un cierto ancho de banda
disponible, que debe repartirse entre todas las aplicaciones de la red. La técnica empleada para
gestionar la asignación de ancho de banda será determinante en el retardo que sufrirán los paquetes,
y por tanto, en la calidad de la señal de voz.

✓ Latencia o retardo: al ser un servicio en tiempo real


es necesario diferenciar entre los paquetes de voz y de
datos, priorizando la transmisión para evitar que supere
un cierto umbral de retardo. La latencia es la suma de
retardos temporales dentro de una red. Un retardo es
producido por la demora en la propagación y
5 transmisión de paquetes.
INTRODUCCIÓN A LA TELEFONÍA IP
✓ Otros factores que influyen en la latencia de una red son el tamaño de los paquetes transmitidos
o el tamaño de los buffers dentro de los equipos. Para tráfico de tiempo real como la voz, la
retransmisión de tramas perdidas en la capa de transporte no es práctica por ocasionar retardos
adicionales. Se considera aceptable un retardo por debajo de los 150 ms e impracticable por
encima de los 300ms.

✓ Jitter: puede definirse como variabilidad, respecto a la media, del retardo que sufren los
paquetes en su viaje de la fuente al destino, y llega a ser más perjudicial que el propio retardo.
Si un paquete se retarda más de lo debido, no llegará a tiempo al receptor, por lo que se dará
por perdido y se actuará en consecuencia. La principal causa de jitter son las variaciones del
retardo de encolado debido a los cambios dinámicos que sufre la carga de tráfico de la red.
También influyen las diferencias en el retardo de propagación.

6
INTRODUCCIÓN A LA TELEFONÍA IP
✓ Eco: Es consecuencia de las reflexiones que sufre la señal en el otro extremo. Cuando el
retardo del eco supera un cierto umbral (establecido por la ITU en 5 milisegundos), el hablante
comienza a escuchar una versión retardada de sus propias palabras. Si dicho retardo alcanzara
niveles muy elevados, mantener una conversación podría llegar a ser imposible.

Para tratar de minimizar las degradaciones producidas por los factores expuestos y lograr la
calidad de servicio especificada un cada momento, se han desarrollado un conjunto de
mecanismos cuyo uso mejora significativamente la calidad obtenida. Estas soluciones son:

7
INTRODUCCIÓN A LA TELEFONÍA IP

✓ Cálculo del ancho de banda necesario: Uno de los procesos críticos en el diseño de una red
integrada es el cálculo del ancho de banda necesario. La mejor forma de obtenerlo es emplear
para el análisis las aplicaciones de datos y vídeos más restrictivas, esto es, las que más ancho de
banda requieran y sumarlas al ancho de banda requerido para el transporte de voz.

✓ Priorizar el tráfico: Es el propio operador de red (ya sea pública o privada) quién va a
determinar si la clasificación se va a llevar a cabo analizando las características del tráfico de cada
paquete en base a una sesión, es decir, en función de lo que se establezca en la fase de
negociación de parámetros extremo a extremo que tiene lugar antes de la transmisión. En cuanto
a la política de clasificación, existen criterios muy variados: tipo de tráfico contenido en el
paquete, dirección IP, puerto, etc.

8
INTRODUCCIÓN A LA TELEFONÍA IP
Según los criterios de QoS, los servicios multimedia se han clasificado como:

➢ Conversacional.- es para aplicaciones como el habla. Es la más sensible al retraso de las cuatro
clases. Un ejemplo típico de esta clase es la video telefonía, voz sobre IP (VoIP). En esta clase, el
retraso se basa en la percepción humana de la aplicación, por lo tanto, tiene requisitos estrictos
para la QoS.

➢ Streaming.- se refiere al flujo de tráfico, que es constante y continuo. Es de tipo servidor a usuario.
El ejemplo más común en esta clase es Internet. Hay dos componentes de esta clase: mensajería y
recuperación. Un ejemplo típico es la descarga de videos.
➢ Interactivo.- La navegación web es un ejemplo típico de la
clase interactiva. En este caso, el usuario solicita datos de
una entidad remota. Un usuario podrá acceder a información
como horarios de autobuses y trenes, horarios de vuelos,
restaurantes y cualquier información local que pueda ser útil.

➢ Background.- Los mensajes cortos, transferencias de


archivos, etc. entran en la clase de Background. Casi todo el
tráfico que no cae en las tres primeras categorías cae en
esta categoría, por ejemplo, correos electrónicos Esta clase
de servicio tiene el requisito de QoS menos estricto de las
cuatro clases.
INTRODUCCIÓN A LA TELEFONÍA IP
En una Red VoIP de vanguardia, para la transmisión de voz se pueden distinguir los siguientes
elementos:

Infraestructura IP: transporte tanto para la señalización de las llamadas como para la voz.
Esta Red debe seguir unas condiciones de diseño específicas que permitan el transporte de la voz
con la calidad adecuada.

10
INTRODUCCIÓN A LA TELEFONÍA IP
Equipo de Cliente o Gateway Residencial: encargado de originar o recibir las llamadas del
cliente. Estos pueden ser equipos que se integran directamente en la red VoIP (teléfonos
H.323,...) o gateways de cliente que proporcionan una interfaz hacia la red y una o más
interfaces tradicionales de voz hacia el cliente (POTS, RDSI,...).

Modalidades de Voz/IP
➢ De PC a PC
➢ De PC a la red pública conmutada
➢ De teléfono a PC
➢ Teléfono IP
➢ Teléfono Wi-Fi
➢ De teléfono a teléfono

Gateway de Red: permite la comunicación entre la red VoIP y las Redes tradicionales de
Conmutación de Circuitos (PSTN). Estos elementos se encargan de convertir las llamadas VoIP
con voz en paquetes a llamadas de conmutación de circuitos. Por lo general la comunicación con
la red tradicional se basará en el protocolo SS7.

11
INTRODUCCIÓN A LA TELEFONÍA IP
SoftSwitch: elemento central de la red. Realiza la misma función de control de red que el nodo
de conmutación de una red de voz tradicional. Sus principales funciones son el enrutamiento de
las llamadas y proporcionar servicios suplementarios. El SoftSwitch se encarga de recibir la
señalización de las llamadas y de enrutarlas hacia su destino.

12
INTRODUCCIÓN A LA TELEFONÍA IP
Voz sobre IP es una tecnología que permite realizar una conversación oral haciendo uso de la red
de conmutación de paquetes mediante el empleo del protocolo IP y conjugándolo con el protocolo
RTP (Real Time Transport Protocol), el cual permite ejecutar aplicaciones en tiempo real.

Los pasos básicos para la generación de una llamada telefónica a través de Internet consisten en la
conversión de la voz analógica a un formato digital y la compresión y empaquetamiento de la señal
obtenida para su transmisión. En el extremo opuesto se realiza el proceso inverso para recuperar la
señal vocal.

En cuanto a los dispositivos necesarios para llevar a cabo este proceso pueden ser tanto un
ordenador, un teléfono VoIP como un teléfono tradicional con o sin adaptador, dependiendo del tipo
de servicio deseado.

El uso de la telefonía sobre IP aumenta la productividad y genera costos operacionales más bajos,
debido a que es necesaria una única red para la transmisión de voz y datos. De acuerdo con Cisco
el gasto de videoconferencias se reduce en un 30% con respecto a la telefonía tradicional.

Como ventaja se tiene la capacidad de usar protocolos de encaminamientos dinámicos, que


permiten que los paquetes converjan hacia la mejor ruta.

13
INTRODUCCIÓN A LA TELEFONÍA IP
Los estándares establecidos para VoIP se centran en tres pilares básicamente:
• Los códecs de audio
• Los protocolos de transporte
• Los servicios de directorio.

En el año 1996, la ITU definió la especificación H.323, la cual se basaba en el uso de RTP/RTCP
(RTP Control Protocol), que determinaba cómo el tráfico de voz, datos y video debe ser
transportado sobre una red local basada en IP. Dentro del conjunto de recomendaciones que
compone H.323, se halla el estándar G.729 para códec de audio.

Más adelante se llega al acuerdo de sacrificar parte de la calidad del sonido en beneficio del
ancho de banda usado. Tal es así que se implanta G.723, el cual requiere 6.3 kbps frente a los
8 kbps necesarios anteriormente.

En cuanto a RTP, es un protocolo que permite sincronizar diferentes flujos de datos


pertenecientes a aplicaciones en tiempo real. Sin embargo, no incluye mecanismos para
entregar los paquetes a tiempo, para recuperar paquetes perdidos o para asegurar la calidad de
servicio (QoS).

14
CÓDECS
Los códecs son algoritmos matemáticos implementados en software que realizan el proceso de
convertir ondas analógicas en información digital mediante un COdificador-DECodificador.

Los códecs o codificadores de audio además de digitalizar, comprimen y codifican la señal de


audio analógica para que pueda ser transmitida por la red.

Después de que la voz digitalizada haya alcanzado su destino, debe decodificarse a su formato
analógico original para que la persona que recibe la llamada pueda oír y entender al usuario
que la inició.

Existen diversos algoritmos de codificación dependiendo de la transmisión, la calidad de la voz,


el ancho de banda necesario y la carga computacional.
15
CÓDECS
Además de la ejecución de la conversión de analógico a digital, el códec comprime la secuencia
de datos, y proporciona la cancelación del eco.

El sistema auditivo del ser humano es capaz de captar las frecuencias comprendidas entre los
20Hz y 20KHz y la mayoría de códecs procesan la información dentro de la banda de 300 Hz-3.4
KHz (banda de voz) para que, al reconstruir la señal, ésta siga siendo legible.

A grandes rasgos, tras filtrar la voz ésta se muestrea y es el códec el que se encarga de analizar
dichas muestras y generar las tramas.

El hecho de que la voz sea intermitente permite un ahorro en el ancho de banda a consumir,
utilizando detectores de actividad vocal (VAD), que determinan cuando el hablante está en
silencio y esas muestras no se codifican, y se insertan en el lugar correspondiente tramas de
descripción de silencio (SID) para que en el receptor se interprete correctamente la conversación.

Una vez las tramas se han generado, se les añade la cabecera de transporte adecuada. Estas
cabeceras son compartidas por un número de tramas de códec, puesto que el número de octetos
de la cabecera es muy grande comparado con el de una trama de códec. El número de tramas
que comparten cabecera está limitado tanto por el retardo (el eco) como por la temporización
(marca de tiempo).
16
CÓDECS
Los códecs pueden ser clasificados en base a distintos factores que los caracterizan, como
pueden ser su tasa de bits, la calidad del audio codificado, su complejidad, el tipo de tecnología
que usan o el retardo que introducen.

Originariamente, los códecs fueron diseñados para ser usados en el rango de frecuencias donde
se concentra la mayor parte de energía, entre los 300 Hz y los 3,4 KHz. Estos códecs se
conocen como de banda estrecha (NB, NarrowBand).

Con posterioridad, se han incluido códecs capaces de trabajar en rangos más amplios, entre
50Hz y 7KHz, considerados de banda ancha (WB, WideBand).

Actualmente, la ITU-T ha estandarizado códecs de banda “superancha” (SWB, SuperWideBand)


para el rango comprendido entre 50 Hz y 14 KHz y de banda completa (FB, FullBand) para el
intervalo de frecuencias de 50 Hz a 20 KHz.

Los códecs de banda completa presentan una nueva experiencia en la transmisión del audio
que no sólo busca proporcionar una alta calidad en la voz humana, sino que pretende captar el
sonido ambiental. Los dos más recientes son las extensiones de G.711.1 y G.722.

17
CÓDECS

La recomendación G.711 se refiere el códec básico


en telefonía estandarizado por la ITU-T. Conocido
formalmente como Pulse Code Modulation (PCM).

G.711 es un estándar para la representación de


señales de audio en la banda de frecuencias conocida
como banda estrecha a partir de una señal
muestreada a una tasa de 8000 muestras por
segundo. Teniendo en cuenta que en la cuantificación
logarítmica no uniforme se utilizan 8 bits para
representar cada muestra, se obtiene una tasa de bit
de 64 Kbps.

18
CÓDECS

El códec G.729 es un estándar de


codificación de señales vocales
desarrollado por la ITU-T. Está
caracterizado por generar una tasa
de bit de 8 kbit/s utilizando el
algoritmo CS-ACELP (Conjugate-
Structure Algebraic-Code-Excited
Linear-Prediction).

G.729 es comúnmente utilizado en


aplicaciones de VoIP debido que
presenta unos requerimientos de
ancho de banda considerablemente
inferiores a otros códecs
pertenecientes a la misma familia.
Este estándar opera a una tasa de
bit de 8 Kbps y genera tramas de
10 ms.

19 Códecs de banda angosta


CÓDECS

Códecs de banda ancha

20
CÓDECS

Códecs de banda súper ancha

Códec de banda completa


21
CÓDECS

22
CÓDECS
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
El objetivo de los protocolos usados para llevar las señales de voz sobre la red IP es dividir en
paquetes los flujos de audio para transportarlos sobre redes basadas en IP. Los protocolos de las
redes IP no fueron diseñados originalmente para el transporte en tiempo real de audio o cualquier
otro tipo de flujo de audio/video, por lo que se han creado diversos protocolos cuyo mecanismo de
conexión incluye una serie de transacciones de señalización entre terminales, que establecen flujos
de audio para cada dirección de la conversación. En los siguientes apartados se describen los más
utilizados.

24
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
SIP (Session Initiation Protocol)

Es un protocolo desarrollado por el IETF (Internet Engineering Task Force) como el estándar RFC 3261, para la
iniciación, moderación y finalización de sesiones multimedia entre dos pares (unicast) o multipares (multicast).
SIP ofrece flexibilidad para controlar sesiones multimedia, como llamadas de voz y video, videoconferencia,
mensajería instantánea, juegos en línea y telefonía IP. Una sesión puede ser una simple llamada telefónica de
doble vía o una conferencia multimedia con muchos participantes.

Es un protocolo de señalización orientado a conexiones terminal a terminal (end-to-end). Esto quiere decir que
toda la lógica se encuentra almacenada en los dispositivos terminales (salvo el enrutamiento de mensajes SIP).
La ventaja es la estabilidad que se obtiene porque los servidores no son saturados con mensajes SIP, y la
desventaja es que los encabezados son mucho mayores.

Es un protocolo de la capa de aplicaciones de la familia TCP/IP; está


relacionado estrechamente con el protocolo SDP (Session Description
Protocol) y coexiste junto con otros protocolos del mismo nivel y funciones,
como el H.323. Está basado en una arquitectura cliente-servidor similar a
HTTP y SMTP; esta similitud es natural ya que SIP fue diseñado para
incorporar la telefonía como un servicio más de Internet.
25
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
SIP no es un protocolo de propósito general; su objetivo es ayudar a establecer y finalizar la comunicación. Se
apoya en otros protocolos para lograr una llamada telefónica, o una sesión de video-conferencia o de
mensajería instantánea, etc. Los protocolos que comúnmente colaboran con SIP son: RTSP (Real-Time
Streaming Protocol) para el control de flujos y sesión, SDP para describir los flujos, RTP/RTCP para el
transporte de datos en tiempo real, y RSVP (Resource Reservation Protocol) junto a DiServ (Dierentiated
Services) para gestionar la calidad de servicio y la reserva de recursos.

Los elementos básicos de un sistema SIP son los


agentes de usuario (UA, User Agent) y los
servidores.

Estos últimos pueden ser de diferentes tipos: Proxy,


de Registro y de Redirección. La configuración más
simple para establecer una sesión SIP utiliza sólo
dos UA conectados uno a otro.

El protocolo SIP permite el establecimiento de sesiones multimedia entre dos o más usuarios mediante el
intercambio de mensajes entre las partes.

26
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP

Agentes de Usuario (UA). Son los puntos extremos del protocolo


SIP, es decir, los que emiten y procesan los mensajes del protocolo.
Un videoteléfono, un teléfono, una aplicación cliente y cualquier otro
dispositivo similar es un agente de usuario para SIP. El protocolo SIP
no se ocupa de la interfaz de estos dispositivos con el usuario final;
sólo se interesa por los mensajes que estos generan y cómo se
comportan al recibir determinados mensajes.

Servidores de Registro. SIP permite establecer la ubicación


física de un usuario determinado, esto es, en qué punto de la
red está conectado. Para ello se vale del mecanismo de
registro. Cada usuario tiene una dirección lógica que es
invariable respecto de su ubicación física; una dirección lógica
del protocolo SIP tiene la forma: usuario@dominio.
La dirección física, en cambio, es dependiente del lugar en
donde el usuario está conectado (su dirección IP).
Un Servidor de Registro es comúnmente sólo una entidad
lógica, y la mayoría de las veces se localiza junto con el
Servidor Proxy.
27
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
Servidores Proxy y de Redirección. Para encaminar un mensaje entre un agente de usuario cliente y un
agente de usuario servidor normalmente se recurre a los servidores. El Proxy se encarga de encaminar las
invitaciones de la sesión para llevarlas hasta el UA llamado. El servidor de Redirección genera una respuesta
que indica al que origina la comunicación, la dirección del destino o la de otro servidor que lo acerque al
destino; este tipo de servidor sólo escucha peticiones y retorna respuestas que contienen la localización
actual de un usuario en particular o de otro servidor.

La principal diferencia entre un servidor Proxy y un servidor


de Redirección es que el primero se queda formando parte de
la comunicación entre el UAC y el (o los) UAS, mientras que
el servidor de Redirección, una vez que indica al UAC cómo
encaminar el mensaje, ya no interviene más. Un mismo
servidor puede actuar como Redirección o como Proxy
dependiendo de la situación.

Existen dos tipos básicos de mensajes SIP: Peticiones y Respuestas. Ambos tipos emplean un formato de
mensaje genérico, que consiste en una línea inicial (Start Line) seguida de uno o más campos de
cabecera (Message Header), una línea vacía que indica el final de las cabeceras, y por último el cuerpo
28 del mensaje (Message Body), que es opcional.
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
La línea inicial contiene la versión
del protocolo, y el método y
direcciones involucradas en la
sesión

Las Peticiones se emplean para


iniciar alguna acción o para
solicitar información. Las
Respuestas se generan como
retorno de una petición,
devolviendo un código numerico
de estado.

Una transacción SIP es una


secuencia de mensajes entre dos
elementos de red. Una transacción
corresponde a una petición y
todas las respuestas a esa
petición.

29
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
Protocolos RTP/RTCP

Son los protocolos usados para transportar flujos de audio/video en Telefonía IP. RTP es utilizado para transportar
flujos en tiempo real (real-time streaming) y RTCP para monitorear la calidad del servicio, así como para transportar
información acerca de los participantes en la sesión. Sus funciones generales son:

• Identificación del tipo de carga útil transportada (códecs de audio/video).


• Verificación de la entrega de los paquetes en orden (usando marcas de tiempo) y, si resulta necesario,
reordenamiento de los bloques fuera de orden.
• Transporte de información de sincronización para la codificación y decodificación.
• Monitoreo de la entrega de la información.

RTP utiliza UDP para el transporte de la información y


aprovecha la suma de verificación (checksum) del mismo
para verificar la integridad de los datos. RTCP también
utiliza UDP para enviar paquetes de control hacia todos
los participantes de una sesión.

30
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
H.323

Forma parte del grupo de recomendaciones H.300 de la UIT-T que define el funcionamiento de sistemas y
equipos terminales para servicios audiovisuales. Particularmente, H.323 es una recomendación que agrupa
diferentes estándares para especificar un sistema de comunicaciones multimedia a través de redes de paquetes
IP.

Su primera versión fue definida en el año 1996, tiempo en el cual no había disponible ningún estándar que
permitiera establecer mecanismos de interoperabilidad entre fabricantes y desarrolladores de sistemas de VoIP;
por este motivo se convirtió en el protocolo más utilizado y de mayor aceptación en el mercado.

Actualmente sigue siendo utilizado en gran medida por los grandes operadores de VoIP, y a la par del protocolo
SIP es uno de los estándares más utilizados por los desarrolladores de soluciones IP.

La versión actual de la recomendación es la H.323 V8, que fue publicada en el 2022. Los protocolos más
relevantes involucrados en H.323 son:

H.225: Es el encargado de definir los procesos de señalización de las llamadas, así como de la gestión del
registro y las características de los usuarios del sistema.

31
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
H.245. Su labor es controlar las llamadas, definiendo los parámetros para el establecimiento,
mantenimiento y cierre de los canales lógicos utilizados.

H.450.x: Establece los servicios suplementarios de H.323, como desvío y llamada en espera.

H.235: Define los mecanismos de seguridad y autenticación para las comunicaciones multimedia.

32
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP
Es importante destacar que los protocolos anteriores se encargan de la señalización de las comunicaciones;
una vez establecido el canal H.323, se utiliza el protocolo RTP para el transporte de los paquetes
audiovisuales involucrados en la llamada.

Componentes y topología: Un sistema de VoIP basado en H.323 consta de 4 elementos fundamentales:


termínales, pasarelas (gateways), MCU (Unidades de Control Multipunto) y controladores de acceso
(gatekeepers). Estos elementos se agrupan en zonas, constituidas por diversos nodos H.323 gestionados
por un solo controlador de acceso.

Terminales: Son componentes en los que terminan las comunicaciones de voz y opcionalmente video y
datos. Es obligatorio que los terminales soporten comunicaciones con el códec G.711 y los protocolos
H.245, H.225 y RAS (Registro, Admisión y Estado). Otros protocolos y códecs son opcionales según los tipos
de servicios que se estén prestando.

Controladores de acceso: Son los nodos centrales de un sistema H.323. Se encargan de controlar las
comunicaciones y la conexión entre los terminales. Su presencia no es necesaria para la realización de
comunicaciones entre terminales de un mismo segmento, aunque sí es recomendable. Tienen las siguientes
tareas fundamentales:

33
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP

• Conversión de direcciones de terminales H.323 a direcciones IP o E.164, para que sea posible la
comunicación con terminales de otros segmentos o de una RTPC.
• Administración del ancho de banda, asignando un ancho de banda a cada conferencia entre terminales y
estableciendo comunicaciones hasta que se alcanza el ancho de banda máximo permitido, momento en el
cual empieza a rechazar las solicitudes desde los terminales.
• Control de admisión, a través del protocolo RAS, aceptando o negando solicitudes dependiendo del
terminal o pasarela que las esté realizando.

Pasarelas: Es un nodo opcional dentro de una zona H.323, encargado de garantizar la compatibilidad con otro
tipo de redes distintas a H.323, como redes SIP o RTPC. Se encarga de la conversión de los protocolos de
señalización de las llamadas y también de los formatos de audio y video entre las redes.

MCU: Es un elemento también opcional, encargado de brindar el soporte para las conferencias que constan
de tres o más terminales H.323. Está constituido por dos componentes: el MC (Controlador Multipunto), que
controla la conexión con los diferentes terminales, definiendo el códec y el ancho de banda entre otros, y el
MP (Procesador Multipunto), que lleva a cabo la multidifusión de los datos de audio y video entre los distintos
terminales.

34
PROTOCOLOS DE SEÑALIZACIÓN PARA VOZ IP

35
CALIDAD DE LA VOZ
MEDIDA DE LA CALIDAD DE LA VOZ

Método de medida Subjetivos:


✓ Se basan en conocer directamente la opinión de los usuarios
✓ Resultan en un promedio de opiniones (por ejemplo, en un valor de MOS (Mean Opinion Score)

Método de medida Objetivos:


✓ Se basan en aspectos medibles para estimar la calidad percibida por los usuarios
✓ Resultan en una predicción del MOS
✓ Se pueden clasificar en Intrusivos y No Intrusivos
ITU-T P.800

✓ Establece los métodos de evaluación


subjetiva de la calidad de voz transmitida por
sistemas de telecomunicaciones.

✓ Indica como deben realizarse las pruebas,


las escalas a utilizar, el acondicionamiento
ambiental, guías de instrucciones para los
36 participantes, etc.
CALIDAD DE LA VOZ
MÉTODOS SUBJETIVOS MÉTODOS OBJETIVOS: ITU-T P.862
La calidad de la voz se establece a través de la ✓ La recomendación ITU-T P.862 presenta un
opinión del usuario método objetivo para la evaluación de la calidad
vocal de extremo a extremo.
i. ACR: Absolute Category Rating
✓ Se califica el audio con valores entre 1 y 5, ✓ El método objetivo descrito se conoce por
siendo 5 “Excelente” y 1 “Malo” "evaluación de la calidad vocal por percepción"
✓ MOS (Mean Opinión Score) es el (PESQ, perceptual evaluation of speech quality).
promedio de los ACR medidos entre un
gran número de usuarios ✓ Se compara una señal inicial X(t) con una señal
degradada Y(t) que se obtiene como resultado de
ii. DCR: Degradation Category Rating la transmisión de X(t) a través de un sistema de
✓ Se califica entre 1 y 5, siendo 5 cuando no comunicaciones (por ejemplo, una red IP).
hay diferencias apreciables entre el audio
de referencia y el medido y 1 cuando la ✓ La salida de PESQ es una predicción de la
degradación es muy molesta calidad percibida por los sujetos en una prueba
✓ DMOS (Degradation MOS) el promedio de de escucha subjetiva que sería atribuida a Y(t).
los valores DCR medidos entre un gran
número de usuarios
37
CALIDAD DE LA VOZ

ITU-T P.862.3
Establece valores de referencia
de MOS para diferentes codecs

38
CALIDAD DE LA VOZ

Métodos objetivos: ITU-T P.563

✓ El algoritmo P.563 es aplicable para la


predicción de la calidad vocal sin una
señal de referencia independiente.

✓ En comparación con la ITU-T P.862 que


compara una señal de referencia de
elevada calidad con la señal degradada
en base a un modelo perceptual, P.563
predice la calidad de la voz de una señal
degradada sin una señal vocal de
referencia dada.

✓ El enfoque utilizado en P.563 puede


visualizarse como un experto que
escucha una llamada real con un
dispositivo de prueba.

39
CALIDAD DE LA VOZ
ITU-T P.563

Trata de detectar tres clases de degradación de la señal de voz:

i. Desnaturalización de la voz.- Análisis del tracto vocal, tratando de identificar si existe una marcada
“robotización”

ii. Análisis de ruidos adicionales intensos


✓ SNR estática (nivel básico del ruido de fondo)
✓ SNR por segmentos de voz

iii. Interrupciones, silenciamientos y recortes temporales

iv. Cada clase de distorsión utiliza una combinación lineal de varios parámetros, con lo que se genera una
calidad vocal intermedia.

v. La calidad vocal definitiva se calcula combinando los resultados de calidad vocal intermedia con
algunas características adicionales de la señal.

40
CALIDAD DE LA VOZ

MÉTODOS DE PLANIFICACIÓN DE REDES:


E-MODEL

✓ La ITU ha definido un modelo, llamado “EModel”


(ITU-T G.107), para estimar la calidad de la voz
sobre redes de paquetes, teniendo en cuenta
factores medibles de la red

✓ El resultado del “E-Model” es un valor escalar


llamado R, que puede ser directamente
relacionado con el MOS (ITU-T P.800)

✓ Inicialmente el modelo aplicaba a comunicaciones


de “banda angosta”. En 2009 fue extendido a
comunicaciones de banda ancha. Las expectativas
de los usuarios, y las calificaciones de calidad del
audio, son diferentes en comunicaciones de banda
ancha respecto de las comunicaciones de banda
angosta.

También podría gustarte