0% encontró este documento útil (0 votos)

118 vistas143 páginas

TFM Padovano

Cargado por

Fernando Prado San Martin

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

118 vistas143 páginas

TFM Padovano

Cargado por

Fernando Prado San Martin

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

012345ÿ789

4529359ÿÿ
ÿÿÿ

! "#ÿ%&'ÿ()ÿ*+,-./ÿ
^_àbacÿâbefgacÿbeÿhifegbjklmeÿ
hnàop`jqaÿilflÿrlÿseèqqjtgÿbeÿhigelÿberÿ
unevaÿegÿwexjc`facÿbeÿyreq`faqlfbjaxflol

z{|}~~ÿ{{|
~|{ÿ}ÿ
012345ÿ789:;<59=1<9>ÿ?ÿ@ABC@ÿ04;8D1ÿ?ÿE;FGHIÿJKLMNÿOAOÿ@COÿ@BBÿJKLMNÿOBPÿPBMÿ@BBÿ?ÿQ1RHIÿJKLMNÿOAOÿ@COÿ@@Oÿ
STUVWXYZVY[Y\XZY[H4DF2H;5ÿ?ÿ3>F9=;D89D1HD4]4DF2H;5
Escuela Politécnica de Cuenca, Universidad de Castilla-La Mancha

Métodos Modernos de Aprendizaje Automático

para la Detección de Apnea del Sueño en
Registros de Electrocardiograma

Autor: Daniele Padovano

Tutores: Raúl Alcaraz, Arturo Martínez-Rodrigo
Titulación: Máster Universitario en Ingeniería de Telecomunicación
Palabras clave: Apnea Obstructiva del Sueño, Variabilidad del Ritmo Cardíaco,
Aprendizaje Automático, Análisis no Lineal.

Resumen

La apnea obstructiva del sueño es un trastorno respiratorio estrechamente re-

lacionado con múltiples enfermedades cardiovasculares. Los costes asociados a la
polisomnografía, el método estándar para la detección de apnea, limitan considera-
blemente su aplicación a nivel mundial. Ante la creciente incidencia de esta enferme-
dad y la baja tasa de su diagnóstico, los métodos de detección de apnea basados en
el análisis del electrocardiograma han ganado popularidad en los últimos años, espe-
cialmente los fundamentados en técnicas de aprendizaje automático. En el presente
trabajo, se han reproducido los métodos de detección más relevantes del estado del
arte para someterlos bajo análisis, y además, se propone un modelo de aprendizaje
profundo capaz de identificar episodios de apnea a partir de una novedosa forma
de procesar la variabilidad del ritmo cardíaco. Los resultados obtenidos sugieren la
existencia de un sesgo considerable en los métodos tradicionales de aprendizaje au-
tomático, particularmente en aquellos entrenados y validados sobre una misma base
de datos por métodos de validación cruzada. Por otra parte, el modelo de aprendi-
zaje profundo propuesto no solo lleva asociado un coste computacional bajo, sino
que ha superado en rendimiento a la mayoría de trabajos anteriormente publicados,
obteniendo valores de exactitud superiores al 90 % sobre observaciones totalmente
ajenas a la base de datos de entrenamiento.

i
Escuela Politécnica de Cuenca, Universidad de Castilla-La Mancha

Modern Machine Learning Methods for the Sleep

Apnea Detection in Electrocardiogram Recordings

Author: Daniele Padovano

Supervisors: Raúl Alcaraz, Arturo Martínez-Rodrigo
Degree: Master’s Degree in Telecommunications Engineering
Keywords: Obstructive Sleep Apnea, Heart Rate Variability, Machine Learning,
Non-Linear Analysis.

Abstract

Obstructive sleep apnea is a respiratory disorder strongly related to several cardio-

vascular diseases. The associated costs with polysomnography, the standard method
for apnea detection, considerably limit its application worldwide. Given the increa-
sing incidence of this disease and its low diagnosis rate, apnea detection methods
based on electrocardiogram analysis have gained popularity in recent years, espe-
cially those based on machine learning techniques. In the present work, the most
relevant state-of-the-art detection methods have been reproduced to submit them
under analysis and, in addition, a deep learning model capable of identifying ap-
nea episodes from a novel way of processing heart rate variability is proposed. The
obtained results suggest the existence of a considerable bias in traditional machine
learning methods, particularly in those trained and validated on the same database
by cross-validation methods. On the other hand, the proposed deep learning mo-
del not only presented a low computational cost but has also outperformed most
of the previously published works, obtaining accuracy values greater than 90 % on
observations alien to the training database.

iii
A mi familia,
con cariño,
Dan.
Agradecimientos

En primer lugar, quiero mostrar mi más sincero agradecimiento a mis directores

de Trabajo Fin de Máster, Dr. Arturo Martínez Rodrigo y Dr. Raúl Alcaraz Martí-
nez, por su encomiable esfuerzo en tutorizar y revisar este documento, así como por
prestarme su valiosa guía en mi camino hacia el doctorado.
En segundo lugar, me gustaría agradecer al profesorado del Máster Universita-
rio en Ingeniería de Telecomunicación de la Escuela Politécnica de Cuenca por su
atenta y amable disposición en mi andadura como alumno durante estos dos cursos
académicos. Una vez más, espero estar a la altura de vuestras expectativas. De la
misma forma, quiero agradecer al Grupo de Investigación en Ingeniería Electrónica,
Biomédica y de Telecomunicación y al personal del Instituto de Tecnologías Au-
diovisuales de Cuenca por el apoyo prestado este último año durante mi incipiente
trayectoria profesional en el mundo de la investigación.
Finalmente, quiero dar las gracias a mis padres por su apoyo incondicional a
cada locura que emprendo, al resto de mis familiares por seguirme de cerca tanto en
mis logros como en mis fracasos, y como no, a Marta, por acompañarme y propor-
cionarme ese maravilloso impulso en cada viaje, proyecto y misión que desempeño.
Gracias a todos por depositar vuestra paciencia y confianza en mi persona una vez
más.

De corazón, gracias.

...y como de flores va la cosa,

hoy os traigo una rosa.

vii
Acrónimos

Ac Accuracy - Exactitud

ADAM Adaptative Momentum Estimation - Estimación Adaptativa de

Momento

ADA Adaptative Aggregation - Agregación Adaptativa

ADC Analog to Digital Conversion - Conversión Analógica a Digital

AHI Apnea/Hypopnea Index - Índice de Apnea/Hipopnea

ANN Artificial Neural Network - Red Neuronal Artificial

ApEn Approximate Entropy - Entropía Aproximada

AUC Area Under the Curve - Área Bajo la Curva

AV Aurículoventricular

At Exactitud Ponderada al Coste Temporal

BAG Bagging Boostrap Aggregation - Agregación de Boostrap

CNN Convolutional Neural Network - Red Neuronal Convolucional

DET Determinismo

DFT Discrete Fourier Transform - Transformada Discreta de Fourier

DispEn Dispersion Entropy - Entropía de Dispersión

DistEn Distribution Entropy - Entropía de Distribución

DIV Divergencia (Recurrencia)

DT Decision Tree - Árbol de Decisiones

ix
x Acrónimos

ECG Electrocardiograma

ECV Enfermedades Cardiovasculares

EEG Electroencefalograma

FAN Fixed Amount of Neighbours - Cantidad Fija de Vecinos

FA Fibrilación Auricular

FFT Fast Fourier Transform - Transformada Rápida de Fourier

FPR False Positive Rate - Tasa de Falsos Positivos

FuzzEn Fuzzy Entropy - Entropía Difusa

MFuzzEn Measure of Fuzzy Entropy - Medida de Entropía Difusa

HF High Frequency - Alta Frecuencia

HRV Heart Rate Variability - Variabilidad del Ritmo Cardíaco

IA Inteligencia Artificial

IIR Infinite Impulse Response - Respuesta Infinita al Impulso

IQR Interquartile Range - Rango Intercuartílico

KNN K Nearest Neighbors - Clasificador por K Vecinos más Cercanos

LDA Linear Discriminant Analysis - Análisis Discriminante Lineal

LF Low Frequency - Baja Frecuencia

LOI Line of Identity - Línea de Identidad

LSP Lomb-Scargle Periodgram - Periodograma de Lomb-Scargle

L Linea Diagonal Máxima (Recurrencia)

MLP Multi-Layer Perceptron - Perceptron Multi-Capa

MMC Maximal Margin Classifier - Clasificador de Máximo Margen

MSE Mean Squared Error - Error Cuadrático Medio

NNi NN Intervals - Intervalos RR Normales

NPSE Non-Parametric Sample Entropy - Entropía Muestral No Paramétrica

Acrónimos xi

OSA Obstructive Sleep Apnea - Apnea Obstructiva del Sueño

PRV Pulse Rate Variability - Variabilidad del Pulso Cardíaco

PSD Power Spectral Density - Densidad Espectral de Potencia

PSG Polisomnografía

QDA Quadratic Discriminant Analysis - Análisis Cuadrático Discriminante

QSE Quadratic Sample Entropy - Entropía Muestral Cuadrática

RBFK Radial Basis Function Kernel - Núcleo (kernel) de Función de Base

Radial

REC Recurrence Rate - Tasa de Recurrencia

ReLU Rectified Linear Unit - Unidad Linear Rectificada

RenEn Entropía de Rènyi

RL Regresión Logística

RMSP Root Mean Squared Propagation - Propagación de la Raíz del MSE

ROC Receiver Operating Characteristic - Característica Operativa del

Receptor

RP Recurrent Plot - Mapa de Recurrencia

RQA Requrrence Quantification Analysis - Análisis de Cuantificación de

Recurrencia

RRi RR Intervals - Intervalos RR

SAS Síndrome de la Apnea del Sueño

SA Sinoauricular

SBFS Sequential Backward Feature Selection - Selección Secuencial de

Características hacia Atrás

SD Standard Deviation - Desviación Estándar

SE Sample Entropy - Entropía Muestral

Se Sensitivity - Sensibilidad
xii Acrónimos

SFFS Sequential Forward Feature Selection - Selección Secuencial de

Características hacia Adelante

SFS Sequential Feature Selection - Selección Secuencial de Características

SGDM Stochastic Gradient Descent - Descenso Estocástico de Gradiente

SHAN Entropía de Shannon

SpO2 Saturación de Oxígeno en Sangre

Sp Especificity - Especificidad

SVC Support Vector Classifier - Clasificador de Vectores de Soporte

SVM Support Vector Machine - Máquina de Vectores de Soporte

TesEn Entropía de Tsallis

TFM Trabajo Fin de Máster

TPR True Positive Rate - Tasa de Verdaderos Positivos

TRIPOD Transparent Reporting for Individual Prognosis or Diagnosis -

Informes Transparentes para el Diagnóstico y Pronóstico Individual

VLF Very Low Frequency - Muy Baja Frecuencia

Índice

Resumen I

Abstract III

Agradecimientos VII

Acrónimos IX

I Memoria 1

1 Introducción 3
1.1 Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Estructura del documento . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Marco teórico 7
2.1 El corazón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Anatomía del corazón . . . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Sistema cardiovascular . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Electrocardiograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Actividad eléctrica del corazón . . . . . . . . . . . . . . . . . . 13
2.2.2 Disposición de electrodos . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Formas de onda del ECG . . . . . . . . . . . . . . . . . . . . . 16
2.3 Variabilidad del ritmo cardíaco . . . . . . . . . . . . . . . . . . . . . 18
2.3.1 Definición y propiedades . . . . . . . . . . . . . . . . . . . . . 18

xiii
xiv Acrónimos

3 Estado del arte 19

3.1 Investigación documental . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Trasfondo clínico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Importancia de la HRV . . . . . . . . . . . . . . . . . . . . . . 21
3.3 Métodos de detección de apnea . . . . . . . . . . . . . . . . . . . . . 22
3.3.1 Repositorios disponibles . . . . . . . . . . . . . . . . . . . . . 22
3.3.2 Detección basada en aprendizaje automático . . . . . . . . . . 24
3.3.3 Detección basada en aprendizaje profundo . . . . . . . . . . . 25
3.4 Análisis de recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4 Materiales y preprocesado
de la señal 27
4.1 Materiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.1 Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.2 Procesado del ECG . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.3 Extracción de características . . . . . . . . . . . . . . . . . . . 32
4.2 Herramientas de análisis no lineal . . . . . . . . . . . . . . . . . . . . 35
4.2.1 Análisis de entropía . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Mapas de recurrencia . . . . . . . . . . . . . . . . . . . . . . . 41

5 Métodos y herramientas de aprendizaje automático 45

5.1 Aprendizaje automático tradicional . . . . . . . . . . . . . . . . . . . 46
5.1.1 Clasificadores tradicionales . . . . . . . . . . . . . . . . . . . . 46
5.1.2 Clasificación agregada . . . . . . . . . . . . . . . . . . . . . . 52
5.1.3 Selección secuencial de características . . . . . . . . . . . . . . 54
5.2 Aprendizaje profundo . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.1 Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.2 Redes neuronales convolucionales . . . . . . . . . . . . . . . . 62
5.3 Herramientas de validación estadística . . . . . . . . . . . . . . . . . 65
5.3.1 Característica operativa del receptor . . . . . . . . . . . . . . 65
5.3.2 Validación cruzada . . . . . . . . . . . . . . . . . . . . . . . . 67
Acrónimos xv

5.3.3 Validación externa . . . . . . . . . . . . . . . . . . . . . . . . 68

5.3.4 Otras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6 Resultados 71
6.1 Aprendizaje automático tradicional . . . . . . . . . . . . . . . . . . . 72
6.2 Aprendizaje profundo . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.2.1 Resultados comparativos de rendimiento . . . . . . . . . . . . 76
6.3 Resultados específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.1 Análisis de entropía . . . . . . . . . . . . . . . . . . . . . . . . 77
6.3.2 Análisis SFS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.3.3 Análisis ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

7 Discusión 81
7.1 Amenazas subyacentes en validación cruzada . . . . . . . . . . . . . . 82
7.1.1 Modelos de aprendizaje profundo . . . . . . . . . . . . . . . . 85
7.2 El compromiso entre exactitud y coste . . . . . . . . . . . . . . . . . 87

8 Conclusiones y líneas futuras 89

Apéndices 91

A Desglose completo de resultados de aprendizaje automático tradi-

cional 91

B Desglose completo de resultados obtenidos a partir de la selección

secuencial de características (SFS) 95

Bibliografía 120
Índice de figuras

2.1 Disposición del corazón dentro de la cavidad torácica [17]. . . . . . . 9

2.2 Capas internas del corazón [18]. . . . . . . . . . . . . . . . . . . . . . 9
2.3 Estructura interna del corazón [19]. . . . . . . . . . . . . . . . . . . . 10
2.4 Esquema de la circulación pulmonar [22]. . . . . . . . . . . . . . . . . 12
2.5 Circulación sanguínea del cuerpo humano [23]. . . . . . . . . . . . . . 12
2.6 Desviaciones ocasionadas por la despolarización de las células cardíacas. 14
2.7 Disposición de electrodos para un ECG de 12 derivaciones. Nótese que
el triángulo de Einthoven se encuentra descrito como una pirámide
invertida a la izquierda, y las derivaciones precordiales, a la derecha
de la figura, se disponen de forma solidaria a la caja torácica. . . . . . 16
2.8 Forma de onda típica para una derivación de ECG. . . . . . . . . . . 17
2.9 Formas de onda de ECG para cada derivación precordial. . . . . . . . 17
2.10 Identificación de varios RRi en un ECG. . . . . . . . . . . . . . . . . 18

4.1 Sistemas de anotación de eventos, frecuencias de etiquetado y compa-

tibilización de las bases de datos utilizadas. Nótese que las anotaciones
originales se heredan de forma binaria (apnea o normal). . . . . . . . 30
4.2 Detalle de reconstrucción de la HRV. . . . . . . . . . . . . . . . . . . 31
4.3 Cálculo de la SE sobre señales aleatorias. Nótese que cuanto mayor
es el valor de la entropía, mayor es el grado de irregularidad presente
en la señal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.4 Comparación de análisis de recurrencia. . . . . . . . . . . . . . . . . . 44

5.1 Árbol de decisión (izquierda) y ejemplo ECV (derecha). . . . . . . . . 47

xvii
xviii Índice de figuras

5.2 Definición gráfica MMC. Nótese que las clasificaciones erróneas ocu-
rren tras añadir observaciones nuevas, lo cual introduce sesgo. . . . . 48
5.3 Detalle ilustrativo sobre búsqueda iterativa del SVC apropiado. . . . 49
5.4 Una SVM funcionando. Ejemplo ficticio empleando un kernel logarít-
mico para redistribuir los datos en una dimensión ulterior. . . . . . . 49
5.5 Concepto del truco del kernel. La idea es encontrar una función que
redistribuya los datos en un problema resoluble con un SVC. . . . . . 50
5.6 Descripción gráfica del algoritmo de KNN. . . . . . . . . . . . . . . . 51
5.7 Esquema de funcionamiento del algoritmo de empaquetado. . . . . . . 53
5.8 Esquema de funcionamiento de la agregación adaptativa. . . . . . . . 54
5.9 Aprendizaje automático tradicional (arriba) v.s. profundo (abajo). . . 55
5.10 Estructura fundamental de un perceptrón. . . . . . . . . . . . . . . . 56
5.11 Funciones de activación más comunes. . . . . . . . . . . . . . . . . . . 57
5.12 Ejemplo de MLP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.13 Definición gráfica de convolución bidimensional con un kernel de 3×3
píxeles con un paso de 1 unidad por iteración. . . . . . . . . . . . . . 63
5.14 Arquitectura de la CNN propuesta. . . . . . . . . . . . . . . . . . . . 64
5.15 Ejemplos de curvas ROC. . . . . . . . . . . . . . . . . . . . . . . . . 66
5.16 Definición gráfica del método de validación cruzada de 10 iteraciones.
Para cada iteración k, se escoge un bloque de validación (sombreado)
y el resto de bloques se emplean para entrenar el modelo. . . . . . . . 67
5.17 Análisis de barrido de los parámetros de At(ρ, b). . . . . . . . . . . . 70

6.1 Rendimiento temporal por variante algorítmica de entrenamiento. . . 75

6.2 Comparativas de rendimiento por parámetro y modelo. . . . . . . . . 76
6.3 Distribuciones de formas de entropía para grupos de apnea (A) y
control (N). El eje vertical corresponde a la frecuencia absoluta de
aparición mientras que el eje de las abcisas corresponde al valor de
entropía agrupado por un número de bins lo suficientemente estrechos
como para representar una curva. . . . . . . . . . . . . . . . . . . . . 77
6.4 Análisis de frecuencia absoluta por variante de SFS. . . . . . . . . . . 78
6.5 Curvas ROC por modelo y experimento (aprendizaje profundo). . . . 79
6.6 Curvas ROC (aprendizaje automático tradicional). . . . . . . . . . . . 80
Índice de Tablas

3.1 Bases de datos candidatas para el estudio. . . . . . . . . . . . . . . . 23

4.1 Distribución de observaciones por grupos y base de datos. . . . . . . . 30

4.2 Características y herramientas empleadas (28 en total). MATLAB:
funciones nativas de MATLAB o de implementación propia. . . . . . 34
4.3 Significado de patrones concretos en el RP. . . . . . . . . . . . . . . . 44

5.1 Tabla de experimentos por métodos de validación. . . . . . . . . . . . 68

6.1 Resultados para SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.2 Resultados para KNN. . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.3 Resultados para DT. . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.4 Resultados para ADA. . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.5 Resultados para BAG. . . . . . . . . . . . . . . . . . . . . . . . . . . 74
6.6 Resultados aprendizaje profundo por modelo. . . . . . . . . . . . . . 75

7.1 Estudios basados en aprendizaje automático tradicional. Los resulta-

dos son orientativos, se han escogido los clasificadores que han pre-
sentado el mejor rendimiento en cada caso. CV: validación cruzada
(cross-validation), DERE: estimación de la regla de evolución dife-
rencial, KELM: kernel de máquina de aprendizaje extremo, ENS: cla-
sificador agrupado (ensemble). . . . . . . . . . . . . . . . . . . . . . . 83

xix
xx Índice de Tablas

7.2 Estudios basados en aprendizaje profundo. H: número de capas es-

condidas (sólo contabiliza capas convolucionales, max pooling, conca-
tenación y fully connected), Par.: número de hiperparámetros involu-
crados, SMC: Samsung Medical Center EDR: respiración derivada del
ECG, SMOTE: Synthetic Minority Over-sampling Technique, PTT:
Pulse Transition Time, LSTM: Long-Short Term Memory, GRU: Ga-
ted Recurrent Unit, SPG: espectrograma, NS: no especificado. . . . . 86

A.1 Resultados completos para SVM. . . . . . . . . . . . . . . . . . . . . 92

A.2 Resultados completos para KNN. . . . . . . . . . . . . . . . . . . . . 92
A.3 Resultados completos para DT. . . . . . . . . . . . . . . . . . . . . . 93
A.4 Resultados completos para ADA. . . . . . . . . . . . . . . . . . . . . 93
A.5 Resultados completos para BAG. . . . . . . . . . . . . . . . . . . . . 94

B.1 Resultados completos de SFS - parte I. . . . . . . . . . . . . . . . . . 96

B.2 Resultados completos de SFS - parte II. . . . . . . . . . . . . . . . . 97
Parte I

Memoria

1
Capítulo 1

Introducción

Contenidos
1.1 Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Estructura del documento . . . . . . . . . . . . . . . . . . 6

Sinopsis
Este primer capítulo constituye la introducción del proyecto. En primer lugar, se
expone la motivación del tema elegido, manifestando los valores científicos, sociales y
prácticos que justifican la realización del trabajo. Esto, fundamentado en el interés
sobre la ingeniería biomédica en materia de detección de anomalías cardiorrespi-
ratorias. En segundo lugar, se exponen los objetivos propuestos, los cuales se han
desglosado en objetivos principales y objetivos secundarios. Por último, se incluye
una sección a modo de itinerario que pormenoriza los detalles de funcionamiento
sobre los mecanismos digitales que acompañan al presente documento. En concreto,
se propone una forma eficaz de visualizar el documento en su versión digital pues-
to que contiene múltiples referencias cruzadas dispuestas de forma estratégica para
facilitar su lectura.
Todo ello, con el fin de proporcionar la información indispensable al lector para
comprender los aspectos más importantes que circunscriben el objeto del presente
trabajo.

3
4 Capítulo 1. Introducción

1.1. Motivación
El síndrome de la apnea del sueño (SAS) es un trastorno caracterizado por pausas
repetitivas en la respiración durante el sueño [1]. Dentro del SAS, la apnea obstruc-
tiva (OSA, por sus siglas en inglés obstructive sleep apnea) es la más frecuente,
cuya prevalencia se sitúa en torno el 9 y el 38 % de la población mundial [2]. Los
pacientes afectados por este síndrome describen periodos de malestar prolongados,
falta de coordinación en las tareas cotidianas y una reducción notable en sus ni-
veles de atención [3]. La somnolencia diurna puede ser devastadora en la vida del
paciente, pudiendo afectar a su rendimiento académico o laboral, provocar proble-
mas familiares e incluso aumentar su grado de exposición a accidentes de tráfico [4].
En general, se estima que la mayor parte de los casos de OSA se encuentran aún
sin diagnosticar [5], provocando que algunos pacientes sean injustamente etiqueta-
dos como holgazanes, perezosos o incluso como individuos con algún tipo de tara
psicológica, como la depresión [6].
Aparte de la falta de diagnóstico, los pacientes de OSA presentan además una
alta predisposición para contraer enfermedades cardiovasculares (ECV). Las ECV
ostentan la mayor tasa de muertes a nivel global, llevándose consigo la vida de 18
millones de personas cada año, frente a las 9 millones debidas al cáncer [7]. Los
primeros estudios sobre OSA y ECV revelaron que las personas con enfermedades
coronarias presentaban una mayor incidencia en trastornos relacionados con la apnea
del sueño [8]. Más adelante, se comprobó que los estudios realizados en pacientes a
los que se les había aplicado cardioversión eléctrica [9] y ablación por catéter [10],
mostraban una fuerte relación entre fibrilación auricular (FA) y OSA.
En la actualidad, el método estándar para el diagnóstico de esta condición es la
polisomnografía (PSG), un procedimiento complejo que suele involucrar mediciones
fisiológicas de todo tipo, tales como medidas de flujo de aire, electroencefalograma,
electrocardiograma (ECG), etc. Los requerimientos técnicos de este método incre-
mentan significativamente los costes de su aplicación, limitando el alcance a nivel
global. No obstante, en los últimos años se han propuesto diversas alternativas para
paliar los costes de la PSG, métodos principalmente basados en ECG de superficie y
la extracción de la variabilidad del ritmo cardíaco (HRV, por sus siglas en inglés heart
rate variability). En este aspecto, el interés por la HRV ha crecido exponencialmente
en las últimas dos décadas, pues existen evidencias médicas que avalan su estrecha
relación con el sistema nervioso autónomo y, por consiguiente, la respiración [11].
Entre tales alternativas, la literatura científica contiene numerosos métodos ba-
sados en técnicas de aprendizaje automático y profundo, aunque ninguno de ellos ha
logrado proporcionar pruebas concluyentes sobre la adecuación de unos u otros para
su aplicación masiva en el ámbito clínico. La hipótesis de partida que suscita este
1.2. Objetivos 5

hecho contempla la falta de rigurosidad en algunos de los esquemas de validación

seguidos en tales métodos, así como el alto grado de complejidad existente en los
modelos de clasificación más avanzados. Por ello, el presente trabajo pretende dar
respuesta a la incertidumbre sobre el rendimiento real de los modelos de aprendizaje
automático (tradicional), a la vez que se propone un modelo de aprendizaje profundo
capaz de igualar o superar los estándares de rendimiento del estado del arte.

1.2. Objetivos
El trabajo persigue dos objetivos principales. El primero consiste en reproducir
los métodos más representativos del estado del arte, en materia de aprendizaje auto-
mático tradicional, para evaluar su rendimiento real bajo un esquema de validación
riguroso, reproducible y justo. El segundo objetivo consiste en diseñar un modelo
de aprendizaje profundo capaz de generalizar, con un alto grado de exactitud, el
problema de la apnea del sueño minimizando el coste computacional asociado.
En línea con lo anterior, entre los objetivos secundarios propuestos se encuentran
los siguientes puntos:

Realizar una investigación documental sobre la importancia de la detección de

la apnea del sueño y acumular los conocimientos necesarios para abordar el
problema a la altura de las exigencias del estado del arte.

Adquirir destrezas matemático-computacionales especializadas en el procesado

y análisis de señales cardiovasculares, concretamente sobre el ECG y la HRV,
para reproducir los métodos ya existentes y proponer uno propio con carácter
innovador. La adquisición de tales destrezas requerirán la familiarización con
los métodos de aprendizaje automático modernos.

Cotejar los resultados obtenidos para dar respuesta a la hipótesis de partida

sobre el rendimiento de los modelos de clasificación tradicionales y compararlos
con el método de aprendizaje profundo propuesto.

Realizar un análisis cualitativo en retrospectiva con los métodos ya publicados

en comparación a los analizados en este trabajo.

Generar información de valor y utilidad clínica para mejorar la detección de

apnea del sueño en los métodos ya existentes, así como entregar las pautas
necesarias para una evaluación rigurosa de los futuros modelos propuestos.
6 Capítulo 1. Introducción

1.3. Estructura del documento

El presente documento se ha estructurado siguiendo la normativa para el Trabajo
Final de Máster de la Universidad de Castilla-La Mancha, para el Máster Univer-
sitario en Ingeniería de Telecomunicación de la Escuela Politécnica de Cuenca [12].
La memoria está constituida por los siguientes capítulos:

Capítulo 1. Introducción: se expone la motivación del proyecto y los obje-

tivos propuestos.

Capítulo 2. Marco teórico: describe la anatomía y fisiología del corazón

y una breve descripción del sistema cardiovascular. Asimismo, se realiza una
revisión histórica del ECG.

Capítulo 3. Estado del arte: expone la información adquirida de la inves-

tigación documental de forma concisa y objetiva. Incluye una breve revisión
sobre la detección de apnea para conformar una visión general del tema, así
como una descripción de los métodos más relevantes en este ámbito.

Capítulo 4. Materiales y preprocesado de la señal: describe las bases

de datos y las principales herramientas de análisis no lineal empleadas.

Capítulo 5. Métodos y herramientas de aprendizaje automático: re-

coge todo lo relativo a las técnicas de clasificación tradicionales y modernas,
desde modelos matemáticos simples hasta redes neuronales convolucionales.

Capítulo 6. Resultados: presenta los resultados obtenidos, fruto del análisis

realizado y de las herramientas de clasificación descritas en el capítulo anterior.

Capítulo 7. Discusión: se discuten los resultados obtenidos. En este capítulo,

se realiza un cuidadoso análisis comparativo con respecto a trabajos anteriores
de forma cualitativa y cuantitativa. También se incluye una reflexión objetiva
sobre la eficacia del sistema propuesto en la práctica clínica, así como su valor
para con la comunidad científica y la sociedad.

Cpaítulo 8. Conclusiones y líneas futuras: en este capítulo se declaran

las principales contribuciones del trabajo, así como las líneas futuras.

Por último, se facilitan los apéndices y la bibliografía consultada. En este aspecto,

es preciso indicar que las figuras que no incluyen referencia son de elaboración propia.
Capítulo 2

Marco teórico

Contenidos
2.1 El corazón . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1.1 Anatomía del corazón . . . . . . . . . . . . . . . . . . . . 8
2.1.2 Sistema cardiovascular . . . . . . . . . . . . . . . . . . . . 11
2.2 Electrocardiograma . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Actividad eléctrica del corazón . . . . . . . . . . . . . . . 13
2.2.2 Disposición de electrodos . . . . . . . . . . . . . . . . . . 14
2.2.3 Formas de onda del ECG . . . . . . . . . . . . . . . . . . 16
2.3 Variabilidad del ritmo cardíaco . . . . . . . . . . . . . . . 18
2.3.1 Definición y propiedades . . . . . . . . . . . . . . . . . . . 18

Sinopsis
En este capítulo, se ofrece una revisión de la anatomía y fisiología del corazón
humano. Primero, se describe un itinerario histórico del ECG y se describen las
fromas de onda más relevantes de su adquisición. Después, se evalúa la relevancia de
la HRV y los potenciales sustitutos de ésta a través del estudio de sus propiedades
más importantes.

7
8 Capítulo 2. Marco teórico

2.1. El corazón
Históricamente, el corazón ha sido el principal foco de atracción de varias dis-
ciplinas como el arte, la filosofía, la física y la cirugía. Andreas Vesalius en el siglo
XVI reconoció por primera vez la importancia de la anatomía general en la medici-
na, siendo el corazón el órgano más estudiado desde la época [13]. A pesar de que
el corazón es considerado uno de los órganos más eficientes del cuerpo humano, las
ECV representan la causa principal de morbilidad y mortalidad de todos los tiem-
pos, independientemente de la etnia o el desarrollo de cualquier país [14]. Por ello,
para entender las dinámicas subyacentes que podrían explicar el funcionamiento del
corazón, es necesario conocer primero su anatomía y electrofisiología [15].

2.1.1. Anatomía del corazón

El corazón se encuentra ubicado en el pecho, directamente sobre el diafragma,
en la región del tórax denominada mediastino. La punta del corazón (apex) apunta
hacia adelante, abajo y la parte izquierda del cuerpo [15]. En la Figura 2.1 ilustra
la ubicación relativa del corazón dentro de la caja torácica.
El tejido superficial del corazón se compone de tres capas principales: el epicar-
dio, el miocardio y el endocardio. Por un lado, el epicardio está formado por un
conjunto de capas que segregan un fluido rico en proteínas que llena el espacio en-
tre las capas visceral y parietal. Este saco repleto de líquido se conoce como serus
pericardium y se encarga de gestionar la fricción producida entre latidos. La capa
más externa del corazón se conoce como fibrus pericardium, el cual está compuesto
de un tejido conectivo que mantiene el órgano en su lugar y evita el exceso de san-
gre en su interior. Por otro lado, el miocardio constituye la capa más gruesa de la
superficie del corazón. Esta capa está compuesta de células cardíacas sostenidas por
un tejido conectivo de colágeno, denominado esqueleto cardíaco fibroso. Dado que
estas células requieren una gran cantidad de energía, existen unos vasos sanguíneos
(vasos coronarios) dedicados específicamente a entregar sangre al miocardio. Por úl-
timo, la capa más profunda se denomina endocardio y está formada por unas células
características que forman el endotelio [16]. La Figura 2.2 ilustra la superficie del
corazón desde una perspectiva seccional. La estructura interna del corazón consta
de cuatro cavidades: dos cavidades superiores llamadas aurículas y dos cavidades
inferiores llamadas ventrículos (véase la Figura 2.3).
2.1. El corazón 9

Figura 2.1: Disposición del corazón dentro de la cavidad torácica [17].

Figura 2.2: Capas internas del corazón [18].

10 Capítulo 2. Marco teórico

La aurícula izquierda se comunica con el ventrículo izquierdo a través de la vál-

vula mitral, mientras que la aurícula derecha se comunica con el ventrículo derecho a
través de la válvula tricúspide. Las válvulas auriculoventriculares están gobernadas
por las cuerdas tendinosas y a su vez por músculos papilares. Las válvulas pulmonar
y aórtica (válvulas semilunares) no presentan ningún soporte adicional. Las paredes
del ventrículo izquierdo son ligeramente más gruesas porque tiene que bombear san-
gre a todo el cuerpo, mientras que el ventrículo derecho solo bombea a los pulmones.
Los vasos sanguíneos se distinguen en venas (llevan sangre al corazón) y arterias (lle-
van sangre al cuerpo). Ambos vasos se pueden clasificar en función de su grosor. Las
arterias se ramifican en arteriolas y luego capilares, que son los vasos más pequeños
del cuerpo humano. Al mismo tiempo, los capilares alcanzan las vénulas, para luego
reagruparse en las venas, que son vasos más grandes.

Figura 2.3: Estructura interna del corazón [19].

2.1. El corazón 11

2.1.2. Sistema cardiovascular

La etimología del sistema cardiovascular se compone de dos términos, donde
cardio se refiere al corazón y vascular se refiere a los vasos sanguíneos. El corazón
y los vasos sanguíneos constituyen un sofisticado sistema logístico biológico que
abastece a todas las células del cuerpo de oxígeno, nutrientes, calor [20], además
de recoger productos de deshecho como el CO2 [21]. El sistema circulatorio está
formado por el corazón, las arterias, los capilares y las venas, cada uno con una
estructura y función características [20]. Sin embargo, el sistema circulatorio puede
simplificarse como se muestra en la Figura 2.5 y es posible identificar dos tipos de
circulación: la circulación pulmonar y la circulación sistémica.

Circulación pulmonar

La sangre desoxigenada ingresa a la aurícula derecha a través de las venas cavas.

También hay una pequeña abertura en la aurícula derecha llamada sinus coronario,
que recolecta la sangre de los vasos coronarios. Toda esta sangre pasa por la válvula
tricúspide para llenar el ventrículo derecho. A partir de entonces, cuando el corazón
se contrae, los músculos papilares mantienen tensas las cuerdas tendinosas para
evitar la regurgitación de la sangre de regreso a la aurícula [20]. Dicha contracción
bombea la sangre a través de la válvula pulmonar y la hace viajar hacia los pulmones
a través de las venas pulmonares. Una vez en los pulmones, los capilares se alinean
junto a un pequeño saco de aire llamado alvéolo. Luego, se produce un intercambio
de gases entre los alvéolos y sus respectivos capilares. Para ser más exactos, la sangre
cargada con CO2 (lo que la hace parecer más oscura) se carga con O2 proveniente
de los alvéolos. Por otro lado, la sangre rica en O2 (caracterizada por un color rojo
brillante) viaja a lo largo de las vénulas y luego hacia las venas pulmonares para
llenar la aurícula izquierda [14]. La Figura 2.4 ilustra este proceso.

Circulación sistémica

La sangre oxigenada en el ventrículo izquierdo se bombea a través de la válvula

aórtica hacia la aorta, la arteria más grande del cuerpo [14]. La aorta se ramifica
primero en arteriolas y finalmente en capilares que suministran los nutrientes y el
oxígeno necesarios a los tejidos. Los glóbulos rojos se alinean con las células de
los tejidos y entregan el oxígeno mientras recolectan CO2 . Este proceso es muy
similar al intercambio de gases que tiene lugar en los alveolos. Finalmente, la sangre
transporta los productos de desecho nuevamente a las vénulas, y luego a las venas
hacia el corazón [21].
12 Capítulo 2. Marco teórico

Figura 2.4: Esquema de la circulación pulmonar [22].

Figura 2.5: Circulación sanguínea del cuerpo humano [23].

2.2. Electrocardiograma 13

2.2. Electrocardiograma
El electrocardiograma o ECG (del griego, electro eléctrico, cardio corazón y
graphos imagen o grafo), es una herramienta de visualización que refleja la acti-
vidad eléctrica del corazón. Las variaciones de tensión en bornes de dos electrodos
cualquiera son provocadas por los potenciales de acción de las células cardíacas, que
hacen que las células se contraigan a su paso [24]. Augustus Waller fue el primer
fisiólogo en tomar las primeras muestras de ECG a finales del siglo XIX [25]. En 1887
se adquirió el primer ECG humano con un dispositivo experimental bautizado como
electrómetro capilar [26] y a principios del siglo XX, el fisiólogo holandés Willem
Einthoven desarrolló el primer dispositivo de adquisición basado en un galvanómetro
de cuerda [24].

2.2.1. Actividad eléctrica del corazón

Las células responsables de la actividad eléctrica del corazón son las células con-
tráctiles. En reposo, estas células se encuentran cargadas negativamente con respecto
al exterior y cuando se despolarizan, se cargan de forma opuesta. Esta redistribu-
ción de cargas se realiza en muy poco tiempo, generando un dipolo momentáneo
que permite el fenómeno de la conducción [27]. Sin embargo, estas células tan so-
lo se ocupan de propagar los estímulos, no de generarlos. Las células encargadas
de generar los impulsos son las células autorrítmicas. Estas células se encuentran
distribuidas de forma estratégica entre los tejidos cardíacos y son las responsables
de generar las ondas de despolarización, produciendo una reacción en cadena hacia
las células contráctiles [28]. Normalmente, la fase inicial de la actividad eléctrica
comienza en el nodo sinoauricular (SA), ubicado en la aurícula derecha, cerca de la
vena cava superior. El nodo SA es una pequeña concentración de células autorrítmi-
cas que activan el estímulo inicial para la diástole [27]. Luego, el frente de onda llega
a la unión auriculoventricular (AV), que es un conjunto de tejidos especializados de
células contráctiles que permite la conducción entre las aurículas y los ventrículos,
y que se extiende desde el tabique interauricular al tabique interventricular.
A partir de aquí, el estímulo viaja por el tabique hasta llegar a las ramas del
haz, para luego propagarse a través de las fibras de Purkinje hacia las células ven-
triculares. Como resultado, las aurículas bombean sangre simultáneamente hacia los
ventrículos a través de las válvulas tricúspide y mitral. Una vez que los ventrículos
se han llenado de sangre y el impulso eléctrico ha alcanzado la parte más baja del
corazón, ésta comienza a fluir en la dirección contraria a través de las ramas del haz,
lo que provoca que los ventrículos se contraigan y bombeen sangre al cuerpo por las
válvulas pulmonar y aórtica [29].
14 Capítulo 2. Marco teórico

2.2.2. Disposición de electrodos

Las variaciones eléctricas fruto de la actividad eléctrica del corazón, son obser-
vables desde un dipolo externo conformado por dos o más electrodos. En un ECG,
se suelen construir múltiples dipolos alrededor del cuerpo colocando electrodos en
una disposición estratégica. Cuando la onda de despolarización se mueve hacia el
dipolo (Figura 2.6a), este percibirá una desviación positiva. Por otro lado, si no hay
diferencia de carga entre los polos, el dipolo mostrará una línea recta invariante en
el tiempo (Figura 2.6b). Finalmente, cuando la onda de despolarización se enfrenta
al dipolo, éste percibirá una desviación negativa (Figura 2.6c).

Célculas cardíacas Electrodos Tejidos cardíacos

(a) Desviación positiva (b) ∆V = 0 (c) Desviación negativa

Figura 2.6: Desviaciones ocasionadas por la despolarización de las células cardíacas.

En términos prácticos de representación visual, cuanto mayor es el dipolo, mayor

es la amplitud de la desviación mostrada en el ECG [27]. No obstante, la onda de
despolarización podría no estar alineada con un solo dipolo todo el tiempo, lo que
ocasionaría una disminución en la amplitud de la desviación observada (por proyec-
ción de la desviación sobre el dipolo) [24]. Por esta razón, se suelen emplear múltiples
dipolos y así obtener información más exacta sobre la actividad eléctrica del cora-
zón. La distribución estándar de electrodos es la que se muestra en la Figura 2.7.
Esta distribución de 12 electrodos es la más utilizada en la práctica clínica rutinaria
y se encuentra consolidada desde hace varias décadas [24]. Una forma sencilla, y la
más típica, de observar esta disposición de electrodos es dividiéndola en un plano
coronal y un plano transversal. El plano coronal está formado por las derivaciones
de las extremidades, cuyos electrodos forman el Triángulo de Einthoven [30], y estas
se definen de la siguiente manera:
2.2. Electrocardiograma 15

Derivaciones bipolares de extremidades: denotadas como I, II y III. Estas

derivaciones se obtienen midiendo la diferencia de potencial entre los brazos y
la pierna izquierda atendiendo a las siguientes combinaciones de potencial:

I = VLA − VRA ,

II = VLL − VRA ,
III = VLL − VLA ,

donde VLA , VRA , y VLL representan la tensión del brazo izquierdo, el brazo
derecho y la pierna izquierda, respectivamente.

Derivaciones unipolares de extremidades: Denotadas como aV F, aV L

y aV R (a de augmented, o aumentado en inglés). Estas derivaciones se con-
sideran unipolares porque miden la diferencia de potencial entre un vértice
del triangulo de Einthoven y la media de los vértices opuestos, la cual, sirve
de referencia. Sin embargo, siguen siendo los mismos electrodos que en las
derivaciones bipolares, es decir:
VLA + VLL
aV R = VRA − ,
2
VRA + VLL
aV L = VLA − ,
2
VLA + VRA
aV F = VLL − .
2
Estas derivaciones describen un ángulo aproximado de 30º con respecto a los
bipolares. Esto sirve para “rellenar” los huecos de potencial que quedan entre
medias de las derivaciones descritas anteriormente.

Finalmente, tal y como se muestra en la Figura 2.7, el plano transversal cons-

ta de 6 derivaciones precordiales o torácicas que se encuentran en el lado frontal
e izquierdo del pecho. Estas derivaciones son útiles para incrementar el detalle de
la información obtenida. En definitiva, existen 3 derivaciones bipolares de extremi-
dades en el plano coronal seguidas de 6 derivaciones precordiales dentro del plano
transversal y luego 3 derivaciones unipolares adicionales para medir las diferencias
entre las derivaciones de las extremidades. Todas ellas suman las 12 derivaciones
fundamentales que constituyen un sistema de adquisición típico de ECG.
16 Capítulo 2. Marco teórico

Deriv. I
Extremidades Pecho

RA LA

aVR aVL V2

Deriv. II Deriv. III

V3 V6
aVF
V4 V5
LL

Figura 2.7: Disposición de electrodos para un ECG de 12 derivaciones. Nótese que el

triángulo de Einthoven se encuentra descrito como una pirámide invertida a la izquierda,
y las derivaciones precordiales, a la derecha de la figura, se disponen de forma solidaria a
la caja torácica.

2.2.3. Formas de onda del ECG

La forma de onda característica de una derivación de ECG es la mostrada en
la Figura 2.8, donde se puede observar una onda P, seguido de un complejo QRS
y finalmente una onda T. También se pueden describir intervalos entre medias,
como los intervalos PR y QT. Todas estas características componen la forma de
onda de una señal de ECG [31]. El intervalo PR se desarrolla desde el comienzo
de la onda P hasta el comienzo del complejo QRS, y representa el tiempo entre el
comienzo de la despolarización auricular y ventricular. El complejo QRS representa
la despolarización ventricular, y su duración es normalmente inferior a 0.10 segundos.
Por otro lado, el intervalo QT representa la sístole ventricular [29], es decir, el tiempo
entre la despolarización y la repolarización.
Aunque todas las derivaciones están sometidas a la misma actividad eléctrica,
cada una de ellas ofrece un punto de vista propio y distinto de la onda de despolari-
zación. En la Figura 2.9 es posible ver cómo varían las desviaciones precordiales en
función de su posición relativa con respecto al corazón [27].
2.2. Electrocardiograma 17

R
P
T
Q S

Intervalo PR Intervalo QT

Figura 2.8: Forma de onda típica para una derivación de ECG.

V1 V2 V3

V4 V5 V6

Figura 2.9: Formas de onda de ECG para cada derivación precordial.

18 Capítulo 2. Marco teórico

2.3. Variabilidad del ritmo cardíaco

2.3.1. Definición y propiedades

La frecuencia cardíaca es uno de los parámetros más utilizados para evaluar la
actividad cardíaca. En un cuerpo sano, los latidos del corazón se producen a una
frecuencia variable, es decir, el tiempo entre latidos no es constante a lo largo del
tiempo [32]. Así pues, se introduce el concepto de variabilidad del ritmo cardíaco
(HRV, por sus siglas en inglés heart rate variability), que se define como la variación
en la frecuencia de los latidos cardíacos en un período determinado de tiempo [33].
El procedimiento más común para obtenerla es detectando los picos R del ECG
y medir el tiempo entre intervalos, también conocidos como intervalos RR (RRi).
Cada RRi aporta un período cardíaco concreto, por lo tanto, es posible calcular la
frecuencia cardíaca instantánea a través de su inversa ponderada en un minuto. En
consecuencia, la serie de RRi conforma la HRV (Figura 2.10). Por otro lado, en la
literatura es frecuente leer acerca de los intervalos RR normales (NNi). Cada RRi
se considera normal si se encuentra libre de artefactos y ruido excesivo [11]. Cabe
decir que las series de RRi suelen ir asociadas un instante de tiempo concreto del
ECG, habitualmente, al último pico R del intervalo.
La relevancia clínica de la HRV se empezó a manifestar a finales de los años 80
cuando se confirmó que era capaz de predecir la mortalidad después de un infarto
agudo de miocardio [34]. Ante este descubrimiento, el grupo de trabajo de la So-
ciedad Europea de Cardiología y la Sociedad de Marcadores de Electrofisiología de
América del Norte, en lo sucesivo, la Task Force, surgió para consensuar los estánda-
res de medición y definir las correlaciones fisiológicas pertinentes [11]. Según la Task
Force, el valor normalizado de las bandas de baja frecuencia de la HRV enfatiza el
comportamiento del sistema nervioso autónomo [33]. Esta información resulta muy
valiosa en la detección de OSA, ya que dicho sistema provoca una modulación sobre
la HRV durante los episodios de apnea [35].

RRi-1 RRi-2 RRi-3 RRi-4

R R R R R
ECG

Figura 2.10: Identificación de varios RRi en un ECG.

Capítulo 3

Estado del arte

Contenidos
3.1 Investigación documental . . . . . . . . . . . . . . . . . . . 20
3.2 Trasfondo clínico . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.1 Importancia de la HRV . . . . . . . . . . . . . . . . . . . 21
3.3 Métodos de detección de apnea . . . . . . . . . . . . . . . 22
3.3.1 Repositorios disponibles . . . . . . . . . . . . . . . . . . . 22
3.3.2 Detección basada en aprendizaje automático . . . . . . . 24
3.3.3 Detección basada en aprendizaje profundo . . . . . . . . . 25
3.4 Análisis de recurrencia . . . . . . . . . . . . . . . . . . . . 26

Sinopsis
El estado del arte, a veces también referido como estado de la técnica o estado
de la cuestión, reúne todo el conocimiento necesario para comprender, desde una
perspectiva holística, el resultado de una investigación documental dentro de un área
específica. En este capítulo, se recoge el estado del arte en materia del síndrome de
la apnea obstructiva del sueño, así como los métodos disponibles para su detección,
incluyendo aquellos basados principalmente en la variabilidad del ritmo cardíaco.
Asimismo, el capítulo se compone de las pautas aplicadas durante la investigación
documental, seguida del trasfondo clínico del síndrome en cuestión y terminando
con la exposición de los métodos mencionados anteriormente.

19
20 Capítulo 3. Estado del arte

3.1. Investigación documental

La investigación documental se ha realizado a partir de los repositorios bibliográ-
ficos de Web of Science, PubMed, Elsevier’s ScienceDirect, IEEEXplorer, Springer
y Scopus. El rango temporal de estudio se ha limitado al último docenio, esto es,
aproximadamente entre 2010 y 2022. Las palabras clave utilizadas comprendieron:
apnea del sueño, detección y variabilidad del ritmo cardíaco, todas ellas en inglés.
Estas palabras clave se combinaron en expresiones regulares de búsqueda avanzada,
tales como: “apnea del sueño” AND “detección” AND “variabilidad del ritmo car-
díaco”. Los artículos hallados fueron sometidos a una primera etapa de cribado y
se descartaron aquellos que no contaban con el grado de adecuación suficiente a la
temática documental. Asimismo, los artículos que no correspondieran explícitamen-
te a publicaciones de revistas académicas, tales como publicaciones en congresos,
capítulos de libro, etc., también fueron excluidos de la revisión bibliográfica.
Teniendo en cuenta estas premisas, 64 artículos fueron sometidos a una última
revisión exhaustiva. Durante esta revisión, se extrajo información relativa a las ba-
ses de datos empleadas (incluyendo su grado de acceso), técnicas utilizadas para el
análisis de la HRV, modelos de clasificación involucrados, resultados obtenidos y mé-
todos de validación de estos. En este último aspecto, se han extraído los estándares
de rendimiento de los modelos, siguiendo las herramientas de evaluación acepta-
das por la comunidad científica, de modo que se puedan comparar los resultados
numéricos obtenidos en este trabajo con otros anteriores.

3.2. Trasfondo clínico

El SAS es una condición caracterizada por episodios repetitivos de oclusión par-
cial o completa de las vías respiratorias durante el sueño [2]. Según su sintomatología,
esta enfermedad puede diferenciarse en apnea central del sueño, que consiste en una
pérdida transitoria de la capacidad respiratoria a nivel nervioso [36], y la OSA,
que se caracteriza por la obstrucción de la parte superior de las vías respiratorias,
normalmente ocasionado por el colapso de los tejidos blandos de la garganta [37].
Esto provoca la activación del sistema nervioso central en forma de espasmos que,
acompañados de una aceleración del ritmo cardíaco, interrumpen el sueño del pacien-
te [38]. Además, a menudo los episodios de apnea les acompañan fuertes ronquidos
que generalmente pueden durar desde los 20 segundos hasta 3 ó 4 minutos [4]. Una
condición similar a la apnea es la de hipopnea, que suele ser evaluada por medio del
flujo oro-nasal o niveles de SpO2 del paciente y que se determina en función de un
criterio regulado [1][39][40].
3.2. Trasfondo clínico 21

Existe un parámetro para evaluar la severidad de la OSA, conocido como índice

de apnea/hipopnea (AHI), el cual se mide como la cantidad de eventos de apnea o
hipopnea acontecidos por hora de sueño [41]. Para un AHI ≥ 5 (severidad media-
baja), la incidencia en la población general varía entre el 9 % y el 38 % [2]. Los niños
también son susceptibles de sufrir OSA, especialmente a aquellos con amígdalas
agrandadas [42]. Algunas evidencias indican que el sobrepeso constituye el princi-
pal factor de riesgo en la OSA [43], aunque otras también incluyen el género y la
edad [44]. De hecho, la incidencia de OSA suele ser directamente proporcional a la
edad [40]. Además, se estima que gran parte de la población no ha sido diagnosti-
cada aún [45][46]. Por otro lado, un estudio retrospectivo sobre la OSA sugiere que
el alcohol y los medicamentos antidepresivos pueden tener un impacto potencial en
la función de las vías aéreas a corto-medio plazo [47].
Estudios recientes han revelado nuevas cifras de comorbilidad y riesgo al padecer
OSA. Concretamente, se estima que la prevalencia de OSA en pacientes con hiper-
tensión y FA, entre otros, se pueda encontrar en torno al 40 y el 80 % de la población
global [48]. Además, los pacientes que sufren OSA presentan aproximadamente un
15 % de probabilidades adicionales de requerir hospitalización inmediata e incurrir
en el doble de riesgo de fallo respiratorio tras contraer la enfermedad del COVID-
19 [49]. Si bien la mayoría de los casos de OSA son difíciles de identificar [50], otros
síntomas como ronquidos o espasmos sí que pueden ser percibidos por un observador
externo, como un compañero de habitación o una pareja. Los pacientes que pade-
cen OSA generalmente describen sensación de cansancio extremo, desorientación y
falta de coordinación. Los riesgos asociados a estos síntomas pueden llegar a ser
devastadores, pudiendo ocasionar daños fatales en los casos más severos, e.g., caídas
sobrevenidas o accidentes de tráfico [4].

3.2.1. Importancia de la HRV

La HRV ha adquirido una importancia cada vez mayor debido a su alta co-
rrelación con el funcionamiento del sistema nervioso autónomo, que es a su vez el
encargado de controlar la respiración durante el sueño [11]. Además, la HRV se
encuentra clínicamente aceptada como indicador fisiológico para el diagnóstico de
diversas ECV, siendo uno de los marcadores más utilizados dentro de la práctica
médica [48]. Asimismo, debido a su facilidad de extracción, ya sea del ECG o de
otras fuentes más accesibles, esta magnitud ha constituido la principal motivación
para el estudio de novedosas técnicas de análisis computacional, impulsando el de-
sarrollo de diversos métodos de detección de apnea hasta el grado de popularidad
en el que se encuentra actualmente [51]. Todo ello, para paliar los elevados costes
de la PSG.
22 Capítulo 3. Estado del arte

3.3. Métodos de detección de apnea

En este ámbito existen dos tipos de trabajos, los que se centran en evaluar la se-
veridad y otros que se centran en la detección de episodios de apnea en sí. El presente
trabajo sólo se centra en la detección de episodios. Existen tres principales revisio-
nes académicas recientes. En orden cronológico, la primera fue fue realizada por
Mendonça et al. en 2019, el cual representa aún en la actualidad una valiosa fuente
histórica de información [52]. La segunda fue llevada a cabo por Ramachandran &
Karuppiah en 2021 y se centra en las principales técnicas de aprendizaje automático
aplicadas en la detección de apnea en general, incluyendo resultados numéricos por
autor, metodología y bases de datos utilizadas [53]. La última revisión fue dirigida
por Bahrami & Forouzanfar en 2022, donde se recopila una gran variedad de tra-
bajos dedicados especialmente al aprendizaje profundo [54]. Además, proporcionan
el código de las implementaciones probadas de forma libre en su GitHub. A partir
de estos tres trabajos y de los artículos hallados durante la revisión documental se
puede conformar un estado del arte sólido y actualizado.

3.3.1. Repositorios disponibles

Un aspecto muy controvertido en el mundo de la investigación es la elección
de las bases de datos, ya sean públicas o privadas. Los trabajos involucrados en
la búsqueda documental pueden agruparse en cuatro categorías diferentes: aquellos
que emplean bases de datos públicas, los que emplean bases de datos privadas, los
que emplean medidas de sensores de fabricación propia y los que emplean alguna
combinación de los casos anteriores. No es de sorprender que la mayoría de trabajos
utilicen bases de datos públicamente accesibles. Por el contrario, son pocos los casos
en los que se utilizan bases de datos públicas y privadas conjuntamente [55][56][57].
Este aspecto suele depender mucho del modelo de validación propuesto, cuya elec-
ción influye notablemente en los resultados finales. La naturaleza de las bases de
datos en materia de apnea y señales cardiovasculares puede ser variada, pero la
cantidad de bases de datos públicamente accesibles es bastante limitada. Las más
utilizadas suelen provenir del repositorio oficial de PhysioNet. Para ser exactos, Phy-
sionet Apnea-ECG [58], MIT-BIH Polysomnographic Database [59], y St. Vicent’s
University Hospital/University College of Dublin [60] son las más utilizadas.
La Tabla 4.1 recopila bases de datos candidatas al estudio propuesto en el presen-
te trabajo. Aunque todas ellas son públicas, algunas requieren cierta documentación
para ser solicitadas, como un certificado en cumplimiento de la Ley de Transferencia
y Responsabilidad de Seguro Médico (Health Insurance Portability and Accountabi-
lity Act, HIPAA por sus siglas en inglés).
3.3. Métodos de detección de apnea 23

Tabla 3.1: Bases de datos candidatas para el estudio.

Nombre Tamaño Año Sujetos Info. Técnica

PhysioNet Challen- 580 MB 2000 Pacientes entre 27 y 63 70 registros ECG de una

ge 2000 (Apnea- años: 30 hombres y 5 única derivación de entre 7
ECG) [61] mujeres con 3 tipos de y 9 horas de duración. Ano-
severidad de apnea. taciones clínicas por minuto
(A: apnea, N: normal).

PhysioNet MIT-BIH 632 MB 2003 Pacientes entre 32 y 56 18 registros de ECG de múl-

PSG Database (MIT- años de edad: todos va- tiples canales. Anotaciones
BIH) [59] rones. Incluye pacien- cada 30s. Incluye señales de
tes con bradicardia y respiración por etapas de
taquicardia. sueño y eventos de apnea.

PhysioNet St. Vi- 1.3 GB 2007 Pacientes entre 28 y 68 25 registros de PSG comple-
cent’s University años: 21 hombres y 4 tas de 6 a 8h de duración
Hospital / Univer- mujeres. con ECG basado en holter
sity College Dublin de 3 derivaciones. Anotacio-
Sleep Apnea (UCD- nes en tiempo real sobre va-
DB) [60] rios eventos, incluido apnea.

You Snooze You Win 45.8 MB 2018 Pacientes entre 30 y 1985 registros de ECG mul-
- The PhysioNet 70 años: 65 % varones. ticanal. Múltiples anotacio-
Computing in Car- Incluye pacientes con nes en diferentes formatos.
diology Challenge consumo de antidepre- Incluye etapas de sueño, fi-
2018 [62] sivos, opiáceos, benzo- brilación auricular, bradi-
diacepinas, etc. cardia, arritmias, etc.

Dr. Negrín University 45.1 MB 2018 Rango de edad desco- 77 registros de HRV: 40 de
Hospital of Canary nocido. Proporción de control y 37 apnea. Incluye
Islands Database 60 hombres y 17 muje- anotaciones cada 5 minutos.
(HuGCDN2014) [63] res.

Sleep Heart Health - 1995/ Rango de edad en 6441 registros de PSG com-
Study (SHHS) [62] 2003 torno a 40 años o más. pletos con anotaciones clíni-
Proporción de hombres cas estandarizadas. Requie-
mucho mayor que de re licencia médica especial
mujeres. Datos numéri- bajo justificación jurada de
cos no disponibles. protección de datos.
24 Capítulo 3. Estado del arte

3.3.2. Detección basada en aprendizaje automático

Existen cientos de métodos basados en el ECG para detectar episodios de ap-
nea [64]. Durante la revisión documental se comprobó que los autores tendían a
seguir, grosso modo, una estructura similar en sus trabajos, a saber: una etapa de
preprocesado, otra de extracción de características y finalmente una etapa de clasi-
ficación basada en aprendizaje automático tradicional.
Normalmente, el procesado de la señal consiste en un ligero filtrado paso bajo pa-
ra minimizar la influencia la red eléctrica, seguida de un detector de picos R. Esto se
suele hacer directamente con la implementación del algoritmo de Pan Tompinks, un
famoso procedimiento diseñado para filtrar la señal de ECG e identificar los comple-
jos QRS en tiempo real [65]. Algunos autores recurren a procedimientos adicionales
para identificar y corregir la presencia de valores atípicos en los RRi [66] [67]. La
validación de los picos R se puede realizar manual [68] [69] o automáticamente [70],
pero siempre bajo un determinado criterio de calidad. La Task Force sugiere seguir
las recomendaciones contenidas en su documento de referencia, el cual indica que se
deben respetar las anotaciones incluidas en las bases de datos ya que estas suelen
estar etiquetadas por técnicos cualificados [11]. Después, las señales de ECG pueden
segmentarse en bloques de tiempo determinado. La mayoría de autores establecen
el período de segmentación de acuerdo a la base de datos en uso, pero otros optan
por probar diferentes períodos de tiempo para realizar el mismo experimento [71].
Sin embargo, aunque la Task Force recomienda utilizar el mayor periodo de tiem-
po posible, existe cierto consenso en utilizar segmentos de un minuto de duración
frente al resto de ventanas temporales, demostrando incluso ser la mejor elección en
muchos casos [55][72][73][74].
La literatura correspondiente a las características extraídas de la HRV es vasta y
muy difícil de abarcar en su totalidad. No obstante, parece haber factores comunes
entre los trabajos hallados, ya que la Task Force facilita los procedimientos para
extraer algunos de los predictores más relevantes. Es preciso indicar que los términos
predictor, marcador o característica se pueden usar indistintamente para referirse a
una magnitud para describir la HRV. Entre estas características se suelen incluir
la media (MEAN), la mediana (MED), el valor máximo (MAX) y el valor mínimo
(MIN) de cada serie de RRi [71]. También se han empleado otras herramientas más
específicas, por ejemplo, Mehmet et al. emplearon la transformada wavelet 1 discreta,
una generalización de la FFT para obtener características multi-dimensionales de
la HRV [75]. Del mismo modo, autores como Yildiz et al. [76], Dong et al. [77] y
Zarei & Asl [78][79] también emplearon análisis de ondículas para hallar patrones
ocultos en el comportamiento de la HRV. Finalmente, los predictores no lineales
1
wavelet: también conocida como ondícula en castellano, es una transformada que representa
una señal en términos de versiones trasladadas y dilatadas de una onda finita.
3.3. Métodos de detección de apnea 25

han experimentado un creciente interés en relación a la detección de OSA. Ravelo

García et al. introdujeron por primera vez la entropía de permutación sobre la HRV
[80] [81]. Por otro lado, la entropía aproximada (ApEn) [82] y su forma mejorada, la
entropía muestral (SE) [83], fueron los predictores de complejidad más empleados en
este ámbito. Otras estrategias para el análisis no lineal incluyen gráficas de Poincaré
[84], análisis de fluctuación [67] y análisis de recurrencia heterogénea [38].
Finalmente, los modelos de clasificación utilizados pueden variar según el trasfon-
do del autor y el método de extracción de características escogido. Los clasificadores
por máquinas de vectores de soporte (SVM), las redes neuronales artificiales (ANN)
y el algoritmo de los k-vecinos más cercanos (KNN) son algunos de los más populares
en el estado del arte.

3.3.3. Detección basada en aprendizaje profundo

En los últimos 5 años, el interés por las técnicas de aprendizaje profundo ha
ido en gradual aumento hasta desbancar casi por completo las técnicas tradiciona-
les de aprendizaje automático. Según las revisiones bibliográficas más actuales de
Bahrami et al. [85] y JeyaJothi et al. [86], las técnicas de aprendizaje profundo se
encuentran muy cerca de desbancar los métodos tradicionales basados en ingeniería
de marcadores (feature engineering) en términos de eficiencia, generalización y coste
computacional. El aprendizaje profundo es inherentemente distinto al aprendizaje
automático tradicional debido a que se trata de un acercamiento todavía incipiente
y no existe un consenso en el modus operandi. Más precisamente, mientras que en el
aprendizaje automático tradicional existe un claro proceso a seguir, en aprendizaje
profundo los métodos pueden ser muy variados [86]. Dentro de los parámetros del
aprendizaje profundo se pueden encontrar el número de interconexiones dentro de
una red neuronal, así como la tasa de aprendizaje, el número de épocas o iteraciones
pertinentes, el método para la función de coste (adaptativo, descenso de gradiente,
descenso proporcional, etc.) y el número de capas escondidas, entre otros muchos
factores. Por ello, los métodos basados en aprendizaje profundo merecen su propio
apartado.
Dentro de esta tipología de trabajos, es posible distinguir entre dos grandes ti-
pos: aquellos que diseñan y ponen a prueba sus propias redes neuronales y aquellos
que recogen redes neuronales preentrenadas (con pesos previamente conocidos) para
adaptarlas al problema que desean afrontar [86]. Por ejemplo, Teng et al. [87] y
Almutari et al. [88] propusieron sus propios diseños de redes neuronales convolucio-
nales (CNN) para detectar la apnea durante el sueño a partir de registros de ECG en
bruto. De forma correspondiente, Zavanelli et al. [89] y Zhang et al. [90] propusieron
sus propias RNN y redes de memoria de larga-corta duración (LSTM por sus siglas
26 Capítulo 3. Estado del arte

en inglés: long-short term memory) para el mismo cometido, con resultados pareci-
dos en eficiencia. Por otro lado, Singh y Majumder [91] combinaron el escalograma
del ECG con una versión preentrenada de AlexNet, una red neuronal muy famosa
por su constatada eficacia en entornos multidisciplinares [92]. Aun en vista de las
altas eficiencias presentadas por estos métodos, a partir de los trabajos propuestos
en materia de aprendizaje profundo, se puede constatar que el coste computacional
tanto para entrenarlas como para integrarlas en dispositivos portátiles, es todavía
demasiado alto en comparación a los métodos tradicionales de aprendizaje profun-
do [85].

3.4. Análisis de recurrencia

Existe un pequeño y no muy conocido nicho de investigación alrededor del aná-
lisis de recurrencia aplicado a la detección de apnea del sueño. En 2014, Nguyen et
al. propusieron un método de detección de apnea por tramos de 500 RRi basado
en el análisis cuantitativo de recurrencia (RQA) de la HRV y una SVM [93]. En
2016, Cheng et al. propusieron un método parecido pero con una variante alter-
nativa conocida como RQA heterogéneo [38]. Ambos trabajos emplearon la misma
base de datos, pero Martín-González et al. propusieron un trabajo similar utilizando
dos bases de datos distintas y públicamente accesibles, observando resultados ligera-
mente inferiores a los ya reportados en el estado del arte en 2018 [94]. Métodos más
recientes como el de Taghizadegan et al. [95] y Mukherjee [96], emplearon varias téc-
nicas de aprendizaje profundo con redes neuronales preentrenadas, como ResNet-18
y ShuffleNet, alimentadas con mapas de recurrencia adquiridos a partir de señales de
ECG, EEG y respiración, obteniendo resultados de exactitud cercanos al 90 % [95].
Hasta marzo de 2022, no se ha encontrado ningún método que utilizara un mapa de
recurrencia RP de la HRV como alimentación directa para una red neuronal en la
ventana temporal de 1 minuto.
Por otro lado, existen métodos que sí que emplean RP de la HRV pero orientado
a la detección de estados de sueño durante la conducción. Concretamente, Lee et al.
diseñaron un método capaz de discernir, con una exactitud de en torno el 65 %, entre
periodos de vigilia y somnolencia durante la conducción utilizando señales de ECG
y oximetría [97]. En su trabajo, realizaron varios experimentos con distintos tipos
de RP, los cuales se diferenciaban en la forma de adquirir el parámetro de distancia
límite (tau o épsilon). Asimismo, emplearon múltiples clasificadores tradicionales
como SVM, KNN, regresión lineal y bosques aleatorios junto a una red neuronal
convolucional (CNN) personalizada. El resultado de la CNN fue un 5 % mayor que
en el caso de los clasificadores convencionales.
Capítulo 4

Materiales y preprocesado
de la señal

Contenidos
4.1 Materiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.1 Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 28
4.1.2 Procesado del ECG . . . . . . . . . . . . . . . . . . . . . 31
4.1.3 Extracción de características . . . . . . . . . . . . . . . . 32
4.2 Herramientas de análisis no lineal . . . . . . . . . . . . . 35
4.2.1 Análisis de entropía . . . . . . . . . . . . . . . . . . . . . 35
4.2.2 Mapas de recurrencia . . . . . . . . . . . . . . . . . . . . 41

Sinopsis
Este capítulo contiene una descripción de los materiales empleados y las técnicas
de análisis y procesado de la señal de ECG. En primer lugar, se presenta una breve
justificación de las bases de datos elegidas, seguido del tratamiento concreto aplicado
a las señales de ECG y una enumeración detallada de las características extraídas.
Por último, se describen las herramientas de análisis no lineal aplicadas a la HRV.

27
Capítulo 4. Materiales y preprocesado
28 de la señal

4.1. Materiales

4.1.1. Bases de datos

En investigación, la elección de la bases de datos suele ir acompañado de cier-
ta controversia. El principal conflicto alrededor de los datos tiene que ver con su
acceso, en tanto que las bases de datos pueden ser públicas o privadas. Las bases
de datos públicas se encuentran fácilmente accesibles desde repositorios abiertos,
mientras que las privadas son más difíciles de acceder y suelen requerir compro-
misos con sus proveedores (protección de datos, declaración de intenciones, etc.).
En lo que respecta al presente trabajo, dado que no se ha podido contar con bases
de datos privadas sobre apnea y señales cardiovasculares, se han seleccionado tres
bases de datos públicas del repositorio de PhysioNet, que son las que se describen a
continuación.

PhysioNet Challenge 2000: Apnea-ECG

La base de datos de Apnea-ECG fue publicada por primera vez en el 27º congreso
internacional de Computer in Cardiology 2000 Challenge en forma de competición
abierta [61]. Esta base de datos contiene 70 registros de ECG de 7 a 9 horas de
duración. Los registros se encuentran a su vez divididos en un set de entrenamiento
(released set) y otro de validación (withheld set), ambos de 35 registros. Hasta me-
diados de 2020, sólo se encontraba disponible el set de entrenamiento, mientras que
el set de validación se limitaba a información de diagnóstico. A pesar de que muchos
trabajos se basaron únicamente en el set de entrenamiento, en el presente trabajo se
han tenido en cuenta todos los datos disponibles. La señal de ECG está muestreada
a 100 Hz y 200 unidades ADC por mV. La población comprende 30 pacientes varo-
nes y 5 mujeres de entre 27 y 63 años de edad, subdivididos en tres grupos según su
AHI. Por encontrarse fuera de la competencia de este trabajo, la información rela-
tiva a la severidad de apnea ha sido omitida durante los experimentos. Por último,
las anotaciones fueron tomadas por expertos, en periodos de un minuto, de manera
que sólo existen dos etiquetas, apnea/hipopnea (A) y normal (N). Estas etiquetas
se asociaron al periodo completo de un minuto según lo que correspondiera justo al
principio de este (Véase la Figura 4.1a).
4.1. Materiales 29

MIT-BIH Polysomnographic Database

La base de datos de MIT-BIH contiene 18 grabaciones de PSG de entre 2 y 7

horas de duración. Los registros de ECG fueron adquiridos por un holter 1 de tres
derivaciones con una frecuencia de muestreo de 250 Hz y codificados a 12 bits por
muestra. La población está constituida por 16 sujetos varones de edad comprendida
entre los 32 y 56 años. Además, las anotaciones fueron proporcionadas por expertos
en épocas de 30 segundos, siguiendo el mismo criterio que en la base de datos de
Apnea-ECG, aunque diferenciando ulteriores alteraciones tales como apnea, hipop-
nea, apnea obstructiva y apnea central, todos ellos evaluados con y sin interrupciones
del sueño. Para compatibilizar el sistema de anotaciones con el de Apnea-ECG (por
tratarse del más restrictivo), se han agrupado las épocas en periodos de 1 minuto,
asignando la etiqueta correspondiente a los primeros 30 segundos. Asimismo, tam-
bién se han reagrupado las anotaciones en episodios relativos a apnea (A) y episodios
normales (N) (véase la Figura 4.1b).

St. Vicent’s University Hospital / University College Dublin Sleep Apnea

Database

Esta base de datos suele abreviarse como UCD o UCD-DB. Continene 25 PSG
completas cuyos ECG fueron obtenidos a una frecuencia de muestreo de 125 Hz y
ratio de cuantificación desconocida. Los registros tienen una duración comprendida
entre 6 y 8 horas. La población está constituida por 21 varones y 4 mujeres de 28 a 68
años de edad. Las anotaciones fueron tomadas por expertos en tiempo real, siguiendo
el estándar Rechtschaffen & Kales, indicando la hora, fecha exacta y duración de cada
anormalidad identificada. Estas anormalidades o alteraciones incluían otros casos
aparte de la apnea, como bradicardia, taquicardia, fibrilación auricular, etc. Todo
aquello que no tuviera que ver con apnea, fue reetiquetado como episodio normal
(N), mientras que las alteraciones relacionadas con la apnea (apnea central, mixta,
hipopnea...) se reetiquetaron como apnea (A). De nuevo, para mantener la coherencia
con el resto de bases de datos, se realizó una reorganización de las anotaciones para
llegar al sistema de consenso binario. Para tal cometido, se sincronizaron las señales
de ECG con sus respectivas anotaciones a partir de la información de comienzo de
cada registro. Esto permitió realizar una doble segmentación, una para el ECG y
otra para el fichero de anotaciones, de modo que se obtuvieron segmentos de un
minuto de duración siguiendo exactamente las mismas directivas que en los casos
anteriores (véase la Figura 4.1c).
1
Un holter es un dispositivo de adquisición de ECG portátil.
Capítulo 4. Materiales y preprocesado
30 de la señal

APNEA-ECG MIT-BIH UCD-DB

70 GRABACIONES( 416 horas) 18 GRABACIONES (63 horas) 25 GRABACIONES (157 horas)

Anotaciones cada 1 minuto Anotaciones cada 30 segundos Anotaciones en empo real

N N A N H N N N N H O O H N C … N

N N A N A N N A A N A A

{ Heredar anotaciones originales } { Heredar cada 2 bloques } { Heredar cada 1 minuto }

(a) Sistema Apnea-ECG. (b) Sistema MIT-BIH. (c) Sistema UCD-DB.

Figura 4.1: Sistemas de anotación de eventos, frecuencias de etiquetado y compatibiliza-

ción de las bases de datos utilizadas. Nótese que las anotaciones originales se heredan de
forma binaria (apnea o normal).

Tabla 4.1: Distribución de observaciones por grupos y base de datos.

Base de datos Apnea-ECG MIT-BIH UCD-DB

Sujetos 70 16 25
Segmentos 10214 3761 9402
Equilibrado 7946 2994 2016
Apnea 3973 1497 1008
Normal 6241 2264 8394

Finalmente, el desglose detallado de las bases de datos por grupos, por conjun-
tos equilibrados y observaciones completas se encuentra reflejado en la Tabla 4.1.
Como se puede comprobar, la base de datos con más observaciones disponibles es
la de Apnea-ECG, mientras que la base de datos con menor número de segmentos
equilibrados es la de UCD-DB. Asimismo, la base de datos con menor número de
pacientes es la de MIT-BIH.
4.1. Materiales 31

4.1.2. Procesado del ECG

En primer lugar, todas la grabaciones de ECG fueron re-muestreadas a 500 Hz
para facilitar la posterior detección de picos R. En segundo lugar, se implementó un
filtro Chebyshev paso-banda de segundo orden con frecuencias de corte de 0.5 y 100
Hz para eliminar la linea de base y el ruido de alta frecuencia [98]. Con el fin de
preservar las características originales de fase y amplitud de la señal, se ha utilizado
un filtro digital de fase zero. En tercer lugar, la detección de picos R se realizó por
medio del algoritmo de Pan Tompkins [99], un procedimiento ampliamente utilizado
por su relación velocidad-coste de cómputo. No obstante, ante las posibles imper-
fecciones en la localización exacta de los picos, se aplicó un algoritmo corrector, el
cual consistió en un barrido local de máximos para re-etiquetar el valor más alto del
ECG en unas 20 muestras alrededor del pico detectado originalmente. Finalmente,
se extrajo la HRV como las diferencias consecutivas en segundos de los picos R, tal
y como se puede observar en la Figura 4.2.
Después del procesado, se diseñó una aplicación en Matlab App Designer para
un cribado visual de segmentos, en el que si la presencia de valores atípicos o de
ruido era excesivo, se descartaba el segmento entero. El proceso se llevó a cabo en
las tres bases de datos mencionadas en la sección anterior.

Intervalo RR- 1 RRi-2 RRi-3 RRi-4

R R R R R

ECG

T-1

Serie HRV obtenida

RRi-1 RRi-2 RRi-3 RRi-4

T-2 T-3 T-4 T-5

Figura 4.2: Detalle de reconstrucción de la HRV.

Capítulo 4. Materiales y preprocesado
32 de la señal

4.1.3. Extracción de características

Se han extraído diversas características o marcadores a partir de la HRV siguien-
do las pautas encontradas en el estado del arte. Para ello, se han utilizado múlti-
ples herramientas externas de extracción de características, tales como la HRVTool
de Marcus Vollmer [100], la PhysioNet’s Cardiovascular Toolbox (CT) de Vest et
al. [101] y el paquete de análisis cuantitativo de recurrencia (RQA) de Ouyang Gao-
xiang [102]. Para el resto de marcadores descritos a continuación, se ha recurrido a las
funciones oficiales de MATLAB o, en su defecto, se han realizado las implementacio-
nes oportunas a partir de los trabajos y publicaciones académicas correspondientes
en cada caso. Dicho esto, la Task Force definió las características principales de la
HRV agrupadas de la siguiente manera [11]:

Características en el dominio del tiempo

• Características estadísticas
– MAX: valor máximo de todos los NNi (véase la Sección 2.3 - Variabilidad
del ritmo cardíaco), en milisegundos (ms).
– MIN: valor mínimo de todos los NNi, en ms.
– MEAN: valor medio de todos los NNi, en ms.
– MED: mediana del conjunto todos los NNi, en ms.
– IQR: rango intercuartílico. Diferencia entre el tercer y primer cuartil.
– SDNN: desviación estándar de todo el conjunto de NNi, en ms.
– RMSSD: raíz cuadrada de la media de la suma de los cuadrados de las
diferencias entre NNi adyacentes, en ms.
– SDSD: desviación estándar de las diferencias entre NNi adyacentes, en ms.
– NN50: número de pares de NNi adyacentes que difieren en más de 50 ms.
– pNN50: porcentaje de pares NNi adyacentes que difieren en más de 50 ms.

• Características geométricas
– Índice triangular de la HRV: representa el número total de todos los NNi
dividido por la altura de su histograma de todos los NNi construido a
partir de escalones de 7.8125 ms de altura.
– TINN: ancho de la línea base de la interpolación triangular mínima de la
diferencia cuadrada del pico más alto del histograma de todos los NNi.
4.1. Materiales 33

Características en el dominio de la frecuencia

• Bandas de frecuencia: se estudia la densidad de potencia espectral (PSD) en

las bandas de muy baja frecuencia (VLF, 0.003 - 0.04Hz), baja frecuencia (LF,
0.04 - 0.15Hz) y alta frecuencia (HF, 0.15 - 0.4Hz). Para ello, la Task Force
contempla los siguientes métodos:

– Métodos paramétricos: estiman componentes espectrales más suaves y

brindan un post-procesado más sencillo. A pesar de que funcionan rela-
tivamente bien, incluso con un pequeño número de muestras, requieren
una validación exhaustiva para confirmar su fiabilidad.
– Métodos no paramétricos: consisten en métodos más rápidos y fáciles de
usar que los anteriores. La transformada discreta de Fourier (DFT) es
uno de ellos [103], aunque requiere re-muestrear uniformemente la señal
original de HRV. Como alternativa al re-muestreo, es posible estimar la
PSD usando el periodograma de Lomb-Scargle (LSP) [104].

La manera de extraer características de la HRV depende de diversos factores,

tales como la longitud de la señal y de si esta se encuentra o no uniformemente
muestreada en el tiempo [105].

Medidas de complejidad

Inicialmente, la Task Force incluyó algunas magnitudes de complejidad, tales co-

mo la entropía aproximada (ApEn) y la entropía muestral (SE). Sin embargo, en este
trabajo se ha decidido poner a prueba ulteriores formas de entropía potencialmente
útiles en la detección de apnea del sueño, que además han sido exploradas y ratifica-
das previamente por trabajos anteriores. Algunas de las formas alternativas de en-
tropía propuestas son variantes de la SE, como la entropía muestral no-paramétrica
(NPSE), la entropía muestral cuadrática (QSE). Sin embargo, otras formas de entro-
pía también incluye la entropía de dispersión (DispEn), la entropía de distribución
(DistEn) y la entropía de medición difusa (MFuzzEn). Por otro lado, también se po-
nen a prueba las medidas de análisis cuantitativo de recurrencia (RQA) de la HRV),
unas métricas potencialmente útiles para la detección de patrones ocultos tras los
episodios de apnea en el ECG. La implementación de todas estas medidas se en-
cuentran detalladamente descritas en la sección correspondiente a las herramientas
de análisis no lineal (véase la sección 4.2.1 - Entropía muestral). Finalmente, para
completar la visión general de las características extraídas de la HRV, así como de
las herramientas computacionales utilizadas en cada caso, se proporciona la Tabla
4.2 a modo de resumen.
Capítulo 4. Materiales y preprocesado
34 de la señal
Tabla 4.2: Características y herramientas empleadas (28 en total). MATLAB: funciones
nativas de MATLAB o de implementación propia.

Categoría Descripción Etiqueta Toolbox

Máximo RRi MAX HRVTool
Mínimo RRi MIN HRVTool
Media de los RRi MEAN HRVTool
Mediana de los RRi MED HRVTool
Desviación estándar de los RRi SDNN HRVTool
Desviación estándar de las diferencias entre SDSD HRVTool
Tiempo todos los RRi adyacentes
Raíz cuadrada media de diferencias entre to- RMSSD HRVTool
dos los RRi adyacentes
Número de pares de NNi adyacentes que di- NN50 HRVTool
fieren en más de 50 ms
Porcentaje de los pares de Nni adyacentes pNN50 HRVTool
que difieren en más de 50 ms
Rango intercuartílico IQR MATLAB
Componente de muy baja frecuencia (DFT) VLF HRVTool
Componente de baja frecuencia (DFT) LF HRVTool
Componente de alta frecuencia (DFT) HF HRVTool
Componente de muy baja frecuencia del LSP LS_VLF MATLAB
Frecuencia
Componente de baja frecuencia del LSP LS_LF MATLAB
Componente de alta frecuencia del LSP LS_HF MATLAB
Entropía muestral SE PCT
Entropía muestral cuadrática QSE MATLAB
Entropía muestral no-paramétrica NPSE MATLAB
Entropía de dispersión DispEn MATLAB
Entropía de distribución DistEn MATLAB
Entropía difusa FuzzEn MATLAB
Complejidad
Entropía de medición difusa MFuzzEn MATLAB
Razón de recurrencia REC RQA
Determinismo del RP DET RQA
Entropía de Shannon del RP SHAN RQA
Longitud diagonal media del RP L RQA
Divergencia del RP DIV RQA
4.2. Herramientas de análisis no lineal 35

4.2. Herramientas de análisis no lineal

Gracias a su constatada capacidad para revelar las dinámicas subyacentes en
diversos sistemas biológicos, el análisis no lineal representa un poderoso aliado en la
práctica clínica [106]. Sin embargo, el coste computacional asociado a estas herra-
mientas a menudo requiere de grandes conjuntos de datos que, en muchas ocasiones,
son muy difíciles de obtener [83]. En el presente trabajo, por fortuna, se ha dispues-
to de los recursos y datos necesarios para el cálculo satisfactorio de las métricas no
lineales de la HRV, cuyas herramientas se describen a continuación.

4.2.1. Análisis de entropía

Entropía muestral

En el año 1991, Steven M. Pincus publicó una nueva forma de entropía capaz de
caracterizar la complejidad de señales cardiovasculares con bastante exactitud, bau-
tizada como entropía de aproximación (ApEn) [82]. A pesar de su amplia utilidad en
la época, así como en la década sucesiva a su publicación, se descubriría que la pro-
puesta de Pincus producía resultados inconsistentes en series de corta longitud [107].
Entonces, a principios del año 2000, Richman y Moorman propusieron una ligera
modificación en la ApEn que nombraron como entropía muestral (SE), dado que
posibilitaba el análisis de entropía en series temporales de muy pocas muestras [83].
La principal diferencia que introducía la SE con respecto a su antecesor era la no-
inclusión del cálculo de probabilidad en secuencias coincidentes originalmente [108].
Desde el punto de vista formal, siendo m la longitud de los vectores bajo análisis, r
la tolerancia entre muestras y N la longitud total de la serie, se puede definir la SE
de la siguiente manera:

Definición 1 (Entropía muestral). Suponiendo un conjunto de N puntos {u(j) : 1 ≤

j ≤ N }, se formarán los N −m+1 vectores xm (i) para {i | 1 ≤ i ≤ N −m+1} donde
xm (i) = {u(i+k) : 0 ≤ k ≤ m−1} representa el vector de m puntos desde u(i) hasta
u(i+m−1). La distancia entre dos vectores, denotada como d[xm (i), xm (k)], se define
como el max{|u(i + j) − u(k + j)| : 0 ≤ j ≤ m − 1}, esto es, la diferencia máxima
entre sus componentes escalares correspondientes. Ahora bien, siendo B el número
de pares xm (i), xm (k) tal que d[xm (i), xm (k)] ≤ r, y A el número de pares de xm+1 (i),
xm+1 (k) tal que d[xm+1 (i), xm+1 (k)] ≤ r, entonces la SE(m, r, N ) = −ln(A/B).
Capítulo 4. Materiales y preprocesado
36 de la señal

En otras palabras:
Dado un conjunto de N puntos

u(n) = {u(1), u(2), ..., u(N )},

Se conforman un par de secuencias de vectores, la secuencia objetivo:

xm (i) = {u(i + k)}, ∀i ∈ [1, N − m + 1], ∀k ∈ [0, m − 1],

y la secuencia posterior

xm+1 (i) = {u(i + k)}, ∀i ∈ [1, N − m], ∀k ∈ [0, m].

En la secuencia objetivo, se cuentan los A pares de vectores tal que d[xm (i), xm (j)]
≤ r. Asimismo, en la secuencia posterior, se cuentan los B pares de vectores tal que
d[xm+1 (i), xm+1 (j)] ≤ r, donde la distancia entre vectores se define como:

d[xm (i), xm (j)] = max{|xm (i + k) − xm (j + k)|},

∀k ∈ [0, m − 1], ∀j ∈ [1, N − m + 1], j ̸= i,

d[xm+1 (i), xm+1 (j)] = max{|xm+1 (i + k) − xm+1 (j + k)|},

∀k ∈ [0, m], ∀j ∈ [1, N − m], j ̸= i.

Entonces, la SE se determina como:

A
SE(N, m, r) = − ln . (4.1)
B
Este último enfoque más liviano se ha realizado desde una perspectiva compu-
tacional. Téngase en cuenta que en cada secuencia, para cada vector, la distancia
se computa con todos los vectores de la secuencia correspondiente excepto consigo
mismo (i ̸= j). Ésta fue exactamente la contribución de Richman y Moorman res-
pecto al trabajo de Pincus, de modo que el sesgo introducido era mínimo [83]. Los
autores también entregaron algunas pautas para hallar los valores más adecuados
de m y r. En un principio, se sugirió que m ≥ 2, y r alrededor de 0.2 veces la
desviación estándar de la serie bajo análisis. No obstante, como cada señal posee
su propia naturaleza, se recomienda calcular varios valores por parámetro. Para un
valor grande de m, el número de coincidencias en una misma secuencia disminuirá,
lo que introducirá cierto sesgo en los resultados.
4.2. Herramientas de análisis no lineal 37

Por otro lado, si m disminuye demasiado, es más probable que se ignore la

información relacionada con la dinámica subyacente del sistema. Los compromisos
involucrados en la elección de r son bastante similares a los de m [108]. Por lo tanto,
la opción ideal sería hacer que m fuera tan grande, y r tan pequeño como fuera
posible, siempre y cuando B se mantuviera lo suficientemente grande como para
garantizar resultados precisos. Para tal cometido, se han probado varios valores
de m y de r a través de un barrido regular, en pasos de una unidad para m, y
en pasos de 0.1 unidades para r. En el presente trabajo, la SE se extrajo con la
implementación oficial de PhysioNet’s Cardiovascular Toolbox [101]. Para ilustrar
mejor el funcionamiento y significado de esta magnitud no lineal, se proporciona la
Figura 4.3 a modo de ejemplo.

Figura 4.3: Cálculo de la SE sobre señales aleatorias. Nótese que cuanto mayor es el valor
de la entropía, mayor es el grado de irregularidad presente en la señal.
Capítulo 4. Materiales y preprocesado
38 de la señal

Variantes de la SE

A lo largo de la última década, se han propuesto diversas formas alternativas

de la SE. Algunas de las entropías más comunes halladas en la literatura corres-
pondiente son la entropía muestral cuadrática (QSE) y la entropía muestral no-
paramétrica (NPSE).
La definición tradicional de SE presenta una fuerte dependencia con respecto al
tamaño de r (véase la sección 4.2.1 -Entropía muestral). Para ser exactos, tomar
valores pequeños de r conduce a estimaciones de entropía más altas y menos confia-
bles debido a la drástica disminución del número de coincidencias de longitud m y
m + 1 [83]. Así pues, Lake y Moorman propusieron mitigar este problema introdu-
ciendo la QSE, la cual sustituye las estimaciones de probabilidad por densidades de
muestra [109]. Para normalizar las estimaciones a los valores de r, la SE fue modifi-
cada por medio del cociente entre la estimación de probabilidad (p) por el tamaño
completo de la ventana de tolerancia general (2r) [109]. Así, la QSE quedaría de la
siguiente manera:

QSE = −ln[p/(2r)] = −ln(p) + ln(2r) = SE + ln(2r).

Por otro lado, la NPSE ha sido propuesta como variante novedosa con excelentes
resultados para el diagnóstico de severidad de apnea al tratarse de una magnitud
estrechamente relacionada con el AHI [110]. Según Liang et al., la NPSE se diferencia
de la SE en tanto que el cálculo de la probabilidad es algo más compleja [110]. Bajo
las mismas condiciones que para la fórmula de la SE (Ecuación 4.1), se proporciona
la siguiente definición.

Definición 2 (Entropía cuadrática). Sea scope un vector que contiene todos los
elementos únicos de dm ij y dij
m+1
ordenados de manera ascendente con longitud nbin.
Si pr representa la probabilidad y scope(q) corresponde al elemento q-ésimo del
vector scope tal que 1 ≤ q ≤ nbin, entonces la función de distribución pdm
i se puede
calcular de la siguiente manera:

pdm m
i (q) = pr(di ≤ scope(q)), 1 ≤ q ≤ nbin.

Asimismo, para la dimensión embebida m + 1,

pdm+1
i (q) = pr(dm+1
i ≤ scope(q)), 1 ≤ q ≤ nbin.
4.2. Herramientas de análisis no lineal 39

Luego, las matrices de probabilidad acumulativa se pueden obtener como:

   
m+1 m+1
pdm
1 (1) · · · pd m
1 (nbin) pd 1 (1) · · · pd1 (nbin)
m
 .. . .. .
..
 m+1
 .
.. . .. .. 
pdi = 
 .  , pdi
 =
 . .

m+1 m+1
pdm m
N −m (1) · · · pdN −m (nbin) pdN −m (1) · · · pdN −m (nbin)

Ahora bien, sea Φm el vector que contiene las medias por columnas de las pro-
babilidades anteriormente descritas:

N −m
m 1 X
Φ (q) = pdm (q),
N − m i=1 i
N −m
1 X
Φ m+1
(q) = pdm+1 (q),
N − m i=1 i

entonces el valor de QSE puede obtenerse como:

nbin
1 X Φm (q)
QSE = ln m+1 .
nbin q=1 Φ (q)

Otras formas de entropía

En el campo de la teoría de la información, existen decenas de formas distintas de

entropía, las cuales pueden aplicarse a la detección de la OSA, y cuya presencia en la
literatura actual se encuentra en aumento. En el estado del arte, se ha comprobado
que las formas de DispEn, DistEn, FuzzEn y MFuzzEn son algunas de las más
exploradas actualmente. Como estas formas de entropía son mucho más incipientes
en el ámbito biomédico que la SE y los detalles más formales se escapan de las
competencias del presente trabajo, se abordarán desde una perspectiva más práctica
y liviana. Dicho esto, las formas de entropía anteriormente mencionadas han sido
implementadas siguiendo los algoritmos propuestos por sus respectivos autores.
En primer lugar, Chen et al. propusieron la FuzzEn, en 2007, para caracterizar
las señales de electromiograma de superficie como alternativa a la SE [111]. Esta
forma de entropía comparte gran similitud con su antecesor, ya que se define como
el logaritmo natural de la probabilidad condicional de que dos vectores similares para
m puntos se mantengan iguales para los siguientes m + 1 puntos. Sin embargo, la
Capítulo 4. Materiales y preprocesado
40 de la señal

característica diferenciadora de la FuzzEn es que contempla el concepto de conjuntos

difusos [112], donde la similaridad entre vectores es definida de forma difusa en base
a una función exponencial y sus distintas formas. Así pues, la expresión de la FuzzEn
viene dada de la siguiente forma:

F uzzEn(m, n, r, N ) = ln (ϕm (n, r)) − ln ϕm+1 (n, r) ,

donde n y r son conocidos como parámetros intrínsecos de la función ϕ(n, r) (que

es a su vez la que contiene la función exponencial de difusión [111]) y N representa
el número de muestras bajo análisis.
En 2013, Liu et al. propusieron la MFuzzEn como forma alternativa de la FuzzEn,
específicamente diseñada para caracterizar las señales de HRV [113]. Si bien es cierto
que los resultados eran más exactos que los que proporcionaba su antecesor, la
implementación de esta forma de entropía era muy parecida a la FuzzEn. La principal
diferencia introducida por sus autores fue la aplicación a nivel local (L) y global (F )
de una variante de la FuzzEn. Más concretamente:
M F uzzEn(m, nL , rL , nF , rF , N ) = M F uzzLEn(m, nL , rL , N )+
+M F uzzF En(m, nF , rF , N ),
donde la definición original de FuzzEn se ve ligeramente modificada en el cómputo
de la función exponencial difusa (ϕ), de modo que:

F uzzLM En(m, nL , rL , N ) = ln (ϕLm (nL , rL )) − ln ϕLm+1 (nL , rL )

F uzzF M En(m, nF , rF , N ) = ln (ϕFm (nF , rF )) − ln ϕFm+1 (nF , rF )
En 2015, Rostaghi & Azami inicialmente propusieron la DispEn como una al-
ternativa más rápida que la SE para el análisis de señales cardiovasculares [114].
Después de haber sido testada en diversas bases de datos, los autores aseguraron
que la DispEn era capaz de cuantificar mejor la regularidad de las series temporales
cardíacas. Dicho esto, la DispEn contemplaba un número determinado de clases c,
en las que se agrupaban los elementos de la serie bajo estudio x. Entonces, siguiendo
la definición original de entropía de Shannon, para una dimensión embebida m y un
retardo d (delay), se definió la DispEn como:

cm
X
p(πν0 ,ν1 ,...,νm−1 ) · ln p(πν0 ,ν1 ,...,νm−1 ) ,

DispEn(x, m, c, d) = −
π=1

donde p representa la probabilidad de los patrones de dispersión πν0 ,ν1 ,...,νm−1 para
cada patrón potencial de dispersión cm . Como se puede deducir, esta forma de
entropía obtiene su nombre por su carácter dispersivo-estadístico.
4.2. Herramientas de análisis no lineal 41

Por último, más tarde Li et al. propusieron la DistEn con motivo de la falta de
uniformidad en los métodos de SE y FuzzEn para medir eficazmente la complejidad
de los sistemas dinámicos [115]. La implementación de de esta forma de entropía se
puede resumir en 4 pasos: reconstrucción de un espacio de estados, cómputo de la
matriz de distancias, estimación de las densidades de probabilidad asociadas y la
determinación de la DistEn a partir de la definición original de Shannon como:

M
1 X
DistEn(m) = − pt · log2 (pt ),
log2 (M ) t=1

donde m representa la dimensión embebida correspondiente, M representa el nú-

mero de bins del histograma derivado de las densidades de probabilidad y pt es la
probabilidad asociada al estado t.

4.2.2. Mapas de recurrencia

El concepto formal de recurrencia fue propuesto por primera vez en 1890 por
Henri Poincaré en un estudio fundacional sobre los nudos homoclínicos (traducido
del inglés: homoclinic tangle), cuya contribución fue vital en el futuro para la ca-
racterización de órbitas y atractores 2 en sistemas dinámicos [117]. A pesar de los
encomiables esfuerzos matemáticos dedicados al estudio de esta nueva línea de in-
vestigación, el pionero trabajo de Poincaré tuvo que esperar más de 70 años hasta
el desarrollo de las rápidas y eficientes herramientas de computación moderna [118].
La llegada de ordenadores más potentes impulsó la teoría del caos hacia el estu-
dio de nuevos y fascinantes sistemas en la naturaleza, posibilitando rápidamente su
aplicación práctica en diversos campos de la ciencia y la ingeniería [119].
Así pues, en 1987, Eckmann et al. introdujeron un método novedoso para visua-
lizar la recurrencia en sistemas dinámicos, los mapas de recurrencia (RP, del inglés
recurrence plots) [120]. Un RP se define como una herramienta que mide las recu-
rrencias de una determinada trayectoria x⃗i ∈ Rd en un espacio de fases y se expresa
de forma matricial atendiendo a la siguiente ecuación:

Ri,j (ϵ) = Θ(ϵ − ∥⃗

xi − x⃗j ∥), ∀i, j = 1, ..., N, (4.2)

donde N corresponde al número de estados de medida x⃗j , ϵ es el umbral de distancia

(threshold), Θ es la función de Heaviside (i.e., Θ(x) = 0 si x < 0 y Θ(x) = 1
2
Un atractor es un conjunto numérico de puntos hacia los cuales tiende un sistema dinámico
tras un número elevado (i.e., infinito) de iteraciones [116].
Capítulo 4. Materiales y preprocesado
42 de la señal

en cualquier otro caso) y ∥ · ∥ representa la norma 3 utilizada, que puede variar

según las necesidades, aunque por defecto se refiere a la distancia euclídea [120].
Entonces, para los estados ϵ-recurrentes, es decir, para los que se encuentran a un ϵ
de vencindad, se define la noción de recurrencia en sí misma [118]:

x⃗i ≈ x⃗j ⇔ Ri,j ≡ 1.

A partir de esta noción de semejanza entre estados cercanos al mismo tiempo, el

RP se obtiene representando la matriz de recurrencia descrita en la Ecuación 4.2.
Para tal cometido, se pueden utilizar colores diferentes para las salidas binarias de
Θ, e.g., representar un punto negro sobre las coordenadas (i, j) si Ri,j ≡ 1 (existe
recurrencia), y un punto blanco si Ri,j ≡ 0 (no existe recurrencia). Ambos ejes del
RP corresponden a ejes temporales y se suele representar, por convención, hacia la
derecha y hacia arriba (véase la Figura 4.4a y la Figura 4.4d) [117]. Nótese que,
por definición, Ri,j ≡ 1|Ni=1 , de modo que el RP siempre tendrá una linea diago-
nal principal de color negro, denominado linea identidad (LOI, del inglés line of
identity) [117]. A partir de estos RP, se pueden deducir múltiples características
topológicas, algunas de las cuales vienen incluidas en el cuadro de características
de la HRV proporcionado en la sección anterior (sección 4.1.3 - Extracción de ca-
racterísticas). En este aspecto, Norbert Marwan, un reconocido y actual experto en
el ámbito del análisis no lineal, recopila una serie de patrones de RP en su tesis
doctoral [118]. Algunos de estos patrones vienen recogidos en la Tabla 4.3.
En este ámbito, existe cierta controversia alrededor de la elección del valor de ϵ.
En la actualidad, este valor se puede obtener de forma recursiva a través de barridos
numéricos y una noción más o menos subjetiva que busque maximizar la eficiencia a
la hora de enfrentar un problema determinado [121]. Sin embargo, a la hora de seguir
un patrón más consensuado y reproducible en todos los casos, se puede recurrir al
método del fixed amount of nearest neighbors (FAN), que consiste en mantener un
compromiso con la vecindad de los estados de forma que la densidad de recurrencia
de las columnas del RP sea constante, más exactamente, fija [117]. Esto provoca que
los RP sean asimétricos, maximizando la entropía del resultado final, tal y como se
puede comprobar en la Figura 4.4b y la Figura 4.4e.
Asimismo, los mapas de recurrencia pueden ser cuantificados en función de estos
patrones gráficos, lo cual es realmente útil para la fase de entrenamiento de clasi-
ficadores, pues permite extraer información resumida de los mismos. El análisis de
cuantificación de recurrencia, o RQA, consiste en medir patrones específicos y bien
definidos del RP [102]. En este caso, se han adquirido los parámetros del RP de la
HRV más utilizados habitualmente:
3
Norma matemática de un vector: se entiende como la distancia euclídea (en línea recta) entre
dos puntos A y B que delimitan dicho vector.
4.2. Herramientas de análisis no lineal 43

• Tasa de recurrencia (REC): es la relación de todos los estados recurrentes

(puntos de recurrencia) respecto a todos los estados posibles:
N
1 X
REC = Ri,j .
N i,j=1

• Determinismo (DET): se define como el porcentaje de estados recurrentes que

forman líneas diagonales (l):
PN
l=lmin lP (l)
DET = P N
,
l=1 lP (l)

donde P (l) corresponde al histograma de l.

• Entropía de Shannon (SHAN): la entropía de Shannon de la probabilidad de
distribución de líneas diagonales (p(l)):
N
X
SHAN = − p(l)ln(p(l)).
l=lmin

• Línea diagonal máxima (L): corresponde a la longitud de la línea diagonal más

larga de todo el RP (sin contar la LOI):

L = max(li ; i = 1, ..., Nl ).

• Divergencia (DIV): corresponde a la inversa de L:

1
DIV = .
L

En el presente trabajo, se han obtenido los RP de las señales de HRV de dos

formas. La primera, consistió en calcular los RP a partir de la Ecuación 4.2 para
aplicar RQA y así extraer las características no lineales de la HRV con las que
alimentar los modelos tradicionales de aprendizaje automático (véase la sección 5.1
- Aprendizaje automático tradicional). Por otro lado, la segunda estrategia consistió
en extraer únicamente la matriz de distancias, sin aplicar ningún valor de ϵ, para
alimentar la entrada de los modelos de aprendizaje profundo (véase la sección 5.2 -
Aprendizaje profundo). En este último caso, los mapas de recurrencia ya no serían
binarios, aunque incluirían ulterior información sobre patrones difusos a lo largo y
ancho de la matriz, tal y como se puede comprobar en la Figura 4.4c y la Figura 4.4f.
Capítulo 4. Materiales y preprocesado
44 de la señal

Tabla 4.3: Significado de patrones concretos en el RP.

Patrón Significado

Homogeneidad Proceso estacionario

Disrupciones Datos no estacionarios; algunos estados se encuentran lejos de lo
normal; posible presencia de transiciones entre estados
Periodicidad/cuasi- Proceso conteniendo sucesos cíclicos, la distancia entre ellos (dis-
periodicidad tancia entre líneas) corresponde al periodo del ciclo
Líneas paralelas a la LOI Evolución de estados similar en épocas diferentes; si estas ocu-
rren conjuntamente con puntos aislados, podría tratarse de un
movimiento caótico e incluso observarse órbitas periódicas ines-
tables.
Líneas ortogonales a la LOI Evolución de estados similar en épocas diferentes, pero hacia
atrás en el tiempo
Estructuras arqueadas Evolución de estados similar en épocas diferentes, pero con velo-
cidades distintas; la dinámica del sistema podría estar sufriendo
cambios o indicar transiciones ocultas

(a) RP Apnea (b) RP-FAN Apnea (c) Distancias Apnea

(d) RP Normal (e) RP-FAN Normal (f) Distancias Normal

Figura 4.4: Comparación de análisis de recurrencia.

Capítulo 5

Métodos y herramientas de
aprendizaje automático

Contenidos
5.1 Aprendizaje automático tradicional . . . . . . . . . . . . 46
5.1.1 Clasificadores tradicionales . . . . . . . . . . . . . . . . . 46
5.1.2 Clasificación agregada . . . . . . . . . . . . . . . . . . . . 52
5.1.3 Selección secuencial de características . . . . . . . . . . . 54
5.2 Aprendizaje profundo . . . . . . . . . . . . . . . . . . . . . 55
5.2.1 Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.2 Redes neuronales convolucionales . . . . . . . . . . . . . . 62
5.3 Herramientas de validación estadística . . . . . . . . . . . 65
5.3.1 Característica operativa del receptor . . . . . . . . . . . . 65
5.3.2 Validación cruzada . . . . . . . . . . . . . . . . . . . . . . 67
5.3.3 Validación externa . . . . . . . . . . . . . . . . . . . . . . 68
5.3.4 Otras medidas . . . . . . . . . . . . . . . . . . . . . . . . 69

Sinopsis
En este capítulo se describen los métodos de aprendizaje automático empleados.
Se diferencia entre aprendizaje automático tradicional y aprendizaje automático
profundo y finalmente se describen los métodos de validación empleados.

45
46 Capítulo 5. Métodos y herramientas de aprendizaje automático

5.1. Aprendizaje automático tradicional

El aprendizaje automático (en inglés, machine learning), es una disciplina del
campo de la inteligencia artificial que, a través de determinados algoritmos, pro-
porciona modelos matemáticos capaces de identificar patrones en datos masivos y
elaborar predicciones al respecto [122]. Dentro de esta disciplina se pueden encon-
trar dos grandes ramas, la de los algoritmos tradicionales de aprendizaje automático
(ingeniería de marcadores) y la de los algoritmos de aprendizaje profundo (común-
mente conocido como deep learning, en inglés). En esta sección se detallarán cuáles
han sido los modelos de clasificación basados en aprendizaje automático tradicional
utilizados para la detección de apnea del sueño a partir de la HRV.

5.1.1. Clasificadores tradicionales

Árbol de decisiones

El árbol de decisiones (DT) es un modelo clásico de predicción perteneciente a la

familia de los algoritmos de aprendizaje automático supervisado [122]. El objetivo
principal de este método es el de predecir un valor a partir del aprendizaje de normas
sencillas de decisión, las cuales, son inferidas a partir de un conjunto de datos de
entrenamiento tras múltiples iteraciones [123].
Las primeras versiones de árboles de decisión fueron propuestos por primera vez,
formalmente, por el departamento de estadística de la universidad de Wisconsin-
Madison en 1963 [124]. Sin embargo, su utilidad y su debida valorización no se
disparó hasta la propuesta de una versión definitiva publicada en 1984 por Breiman,
Stone, Friedman y Olshen, bautizada como CART (árbol de regresión y clasificación,
en inglés Classification And Regression Tree), la cual completaría su definición como
herramienta incluida entre las primeras técnicas de aprendizaje automático [125].
Todo DT sigue una estructura jerárquica constituida por un nodo raíz, a partir
del cual emergen varios nodos hijos, que a su vez se ramifican en ulteriores nodos
hijos o nodos terminales. Los nodos hijos pueden asemejarse a las ramas de un
árbol, mientras que los nodos terminales corresponderían a sus hojas, de ahí su
peculiar denominación [126]. El entrenamiento de este modelo consiste en un análisis
cuantitativo realizado sobre la población de entrada (set de entrenamiento), a partir
de la cual se extraen los atributos necesarios para determinar los nodos terminales,
es decir, las decisiones definitivas. La Figura 5.1a ilustra cómo sería la estructura
genérica de un DT convencional.
5.1. Aprendizaje automático tradicional 47

(a) Modelo CART (b) Ejemplo ECV

Figura 5.1: Árbol de decisión (izquierda) y ejemplo ECV (derecha).

El primer paso para construir un DT siguiendo el estándar CART, es averiguar el

mejor candidato para el nodo raíz. Para cada categoría o variable, se pueden extraer
dos subcategorías binarias con sendas probabilidades de suceso. Por ejemplo, dado
un conjunto de comorbilidades cardíacas en una muestra de datos de pacientes co-
nocida, se proporcionan las probabilidades de suceso para una determinada ECV en
la Figura 5.1b. Como se puede comprobar, las probabilidades de suceso no alcanzan
el 100 % de forma exacta, de modo que las hojas de este nodo se considerarán impu-
ras. La impureza se suele medir a través de la medida de impureza de Gini, aunque
también existen otras formas basadas en medidas de entropía [123]. La medida de
impureza de Gini se obtiene como:
Gi = 1 − Gini,
donde Gini corresponde a la suma de los cuadrados de las probabilidades de éxito
de cada categoría o suceso, esto es:
n
X
Gini = p2k .
k=1

Considerando que para cada hoja el número de muestras es distinto, la Gi asocia-

da al nodo candidato corresponderá a la suma de Gi de ambas hojas, ponderadas
al número de muestras correspondiente. Si se repite este procedimiento para cada
una de las categorías individuales existentes (en el caso del ejemplo, para todas las
comorbilidades), se obtendrá una distribución de impurezas por nodo candidato.
Entonces, el nodo raíz será aquel con la menor medida de impureza posible. Final-
mente, este procedimiento se repite con las subsecuentes ramificaciones del nodo raíz
hasta adquirir nodos puros, o nodos con una impureza menor que la de sus hojas,
pues se considera que ya no tendría sentido seguir ramificando [127].
48 Capítulo 5. Métodos y herramientas de aprendizaje automático

Máquina de vectores de soporte

Una SVM es un algoritmo computacional que aprende, por ejemplo, a asignar

etiquetas a objetos [128]. En el aprendizaje automático, se considera una técnica
de aprendizaje supervisado ya que las categorías de observación se entregan previa-
mente al modelo [129]. La SVM es una generalización de clasificadores de vectores
de soporte (SVC) y clasificadores de margen máximo (MMC). Los MMC intentan
encontrar el margen máximo entre grupos para separarlos dentro de la dimensión
correspondiente (véase la Figura 5.2), donde el margen es la distancia más corta
entre las observaciones y el umbral de clasificación en ese instante o iteración.
Por otro lado, a diferencia de MMC, el SVC puede gestionar clasificaciones erró-
neas en presencia de valores atípicos. Lo que intenta es encontrar un equilibrio entre
las predicciones correctas y las predicciones incorrectas determinando los márge-
nes suaves entre observaciones [130], que son distancias que permiten clasificaciones
erróneas. Este equilibrio se logra mediante validación cruzada, tal y como se muestra
en la Figura 5.3. Sin embargo, no siempre es posible elegir un SVC apropiado, ya
que puede existir más de un margen satisfactorio en ciertos conjuntos de datos (ver
Figura 5.5). Cortés y Vapnik fueron los primeros en transformar la entrada de datos
para encontrar un SVC apropiado y único sin alterar su naturaleza [130]. Así es como
nació la SVM. La SVM comienza con un conjunto de datos en una dimensión baja
(dimensión base) y traslada los datos a una dimensión superior para encontrar un
hiperplano (un SVC n-1 dimensional) que separe el conjunto de datos de dimensión
superior en 2 grupos. Por ejemplo, el SVC de un conjunto de datos bidimensional
es una línea recta (Figura 5.4), el SVC de un conjunto de datos tridimensional es
un plano, y así sucesivamente. Por lo tanto, la definición estricta de SVM involucra
SVC, pero el matiz que marca la diferencia es el truco del kernel.

Figura 5.2: Definición gráfica MMC. Nótese que las clasificaciones erróneas ocurren tras
añadir observaciones nuevas, lo cual introduce sesgo.
5.1. Aprendizaje automático tradicional 49

Figura 5.3: Detalle ilustrativo sobre búsqueda iterativa del SVC apropiado.

Figura 5.4: Una SVM funcionando. Ejemplo ficticio empleando un kernel logarítmico
para redistribuir los datos en una dimensión ulterior.

El truco del kernel consiste en la traslación aparente de una nube de puntos

a un espacio de dimensión n + 1. Esto se realiza a través de funciones kernel que
transforman los puntos de forma que se pueda hallar un SVC único que maximice
el margen entre observaciones. No obstante, esto sería computacionalmente inviable
a partir de cierto punto, por lo que el verdadero propósito de las funciones kernel
no es transformar los datos a una dimensión superior, sino redistribuir el conjunto
de datos dentro del dominio original (véase la Figura 5.5). Algunas de las funciones
más famosas en la literatura son: el núcleo de función de base radial (RBFK) [131],
funciones de núcleo polinomial [132] y las funciones de núcleo logarítmico [133]. En
este trabajo, se ha empleado un kernel RBFK.
50 Capítulo 5. Métodos y herramientas de aprendizaje automático

Figura 5.5: Concepto del truco del kernel. La idea es encontrar una función que redistri-
buya los datos en un problema resoluble con un SVC.

Algoritmo de los k-vecinos más cercanos

Encontrar los k-vecinos más cercanos (KNN) ha sido objeto de la geometría

computacional desde que los ordenadores empezaron a soportar gráficos [134]. Esta
forma de clasificar se ha utilizado ampliamente en aplicaciones de minería de datos y
aprendizaje automático debido a su fácil implementación y distinguido rendimiento
[135]. El algoritmo se puede implementar de la siguiente manera:

• Paso 1: se comienza con un conjunto de datos con categorías por establecer

(Figura 5.6a).

• Paso 2: si aún no se conocen las categorías, se forman grupos en términos de

un valor arbitrario para k, que corresponde a la distancia relativa máxima
entre grupos o categorías posibles. Esta técnica también se conoce como agru-
pamiento de k-medias [136] [137]. Si las categorías se conocen previamente,
etiquete cada observación con su categoría correspondiente y luego se traza un
mapa de grupos etiquetados (Figura 5.6b). Esto es equivalente a entrenar el
modelo.

• Paso 3: dada una observación externa (otro punto), se calcula el k-vecino más
cercano en relación con los grupos circunstantes (Figura 5.6c).

• Paso 4: el grupo más cercano a ese punto corresponderá a la predicción del

modelo (Figura 5.6d).

Este algoritmo puede generalizarse de múltiples maneras, ya que el valor matemá-

tico de la distancia en términos de k puede determinarse mediante varias definiciones,
como por distancia euclídea [138], por similitud [139] u otras métricas.
5.1. Aprendizaje automático tradicional 51

Sin embargo, el desafío consiste en hallar un valor adecuado de k que ofrezca el

mejor rendimiento en un conjunto determinado de datos. Una forma de averiguarlo
es probar varios valores de k y evaluar la razón de predicciones correctas y erróneas.
Esto se puede hacerse fácilmente a través de la toolbox que ofrece MATLAB [140]. En
última instancia, se dejó que MATLAB calculara el valor óptimo de k para analizar
más detalladamente los resultados obtenidos.

(a) Nube de puntos sin categorías (b) Agrupación de datos

(c) Cómputo de la distancia entre vecinos (d) Clasificación de un punto externo

Figura 5.6: Descripción gráfica del algoritmo de KNN.

52 Capítulo 5. Métodos y herramientas de aprendizaje automático

5.1.2. Clasificación agregada

Los clasificadores agrupados (ensemble classifiers, también conocidos como “mé-
todos de agregación”) son algoritmos metaheurísticos 1 de aprendizaje que busca un
mayor rendimiento en comparación a los clasificadores tradicionales de por sí [141].
Normalmente, este tipo de clasificadores son más complejos debido a la diversidad
computacional que presentan, aunque esto también ofrece un aprendizaje más exacto
en determinados casos, especialmente en aquellos donde los modelos tradicionales de
clasificación alcanzan su límite de rendimiento [142]. Aunque estas técnicas pueden
utilizarse para casi cualquier clasificador, es muy habitual su empleo en DT, lo cual
no se debe confundir con el concepto de bosques aleatorios (random forest) [143]. A
continuación, se describen dos de los modelos de clasificación agrupados más comu-
nes dentro de la literatura científica.

Agregación de bootstrap (Bagging)

La agregación de bootstrap (BAG), también conocida como el método del empa-

quetado en castellano, es uno de los métodos de clasificación agregada más simples
y poderosos que existen para reducir la variancia. Este método fue introducido por
primera vez por Leo Breiman, en 1996, como resultado exitoso de sus experimentos
sobre pluralidad numérica [144]. Ademñas, fue pensado para clasificadores denomi-
nados inestables, siendo los más habituales los DT (véase la sección 5.1.1 - Árbol
de decisiones [145]. En otras técnicas consideradas estables, tales como el KNN, el
BAG puede degradar ligeramente el rendimiento del modelo.
El funcionamiento de esta técnica es bastante simple. Partiendo de un conjunto
de datos de entrenamiento D = D1 , D2 , ..., DN , se conforman m subconjuntos (bags
o bolsas en inglés) B1 , B2 , ..., Bm de n instancias o muestras aleatoriamente extraídas
de D con reposición, esto es, las muestras se pueden repetir dentro de un mismo
subconjunto Bi . Habitualmente, además de que n < m, se suele escoger un 60 %
de los datos disponibles para conformar el conjunto de entrenamiento (véase la
Figura 5.7). Acto seguido, cada uno de los Bi generará un modelo entrenado a
partir de sus instancias correspondientes. Finalmente, dichos modelos son validados
por el conjunto de validación (el conjunto restante) y sus resultados son recogidos
para realizar un promedio que será comparado con un umbral probabilístico [144].
1
Metaheurística: disciplina que busca resolver un problema computacional a través de métodos
probabilísticos genéricos y abstractos. Del griego meta (más allá) y heuriskein (encontrar) [141].
5.1. Aprendizaje automático tradicional 53

Figura 5.7: Esquema de funcionamiento del algoritmo de empaquetado.

Agregación adaptativa (AadaBoost)

El método de la agregación adaptativa (ADA, adaptative boosting) es un algo-

ritmo de optimización de clasificadores pensado para reducir el sesgo [146]. Este
método está principalmente basado en aprendedores básicos (stumps), constituidos
por árboles de decisión de primer nivel, que se concatenan de forma secuencial e
iterativa para dar lugar al modelo completo [147].
En primer lugar, se generar los primeros stumps o aprendedores básicos para cada
variable de entrada o característica de interés y se selecciona aquel que presente la
menor impureza de Gini (véase la sección 5.1.1 - Árbol de decisiones). Acto seguido,
se pone a prueba el primer stump con todas las muestras de la población, que por
defecto tienen asociadas un mismo peso. El stump cometerá más o menos errores
según las observaciones que deba clasificar y actualizará los pesos de cada muestra en
consecuencia, de manera que se aumente el peso en los errores y se reduzca el peso en
los aciertos. La forma de aumentar o reducir los pesos se hace a través de una relación
exponencial conocida en inglés como amount of say, que representa la bondad de
un stump en cada caso [148]. El siguiente stump hará exactamente lo mismo que el
anterior, validándose para todas las muestras disponibles de la población, pero con
la diferencia de que los pesos iniciales asociados a cada muestra serán distintos a los
anteriores. Esto mismo se repite de forma indefinida, hasta haber evaluado todas las
características de la variable bajo estudio (véase la Figura 5.8).
54 Capítulo 5. Métodos y herramientas de aprendizaje automático

Figura 5.8: Esquema de funcionamiento de la agregación adaptativa.

5.1.3. Selección secuencial de características

Un problema común en el aprendizaje supervisado es la cantidad de caracte-
rísticas requeridas. Demasiadas características aumentarían la presencia de valores
atípicos, y esto podría provocar cierta confusión durante la etapa de entrenamien-
to [149]. Sin embargo, pocas características podrían privar al modelo de la capaci-
dad de distinguir adecuadamente entre clases. Una estrategia común para descubrir
qué combinación de características proporciona el mejor rendimiento, es la selec-
ción secuencial de características (SFS). Esta técnica entrena un mismo modelo con
diferentes combinaciones de características de forma recursiva. La selección de ca-
racterísticas agrega o elimina características de un subconjunto candidato al evaluar
una función criterio, que generalmente depende de la generalización interna del cla-
sificador [150]. Dado que una comparación exhaustiva del valor del criterio en todos
los subconjuntos de un conjunto de datos generalmente no es factible, SFS se mueve
en una sola dirección, siempre aumentando o reduciendo el conjunto candidato [151].
Dicho esto, existen dos tipos de algoritmos para SFS: la selección secuencial de
características hacia adelante (SFFS) y selección secuencial de características hacia
atrás (SBFS). En SFFS, las características se van agregando hasta que la aporta-
ción de características adicionales no hace que disminuya el error del modelo [151].
Por otro lado, en SBFS, las características se eliminan secuencialmente hasta que
aumenta el error [152]. Es preciso indicar que estas dos estrategias implementan
inherentemente un procedimiento de validación cruzada, el cual es descrito con más
detalle en la sección 5.3.2 - Validación cruzada.
5.2. Aprendizaje profundo 55

5.2. Aprendizaje profundo

En la actualidad, la definición de inteligencia artificial (IA) es todavía bastante
difusa. Según Russel y Norvig, la IA comprende cualquier técnica que permita a
las máquinas imitar o perfeccionar el comportamiento humano a la hora de tomar
decisiones para resolver tareas de diversa índole y complejidad, ya sea de forma
totalmente independiente o parcialmente asistida [153]. Sin embargo, este paradigma
tan prometedor debe enfrentarse a las complejas limitaciones del ser humano ya que,
por lo general, éste suele presentar dificultades a la hora de expresar su conocimiento
tácito en determinados aspectos de la inteligencia, especialmente en lo relativo a
las emociones [154]. El aprendizaje automático (machine learning) pretende poner
solución a este tipo de problema. Lograr aprendizaje automático consiste en hacer
que una máquina mejore su desempeño en una determinada tarea por medio de
la experiencia y una serie de parámetros de rendimiento [122]. En este ámbito,
existen algoritmos “superficiales” (shallow), tales como la SVM o el KNN (véase la
sección 5.1.1 - Clasificadores tradicionales), y algoritmos “profundos” (deep) que son
los que se describen en esta sección. Los algoritmos de aprendizaje profundo suelen
emplear múltiples capas de redes neuronales complejas, operaciones matemáticas
avanzadas ([Link].: convoluciones) y múltiples funciones de activación [155].

Muestra de Extracción de Modelo de Resultado o

entrada caracterís cas clasi cación salida

Flor

Perro

Flor

Perro

Muestra de Extracción de caracterís cas (internamente) Resultado o

entrada y clasi cación salida

Figura 5.9: Aprendizaje automático tradicional (arriba) v.s. profundo (abajo).

56 Capítulo 5. Métodos y herramientas de aprendizaje automático

5.2.1. Fundamentos

El perceptrón

Las redes neuronales artificiales (ANN, por sus siglas en inglés artificial neural
network), representan la piedra angular del aprendizaje profundo. Las ANN fueron
propuestas por primera vez en los años 40 por McCullough y Pitts [156], inspirándose
en los principios básicos del procesado de información presentes en algunos sistemas
biológicos. Este tipo de redes son de principal interés en todas sus facetas por su
gran flexibilidad, dado que permiten modificar su estructura para adaptarse a una
gran variedad de contextos. Las ANN son representaciones matemáticas formuladas
por unidades de procesamiento interconectadas entre sí, denominadas neuronas arti-
ficiales o perceptrones [155]. El perceptrón constituye la unidad mínima de cómputo
capaz de extraer características o tendencias a partir de un conjunto de señales de
entrada [157]. La estructura de un perceptrón convencional es la mostrada en la
Figura 5.10, que está compuesta por una serie de entradas xi ponderadas por un
peso wi y un término constante b0 denominado sesgo o bias, que tiene también su
propio peso asociado. Así pues, atendiendo a los parámetros anteriormente descritos,
la función característica de un perceptrón se puede definir como:
n
X
f (x) = (xi · wi ) + (b0 · w0 ).
i=0

Asimismo, el perceptrón tiene asociado una función de activación, la cual puede

variar según las necesidades del problema, aunque las más utilizadas son la reluac-
tivación (ReLU, del inglés rectified linear unit), la tangente hiperbólica (tanh), y la
función sigmoide, todas ellas representadas en la Figura 5.11 [158].

Constante b0 w0

x w1
f(x)
w2 Salida
x
Entradas
Función de
wn ac vación
xn

Figura 5.10: Estructura fundamental de un perceptrón.

5.2. Aprendizaje profundo 57

y y y
1
1 1

-1 1 x -1 1 x -1 1 x

-1 -1
-1

(a) ReLU (b) tanh (c) Sigmoide

Figura 5.11: Funciones de activación más comunes.

El perceptrón multi-capa

Generalmente se suele diferenciar entre una red de perceptrones mono-capa y

una red de perceptrones multi-capa (MLP, del inglés multi-layer perceptron), los
cuales son en esencia ANN [157]. Las MLP se caracterizan por tener una capa de
entrada, un conjunto de capas ocultas u escondidas (hidden layers) y una capa de
salida (Figura 5.12). A diferencia del perceptrón convencional, el sesgo ya no tiene
asociado un peso propio, sino que se suma sobre la combinación lineal de los vectores
de entrada con sus respectivos pesos para servir como término independiente a la
hora de ajustar el rango dinámico de salida [156]. Dada la complejidad estructural
de las MLP, existe una notación específica adoptada por convenio para el modelado
matemático de redes neuronales en base a una expresión matricial, la cual resulta
de gran utilidad para su implementación a nivel computacional:

AL = σ aL−1 , z L = w L x L + bL , (5.1)

donde aL representa el vector de activaciones para la L-ésima capa escondida, w es la

matriz de interconexión entrada-salida y b es el vector de términos independientes
(sesgo) sumados a cada una de las neuronas de salida. En este caso, σ represen-
ta la función de activación sigmoide (también conocida como curva logística), que
por razones históricas era utilizada para normalizar los valores de salida entre 0 y
1 [159]. Sin embargo, la función ReLU imita mejor el comportamiento de una neu-
rona a nivel biológico, por lo que su empleo en ANN es cada vez más común en la
actualidad [160]. Es preciso indicar que en el desarrollo completo de la expresión
matricial de activación, n representa el número de neuronas de entrada, mientras
que m representaría el número de neuronas de salida:
58 Capítulo 5. Métodos y herramientas de aprendizaje automático

       
 a0   w0,0 w0,1 ... w0,m   x0   b0 
       
 a1   w1,0 w1,1 ... w1,m   x1   b1 
 .  = σ  .  .  +  .  .
       
 ..   .. .. .. .. 
. . .   ..   .. 
   
  
       
an wn,0 wn,1 ... wn,m xn bn

Según teorema de aproximación universal, cualquier función continua capaz de

caracterizar intervalos de números reales en una salida cuyo intervalo también es
real, puede aproximarse arbitrariamente a una MLP con tan sólo una capa ocul-
ta [161]. Esto quiere decir que casi cualquier mecanismo de entrada-salida presente
en la naturaleza podría aproximarse a una red neuronal artificial de una única capa
escondida. Este tipo de redes también se conoce como redes prealimentadas (feedfor-
ward networks) pues cada neurona presenta conexiones dirigidas hacia las neuronas
de la capa sucesiva, hasta llegar a la salida [157]. En algunas referencias sobre diseño
de MLP, el valor de los pesos se puede expresar gráficamente por medio del grosor
de las interconexiones (véase la Figura 5.12).

Capa de entrada Capas ocultas Capa de salida

Figura 5.12: Ejemplo de MLP.

5.2. Aprendizaje profundo 59

Proceso de aprendizaje de una red neuronal

El concepto de entrenamiento de cualquier red neuronal puede reducirse a un

problema de optimización. De forma escueta, entrenar una red neuronal consiste en
el proceso de hallar el conjunto de pesos tales que el resultado a la salida de la red sea
lo suficientemente “buena” para afrontar un determinado problema [122]. La bondad
del conjunto de pesos seleccionados para la red se mide en función de la lejanía, en
términos de exactitud, entre la salida de la red y el valor esperado [162]. Esta lejanía
se conoce como error y es comúnmente caracterizado por una función de coste. Entre
las funciones de coste más utilizadas en este ámbito, el error cuadrático medio (MSE,
por sus siglas en inglés, mean squared error) y la entropía cruzada suelen ser las más
habituales [163]. En este trabajo, se empleará el MSE como ejemplo para explicar el
proceso de aprendizaje de la red, cuya expresión es la que se indica a continuación:

n
1X
M SE = (xi − x̃i )2 , (5.2)
n i=1

donde xi corresponde a la i-ésima observación dada y x̃i es la predicción proporcio-

nada por el clasificador o la red. Por consiguiente, siguiendo la notación presentada
en el apartado anterior, la función de coste a la salida de una red neuronal puede
definirse de la siguiente manera [164]:

C(aL (z L )), z L = aL−1 wL + bL , (5.3)

donde C representa la función de coste asociada a las activaciones de la capa de

salida aL (nótese que a raíz de la expresión 5.1, la entrada de la capa actual está
compuesta por las activaciones de la capa anterior). Tal y como se puede comprobar
en la expresión 5.3, la función de coste consiste en una composición anidada de
funciones, concretamente, “z L está compuesta con aL que está compuesta con C”, o
lo que es lo mismo: C ◦ aL ◦ z L . Como el problema consiste en optimizar la función
de coste C en base a los pesos wL y términos independientes bL asociados, se debe
calcular la derivada de la función de coste respecto a estos dos parámetros. Puesto
que dicha función es una composición de funciones, es posible aplicar la regla de la
cadena para determinar las derivadas correspondientes en cada caso [165]:

∂C ∂C ∂aL ∂z L ∂C ∂C ∂aL ∂z L
= · · , = · · . (5.4)
∂wL ∂aL ∂z L ∂wL ∂bL ∂aL ∂z L ∂bL
60 Capítulo 5. Métodos y herramientas de aprendizaje automático

Estas ecuaciones contienen un producto en común, conocido como error impu-

table (δ L ), el cual representa la variación del coste C con respecto a la suma ponde-
rada z L , esto es:
∂C ∂C ∂aL
δL = L = L · L . (5.5)
∂z ∂a ∂z
L L
Si además se tiene en cuenta que ∂z ∂bL
= 1 y que ∂w ∂z
L = ai
L−1
, entonces las
ecuaciones descritas en 5.4 pueden reducirse a la siguiente expresión:

∂C ∂C
L
= δ L · aL−1
i , L
= δL. (5.6)
∂w ∂b
Estas ecuaciones simplificadas indican que la variación del coste respecto a los
términos de sesgo es equivalente al error imputable para cada neurona o capa, mien-
tras que la variación del coste respecto a los pesos es equivalente a ese mismo error
ponderado por las activaciones de la capa anterior. Esto implica que el cálculo de los
errores para el resto de capas (L − 1capas) sea aún más sencilla, puesto que el mis-
mo error se propaga de forma ponderada según la penalización de las activaciones
sucesivas hacia atrás. Concretamente, para la capa L − 1:

donde las derivadas parciales tomadas en función de la activación son las únicas
a determinar de por sí y wL representa la matriz de activaciones equivalente a la
variación de las sumas ponderadas z L respecto a las activaciones anteriores aL−1 .
Debido al efecto propagativo hacia atrás, esta técnica recibe el nombre de retro-
propagación o backpropagation, en inglés [166]. Este procedimiento es extensible al
resto de capas de la red, recorriéndola desde la salida hasta la entrada, de modo que
todos los pesos se modifican de forma global en función de la información de error,
en lugar de modificar uno a uno los pesos según su responsabilidad en la totalidad de
la red [167]. La técnica de retropropagación ha sido el elemento clave del siglo para
acabar con el invierno de la IA ocasionado por las fuertes limitaciones existentes en
el entrenamiento de redes neuronales.
5.2. Aprendizaje profundo 61

Finalmente, la forma más tradicional de optimizar este error es a través del

algoritmo de descenso de gradiente, el cual estima numéricamente los mínimos locales
de una función determinada, en este caso, la función de coste. El gradiente no es
más que una generalización del concepto de derivada, pero con más de una variable
independiente, denotado por el operador nabla ∇. Por ejemplo, para un determinado
camino en Rn , las componentes del gradiente equivalen a las derivadas parciales del
campo escalar correspondiente x1 , x2 , ..., xn [168]:

∂f (r) ∂f (r) ∂f (r)
∇f (r) = , , ..., . (5.7)
∂x1 ∂x2 ∂xn

La forma más sencilla de visualizar el comportamiento del algoritmo de descenso

de gradiente en ANN es a través de la metáfora de la montaña. Esta metáfora
consiste en un explorador que se ha perdido en lo alto de una cadena montañosa
tras la aparición de una neblina muy densa. El explorador solamente dispone de una
linterna que le permite evaluar la pendiente del terreno a unos pocos metros de su
posición. El objetivo del explorador es encontrar el camino hacia su campamento
base, el cual se encuentra en uno de los puntos más bajos del conjunto montañoso.
Entonces, el explorador realizaría barridos sobre el terreno con su linterna para
evaluar las pendientes a su alrededor (estos representan el valor del gradiente para
las direcciones correspondientes). Asimismo, el explorador escogerá la pendiente más
abrupta pero en sentido contrario al de crecimiento (el valor opuesto al gradiente, el
cual indica el valor hacia donde “más crece” la montaña), es decir, procurará ir hacia
abajo. Esto le permitirá acercarse hacia un punto bajo, pero no necesariamente el
más bajo, que es donde se encuentra el campamento.
Ya sea desde el punto de vista cualitativo como formal, la limitación principal de
este algoritmo es precisamente el de las condiciones de partida. Una posible solución
es la de aplicar el mismo algoritmo múltiples veces sobre el espacio de costes, desde
diferentes puntos de partida, para así evaluar los posibles mínimos alrededor de
un subespacio candidato dentro del original. Lejos de ulteriores definiciones que se
escapan del alcance de este trabajo, es preciso indicar que a lo largo de la historia
se han propuesto algoritmos alternativos que persiguen el mismo objetivo, pero de
forma más sofisticada. Tales algoritmos, como el de la estimación adaptativa de
inercia [169] (ADAM, por sus siglas en inglés adaptive momentum estimation) y
la propagación de error cuadrático medio [170] (RMSP) también se han puesto a
prueba en el presente trabajo para evaluar el rendimiento de los modelos entrenados
en cada caso. En cualquier caso, cualquiera de los algoritmos anteriormente descritos
encontrará su propio camino con resultados similares, aunque la principal motivación
de emplear más algoritmos no es tanto la capacidad de converger hacia la solución
en sí, sino la velocidad a la que lo hacen.
62 Capítulo 5. Métodos y herramientas de aprendizaje automático

5.2.2. Redes neuronales convolucionales

Una red neuronal convolucional (CNN, por sus siglas en inglés convolutional
neural network) es una generalización de las MLP inspirada en el cortex visual
del cerebro. En términos prácticos, las CNNs fueron propuestas por primera vez a
finales de los años 80 por Yann LeCun para reconocer dígitos en letras de cambio
y códigos postales escritas a mano [171]. Sin embargo, su escalabilidad se vio muy
limitada por la capacidad computacional de la época, lo que provocó un hiatus de
casi 20 años en el desarrollo de estas técnicas de aprendizaje. En 2012, Fei-Fei Li et
al. organizaron una competición mundial sobre clasificación de imágenes basado
aprendizaje automático [172], cuyo ganador propició de nuevo el desarrollo y la
exploración de las CNN, AlexNet [173]. La base de toda CNN es la convolución, una
operación matemática que representa la superposición sucesiva de dos funciones,
siendo una de ellas invertida y trasladada al infinito. La definición de convolución
para dos funciones f y g dadas es [174]:
Z ∞
Conv(f, g)(t) = (f ∗ g)(t) = f (τ ) · g(t − τ )dτ,
−∞

donde τ corresponde al desplazamiento ficticio entre funciones. La expresión discreta

de esta operación, para un desplazamiento k, puede expresarse como:

∞
X
f [n] ∗ g[n] = f [k] · g[n − k],
k=−∞

cuya expresión puede extenderse a las dos dimensiones de la siguiente manera [175]:

∞
X ∞
X
f [m, n] ∗ g[m, n] = f [i, j] · g[m − i, n − j]. (5.8)
j=−∞ i=−∞

Las capas convolucionales se ocupan de realizar un barrido sobre la imagen de

entrada a través de un kernel. El kernel actúa como un filtro de dimensiones pe-
queñas que se encarga de extraer características a partir de la imagen de partida.
Normalmente, se suele utilizar más de un kernel para extraer un mayor número de
características, las cuales, se cuantifican en forma de activación. Cada activación
representa algo así como la presencia de un patrón en concreto. Por ejemplo, si se
adopta un kernel en forma de cruz, como la mostrada en la Figura 5.13, el valor
asociado a su activación durante el barrido será más intenso cuanto más presente
se encuentre ese patrón en la propia imagen. La implementación de capas convo-
lucionales permite reducir el número de interconexiones de la red, aligerando en
consecuencia la carga computacional asociado al sistema.
5.2. Aprendizaje profundo 63

Figura 5.13: Definición gráfica de convolución bidimensional con un kernel de 3 × 3

píxeles con un paso de 1 unidad por iteración.

Más precisamente, en el ejemplo mostrado en la Figura 5.13, el kernel es repre-

sentado como un rectángulo de 3 × 3 unidades con las ponderaciones distintas de
cero representadas en amarillo. La porción de la imagen de entrada en azul es el
factor matricial al otro lado del producto en la expresión 5.8. De hecho, se puede
apreciar que el desplazamiento o stride es igual a uno, pues el kernel realiza barridos
sobre la imagen de entrada en pasos de un pixel en horizontal y luego en vertical
hacia abajo. Aparte del stride, existe otro parámetro a tener en cuenta a la hora de
realizar barridos, el padding. El padding es una técnica que realiza un ajuste para
rellenar el área perimetral de la imagen de entrada de modo que el kernel pueda
realizar barridos completos sin dejar ningún pixel sin procesar [176]. Este relleno
puede ejecutarse de varias formas, ya sea rellenando con ceros el area faltante para
ajustar el tamaño de la imagen a las necesidades del kernel (zero-padding), o bien
recortando la imagen descartando píxeles del exterior (cropping). Este parámetro no
es indispensable cuando el tamaño de la imagen es un múltiplo entero del tamaño
del kernel y el stride se establece a la unidad.
En CNN, es muy habitual aplicar una capa de reducción dimensional sobre el
mapa de activaciones resultanta. Esta operación se denomina pooling y entre las
funciones más importantes se encuentra el Max Pooling, que escoge el valor máximo
del mapa de activaciones y el Average Pooling, que toma la media estadística de
todas las activaciones [177].
64 Capítulo 5. Métodos y herramientas de aprendizaje automático

Arquitectura propuesta e hiperparámetros de la red

Una vez establecidos los principios de funcionamiento de las redes neuronales y

sus homólogos profundos, las CNN, se propone una arquitectura CNN minimalista
constituida por tan sólo dos capas escondidas y 23000 parámetros de aprendizaje en
total. Tal y como se puede mostrar en la Figura 5.14, la red está compuesta por una
capa de entrada de 60 × 60 píxeles, seguida de una capa convolucional de 32 kernels
de 3 × 3 píxeles. El bloque de batch normalization corresponde a un proceso muy
habitual aplicado a la salida de la capa convolucional, pues se encarga de normalizar,
en lotes pequeños de entrenamiento, los valores de salida entre 0 y 1 para facilitar la
convergencia y evitar el internal covariate shift 2 [178]. Finalmente, se ha dispuesto
una capa densa de perceptrones (fully connected) para interconectar las activaciones
anteriores con dos neuronas para las salidas posibles (A: apnea, N:Normal).
Asimismo, los parámetros de entrenamiento (hiperparámetros) han sido escogi-
dos acorde a las pautas generales halladas en el estado del arte. En primer lugar, se
ha escogido un learning rate de 0.001, cuyo valor representa el grado de actualización
de los pesos de la red por iteración. En segundo lugar, se ha escogido un periodo
de entrenamiento de 100 épocas, con 50 iteraciones por época. Las épocas (epochs)
corresponden al número de veces que el algoritmo de entrenamiento recorre y actua-
liza los pesos de la red con la partición completa de datos de entrenamiento [179].
Finalmente, se ha escogido una porción de entrenamiento del 80 % y para validación
se ha dejado el 20 % restante. Es preciso indicar que del entrenamiento se obtiene un
valor de exactitud a partir del conjunto de validación (Val. Ac) el cual es resultado
del último valor de validación dentro de cada epoch.

60x60x1 3x3x32 3x3x32 288x1x1 1x1x2

{ … } -> (0- 1)
…

Entrada Conv2D Batch normaliza on Fully connected Salida

Figura 5.14: Arquitectura de la CNN propuesta.

2
El internal covariate shift se refiere a las condiciones iniciales de entrenamiento. Más concre-
tamente, a los problemas ocasionados por la tasa de aprendizaje.
5.3. Herramientas de validación estadística 65

5.3. Herramientas de validación estadística

En esta sección se describen los procedimientos para evaluar el rendimiento de
los modelos de aprendizaje automático anteriormente descritos. En primer lugar,
se introduce la curva característica del receptor, en segundo lugar, se describe el
método de la validación cruzada de k-iteraciones y finalmente se presenta el método
de validación externa como método fidedigno.

5.3.1. Característica operativa del receptor

La curva ROC (del inglés Receiver Operating Characteristic o característica ope-
rativa del receptor) es un método estadístico originalmente diseñado para evaluar la
eficacia de los sistemas de detección de señales por radar durante la Segunda Guerra
Mundial [180]. Aunque la invención de esta técnica sentó las bases de la teoría de de-
tección de señales, también ha sido ampliamente utilizado en la práctica clínica para
el cribado univariable de determinadas enfermedades [181]. Sin embargo, hoy en día
es principalmente utilizado en el ámbito computacional para medir el rendimiento
de los modelos avanzados de clasificación [182].
Toda implementación de curva ROC consta de dos argumentos de entrada: la
secuencia de categorías originales, conocidas como target, y la secuencia de salida
u output, que corresponde al valor de la n-ésima clase predicha por el modelo. Pa-
ra dibujar una curva ROC solo se requiere la tasa de verdaderos positivos (TPR)
y la tasa de falsos positivos (FPR). La TPR define cuántos resultados positivos
correctos ocurren entre todas las muestras positivas disponibles, comúnmente co-
nocida como sensibilidad (SE) [183]. Por otro lado, la FPR corresponde al número
de resultados positivos incorrectos que ocurren entre todas las muestras negativas
disponibles [184]. El espacio ROC se conforma a partir de la TPR y la FPR normali-
zadas. Asimismo, una línea diagonal que parte desde el origen hasta la unidad (1,1)
separa el espacio ROC en dos áreas de modo que los puntos sobre la línea se con-
sideran resultados “buenos” los puntos debajo de la línea se consideran resultados
“pobres”. Un resultado de clasificación perfecto correspondería a un punto ubicado
en el (0,1), donde la FPR es cero (sin errores) y, por lo tanto, la TPR es igual a
la unidad (véase la Figura 5.15a). Cabe decir que un predictor “muy pobre” podría
funcionar “bien” invirtiendo el criterio en decisiones binarias, que es equivalente a
invertir la curva con respecto a la diagonal (Figura 5.15b). En definitiva, dado que
la diagonal representa el peor de los casos (Figura 5.15c), cuanto más se separe la
curva ROC de ésta, mejor será la clasificación. Se puede aplicar un criterio similar
a través del área bajo la curva ROC (AUC).
66 Capítulo 5. Métodos y herramientas de aprendizaje automático

(a) Clasificación ideal (b) Rendimiento habitual (c) Peor de los casos

Figura 5.15: Ejemplos de curvas ROC.

Tal y como se ha mencionado anteriormente, las curvas ROC se emplean princi-

palmente para evaluar el rendimiento de clasificadores. Entonces, es posible calcular
la TPR y la FPR a partir de los resultados de una matriz de confusión [185], que
no es sino una tabla de dos filas y dos columnas que informa sobre los resultados de
clasificación respecto a los valores predichos y reales, es decir, falsos positivos (FP),
falsos negativos (FN), verdaderos positivos (TP) y verdaderos negativos (TN) [186].
De acuerdo con estas variables, es posible establecer los siguientes criterios:

• Exactitud (Ac): se define como el número de objetos correctamente clasifica-

dos dividido por la población global [187]:

TP + TN
Ac = . (5.9)
TP + TN + FP + FN
• Sensibilidad (Se): a menudo se conoce como TPR o exhaustividad. Es la
fracción de ejemplos positivos predichos correctamente por un modelo [183]:

TP
Se = . (5.10)
TP + FN
• Especificidad (Sp): también conocido como tasa negativa verdadera, es la
fracción de ejemplos negativos predichos correctamente por un modelo [184]:

TN
Sp = . (5.11)
TN + FP

Nótese que la FPR y la Sp son complementarias, es decir, FPR = 1 − Sp.

Finalmente, estos parámetros de rendimiento se calcularon junto con la curva ROC
correspondiente, de modo que se posibilitara la comparación con otros modelos.
5.3. Herramientas de validación estadística 67

5.3.2. Validación cruzada

Para evaluar el rendimiento de un modelo es recomendable utilizar mucha in-
formación. Generalmente, cualquier problema de aprendizaje consta de al menos un
conjunto de entrenamiento y un conjunto de validación. Una opción es considerar
la mitad de todos los datos disponibles como entrenamiento y la otra mitad para
validación, pero esto podría provocar un infrajuste. Una posibilidad es la emplear
proporciones como 80/20 o 70/30, cuyo uso es muy frecuente en aprendizaje pro-
fundo. No obstante, es preciso tener en cuenta demasiados datos pueden hacer que
el modelo pierda el grado deseado de generalización mientras que muy pocos datos
pueden conducir a una generalización excesiva.
La validación cruzada pretende paliar el sobreajuste en bases de datos relativa-
mente escasos de observaciones [188]. Este método subdivide el conjunto de datos
en k bloques más pequeños, siendo el valor típico para k de 10, aunque esto es algo
más bien arbitrario [189]. Sustancialmente, el algoritmo consiste en probar todas las
combinaciones posibles de bloques de datos, de modo que para cada iteración uno
de ellos se emplee como validación y el resto como entrenamiento (véase la Figu-
ra 5.16). En el presente trabajo, este procedimiento sólo ha sido aplicado en modelos
de aprendizaje automático tradicional por su uso mayoritario frente al típico 80/20
de los métodos de aprendizaje profundo [86].

1 1 1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 2 2

3 3 3 3 3 3 3 3 3 3

4 4 4 4 4 4 4 4 4 4

5 5 5 5 5 5 5 5 5 5

6 6 6 6 6 6 6 6 6 6

7 7 7 7 7 7 7 7 7 7

8 8 8 8 8 8 8 8 8 8

9 9 9 9 9 9 9 9 9 9

10 10 10 10 10 10 10 10 10 10

k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k = 10

Figura 5.16: Definición gráfica del método de validación cruzada de 10 iteraciones. Para
cada iteración k, se escoge un bloque de validación (sombreado) y el resto de bloques se
emplean para entrenar el modelo.
68 Capítulo 5. Métodos y herramientas de aprendizaje automático

5.3.3. Validación externa

La validación externa es una estrategia de evaluación de rendimiento aún más
robusta que los métodos presentados anteriormente. Este método consiste en reali-
zar entrenamientos y validaciones de modelos de clasificación a partir de bases de
datos completas, esto es, sin particiones internas (training/validation/testing). Para
entrenar cada modelo, se escoge la versión equilibrada (mismo número de observa-
ciones por grupo o categoría) con el fin de minimizar el sesgo y evitar el sobreajuste.
Después, se emplean las bases de datos restantes sin equilibrar para validarlo, es
decir, todas las observaciones disponibles dentro del set de validación. Esto implica
que los resultados obtenidos de este método provienen de pruebas sobre datos total-
mente ajenos a la base de datos de entrenamiento, de manera que no se introduzca
sesgo por el trasfondo clínico de los pacientes (señales del mismo paciente).
Esta práctica es altamente recomendada por la iniciativa de informes transpa-
rentes sobre clasificadores multivariantes para el diagnóstico y pronóstico individual
(TRIPOD, por sus siglas en inglés Transparent Reporting of a multivariable predic-
tion model for Individual Prognosis or Diagnosis). En este trabajo, se han probado
las combinaciones de bases de datos para entrenamiento y validación recogidas en la
Tabla 5.1. En dicha tabla se incluye también la validación cruzada, cuyas bases de
datos son equilibradas siempre, mientras que en validación externa sólo lo son las de
entrenamiento. Por ejemplo, la forma de proceder para el primer experimento de la
Tabla 5.1 es entrenar el modelo escogido con la base de datos de Apnea-ECG para
validarlo primero con validación cruzada (véase la sección 5.3.2 - Validación cruzada)
y después con todas las observaciones de MIT-BIH y UCD-DB. Finalmente se com-
paran los resultados de forma cuantitativa a través los parámetros de rendimiento
(expresiones 5.9, 5.10 y 5.11) definidos en la sección anterior.

Tabla 5.1: Tabla de experimentos por métodos de validación.

Validación externa
ID Validación cruzada (equilibrados)
Entrenamiento (equilibrados) Validación (no equilibrados)

1 Apnea-ECG Apnea-ECG MIT-BIH & UCD-DB

2 MIT-BIH MIT-BIH Apnea-ECG & UCD-DB

3 UCD-DB UCD-DB Apnea-ECG & MIT-BIH

4 Apnea-ECG & MIT-BIH Apnea-ECG & MIT-BIH UCD-DB

5 Apnea-ECG & UCD-DB Apnea-ECG & UCD-DB MIT-BIH

6 MIT-BIH & UCD-DB MIT-BIH & UCD-DB Apnea-ECG

5.3. Herramientas de validación estadística 69

5.3.4. Otras medidas

Para medir el coste de un modelo, algunos autores realizan análisis exhaustivos
en base a parámetros difíciles de adquirir como la complejidad efectiva del mode-
lo [190], mientras que otros recurren a medidas de potencia de consumo tomando
como referencia varios dispositivos de biometría [191]. Sin embargo, no se ha esta-
blecido ningún consenso aún sobre alguna medida que relacionara la exactitud del
modelo con su coste computacional. Por lo tanto, en el presente trabajo, se propone
una forma más sencilla y versátil para relacionar la eficacia y el coste de los mode-
los generados en función de su exactitud y su rendimiento temporal, denominada
exactitud ponderada al tiempo At(ρ, b):

Registros de ECG (h)

At(ρ, b) = 4 · eAc−ρ · logb (T ), T = , (5.12)
Tiempo de validación (s)

donde ρ representa el umbral de exactitud y b representa el umbral de rendimiento

temporal (T ). El rendimiento temporal mide la cantidad de horas de registros de
ECG clasificados por segundo, computado como el tiempo total en horas de los
registros disponibles entre el tiempo requerido por el modelo para clasificarlos todos.
Como los experimentos se han realizado bajo las mismas condiciones de operación,
el coste se puede evaluar a través del tiempo. En este caso, las mediciones se han
realizado en un ACER PREDATOR equipado con 16GB de RAM (3600 MHz) y un
Intel Core i7-4790 a 3.60GHz. Nótese además que este parámetro sólo tiene sentido
cuando se evalúan modelos con bases de datos externas. Esto es así porque durante
la validación cruzada el proceso de validación es iterativo, mientras que la validación
externa se efectúa una única vez.
La Figura 5.17a representa la variación del umbral (b) a lo largo del rendimiento
temporal (T ). Como se puede comprobar, b delimita un objetivo a alcanzar. La fór-
mula 5.12 penalizará los rendimientos temporales por debajo del umbral y legitimará
de forma controlada los tiempos superiores él, de modo que no existan diferencias
demasiado grandes a partir del momento en el que se haya alcanzado el umbral.
Por otro lado, la Figura 5.17b representa la variación del umbral de exactitud (ρ)
a lo largo de la exactitud propia del modelo. En este caso, se ha considerado que
la exactitud sea del orden de 4 veces más importante que el rendimiento temporal
porque no solo se busca que el modelo sea rápido, sino que sobre todo sea exac-
to. No se ha variado la ponderación de la exactitud para mantener una referencia
constante entre los modelos de aprendizaje automático tradicional y profundo. Por
consiguiente, de forma análoga al umbral temporal, las exactitudes por debajo del
umbral será fuertemente penalizadas mientras que se legitimará, en la medida de lo
posible, las exactitudes por encima del umbral.
70 Capítulo 5. Métodos y herramientas de aprendizaje automático

A efectos prácticos, el parámetro de ρ se ha establecido según las exigencias

del estado del arte, esto es ρ = 0,85, pues se trata de un valor representativo de
las exactitudes halladas en la mayoría de trabajos relacionados con la detección
de apnea del sueño. En segundo lugar, como no se han encontrado trabajos que
relacionen el tiempo de ejecución con el coste en este ámbito, se han seleccionado 2
valores representativos para su comparación. En este caso, se han seleccionado los
umbrales de rendimiento temporal de b = 500 y b = 1000 h/s. De este modo, se
podrá comparar la adecuación del rendimiento temporal a determinados contextos
de uso. Concretamente, en los resultados, el umbral de b = 500 se referirá a At1 y
el umbral de b = 1000 se referirá a At2 .

a Umbral de rendimiento temporal. b Umbral de exactitud.

Figura 5.17: Análisis de barrido de los parámetros de At(ρ, b).

Capítulo 6

Resultados

Contenidos
6.1 Aprendizaje automático tradicional . . . . . . . . . . . . 72
6.2 Aprendizaje profundo . . . . . . . . . . . . . . . . . . . . . 74
6.2.1 Resultados comparativos de rendimiento . . . . . . . . . . 76
6.3 Resultados específicos . . . . . . . . . . . . . . . . . . . . . 77
6.3.1 Análisis de entropía . . . . . . . . . . . . . . . . . . . . . 77
6.3.2 Análisis SFS . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.3.3 Análisis ROC . . . . . . . . . . . . . . . . . . . . . . . . . 79

Sinopsis
En este capítulo se exponen los resultados obtenidos. Dada la complejidad y
la gran cantidad de información generada por los experimentos realizados, se ha
seguido un esquema de presentación deductivo, comenzando por los resultados más
generales (validación de modelos propuestos) y terminando por los resultados más
específicos (métodos de análisis).

71
72 Capítulo 6. Resultados

6.1. Aprendizaje automático tradicional

Dentro del aprendizaje automático tradicional, se han realizado 195 experimentos
distintos en total, de los cuales se excluyen de esta sección las variantes relativas a
SFS por considerarse objeto de otra sección aparte (véase la sección 6.3.2 - Análisis
SFS). Para facilitar la comprensión global de los resultados desde una perspectiva
clara y relevante para la eventual discusión, se presentan las tablas de resultados
por clasificador (Tablas 6.1-6.5) en función del tipo de experimento realizado (véase
la Tabla 5.1). Para un desglose más detallado acerca de estos resultados, se puede
consultar el Desglose completo de resultados de aprendizaje automático tradicional.
El descubrimiento más relevante es que los resultados muestran una clara diferencia
de rendimiento entre métodos de validación, concretamente, se puede percibir una
notable caída de exactitud cuando un mismo modelo es validado con bases de datos
externas. Además, en aquellos modelos que resisten mejor esta caída en Ac, suelen
hacerlo a expensas de Se y Se.
Como ejemplos concretos de estos fenómenos, se puede comprobar en los modelos
de KNN, DT, ADA y BAG que la Ac adquirida con validación externa es en torno a
un 20 % menor que la obtenida por validación cruzada de 10 iteraciones. Sin embargo,
esto no sucede tan claramente con el clasificador de SVM, aunque sus valores de Se
y Sp varían mucho entre sí. Por ejemplo, mientras que para KNN la caída de un
sistema de validación a otro permanece generalmente estable en términos de Ac,
Se y Sp, en SVM la caída en Ac no es proporcional a la acaecida en Se y Sp, en
algunos casos proporcionando valores más altos de Se o de Sp de forma exclusiva.
Más concretamente, para una misma base de datos como Apnea-ECG, la SVM
perdió aproximadamente un 6 % de exactitud frente al 17 % de KNN, mientras que
la diferencia de valores de Se y Sp de la SVM se encuentra en torno al 48 % frente
a menos del 1 % en KNN.

Tabla 6.1: Resultados para SVM.

Validación cruzada (k=10) Validación externa

Exp. Set Entrenamiento
Ac ( %) Se ( %) Sp ( %) Ac ( %) Se ( %) Sp ( %) T (h/s) At1 At2

1 Apnea-ECG 78.56 81.23 75.90 72.64 81.67 34.21 97.06 0.45 0.40

2 MIT-BIH 73.48 75.75 71.20 69.85 94.38 14.21 558.50 0.56 0.50

3 UCD-DB 78.12 75.82 80.43 41.41 12.32 87.13 357.73 0.17 0.15

4 Apnea-ECG & MIT-BIH 77.72 77.66 77.77 77.52 83.20 30.16 71.83 0.5 0.5

5 Apnea-ECG & UCD-DB 77.47 79.56 75.37 59.69 74.16 37.81 52.61 0.2 0.2

6 MIT-BIH & UCD-DB 72.85 72.78 72.92 66.55 84.10 38.79 341.66 0.4 0.4
6.1. Aprendizaje automático tradicional 73

Tabla 6.2: Resultados para KNN.

Validación cruzada (k=10) Validación externa

Exp. Set Entrenamiento
Ac ( %) Se ( %) Sp ( %) Ac ( %) Se ( %) Sp ( %) T (h/s) At1 At2

1 Apnea-ECG 81.73 79.68 83.78 64.19 64.26 63.87 144.63 0.35 0.31

2 MIT-BIH 79.43 79.42 79.42 64.31 73.87 42.63 664.56 0.46 0.41

3 UCD-DB 79.12 78.57 79.66 49.36 31.08 78.11 698.02 0.25 0.23

4 Apnea-ECG & MIT-BIH 80.38 79.67 81.09 65.15 66.51 53.77 119.17 0.3 0.3

5 Apnea-ECG & UCD-DB 80.23 80.80 79.66 62.40 57.77 69.41 100.26 0.3 0.3

6 MIT-BIH & UCD-DB 74.97 75.00 74.94 61.83 62.94 60.06 413.36 0.4 0.3

Tabla 6.3: Resultados para DT.

Validación cruzada (k=10) Validación externa

Exp. Set Entrenamiento
Ac ( %) Se ( %) Sp ( %) Ac ( %) Se ( %) Sp ( %) T (h/s) At1 At2

1 Apnea-ECG 75.95 75.42 76.48 62.46 63.72 57.09 1206.27 0.46 0.42

2 MIT-BIH 73.51 72.29 74.73 59.41 66.19 44.02 2758.72 0.46 0.41

3 UCD-DB 74.75 76.09 73.41 52.11 42.87 66.64 2422.71 0.34 0.30

4 Apnea-ECG & MIT-BIH 74.66 74.28 75.04 62.38 63.58 52.38 1003.89 0.5 0.4

5 Apnea-ECG & UCD-DB 74.36 74.31 74.42 56.45 54.20 59.85 497.81 0.3 0.3

6 MIT-BIH & UCD-DB 69.72 69.54 69.90 57.15 57.88 55.98 2227.63 0.4 0.4

Tabla 6.4: Resultados para ADA.

Validación cruzada (k=10) Validación externa

Exp. Set Entrenamiento
Ac ( %) Se ( %) Sp ( %) Ac ( %) Se ( %) Sp ( %) T (h/s) At1 At2

1 Apnea-ECG 81.37 81.42 81.32 68.11 69.96 60.24 545.71 0.52 0.46

2 MIT-BIH 78.46 78.43 78.49 64.22 75.09 39.57 811.97 0.47 0.42

3 UCD-DB 80.16 80.54 79.79 50.45 28.80 84.49 708.87 0.27 0.24

4 Apnea-ECG & MIT-BIH 80.66 80.72 80.59 71.21 73.89 48.91 432.61 0.6 0.5

5 Apnea-ECG & UCD-DB 79.74 79.83 79.64 64.66 59.23 72.88 249.25 0.4 0.4

6 MIT-BIH & UCD-DB 75.21 74.66 75.76 65.42 66.74 63.33 736.32 0.5 0.4
74 Capítulo 6. Resultados

Tabla 6.5: Resultados para BAG.

Validación cruzada (k=10) Validación externa

Exp. Set Entrenamiento
Ac ( %) Se ( %) Sp ( %) Ac ( %) Se ( %) Sp ( %) T (h/s) At1 At2

1 Apnea-ECG 83.42 82.16 84.67 67.20 69.05 59.32 392.78 0.47 0.42

2 MIT-BIH 81.16 80.59 81.74 63.90 74.62 39.58 742.45 0.46 0.41

3 UCD-DB 82.24 82.16 82.32 50.80 28.73 85.51 696.02 0.27 0.24

4 Apnea-ECG & MIT-BIH 82.40 81.19 83.61 68.76 70.65 53.08 288.70 0.5 0.4

5 Apnea-ECG & UCD-DB 81.96 81.54 82.39 64.34 60.47 70.21 161.50 0.4 0.3

6 MIT-BIH & UCD-DB 77.31 78.08 76.53 63.33 64.26 61.86 606.19 0.4 0.4

6.2. Aprendizaje profundo

En el caso de los métodos basados en aprendizaje profundo, los resultados obte-
nidos se recogen en la Tabla 6.6. Como se puede comprobar, en lugar de resultados
relativos a la validación cruzada, se ha obtenido la exactitud de validación (Val. Ac),
la cual es adquirida durante la fase de entrenamiento descrita en la sección 5.2.2 -
Arquitectura propuesta e hiperparámetros de la red.
Dentro de los resultados obtenidos, se puede comprobar que el rendimiento del
modelo varía en función del tamaño de las bases de datos empleadas en cada caso.
Concretamente, el modelo más exacto fue aquel entrenado con APNEA-ECG y
UCD-DB, bajo el algoritmo de ADAM con un 88.7 % de Ac sobre la base de datos
de MIT-BIH, mientras que el modelo menos exacto ha sido aquel entrenado con
UCD-DB bajo el algoritmo de SGDM, con apenas una 74.33 % de Ac sobre las bases
de datos restantes.
Finalmente, la Figura 6.1 expresa de forma gráfica el rendimiento temporal de los
modelos entrenados para cada variante algorítmica de entrenamiento. Como se puede
comprobar tanto en la Tabla 6.6 como en la Figura 6.1, la variante más “pesada” o
costosa ha resultado ser la SGDM, mientras que la variante más “liviana” ha sido
RMSP, con una eficiencia temporal hasta 3 veces superior a SGDM. También es
preciso indicar que el rendimiento temporal y exactitud de la variante ADAM es
bastante similar, aunque ligeramente menor, que los de RMSP.
6.2. Aprendizaje profundo 75

Tabla 6.6: Resultados aprendizaje profundo por modelo.

Exp. Set de entrenamiento Algoritmo Val. Ac ( %) Ac ( %) Sn ( %) Sp ( %) T (h/s) At1 At2

SGDM 86.22 95.75 98.78 93.10 27.15 0.82 0.73

1 APNEA-ECG ADAM 86.54 95.98 98.87 93.46 29.07 0.84 0.76

RMSP 86.88 95.98 98.97 93.37 29.00 0.84 0.76

SGDM 69.27 74.33 75.18 73.79 13.61 0.27 0.25

2 MIT-BIH ADAM 70.44 77.34 76.06 78.17 29.20 0.40 0.36

RMSP 69.68 77.58 74.45 79.58 31.77 0.41 0.37

SGDM 70.28 85.71 92.17 80.82 8.21 0.35 0.31

3 UCD-DB ADAM 74.28 87.49 90.45 85.25 31.18 0.61 0.55

RMSP 72.72 86.86 91.08 83.66 31.29 0.60 0.54

SGDM 90.63 97.85 99.42 96.87 8.02 0.56 0.50

4 APNEA-ECG & MIT-BIH ADAM 90.86 97.66 99.50 96.51 29.93 0.91 0.82

RMSP 92.23 98.10 99.25 97.39 30.15 0.93 0.83

SGDM 91.91 98.15 99.47 95.58 7.28 0.54 0.49

5 APNEA-ECG & UCD-DB ADAM 94.28 98.77 99.51 97.35 28.45 0.93 0.84

RMSP 90.82 97.96 99.79 94.43 28.05 0.90 0.81

SGDM 85.81 91.21 91.59 90.96 7.83 0.42 0.38

6 MIT-BIH & UCD-DB ADAM 85.35 91.40 91.44 91.38 27.65 0.69 0.62

RMSP 86.42 91.82 90.62 92.60 30.64 0.72 0.65

SGDM ADAM RSMP

35
30
25
T (h/s)

20
15
10
5
0
Apnea-ECG MIT-BIH UCD-DB MIT-BIH & UCD- Apnea-ECG & Apnea-ECG &
DB UCD-DB MIT-BIH
Figura 6.1: Rendimiento temporal por variante algorítmica de entrenamiento.
76 Capítulo 6. Resultados

6.2.1. Resultados comparativos de rendimiento

En la Figura 6.2 se ilustra gráficamente la comparativa de rendimiento de la CNN
(entrenada con RMSP) frente al resto de clasificadores tradicionales entrenados con
todos los marcadores (sin aplicar SFS).

CNN-RMSP SVM KNN DT ADA BAG

3000
2000
T (h/s)

1000
0
Apnea-ECG MIT-BIH UCD-DB MIT-BIH & UCD- Apnea-ECG & Apnea-ECG &
DB UCD-DB MIT-BIH

a Rendimiento temporal por modelo.

CNN-RMSP SVM KNN DT ADA BAG
100
Ac (%)

0
Apnea-ECG MIT-BIH UCD-DB MIT-BIH & UCD- Apnea-ECG & Apnea-ECG &
DB UCD-DB MIT-BIH
CNN-RMSP SVM KNN DT ADA BAG
1,0
b Exactitud por modelo.

0,5
At

0,0
Apnea-ECG MIT-BIH UCD-DB MIT-BIH & UCD- Apnea-ECG & Apnea-ECG &
DB UCD-DB MIT-BIH

c Exactitud ponderada al tiempo por modelo (umbral temporal a 500 h/s).

CNN-RMSP SVM KNN DT ADA BAG
1,0

0,5
At

0,0
Apnea-ECG MIT-BIH UCD-DB MIT-BIH & UCD- Apnea-ECG & Apnea-ECG &
DB UCD-DB MIT-BIH

d Exactitud ponderada al tiempo por modelo (umbral temporal a 1000 h/s).

Figura 6.2: Comparativas de rendimiento por parámetro y modelo.

6.3. Resultados específicos 77

6.3. Resultados específicos

6.3.1. Análisis de entropía

En cuanto a las formas alternativas a la SE descritas en la sección 4.2 - He-
rramientas de análisis no lineal, se han observado capacidades muy similares de
caracterizar una separación estadística entre los grupos de apnea y control (nor-
mal). Los resultados se han obtenido a partir de todas las observaciones disponibles
bajo estudio, esto es: Apnea-ECG, MIT-BIH y UCD-DB. Tales resultados se han
reunido en la Figura 6.3 a modo de resumen visual. Como se puede comprobar, la
SE sigue siendo el marcador que mejor separa los grupos de apnea y control. No
obstante, las medidas relacionadas con la entropía difusa (FuzzEn y MFuzzEn) han
demostrado capaciades similares a la SE para separar los grupos en cuestión.

a SE b QSE c NPSE

d DispEn e DistEn f FuzzEn g MFuzzEn

Figura 6.3: Distribuciones de formas de entropía para grupos de apnea (A) y control (N).
El eje vertical corresponde a la frecuencia absoluta de aparición mientras que el eje de las
abcisas corresponde al valor de entropía agrupado por un número de bins lo suficientemente
estrechos como para representar una curva.
78 Capítulo 6. Resultados

6.3.2. Análisis SFS

El algoritmo de SFS, en sus dos variantes, ha presentado una distribución pro-
porcionalmente similar en ambos casos. Estas distribuciones se encuentran detalla-
damente recogidas en el desglose completo de resultados del Apéndice B. En esta
sección se plasman los resultados del análisis dirigido a la tendencia de estos algo-
ritmos para escoger unas características u otras. La Figura 6.4 muestra el recuento
absoluto de aparición de marcadores por dirección SFS. Los resultados indican que
se han escogido muchas más características en SBFS que en SFFS.
No obstante, cotejando ambos gráficos se puede comprobar que las características
más comúnmente escogidas a nivel global han sido el valor medio (MEAN), el IQR,
las componentes de baja frecuencia del LSP, la SE y la FuzzEn. Por el contrario,
las características con mayor tasa de rechazo por parte de los algoritmos de SFS
han sido la DistEn, y los valores de L y DIV del RQA. Finalmente, atendiendo a los
resultados completos expuestos en el apéndice Apéndice A, se ha podido comprobar
que el rendimiento de los modelos entrenados con las variantes SFS no muestran
diferencias significativas entre ellas.

a Frecuencia absoluta SFFS. b Frecuencia absoluta SBFS.

Figura 6.4: Análisis de frecuencia absoluta por variante de SFS.

6.3. Resultados específicos 79

6.3.3. Análisis ROC

En esta sección se exponen los resultados obtenidos del análisis ROC sobre los
experimentos de validación externa. El resto de experimentos, fruto de las varia-
ciones del conjunto de marcadores seleccionado por SFS, no se han incluido para
facilitar la comprensión de los resultados, así como de los descubrimientos y datos
más relevantes para los objetivos del trabajo. Dicho esto, la Figura 6.5 muestra las
curvas ROC de los modelos de aprendizaje profundo por algoritmo de resolución
(SGDM, ADAM, RMSP) y tipo de experimento completo entre paréntesis (véase la
Tabla 5.1 para comprobar las combinaciones posibles entre bases de datos de en-
trenamiento y bases de datos de validación). Por otro lado, la Figura 6.6 muestra
las curvas ROC de los modelos de aprendizaje automático tradicional por modelo
de clasificación y el correspondiente experimento entre paréntesis. Bajo las mismas
condiciones de operación y método de validación, los modelos de aprendizaje pro-
fundo han presentado mayor AUC que los modelos tradicionales de clasificación, así
como curvas mucho más cercanas a la unidad en el espacio ROC.
Además, se puede comprobar que en aprendizaje automático tradicional, las
curvas ROC no muestran muchas diferencias entre sí, mientras que los modelos
de aprendizaje profundo, las curvas indican que el rendimiento de los modelos del
experimento 2 (entrenados con MIT-BIH y validados con el resto de bases de datos)
es significativamente menor al resto.

SGDM (1) ADAM (1) RMSP (1) SGDM (2) ADAM (2) RMSP (2)

SGDM (3) ADAM (3) RMSP (3) SGDM (4) ADAM (4) RMSP (4)

SGDM (5) ADAM (5) RMSP (5) SGDM (6) ADAM (6) ADAM (6)

Figura 6.5: Curvas ROC por modelo y experimento (aprendizaje profundo).

80 Capítulo 6. Resultados

SVM (1) KNN (1) DT (1) ADA (1) BAG (1)

SVM (2) KNN (2) DT (2) ADA (2) BAG (2)

SVM (3) KNN (3) DT (3) ADA (3) BAG (3)

SVM (4) KNN (4) DT (4) ADA (4) BAG (4)

SVM (5) KNN (5) DT (5) ADA (5) BAG (5)

SVM (6) KNN (6) DT (6) ADA (6) BAG (6)

Figura 6.6: Curvas ROC (aprendizaje automático tradicional).

Capítulo 7

Discusión

Contenidos
7.1 Amenazas subyacentes en validación cruzada . . . . . . . 82
7.1.1 Modelos de aprendizaje profundo . . . . . . . . . . . . . . 85
7.2 El compromiso entre exactitud y coste . . . . . . . . . . 87

Sinopsis
En este capítulo se realiza una reflexión objetiva sobre los resultados obtenidos
y se hace entrega de un análisis en retrospectiva del valor añadido del trabajo.
De nuevo, se sigue un esquema inductivo con la intención de relacionar las ideas
desarrolladas de principio a fin. Por ello, se da comienzo con el aspecto más relevante
del trabajo, seguido de los argumentos a favor de la hipótesis de partida y finalmente
se dedican unos párrafos específicos sobre las nuevas perspectivas y limitaciones de
las técnicas empleadas.

81
82 Capítulo 7. Discusión

7.1. Amenazas subyacentes en validación cruzada

La mayor parte de los trabajos basados en aprendizaje automático tradicional
hallados en el estado del arte han evaluado sus modelos de clasificación a través de
la validación cruzada de 10 iteraciones, algunos de ellos empleando una única base
de datos tanto para el entrenamiento como para la validación (véase la Tabla 7.1).
Si bien es cierto que comparado con la validación por re-sustitución, en la que el
modelo es entrenado a partir de todos los datos disponibles y finalmente validado
sobre la misma base de datos, la validación cruzada ofrece una visión más genérica y
fiel del rendimiento real de un determinado algoritmo o modelo de clasificación [192].
Sin embargo, cuando diversas muestras de los mismos pacientes se encuentran
presentes tanto en el conjunto de entrenamiento como en el de validación, el rendi-
miento del modelo puede verse amenazado por la introducción de un sesgo considera-
ble, terminando por sobrestimar los resultados obtenidos. Para evitar este problema,
tras el desarrollo de un clasificador cualquiera, es altamente recomendable validar
el método en bases de datos ajenas a las de entrenamiento. Esta validación externa
se encuentra oficialmente respaldada por la iniciativa para el informe transparente
de modelos de predicción multi-variante de pronósticos o diagnósticos individuales
(TRIPOD, por sus siglas en inglés: Transparent Reporting of a multivariate predic-
tion model for Individual Prognosis or Diagnosis). En línea con esto mismo, ya ha
habido varios autores que han remarcado el sesgo potencial presente en trabajos
basados únicamente en una sola base de datos [193] [194].
Los resultados obtenidos en este respecto (sección 6.1 - Aprendizaje automáti-
co tradicional) se encuentran en línea con los hallados en el estado del arte. Sin
embargo, se ha podido comprobar que los métodos de validación cruzada no han
proporcionado modelos lo suficientemente robustos como para generalizar adecua-
damente el problema de la apnea del sueño. Los resultados sugieren la existencia
un sesgo subyacente en los modelos entrenados y probados con validación cruzada,
dado que estos han reflejado un rendimiento significativamente inferior a la hora de
clasificar observaciones provenientes de bases de datos ajenas al conjunto de entre-
namiento original (validación externa). En consecuencia, este hecho implica que en
entornos desconocidos (observaciones nuevas), como ocurriría en la práctica clíni-
ca, estos métodos arrojarían predicciones ambiguas o incluso arbitrarias sobre los
episodios de apnea y control en registros reales de ECG.
7.1. Amenazas subyacentes en validación cruzada 83

Tabla 7.1: Estudios basados en aprendizaje automático tradicional. Los resultados son
orientativos, se han escogido los clasificadores que han presentado el mejor rendimiento
en cada caso. CV: validación cruzada (cross-validation), DERE: estimación de la regla de
evolución diferencial, KELM: kernel de máquina de aprendizaje extremo, ENS: clasificador
agrupado (ensemble).

R Año Autores Bases de datos Mod. Método val. Ac Se Sp

( %) ( %) ( %)

[70] 2010 Mendez Apnea-ECG (50 regs.) QDA Entrenamiento = 89.07 90.37 86.73
et al. 25 regs.
Validación =
25 regs.

[195] 2012 Al-Angari Sleep Heart Health SVM Entrenamiento = 82.4 89.8 94.10
& Study (100 sujetos) 50 sujetos
Sahakian. Validación =
50 sujetos

[196] 2014 Sannino Apnea-ECG DERE CV (k=10) 97.85 97.84 97.85

et al. (released)

[93] 2014 Nguyen Apnea-ECG SVM CV (k=3) 85.26 86.37 83.47

et al. (released)

[197] 2014 Rachim Apnea-ECG SVM CV (k=10) 93.91 95.20 92.65

et al. (released)

[198] 2015 Atri & Apnea-ECG SVM CV (k=10) 95.57 98.64 92.48
Mohebbi

[80] 2015 Ravelo- Apnea-ECG QDA Entrenamiento = - 67.20 86.80

García released
et al. Validación =
withheld

[55] 2015 Varon Apnea-ECG, Leuven SVM Entrenamiento = 84.74 84.71 84.69
et al. Hospital Apnea-ECG,
Validación =
Resto

[199] 2016 Cheng Apnea-ECG LR Media de 100 sets 85.00 83.00 82.00
et al. (released) aleatorios

[200] 2016 Song Apnea-ECG SVM Entrenamiento = 86.20 82.60 88.40

et al. released
Validación =
withheld

[201] 2016 Sharma & Apnea-ECG SVM Entrenamiento = 83.80 79.50 88.40
Sharma released
Validación =
withheld

[193] 2016 Rashik & Apnea-ECG ENS Out-of-bag error 85.97 84.14 86.83
Anyal (released) method

[67] 2017 Martín- Apnea-ECG, QDA Entrenamiento = 84.76 81.45 86.82

Gonzalez HuGCDN2014 Apnea-ECG,
et al. Validación =
HuGCDN2014
84 Capítulo 7. Discusión

[202] 2018 Tripathy Apnea-ECG KELM CV (k=10) - 78.02 74.64

(released)

[203] 2018 Martín- Apnea-ECG, LDA Entrenamiento = 86.33 - -

Gonzalez HuGCDN2014 Apnea-ECG,
et al. Validación =
HuGCDN2014

[204] 2018 Kumar & Apnea-ECG SVM CV (k=10) 93.31 93.05 93.46
Kanhan- (released)
gad

[205] 2019 Shao Apnea-ECG (60 regs.) SVM CV (k=10) 91.89 88.01 93.98
et al.

[206] 2019 Haoyu UCD-DB, BBDD SVM CV (k=10) 98.54 97.05 98.95
et al. propia

[72] 2019 Pinho Apnea-ECG SVM CV (k=10) 82.10 88.40 72.30

et al. (released)

[78] 2020 Zarei & Apnea-ECG ENS CV (k=10) 93.26 91.52 94.36
Asl

[207] 2020 Kalaivani Apnea-ECG SVM CV (k=0.1, 1, 4) 95.00 95.00 95.00

[208] 2020 Pombo Apnea-ECG SVM CV (k=10) 82.12 88.41 72.29

et al. (released)

[79] 2020 Zarei & Apnea-ECG ENS CV (k=10) 93.90 92.26 94.92
Asl

[209] 2020 Singh Apnea-ECG SVM CV (k=10) 81.06 82.45 79.72

et al. (released),
UCD-DB, You Snooze
You Win

[210] 2020 Tripathy Apnea-ECG SVM CV (k=10) 80.54 82.27 78.67

et al. (released, 31/35 rec.)

[211] 2020 Sharma & Apnea-ECG KNN Entrenamiento = 87.50 84.90 88.20
Sharma released
Validación =
withheld

[212] 2020 Baty BBDD propia (241 SVM Basado en ROC 72.00 88.00 61.00
et al. night regs.)

[213] 2020 Bozkurt BBDD propia (10 ENS Leave-one-out CV 85.12 85.00 86.00
et al. sujetos)

[214] 2021 Lin Apnea-ECG, National SVM CV (k=5) 90.43 88.72 91.55
et al. Cheng Kung Uni.
Hospital Sleep Center

[215] 2021 Afrakhteh Apnea-ECG SVM ROC-based 91.43 91.67 91.30

et al. (released)

[216] 2021 Tang & Apnea-ECG (60/70 SVM CV (k=5) 93.30 92.50 95.00
Liu regs.)

[217] 2021 Rajesh Apnea-ECG ENS CV (k=10) 90.30 - -

et al. (released)

[218] 2022 Karimi Apnea-ECG SVM Basado en ROC - 95.46 97.57

7.1. Amenazas subyacentes en validación cruzada 85

7.1.1. Modelos de aprendizaje profundo

La CNN propuesta ha demostrado encontrarse en línea con los resultados esta-
blecidos en el estado del arte (véase la Tabla 7.2), aunque hay aspectos importantes
a tener en cuenta. En primer lugar, como se puede comprobar en la Tabla 7.2, la
mayoría de trabajos han utilizado únicamente una sola base de datos para entrenar
y validar sus modelos, algunos de los cuales recurriendo a métodos de validación
cruzada lo que, en línea con la sección anterior, son susceptibles de introducir sesgo
al alza en los resultados entregados. Asimismo, aquellos trabajos en los que se ha
utilizado más de una base de datos, como en el caso de Mashrur et al. [219] y Yang et
al. [220], la validación no se ha realizado sobre bases de datos complementarias, sino
que se ha aplicado el mismo método de validación para bases de datos por separado.
Esto no resulta orientativo a la hora de evaluar el desempeño real del modelo, ni
respeta las directivas de la iniciativa TRIPOD (véase la sección 5.3.3 - Validación
externa). Por ello, el modelo presentado en este trabajo cuenta con el valor añadido
de haber sido analizado en condiciones de funcionamiento mucho más semejantes a
la práctica clínica que el resto de trabajos publicados hasta la fecha.
En segundo lugar, la complejidad de la red neuronal propuesta ha mantenido una
estructura minimalista, procurando consumir el menor número de recursos posible.
En aprendizaje profundo, la complejidad del modelo suele ir directamente relacio-
nado con la profundidad de la red neuronal (número de capas escondidas de la red)
y el tamaño de entrada [190]. La red neuronal propuesta está constituida por imá-
genes en blanco y negro relativamente pequeñas (60 × 60 píxeles) con tan sólo 2
capas operativas: la capa convolucional y la capa de batch normalization. Esto ha
sido posible gracias al cómputo del espacio de fase de la HRV, algo que no se había
probado en combinación con CNNs en este contexto.
Además, los resultados no han variado significativamente al cambiar la base de
datos de entrenamiento. De hecho, como se puede comprobar en la Tabla 6.6, la
red obtuvo un rendimiento cercano al 95 % en la mayoría de los casos, salvo para
el experimento número 2. La razón más probable de este fenómeno es el tamaño
reducido de MIT-BIH en comparación al resto, pues consultando la cantidad de
segmentos que posee (Tabla 4.1), se observa que ostenta el conjunto de datos más
restrictivo en tamaño.
Finalmente, en cuanto a los algoritmos de convergencia empleados, se ha com-
probado que el RMSP ha sido el más eficiente a nivel temporal. Esto puede deberse
a su novedad en el ámbito científico, pues se trata de un algoritmo relativamente
moderno que pretende disminuir el coste en comparación a los ya existentes [169].
86 Capítulo 7. Discusión

Tabla 7.2: Estudios basados en aprendizaje profundo. H: número de capas escondidas

(sólo contabiliza capas convolucionales, max pooling, concatenación y fully connected),
Par.: número de hiperparámetros involucrados, SMC: Samsung Medical Center EDR: res-
piración derivada del ECG, SMOTE: Synthetic Minority Over-sampling Technique, PTT:
Pulse Transition Time, LSTM: Long-Short Term Memory, GRU: Gated Recurrent Unit,
SPG: espectrograma, NS: no especificado.

R. Año Autores Bases de Tamaño H Solver Señal Tipo Método Ac Se Sp Par.

datos de entra- base validación ( %) ( %) ( %)
da

[221] 2018 Dey et Apnea-ECG 6000x1x1 6 ADAM ECG CNN 50/50 98.9 97.8 99.2 NS
al. (released)

[222] 2019 Urtnasan SMC 2000x1x1 13 ADAM ECG RNN 70/20 99.0 99.0 99.0 230k
et al. (82 sujetos)

[91] 2019 Singh & Apnea-ECG 227x227x3 11 NS CWT CNN 50/50 86.2 90.0 83.8 NS
Majum- (ECG)
der

[223] 2019 Tuncer Grabaciones 224x224x3 21 NS PPT CNN CV (k = 10) 92.8 94.3 98.0 138M
et al. PSG propias (ECG)

[224] 2020 Wang et Apnea-ECG 360x1x1 36 ADAM HRV CNN CV (k = 10) 83.0 78.7 85.6 NS
al. (released) (ECG)

[225] 2020 Chang et Apnea-ECG 6000x1x1 22 ADAM ECG CNN 50/50 87.9 81.1 92.0 NS
al.

[226] 2021 Shen et Apnea-ECG 180x1x1 18 ADAM HRV CNN & CV (k = 10) 89.4 89.8 89.1 657k
al. (ECG) HMM

[227] 2021 Sheta et Apnea-ECG 9x1x1 4 ADAM ECG CNN & CV (k = 10) 86.3 88.8 NS NS
al. con SMOTE LSTM

[90] 2021 Zhang et Apnea-ECG 1000x1x1 12 NS ECG CNN & 50/50 96.1 96.1 96.2 NS
al. LSTM

[228] 2021 Gupta et Apnea-ECG 227x227x1 8 ADAM SPG CNN CV (k = 10) 94.8 94.6 95.0 518k
al. (released) (ECG)

[96] 2021 Mukherjee Apnea-ECG 240x3x1 9 ADAM ECG CNN & CV (k = 5) 85.6 84.4 88.3 NS
et al. LSTM

[219] 2021 Mashrur Apnea-ECG 32x32x3 8 SGDM CWT CNN 70/30 94.4 94.3 94.5 NS
et al. (ECG)

UCD-DB 70/30 81.9 71.6 86.1 NS

[88] 2021 Almutairi Apnea-ECG 900x2x1 6 ADAM ECG CNN & CV (k = 10) 90.9 91.2 90.4 55k
et al. LSTM
&
SVM

[220] 2022 Yang et Apnea-ECG 360x3x1 46 SGDM HRV CNN CV (k = 10) 90.3 87.6 91.9 6.7M
al. (ECG)

UCD-DB 75.1 61.1 80.8 6.7M

[87] 2022 Teng et Apnea-ECG 900x1x1 3 ADAM ECG CNN 50/50 90.0 88.7 90.8 23k
al.

- 2022 Propuesto Apnea-ECG, 60x60x1 3 ADAM HRV- CNN 50/50 96.7 98.7 95.0 23k
MIT-BIH, RP
UCD-DB (ECG)
7.2. El compromiso entre exactitud y coste 87

7.2. El compromiso entre exactitud y coste

Bajo las condiciones descritas en la metodología y habiendo comprendido el fun-
cionamiento de At(ρ, b), se puede constatar que los modelos de aprendizaje profundo
presentan un rendimiento superior a los de aprendizaje automático tradicional, es-
pecialmente en cuanto a grado de generalización se refiere. Este hecho se encuentra
reforzado por los resultados adquiridos en la sección 6.3.3 - Análisis ROC. Sin embar-
go, si se comparan los valores de At entre los modelos generados, se puede observar
que un modelo de aprendizaje profundo es del orden de 10 veces más costoso de
implementar en el mismo hardware que un modelo tradicional de clasificación, lo
que puede limitar su uso en dispositivos vestibles. Una alternativa es la de orientar
este tipo de modelos más pesados a aplicaciones en tiempo diferido, como servi-
cios REST 1 para realizar las predicciones en servidores remotos a la espera de una
respuesta.
Es preciso indicar que en la sección 6.2.1, se ha utilizado el modelo CNN-RMSP
como referencia representativa de las variantes de aprendizaje profundo por tratarse
del modelo con mejor relación exactitud y coste. Sin embargo, la variante de ADAM
ha proporcionado resultados bastante parecidos a RMSP.
En cuanto a la fiabilidad de la At(ρ, b), puede caber la duda sobre si se pueden
alterar los parámetros de entrada para favorecer unos modelos sobre otros. En este
respecto, es preciso indicar que se trata de una magnitud específicamente propuesta
para el presente trabajo ante la necesidad de comparar modelos de distinta índole,
pero mientras los parámetros de ρ y b se mantengan constantes para todos los
experimentos sobre un mismo equipo, puede tratarse como una medida fiable para
evaluar los modelos generados. Este parámetro no es todavía extrapolable a otras
máquinas, es decir, si el equipo sobre el que se han realizado los experimentos es
distinto al utilizado en este trabajo, los valores numéricos de la At(ρ, b) pueden
no ser comparables con los adquiridos en máquinas distintas, como la mencionada
en la sección 5.3.4 - Otras medidas. Una posible solución a este problema, con la
tecnología existente, podría ser la fabricación de un contenedor de aplicaciones con
políticas recursos previamente estandarizados.

1
REST: Transferencia de Estado Representacional. Esquema ampliamente utilizado en aplica-
ciones basadas en el paradigma cliente-servidor para peticiones remotas de información.
Capítulo 8

Conclusiones y líneas futuras

En el presente trabajo se han reproducido múltiples métodos de aprendizaje au-

tomático tradicional y se ha propuesto un modelo aprendizaje profundo capaz de
identificar, con gran exactitud, episodios de apnea a partir de mapas de recurrencia
de la variabilidad del ritmo cardíaco. El trabajo se ha llevado a cabo sobre tres
bases de datos públicas, ampliamente utilizadas en el estado del arte, para posibi-
litar la reproducción de los experimentos realizados. Estas bases de datos fueron la
PhysioNet Challenge 2000: Apnea-ECG, la MIT-BIH Polysomnographic Database, y
la St. Vicent’s University Hospital/University College Dublin Sleep Apnea Database
(UCD-DB). Los experimentos consistieron en pruebas de entrenamiento, validación
cruzada y validación externa sobre las bases de datos anteriormente descritas. Ade-
más, se realizaron diversos análisis dirigidos a las características del dominio del
tiempo, la frecuencia y la complejidad siguiendo los estándares hallados en la lite-
ratura científica correspondiente.
Los resultados obtenidos han revelado la existencia de un sesgo considerable
en los modelos tradicionales de clasificación evaluados con métodos de validación
cruzada, en tanto que estos mostraron un rendimiento muy inferior cuando se so-
metieron a pruebas sobre observaciones totalmente ajenas al conjunto de datos de
entrenamiento original. La causa principal bajo sospecha es el tamaño de las bases
de datos empleadas, ya que la validación cruzada puede sobreestimar los resultados
en conjuntos de datos especialmente reducidos. Esto soporta la hipótesis de partida
sobre el sesgo presente en los métodos ya existentes en el estado del arte y envía un
mensaje de advertencia a la comunidad científica para tomar precauciones a la hora
de emplear este tipo de procedimientos en tales circunstancias.
Por otro lado, los análisis específicos dirigidos a los marcadores de complejidad
no han revelado evidencias concluyentes sobre la mejoría de rendimiento en compa-
ración a la entropía muestral. Asimismo, los algoritmos de selección secuencial de

89
90 Capítulo 8. Conclusiones y líneas futuras

características han revelado que los marcadores más adecuados para conservar un
cierto grado de generalización son la componente de baja frecuencia del periodogra-
ma de Lomb-Scargle, el valor medio, el valor inter-cuartíl y la entropía muestral de
la variabilidad del ritmo cardíaco.
En cuanto al aprendizaje profundo, la red neuronal propuesta ha logrado no
solo superar los resultados obtenidos en la mayoría de trabajos del estado del arte,
sino alcanzar un alto grado de generalización incluso en observaciones previamente
desconocidas, maximizando sus posibilidades de uso en el ámbito clínico. El modelo
propuesto cuenta con un valor añadido hasta ahora único en su género, pues ha sido
validado en un entorno riguroso, reproducible y justo.
Finalmente, el trabajo pone de manifiesto el compromiso entre rendimiento y
complejidad asociados a los modelos de aprendizaje en general, proporcionando ideas
innovadoras sobre su interpretación, así como la importancia de contextualizar de
forma cautelosa el uso de los métodos reproducidos según las necesidades del área
clínica al que se dirija.

Líneas futuras
Entre las líneas futuras derivadas de este trabajo, se propone la aplicación directa
de los métodos anteriormente descritos sobre registros de fotopletismograma, una
forma alternativa a la ECG más cómoda para adquirir series de variabilidad del
ritmo cardíaco y comparar en retrospectiva los resultados obtenidos. Seguido de
esto, se prevé el uso de técnicas más avanzadas de aprendizaje profundo con la
implementación de auto-codificadores y transformadores neuronales para perseguir
un rendimiento aún superior al logrado ya en este trabajo, todo ello sin perder de
vista el coste asociado al modelo final.
Ante la necesidad surgida de relacionar rendimiento y costes asociados a los
modelos de clasificación modernos, se prevé ahondar en las vías de extrapolación de
la exactitud ponderada al coste hacia otras máquinas de aprendizaje automático, de
manera que se puedan reaprovechar los esfuerzos dedicados a estudiar este novedoso
parámetro para hallar un método fehaciente y universal de evaluación.
Por último, en la actualidad, ya se está trabajando en el desarrollo de una apli-
cación móvil para transferir de forma útil el conocimiento del presente trabajo a
la sociedad, de modo que pueda servir para paliar de forma inmediata los costes
asociados a la detección de la apnea del sueño, pudiendo así aportar recursos de
gran valor a los expertos clínicos para el diagnóstico masivo de esta enfermedad.
Apéndice A

Desglose completo de resultados

de aprendizaje automático
tradicional

91
92 Apéndice