0% fanden dieses Dokument nützlich (0 Abstimmungen)
60 Ansichten372 Seiten

Mikut Ralf

Hochgeladen von

raphael.diplinger
Copyright
© © All Rights Reserved
Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.
Verfügbare Formate
Als PDF, TXT herunterladen oder online auf Scribd lesen
0% fanden dieses Dokument nützlich (0 Abstimmungen)
60 Ansichten372 Seiten

Mikut Ralf

Hochgeladen von

raphael.diplinger
Copyright
© © All Rights Reserved
Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.
Verfügbare Formate
Als PDF, TXT herunterladen oder online auf Scribd lesen

Ralf Mikut

Data Mining
in der Medizin und Medizintechnik
Schriftenreihe des
Instituts für Angewandte Informatik / Automatisierungstechnik
an der Universität Karlsruhe (TH)
Band 22
Data Mining

in der Medizin und Medizintechnik

von
Ralf Mikut
Impressum

Universitätsverlag Karlsruhe
c/o Universitätsbibliothek
Straße am Forum 2
D-76131 Karlsruhe
[Link]

Dieses Werk ist unter folgender Creative Commons-Lizenz


lizenziert: [Link]

Universitätsverlag Karlsruhe 2008


Print on Demand

ISSN: 1614-5267
ISBN: 978-3-86644-253-5
Kurzfassung

Dieses Buch wendet sich hauptsächlich an Doktoranden, Diplom- und Masterstuden-


ten der Ingenieurwissenschaften und Informatik, die sich für den Einsatz von Data-
Mining-Methoden in der Medizin und Medizintechnik interessieren, ist aber ebenso
als Nachschlagewerk für gestandene Wissenschaftler mit den gleichen Interessen
und für Anwender in technischen Projekten konzipiert. Es systematisiert Ziele, Ein-
satzszenarien, Vorgehensweisen, Methoden und Anwendungsfelder für eine auto-
matisierte Datenanalyse in der Medizintechnik. Im Mittelpunkt steht dabei das Span-
nungsfeld zwischen medizinischen Anwendern und ihren Zielstellungen, den Poten-
zialen vorhandener Data-Mining-Verfahren sowie deren Integration in medizintechni-
sche Geräte und Auswertetools.
Wesentliche Ziele des Buches sind
• klinische und medizintechnische Problemstellungen in einer für Ingenieure und
Informatiker verständlichen Form darzustellen,
• eine Übersicht über Datenstrukturen, mit Data-Mining-Verfahren lösbare Problem-
stellungen und verfügbare Bewertungsmaße zu geben,
• die Problemstellungen zu formalisieren, um daraus ein universell anwendbares
Einsatzszenario für medizinische und medizintechnische Problemstellungen auf-
zubauen,
• eine Übersicht über Data-Mining-Verfahren zu geben und ihre Eignung anhand
typischer medizinischer Anwendungsbeispiele zu belegen,
• das Softwarepaket Gait-CAD als erweiterbares Rahmenkonzept zu präsentieren,
• den Einsatz der vorgestellten Methoden anhand von vier Anwendungen zu de-
monstrieren (Bewegungsanalyse, Anpassung von Unterarmprothesen, Brain Ma-
chine Interfaces, bildgestützte Diagnose von Mammakarzinomen) sowie
• eine systematische Vorgehensweise bei der Bearbeitung neuer medizinischer und
medizintechnischer Projekte zu empfehlen.

i
ii
Danksagung

Das vorliegende Buch entstand während meiner Tätigkeit am Institut für Angewandte
Informatik (IAI) der Forschungszentrum Karlsruhe GmbH, einem Mitglied der Helm-
holtz-Gemeinschaft. Es basiert im Wesentlichen auf einer Erweiterung meiner Habili-
tationsschrift ”Automatisierte Datenanalyse in der Medizin und Medizintechnik” [289],
die ich bei der Fakultät für Maschinenbau an der Universität Karlsruhe (TH) einreich-
te. Das Habilitationsverfahren für das Fachgebiet ”Wissensverarbeitung im Ingenieur-
wesen” wurde am 12. Dezember 2007 erfolgreich abgeschlossen.
Mein besonderer Dank gilt Herrn Prof. Dr.-Ing. habil. Georg Bretthauer, der mich zu
diesem Weg ermutigte und ihn stets mit konstruktiven Diskussionen sowie seiner Be-
geisterung für alle interdisziplinären Projekte zwischen Medizinern und Informatikern
begleitete.
Wesentliche Teile des Buches beruhen auf den bearbeiteten Projekten der Ar-
beitsgruppe Biosignalanalyse in unserem Institut. Hier danke ich insbesondere Dr.
Tobias Loose, Dr. Markus Reischl, Ole Burmeister und Dr. Sebastian Beck, deren
Dissertationen ich mit betreute, für viele gemeinsame Diskussionen. Aus der stets
fruchtbaren methodischen Kooperation mit Dr. Lutz Gröll und Prof. Dr. Jens Jäkel
resultierten unter anderem die neuen Algorithmen zum datenbasierten Entwurf von
Fuzzy-Systemen. Die von der Fluidgruppe unseres Instituts unter Leitung von Dr.
Stefan Schulz entwickelte Handprothese war stets eine spannende Herausforderung
für die Entwicklung von Steuerungsalgorithmen.
Nicht minder wichtig waren externe Projektpartner, insbesondere an der Orthopä-
dischen Universitätsklinik in Heidelberg und an der Universität Freiburg. Hier danke
ich Prof. Dr. Hans Jürgen Gerner, Dr. Rüdiger Rupp, Dr. Sebastian Wolf, Dr. Matthias
Schablowski, PD Dr. Rainer Abel, Dr. Leonhard Döderlein und Dr. Joachim Dieterle
(Heidelberg) sowie Prof. Dr. Thomas Stieglitz und Thilo Krüger (Freiburg).
Aus einer Vielzahl von ehemaligen und gegenwärtigen Kollegen, Projekt- und Dis-
kussionspartnern sowie Korrekturlesern möchte ich stellvertretend Christian Bauer,
Sebastian Braun, PD Dr. Catherina Burghart, Sebastian Gollmer, Andreas Gomm-
lich, Paul Görtz, Markus Grube, Melanie Herbst, Dr. Elmar Holler, Dr. Wilfried Jakob,
Dr. Hubert Keller, Prof. Dr. Harro Kiendl, Dr. Ulrich Knapp, Ivan Kovynyov, Daniel
Kraut, Prof. Dr. Andreas Kroll, Dr. Arne Lehmann, Dr. Urban Liebel, Mihai Lipovei, Dr.

iii
Thomas Lotz, PD Dr. Hagen Malberg, Dr. Jan Martin, Dr. Jörg Matthes, Dr. Ingeborg
Mikut, Dr. Reinhard Mikut, Dr. Séverine Mounier, Dr. Norbert Peter, Sebastian Pfeif-
fer, Dr. Christian Pylatiuk, Oliver Schill, Dr. Alois Schlögl, Dr. Rainer Stotzka, Bernd
Voelkel und Prof. Jürgen Wernstedt hervorheben.
Allen Genannten, den Mitarbeitern und Studenten des Instituts für Angewandte
Informatik am Forschungszentrum Karlsruhe gilt ebenfalls mein herzlichster Dank für
die konstruktive und anregende Atmosphäre im Institut.
Die finanzielle Unterstützung durch die Deutsche Forschungsgemeinschaft (DFG)
im Rahmen des Projektes ”Diagnoseunterstützung in der Ganganalyse” und des SFB
588 ”Humanoide Roboter - Lernende und kooperierende multimodale Roboter” trug
ebenfalls wesentlich zum Erfolg der Arbeiten bei.

Karlsruhe, im August 2008 Ralf Mikut

Die Wiedergabe von Warenbezeichnungen, Handelsnamen und sonstigen Kennzeichen in diesem


Werk berechtigt nicht zu der Annahme, dass solche Bezeichnungen im Sinne der Warenzeichen- und
Markenschutz-Gesetzgebung als frei zu betrachten wären und deshalb von jedermann benutzt werden
dürfen. Vielmehr kann es sich auch dann um eingetragene Warenzeichen oder sonstige gesetzlich ge-
schützte Kennzeichen handeln, wenn sie nicht eigens als solche markiert sind. MATLAB und Simulink
sind eingetragene Warenzeichen von The MathWorks Inc. SPSS ist ein eingetragenes Warenzeichen
der SPSS Inc. DICOM ist ein eingetragenes Warenzeichen der National Electrical Manufacturers As-
sociation (NEMA). i-LIMB ist ein eingetragenes Warenzeichen der Touch EMAS Ltd.

iv
Inhaltsverzeichnis

Kurzfassung i

Danksagung iii

1 Einführung 1
1.1 Bedeutung und Einordnung . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Entwicklungsstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Ziele und Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Medizinische Problemstellungen und Rahmenbedingungen 9


2.1 Datenquellen und -archivierung . . . . . . . . . . . . . . . . . . . . . . 9
2.1.1 Datenquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.1.2 Standardisierung und Archivierung . . . . . . . . . . . . . . . . 10
2.2 Problemstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Klinische Studien . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.3 Modellbildung, Simulation, Regelung und Steuerung
biologischer Systeme . . . . . . . . . . . . . . . . . . . . . . . 19
2.3 Einsatzpotenziale und Anforderungen für Data-Mining-Verfahren . . . . 24

3 Data Mining: Verfahrensübergreifende Begriffe 27


3.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Daten und Datenstrukturen . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Problemstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Systembegriff . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.2 Prognoseorientierte Probleme . . . . . . . . . . . . . . . . . . . 34
3.3.3 Merkmalstransformationen als Hilfsverfahren . . . . . . . . . . . 41
3.3.4 Rollen von Bewertungsmaßen . . . . . . . . . . . . . . . . . . . 45
3.4 Informationsdefizite und Ungewissheit . . . . . . . . . . . . . . . . . . 45
3.5 Bewertungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.1 Wahrscheinlichkeiten und Häufigkeiten . . . . . . . . . . . . . . 48
3.5.2 Distanzmaße und Separationsmaße . . . . . . . . . . . . . . . 50

v
Inhaltsverzeichnis

3.5.3 Informationstheoretische Maße . . . . . . . . . . . . . . . . . . 52


3.5.4 Klassifikationsorientierte Maße . . . . . . . . . . . . . . . . . . 54
3.5.5 Regressionsorientierte Maße . . . . . . . . . . . . . . . . . . . 58
3.5.6 Merkmalskosten, Interpretierbarkeits- und Komplexitätsmaße . . 60
3.6 Optimierungsprobleme und -verfahren . . . . . . . . . . . . . . . . . . 65
3.7 Validierungstechniken . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4 Einsatzszenario für Data-Mining-Verfahren in der Medizin 73


4.1 Ablauf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 Problemformulierungen . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.3 Lerndatensätze und Datenvorverarbeitung . . . . . . . . . . . . . . . . 84
4.4 Merkmalsextraktion, -selektion und -transformation . . . . . . . . . . . 88
4.5 Klassifikation und Regression . . . . . . . . . . . . . . . . . . . . . . . 95
4.6 Visualisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.7 Implementierungsaspekte für Medizingeräte . . . . . . . . . . . . . . . 100

5 Data Mining: Spezielle Verfahren 103


5.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.2 Statistische Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.2.1 Verteilungsannahmen . . . . . . . . . . . . . . . . . . . . . . . 105
5.2.2 Statistische Signifikanztests . . . . . . . . . . . . . . . . . . . . 107
5.2.3 Hauptkomponenten- und Diskriminanzanalyse . . . . . . . . . . 111
5.2.4 Distanz- und Separationsmaße . . . . . . . . . . . . . . . . . . 123
5.2.5 Bayes-Klassifikatoren und deren Vereinfachungen . . . . . . . . 124
5.2.6 Nearest-Neighbor-Verfahren . . . . . . . . . . . . . . . . . . . . 131
5.3 Support-Vektor-Maschinen . . . . . . . . . . . . . . . . . . . . . . . . 135
5.4 Entscheidungsbäume . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.5 Fuzzy-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.5.1 Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.5.2 Zugehörigkeitsfunktionen und Fuzzifizierung . . . . . . . . . . . 154
5.5.3 Fuzzy-Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
5.5.4 Defuzzifizierung . . . . . . . . . . . . . . . . . . . . . . . . . . 165
5.5.5 Entwurf von Fuzzy-Systemen . . . . . . . . . . . . . . . . . . . 167
5.5.6 Automatisierte Generierung von Erklärungstexten . . . . . . . . 186
5.5.7 Implementierungsaspekte . . . . . . . . . . . . . . . . . . . . . 189
5.5.8 Anwendungsfelder in der Medizin . . . . . . . . . . . . . . . . . 191
5.6 Künstliche Neuronale Netze . . . . . . . . . . . . . . . . . . . . . . . . 193
5.6.1 Aufbau und Einteilung . . . . . . . . . . . . . . . . . . . . . . . 193

vi
Inhaltsverzeichnis

5.6.2 Entwurfsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 197


5.6.3 Anwendungsfelder in der Medizin . . . . . . . . . . . . . . . . . 205
5.7 Clusterverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
5.8 Regressionsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
5.8.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
5.8.2 Schätzung von Überlebenszeiten . . . . . . . . . . . . . . . . . 218
5.8.3 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . 221
5.8.4 Regressionsansätze für dynamische Modelle . . . . . . . . . . . 222
5.9 Wertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

6 Data-Mining-Softwarelösungen in der Medizin 231


6.1 Ausgangssituation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
6.2 Gait-CAD als Plattform für interaktive Analysen . . . . . . . . . . . . . 232
6.2.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
6.2.2 Leistungsumfang und Bedienkonzept . . . . . . . . . . . . . . . 233
6.2.3 Repräsentation der Problemstellungen . . . . . . . . . . . . . . 235
6.2.4 Versuchsautomatisierung . . . . . . . . . . . . . . . . . . . . . 236
6.2.5 Erweiterbare Merkmalsextraktion mit Plugins . . . . . . . . . . . 236
6.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237

7 Anwendungen 239
7.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
7.2 Entscheidungsunterstützung bei Bewegungsanalysen . . . . . . . . . . 240
7.2.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.2.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 243
7.2.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen . . . 260
7.3.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 260
7.3.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 261
7.3.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
7.4 Brain Machine Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.4.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.4.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 274
7.4.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
7.5 Bildgestützte Diagnose bei Mammakarzinomen . . . . . . . . . . . . . 286
7.5.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 286
7.5.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 288
7.5.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292

vii
Inhaltsverzeichnis

8 Vorgehensweise bei medizinischen Datenanalysen 293

9 Zusammenfassung und Ausblick 301

A Wichtige Symbole und Bezeichnungen 305

B Abbildungsverzeichnis 319

C Tabellenverzeichnis 321

D Literaturverzeichnis 323

E Index 349

viii
1 Einführung

1.1 Bedeutung und Einordnung

In den letzten Jahren hat bei der elektronischen Erfassung und Auswertung medizi-
nischer Daten eine nahezu revolutionäre Entwicklung stattgefunden. Bisher war ein
Arzt bei der Diagnose oder Therapieplanung ausschließlich auf eigene Patienten-
beobachtungen oder die manuelle Auswertung von Daten aus Medizingeräten (wie
Röntgenbildern) angewiesen. Heute besteht zunehmend die Möglichkeit, diese Auf-
gaben stärker durch computerbasierte medizintechnische Systeme zu unterstützen,
die teilautomatisch aus medizinischen Daten entworfen werden.
Ähnlich ist die Situation bei der individuellen Anpassung von Medizingeräten an die
speziellen Bedürfnisse und Besonderheiten einzelner Patienten (wie z. B. Funktions-
prothesen oder Überwachungsgeräte in Intensivstationen), die bisher nur von Ärzten
und Medizintechnikern mit langjähriger Erfahrung durchgeführt werden konnte. Ak-
tuelle Studien sehen in der zunehmenden Erhebung und Auswertung dieser Daten
sowie der zunehmenden Computerunterstützung aller medizinischen Abläufe eines
der größten Innovationspotenziale in der Medizin (siehe z. B. [14, 16]).
In Deutschland wird der Einsatz von Medizingeräten durch das Medizinprodukte-
gesetz (MPG) geregelt, das Medizinprodukte wie folgt definiert [8]:
Medizinprodukte sind alle einzeln oder miteinander verbunden verwendeten Instru-
mente, Apparate, Vorrichtungen, Stoffe und Zubereitungen aus Stoffen oder andere
Gegenstände einschließlich der für ein einwandfreies Funktionieren des Medizinpro-
duktes eingesetzten Software, die vom Hersteller zur Anwendung für Menschen mit-
tels ihrer Funktionen zum Zwecke
a. der Erkennung, Verhütung, Überwachung, Behandlung oder Linderung von Krank-
heiten,
b. der Erkennung, Überwachung, Behandlung, Linderung oder Kompensierung von
Verletzungen oder Behinderungen,
c. der Untersuchung, der Ersetzung oder der Veränderung des anatomischen Auf-
baus oder eines physiologischen Vorgangs oder
d. der Empfängnisregelung
zu dienen bestimmt sind und deren bestimmungsgemäße Hauptwirkung im oder am
menschlichen Körper weder durch pharmakologisch oder immunologisch wirkende

1
1 Einführung

Mittel noch durch Metabolismus erreicht wird, deren Wirkungsweise aber durch sol-
che Mittel unterstützt werden kann.
Die Medizintechnik beschäftigt sich einerseits mit einer Teilmenge der Medizinpro-
dukte in Form von Instrumenten, Apparaten und Vorrichtungen inkl. der jeweiligen
Software. Andererseits bezieht sie explizit die Forschung und Entwicklung mit ein,
die im strengeren Sinne im Vorfeld des Medizinproduktegesetzes agieren [14, 16].
Die Deutsche Gesellschaft für Biomedizinische Technik (DGBMT) schlägt folgende
Definition vor [107]:
Unter Biomedizinischer Technik BMT (Biomedical Engineering) versteht man die
Bereitstellung und Anwendung ingenieur- und naturwissenschaftlicher Mittel und Me-
thoden auf lebende Systeme in Biologie und Medizin in
• Forschung und Entwicklung,
• im medizinischen Betreuungsprozess: Prophylaxe, Diagnose, Therapie, Rehabili-
tation, Nachsorge,
• im biomedizinischen Geräte- und Systembau,
• in der pharmazeutischen Industrie und in der Biotechnologie.
Die vorliegende Arbeit behandelt die Auswertung von medizinischen Daten mit
ingenieur- und naturwissenschaftlichen Methoden. In der Forschung zielt die Aus-
wertung dieser Messdaten hauptsächlich auf die Modellierung bestimmter Teilsys-
teme des Menschen. Die daraus generierten Ergebnisse sollen in die Software von
Medizingeräten integriert werden, um die Diagnose, Therapie und Rehabilitation im
medizinischen Betreuungsprozess zu verbessern. Ein Hauptfokus ist dabei die mög-
lichst weitgehende Standardisierung und Automatisierung aller Auswerteprozesse,
um diese erfolgreich und effizient zu gestalten. Die Begriffe Standardisierung und
Automatisierung beziehen sich auf die Bestimmung geeigneter Auswerteabläufe und
-methoden, die Umsetzung aller qualitativen Auswerteziele in quantitative Bewer-
tungsmaße und die Unterstützung des kompletten Auswerteprozesses durch geeig-
nete Computerprogramme. Die Arbeit deckt damit entsprechend der obigen Defini-
tionen einen Teilbereich der biomedizinischen Technik ab.

1.2 Entwicklungsstand

Der Trend zur elektronischen Datenerfassung und der Nutzung dieser Daten wird von
mehreren Entwicklungsrichtungen getrieben [64, 383]. Zum einen sind heute viele
medizinische Messverfahren rechnergestützt und damit in der Lage, die gewonnenen
Daten zu archivieren und zu exportieren. Besonders zu nennen sind dabei bildgeben-
de Verfahren (z. B. CT: Computertomographie, MRT: Magnetresonanztomographie,

2
1.2 Entwicklungsstand

Ultraschall, Videoaufzeichnungen), deren Datenerfassung zunehmend digital erfolgt


und z. T. auch weltweit standardisiert ist. Weitere wichtige Datenquellen sind konti-
nuierliche zeitliche Aufzeichnungen von biologischen Messgrößen (z. B. EKG: Elek-
trokardiogramm, EMG: Elektromyogramm, EEG: Elektroencephalogramm, Blutdruck
usw.).
Eine zweite Entwicklungsrichtung resultiert aus dem Trend der elektronischen Ab-
rechnung zwischen Ärzten, Krankenhäusern und Krankenkassen, bei denen natur-
gemäß Patientendaten erfasst und archiviert werden. Ein dritter Grund ist die medi-
zinisch und juristisch getriebene Tendenz zu einer stärker formalisierten Qualitäts-
sicherung, die zunehmend alle medizinischen Aufgabenbereiche von der Medika-
mentenentwicklung bis zur standardisierten Behandlungsempfehlung erfasst. Hier ist
es ratsam oder z. T. bereits gesetzlich vorgeschrieben, alle Schritte für eine spätere
Überprüfung durch Zulassungsbehörden oder Gerichte zu dokumentieren. Im Zuge
der sogenannten Evidenz-basierten Medizin (EBM) werden standardisierte Leitlini-
en [334] aufgebaut, die sich maßgeblich auf objektivierte klinische Studien stützen –
allerdings mit subjektiv formulierten Hypothesen. Bei Einbeziehung aller vorliegen-
den Daten zur Generierung neuer Hypothesen ergibt sich mittelfristig ein gewaltiges
Potenzial zur Entdeckung neuen Wissens [331].
Darüber hinaus gibt es eine Vielzahl von Daten, die zu Forschungszwecken er-
hoben werden und bisher nicht flächendeckend in den klinischen Alltag integriert
sind. Hervorzuheben sind insbesondere genetische Daten, biochemische und mikro-
skopische Messungen zur Untersuchung von Zellkulturen, molekulare bioelektrische
Messungen auf Zellniveau (z. B. Aktivierungsmessungen von Neuronen) usw. Auch
hier ergeben sich umfassende Anwendungsfelder für computerbasierte Verfahren,
die derzeit aber den Patienten noch nicht unmittelbar in breitem Maße zu Gute kom-
men. Auf die letztgenannten Anwendungsfelder soll in dieser Arbeit nur am Rande
eingegangen werden – allerdings sind viele Verfahren auch auf solche Anwendun-
gen übertragbar.
Zusammenfassend ist zu bemerken, dass die Entwicklung hin zu einer flächen-
deckenden Datenerfassung ihren Höhepunkt noch nicht erreicht hat und – allen Be-
denken des Datenschutzes zum Trotz – bereits kurz- und mittelfristig zu einer umfas-
senden und gut vernetzten elektronischen Dokumentation aller klinischen und me-
dizintechnischen Abläufe in den Industriestaaten führen wird (siehe z. B. [155] für
detailliertere Prognosen).
Computerbasierte Verfahren, die allein aus gegebenen Daten bisher strukturell un-
bekannte Informationen entdecken können, werden unter dem Begriff Data-Mining-
Verfahren [133] zusammengefasst. Inzwischen steht eine Vielzahl leistungsfähi-

3
1 Einführung

ger Verfahren bereit (z. B. explorative statistische Verfahren, Fuzzy-Logik, Entschei-


dungsbäume, Künstliche Neuronale Netze), die mit Standard-PCs auskommen und
Problemstellungen mit Tausenden von Datentupeln und Datensätzen bewältigen. Ei-
ne große Teilgruppe unter diesen Verfahren (Fuzzy-Systeme, Künstliche Neuronale
Netze, Evolutionäre Algorithmen) wird als Computational Intelligence bezeichnet, um
deren Potenzial zur Umsetzung intelligenter Verfahren und zu Synergien durch ver-
schiedene Verfahrenskombinationen zu betonen.
Dennoch fällt leider auf, dass die oben diskutierte Chance zur Nutzung der vor-
handenen und entstehenden Datenmengen zur Verbesserung von Diagnosen, The-
rapien und Medizingeräten bisher nur in unbefriedigendem Maße genutzt wird. Das
liegt an einer Vielzahl technischer (z. B. limitierte Austauschbarkeit und nicht standar-
disierte Archivierung der Daten), methodischer (z. B. Probleme bei der Suche nach
komplexen Zusammenhängen bei gegebenen unvollständigen, heterogenen Daten),
ethischer und datenschutzrechtlicher (ein Patient muss jeder Nutzung zustimmen)
Probleme [100] – und natürlich auch an einem erheblichen Beharrungsvermögen ge-
genüber neuen Methoden zur Generierung klinischen Wissens.
Das wahrscheinlich größte Hindernis für die Nutzung dieser Daten sind schwer-
wiegende Kommunikationsprobleme zwischen Medizinern auf der einen Seite sowie
Ingenieuren und Informatikern auf der anderen Seite. Mediziner haben den Wunsch,
dass aus den vorliegenden Daten bestimmte Informationen extrahiert, verständlich
dargestellt und erläutert werden. Sie sind allerdings meist nicht in der Lage, die sie
interessierenden Problemstellungen in der Sprache der dazu prinzipiell geeigneten
Data-Mining-Verfahren zu formalisieren, die entsprechenden Verfahren selbst kreativ
anzuwenden und deren Ergebnisse zu bewerten. Zudem interessieren sie sich teil-
weise für Fragestellungen, die mit den vorliegenden Daten nicht beantwortet werden
können, weil die entsprechende Information nicht oder nur teilweise in den Daten
enthalten ist. Deshalb kann eine positive Grundhaltung oder gar Euphorie über die
Möglichkeiten einer datengestützten Analyse schnell in Enttäuschung umschlagen,
wenn mögliche Probleme nicht frühzeitig erkannt werden.
Ingenieure und Informatiker kennen sich zwar in den Data-Mining-Verfahren aus,
haben oftmals aber zu geringe medizinische Kenntnisse, um die entsprechenden kli-
nischen Probleme zu analysieren und geeignet zu formalisieren. Das führt beiderseits
zwar zu Schritten in die richtige Richtung, die aber nur Teilziele erreichen können:
Vielen Medizinern ist es gelungen, ein Verständnis von Basismethoden der medizini-
schen Statistik (wie z. B. bestimmten Hypothesentests) aufzubauen. Diese Hypothe-
sentests sind weitgehend in der klinischen Praxis akzeptiert und bilden eine wichtige
Grundlage für die Qualitätssicherung. Sie werden nun zwar in breitem Maße einge-

4
1.3 Ziele und Aufgaben

setzt, sind aber in ihrer Leistungsfähigkeit beschränkt, wenn es darum geht, bisher
unbekannte komplexe Zusammenhänge zu entdecken. Viele Ingenieure und Infor-
matiker konzentrieren sich wiederum auf einfache medizinische Problemstellungen,
die gut zu bekannten Data-Mining-Verfahren passen (z. B. Klassifikationsprobleme,
Regressionsprobleme, Verknüpfung von Entscheidungsregeln usw.). Letzteres führt
regelmäßig zu einer beiderseitigen Frustration, weil der Ingenieur stolz eine Lösung
präsentiert, die allerdings nicht zu den wirklichen Problemen des Mediziners passt.
Ein Beispiel für dieses Dilemma sind computerbasierte medizinische Expertensys-
teme (siehe z. B. [18, 418] für einen Überblick), bei denen anfänglicher Optimismus
auf beiden Seiten heute in eine Stagnation auf niedrigem Niveau mündete. Die Ent-
wickler dieser Systeme versuchten, durch Befragung von Medizinern Entscheidungs-
regeln zu erheben und dann in eine Wissensdatenbank aufzunehmen. Ein Mediziner
fragt nun dieses Wissen im Zusammenhang mit einem neuen Patienten ab. Die kli-
nische Akzeptanz ist allerdings gering, weil die wichtigen unbewussten Regeln bei
dieser Technik des Wissenserwerbs fehlen und somit eher triviale Zusammenhän-
ge erkannt werden. Zudem ist die Abfrage zu aufwändig und die Verarbeitung der
Regeln für den Mediziner nicht hinreichend transparent.
Ähnliche Schwierigkeiten gibt es bei einer Vielzahl von Diagnoseproblemen. De-
ren Lösung mit Data-Mining-Verfahren bringt dem Patienten erst dann einen direkten
Nutzen, wenn eine geeignete Therapieoption zur Versorgung bereitsteht oder wenn
eine Aussage zu erwarteten individuellen Chancen oder Risiken bei der Therapie
gegeben werden kann. Zudem ist die Transparenz und somit die Interpretierbarkeit
solcher Systeme oft unbefriedigend.
Zusammenfassend kommt es darauf an, für einen Patienten oder eine Patienten-
gruppe nützliche Erkenntnisse so aus ohnehin existierenden Daten zu extrahieren,
dass der behandelnde Mediziner oder Medizintechniker diese Erkenntnisse durch
ein medizintechnisches Gerät ohne zusätzlichen Aufwand präsentiert bekommt, ver-
steht und in seine eigenen Entscheidungen einbauen kann, ohne sich dabei ent-
mündigt oder bevormundet vorzukommen. Gelingt das nicht, wird die Data-Mining-
Anwendung klinisch nicht akzeptiert werden, auch wenn sie aus Sicht des Ingenieurs
einen vollen Erfolg darstellt.

1.3 Ziele und Aufgaben

Die vorliegende Arbeit liefert einen Beitrag zu dem übergreifenden Ziel, Problem-
stellungen, Methoden und Anwendungsfelder so darzustellen, zu systematisieren
und zu erweitern, dass einem interdisziplinären Team aus Medizinern, Medizintech-

5
1 Einführung

nikern, Ingenieuren und Informatikern die Entwicklung erfolgreicher Data-Mining-


Anwendungen erleichtert wird. Die Teilziele sind
• verschiedene Arten von klinischen und medizintechnischen Problemstellungen, ih-
re Besonderheiten und die zugrundeliegende Datenbasis aus technischer Sicht in
einer für Ingenieure und Informatiker verständlichen Form darzustellen (Kapitel 2),
• eine Übersicht über verfahrensübergreifende Datenstrukturen, prinzipiell mit Data-
Mining-Verfahren lösbare Problemstellungen und verfügbare Bewertungsmaße zu
geben, diese systematisch darzustellen und bei Bedarf zu erweitern (Kapitel 3),
• die Problemstellungen aus Kapitel 2 aus Sicht der verfahrensübergreifenden Be-
griffe von Kapitel 3 zu formalisieren, um daraus ein universell anwendbares Ein-
satzszenario für medizinische und medizintechnische Problemstellungen aufzu-
bauen, ohne hier schon auf spezielle Data-Mining-Verfahren einzugehen (Kapi-
tel 4),
• eine Übersicht über wichtige spezielle Data-Mining-Verfahren zu geben, Bezüge
zu den Bewertungsmaßen und Problemstellungen aus Kapitel 3 zu erläutern, ihre
Eignung für verschiedene Schritte des Einsatzszenarios aus Kapitel 4 zu bewerten
und anhand typischer medizinischer Anwendungsbeispiele aus der Literatur zu
belegen (Kapitel 5),
• verfügbare Softwarelösungen zur praktischen Umsetzung des Einsatzszenarios
aus Kapitel 4 mit den Verfahren aus Kapitel 5 zu bewerten und ein neues Softwa-
repaket als erweiterbares Rahmenkonzept zu präsentieren (Kapitel 6),
• den Einsatz der vorgestellten Methoden aus den bisherigen Kapiteln anhand von
vier verschiedenen repräsentativen medizinischen und medizintechnischen An-
wendungen zu demonstrieren (Bewegungsanalyse, Anpassung von Unterarmpro-
thesen, Brain Machine Interfaces, bildgestützte Diagnose von Mammakarzino-
men), um die einheitliche Vorgehensweise zu erläutern und zu evaluieren (Ka-
pitel 7), sowie
• in Auswertung der bisherigen Ausführungen eine systematische Vorgehenswei-
se bei der Bearbeitung neuer medizinischer und medizintechnischer Projekte zu
empfehlen (Kapitel 8).
In vereinfachender Form beantworten die Kapitel folgende Fragen:
• Was braucht die Medizin (Kapitel 2) ?
• Was können Data-Mining-Verfahren im Allgemeinen (Kapitel 3) ?
• Wie kommt beides zusammen (Kapitel 4) ?
• Was können spezielle Data-Mining-Verfahren (Kapitel 5) ?
• Wie ist das auf dem Computer realisierbar (Kapitel 6) ?
• Wie funktioniert alles in der Praxis (Kapitel 7) ?
• Welche Empfehlungen ergeben sich für zukünftige Projekte (Kapitel 8) ?

6
1.3 Ziele und Aufgaben

Die Gliederung dieser Arbeit, die Inhalte der jeweiligen Kapitel und deren gegenseiti-
ge Bezüge werden in Bild 1.1 nochmals verdeutlicht. Dabei finden sich auf der linken
Seite eher medizinisch, auf der rechten Seite eher datenanalytisch orientierte Kapitel.
Die in der Mitte aufgeführten Kapitel widmen sich einer Fusion beider Gebiete. Die
Pfeile erläutern wesentliche Informationsflüsse zwischen den betrachteten Kapiteln.
Im Rahmen der Arbeit werden mehrere neue Systematisierungen, Bewertungsma-
ße, Verfahren und Anwendungen vorgestellt, die den gegenwärtigen Entwicklungs-
stand erweitern:
• standardisierte Formalisierung einer Vielzahl medizinischer Fragestellungen als
Klassifikations- bzw. Regressionsprobleme,
• konsequente Integration weicher Anforderungen wie Interpretierbarkeit und Imple-
mentierbarkeit in Bewertungsmaße,
• einheitliche automatisierte Vorgehensweise zur Klassifikation von Einzelmerk-
malen und Zeitreihen durch Extraktion einer Vielzahl von potenziell relevanten
Merkmalen und einer nachfolgenden bewertungsbasierten Merkmalsselektion,
-transformation und Klassifikation inkl. einer Erweiterung ausgewählter Entwurfs-
verfahren (z. B. Fuzzy-Systeme),
• Implementierung des Konzepts in ein frei verfügbares Programmpaket und
• exemplarische Umsetzung dieser Vorgehensweise für drei komplexe medizinische
Anwendungsbeispiele (Bewegungsanalyse, Unterarmprothesen und Brain Machi-
ne Interfaces).
Die genannten neuen Beiträge basieren auf Arbeiten des Autors bzw. auf umfang-
reichen Diskussionen mit Mitarbeitern aus der Arbeitsgruppe des Autors und mit wei-
teren Fachkollegen, die zu gemeinsamen Publikationen führten. Die vorliegende Ar-
beit stellt die neuen Erkenntnisse erstmals zusammenfassend und systematisch dar.

7
1 Einführung

Kapitel 2: Kapitel 3:
Klinische Data-Mining:
Problemstellungen und Begriffe,
Klinische Datenbasis Problemformulierung,
Bewertungsmaße

Kapitel 4: Kapitel 5:
Problemformulierung Spezielle
(formal) und Data-Mining-Verfahren
Einsatzszenario mit Kommentaren zum
Einsatzszenario

Kapitel 6:
Softwarelösung für das
Einsatzszenario mit
speziellen Data-Mining-
Verfahren

Kapitel 7:

Exemplarische
Anwendungen

Kapitel 8:

Empfehlungen für
Vorgehensweise

Bild 1.1: Gliederung der Arbeit, Inhalt der Kapitel und Bezüge zwischen den Kapiteln

8
2 Medizinische Problemstellungen und Rahmenbedingungen

2.1 Datenquellen und -archivierung

2.1.1 Datenquellen

Für einen Patienten fällt bei jeder medizinischen Behandlung eine große Menge an
verbalen und formalisierten Daten an. Nach der enthaltenen Information können Pa-
tientendaten in
• Stammdaten (z. B. Name, Patienten-ID, Geburtsdatum, Geschlecht, Größe, Ge-
wicht, Adresse, Versicherungsstatus),
• Anamnesedaten zu bisherigen Erkrankungen (verbal),
• Daten von Einzeluntersuchungen (z. B. Blutdruck, Herzfrequenz, Laborwerte),
• Zeitreihen von kontinuierlichen Aufzeichnungen (z. B. Blutdruck, Herzfrequenz,
EKG – Elektrokardiogramm, EMG – Elektromyogramm, EEG – Elektroencepha-
logramm, ENG – Elektroneurogramm, Bewegungstrajektorien),
• zwei- oder mehrdimensionale Daten von bildgebenden Verfahren (z. B. Rönt-
genbilder, CT – Computertomographie, MRT – Magnetresonanztomographie
(engl. MRI magnet resonance imaging), PET – Positronenemissionstomogra-
phie, SPECT – Single-Photon-Emission-Computertomographie, Ultraschallunter-
suchungen, Videoaufzeichnungen, Übersicht siehe [123]1 ) und
• Daten zu diagnostischen Einschätzungen und therapeutischen Eingriffen durch
den behandelnden Arzt sowie Pflegeprotokolle (oft verbal)
eingeteilt werden (nach [246]). Die generierten Datenmengen sind in der Regel ex-
trem groß – so entstanden im Jahr 2002 allein in der Universitätsklinik Genf 1 Terra-
Byte kardiologische Daten und täglich 12000 radiologische Einzelbilder [314].
Eine weitere – aber weniger naheliegende – Informationsquelle sind wissenschaft-
liche Publikationen, die ihrerseits Erkenntnisse anderer klinischer Studien oder bio-
logischer Modellbildungen verbal zusammenfassen. Deren Abstracts und teilweise
auch entsprechende Langfassungen sind über internetbasierte medizinische Daten-
banken (z. B. [Link]) oder entsprechende Verlage frei zugänglich. Sie ord-
1
Andere Einteilungen und Bezeichnungen beziehen sich nicht auf die Art der Daten und der Bild-
gebung, sondern auf die Zielregion der Untersuchung (z. B. Kardiographie – Herz, Angiographie –
Gefäße, Mammographie – Darstellung der weiblichen Brust).

9
2 Medizinische Problemstellungen und Rahmenbedingungen

nen sich als Spezialfall von diagnostischen Einschätzungen und therapeutischen Ein-
griffen in das oben aufgeführte Schema ein (siehe z. B. [224]). Einige Beispiele zur
Aufbereitung teilweise strukturierter Informationen aus der medizinischen Datenbank
MEDLINE mit einem internetbasierten Zugang namens MEVA zeigt [443].
Weitere Datenquellen aus der Bioinformatik (siehe [312] für eine Übersicht) sind
noch im Grundlagenbereich anzusiedeln: Genexpressionsprofile werden klinisch bis-
her nur bei einigen konkreten Verdachtsfällen (z. B. bei prognostischen Aussagen für
Brusttumore [451]) überprüft. Eine flächendeckende umfassende Erhebung von ge-
netischen Daten für einzelne Patienten findet im klinischen Routinealltag bisher nicht
statt. Anders ist die Situation bei Grundlagenprojekten (z. B. im Human Genome Pro-
ject [348, 457]). Hier handelt es sich meist um Einzelaufnahmen oder kurze Zeitreihen
von Mikroarraydaten. In der Grundlagenforschung existieren außerdem Studien, in
denen im Vergleich zur klinischen Routine umfangreichere Daten (z. B. Zeitreihen mit
kontinuierlichen Aufzeichnungen von Stoffwechselvorgängen) mittels Tierversuchen
gewonnen wurden.
Bei allen Daten kann es sich sowohl um die selbst erhobenen Daten einer Kli-
nik oder Forschungseinrichtung, um Auszüge aus einer verfügbaren Datenbank mit
gesammelten Daten aus verschiedenen Einrichtungen oder um eine Mischung aus
beiden Quellen handeln.

2.1.2 Standardisierung und Archivierung

Patientendaten werden zunehmend in Form elektronischer Patientenakten erfasst


und archiviert, was eine Vielzahl technischer, sicherheitsbezogener und datenschutz-
rechtlicher Probleme verursacht. Der Umsetzungsstand reicht dabei von einer PC-
basierten Erfassung der Texte konventioneller Papierakten mit rudimentärer Daten-
bankunterstützung über messgerätgebundene Erfassungssysteme bis hin zu inner-
halb einer Einrichtung voll vernetzten Krankenhausinformationssystemen (siehe z. B.
[33, 385]). Diese sind allerdings einrichtungsübergreifend kaum vernetzt.
Der Weg einer Integration und somit einer einheitlichen elektronischen Patienten-
akte wird von politischen Entscheidungsträgern unterstützt und gefordert [336, 463],
so dass hier mittelfristig mit einer flächendeckenden Einführung zu rechnen ist. In ei-
nem ersten Schritt steht die Einführung eines umfassenden Systems elektronischer
Gesundheitskarten in Deutschland unmittelbar bevor [330].
Neben der vergleichsweise einfachen Aufgabe einer hardwareseitigen Vernetzung
kommt es hier insbesondere auf die Schaffung von Schnittstellen und Standards bei
der Datenarchivierung durch einheitliche oder zumindest konvertierbare Datenforma-
te an. Ein Beispiel für eine solche Standardisierung ist der DICOM-Standard (engl.

10
2.1 Datenquellen und -archivierung

Digital Imaging and Communications in Medicine) [6, 10], der auf dem in der Infor-
matik weit verbreiteten OSI (Open Systems Interconnect)-Modell aufbaut und sich
inzwischen weltweit herstellerübergreifend durchgesetzt hat.
So standardisierte Bilder enthalten neben den eigentlichen Bilddaten auch spe-
zielle medizinische Informationen über den Patienten, das Aufnahmegerät und die
aufnehmende Einrichtung sowie über die weiteren Verarbeitungsschritte im Umgang
mit dem Bild. Dennoch existieren noch herstellerspezifische Differenzen (nicht im-
plementierte Teilfunktionen, unterschiedliche Implementierungen usw.), die eine hun-
dertprozentige Kompatibilität verhindern [246].
Im Gegensatz zu technischen Diagnoseproblemen, bei denen in der Regel für je-
des zu untersuchende Objekt die gleichen Messdaten zur Verfügung stehen, werden
in der Medizin die meisten zu erfassenden Daten von den behandelnden Ärzten pati-
entenindividuell festgelegt. Somit liegt von vornherein eine heterogene Datenstruktur
mit fehlenden Werten vor, wobei sich aber innerhalb einer Patientengruppe diese Da-
tenstrukturen zumindest ähneln.
Die Messsysteme zur Aufzeichnung der Zeitreihen und Bilddaten gewährleisten
in der Regel eine zuverlässige Aufzeichnung, komfortable Visualisierung und Wei-
terverarbeitung der Daten innerhalb des Messsystems. Allerdings geben sie dem
behandelnden Arzt kaum Unterstützung bei der Interpretation der Daten.
Neben der Standardisierung der einzelnen Datenquellen kommt es darauf an, auf
bereits archivierte Daten komfortabel zugreifen zu können. Wichtig ist dabei, dass die
Datenbank mit großen Datenmengen umgehen kann und einen unproblematischen
Zugriff durch mehrere Applikationen ermöglicht – möglichst ohne aufwändige Kon-
versionsroutinen. Sinnvoll sind hier fileorientierte Zugriffe auf XML- (engl. Extended
Markup Language) oder Textdateien.
Allerdings dominieren bisher einrichtungsspezifische Lösungen unterschiedlicher
Qualität. Besonders problematisch für eine spätere Suche und Auswertung sind ver-
bale Freitexteingaben, die sich in nahezu allen Systemen finden [427]. Wünschens-
wert sind inhaltsbasierte Zugänge, die auf klar definierten Klassifikationen und Ta-
xonomien beruhen. Einen Überblick über Ansätze in dieser Richtung gibt [314] für
inhaltsbasierte Zugänge bei Bilddaten in radiologischen Archiven.
Zusammenfassend ist festzustellen, dass aus den genannten Gründen eine um-
fassende einrichtungsübergreifende Standardisierung bei der Erfassung und Archi-
vierung aller Patientendaten derzeit nicht gegeben und auch mittelfristig illusorisch
ist. Allerdings existieren innerhalb der Einrichtungen und bei bestimmten Datenarten
zunehmend verwendbare Insellösungen für nachfolgende Datenanalysen.

11
2 Medizinische Problemstellungen und Rahmenbedingungen

2.2 Problemstellungen

2.2.1 Übersicht

Der folgende Abschnitt beschreibt mögliche Anwendungsgebiete für Data-Mining-


Verfahren in der Medizin und Medizintechnik, die auf den Daten aus Abschnitt 2.1
basieren. Aus methodischer Sicht soll versucht werden, jeweils gegebene und ge-
suchte Informationen herauszuarbeiten, um den späteren Einsatz von Data-Mining-
Verfahren vorzubereiten. Die Grenzziehung zwischen den Problemstellungen ist al-
lerdings unscharf, wie die folgenden Erläuterungen zeigen.
Das momentan verbreiteste Anwendungsgebiet sind klinische Studien, die sich mit
der Diagnose, Therapieplanung, -prognose und -evaluierung beschäftigen und sich in
einer Vielzahl von Kriterien unterscheiden (Abschnitt 2.2.2). Sie beziehen sich in der
Entwurfsphase bei der Erstellung der Studie auf ganze Patientengruppen, wobei in
der Anwendungsphase Schlussfolgerungen sowohl für die Patientengruppe als auch
für einzelne Patienten gezogen werden sollen. Die Entwurfsphase ist in den Bereich
grundlagenorientierte Forschung einzustufen, während die Anwendungsphase der
Ergebnisse idealerweise in den klinischen Alltag einzieht.
Problemstellungen in der biologischen Modellbildung (Abschnitt 2.2.3) sind stärker
grundlagenorientiert und stellen eine Vorstufe zur Hypothesensuche für nachfolgende
klinische Studien dar. Hier geht es darum, biologische Zusammenhänge zu verstehen
und idealerweise mathematisch zu modellieren.
Während bei Modellbildungsproblemen im Rahmen klinischer Studien tendenziell
einfache Ursache-Wirkungs-Mechanismen auf einem höheren Abstraktionsniveau
überprüft werden, zielt die biologische Modellbildung auf detailliertere und theore-
tisch begründbare Mechanismen.
Deutlich anwendungsnäher ist die Regelung und Steuerung für individuell ange-
passte Medizingeräte, die sich meist auf Ergebnisse der biologischen Modellbildung
stützt. Hier steht nicht ein möglichst allgemeingültiges Modell, sondern eine individu-
elle Anpassung der Modellparameter für einzelne Patienten im Vordergrund. Häufig
geht diese Anpassung mit erheblichen strukturellen Vereinfachungen einher – bis hin
zum vollständigen Neuentwurf des zugrundeliegenden Modells unter Verwendung ei-
niger elementarer Erkenntnisse.

12
2.2 Problemstellungen

2.2.2 Klinische Studien

Wichtige Fragestellungen bei klinischen Studien sind [147]:


• die Charakterisierung von Erkrankungen (inkl. einzelner Subgruppen und Stadien
im zeitlichen Verlauf, sowie der Suche nach Faktoren, die deren Entstehung und
Verlauf beeinflussen),
• die Bewertung diagnostischer Verfahren und
• die Bewertung therapeutischer Maßnahmen (Medikamente, Behandlungsmetho-
den, neue Technologien).
Das Ziel solcher Studien besteht im Auffinden der Einflüsse von Eingangsgrößen
(Merkmale xl ) auf Ausgangsgrößen (Merkmale y j ), wobei die Ausgangsgrößen y j als
deterministische Funktionen y j (x1 , . . . , xs ) oder Funktionen von Zufallsgrößen ange-
setzt werden.2 Die Merkmale und Ausgangsgrößen entstammen den Datenquellen
von Abschnitt 2.1.
In einer regelbasierten Darstellung kann ein solcher Zusammenhang beispielswei-
se durch eine Regel vom Typ WENN Prämisse DANN Konklusion wie z. B.
WENN Patient zum Zeitpunkt t1 mit Merkmal (Einflussfaktor) x1 (t1 ) und . . . und xs (t1 )
UND . . .
UND Patient zum Zeitpunkt tT mit Merkmal (Einflussfaktor) x1 (tT ) und . . . und xs (tT )
DANN Patient zum Zeitpunkt tT +1 ≥ tT mit Merkmal y1 (tT +1 ) und . . . und ym (tT +1 )
formuliert werden. Andere Darstellungsformen sind aber selbstverständlich möglich.
Die Ausgangsgrößen y j für eine Therapie (Therapieergebnisse, engl. outcome)
können objektiv messbar (z. B. Laborparameter, Überlebenszeit, Auftreten von Kom-
plikationen) oder subjektiv erfassbar (z. B. Lebensqualität, funktioneller Status) sein.3
Subjektive Bewertungen basieren auf klinischen Fragebögen, die von Patienten und
bzw. oder Ärzten zu erstellen sind. Sie gewinnen zunehmend an praktischer Bedeu-
tung, weil viele objektiv angebbare Parameter (wie Laborwerte) kaum Aussagen über
die verbesserte Lebensqualität des Patienten – und damit über ein wichtiges Behand-
lungsziel – geben [334]. Damit einher geht eine stärkere Orientierung am Nutzen der
Therapie für einen Patienten. Etablierte Methoden in klinischen Studien sind para-
metrische und nichtparametrische Tests mit vordefinierten Merkmalen auf der Ba-
sis gegebener Hypothesen (z. B. t -Test zu Unterschieden zwischen verschiedenen
(Patienten-) Gruppen in der Ausgangsgröße).

2
Während der Auswertung einer solchen Studie kann die Zuordnung einer Größe als Ein- oder Aus-
gangsgröße wechseln.
3
Anstelle von Aussagen für einzelne Patienten (z. B. Überlebenszeit) können auch Ausgangsgrößen
für Patientengruppen (z. B. 5-Jahre Überlebensrate) untersucht werden.

13
2 Medizinische Problemstellungen und Rahmenbedingungen

Art der Studie Erklärung


prospektiv Daten werden erst nach Studienbeginn erhoben (Ziel: Vermeidung des
parallelen Tests verschiedener Hypothesen, von denen zufällig eine be-
stätigt wird), Gegenteil: retrospektiv
kontrolliert Vergleich einer Gruppe mit einer oder mehreren Kontrollgruppen, wobei
jede Kontrollgruppe mit der untersuchten Gruppe möglichst gut überein-
stimmen soll (Ziel: Vermeidung von zeitlichen Effekten, Erkennung Con-
founding)
randomisiert zufällige Zuordnung der Patienten zu einer Gruppe
(Ziel: Vermeidung von systematischen Auswahleffekten)
blind Zuordnung des Patienten zu einer Gruppe ist dem Patienten nicht bekannt
(Ziel: Vermeidung Placebo-Effekte beim Patienten), Gegenteil: offen
doppelt-blind Zuordnung des Patienten zu einer Gruppe ist dem Patienten und dem
behandelnden Arzt nicht bekannt (Ziel: Vermeidung Placebo-Effekte beim
Patienten und Arzt)
Multi-Center Durchführung von Studien mit gleichem Design an mehreren Kliniken
(Ziel: Vermeidung lokaler Effekte durch klinikspezifische Patientengrup-
pen oder nicht untersuchte klinikspezifische Behandlungsmethoden so-
wie Unterdrückung stochastischer Effekte)
Metaanalyse indirekte Auswertung mehrerer Studien (Ziel: Vermeidung lokaler Effek-
te durch klinikspezifische Patientengruppen oder nicht untersuchte klinik-
spezifische Behandlungsmethoden sowie Unterdrückung stochastischer
Effekte)

Tabelle 2.1: Strategieelemente beim Design klinischer Studien

Wichtige Unterscheidungskriterien für Studien (Tabelle 2.1) sind


• der Zeitpunkt der Datenerfassung (prospektiv: nach Studiendesign, retrospektiv:
Verwendung von Daten, die zum Zeitpunkt des Studiendesigns bereits vorlagen),
• die Definition der Einschlusskriterien (aus Ein- oder Ausgangsgrößen),
• die Anzahl der Untersuchungszeitpunkte (Längsschnitt-Studien bzw. Longitudinal-
Studien: mehrere Untersuchungen pro Patient und Auswertung des zeitlichen Ver-
laufs (T ≥ 1,tT +1 > tT ≥ . . . ≥ t1 , y j werden zeitlich nach xl erhoben), Querschnitt-
Studien bzw. Transversal-Studien: eine Untersuchung pro Patient: t1 = t2 = tT =
tT +1 ),
• die Art der Beeinflussung von Eingangsgrößen (Experiment bzw. Interventions-
studie: mindestens ein Einflussfaktor xl wird vom Arzt aktiv beeinflusst – damit im-
mer Längsschnitt-Studie bei der nachfolgenden Auswertung, Beobachtungsstudie:
kein Einflussfaktor xl wird aktiv beeinflusst),

14
2.2 Problemstellungen

• die Zuordnung eines Patienten zu einer (Therapie-) Gruppe bei experimentellen


Studien (vom Arzt, vom Patienten, zufällig),
• die Verfügbarkeit von Informationen über diese Zuordnung für Patient und Arzt
sowie
• die Art des Vergleichs der Ergebnisse (mit oder ohne Kontrollgruppe).
Diese Systematik erlaubt die Einordnung häufiger Studientypen: Kohorten-Studien
(engl. cohort studies) sind prospektive oder retrospektive Längsschnitt- und Beobach-
tungsstudien. Das Einschlusskriterium wird aus der Prämisse festgelegt (xl , z. B. zwei
Personengruppen mit hohem bzw. niedrigem Blutdruck, damit qualitative Eingangs-
größe). In der Konklusion wird dann nach relevanten Unterschieden gesucht (y j , z. B.
durchschnittliche Lebenserwartung, Erkrankungshäufigkeiten usw.). Allerdings eignet
sich dieser Studientyp nur bedingt zur Untersuchung seltener Erkrankungen, weil er
extrem große Patientenzahlen im Studiendesign erfordert, um relevante Aussagen zu
erzielen.
Fall-Kontroll-Studien (engl. case-control studies) sind retrospektive Längsschnitt-
und Beobachtungsstudien, bei denen die Einschlusskriterien aus der Konklusion (y j )
festgelegt werden und nach Unterschieden in der Prämisse (xl ) gesucht wird. Das
Hauptanwendungsgebiet ist die Suche nach Ursachen xl für seltene Ereignisse y j
(z. B. Erkrankungen). Dabei wird versucht, eine (demografisch) möglichst ähnliche
Kontrollgruppe zu finden und mit den erkrankten Personen zu vergleichen.
In einem einfachen Fall soll bei einer Wirksamkeitsstudie für eine Therapie
WENN Patient vor Therapie (t1 ) mit Diagnose A (x1 (t1 ))
UND Festlegung: Behandlung mit Therapie B (x2 (t1 )) und nachfol-
gende Durchführung
DANN Patient nach Therapie (t2 ) mit Diagnose C (y1 (t2 ))
gelten. Mit dieser Formulierung verbindet sich implizit die Hoffnung, dass für jeden
beliebigen Patienten mit Diagnose A zum Zeitpunkt t1 , der der Therapie B unterzogen
wird, nach der Therapie zum Zeitpunkt t2 die (hoffentlich günstigere) Diagnose C gilt
und die Therapie ursächlich für eine Veränderung A → C verantwortlich ist. Da hier
ein Einflussfaktor (Therapie B) vom Arzt festgelegt wird, handelt es sich um eine
Interventionsstudie.
Allerdings ist es keineswegs einfach, diesen Zusammenhang zweifelsfrei aus Da-
ten zu belegen. Es ist nicht auszuschließen, dass es zwar in der Studie Hinweise auf
Zusammenhänge zwischen Therapie B und auf eine Veränderung der Diagnose A
zu C gibt, diese Veränderungen aber ursächlich durch eine oder mehrere nicht er-
fasste Eingangsgrößen x3 , . . . , xs hervorgerufen werden (Confounding). Das Problem
besteht darin, dass ein Patient natürlich nicht nur durch die bekannte Diagnose A und

15
2 Medizinische Problemstellungen und Rahmenbedingungen

die Therapie B, sondern stets durch eine Vielzahl weiterer Einflussfaktoren (zusätz-
liche Erkrankungen, Ernährungs- und Lebensgewohnheiten, parallel angewendete
Therapien, Alterung,...) gekennzeichnet ist. Diese Einflussfaktoren sind nur zum klei-
nen Teil erfassbar und eröffnen weiten Interpretationsspielraum bei der Analyse der
Zusammenhänge.
Auch bei miteinander korrelierten bekannten Eingangsgrößen, die auf Zusammen-
hänge mit der Ausgangsgröße hindeuten, ist eine Annahme von Ursache-Wirkungs-
Mechanismen nicht ausschließlich aus Daten begründbar. Zudem gibt es eventuell
Untersucherabhängigkeiten bei der Diagnose und der Therapiedurchführung. Be-
sonders wichtig ist deshalb die klare Definition der Ein- und Ausschlusskriterien in
Diagnose A. Ausführliche Diskussionen zu Fehlerquellen und Möglichkeiten zu de-
ren Vermeidung durch ein geeignetes Studiendesign finden sich beispielsweise in
[147, 447].
Im Folgenden sollen nur einige wenige drastische Beispiele kurz umrissen werden,
um Strategieelemente im Studiendesign zu motivieren (Tabelle 2.1): Einige Erkran-
kungen klingen auch ohne Behandlung irgendwann ab oder verschlimmern sich (zeit-
liche Effekte). Folglich ist bei einer Erkältung eines 70-jährigen Patienten (Diagnose
A) die Vergabe von Traubenzucker (Therapie B) nicht unbedingt ursächlich für das
Abklingen der Erkältung (Diagnose C) nach sechs Wochen. Andererseits ist auch
die eventuelle Verschlechterung des Allgemeinzustands des Patienten nach einigen
Jahren (Diagnose C) kaum eine Wirkung der Traubenzuckertherapie.
Auch örtliche Effekte spielen u. U. eine Rolle: Eine besonders qualifizierte Klinik
bekommt tendenziell auch schwerere Fälle mit geringeren Behandlungsaussichten –
deshalb sind geringere Überlebensraten im Vergleich zu einem Kreiskrankenhaus
weder kausal auf die Klinikzuweisung zurückzuführen noch repräsentativ für die Er-
folgsaussichten einer Therapie.
Falsche Interpretationen können durch den Vergleich mit einer möglichst ähnlichen
Kontrollgruppe vermieden werden, die der Therapie nicht unterzogen wird. Ein gene-
relles Problem bei kontrollierten Studien sind allerdings ethische Bedenken: Jedem
Patienten soll die bestmögliche Behandlung zukommen. Es ist also nicht zu verant-
worten, einem Patienten aus Gründen des Studiendesigns eine aussichtsreichere
Behandlung zu verweigern (Zuweisung zur Kontrollgruppe) oder eine risikoreichere
Behandlung zuzumuten (Zuweisung zur Therapiegruppe). Kontrollierte Studien sind
also hauptsächlich in den Phasen interessant, in denen es erste unbestätigte Hinwei-
se für die Überlegenheit einer neuen Therapie gibt.
Um verbindliche Aussagen zu gewinnen und systematische Auswahlfehler zu ver-
meiden, sollte diese Zuordnung allerdings weder vom Patienten noch vom Arzt ab-

16
2.2 Problemstellungen

hängen. In beiden Fällen besteht das Risiko, dass die Auswahl von einem weiteren
Merkmal abhängt, das wiederum das Ergebnis beeinflusst. Selbst eine wirkungslose,
aufwändigere Therapieform (x2 ) kann positiv evaluiert werden, wenn sich ein Arzt nur
bei Patienten mit einem stabilen sozialen Umfeld (x3 ) für diese Therapie entscheidet,
aber allein das bessere soziale Umfeld die Erfolgsaussichten der Therapie positiv be-
einflusst (y1 ) (Beispiel: Tuberkuloseimpfungen in New York [164]). Somit dürfen sich
die Gruppen idealerweise nur in einem Merkmal (z. B. der eingesetzten Therapie)
signifikant unterscheiden. Bei allen anderen Merkmalen (weitere nicht untersuchte
Therapien: Behandlungsgleichheit; charakteristische Merkmale wie Alter, Diagnosen:
Strukturgleichheit; Erfassung der Ergebnisse: Beobachtungsgleichheit) sollen keine
relevanten Unterschiede auftreten (Kapitel 6 in [246]).
Ein wichtiges Strategieelement zum Erreichen dieses Ziels ist die zufällige Auswahl
der Gruppenzuordnung (Randomisierung), um solche Auswahleffekte zu vermeiden,
wodurch randomisierte kontrollierte Studien entstehen (engl. RCT – Randomized
Controlled Trials). Dabei wird zunächst mit Einschlusskriterien eine möglichst homo-
gene Patientengruppe ausgewählt und die Therapieentscheidung zufällig getroffen.
Bei einer hinreichend großen Anzahl von Patienten kann dann von Strukturgleich-
heit ausgegangen werden, bei kleineren Patientenkollektiven ist das durch geeigne-
te Maßnahmen sicherzustellen (eingeschränkte Randomisierungen, Stratifizierungen
usw. [246]). Patienten haben aber u. a. aus ethischen Gründen jederzeit das Recht,
eine Therapie abzubrechen, eine andere Therapie zu verlangen oder Kontrollunter-
suchungen nicht wahrzunehmen. Sie scheiden dann zwar aus der Studie aus und
sind entsprechend zu dokumentieren, dennoch sind hier je nach Abbruchursache
(z. B. Nebenwirkungen, schnelle Erfolge) systematische Fehler in der Studie kaum
auszuschließen.
Zudem können subjektive positive oder negative Erwartungen des Patienten oder
des Arztes die Ergebnisse verfälschen. Allein die positive Einstellung eines Patien-
ten ist ein wesentlicher Erfolgsfaktor für eine Therapie. So ist der Effekt zu erklä-
ren, dass auch objektiv wirkungslose Therapien erfolgreich sein können (”Placebo-
Effekt”), was u. U. eine Fehlinterpretation von Studien nach sich zieht. Ein Strategie-
element zur Vermeidung von Placebo-Effekten ist die Verblindung, bei der der Patient
(einfache Verblindung) und eventuell zusätzlich der Arzt (doppelte Verblindung) kei-
ne Informationen über die ausgewählte Therapie erhalten. Bei Medikamenten kann
die Verblindung durch äußerlich gleiche Placebo-Medikamente erfolgen. Ein ähnli-
ches Vorgehen ist auch bei der Evaluierung von chirurgischen Eingriffen mit Placebo-
Operationen möglich [417], aber ethisch stärker umstritten.
Bei retrospektiven Studien besteht beim Testen einer Vielzahl von Hypothesen ei-
ne erhöhte Gefahr, dass ein gefundener Zusammenhang nur zufällig ist. Prospektive

17
2 Medizinische Problemstellungen und Rahmenbedingungen

Studien sind aufwändiger und langwieriger, weil erst geraume Zeit nach der Planung
der Studie mit Ergebnissen zu rechnen ist. Da aufgrund des Studiendesigns nur eine
Hypothese bereits vor der Studie zu formulieren ist, ist das Risiko zufälliger, irrefüh-
render Zusammenhänge reduziert.
Ein Strategieelement zur Verringerung des Einflusses von lokalen Besonderheiten
sind Multi-Center-Studien, wodurch in der Regel ein repräsentativeres Patientenkol-
lektiv erreicht wird.
In einer weiteren Hierarchiestufe kann eine Vielzahl klinischer Studien mit glei-
chen oder zumindest ähnlichen Fragestellungen durch Metaanalysen ausgewertet
werden. Eine Metaanalyse beruht meist auf der teilautomatischen Auswertung von
Zeitschriftenpublikationen der primären Studien, wobei zumindest eine automatisier-
te Auswahl durch Suchprozesse erfolgt. Eine Übersicht über die zugrundeliegende
Methodik, wichtige Ressourcen und mögliche Fehlerquellen gibt [181].
Klinische Studien nehmen eine Schlüsselrolle in der sogenannten Evidenz-
basierten Medizin (engl. Evidence-based Medicine – EBM) ein, die zunehmend an
Bedeutung gewinnt. Die EBM klassifiziert klinische Studien entsprechend ihrer Qua-
lität in Evidenzklassen und -grade (siehe Tabelle 2.2), wobei sich die genauen Defi-
nitionen und Bezeichnungen international etwas unterscheiden [334].

Evidenzklasse Evidenzgrad methodische Basis


A Ia Metaanalyse mehrerer randomisierter, kontrollierter
Studien
A Ib mindestens eine randomisierte, kontrollierte Studie
B IIa mindestens eine gut angelegte kontrollierte Studie ohne
Randomisierung
B III gut angelegte, nicht experimentelle deskriptive Studien
(Fall-Kontroll-Studien, Kohorten-Studien)
C IV Berichte, Meinungen in Expertenkreisen, klinische Er-
fahrungen anerkannter Autoritäten

Tabelle 2.2: Evidenzklassen und -grade in Anlehnung an die Definitionen der Ärztlichen Zen-
tralstelle Qualitätssicherung [334]

Eine wichtige Anwendung solcher Methoden ist die Formulierung von qualitativ
hochwertigen Leitlinien (engl. guidelines), in denen fundierte Erfahrungen zur Dia-
gnose und Therapie praxisorientiert und wissenschaftlich begründet zusammenge-
fasst werden. Diese Leitlinien dienen als Entscheidungshilfen für Ärzte und Kran-
kenkassen. Eine Übersicht über die entsprechenden deutschen Projekte der Arbeits-
gemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF, ei-

18
2.2 Problemstellungen

nem Zusammenschluss von 140 Fachgesellschaften – Stand 2003) und der Ärztli-
chen Zentralstelle Qualitätssicherung (ÄZQ) findet sich in [334, 341] und im Internet
([Link], [Link]). Ähnliche Projekte gibt es auch in den meis-
ten europäischen Ländern, den USA, Kanada und Australien (Übersicht incl. Inter-
netressourcen siehe [242]). Auch im Bereich der öffentlichen Gesundheitsvorsorge
gibt es Bemühungen, wichtige Risikofaktoren für Krankheiten (wie z. B. Ernährungs-
gewohnheiten, ökologische Einflüsse) systematisch zu erfassen sowie die Effizienz
von Therapien und deren wirtschaftliche Auswirkungen zu bewerten (z. B. Diabetes-
Behandlung in [337]). Eine Übersicht über die Methodik der amerikanischen EBM-
Studien auf diesem Gebiet (’Guide to Community Preventive Services’) gibt [74].
Gesonderte Vorschriften gelten für die Zulassung von Arzneimitteln. Die Zulas-
sungsvorschriften sind gesetzlich geregelt (Europäische Union [2], Arzneimittelge-
setz [12]) und werden durch international nahezu einheitliche De-facto-Standards
ergänzt [421, 431]. So schreibt beispielsweise die amerikanische Food and Drug
Association (FDA) einen detaillierten Prüfprozess vor, der aus mehreren Phasen be-
steht (Tabelle 2.3). Nach vorklinischen Tests mit Tierversuchen folgt eine dreipha-
sige Erprobung des neuen Arzneimittels (engl. IND: Investigational New Drug) am
Menschen, die bei Erfolg mit der Zulassung des Arzneimittels abschließt. Nach der
Zulassung gibt es mit der Phase IV eine kontinuierliche Überwachungsphase, die
insbesondere Langzeiteffekte und seltene Nebenwirkungen beobachtet. Zunehmend
findet sich auch die Bezeichnung einer Phase V, die den Einsatz eines bereits zuge-
lassenen Arzneimittels für neue Einsatzgebiete behandelt [431]. Bei den jeweiligen
Wirksamkeitsstudien handelt es sich meist um kontrollierte und randomisierte Studi-
en gegenüber alternativen Behandlungsformen.

2.2.3 Modellbildung, Simulation, Regelung und Steuerung


biologischer Systeme

Problemstellungen bei der Modellbildung, Simulation, Regelung und Steuerung bio-


logischer Systeme lassen sich nach den zu beschreibenden Systemen und den zu
untersuchenden systemtheoretischen Fragestellungen einteilen.
Typische Modellbildungsprobleme sind die Beschreibung
• von molekularen Vorgängen (z. B. DNA, Proteine),
• von Zellen und Zellverbänden (z. B. Beschreibung von Zellzyklen, Stoffwechsel in
Zellen, Signalübertragung in Nervenzellen),
• von Organen und Organsystemen (z. B. Herz-Kreislauf-System, Atmung, moto-
risches System mit dem Zusammenwirken von Skelett – Muskulatur und deren
nervaler Ansteuerung) sowie

19
2 Medizinische Problemstellungen und Rahmenbedingungen

Phase Erprobung Zeitraum Ziele Erfolgsquoten


FDA
- Tierversuche einige Monate Verträglichkeit, Stoffwechsel -
I 20-100 gesunde einige Monate Verträglichkeit, Stoffwechsel ca. 70 %
Probanden
II 100-500 einige Monate Dosisfindung, Wirksamkeit, ca. 33 %
Patienten bis 2 Jahre Verträglichkeit, Interaktionen
III 1500-5000 1-4 Jahre wie Phase II, Fokus: Lang- ca. 25-30 %
Patienten zeiteffekte, speziellere Indi-
kationen
IV nach Langzeiteffekte, speziellere -
Zulassung Indikationen, Vergleich mit
Konkurrenzprodukten

Tabelle 2.3: Arzneimittelzulassung bei der FDA mit durchschnittlichen Erfolgsquoten ab Start
der Phase I (nach [421])

• von Individuen und Populationen (z. B. Ausbreitung von Infektionskrankheiten in


der Bevölkerung)
(Übersicht siehe z. B. [246]). Eine weitere wichtige Unterteilung bezieht sich darauf,
ob das zu erstellende Modell die normalen Wirkungsmechanismen innerhalb einer
Art, pathologische Wirkungsmechanismen innerhalb einer bestimmten Gruppe (z. B.
bei einer bestimmten Erkrankung) oder die Besonderheiten eines Individuums erfas-
sen soll.
Mögliche Ziele bestehen darin, bisher strukturell unbekannte Ursache-Wirkungs-
Mechanismen aufzudecken und qualitativ zu beschreiben sowie strukturell bekannte
Ursache-Wirkungs-Mechanismen zu quantifizieren. Bei jedem Modell ist vorher die
Frage zu klären, welche Aspekte des biologischen Systems das Modell in welchem
Abstraktionsgrad beschreiben soll, sowie welche Ein- und Ausgangsgrößen von In-
teresse sind. Wichtige systemtheoretische Fragestellungen sind
• das Erlangen eines Grundverständnisses des biologischen Systems, bei dem rele-
vante Eingangs-, Ausgangs- und Zustandsgrößen erst aus einer Vielzahl in Frage
kommender Größen identifiziert werden müssen,
• die gezielte Analyse direkter und indirekter Wirkungen von bestimmten äußeren
Einflussgrößen (z. B. für eine gezielte Regelung und Steuerung) sowie
• die Erzeugung eines möglichst einfachen Modells, das als Basis für einen nach-
folgenden Steuerungs- oder Reglerentwurf bzw. für eine Online-Adaption und
-Überwachung benötigt wird.

20
2.2 Problemstellungen

Ein Vergleich mit den Problemstellungen für klinische Studien zeigt, dass keine klare
Trennung zwischen klinischen Studien und Aufgaben der biologischen Modellbildung
existiert. Tendenziell geht es bei Modellbildungsproblemen allerdings eher um de-
tailliertere Modelle auf der Basis von algebraischen Gleichungen, Differential- und
Differenzengleichungen sowie ereignisdiskreter Beschreibungsmittel (Zustandsgra-
phen, Petri-Netze), während sich klinische Studien auf die qualitative Beschreibung
von Unterschieden zwischen verschiedenen ”biologischen Systemen” (wie Patienten-
gruppen) konzentrieren.
Aus systemtheoretischer Sicht besonders interessant sind dabei Zusammenschal-
tungen einer Vielzahl vergleichsweise einfacher Modelle (z. B. für Stoffwechselvor-
gänge in Zellen [227]), um komplexe Systeme transparent und gut interpretierbar
zu beschreiben. Ebenso wichtig ist der Versuch, Modelle von einer hohen Abstrakti-
onsebene kommend zu verfeinern und so tiefere Einsichten in grundlegende Mecha-
nismen zu gewinnen und umgekehrt (siehe [185, 477] am Beispiel von molekularen
Interaktionen und regulatorischen Netzwerken in Zellen).
Jedes entstehende Modell eignet sich für eine nähere simulative Untersuchung, mit
der unterschiedliche Experimente (z. B. zur Wirkungsweise äußerer Einflussgrößen,
Robustheitsuntersuchung bei veränderlichen Parametern usw.) auf einem Computer
(”in silico”) durchgeführt werden können. Somit werden patientenbelastende Unter-
suchungen bzw. Tierversuche vermieden oder zumindest reduziert und zusätzliche
Informationen über die untersuchten Systeme generiert.
Der hier verwendete Begriff der Regelung und Steuerung fasst unterschiedliche
Problemstellungen zusammen. Bei Geräten in der Intensivmedizin oder bei Prothe-
sen entstehen meist ”klassische” Regelkreise. Bei einigen Problemstellungen (z. B.
Prothesen) geht es hauptsächlich um den patientenindividuellen Entwurf von unter-
lagerten Steuerungen, weil keine oder nur eingeschränkte sensorische Möglichkeiten
zur Verfügung stehen. Der Mensch übernimmt dann überlagerte Regelungen selbst.
Beispiel: Menschliche Bewegungen entstehen aus dem Zusammenwirken von reflex-,
programmgesteuerten und geplanten Bewegungskomponenten [402], wobei der motorische
Kortex, der Hirnstamm und das Rückenmark beteiligt sind. Alle Bewegungen sind durch ei-
ne Vielzahl sich gegenseitig beeinflussender neuronaler ”Regelkreise” und ereignisdiskreter
Aktionen gekennzeichnet. Obwohl einige Prinzipien der Abläufe bei der Bewegungsplanung
und -ausführung bekannt sind, liegt bisher kein detailliertes Modell des Zusammenwirkens
der verschiedenen Komponenten vor.
Beim Einsatz von Neuroprothesen [15] werden gestörte und verloren gegangene neuro-
nale Strukturen und Funktionen moduliert, überbrückt bzw. ersetzt. Bei Neuroprothesen für
Bewegungen werden Muskel-, Nerven- oder Hirnsignale durch geeignete Sensoren erfasst
(Bild 2.1). Dabei zwei Anwendungsfälle zu unterscheiden [299]:

21
2 Medizinische Problemstellungen und Rahmenbedingungen

EEG-Elektrode
ECoG-Elektroden,
invasive Elektroden

kortikospinale
Bahn

Rücken-
mark

Moto-
neuron

ENG-Elektrode efferente
(Cuff) Signale
afferente
subkutane Oberflächen- Signale
EMG-Elektrode EMG-Elektrode

periphere
Nervenfasern,
a-Motoaxone
Muskel- motorische
fasern Endplatten

Bild 2.1: Möglichkeiten zur Erfassung bioelektrischer Signale [299], EMG: Elektromyographie,
ENG: Elektroneurographie, EEG: oberflächliche Elektroencephalographie, ECoG:
invasive Elektrokortikographie

1. Eine technische Prothese agiert als Aktor (z. B. Handprothese, Exoskelett, Bild 2.2a).
2. Die Neuroprothese überbrückt eine nicht funktionsfähige Strecke im Nervensystem, der
eigentliche Aktor ist wieder ein biologisches System (z. B. die gelähmte Hand bei Quer-
schnittgelähmten, siehe Bild 2.2b).
Bei anderen Neuroprothesen agiert eine technische Prothese lediglich als Sensor und lei-
tet Informationen in das Zentrale Nervensystem weiter (z. B. Retina-Implantat, Cochlea-
Implantat). Umfassende Übersichten über den Entwicklungsstand von Neuroprothesen ge-
ben z. B. [257, 323, 347, 436].
Eine Neuroprothese weist bis zu vier verschiedene Schnittstellen zum Nervensystem
auf:
• Ableitung von Efferenzen (AE, vom Zentralnervensystem in Richtung Peripherie) zum
Erfassen von Bewegungsabsichten (Sensor, unbedingt notwendig für Anwendungsfall 1
und 2),
• Stimulation von Efferenzen (SE) zum Stimulieren peripherer Nerven und der durch sie
enervierten Muskeln (Aktor, unbedingt notwendig für Anwendungsfall 2),

22
2.2 Problemstellungen

a. Neuroprothese mit technischer Prothese


visuelles Feedback
AE
ZNS Neuronale Technische
Mensch Ankopplung Prothese
SA

b. Neuroprothese als Überbrückung


visuelles Feedback
AE
ZNS Neuronale SE PNS+ Muskeln
Mensch Ankopplung Mensch
SA
AA

Bild 2.2: Strukturen beim Einsatz von Neuroprothesen: a. mit einer technischen Prothese,
b. als Überbrückung neuronaler Strukturen, Abkürzungen: zentrales und peripheres
Nervensystem (ZNS, PNS), Ableitung von Efferenzen (AE) oder Afferenzen (AA),
Stimulation von Efferenzen (SE) oder Afferenzen (SA)

• Ableitung von Afferenzen (AA, von der Peripherie in Richtung Zentralnervensystem) zur
Erfassung peripherer sensorischer Rückmeldungen (Sensor, wünschenswert für Anwen-
dungsfall 2) und
• Stimulation von Afferenzen (SA) zum Einkoppeln von Informationen über den Prothesen-
oder Umweltzustand in das zentrale Nervensystem (Aktor, wünschenswert für Anwen-
dungsfall 1 und 2).
Ein Modell muss aus den abgeleiteten Efferenzen (Hirn-, Nerven- oder Muskelsignalen) Be-
wegungsabsichten erkennen und für eine Regelung oder Steuerung aufbereiten. Auf deren
Anwendung für Muskel- und Hirnsignale wird später in Kapitel 7 eingegangen. Ein Beispiel
für Nervensignale findet sich in [464] für erste Ergebnisse im Humanversuch mit Nadelelek-
troden. Ebenso wichtig ist eine Modellbildung bei der Ableitung von Afferenzen, um noch
funktionsfähige körpereigene Sensoren einzubinden (erste Ergebnisse im Humanversuch
in [27, 425] zur Erkennung des Bodenkontaktes des Fußes oder beim Greifen [187], Tierver-
suche zur selektiven Ableitung z. B. in [233, 299, 378]). Durch Nerven laufen viele parallele
Informationen in beiden Richtungen, deren Erfassbarkeit und Zuordnung in jedem Fall stark
vom Patienten und dem genauen Einbauort des Sensors abhängt. Ähnliche Probleme stellen
sich für die modellbasierte Einstellung von Stimulationsmustern für die funktionelle Elektrosti-
mulation. Hier sind Modelle zum Zuordnen von Stimulation und Bewegung (efferente Stimula-
tion, experimentelle Ergebnisse beim Schwein in [413]) bzw. von Stimulation und kognitivem
Feedback (afferente Stimulation, Akutversuche beim Menschen in [114]) aufzubauen. ¥

23
2 Medizinische Problemstellungen und Rahmenbedingungen

Modelle ermöglichen eine vollständige oder teilweise Simulation des geschlosse-


nen Regelkreises und unterstützen den Regler- und Steuerungsentwurf. Andere Wir-
kungsmechanismen (z. B. bei der Verabreichung von Medikamenten) entsprechen
aus einer systemtheoretischen Sichtweise ebenfalls einer Steuerung, weil mangels
geeigneter Sensorik und aus Aufwandsgründen keine unmittelbare automatische
Rückkopplung von biologischen Messgrößen stattfindet. In allen genannten Berei-
chen ist zukünftig eine stärkere Rolle automatisierungstechnischer Ansätze zu er-
warten [73].
Ein Modellbildungsproblem ist umso einfacher lösbar und weist umso leichter
verständliche Lösungen auf, je besser die zugrundeliegenden strukturellen biolo-
gischen, chemischen und physikalischen Ursache-Wirkungs-Mechanismen bekannt
sind. Deswegen sind Modelle anzustreben, die auf etablierten Naturgesetzen (z. B.
Bilanzgleichungen – engl. first principles) oder wenigstens auf empirisch gut abgesi-
cherten Zusammenhängen basieren. Dennoch existiert auch eine Vielzahl von Auf-
gaben, bei denen die zugrundeliegenden Mechanismen noch unbekannt sind. Hier
besteht ein erheblicher Bedarf, aus gegebenen Daten Zusammenhänge automatisch
zu extrahieren. Eine Übersicht zu so gearteten Fragestellungen und Lösungen findet
sich in [17].

2.3 Einsatzpotenziale und Anforderungen für Data-Mining-Verfahren

Offene Fragen bei der Planung klinischer Studien ergeben sich insbesondere bei
• der Festlegung geeigneter Hypothesen für prospektive Studien und
• der Suche nach möglichen Confounding-Effekten.
Bei der Analyse des Studiendesigns fällt auf, dass alle prospektiven Studien eine fi-
xierte Hypothese zu Studienbeginn voraussetzen. Dabei wird an einer kleinen Menge
von vorher definierten Merkmalen mit statistischen Methoden geprüft, ob die erwarte-
te Wirkung eintritt. Die Formulierung dieser Hypothesen bleibt bisher meist der klini-
schen Erfahrung des planenden Arztes überlassen. Hier eröffnet sich ein großes Po-
tenzial für Data-Mining-Verfahren, um für komplexe Problemstellungen bei klinischen
Studien relevante Hypothesen automatisiert zu generieren. So gefundene Hypothe-
sen sind dann durch einen Arzt zu verifizieren, um Anregungen für ein nachfolgendes
Studiendesign bei prospektiven Studien zu erzeugen.
Viele Studien beruhen auf einfachen Hypothesen. Ein weiteres Einsatzpotenzial
von Data-Mining-Verfahren besteht darin, bisher unbekannte multivariate Hypothesen
zu formulieren und so einen tieferen Einblick in Wirkungsmechanismen zu eröffnen.

24
2.3 Einsatzpotenziale und Anforderungen für Data-Mining-Verfahren

Eine ähnliche Chance bietet die Analyse der Studienergebnisse zur Auffindung von
Confounding-Effekten: Beim routinemäßigen univariaten und multivariaten Analysie-
ren4 aller verfügbaren Merkmale ergeben sich häufig Hinweise auf unerwartete Zu-
sammenhänge. Wenn alle verfügbaren Informationen enthalten sind (auch scheinbar
irrelevante wie Identifikationsnummern des behandelnden Arztes, Untersuchungs-
monat und -jahr), kann das Auffinden und Interpretieren gefundener Zusammenhän-
ge Hinweise auf zeitliche Abhängigkeiten, Untersucherabhängigkeiten und weitere
Einflussgrößen geben. Diese Hinweise sind zwar statistisch kaum belastbar, können
aber wiederum bei der Interpretation von Studienergebnissen mit in Betracht gezo-
gen werden.
Bei der biologischen Modellbildung steht die Hypothesensuche nach bislang un-
bekannten Modellstrukturen für biologische Wirkungsmechanismen im Vordergrund.
Data-Mining-Verfahren dienen hier hauptsächlich der Auswertung von Experimenten,
wenn bisher keine fundierten biologischen, chemischen und physikalischen Ursache-
Wirkungs-Mechanismen bekannt sind. Bei einem modellbasierten patientenindividu-
ellen Entwurf von Regelungen und Steuerungen steht aus Effektivitätsgründen eine
möglichst vollständige Automatisierung des Entwurfsprozesses von Modell und Re-
gelung bzw. Steuerung im Vordergrund.
Eine langfristige Perspektive ist die Auswertung medizinischer und biologischer Li-
teraturdatenbanken mit Textmining-Verfahren [64, 76]. Ein erfolgreicher Einsatz hängt
von einem geeigneten Umgang mit unterschiedlichen Begriffen und Taxonomien und
einer zumindest ansatzweise vorhandenen semantischen Analyse ab.
Zusammenfassend bietet die Entdeckung bisher unbekannter Zusammenhänge
aus unterschiedlichen Datenquellen und dessen Formulierung als (durch statistische
Verfahren) nachprüfbare Hypothese das vielversprechendste Einsatzpotenzial von
Data-Mining-Verfahren in medizinischen und medizintechnischen Anwendungen.
Prinzipiell eignen sich Data-Mining-Verfahren für beliebige Problemstellungen.
Dennoch treten bei vielen medizinischen Problemstellungen einige Besonderheiten
auf, mit denen sie sich von den meisten technischen oder betriebswirtschaftlichen
Problemen unterscheiden (siehe z. B. [18, 99, 100, 245]):

• Datensätze für medizinische Probleme enthalten oft nur geringe Datentupelzah-


len (Patienten), aber eine hohe Anzahl potenzieller Einflussgrößen. Die zu un-
tersuchenden Datenmengen sind wegen der Analyse von Zeitreihen und Bildern
oftmals groß. Diese Eigenschaften erschweren die Anwendung von Data-Mining-
Verfahren erheblich, weil die gefundenen Zusammenhänge statistisch nicht ab-

4
univariat: jede Eingangsgröße separat, multivariat: Kombinationen mehrerer Eingangsgrößen

25
2 Medizinische Problemstellungen und Rahmenbedingungen

gesichert sind und die Gefahr besteht, zufällige Gemeinsamkeiten als kausalen
Zusammenhang zu deuten.
• Die aufzufindenden Zusammenhänge sind oft nichtlinear, zeitvariant und durch un-
bekannte, aber relevante Eingangsgrößen gekennzeichnet. Beispielsweise spielen
kaum erfassbare subjektive Einflüsse (z. B. Motivation, Angst, Tagesform bei Pati-
enten) oft eine wesentliche Rolle.
• Wichtige Ausgangsgrößen (z. B. Patientenzufriedenheit, Lebensqualität) sind
schwer zu quantifizieren.
• Scheinbar homogene Patientengruppen bestehen oft aus heterogenen Subgrup-
pen mit signifikant unterschiedlichen Wirkungsmechanismen. Der Versuch, ein all-
gemeingültiges Modell für eine solche Patientengruppe zu ermitteln, führt stets zu
unbefriedigenden Ergebnissen. Die Ursache dafür ist das Ermitteln eines ”mittle-
ren” Modells für alle Subgruppen, was aber in der Regel keine Subgruppe hinrei-
chend beschreibt. Darüber hinaus können einzelne Patienten graduelle Zuordnun-
gen zu mehreren Subgruppen ausweisen.
• Datensätze sind häufig unvollständig, weil bestimmte Merkmale für einige Patien-
ten nicht erhoben wurden.
• Die Möglichkeiten für die aktive Beeinflussung der Versuchsplanung sind gering,
weil die Zahl der beeinflussbaren Merkmale vergleichsweise gering ist und weite-
re Merkmale aus ethischen Gründen nicht beeinflusst werden sollen (z. B. beste
Therapieoptionen oder selbst gewählte Lebensumstände für einen Patienten).
• Vorhandenes Expertenwissen ist häufig in verbaler Form gegeben, aber wegen
einer stark unterschiedlichen Terminologie und Synonymen schwer auswertbar.
• Die Akzeptanz der Lösung hängt entscheidend von ihrer Interpretierbarkeit ab.
• Die Erhebung und Verwendung von Daten wird durch rechtliche und ethische Vor-
schriften eingeschränkt. Klinische Daten sind erst nach einer Anonymisierung, der
Zustimmung der Ethik-Kommission und der Patienten verfügbar.
Diese Besonderheiten stellen hohe Anforderungen an Auswerteverfahren, insbeson-
dere an die Validierung der Ergebnisse. Ein kritikloses Anwenden von Statistiken führt
oftmals zu irreführenden Ergebnissen, weil systematische Fehler (z. B. durch sich
ändernde Rahmenbedingungen und Patientengruppen) und zufällige Fehler kaum
vermeidbar sind. Eine rein datengetriebene Validierung reicht hier nicht aus. Besser
geeignet ist hingegen eine Vorgehensweise, bei der ein Data-Mining-Verfahren zu-
nächst interpretierbare Lösungen und Lösungsverfahren erzeugt. Anschließend er-
folgt unter Hinzuziehung von Experten eine umfassende Diskussion zur Hypothesen-
bildung, was eine Analyse möglicher Fehlerquellen einschließt.

26
3 Data Mining: Verfahrensübergreifende Begriffe

3.1 Übersicht

Das Ziel dieses Kapitels besteht darin, verfahrensunabhängige Begriffe, Problemstel-


lungen und Bewertungsmaße zusammenzustellen. Dazu werden im Folgenden alle
Problemstellungen und Verfahren, die auf die Suche nach unbekannten oder nur teil-
weise bekannten (strukturellen) Zusammenhängen in großen Datenmengen (engl.
KDD: Knowledge Discovery from Databases) zielen, unter dem Begriff Data Mining
zusammengefasst. Die bekannteste Definition geht auf Fayyad zurück [133]:
Data mining is a step in the KDD process that consists of applying data analysis and
discovery algorithms that produce a particular enumeration of patterns (or models)
over the data.
Der Begriff Muster (engl. pattern) beschreibt dabei typische (bedeutungstragende)
Ausprägungen von Merkmalen in den Daten. Der Begriff Merkmale (engl. features)
bezieht sich hierbei auf eine Definition im engeren Sinne für diejenigen Eingangs-
größen, die für die jeweilige Problemstellung relevant sind. In dieser Arbeit wird der
Begriff im weiteren Sinne verwendet, bei der jede Eingangsgröße als (potenzielles)
Merkmal betrachtet wird, das zur Lösung einer Problemstellung möglicherweise bei-
trägt.
In der Literatur gibt es allerdings unterschiedliche Definitionen. Neuere Sichtwei-
sen fassen den Begriff weiter und beziehen den kompletten Prozess der Wissen-
sentdeckung aus Datenbanken ein. Hier wird oftmals die originale Fayyad-Definition
(ebenfalls aus [133])
KDD is the nontrivial process of identifying valid, novel, potentially useful, and ulti-
mately understandable patterns in data.
als Data-Mining-Definition verwendet. Diese Definition bezieht Schritte zur Daten-
tupelselektion, -vorverarbeitung, -transformation sowie zur Interpretation und Evalu-
ierung explizit mit ein. In diesem Buch wird der Begriff in der allgemeineren Sicht
verwendet.
Ausgangspunkt jedes Data-Mining-Verfahrens sind ein oder mehrere Datensätze,
deren interne Strukturen und Bezeichnungen in Abschnitt 3.2 erläutert werden. Da-
nach schließt sich Abschnitt 3.3 an, der verschiedene Problemstellungen anhand
ihrer unterschiedlichen Ein- und Ausgangsgrößen einteilt. Die Datensätze können

27
3 Data Mining: Verfahrensübergreifende Begriffe

Bild 3.1: Veranschaulichung der Datenstrukturen in einem Lerndatensatz (nach [258])

verschiedene Arten von Informationsdefiziten und Ungewissheiten enthalten, die die


Auswertung beeinflussen (Abschnitt 3.4). Im Anschluss werden diejenigen Bewer-
tungsmaße eingeführt, die in verschiedenen Data-Mining-Verfahren verwendet wer-
den (Abschnitt 3.5). Nach einigen grundsätzlichen Bemerkungen zu Optimierungs-
verfahren (Abschnitt 3.6), die explizit oder implizit bei nahezu allen Data-Mining-
Verfahren eine Rolle spielen, folgt ein Überblick über wichtige Validierungstechniken
(Abschnitt 3.7). In diesem Kapitel werden nur einige wichtige Bezüge zu medizini-
schen und medizintechnischen Problemstellungen skizziert. Eine umfassende Dis-
kussion erfolgt in den späteren Kapiteln.

3.2 Daten und Datenstrukturen

Den Ausgangspunkt für datengestützte Analysen bildet ein Lerndatensatz mit n =


1, . . . , N Datentupeln (engl. samples). Er enthält l = 1, . . . , s Merkmale xl [n] und
j = 1, . . . , sy Ausgangsgrößen y j [n], die oftmals in einer (N, s)-dimensionalen Matrix
X und einer (N, sy )-dimensionalen Matrix Y angeordnet sind (Bild 3.1). Probleme mit
mehrdimensionalen Ausgangsgrößen sy > 1 werden im Folgenden meist in mehrere
separate Probleme mit nur einer Ausgangsgröße y dekomponiert (N -dimensionaler
Vektor y). Auf spezifische Unterschiede bei Problemstellungen mit mehreren Aus-
gangsgrößen wird jeweils gezielt hingewiesen. Somit ergeben sich die folgenden Ma-
trizen und Vektoren:
     
x1 [1] · · · xs [1] y1 [1] · · · ysy [1] y[1]
 ..   .   . 
X =  ... ...
.  , Y =  ..
... ..
. bzw. y =  ..  . (3.1)
x1 [N] · · · xs [N] y1 [N] · · · ysy [N] y[N]

28
3.2 Daten und Datenstrukturen

Merkmale lassen sich in nominale (Synonym: kategorische), ordinale, intervall-


skalierte und rationalskalierte (Synonym: verhältnisskalierte) Merkmale einteilen. No-
minale Merkmale unterliegen keiner Ordnungsrelation (größer als, kleiner als) (z. B.
Geschlecht: männlich oder weiblich). Diese Ordnungsrelation existiert bei ordinalen
Merkmalen (z. B. Größe mit Werten wie sehr klein, klein, mittel und groß). Die Rang-
nummern solcher Werte sagen aber noch nichts über die Semantik der Abstände aus.
Wenn alle Abstände zwischen aufeinanderfolgenden Werten gleich sind, handelt es
sich um intervallskalierte Merkmale (z. B. Temperatur in [◦ C]). Bei rationalskalierten
Werten gibt es noch zusätzlich einen natürlichen Nullpunkt (z. B. Größe in [m], Tem-
peratur in [K]).
Die entsprechenden Skalen werden als Nominalskala, Ordinalskala, Intervallskala
und Ratioskala (Synonym: Verhältnisskala) bezeichnet [31]. Nominal- und Ordinals-
kala sind qualitative Skalen, Intervall- und Ratioskala metrische Skalen. Eine Über-
sicht über zulässige Operationen gibt Tabelle 3.1.

Häufig- Größen- Median Mittel- Addition/ Multiplika-


Skalenniveau keiten vergleich wert Subtraktion tion/Division
Nominalskala ja nein nein nein nein nein
Ordinalskala ja ja ja nein nein nein
Intervallskala ja ja ja ja ja nein
Ratioskala ja ja ja ja ja ja

Tabelle 3.1: Zulässige Operationen auf verschiedenen Skalenniveaus (nach [31])

Eine weitere Einteilung betrifft wertekontinuierliche (z. B. reellwertige Körpergröße


in [m]) oder wertediskrete Merkmale (z. B. groß, mittel, klein). Wertekontinuierliche
Merkmale gehören entweder zur Intervall- oder Ratioskala, wertediskrete Merkmale
zu einer der vier Skalen. Streng genommen sind auch wertekontinuierliche Merkmale
häufig wertediskret gegeben, z. B. wenn die Körpergröße nur als ganzzahliger Wert
in Zentimetern existiert.
Die ml möglichen Werte eines wertediskreten (Synonym: qualitativen) Merkmals xl
werden im Folgenden mit Al,i , i = 1, . . . , ml bezeichnet. Für die Ausgangsgröße gel-
ten entsprechende Werte Bc , c = 1, . . . , my , die Klassen genannt werden. Die Anzahl
der möglichen Werte ml , my kann auch unendlich sein (z. B. bei einer Angabe als
natürliche Zahl).
Eine Sonderstellung zwischen wertediskreten und wertekontinuierlichen Merkma-
len nehmen unscharfe Merkmale ein, die aus (wertekontinuierlichen) Zugehörigkeits-
werten aus dem Intervall [0, 1] zu qualitativen Werten (bzw. Klassen) bestehen (z. B.

29
3 Data Mining: Verfahrensübergreifende Begriffe

bei Größe=1.85 m: Zugehörigkeitswert zur Klasse mittel 0.4, Zugehörigkeitswert zur


Klasse groß 0.6). Solche Zuordnungen werden mit Zugehörigkeitswerten µAl,i (xl ) für
Merkmale bzw. µBc (y) für Ausgangsgrößen bezeichnet.
Zugehörigkeitswerte können ebenso matrizenorientiert dargestellt werden. Somit
existiert für einen Lerndatensatz mit N Datentupeln eine (N, m)-dimensionale Matrix
³ ´ ³ ´
µ X = µ x1 · · · µ xs = µ A (X) = µ A1 (x1 ) · · · µ As (xs ) (3.2)
 
µAl,1 (xl [1]) · · · µAl,m (xl [1])
 ..
l
.. 
mit µ Al (xl ) = 
 .
...
. 
 (3.3)
µAl,1 (xl [N]) · · · µAl,m (xl [N])
l

und m = ∑sl=1 ml für die Merkmale bzw. eine (N, my )-dimensionale Matrix
 
µB1 (y[1]) · · · µBmy (y[1])
 .. ...  ..
µ y = µ B (y) =  .  . (3.4)
µB1 (y[N]) · · · µBmy (y[N])

für eine skalare Ausgangsgröße.


Allerdings lassen sich die Merkmale ineinander umwandeln – z. T. allerdings mit
Informationsverlusten und dem Risiko der Anwendung unzulässiger Operationen für
die ursprüngliche Skala. So können nominale und ordinale Merkmale als metrische
Merkmale kodiert werden (z. B. sehr klein = 1, klein = 2, mittel = 3 und groß = 4;
männlich = 0, weiblich = 1). In der entgegengesetzten Richtung können wertekonti-
nuierliche Werte durch Angeben eines Intervalls diskretisiert werden (z. B. groß für
Größe > 1.80 m). Die Umwandlungsoperation eines wertekontinuierlichen Merkmals
in ein unscharfes Merkmal wird als Fuzzifizierung, die entgegengesetzte Operation
als Defuzzifizierung bezeichnet. Der Vorteil solcher Umwandlungen besteht darin, die
Methoden für die anderen Problemstellungen zu nutzen und heterogene Datensätze
(mit wertediskreten und -kontinuierlichen Merkmalen) mit einheitlichen Methoden zu
behandeln.
Merkmale können wiederum selbst zu Klassen gehören, die als Merkmalskate-
gorien (lk = 1, . . . , sk ) bezeichnet und in eine (s, sk )-Matrix Kx geschrieben werden
(siehe Bild 3.1 rechts). Die Werte dieser Matrix sind stets binär und geben die Zu-
gehörigkeit eines Merkmals xl zu einer Merkmalskategorie lk an. Somit kann eine
komplette Taxonomie der Merkmale kodiert werden. Beispiele solcher Merkmalska-
tegorien sind Informationsquellen (z. B. mit Werten wie EKG, Bluttest, EMG, klinische
Befragung, MRT-Bild) und unterschiedliche Berechnungsalgorithmen (z. B. mit Wer-
ten wie Spektren, Koeffizienten von Autokorrelationsfunktionen usw.). Die Intention

30
3.3 Problemstellungen

Bild 3.2: System mit Hüllflächen, Teilsystemen, Ein- und Ausgangsgrößen

ist, mit Hilfe dieser Kategorien eine Merkmalsbewertung nach Kriterien wie Mess-
aufwand, -kosten, -zuverlässigkeit, Interpretierbarkeit usw. vorzunehmen (siehe z. B.
[258, 260]).
Die Merkmale selbst können wiederum aus sRoh Rohmerkmalen (Matrix XRoh der
Dimension (N, sRoh )) hervorgegangen sein. Rohdaten sind u. U. in sich strukturiert
(siehe Tabelle 3.2), weil sie aufgrund ihrer Aufzeichnung als Zeitreihe, Bild oder Video
interne Zusammenhänge enthalten (vgl. Abschnitt 2.1).
Oftmals gehören mehrere Einzelmerkmale (Anzahl s), Zeitreihen (sz ), Bilder (sb )
oder Videos (sv ) zusammen, weil sie bei einer Messung simultan oder zumindest kurz
hintereinander aufgezeichnet werden, so dass sich in dieser Zeit das untersuchte Ob-
jekt oder Subjekt nicht signifikant ändert. Beispiele für Zeitreihen sind die Aufzeich-
nungen mehrerer Sensoren sowie daraus durch Filterung entstehende zusätzliche
Zeitreihen. Bei Bildern und Videos sind hier zusätzlich unterschiedliche Farbkanä-
le (z. B. RGB – Rot, Grün, Blau) zu nennen. Weitere Quellen sind kurz hinterein-
ander folgende Aufzeichnungen mit unterschiedlichen Messparametern (Verstärkun-
gen, Beleuchtung usw.).
Alle geschätzten Größen werden durch ˆ gekennzeichnet. Beispielsweise bezeich-
net ŷ eine Schätzung für den Vektor der Ausgangsgröße y.

3.3 Problemstellungen

3.3.1 Systembegriff

Data-Mining-Problemstellungen unterscheiden sich aus methodischer Sicht haupt-


sächlich durch die Art und die Wertebereiche der gegebenen Eingangsgrößen und
gesuchten Ausgangsgrößen. Sie werden im Folgenden durch Operatoren Di (z. B.
D2 : Entwurf einer Klassifikation, D2A : Anwendung einer Klassifikation) formalisiert,
um eine abgekürzte Schreibweise zu ermöglichen und die Zuordnung zu erleichtern.

31
3 Data Mining: Verfahrensübergreifende Begriffe

Rohdaten Dimension Bestandteile Anzahl


Rohmerkmale
Einzelmerkmale 0-2 xl [n]: sRoh = s
l = 1, . . . , s Einzelmerkmale,
n = 1, . . . , N Datentupel
Zeitreihen 1-3 xZR,l [k, n]: sRoh = sz · K
l = 1, . . . , sz Zeitreihen,
k = 1, . . . , K Abtastzeitpunkte,
n = 1, . . . , N Datentupel
Bilder 2-4 xBild,l [ix , iy , n]: sRoh = sb · Ix · Iy
l = 1, . . . , sb Bilder, (Pixel)
ix = 1, . . . , Ix Bildspalten,
iy = 1, . . . , Iy Bildzeilen,
n = 1, . . . , N Datentupel
3D-Bilder 3-5 xBild,l [ix , iy , iz , n]: sRoh = sb · Ix · Iy · Iz
l = 1, . . . , sb Bilder, (Voxel)
ix = 1, . . . , Ix Bildspalten,
iy = 1, . . . , Iy Bildzeilen,
iz = 1, . . . , Iz Schichten,
n = 1, . . . , N Datentupel
Videobilder 3-5 xVideo,l [ix , iy , k, n]: sRoh =
l = 1, . . . , sv Videos, sv · Ix · Iy · K
ix = 1, . . . , Ix Bildspalten,
iy = 1, . . . , Iy Bildzeilen,
k = 1, . . . , K Abtastzeitpunkte,
n = 1, . . . , N Datentupel
3D-Videobilder 4-6 xVideo,l [ix , iy , iz , k, n]: sRoh =
l = 1, . . . , sv Videos, sv · Ix · Iy · Iz · K
ix = 1, . . . , Ix Bildspalten,
iy = 1, . . . , Iy Bildzeilen,
iz = 1, . . . , Iz Schichten,
k = 1, . . . , K Abtastzeitpunkte,
n = 1, . . . , N Datentupel

Tabelle 3.2: Datensätze für verschiedene Arten von Rohmerkmalen, die niedrigeren Dimen-
sionszahlen der Datensätze gelten für s = 1 bzw. sz = 1, sb = 1, sv = 1 (nur ein
Einzelmerkmal, eine Zeitreihe, ein Bild, ein Video) sowie ein Datentupel (N=1)

32
3.3 Problemstellungen

Vor- Hypothesen-
wissen generierung

Struktur für f(?)

Parameter- x[n]
Lern- schätzung
daten-
Anwendung
satz f(?)
von f(?)
X, y
Bewertung [n]

Entwurf von f(?) Q

Bild 3.3: Überblick über den prinzipiellen Ablauf beim Entwurfsprozess von Data-Mining-
Problemen und der Anwendung der gefundenen Lösungen

Alle folgenden Problemstellungen gehen von einem abstrakten Systembegriff aus.


Laut [118] ist ein System (Bild 3.2) eine in einem betrachteten Zusammenhang ge-
gebene Anordnung von Gebilden, die miteinander in Beziehung stehen. Diese An-
ordnung wird aufgrund bestimmter Vorgaben gegenüber ihrer Umgebung durch eine
Hüllfläche abgegrenzt. Durch die Hüllfläche werden Verbindungen des Systems mit
seiner Umgebung geschnitten. Die mit diesen Verbindungen übertragenen Eigen-
schaften und deren Beziehungen untereinander beschreiben das Systemverhalten.
Die Gebilde können ihrerseits wieder Systeme sein. Große Systeme können durch
das Zusammenfügen kleiner (Teil-) Systeme und kleine Systeme durch Unterteilen
großer gebildet werden. In allen hier betrachteten Systemen werden die Verbindun-
gen des Systems mit seiner Umgebung als gerichtete Verbindungen der Umgebung
auf das System (Eingangsgrößen) und des Systems auf die Umgebung (Ausgangs-
größen) betrachtet. In einem System existieren u. U. (innere) Zustandsgrößen, aus
denen zusammen mit den Eingangsgrößen das Systemverhalten eindeutig bestimmt
werden kann. Diese Zustandsgrößen sind nur dann aus bekannten Ein- und Aus-
gangsgrößen vollständig rekonstruierbar, wenn das System beobachtbar ist.
Beim Entwurf eines Data-Mining-Verfahrens werden funktionelle Abbildungen f (·)
als Modell eines Systems gesucht, wobei ein Lerndatensatz mit bekannten Eingangs-
größen und eventuell auch bekannten Ausgangsgrößen gegeben ist.
Funktionelle Abbildungen werden im Folgenden stets durch (·) gekennzeichnet und
geben im zugehörigen Symbol die Ausgangsgröße der Funktion an (z. B. ŷ(·): Funk-

33
3 Data Mining: Verfahrensübergreifende Begriffe

tion zum Schätzen der Ausgangsgröße y, dc (·): Distanzfunktion zur Klasse Bc usw.).
Außerdem wird die Dimension von Eingangs- und Ausgangsgrößen durch Tiefstel-
lung gekennzeichnet: ŷ (·) kennzeichnet beispielsweise eine Funktion zur Abbildung
s→1
von s Eingangsgrößen auf eine Ausgangsgröße.
Der Entwurf erfolgt meist in drei Schritten durch
• eine Hypothesengenerierung zum Erzeugen einer möglicherweise geeigneten
Struktur für den Zusammenhang f (·),
• eine Parameterschätzung zum Bestimmen geeigneter Parameter für f (·) und
• die Bewertung des gefundenen Zusammenhangs durch ein Bewertungsmaß Q,
das entweder zu maximieren oder zu minimieren ist.
Einen strukturellen Überblick gibt Bild 3.3. Alle Teilaufgaben sind zunächst getrennt
voneinander zu betrachten. In bestimmten Sonderfällen lassen sich die optimalen Pa-
rameter direkt aus der geschlossenen lösbaren Minimierung oder Maximierung des
Bewertungsmaßes ermitteln. Strukturen werden in der Regel indirekt durch das Be-
wertungsmaß mit dem besten gefundenen Parametersatz bewertet. In allen Schritten
des Entwurfs kann eventuell vorhandenes Vorwissen einbezogen werden.
Je nach Problemstellung ist zwischen prognoseorientierten Problemen (Ab-
schnitt 3.3.2), Merkmalstransformationen als Hilfsverfahren (Abschnitt 3.3.3) und ver-
schiedenen Bewertungsverfahren als Hilfsverfahren (Abschnitt 3.3.4) zu unterschei-
den. Bei den korrespondierenden Anwendungen DiA sind die beim Entwurf ermittel-
ten funktionellen Abbildungen dann gegeben. Diese Unterschiede sollen im Folgen-
den näher erläutert werden.

3.3.2 Prognoseorientierte Probleme

Je nach der Art von Eingangs- und Ausgangsgrößen ergeben sich unterschiedliche
Problemstellungen, zu deren Bearbeitung häufig auch unterschiedliche Algorithmen
verwendet werden. Die Tabelle 3.3 erläutert den Entwurf für die Problemstellungen
Di , die korrespondierenden Anwendungen DiA finden sich in Tabelle 3.4.
Bei der Prognose von Ausgangsgrößen wird im gegebenen Lerndatensatz nach ei-
nem Zusammenhang ŷ = f (x) gesucht. Eine wichtige Unterscheidung besteht darin,
ob für die jeweilige Aufgabe Datentupel mit bekannten Ausgangsgrößen zur Verfü-
gung stehen (überwachtes Lernen, engl. supervised learning) oder nicht (unüber-
wachtes Lernen, engl. unsupervised learning). Problemstellungen, bei denen nur für
einen Teil der Datentupel die Ausgangsgröße bekannt ist, werden als teilüberwach-
tes Lernen (engl. semi-supervised learning) bezeichnet. Beim überwachten Lernen
besteht der Lerndatensatz folglich aus Daten für Ein- und Ausgangsgrößen (z. B. den

34
3.3 Problemstellungen

Matrizen X, y mit einer bekannten Klasseneinteilung in der Klassifikation), beim un-


überwachten Lernen nur aus Daten für Eingangsgrößen (z. B. Matrix X beim Cluste-
ring oder Fuzzy-Clustering ohne eine vorgegebene Klasseneinteilung der Ausgangs-
größe).

Abb. Problemstellung gegeben gesucht Bemerkungen


D1 Regression X , y ŷ (·) xl [n] ∈ R, y[n], ŷ ∈ R
(N×s) (N×1) s→1
D2 Klassifikation X , y ŷ (·) xl [n] ∈ R,
(N×s) (N×1) s→1
y[n], ŷ ∈ {B1 , · · · , Bmy }
D3 Fuzzy- X , µy µ̂ B (·) xl [n] ∈ R,
(N×s) (N×m ) s→my
Klassifikation y µBc , µ̂Bc ∈ [0, 1]
D4 Entscheidungs- X , y ŷ (·) xl [n] ∈ {Al,1 , · · · , Al,ml },
(N×s) (N×1) s→1
problem y[n], ŷ ∈ {B1 , · · · , Bmy }
D5 statistisches P̂ ŷ (·) ŷ ∈ {B1 , · · · , Bmy },
(N×my ) my →1
Entscheidungs- P̂c [n] ∈ [0, 1]
problem
D6 Klassifikatorfusion µ̂ y , ŷ (·) xl [n] ∈ R, µ̂Bc ∈ [0, 1]
(N×my ×NCl ) (my ×Nc (×s))→1
y[n], ŷ ∈ {B1 , · · · , Bmy }
evtl. X , y
(N×s) (N×1)

D7 Clustering X , evtl. my ŷ (·) xl [n] ∈ R,


(N×s) s→1
ŷ ∈ {B1 , · · · , Bmy }
D8 Fuzzy-Clustering X , evtl. my µ̂ B (·) xl [n] ∈ R, µBc ∈ [0, 1]
(N×s) s→my

D9 Distanz Xc dc (·) xl [n] ∈ R mit y[n] = Bc ,


(Nc ×s) s→1
(Datentupel zu dc ≥ 0
Klasse Bc )
D10 bedingte Xc p̂c (·) p̂c (x) = p̂(x|y = Bc ),
(Nc ×s) s→1
Verteilungs- xl [n] ∈ R mit y[n] = Bc ,
dichtefunktion pc ∈ R, pc ≥ 0,
R
für Merkmale p̂c (x)dx = 1
D11 bedingte X , y P̂ (·) P̂c (x) = P̂(y = Bc |x),
(N×s) (N×1) s→my
Wahrschein- P̂c ∈ [0, 1], xl [n] ∈ R,
lichkeit für y[n] ∈ {B1 , · · · , Bmy },
my
Ausgangsgröße ∑c=1 P̂c (x) = 1 für alle x
my
D12 A-priori-Wahr- y P̂ P̂c ∈ [0, 1], ∑c=1 P̂c = 1
(N×1) (my ,1)
scheinlichkeit

Tabelle 3.3: Einteilung der Problemstellungen für den Entwurf von Data-Mining-Verfahren
(Prognose von Ausgangsgrößen)

35
3 Data Mining: Verfahrensübergreifende Begriffe

Abb. Problemstellung gegeben gesucht Bemerkungen


D1A Regression x[n] , ŷ (·) aus D1 ŷ[n]
(s×1) s→1 (1×1)
D2A Klassifikation x[n] , ŷ (·) aus D2 ŷ[n]
(s×1) s→1 (1×1)
D3A Fuzzy-Klassifikation x[n] , µ̂ B (·) aus D3 µ̂ y [n]
(s×1) s→my (my ×1)
D4A Entscheidungsproblem x[n] , ŷ (·) aus D4 ŷ[n]
(s×1) s→1 (1×1)
D5A statistisches P̂[n] , ŷ (·) aus D5 ŷ[n]
(my ×1) my →1 (1×1)
Entscheidungsproblem
D6A Klassifikatorfusion µ̂ y [n], evtl. x[n] , ŷ[n]
(my ×NCl ) (s×1) (1×1)
ŷ (·) aus D6
(my ×Nc (×s))→1
D7A Clustering x[n] , ŷ (·) aus D7 ŷ[n]
(s×1) s→1 (1×1)
D8A Fuzzy-Clustering x[n] , µ̂ B (·) aus D8 µ̂ y [n]
(s×1) s→my (my ×1)
D13A k-Nearest-Neighbor- X , y , ŷ[N + 1] xl [n] ∈ R,
(N×s) (N×1) (1×1)
Problem y[n], ŷ[N + 1] ∈
x[N + 1],
(s×1) {B1 , · · · , Bmy }
D9A Distanz x[n] , dc (·) dc [n]
(s×1) s→1 (1×1)
(Datentupel zu Klasse Bc )
D10A bedingte Verteilungsdichte- x[n] , p̂c (·) aus D10 p̂c [n]
(s×1) s→1 (1×1)
funktion für Merkmale
D11A bedingte Wahrscheinlich- x[n] , P̂ (·) aus D11 P̂[n]
(s×1) s→my (my ×1)
keit für Ausgangsgröße

Tabelle 3.4: Einteilung der Problemstellungen für die Anwendung von bereits entworfenen
Data-Mining-Verfahren aus Tabelle 3.3 sowie von Distanzberechnungen

Eine Klassifikation ist durch wertekontinuierliche Eingangsgrößen (aus der Men-


ge der reellen Zahlen R) und wertediskrete Ausgangsgrößen gekennzeichnet. Bei
strukturierten Merkmalen (z. B. Zeitreihen und Bildern) ist besonders darauf zu ach-
ten, worauf sich eine Klassenzuordnung bezieht (z. B. einzelne Abtastzeitpunkte oder
ganze Zeitreihen, vgl. Diskussion in Abschnitt 4.5).
Statt einer wertediskreten Ausgangsgröße ŷ können aber auch ihre bedingten
Wahrscheinlichkeiten im Eingangsraum

³ ´T
P̂(y|x) = P̂(y = B1 |x) . . . P̂(y = Bmy |x) (3.5)

36
3.3 Problemstellungen

in Vorbereitung eines statistischen Entscheidungsproblems oder im Rahmen ei-


ner Fuzzy-Klassifikation ihre unscharfen Klassenzugehörigkeiten
³ ´T ³ ´T
µ̂ y = µ̂ B (x) = µ̂B1 (x) . . . µ̂Bmy (x) = µ̂ (y = B1 |x) . . . µ̂ (y = Bmy |x) (3.6)

geschätzt werden.
Die unscharfen Klassenzugehörigkeiten µ̂Bc können oftmals als Wahrscheinlichkei-
ten interpretiert werden, dass ein Datentupel zu einer Klasse gehört (probabilistische
Interpretation, z. B. Patient mit Krankheit ja oder nein). Wenn hingegen eine gradu-
elle Zugehörigkeit eines Datentupels zu mehreren Klassen vorliegt (z. B. Patient mit
graduellen Symptomen einer Krankheit), handelt es sich um eine possibilistische In-
terpretation.
Die Schätzung erfolgt meist indirekt über die separate Schätzung der Verteilungs-
dichtefunktion der Merkmale p̂c (x) = p̂(x|y = Bc ) für jede Klasse der Ausgangsgröße
im Eingangsraum.
Verschiedene Dekompositionstechniken beruhen darauf, mehrere Klassifikatoren
(nCl = 1, . . . , NCl ) zu berechnen sowie deren Ergebnisse durch eine Klassifikatorfu-
sion zusammenzuführen (engl. voting). Das kann durch
• eine Dekomposition in mehrere 2-Klassen-Probleme,
• das Abspalten von Datentupeln,
• strukturell unterschiedliche Lösungsansätze und bzw. oder
• modifizierte Lerndatensätze (Verfahrensvergleich in [117])
erfolgen.
Bei Problemen mit mehr als zwei Klassen kommt es vor, dass die Lösung des
Klassifikationsproblems in einem Verarbeitungsschritt (Polychotomie) nicht möglich
ist oder zu unbefriedigenden Resultaten führt. Mögliche Ursachen sind u. a. Klassifi-
katoren, die nur 2-Klassen-Probleme unterstützen (z. B. Support-Vektor-Maschine),
oder bestimmte Verteilungsfunktionen der Klassen, bei denen sich verschiedene
Klassenpaare in unterschiedlichen Merkmalen unterscheiden. Eine Dekomposition in
mehrere 2-Klassen-Probleme (Dichotomie) ergibt oft bessere Resultate (siehe z. B.
Übersichten in [154, 278, 279, 368]).
Die 2-Klassen-Probleme entstehen durch
• einen paarweisen Vergleich von Klassen Bc gegen B j (engl. one-against-one) oder
• durch einen Vergleich einer Klasse Bc gegen die ODER-Verknüpfung aller Klassen
B̄c (engl. one-against-all).
Eine elegante Technik zur Untersuchung solcher speziellen Teilprobleme (z. B. Tren-
nen zweier Ausgangsklassen in einem Mehrklassenproblem) oder zum Aufbau von

37
3 Data Mining: Verfahrensübergreifende Begriffe

hierarchischen Klassifikatoren sind Datentupelselektionen, weil so keine neuen Lern-


datensätze erzeugt werden müssen (siehe Beispiel später in Abschnitt 6.2.3).
Andere Zerlegungen mit einer Extraktion von Datensubgruppen werden auch als
Teile-und-Herrsche-Algorithmen bezeichnet (engl. Separate-and-Conquer, Divide-
and-Conquer [141]). Ein Beispiel hierfür ist das Abspalten bestimmter Datentupel
mit einer eindeutigen Klassenzuordnung in der Ausgangsgröße. Hierbei werden aber
nicht unbedingt alle Datentupel einer Klasse abgetrennt. Dieses Vorgehen eignet sich
besonders dann, wenn eine Klasse der Ausgangsgröße aus mehreren Subgruppen
besteht.
Bei strukturell unterschiedlichen Lösungsansätzen werden zunächst verschiede-
ne Klassifikatoren entworfen (z. B. mit einem Fuzzy-Klassifikator und einer Support-
Vektor-Maschine), die für jedes Datentupel n jeweils separate unscharfe Klassenzu-
gehörigkeiten µ̂Bc [n, nCl ] schätzen.
Eine mögliche Variante zur Erzeugung modifizierter Lerndatensätze ist das so-
genannte Bagging (Abkürzung für bootstrap aggregating) [68], das mit Hilfe der
Bootstrap-Methode verschiedene Lerndatensätze mit mehrfach auftretenden Daten-
tupeln erzeugt (siehe Abschnitt 3.7). Alternativ dazu generiert das sogenannte Boos-
ting [138] in einem iterativen Vorgehen neue Lerndatensätze, indem es Datentupel
mit einer schlechten Bewertung mit höheren Wichtungsfaktoren versieht bzw. diese
beim Ziehen mit einem Bootstrap-Verfahren bevorzugt. Somit führen auch struktur-
gleiche Data-Mining-Verfahren zu unterschiedlichen Lösungen, die nachfolgend fu-
sioniert werden.
Aus allen so entstandenen Teillösungen wird durch einen Fusions- oder Selek-
tionsmechanismus eine Schätzung für die Ausgangsgröße ermittelt (Bild 3.4). Ein
mögliches Verfahren ist die Entscheidung zugunsten der Klasse mit der höchsten
durchschnittlichen Zugehörigkeit über alle Klassifikatoren

1 NCl
NCl n ∑=1 c
ŷ[n] = Bc mit Bc = argmaxBc µ̂B [n, nCl ]. (3.7)
Cl

Bei scharfen Werten für µ̂Bc [n, nCl ] ∈ {0, 1} entspricht dieses Vorgehen einer Mehr-
heitsentscheidung (engl. majority voting). Andere Verfahren verwenden ein endgülti-
ges Auswählen oder Verwerfen (KO-Verfahren) einzelner Klassen pro Teillösung.
Zusätzlich können die Eingangsgrößen in die Entscheidung einbezogen werden,
z. B. indem derjenige Klassifikator ausgewählt oder durch eine Wichtung besonders
bevorzugt wird, der sich in einem bestimmten Einzugsgebiet der Eingangsgrößen
durch eine hohe Zuverlässigkeit auszeichnet. Eine umfangreiche Übersicht über ver-
schiedene Methoden findet sich in [237]. Bei bestimmten zeitvarianten Problemen

38
3.3 Problemstellungen

?y[n,1]
Klassifikator 1

x[n] y[n]
... Klassifikatorfusion

Klassifikator NCl
?y[n,Ncl]

Bild 3.4: Struktur einer Klassifikatorfusion

erfolgt eine Wichtung der Entscheidung in Abhängigkeit vom Abtastzeitpunkt einer


Zeitreihe (siehe [81, 116] für eine Übersicht). Dann resultiert eine Entscheidung für
eine Zeitreihe aus der Fusion von Entscheidungen über alle betrachteten Abtastzeit-
punkte.
Ein Clustering ähnelt einer Klassifikation, allerdings sind die Ausgangsgrößen
beim Entwurf zunächst unbekannt. Hier werden Datentupel nach ihrer Ähnlichkeit
zu Klassen zugeordnet. Ist diese Zuordnung graduell, handelt es sich um ein Fuzzy-
Clustering.
Im Gegensatz zu einer Klassifikation weist eine Regression wertekontinuierliche
Ein- und Ausgangsgrößen auf. Regressionsprobleme gehen von einer exakt zu-
treffenden Modellstruktur aus und betrachten Abweichungen als zufällige Störun-
gen. Hingegen basieren Approximationsprobleme auf von der Realität abweichenden
(meist vereinfachten) Modellstrukturen ohne signifikante Störungen [145]. Approgres-
sionsprobleme lassen sowohl strukturelle Modellabweichungen als auch Störungen
zu. Da sich die entsprechenden Algorithmen eher in ihrer Herleitung und Interpreta-
tion als in der Anwendung unterscheiden, werden entsprechende Problemstellungen
im Folgenden stets als Regressionsprobleme bezeichnet. Ähnliche Dekompositions-
techniken wie bei einer Klassifikatorfusion finden sich auch bei Regressionsproble-
men, wenn eine übergeordnete Komponente (z. B. eine baumbasierte Struktur) ein-
fachere lokal gültige Teilmodelle (z. B. lineare Teilmodelle) zusammenfügt.
Entscheidungsprobleme zeichnen sich durch wertediskrete Ein- und Ausgangs-
größen aus. In der Entscheidungstheorie wird häufig der Bezeichner d(·) für die Ent-
scheidungsfunktion verwendet. Zum Erhalt der Einheitlichkeit wird in dieser Arbeit
aber ebenfalls die Ausgangsgröße ŷ(·) benutzt.
Bei allen genannten Verfahren gibt es Varianten mit Rückweisung, bei denen so-
wohl in der Entwurfs- als auch in der Anwendungsphase bestimmte Datentupel gar

39
3 Data Mining: Verfahrensübergreifende Begriffe

35
Bereich mit guter
B1
30 Datenabdeckung
B2
25

20
Merkmal x2

Ausreißer
15
für alle
Datentupel
10
Bereich mit Überlappungen
5

0 Ausreißer Ausreißer
Klasse B2 Klasse B2(?)
-5
-4 -2 0 2 4 6
Merkmal x1

Bild 3.5: Mögliche Ursachen für Rückweisungen in einem 2-Klassen-Problem: Ausreißer und
Überlappungen

nicht oder nur anteilig berücksichtigt werden. In der Anwendungsphase wird somit
eine Information wie ”Keine Entscheidung möglich” ausgegeben, wonach beispiels-
weise eine manuelle Entscheidung getroffen werden kann. Rückweisungen lassen
sich als Datentupelselektion interpretieren. Die Hauptursache für eine Rückweisung
sind Ausreißer, die sowohl beim Entwurf als auch bei der Anwendung ausgeschlos-
sen werden müssen. Bei Klassifikationsproblemen ist noch zu unterscheiden, ob es
sich lediglich um Ausreißer in Bezug auf eine bestimmte Klasse oder in Bezug auf alle
Datentupel handelt (Bild 3.5). Entsprechende Algorithmen zur Rückweisung werten
in der Regel die minimalen Abstände zu anderen Datentupeln oder repräsentativen
Kenngrößen von Klassen im Lerndatensatz aus. Bei der Anwendung von Klassifika-
tionsproblemen ist es häufig noch sinnvoll, die Datentupel zurückzuweisen, die we-
gen einer Überlappung der Klassen im Merkmalsraum zu mehreren Klassen gehören
können und so keine sichere Entscheidung ermöglichen (Bild 3.5).
Verfahren zur Schätzung der Distanz, der bedingten Verteilungsdichtefunktion
für Merkmale, der bedingten Wahrscheinlichkeit für die Ausgangsgröße und der
A-priori-Wahrscheinlichkeit der Ausgangsgröße dienen als Hilfsverfahren.
Bei der Anwendung DiA der so entworfenen Verfahren ist in der Regel ein Daten-
tupel n mit bekannten Eingangsgrößen x[n] und unbekannter Ausgangsgröße y[n]
sowie die aus dem Entwurfsprozess stammende funktionelle Abbildung f (·) als Mo-
dell gegeben. Die Auswertung von Testdatensätzen mit mehreren Datentupeln erfolgt

40
3.3 Problemstellungen

durch sukzessives Abarbeiten dieser Datentupel, ohne dass diese sich untereinan-
der beeinflussen. Einen Sonderfall stellt das k-Nearest-Neighbor-Problem dar, bei
dem kein expliziter Entwurfsprozess stattfindet. Stattdessen wird der komplette Lern-
datensatz mit N Datentupeln gespeichert und ein Datentupel mit bekanntem x[N + 1]
der gesuchten Ausgangsgröße ŷN+1 zugeordnet. Weitere Sonderfälle sind Distan-
zen zwischen zwei Datentupeln, bei denen die Distanzfunktion d (·) nicht entworfen,
sondern a priori festgelegt wird.

3.3.3 Merkmalstransformationen als Hilfsverfahren

Merkmale können durch unterschiedliche Problemstellungen von einem Merkmals-


raum in einen anderen abgebildet werden (siehe Tabelle 3.5 für den Entwurf und
Tabelle 3.6 für die Anwendung):
• Merkmalsextraktion: Aus hochdimensionalen Merkmalsräumen mit sRoh Roh-
merkmalen wie Zeitreihen oder Bildern werden meist niederdimensionale Räume
mit s Merkmalen generiert.
• Merkmalstransformation (Synonym: Merkmalsaggregation): Aus einem Merk-
malsraum mit s Merkmalen wird durch die Abbildung xTrans (·) ein (meist) nieder-
dimensionaler Merkmalsraum mit sd Merkmalen gebildet. Bei einer linearen Merk-
malstransformation gilt
XTrans (X) = X · A , (3.8)
(N×sd ) (N×s) (s×sd )

wobei die Matrix A wie die beiden anderen Matrizen nur reellwertige Elemente
enthält.
• Merkmalsselektion: Aus einem hochdimensionalen Merkmalsraum mit s Merk-
malen wird durch Auswahl von sm Merkmalen ein niederdimensionaler Merk-
malsraum gebildet. Formal lässt sich die Merkmalsselektion als Spezialfall der
linearen Merkmalstransformation auffassen, wobei die Matrix A eine Nullmatrix
mit Ausnahme der auszuwählenden Merkmale in einer Indexmenge I (Elemente:
Il , l = 1, . . . , sm ) darstellt:

XI = X · A mit xTrans,l [n] = xIl [n], aIl ,l = 1. (3.9)


(N×sm ) (N×s) (s×sm )

Auch hier sind die Grenzen fließend: Merkmalsextraktion und -transformation sind
strukturell identisch, unterscheiden sich aber häufig in den eingesetzten Methoden
und Intentionen. Zudem ist die Merkmalsextraktion häufig zunächst unüberwacht.
Die Merkmalsselektion ist ein Sonderfall der linearen Merkmalstransformation, die
wiederum einen Sonderfall der Merkmalstransformation darstellt.

41
3 Data Mining: Verfahrensübergreifende Begriffe

Der Entwurf von Zugehörigkeitsfunktionen (siehe Abschnitt 5.5.2) kann streng


genommen als Sonderfall der Merkmalstransformation interpretiert werden, bei dem
ein Merkmal bei der Fuzzifizierung in ml neue Merkmale mit den entsprechenden
Zugehörigkeiten konvertiert wird. Beim Entwurf von Diskretisierungsvorschriften
entsteht eine Umwandlungsvorschrift (Diskretisierung) von reellwertigen in werte-
diskrete Merkmale. In allen genannten Problemstellungen gibt es überwachte und
unüberwachte Varianten.

Abb. Problemstellung gegeben gesucht Bemerkungen


D14 Merkmalsextraktion XRoh x (·)
(N×sRoh ) sRoh →s
(statisch)
D15 Merkmalsextraktion XRoh , yRoh x (·, ·)
(K×sz ) (K×sy ) (sdx ×sdy )→s
(dynamisch)
D16 Merkmals- X , y xTrans (·)
(N×s) (N×1) s→sd
transformation
D17 Merkmals- X , y A ai, j ∈ R,
(N×s) (N×1) (s×sd )
transformation Spezialfall von D16 :
(linear) xTTrans (x) = xT · A
D18 Merkmalsselektion X , y I card(I) = sm ,
(N×s) (N×1)
Spezialfall von D17 mit
ai, j ∈ {0, 1}, sd = sm , 1Ts ·
aj = 1
D19 Entwurf xl , µ Al (·) xl [n] ∈ R, µAl,i ∈ [0, 1]
(N×1) 1→ml
Zugehörigkeits-
µy (evtl.)
funktionen (N×my )
D20 Entwurf xl , µ Al (·) bzw. xl [n] ∈ R, µAl,i ∈ {0, 1}
(N×1) 1→ml
Diskretisierungs- bzw. xDis,l ∈
µy (evtl.) xDis,l (·)
vorschrift (N×my ) {Al,1 , · · · , Al,ml }
D21 Datentupel- X , y fmod (·)
(N×s) (N×1) (s→s)
modifikation
D22 Datentupelselektion X , y Xmod (·) Nmod < N, xTIi = xTmod,i
(N×s) (N×1) (Nmod ,s)

Tabelle 3.5: Einteilung der Problemstellungen für den Entwurf von Data-Mining-Verfahren
(Merkmals- und Datentupeltransformationen)
Anmerkungen: Bei allen Verfahren können anstelle der Ausgangsgröße y alter-
nativ auch die fuzzifizierten Werte µ B gegeben sein. Wenn nur die Merkmals-
matrix X ohne eine Information über die Ausgangsgröße gegeben ist, handelt es
sich um die jeweilige unüberwachte Variante.

42
3.3 Problemstellungen

Abb. Problemstellung gegeben gesucht


D14A Merkmalsextraktion xRoh [n], x (·) aus D14 x[n]
(sRoh ×1) sRoh →s (s×1)
(statisch)
D15A Merkmalsextraktion xRoh [n] , yRoh [n] , x[n]
(nx ·sz ×1) (ny ·sy ×1) (s×1)
(dynamisch)
x (·, ·) aus D15
(sdx ×sdy )→s
D16A Merkmalstransformation x[n] , xTrans (·) aus D16 xTrans [n]
(s×1) s→sd (sd ×1)
D17A Merkmalstransformation x[n] , A aus D17 xTrans [n]
(s×1) (s×sd ) (sd ×1)
(linear)
D18A Merkmalsselektion x[n] , I aus D18 xI [n]
(s×1) (sm ×1)
D19A Fuzzifizierung xl [n] , µ Al (·) aus D19 µ xl [n]
(1×1) 1→ml (ml ×1)
D20A Diskretisierung xl [n] , µ Al (·) bzw. µ xl [n] oder
(1×1) 1→ml (ml ×1)
xDis,l (·) aus D20 xDis,l [n]
(1→1) (1×1)
D21A Datentupelmodifikation x[n] , fmod (·) aus D21 xmod [n]
(s×1) (s→s) (s,1)

Tabelle 3.6: Einteilung der Problemstellungen für die Anwendung von bereits entworfenen
Data-Mining-Verfahren zur Merkmalstransformation aus Tabelle 3.5

Bei dynamischen Problemstellungen stammen die Merkmale und Ausgangsgrößen


aus Zeitreihen. Damit werden Zusammenhänge wie die Bestimmung eines Schätz-
wertes für den Zeitpunkt k der Zeitreihe der Ausgangsgröße gesucht1 :

ŷZR [k] = f (xZR [k − 1], . . . , xZR [k − nx ], yZR [k − 1], . . . , yZR [k − ny ]), (3.10)
³ ´T ³ ´T
nx , ny ≥ 1,xZR [k] = xZR,1 [k] · · · xZR,sz [k] , yZR [k] = yZR,1 [k] · · · yZR,sy [k] .

Hierbei sind mehrdimensionale Ein- und Ausgangsgrößen zulässig. Die nx vergan-


genen Werte der Eingangszeitreihe xZR sowie die ny vergangenen Werte der Aus-
gangszeitreihe yZR bilden die Grundlage für eine Prognose.
Diese Problemstellungen werden bei der Merkmalsextraktion für dynamische
Probleme meist explizit oder implizit in ”statische” Problemstellungen ŷ[n] = f(x[n])
umgewandelt. Dazu wird für die Prognose der k-ten Abtastzeitpunkte der i-ten Aus-
gangsgröße ein neuer Lerndatensatz mit der Ausgangsgröße y[n] := yZR,i [n] erzeugt.
Die zugehörigen Merkmale sind die vergangenen Werte der Eingangs- und Aus-
gangszeitreihen, weshalb eine Umnummerierung der Datentupel entsprechend der
1
Der Aspekt der Prognose zukünftiger Werte k + 1 kann durch ein Ersetzen aller k in (3.10) durch
k + 1 betont werden.

43
3 Data Mining: Verfahrensübergreifende Begriffe

zeitlichen Zusammenhänge für k und n erfolgt. Das entspricht einer Merkmalsextrak-


tion D15 gemäß2
³ ´T
x[n] := xTZR [n − 1] . . . xTZR [n − nx ] yTZR [n − 1] . . . yTZR [n − ny ] , (3.11)

s = nx · sz + ny · sy . (3.12)
| {z } | {z }
sdx sdy

Durch die Zeitverschiebungen in den neuen Merkmalen verringert sich die Zahl der
Datentupel gemäß N := K − max(nx , ny ), falls vergangene Werte mit k < 1 nicht zur
Verfügung stehen. Eine Alternative zu diesem Datenverlust bietet eine Schätzung
der vergangenen Werte. Die Konstanten sdx und sdy bezeichnen die Anzahl von
Werten für die Eingangs- bzw. Ausgangsgrößen, die in die Berechnung eingehen.
Da nur vergangene Werte Berücksichtigung finden, handelt es sich um ein kausa-
les Modell3 . Beim Einbeziehen zukünftiger Werte in x resultiert hingegen ein akau-
sales Modell, weil hierbei zukünftige Werte den gegenwärtigen Wert beeinflussen.
Das Finden solcher Beziehungen deutet meist auf einen falschen Strukturansatz hin
(z. B. vertauschte Ursache und Wirkung; Existenz einer dritten Größe, die sowohl die
Eingangs- als auch die Ausgangsgröße beeinflusst).
Bei allen Datensätzen ist darauf zu achten, ob alle Merkmale und Ausgangsgrößen
für alle Datentupel vorhanden und glaubwürdig sind. Wichtige Ursachen für fehlen-
de Werte (engl. missing values) sind zufällig (Messfehler, Übertragungsfehler beim
Eintrag in Datenbanken usw.) oder systematisch (fehlende klinische Notwendigkeit
usw.) auftretende unvollständige Datenerhebungen. Besonders unangenehm für alle
folgenden Verfahren ist das Ersetzen solcher fehlender Werte durch Standardeinga-
bewerte wie Null, weil solche Datentupel wie Ausreißer wirken und die nachfolgen-
den Analyseergebnisse verfälschen. In großen Lerndatensätzen ist deren Erkennung
nicht trivial und kann durch die gezielte Suche nach Standardeingabewerten oder
durch Ausreißertests erfolgen (vgl. Abschnitt 4.3). Fehlende oder nicht plausible Wer-
te sind durch eine Datentupelselektion D22 (Streichen der betroffenen Datentupel)
oder eine Datentupelmodifikation D21 (Eintragen der wahrscheinlichsten Werte) mit
einer entsprechenden Vorschrift fmod (·) zu behandeln. Eine weitere Anwendung liegt
im Reduzieren großer Lerndatensätze durch Streichen oder Fusionieren ähnlicher
Datentupel, um den Rechenaufwand zu reduzieren.
2
Strukturell ähnliche Merkmalsextraktionen sind auch für Videodaten denkbar, allerdings existieren
kaum Problemstellungen für die Prognose zukünftiger Werte in Videos.
3
Strenggenommen kann die Kausalität als eine Beziehung von Ursache und Wirkung aus den Daten
nicht bewiesen werden. Der Strukturansatz in (3.10) geht aber von einem kausalen Zusammenhang
aus.

44
3.4 Informationsdefizite und Ungewissheit

3.3.4 Rollen von Bewertungsmaßen

Die bekannteste Bedeutung der Bewertungsmaße (Tabelle 3.7) ist ihre Rolle als
”Hilfsfunktion” beim Finden der am besten geeigneten Strukturen und Parameter so-
wie bei der Einschätzung der Qualität gefundener Lösungen. Weniger offensichtlich
ist ihre eigenständige Bedeutung bei der detaillierten Analyse von Lösungswegen
und Substrukturen innerhalb eines Zusammenhangs f (·) sowie beim Aufzeigen al-
ternativer Substrukturen. So können Fragestellungen zur Wichtigkeit verschiedener
Merkmale D23 und Merkmalskombinationen D24 für die jeweilige Problemstellung be-
antwortet werden (Merkmalslisten).
Bewertungen können u. U. neben den eigentlichen Prognosezielen auch die da-
zu notwendigen funktionellen Abbildungen mit einbeziehen. Somit können beispiels-
weise besonders aufwändige Algorithmen bestraft oder Interpretierbarkeitsaspekte
integriert werden (siehe Abschnitt 3.5.6).
Beim sogenannten Reinforcement-Lernen (engl. reinforcement learning) [201] wird
zwar jede (geschätzte) Ausgangsgröße ŷ durch eine nur als Blackbox gegebene und
von weiteren Größen abhängige Funktion Q(·) bewertet (meist im Sinne einer Belobi-
gung oder Bestrafung), allerdings wird die richtige Ausgangsgröße y nicht mitgeteilt.
Zudem treten u. U. zeitliche Verzögerungen zwischen der Ausgabe der geschätzten
Ausgangsgröße und der Bewertung Q(·) auf.
Alle genannten Aufgaben werden bei realen Problemstellungen auf komplexe Art
und Weise miteinander kombiniert. So entstehen Abbildungsreihenfolgen wie z. B.
D D18 mit D23 D
xRoh [n] →
14
x[n] −→ xI [n] →2 ŷ[n], (3.13)
(sRoh ,1) (s,1) (sm ,1) (1,1)

die eine Merkmalsextraktion, eine Merkmalsselektion auf der Basis einer univariaten
Merkmalsbewertung und eine nachfolgende Klassifikation enthalten.

3.4 Informationsdefizite und Ungewissheit

Alle genannten Problemstellungen werden durch unterschiedliche Arten von Informa-


tionsdefiziten und Ungewissheiten beeinflusst [62, 65, 216], z. B.:
• Unsicherheit, Zufälligkeit (engl. randomness) als Defizit bezüglich des Eintretens
einer Aussage: Diese Art von Ungewissheit beschreibt Aussagen, deren Zutreffen
zufällig ist. Beispielsweise ist anhand von Merkmalen nicht sicher zu ermitteln,
ob der Patient die Krankheit A hat oder nicht. Als Beschreibungsmittel bietet sich
die Wahrscheinlichkeitstheorie an. Hier existieren weitere Unterteilungen, die nach
der Art des Zufallsmechanismus (unbekannt – geschätzt – bekannt, zeitvariant –
zeitinvariant) unterscheiden.

45
3 Data Mining: Verfahrensübergreifende Begriffe

Abb. Problemstellung gegeben gesucht Bemerkungen


D23 Merkmalsbewertung X , y Q Ql ∈ R
(N×s) (N×1) (s×1)
(univariat)
D24 Merkmalsbewertung X , y ,I QI QI ∈ R
(N×s) (N×1) (1×1)
(multivariat)
D25 Bewertung y , ŷ Q ŷ[n], y[n] ∈
(N×1) (N×1) (1×1)
(Klassifikation) {B1 , · · · , Bmy },
u. U. ŷ (·) aus D2
s→1 Q∈R
D26 Bewertung µ y , µ̂ y Q µBc [n], µ̂Bc [n] ∈ [0, 1],
(N×my ) (N×my ) (1×1)
(Fuzzy-Klassifikation) Q∈R
u. U. µ̂B (·) aus D3
s→1
D27 Bewertung y , ŷ Q ŷ[n], y[n], Q ∈ R
(N×1) (N×1) (1×1)
(Regression)
u. U. ŷ (·) aus D1
s→1
D28 Bewertung X , ŷ Q
(N×s) (N×1) (N×1)
(Reinforcement-
Lernen)
D29 Distanz x[n1 ], x[n2 ] d xl [n1 ], xl [n2 ], d ∈ R,
(s×1) (s×1) (1×1)
(Datentupel zu d≥0
Datentupel)
D9A Distanz x[n] , dc (·) d xl [n], dc ∈ R, dc ≥ 0
(s×1) s→1 (1×1)
(Datentupel zu
Klasse Bc )
D30 Separation (Klasse Bi pi (·) , pc (·) d d ∈ R, d ≥ 0
(s→1) (s→1) (1×1)
zu Klasse Bc )

Tabelle 3.7: Einteilung der Problemstellungen für die Bewertungsmaße beim Entwurf von
Data-Mining-Verfahren, die beim Entwurf der Verfahren in den Tabellen 3.3, 3.5
verwendet werden
Anmerkung: Bei allen Verfahren der Merkmalsbewertung können anstelle der
Ausgangsgröße y alternativ auch die fuzzifizierten Werte µ B gegeben sein.

46
3.4 Informationsdefizite und Ungewissheit

• Impräzision, Ungenauigkeit (engl. imprecision) als Defizit bezüglich der Genauig-


keit einer Aussage: Eine Aussage kann sich noch auf mehrere Werte beziehen
und lässt keinen eindeutigen Rückschluss auf einen Wert zu. Beispielsweise ist
bekannt, dass der Patient nicht gesund ist, aber unbekannt, ob er die Krankheit A
oder B hat. Unter diese Kategorie fallen auch Intervallangaben bei Messgrößen,
die aus Quantisierungseffekten existieren, und fehlende Werte, die letztlich ei-
ne ungenaue Angabe über den kompletten Definitionsbereich bedeuten. Als Be-
schreibungsmittel bieten sich die Intervallarithmetik oder Aufzählungen von meh-
reren Elementen in der (gewöhnlichen bzw. scharfen) Mengenlehre an. Zusätzlich
kann die Aussagekraft einer Aussage unnötig eingeschränkt sein, wenn sie sich
über einen so großen Wertebereich erstreckt, dass Einschränkungen des Werte-
bereichs noch nicht zu falschen Aussagen führen. So ist beispielsweise die Aus-
sage wahr aber wertlos, dass eine gesunde Körpertemperatur des Menschen im
Wertebereich zwischen 0◦ C und 100◦ C liegt. Eine scharfe Aussage, dass dieses
Intervall zwischen 35◦ C und 37◦ C liegt, ist zweifellos wertvoller. Eine Aussage ist
somit nicht nur impräzise, sondern auch impräziser als notwendig.
• Vagheit, Unschärfe (engl. vagueness, fuzziness, possibilistic) als Defizit bezüg-
lich der Gültigkeit einer Aussage: Die Aussage lässt eine graduelle Zuordnung zu
Wahrheitswerten der Aussage zu. Eine Aussage ist somit weder komplett falsch
noch komplett richtig. So ist es z. B. problematisch und nur bedingt sinnvoll, einen
scharfen Grenzwert zur Definition der Diagnose Bluthochdruck abzugeben. Diese
Art von Informationsdefiziten wird durch die Fuzzy-Logik beschrieben.
• Mehrdeutigkeit (engl. ambiguity) als Defizit bezüglich der (semantischen) Eindeu-
tigkeit einer Aussage: Diese Art von Informationsdefiziten bezieht sich auf unvoll-
ständige Definitionen von Aussagen. Damit können bei einer Informationsübertra-
gung Sender und Empfänger die Begriffe unterschiedlich deuten und somit auch
zu unterschiedlichen Aussagen, z. B. zu Wahrscheinlichkeiten, kommen. Ein Bei-
spiel für diese Informationsdefizite sind unterschiedliche Meinungen von Ärzten,
wie Krankheit A zu definieren ist.
Alle genannten Arten können auch kombiniert auftreten. So können z. B. unscharfe
Aussagen (Fuzzy-Mengen) wiederum unsicher sein oder Wahrscheinlichkeiten im-
präzise sein (z. B. obere und untere Schranken für Wahrscheinlichkeiten in der Evi-
denztheorie). In der Regel sind außerdem Transformationen möglich: So können z. B.
gleichverteilte Werte in einem Intervall zwischen Null und Eins als wahre Aussage mit
einem unscharfen Intervall (Ungenauigkeit) oder als Verteilungsdichtefunktion über
reellwertigen Zahlen (Unsicherheit) weiterverarbeitet werden.

47
3 Data Mining: Verfahrensübergreifende Begriffe

In der Literatur existieren unterschiedliche und leider oftmals widersprüchliche Be-


zeichnungen für unterschiedliche Arten von Informationsdefiziten. Insbesondere die
Begriffe Unsicherheit, Ungewissheit (engl. uncertainty) sind zu hinterfragen und mei-
nen entweder alle oder nur bestimmte Informationsdefizite.

3.5 Bewertungsmaße

3.5.1 Wahrscheinlichkeiten und Häufigkeiten

Wahrscheinlichkeiten und Häufigkeiten spielen in vielen Bewertungsmaßen eine Rol-


le. Sie existieren sowohl für wertekontinuierliche, wertediskrete und unscharfe Merk-
male.
Bei wertekontinuierlichen Merkmalen [75] werden zunächst strukturelle Annahmen
über eine Verteilungsdichtefunktion p(x) mit
Z ∞ Z ∞ ³ ´T
... p(x) dx1 . . . dxs = 1 mit x = x1 . . . xs (3.14)
−∞ −∞
getroffen und dann deren Parameter geschätzt (siehe z. B. Normalverteilung in Ab-
schnitt 5.2.1). Daraus ergibt sich dann die Verteilungsfunktion
Z xs Z x1 ³ ´T
Fp (x) = ··· p(ξ ) d ξ1 . . . d ξs mit ξ = ξ1 . . . ξs . (3.15)
−∞ −∞
Bei wertediskreten Größen wird eine A-priori-Wahrscheinlichkeit in der Regel über
die relative Häufigkeit geschätzt, indem die Anzahl des Auftretens der jeweiligen Er-
eignisse N(·) durch die Anzahl aller Datentupel N geteilt wird. Für die Eingangs-
größe, die Ausgangsgröße und deren Verbundverteilung gelten somit die folgenden
Abschätzungen:
N(xl = Al,i )
P̂(xl = Al,i ) = , (3.16)
N
N(y = Bc )
P̂(y = Bc ) = , (3.17)
N
N(xl = Al,i ∩ y = Bc )
P̂(xl = Al,i ∩ y = Bc ) = . (3.18)
N
Bei Merkmalen mit Fuzzy-Mengen folgt unter Verwendung der unscharfen Zugehö-
rigkeitsgrade entsprechend

1 N
P̂(xl = Al,i ) = ∑ µAl,i (xl [n]), (3.19)
N n=1
1 N
P̂(y = Bc ) = ∑ µBc (y[n]). (3.20)
N n=1

48
3.5 Bewertungsmaße

Die Schätzung der Verbundverteilung erfolgt entweder über einen geeigneten Ver-
knüpfungsoperator ∩ (vgl. Abschnitt 5.5.3) mit

1 N
P̂(xl = Al,i ∩ y = Bc ) = ∑ µAl,i (xl [n]) ∩ µBc (y[n]) (3.21)
N n=1

oder indirekt über das Schätzen der Matrix der bedingten Verteilungen [189]. Mit den
Matrizen der fuzzifizierten Werte für alle N Datentupel von xl in µ Al mit der Dimension
(N, ml ) und y mit der Dimension (N, my ) folgt ein restringiertes Optimierungsproblem

Q(P̂(y|xl )) = 12 kµ y − µ Al · P̂T (y|xl )k2F → min (3.22)


P̂(y|xl )
 
P̂(y = B1 |xl = Al,1 ) · · · P̂(y = B1 |xl = Al,ml )
 .. ... .. 
mit P̂(y|xl ) =  . . , (3.23)
P̂(y = Bmy |xl = Al,1 ) · · · P̂(y = Bmy |xl = Al,ml )

wobei k · kF die Frobenius-Norm


q
kXkF = ∑ diag(XT · X) (3.24)

bezeichnet. Die Restriktionen fordern positive Matrixelemente (3.25) mit Spaltensum-


men von Eins (3.26):

P̂(y|xl ) ≥ 0my ×ml , (3.25)


1Tmy P̂(y|xl ) = 1Tml , (3.26)

wobei 0my ×ml eine (my ×ml )-dimensionale Matrix mit Nullelementen und 1ml einen ml -
dimensionalen Vektor mit Eins-Elementen bezeichnen. In Analogie zu Wahrschein-
lichkeiten können damit keine negativen Häufigkeiten auftreten und es wird garan-
tiert, dass die Summe aller (relativen) Häufigkeiten Eins ist – es tritt garantiert eine
der möglichen Ausgangsklassen auf. Die Verbundverteilung lässt sich dann unter
Verwendung der Ergebnisse aus (3.19) und (3.20) gemäß

P̂(xl = Al,i ∩ y = Bc ) = P̂(y = Bc |xl = Al,i ) · P̂(xl = Al,i ) (3.27)

ermitteln.
Einige Wahrscheinlichkeiten werden in der medizinischen Literatur (insbesondere
in der Epidemiologie, der Wissenschaft zur Beschreibung der Ursachen und der Ver-
breitung von Krankheiten in Populationen) mit speziellen Bezeichnungen versehen:
Die Wahrscheinlichkeit einer Aussage P̂(y = Bc ) = NDiagnose c /NPopulation wird in der
medizinischen Statistik häufig als Prävalenz der Krankheit mit Diagnose c in einer

49
3 Data Mining: Verfahrensübergreifende Begriffe

Gesamtpopulation mit NPopulation Personen bezeichnet. Sie entspricht der A-priori-


Wahrscheinlichkeit der Klasse Bc im Sinne der Statistik. Deren Zunahme in einem
Zeitraum P(y[k] = Bc ∩ y[k − 1] = Bc ) heißt hingegen Inzidenz, wobei nur die neu hin-
zukommenden Fälle und nicht deren Reduzierung berücksichtigt werden. Der Begriff
Mortalität für eine Krankheit mit Diagnose c beschreibt die Wahrscheinlichkeit eines
Todesfalles in einem Zeitraum bezogen auf die Gesamtpopulation, die Letalität be-
zieht die Todesfälle in einem Zeitraum hingegen nur auf die Erkrankten.

3.5.2 Distanzmaße und Separationsmaße

Distanzen quantifizieren den Abstand zweier Objekte (z. B. Datentupel, Vektoren von
Ausgangsgrößen und deren Prognose usw.). Sie werden als Bewertungsmaße in ei-
ner Vielzahl von Verfahren (Klassifikation, k-Nearest-Neighbor, Clustering usw.) ver-
wendet. Für Distanzen zwischen zwei Objekten (z. B. für D29 mit vektorwertigen Ob-
jekten Oi = xi , O j = x j , Ok = xk , Elemente xil , x jl , xkl ∈ R) gilt stets

> 0 für Oi 6= O j
d(Oi , O j ) (Definitheit), (3.28)
= 0 für Oi = O j

d(Oi , O j ) = d(O j , Oi ) (Symmetrie), (3.29)


d(Oi , Ok ) ≤ d(Oi , O j ) + d(O j , Ok ) (Dreiecksungleichung). (3.30)
Beispiele für Distanzmaße mit vektorwertigen Objekten sind [416]

0 für xi = x j
dTr (xi , x j ) = (Triviale Distanz), (3.31)
1 für xi 6= x j
à !1
s p

dMink (xi , x j ) = ∑ |xil − x jl | p


, p ≥ 1, (Minkowski-Distanz), (3.32)
l=1
s
dMan (xi , x j ) = ∑ |xil − x jl | (Manhattan-Distanz), (3.33)
l=1
à !1
s 2

dEuk (xi , x j ) = ∑ (xil − x jl ) 2


(Euklidische Distanz), (3.34)
l=1
q
= (xi − x j )T (xi − x j )
q
dQF,WQF (xi , x j ) = (xi − x j )T · WQF · (xi − x j ) (Quadratische Form), (3.35)
WQF : positiv definite Matrix
q
dMah (xi , x j ) = (xi − x j )T · S−1 · (xi − x j ) (Mahalanobis-Distanz). (3.36)

50
3.5 Bewertungsmaße

d(x1 , x2 ) d(x1 , x3 ) d(x2 , x3 ) x2


dTr 1 1 1 2 x3 x2
√ √
dEuk 2 1.25 0.5 dEuk
dMink , p = 1.5 1.59 1.22 0.5 dMan
dMan 2 1.5 0.5 1
à !
1 0 √ √ √ x1
dQF , WQF = 3 1.5 0.5
0 2 1 2 x1

Tabelle 3.8: Zahlenbeispiele für ausgewählte Di- Bild 3.6: Visualisierung für ausge-
stanzen zwischen den Vektoren x1 = wählte Distanzen zwischen
(1 1)T , x2 = (2 2)T , x3 = (1.5 2)T x1 , x2 , x3

Die Manhattan-Distanz ( p = 1, Synonym: City-Block-Distanz) und die Euklidische Di-


stanz ( p = 2) sind Spezialfälle der Minkowski-Distanz. Die Euklidische Distanz ist
auch ein Sonderfall der quadratischen Form mit WQF = I. Die Mahalanobis-Distanz
ist der häufigste Vertreter der quadratischen Form, bei der die Matrix WQF die ge-
schätzte inverse Kovarianzmatrix S−1 ist. Distanzen können sowohl rein geometrisch
als auch über die Argumentation mit Kovarianzmatrizen eher wahrscheinlichkeits-
theoretisch interpretiert werden. Eine Übersicht über weitere Distanzmaße (insbe-
sondere für die Bewertung bei gemischt nominalen und wertekontinuierlichen Merk-
malen und für Normalisierungen) findet sich in [468].
Einige Zahlenbeispiele für drei zweidimensionale Vektoren (s = 2 in D29 ) und aus-
gewählte Distanzen geben Bild 3.6 und Tabelle 3.8.
Distanzen eines Datentupels zu einer Klasse D9 (Schreibweise: dc,Distanztyp (xi ) für
die Distanz des Datentupels xi zur Klasse Bc ) werden als Distanz dieses Datentupels
zu einem repräsentativen Punkt (z. B. dem Mittelpunkt dc (xi ) = d(xi , xc )) der Klas-
se angegeben. Distanzwerte, die aus unterschiedlichen Distanzmaßen resultieren,
sind dabei nicht direkt vergleichbar. Ein typisches Beispiel sind die Distanzen zweier
Klassenmittelwerte, die jeweils als Quadratische Form (3.35) mit den inversen Kova-
rianzmatrizen (S−1 −1
i 6= S j ) der jeweils anderen Klasse angegeben werden:

di,QF,W −1 (x j ) = dQF,W −1 (xi , x j ) (3.37)


QF =Si QF =Si

6= dQF,W −1 (x j , xi ) = d j,QF,W −1 (xi ). (3.38)


QF =S j QF =S j

Außerdem existieren Maße D30 , welche die Separation zweier Verteilungsdichte-


funktionen pi , p j beschreiben. Solche Maße sind beispielsweise die Kullback-Leibler-
Divergenz [235]

51
3 Data Mining: Verfahrensübergreifende Begriffe

Z Z
pi (x) p j (x)
dKL (pi (x), p j (x)) = pi (x) ln + p j (x) ln (3.39)
x p j (x) x pi (x)

bzw. das Ähnlichkeitsmaß nach Bhattacharyya [49]


Z q
dBat (pi (x), p j (x)) = − ln pi (x) · p j (x). (3.40)
x

Die Kullback-Leibler-Divergenz beschreibt näherungsweise das kumulierte Verhält-


nis von richtig zu falsch klassifizierten Realisierungen bezüglich der Klasse Bi und
bezüglich der Klasse B j . Eine untere Abschätzung durch Aufspalten der Summe
in (3.39) verhindert u. U. unerwünschte Kompensationseffekte [365]:
µZ Z ¶
pi (x) p j (x)
dKL,min (pi (x), p j (x)) = min pi (x) ln , p j (x) ln . (3.41)
x p j (x) x pi (x)
Die Dreiecksungleichung (3.30) ist für alle drei Maße in (3.39)-(3.41) allerdings nicht
erfüllt, somit handelt es sich nicht um Distanzen. Alle genannten Maße bieten bei
relativ kleinen Lerndatensätzen mit annähernd zuverlässig geschätzten Verteilungs-
dichtefunktionen eine Alternative zur Bewertung der Klassifikationsgüte, weil u. U. die
direkte Wirkung der zufälligen Realisierungen der Datentupel auf die Klassifikations-
güte größer ist als die indirekte Wirkung über die Verteilungsdichtefunktionen.

3.5.3 Informationstheoretische Maße

Informationstheoretische Maße [422] basieren auf Wahrscheinlichkeiten (bzw. rela-


tiven Häufigkeiten als Schätzungen für Wahrscheinlichkeiten) und stellen Maße zur
Beurteilung von Wahrscheinlichkeitsverteilungen und für Zusammenhänge zwischen
Größen dar. In Bild 3.7a sind verschiedene Maße am Beispiel des Zusammenhangs
zwischen einem wertediskreten Merkmal xl und der wertediskreten Ausgangsgröße
y dargestellt. Die Eingangsentropie H(xl ), die Ausgangsentropie H(y) und die Ge-
samtentropie H(xl , y) ergeben sich für wertediskrete Merkmale aus
ml
H(xl ) = − ∑ P(xl = Al,i ) · log2 P(xl = Al,i ), (3.42)
i=1
my
H(y) = − ∑ P(y = Bc ) · log2 P(y = Bc ), (3.43)
c=1
ml my
H(xl , y) = − ∑ ∑ P(xl = Al,i ∩ y = Bc ) · log2 P(xl = Al,i ∩ y = Bc ). (3.44)
i=1 c=1

Die Eingangsentropie beruht auf der Eingangsgröße xl mit ml linguistischen Termen,


die Ausgangsentropie auf der Ausgangsgröße y mit my linguistischen Termen. Die

52
3.5 Bewertungsmaße

b. Eingangsentropie
a. Entropiebilanz 0.8

H(xl | y) H( y | xl ) 0.6

H(x )
1
0.4

H(xl ) H(y) 0.2


H(xl ;y)
0
0 0.2 0.4 0.6 0.8 1
p(x1=A11)

Bild 3.7: a. Entropiebilanz (links), b. Beispiel für Eingangsentropie für eine Eingangsgröße x1
mit zwei Termen A11 und A12 mit der Beziehung P(x1 = A12 ) = 1 − P(x1 = A11 )

Gesamtentropie beschreibt die Kombination von xl und y, die dann wie ein Merkmal
mit ml ·my linguistischen Termen behandelt wird. Die maximale Entropie tritt auf, wenn
die jeweiligen wertediskreten Merkmale gleichverteilt sind (Beispiel in Bild 3.7b). Die
Entropie ist hingegen Null, wenn genau ein wertediskreter Wert die Wahrscheinlich-
keit Eins und alle anderen die Wahrscheinlichkeit Null aufweisen.
Den Informationsfluss zwischen Ein- und Ausgangsgröße beschreibt die Transin-
formation H(xl ; y) (engl. mutual information). Die Irrelevanz H(y|xl ) und die Äquivo-
kation H(xl |y) (Synonym: Rückschlussentropie) sind Maße für die Anteile der Aus-
bzw. Eingangsgröße, die nicht aus der jeweils anderen Größe resultieren.
Es gelten folgende Rechenregeln, die auf (3.42-3.44) basieren:

H(xl ; y) = H(xl ) + H(y) − H(xl , y), (3.45)


H(y|xl ) = H(xl , y) − H(xl ), (3.46)
H(xl |y) = H(xl , y) − H(y). (3.47)

Die Schätzungen für die Entropie Ĥ(·) mit P̂(·) anstelle von P(·) sind nur asympto-
tisch erwartungstreu. Der entstehende systematische Schätzfehler (Bias) kann im
einfachsten Fall für Ein- und Ausgangsentropie mit
ml − 1
∆Ĥ(xl ) = H(xl ) − E(Ĥ(xl )) = , (3.48)
2N ln(2)
my − 1
∆Ĥ(y) = H(y) − E(Ĥ(y)) = (3.49)
2N ln(2)
und für die Transinformation mit
(ml − 1)(my − 1)
∆Ĥ(xl ; y) = H(xl ; y) − E(Ĥ(xl , y)) = (3.50)
2N ln(2)
abgeschätzt werden [305, 376]4 . Es existiert jedoch noch eine Reihe weiterführender
und genauerer Abschätzungen (siehe z. B. [411]).
4
Der ln(2)-Term resultiert aus der Verwendung des dualen und des natürlichen Logarithmus.

53
3 Data Mining: Verfahrensübergreifende Begriffe

Informationstheoretische Maße setzen keine explizite Verteilungsannahme voraus


und sind in der Lage, nichtlineare Zusammenhänge zu erkennen. Deswegen bieten
sie sich mit den Maßen
H(xl ; y)
Ql = , Ql ∈ [0, 1] (Transinformation pro Eingangsentropie), (3.51)
H(x)
H(xl ; y)
Ql = , Ql ∈ [0, 1] (Transinformation pro Ausgangsentropie) (3.52)
H(y)

insbesondere zur univariaten Merkmalsbewertung D23 an, wenn ein Verdacht auf
nichtlineare Zusammenhänge besteht. Ein Wert von Eins gibt ein besonders geeig-
netes, ein Wert von Null ein besonders ungeeignetes Merkmal an. Die Anwendung
der vorgestellten wertediskreten Variante setzt bei wertekontinuierlichen Merkmalen
und Ausgangsgrößen eine vorherige Diskretisierung D20A oder Fuzzifizierung D19A
zur Berechnung der geschätzten Wahrscheinlichkeiten in (3.42)-(3.44) voraus. Diese
Diskretisierung bzw. Fuzzifizierung kann die Ergebnisse deutlich beeinflussen (vgl.
Beispiel in Abschnitt 5.4).

3.5.4 Klassifikationsorientierte Maße

Das am weitesten verbreitete klassifikationsorientierte Maß ist der (zu minimierende)


Klassifikationsfehler
m
1 y 1 N
QK = ∑ N(ŷ = Bc ∩ y = Bc ) = ∑ dTr (y[n], ŷ[n]), (3.53)
N c=1 N n=1

der letztlich einen mittleren Fehler über alle betrachteten Klassen darstellt und
der durchschnittlichen trivialen Distanz der Elemente der Ausgangsgröße und ihrer
Schätzung (3.31) entspricht. Das Symbol Bc kennzeichnet die Negation der Klasse
Bc bzw. die ODER-Verknüpfung aller anderen Klassen.
Neben dem Zählen der wertediskreten Klassifikationsfehler bietet sich als Verall-
gemeinerung auch die geschätzte Wahrscheinlichkeit für Fehlklassifikationen
my
1 N
QK p = ∑ P̂(ŷ = Bc ∩ y = Bc ) = ∑ µBc (ŷ[n]) ∩ (1 − µBc (y[n])) (3.54)
c=1 N n=1

als Bewertungsmaß an. Die Verwendung unscharfer Klassenzugehörigkeiten und die


Wahl der Schätzvorschrift (3.21) oder der Alternative (3.22, 3.27) erzeugt in weiten
Gebieten stetige Gütefunktionen. Das erleichtert bei einer Parameteroptimierung von
Klassifikatoren die numerische Lösung des Optimierungsproblems. Ähnlich wirkt ein
Wichten der Wahrscheinlichkeiten (gewichteter Klassifikationsfehler) wie

54
3.5 Bewertungsmaße

my
¡ ¢ 1 N
QKw = ∑ f P̂(ŷ = B c ∩ y = Bc =
) ∑ f (µBc (ŷ[n]) ∩ (1 − µBc (y[n])))
N n=1
(3.55)
c=1

3P − 1 für P > 0.5
mit beispielsweise f (P) = (3.56)
P für P ≤ 0.5

in [365], das Fehlklassifikationen mit P̂(ŷ = Bc ∩ y = Bc ) > 0.5 verstärkt bestraft.


Als Bewertungsmaß eignet sich auch eine zu maximierende Klassifikationsgüte,
die entweder den inversen Klassifikationsfehler oder dessen inverse Wahrscheinlich-
keit angibt:
QK,G = 1 − QK bzw. QK p,G = 1 − QK p . (3.57)
Sowohl Klassifikationsgüte als auch Klassifikationsfehler können auch in Prozent an-
gegeben werden.
Außerdem möglich sind relative Verbesserungen der Klassifikationsgüte im Ver-
gleich zu einer Alternativlösung mit einem Klassifikationsfehler QK,0 bzw. QK p,0 , z. B.
QK QK p
QK,GV = 1 − bzw. QK p,GV = 1 − . (3.58)
QK,0 QK p,0
Alternativ können bestimmte Kombinationen von wirklichen Klassen y = Bi (Synonym
in der statistischen Entscheidungstheorie: Zustände) und Entscheidungen ŷ = Bc
durch Entscheidungskosten L(ŷ = Bc |y = Bi ) unterschiedlich bewertet werden. In die
Entscheidungskosten fließen abgeschätzte Konsequenzen von Entscheidungen ein
(z. B. Auswirkungen für den Patienten, resultierender Behandlungsaufwand). Hier er-
geben sich schwerwiegende ethische Probleme, weil persönliche Konsequenzen für
einen Patienten (z. B. Einbußen in der Lebenserwartung, Lebensqualität, aber auch
unnötige Behandlungen) und kostenorientierte Aspekte (z. B. Medikamente, Behand-
lungsaufwand) auf einen einheitlichen Bewertungsmaßstab bezogen werden müs-
sen. Als Bewertung ergeben sich dann die aus der Entscheidungstheorie (siehe z. B.
[327]) stammenden erwarteten mittleren Entscheidungskosten

1 N
QD = ∑ L(ŷ[n] | y[n])
N n=1
m m
1 y y
= ∑ ∑ L(ŷ = Bc |y = Bi ) · N(ŷ = Bc ∩ y = Bi ), (3.59)
N i=1 c=1

die zu minimieren sind. Gl. (3.59) verallgemeinert somit (3.53), die einen Sonderfall
mit 
0 für c = i
L(ŷ = Bc |y = Bi ) = (3.60)
1 für c 6= i

55
3 Data Mining: Verfahrensübergreifende Begriffe

darstellt. Daran zeigt sich, dass ein z. B. ethisch motivierter Verzicht auf Entschei-
dungskosten L(ŷ = Bc |y = Bi ) fragwürdig ist, weil er zu einer Gleichbewertung aller
Fehlentscheidungen führt.
Ein klassifikationsorientiertes Maß für die Inhomogenität eines Lerndatensatzes ist
der Gini-Index [69]
my my my
QGini = ∑ ∑ P̂(y = Bc) · P̂(y = B j ) = 1 − ∑ P̂2(y = Bc). (3.61)
j=1 c=1 c=1
c6= j

Er ist immer dann Null (optimaler Wert), wenn in einem Lerndatensatz nur noch ei-
ne Klasse vorkommt, und hat im ungünstigsten Fall einer Gleichverteilung den Wert
QGini = 1 − m1y .
In der medizinischen Statistik finden sich verbreitet die (zu maximierende) Sensiti-
vität
TP
QSens,c = P̂(ŷ = Bc |y = Bc ) =
T P + FN
N(ŷ = Bc ∩ y = Bc )
=
N(ŷ = Bc ∩ y = Bc ) + N(ŷ = Bc ∩ y = Bc )
N(ŷ = Bc ∩ y = Bc )
= (3.62)
N(y = Bc )
und die (ebenfalls zu maximierende) Spezifität
TN
QSpez,c = P̂(ŷ = Bc |y = Bc ) =
T N + FP
N(ŷ = Bc ∩ y = Bc )
=
N(ŷ = Bc ∩ y = Bc ) + N(ŷ = Bc ∩ y = Bc )
N(ŷ = Bc ∩ y = Bc )
= (3.63)
N(y = Bc )
für eine Klasse Bc und ihre Negation Bc . Die englischen Abkürzungen bedeuten da-
bei TP: True Positive, TN: True Negative, FP: False Positive, FN: False Negative.
Diese vier Werte bilden die sogenannte Vierfeldertafel. Sie kennzeichnen jeweils die
Fallzahlen bzw. Datentupelzahlen N(·) für Kombinationen aus einer Klasse und ei-
ner Entscheidung in einem 2-Klassen-Fall. Dabei steht Positive für die Entscheidung
ŷ = Bc bzw. Negative für die Entscheidung ŷ = Bc sowie True und False für die Kor-
rektheit der jeweiligen Entscheidung. Im 2-Klassen-Fall werden Sensitivität und Spe-
zifität meist für die erste Klasse angegeben. Damit ergeben sich:

T P = N(ŷ = B1 ∩ y = B1 ), T N = N(ŷ = B2 ∩ y = B2 ), (3.64)


FP = N(ŷ = B1 ∩ y = B2 ), FN = N(ŷ = B2 ∩ y = B1 ). (3.65)

56
3.5 Bewertungsmaße

Durch eine unterschiedliche Wichtung von Spezifität und Sensitivität kann sich neben
einer indirekten Bewertung unterschiedlicher A-priori-Wahrscheinlichkeiten verschie-
dener Klassen Bc implizit auch eine kostenorientierte Bewertung analog (3.59) erge-
ben. Die Sensitivität bewertet ausschließlich die Vermeidung von FN (z. B. bei hohen
Entscheidungskosten L(ŷ = Bc ∩ y = Bc )), die Spezifität die Vermeidung von FP (z. B.
bei hohen L(ŷ = Bc |y = Bc )).
Sensitivität und Spezifität hängen oft von weiteren Parametern θ ab, z. B. einem
frei wählbaren Schwellwert eines Klassifikators. Das Auftragen von Wertepaaren
© ª
QSens (θ ), QSpez (θ ) als funktioneller Zusammenhang QSens = f (1 − QSpez ) wird als
ROC-Kurve (Receiver Operating Characteristic)5 bezeichnet (Bild 3.8). Sie ermög-
licht die Bewertung von Verfahren, die mit Hilfe variabler Parameter θ unterschiedli-
che Kompromisse zwischen beiden z. T. widersprüchlichen Forderungen liefern. So-
mit stellt diese Funktion eine Pareto-Grenze des zweikriteriellen Optimierungspro-
blems
QSens → max, QSpez → max (3.66)

mit freiem Parametervektor θ dar. Ein typisches Bewertungsmaß für das zweikrite-
rielle Optimierungsproblem ist die Fläche unter der ROC-Kurve (engl. AUC – Area
under curve, Synonym Az -Wert)
Z 0
Q= f (1 − QSpez ) dQSpez , (3.67)
1 | {z }
QSens

das den Vergleich unterschiedlicher Klassifikatoren mit jeweils freien Parametern er-
möglicht.
Alle genannten Maße eignen sich zur Beurteilung verschiedener Klassifikatoren Cr

Q(ŷ(Cr )) → min (3.68)


r

unterschiedlicher ausgewählter Merkmale (definiert durch ihre Indexmenge I)

Q(ŷ(I)) → min (3.69)


I

und unterschiedlicher Merkmalstransformationen (definiert durch die Matrix A)

Q(ŷ(A)) → min . (3.70)


A

Die Schätzungen im N -dimensionalen Vektor ŷ hängen dann von den jeweiligen va-
riablen Größen ab.
5 FP
Äquivalente Formulierung: QSens = f ( T N+FP ). In einigen Arbeiten wird aber auch QSpez = f ∗ (1 −
QSens ) als ROC-Kurve eingeführt, was bei asymmetrischen Kurven auf andere Ergebnisse führt.

57
3 Data Mining: Verfahrensübergreifende Begriffe

ROC Kurve
1

0.8

Sensitivität QSens
Verbesserung

0.6

0.4

0.2

0
1 0.8 0.6 0.4 0.2 0
Spezifität QSpez

Bild 3.8: ROC-Kurve

3.5.5 Regressionsorientierte Maße

Die im Folgenden vorgestellten regressionsorientierten Maße (siehe z. B. [31, 442])


dienen der Bewertung einer geschätzten reellwertigen Ausgangsgröße (Synonym:
abhängige Variable, Zielvariable), die im Allgemeinen von Merkmalen (Synonym: un-
abhängige Variablen, erklärende Variablen) abhängt. Das Ziel besteht darin, diese
Schätzungen möglichst mit den bekannten Ausgangsgrößen im Lerndatensatz in
Übereinstimmung zu bringen.
Das wichtigste Bewertungsmaß ist der Regressionsfehler

Q =k Y − Ŷ k2 (3.71)

mit einer beliebig wählbaren Norm k · k, was wiederum distanzbasierten Ansätzen


entspricht. Eine Schätzung ist umso besser, je kleiner der Regressionsfehler ist. Die-
ses Bewertungsmaß tritt strukturell auch bei Fuzzy-Klassifikationsproblemen mit

Q =k µ y − µ̂ y k2 (3.72)

auf, wobei µ y der Matrix mit den Zugehörigkeitswerten der Ausgangsgröße und µ̂ y
dem zugehörigen Schätzwert entspricht.
Bei eindimensionalen Ausgangsgrößen vereinfacht sich (3.71) für N -dimensionale
Vektoren y, ŷ in D1 zu
Q =k y − ŷ k2 . (3.73)

Hier ist es auch möglich, den Wert noch auf die Anzahl der Datentupel zu bezie-
hen und auf das Quadrieren zu verzichten, um eine besser interpretierbare mittlere

58
3.5 Bewertungsmaße

Distanz zu erhalten:
1
Q= k y − ŷ k . (3.74)
N
Beispielsweise ergibt die Manhattan-Distanz in (3.74) den mittleren absoluten Fehler.
Meist wird in (3.73) die quadratische Euklidische Distanz (3.34)
N
Q = (dEuk (y, ŷ))2 = ∑ (y[n] − ŷ[n])2 = (y − ŷ)T · (y − ŷ) (3.75)
n=1

verwendet. Q von (3.75) wird als die Summe der Fehler-Quadrate (engl. RSS: Resi-
dual Sum of Squares6 oder SSE: Sum of Squares Error) bezeichnet. Die Differenz
y[n] − ŷ[n] heißt Residuum (Synonym: Residualgröße).
Das Bestimmtheitsmaß (engl. coefficient of determination, Synonym: Determinati-
onskoeffizient) mit Q aus (3.75)

2 (y − ŷ)T · (y − ŷ) Q
R (y, ŷ) = 1 − = 1 − (3.76)
(y − ȳ)T · (y − ȳ) (y − ȳ)T · (y − ȳ)
beschreibt die Verbesserung der Regressionsschätzung im Vergleich zum Trivial-
modell ”Mittelwert der Ausgangsgröße”: ȳ = N1 ∑N
n=1 y[n]. Die Werte liegen für sinnvolle
Schätzungen zwischen Null (kein Zusammenhang) und Eins (deterministischer Zu-
sammenhang). Wichtig ist hierbei die Berücksichtigung des Mittelwertes ȳ, die eine
Offset-Kompensation vornimmt. Für lineare Modelle heißt
¯
(y − ȳ)T · (ŷ − ŷ)
ry,ŷ = p q (3.77)
(y − ȳ)T · (y − ȳ) · (ŷ − ŷ)¯ T · (ŷ − ŷ)
¯

(empirischer) Korrelationskoeffizient mit Werten zwischen minus Eins und Eins und
beschreibt eine lineare Regression zwischen y und ŷ (vgl. Abschnitt 5.8). Nur wenn ŷ
aus einer linearen Regression mit gleichen Mittelwerten für y und ŷ hervorgeht, gilt
q
ry,ŷ = ± R2 (y, ŷ). (3.78)

Der Spearman-Korrelationskoeffizient Rs verwendet in (3.77) anstelle der Werte


y[n], ŷ[n] deren Rangordnungen nach einer Sortierung (1 für das kleinste, N für das
größte Merkmal). Bei mehreren gleichen Werten werden die Rangordnungen gemit-
telt. Er eignet sich somit auch für Merkmale mit Verteilungen, die von einer Normal-
verteilung abweichen, und ist weniger empfindlich gegenüber Ausreißern.
Darüber hinaus existieren z. B. noch partielle Korrelationskoeffizienten, die noch
den Einfluss weiterer Merkmale berücksichtigen.
6
Achtung: In der Literatur findet sich diese Abkürzung in seltenen Fällen auch für die Regression Sum
of Squares, die die erklärte Streuung ESS und damit ein anderes Maß beschreibt (vgl. Seite 217)!

59
3 Data Mining: Verfahrensübergreifende Begriffe

Die gleiche Philosophie wie beim Bestimmtheitsmaß lässt sich auf beliebige Nor-
men anwenden. Damit entsteht ein Bewertungsmaß, das eine relative Regressions-
güte im Vergleich zu einem Trivialmodell angibt:

ky − ŷk2Norm
QR2 ,Norm (y, ŷ) = 1 − . (3.79)
ky − ȳk2Norm
Das Bestimmtheitsmaß ist ein Sonderfall von (3.79) mit der Euklidischen Norm:

R2 (y, ŷ) = QR2 ,Euk (y, ŷ). (3.80)

Teilweise finden sich auch gewichtete Ansätze mit einer Diagonalmatrix WQF , deren
Diagonalelemente wQF,n eine Wichtigkeit der richtigen Prognose des n-ten Wertes
bewerten:
N
Q = dQF,WQF (y, ŷ)2 = ∑ wQF,n · (y[n] − ŷ[n])2 = (y − ŷ)T · WQF · (y − ŷ). (3.81)
n=1

Diese Ansätze können auch mit einer frei wählbaren Kostenfunktion L(·, ·) in eine
kostenorientierte Betrachtung in Analogie zu (3.59) überführt werden:
N
QD = ∑ L(y[n], ŷ[n]). (3.82)
n=1

3.5.6 Merkmalskosten, Interpretierbarkeits- und Komplexitätsmaße

Bei vielen Problemen kommt es nicht nur darauf an, ein optimales Modell ŷ = f (x)
im Sinne eines regressions- oder klassifikationsorientierten Maßes als Lösung zu er-
zeugen, sondern dazu auch vorzugsweise bestimmte Merkmale und Merkmalskom-
binationen zu verwenden oder deren Anzahl zu reduzieren. Hierbei spielen Kosten-,
Interpretierbarkeits- und Robustheitsaspekte die dominierende Rolle. Eine detaillierte
Übersicht über verschiedene Kostenarten findet sich beispielsweise in [38, 39, 448].
Bei Kostenaspekten geht es darum, auf Informationen aus teuren Merkmalen zu
verzichten und einen Kompromiss zur Minimierung der totalen Kosten

QT = QD + QF → min (3.83)
mit QF = QF0 + ∑ QF,l (3.84)
l∈I

anzustreben. Die erwarteten mittleren Entscheidungskosten QD entstammen (3.59)


oder (3.82). Die Modellkosten QF zur Berechnung des Modells f (·) umfassen die
Kosten QF,l jener Merkmale xl in der Indexmenge I, von denen das Modell abhängt,
sowie optional weitere Kosten QF0 zur Auswertung der Funktion f (·) selbst.

60
3.5 Bewertungsmaße

Die Merkmalskosten setzen sich aus fixen Kosten L f ix,l und variablen Kosten Lvar,l
für das Merkmal xl pro Messung zusammen:

L f ix,l
QF,l (NAnw ) = + Lvar,l . (3.85)
NAnw

Fixe Kosten fallen einmalig an und beinhalten beispielsweise Anschaffungskosten für


ein Messgerät oder einen Sensor, die Kosten für die Integration in einen Entschei-
dungsprozess sowie nutzungsunabhängige Wartungskosten. Sie werden auf die zu
erwartenden NAnw Datentupel in der Anwendungsphase des Modells umgelegt. Va-
riable Kosten umfassen beispielsweise den Arbeits- und Materialaufwand für eine
konkrete Messung (z. B. bei Laboruntersuchungen).
Die Berechnung von Merkmalskosten ist insbesondere bei Problemen mit einer
sehr großen Anzahl von Merkmalen und bei gegenseitigen Abhängigkeiten von Merk-
malskosten keine triviale Aufgabe. Solche Abhängigkeiten resultieren in der Regel
aus Synergien in Form von Kostenreduktionen zwischen Merkmalen. Beispiele hier-
für sind z. B. Laboruntersuchungen von Blutproben, bei denen nach Ermittlung eines
Merkmals weitere Merkmale geringere Kosten verursachen, die Analyse mehrerer
Merkmale aus CT- oder MRT-Bildern, wenn einmal eine entsprechende Bildgebung
durchgeführt wurde, und die Verwendung von zusätzlichen Sensorinformationen bei
Medizingeräten, wenn dieser Sensor vorhanden ist.
Ein denkbarer Ansatz zur komfortablen Erfassung solcher Abhängigkeiten ist die
Kostenberechnung über Merkmalskategorien. Hierzu erfolgt in einem ersten Schritt
für jedes Merkmal eine Kategorienzuweisung (z. B. nach der Art des notwendi-
gen Sensors und dem auszuführenden Berechnungsalgorithmus). In einem zwei-
ten Schritt werden den Merkmalskategorien (z. B. Sensor, Berechnungsalgorithmus)
Kosten QFK,lk entsprechend der Vorgehensweise in (3.85) zugewiesen (vgl. Ab-
schnitt 3.2)7 . Danach ist zur Berechnung der Modellkosten nach den Indizes jener
Kategorien Ik zu suchen, die in der Indexmenge der Merkmale I wenigstens einmal
vorkommen (z. B. ob mindestens ein Merkmal den Sensor benötigt). Oftmals fallen
die entsprechenden Kosten nur einmalig pro Kategorie an (z. B. bei einem Sensor),
weshalb

QF = QF0 + ∑ QFK,lk (3.86)


lk ∈Ik

mit lk ∈ Ik wenn Kx,l,lk = 1 für mindestens ein l ∈ I (3.87)

7
Kostenzuweisungen zu Kombinationen von Kategorien erfolgen in der Weise, dass diese Kategori-
enkombinationen als neue Kategorie eingeführt werden.

61
3 Data Mining: Verfahrensübergreifende Begriffe

gilt. In einigen Fällen vervielfachen sich die Kosten aber auch entsprechend der An-
zahl der verwendeten Merkmale pro Kategorie (z. B. bei Berechnungsalgorithmen
oder Verbrauchsmitteln).

Falls eine genaue Berechnung der Merkmalskosten nicht möglich ist, reicht oftmals
auch eine qualitative Abschätzung mit einer heuristischen Kostenzuweisung aus. Die-
se Abschätzung ermöglicht immerhin noch eine Bevorzugung günstigerer Merkmale.
Eine Feinjustierung der Ergebnisse kann interaktiv durch ein schrittweises Erhöhen
oder Senken von Modellkosten durch einen Wichtungsfaktor erfolgen.

Bei einer Bewertung gemäß (3.83) nimmt der Nutzer für eine Reduktion der Mo-
dellkosten höhere Entscheidungskosten und somit eine geringere regressions- oder
klassifikationsorientierte Güte in Kauf. Diese in der Technik weitgehend akzeptier-
te Vorgehensweise ist allerdings bei medizinischen Data-Mining-Problemen insofern
ethisch kritisch, weil sie eine kostenorientierte Abwägung von Entscheidungen in
QD und des dazu notwendigen Modellaufwands erfordert (vgl. Diskussion in Ab-
schnitt 3.5.4 zur Einführung von unterschiedlichen Entscheidungskosten).

Ein wichtiges Kriterium für die Interpretierbarkeit einer gefundenen Lösung ist die
Anzahl und Art der verwendeten Merkmale. Besonders günstig sind dabei Lösun-
gen mit einem oder zwei Merkmalen, die eine besonders einfache Visualisierung
ermöglichen. Zuweilen existieren Merkmalspräferenzen zugunsten besonders gut in-
terpretierbarer Merkmale. Beispiele hierfür sind z. B. Extrem- oder Durchschnittswer-
te in Zeitreihen bzw. Amplituden von Leistungsdichtespektren gegenüber Koeffizien-
ten von autoregressiven Modellen oder grauwert- bzw. geometriebasierte Merkmale
in Bildern gegenüber Textur- oder Frequenzbereichsmerkmalen. Diese Präferenzen
hängen stark von der Anwendung ab: Der Anwender bevorzugt stets jene Merkmale
als Lösung eines Data-Mining-Problems, die er bei einer subjektiven Lösung selbst
verwendet oder die wenigstens mit einer Visualisierung plausibel zu überprüfen sind.
Auch hier ist eine geringere regressions- oder klassifikationsorientierte Güte zuguns-
ten einer höheren Interpretierbarkeit akzeptabel. Interpretierbarkeitsaspekte können
als Kosten kodiert werden, um so einen einheitlichen Bewertungsrahmen zu erzielen.

Eine weitere Motivation zur Bevorzugung bestimmter Merkmale resultiert aus a


priori gegebenen Informationen über deren messtechnische Zuverlässigkeit oder ei-
ne zu erwartende (zeitvariante) Drift in der Anwendungsphase. Im Zweifelsfall be-
steht die Möglichkeit, bei ähnlich guten Merkmalen die messtechnisch zuverlässige-
ren oder weniger zeitvarianten zu bevorzugen. Damit wird tendenziell eine bessere
regressions- oder klassifikationsorientierte Güte über unbekannten Datentupeln er-
reicht. Auch diese Aussagen sind als virtuelle Kosten auszudrücken.

62
3.5 Bewertungsmaße

Eine Alternative zu einer additiven Kostenbewertung in (3.83) ist eine UND-


Verknüpfung von verschiedenen Präferenzen bei Entscheidungen und Merkmalen
mit einem geeigneten Operator, z. B. einer Produktverknüpfung zum Berechnen ei-
ner Gesamtpräferenz
QPT = QPD · QPF → max (3.88)

mit
QPF = QPF,0 · ∏ QPF,l bzw. QPF = QPF,0 · ∏ QPFK,lk . (3.89)
l∈I lk ∈Ik

QPD ist eine problembezogene Bewertung (hier eine Präferenz der Lösung eines
Klassifikations- oder Regressionsproblems bzw. eine univariate oder multivariate
Merkmalsrelevanz, meist zwischen Null: ungeeignet und Eins: optimal geeignet) und
QPF eine Bewertung im Sinne kostengünstiger oder gut interpretierbarer Merkmale
bzw. Merkmalskombinationen (hier meist zwischen Null: ungeeignet und Eins: opti-
mal geeignet). Entsprechende Maße müssen dann auch in Analogie zu (3.84) für die
Präferenz von Funktionen QPF,0 und Merkmalspräferenzen QPF,l bzw. in Analogie zu
(3.87) für die Präferenz von Kategorien QPFK,lk bereit gestellt werden. Dieser Ansatz
bietet sich insbesondere zur Berücksichtigung von Interpretierbarkeitsaspekten oder
bekannten messtechnischen Zuverlässigkeiten an (siehe Beispiele in Kapitel 7).
Verschiedene und unter Umständen gegenläufige Teil-Bewertungsmaße für die
Präferenz können durch eine exponentielle Wichtung berücksichtigt werden [303]. Ein
Beispiel hierfür ist eine Wichtung von Interpretierbarkeitsaspekten (gegeben durch
eine Präferenz QPF,Int ) und von Implementierbarkeitsaspekten (gegeben durch eine
Präferenz QPF,Imp ). Mit den jeweiligen Wichtungsfaktoren αInt bzw. αImp ergibt sich
die Gesamtpräferenz aus

α
QPT = QPD · QαPF,Int
Int Imp
· QPF,Imp → max (3.90)
| {z }
QPF

mit QPF,Int , QPF,Imp ∈ [0, 1], αInt , αImp ≥ 0.

Große Wichtungsfaktoren bewirken einen hohen Einfluss der jeweiligen Forderung.


Ein Wert von Null bedeutet hingegen, dass die Forderung ignoriert wird.
Komplexitätsmaße nehmen eine Stellung zwischen regressions- oder klassifikati-
onsorientierten Maßen einerseits und Merkmalskosten andererseits ein. Sie bestra-
fen bei der Bewertung eines Modells ŷ = f (x) dessen Komplexität und bevorzugen
so einfachere Modelle, um ein Auswendiglernen des Lerndatensatzes im Sinne ei-
nes Overfittings zu verhindern. Beispiele hierfür sind die Minimum Description Length
(MDL) [379, 380] oder die Minimum Message Length (MML) [461], die ursprünglich

63
3 Data Mining: Verfahrensübergreifende Begriffe

für wertediskrete Ausgangsgrößen definiert wurden. Sie betrachten ein fiktives Kom-
munikationsproblem, bei dem ein Modell und bzw. oder Werte der Ausgangsgröße y
(”Ausnahmen”) übertragen werden und minimieren hier die zu übertragende Informa-
tionsmenge. Die Betrachtungsweise ähnelt somit informationstheoretischen Maßen
(vgl. Abschnitt 3.5.3). Für jede Modellklasse ist diese Berechnungsvorschrift geeig-
net zu konkretisieren. Eine gut lesbare und detaillierte Übersicht findet sich in [151].
Eine ähnliche Argumentation verwenden verschiedene statistische Abschätzungen,
die die Wahrscheinlichkeit einer lediglich zufälligen Verbesserung durch ein kompli-
zierteres Modell prüfen (vgl. Abschnitt 5.2.2).
Sortierte Merkmalslisten mit den relevantesten Merkmalen für eine Problemstel-
lung sind ein wichtiges Werkzeug, um ein Problem zu verstehen. Allerdings haben
univariate Bewertungsmaße bei Problemen mit vielen Merkmalen den Nachteil, u. U.
viele ähnliche und hoch redundante Merkmale auf die vorderen Plätze zu stellen, was
die Interpretierbarkeit der Liste einschränkt. Multivariate Bewertungsmaße verzich-
ten hingegen auf Merkmale, die zwar keine zusätzlichen Aspekte zur Problemlösung
beitragen, aber alternative Lösungswege aufzeigen. Solche Lösungswege zeichnen
sich möglicherweise durch reduzierte Merkmalskosten oder eine bessere Interpre-
tierbarkeit aus bzw. erhöhen den Einblick in die Struktur des Problems. Ein Beispiel
dafür sind nahezu unkorrelierte Merkmale, die nach einer Merkmalsselektion auf ein
Merkmal in etwa gleiche Klassifikationsfehler erreichen. Hier eignet sich ein Kompro-
miss aus einem univariaten und einem multivariaten Bewertungsmaß. Dieser sortiert
die Merkmale und Merkmalsrelevanzen Ql absteigend und stuft alle nachfolgenden
Merkmale durch ein geeignetes Redundanzmaß Qred (xl , xi ) zwischen den Merkma-
len xl und xi zurück. Somit entsteht ein Bewertungsmaß QRS , das eine Rückstufung
redundanter Merkmale vornimmt:
l−1
QRS,l = Ql · ∏(1 − Qred (xl , xi )) (3.91)
i=1
mit QRS,1 ≥ . . . ≥ QRS,l−1 , Qi ≥ Ql ≥ Ql+1 ≥ . . . ≥ Qs , Qred (xl , xi ) ∈ [0, 1].
Geeignete Redundanzmaße basieren beispielsweise auf dem linearen Korrelations-
koeffizienten oder der Transinformation pro Ausgangsentropie zwischen zwei Merk-
malen. Oftmals nehmen die Redundanzmaße lediglich eine scharfe Rückstufung vor,
z. B. wenn der Korrelationskoeffizient R eine kritische Schwelle αkrit überschreitet:

0 wenn |R(x1 , x j )| ≤ αkrit
Qred (xi , x j ) = (3.92)
1 wenn |R(x1 , x j )| > αkrit .

Hierbei handelt es sich bei der Rückstufung redundanter Merkmale dann konkret um
eine Rückstufung korrelierter Merkmale.

64
3.6 Optimierungsprobleme und -verfahren

3.6 Optimierungsprobleme und -verfahren

Bei Optimierungsverfahren ist ein skalares oder vektorielles Bewertungsmaß Q bzw.


Q durch Wahl geeigneter Parameter θ zu minimieren oder zu maximieren, wobei der
Raum der zulässigen Lösungen durch Restriktionen auf eine Menge Θ eingeschränkt
sein kann, z. B.
Q = Q(θ ) → min bzw. Q = Q(θ ) → min . (3.93)
θ ∈Θ θ ∈Θ
Minimierungs- und Maximierungsprobleme können ineinander überführt werden, z. B.
durch einen Vorzeichenwechsel (Multiplikation mit -1). Typische Restriktionen sind
Minimal- und Maximalwerte von Parametern sowie Gleichungen oder Ungleichungen,
die einzuhaltende Zusammenhänge zwischen Parametern beschreiben. Zudem gibt
die Menge Θ noch den Zahlenraum der zulässigen Parameter an (z. B. reelle Zahlen,
ganze Zahlen).
Optimierungsprobleme lassen sich nach verschiedenen Kriterien einteilen:
• Art der Parameter und daraus resultierende Verfahrensarten: Wertekontinuier-
liche und wertediskrete Parameter erfordern unterschiedliche Verfahren. Bei Auf-
gaben mit wertekontinuierlichen Parametern gilt für die erste Ableitung des Bewer-
tungsmaßes nach den Parametern
dQ
| = 0, (3.94)
dθ T θ =θ opt
wenn die optimale Lösung θ opt nicht auf dem Rand der Menge Θ liegt (vgl. Q2 :
durchgezogene Linie in Bild 3.9a) und Q(θ ) stetig und differenzierbar ist.
Eine geschlossene Lösung für (3.94) ist ein wichtiger Zugang für eine schnelle und
sichere Lösbarkeit solcher Probleme, wobei auch hier eventuelle Restriktionen in
Θ zu berücksichtigen sind. Gelingt das nicht, können immer noch gradientenba-
sierte Verfahren verwendet werden, die die erste Ableitung in (3.94) verwenden.
Probleme mit wertediskreten Parametern müssen bis auf wenige Sonderfälle
durch Ausprobieren aller oder ausgewählter Parameter gelöst werden. Je nach
Problemstruktur existieren u. U. exakte Lösungsverfahren zum Finden des globa-
len Optimums, die nur einen Bruchteil der möglichen Lösungen auswerten müssen
(z. B. in der ganzzahligen linearen Optimierung, wo die ganzzahligen Parameter li-
near in das Bewertungsmaß eingehen und lineare Gleichungs- und Ungleichungs-
restriktionen erfüllen müssen). Da ansonsten bereits bei einer geringen Parame-
teranzahl der Aufwand für eine vollständige Suche unzumutbar ansteigt, kommen
oft spezielle Heuristiken zum Einsatz (z. B. Genetische Algorithmen [174], suk-
zessives Festsetzen eines Parameters und nachfolgendes Lösen parameterredu-
zierter Probleme usw.). Gemischte Probleme mit wertediskreten Parametern (z. B.

65
3 Data Mining: Verfahrensübergreifende Begriffe

zur Beschreibung von Strukturen) und wertekontinuierlichen Parametern können


durch Dekomponieren mit Festsetzen der wertediskreten Parameter und Suchen
des wertekontinuierlichen Optimums gelöst werden.

• Anzahl der Lösungen: Wenn für ein Problem genau eine Lösung für θ = θ opt
existiert (Synonym: unimodales Problem), verbessert das die Aussichten auf das
Finden dieser Lösung erheblich. Anderenfalls ist das Problem multimodal mit zu-
sätzlichen lokalen Optima, für die ebenfalls (3.94) gilt und die bei einer numeri-
schen Optimierung von der besten Lösung (”globales Optimum”) nur schwer un-
terscheidbar sind (Bild 3.9a). Bei multimodalen Aufgaben empfehlen sich heuris-
tische Suchverfahren, wie z. B. Evolutionäre Strategien [415] oder Kombinationen
aus Evolutionären Strategien und gradientenbasierten Suchverfahren [193].

• Bewertungsmaß: Bei einem skalaren Q handelt es sich um einkriterielle, bei ei-


nem vektoriellen Q um multikriterielle Optimierungsprobleme (Synonyme: mehr-
kriterielle Optimierung, Polyoptimierung, Vektoroptimierung). Während bei einem
einkriteriellen Optimierungsproblem immer eine oder mehrere Lösungen für θ
existieren, gibt es bei multikriteriellen Optimierungsproblemen noch sogenannte
Pareto-optimale Lösungen: Dabei kann ein Element Qi nur noch dadurch verbes-
sert werden, indem die Verschlechterung zumindest eines anderen Elementes Q j
in Kauf genommen wird (Beispiel in Bild 3.9b). Multikriterielle Optimierungsproble-
me werden häufig in einkriterielle Optimierungsprobleme transformiert, z. B. durch
eine gewichtete Addition mit Wichtungsfaktoren αi für die einzelnen Elemente Qi :

m
Q = ∑ αi Qi (θ ) → min . (3.95)
i=1 θ

Damit handelt es sich aber im engeren Sinne nicht mehr um ein multikriterielles
Optimierungsproblem, wie in der Literatur gelegentlich fälschlich dargestellt wird,
sondern um eine spezielle Pareto-optimale Lösung.

Diese Einteilungen beeinflussen die Wahl eines geeigneten Optimierungsverfah-


rens. Eine Übersicht über verschiedene statistisch motivierte Verfahren findet sich
beispielsweise in [136].
Evolutionäre Algorithmen werden u. a. in [174, 193, 415] umfassend behandelt.
Dieses Gebiet lässt sich in Teilgebiete zur Optimierung von Problemen mit binärer
Kodierung (Genetische Algorithmen), reellwertiger Kodierung (Evolutionäre Strategi-
en) und Probleme mit relativ freier Struktur (Genetische Programmierung) einteilen.
Eine Übersicht über Begriffe und Definitionen gibt [11].

66
3.7 Validierungstechniken

a. Uni− und multimodales Problem b. Pareto−optimale Lösungen für a.


20 12

10
15

8
Q1,Q2

Q2
10
6

5
4

0 2
0 2 4 6 θ 6 7 8 9 10 Q1

Bild 3.9: a. (links) Unimodales (Q1 , gestrichelte Linie) und multimodales (Q2 , durchgezoge-
ne Linie) Optimierungsproblem mit lokalen (*) und globalen (¤) Lösungen bei Pa-
rameterrestriktion Θ : θ ∈ R, 0 ≤ θ ≤ 6, fett auf Nulllinie durchgezogen: Pareto-
optimale Parameter bei Auffassung als zweikriterielles Optimierungsproblem mit
Q = (Q1 Q2 ) → minθ , b. (rechts) Pareto-optimale Bewertungsmaße für zweikri-
terielles Optimierungsproblem aus Teilbild a.

3.7 Validierungstechniken

Data-Mining-Verfahren gehen davon aus, dass sowohl der Lerndatensatz als auch
alle unbekannten Datentupel der gleichen statistischen Verteilung entstammen. Der
Begriff unbekannte Datentupel umfasst hierbei alle Datentupel, die nicht im Lern-
datensatz vorkommen, deren zugehörigen Ausgangsgrößen folglich unbekannt sind
und die aber möglicherweise in der Anwendungsphase des Data-Mining-Verfahrens
vorkommen können. Die Gültigkeit dieser Annahme ist in jedem Fall kritisch zu prüfen
(Gegenbeispiel z. B. in [364]). Wenn sie erfüllt ist, gibt es zwar zufällige, aber keine
systematischen Abweichungen zwischen den gelernten Zusammenhängen und der
Realität. Das Verfahren steht dann aber noch vor der nicht trivialen Aufgabe, auch
komplizierte relevante Zusammenhänge, aber keine zufälligen Störeinflüsse zu ler-
nen. Ein wichtiges Strategieelement zum Ermitteln der Auswirkungen zufälliger Stö-
reinflüsse sind Validierungstechniken, um die Güte über unbekannten Datentupeln
abzuschätzen.
Viele Data-Mining-Verfahren tendieren zum Auswendiglernen der zufälligen Stör-
einflüsse eines Lerndatensatzes (engl. overfitting), wenn die Anzahl der Datentupel
im Lerndatensatz N im Vergleich zur Anzahl freier Parameter eines Algorithmus zu
klein ist. Bei der eigentlichen Anwendung mit unbekannten Datentupeln resultiert

67
3 Data Mining: Verfahrensübergreifende Begriffe

daraus eine unbefriedigende Güte. Zudem sind die gelernten Zusammenhänge zu


kompliziert und u. U. irreführend. In nahezu allen medizinischen Problemstellungen
ist mit entsprechenden Problemen zu rechnen, weil meist nur relativ wenige Daten-
tupel (z. B. Patienten mit der gleichen Diagnose) zur Verfügung stehen. Zudem sind
Patientengruppen häufig heterogen (z. B. durch unbekannte Subklassen, fehlerhaf-
te Klassenzuweisungen im Lerndatensatz), was zu komplizierten Verteilungsdichte-
funktionen führt.
Leider gibt es keine allgemeingültigen Empfehlungen, wie die Anzahl der freien Pa-
rameter zu wählen ist. Ebenso wenig kann die von Medizinern nahezu standardmä-
ßig gestellte Frage pauschal beantwortet werden, wieviele Datentupel bzw. Patien-
ten zum Erkennen eines Zusammenhangs erforderlich sind. Beide Fragestellungen
hängen von den in der Regel unbekannten statistischen Eigenschaften (Typ und Pa-
rameter der mehrdimensionalen Verteilungsdichtefunktion) des zu untersuchenden
Problems ab.
Wichtige Validierungstechniken sind
• statistische Fehlerabschätzungen im Lerndatensatz,
• eine einmalige Aufteilung in Lern- und Testdatensatz und
• mehrmalige Aufteilungen in Lern- und Testdatensätze durch n-fache Crossvalidie-
rung oder Bootstrap.
Bei statistischen Fehlerabschätzungen im Lerndatensatz (siehe z. B. [447] und Ab-
schnitt 5.2.2) werden alle verfügbaren Daten als Lerndatensatz verwendet. Anhand
der Größe des Datensatzes und der Freiheitsgrade werden Konfidenzintervalle für
Parameter (Bereiche, in denen der wahre Wert eines Parameters mit einer bestimm-
ten Wahrscheinlichkeit liegt) und bzw. oder Irrtumswahrscheinlichkeiten ( p-Werte) für
Hypothesen (z. B.: ”Die Mittelwerte eines Merkmals xl sind für die Klassen y = B1
und B2 unterschiedlich!”) angegeben. Konfidenzintervalle sind aussagekräftiger, weil
sie im Gegensatz zu den meisten Hypothesentests Hinweise über das Ausmaß der
Unterschiede geben. Zu den Hypothesentests gehören parametrische Tests (z. B.
t -Tests für Normalverteilungen) und nichtparametrische Tests (z. B. Rangordnungs-
tests). Bei der Auswahl der Tests ist zu berücksichtigen, ob es sich um statistisch
unabhängige oder abhängige Datentupel handelt. Ein wichtiger Fall von statistisch
abhängigen Datentupeln sind prä- und posttherapeutische Daten der gleichen Patien-
tengruppe. Für multiple Hypothesentests, die bei der Merkmalsbewertung und bei der
Struktursuche auftreten, existieren zahlreiche modifizierte Verfahren (z. B. Bonferroni-
Tests). Die Grundidee besteht in der statistischen Abschätzung, wie wahrscheinlich
ein nur zufällig positives Ergebnis beim mehrfachen Ausführen eines Tests mit ver-
schiedenen Strukturannahmen ist. Diese Verfahren verursachen aber tendenziell zu

68
3.7 Validierungstechniken

pessimistische Bewertungen, weil sie vom ungünstigsten Fall statistisch unabhängi-


ger Merkmale ausgehen. Ein weiteres Beispiel für einen statistisch motivierten Test
ist die Vapnik-Chervonensky (VC) Dimension [77, 453], die Abschätzungen über das
Generalisierungsverhalten anhand der Komplexität des verwendeten Klassifikators
vornimmt.
Bei allen nachfolgenden Validierungstechniken werden die Daten einmal oder
mehrfach in Lern- und Testdaten aufgeteilt, wobei Datentupelselektionen D22 mit
Nmod = NLern (neuer Lerndatensatz), Nmod = NTest (neuer Testdatensatz) stattfinden.
Die Entwurfsverfahren arbeiten zunächst nur mit den neuen Lerndaten. Das so er-
mittelte Modell wird dann über dem neuen Testdatensatz mit unbekannten Datentu-
peln verifiziert. Wenn die Verifizierung ähnlich gute Ergebnisse ergibt, ist das Risiko
gering, dass es sich nur um zufällige Zusammenhänge handelt. Allerdings ist auch
hier zu prüfen, ob der jeweilige Testdatensatz für zukünftige unbekannte Datentupel
charakteristisch ist. Diese Annahme wird z. B. dann verletzt, wenn bei mehrfachen
Versuchen mit einem Patienten ein Teil der Datensätze in den Lern- und der ande-
re Teil in den Testdatensatz eingeordnet wird. Daraus resultiert eine zu optimistische
Abschätzung der Auswirkungen der individuellen Unterschiede zwischen verschiede-
nen Patienten.
Häufig anzutreffen ist die einmalige Aufteilung in einen Lern- und einen Testdaten-
satz. Bei Problemen mit Struktursuche findet gelegentlich auch eine Dreiteilung der
Daten in einen Lerndatensatz für Parameter (DS 1), einen weiteren Lerndatensatz
für Strukturen (DS 2) und einen Testdatensatz (DS 3) statt. Nach Vorgabe einer Viel-
zahl potenzieller Strukturen erfolgt mit DS 1 jeweils eine Parameterschätzung. Die
Bewertung der besten Struktur und ihrer Parameter erfolgt über DS 2, der aus Sicht
von DS 1 ein Testdatensatz ist. Allerdings beutet das Verfahren bei einer Vielzahl von
Zugriffen auf DS 2 auch diesen Datensatz als Lerndatensatz aus. Deswegen muss
das finale Ergebnis noch über DS 3 getestet werden, der bis dahin weder für die
Parametersuche noch für die Strukturbewertung verwendet wurde.
Die n-fache Crossvalidierung (Synonym: Kreuzvalidierung) teilt den Lerndatensatz
zufällig in n etwa gleich große Teile mit ca. N/n Datentupeln ein. Das Data-Mining-
Verfahren benötigt n Durchläufe: Es verwendet immer n − 1 Teile als Lerndatensatz
und den anderen Teil als Testdatensatz des Durchlaufs (Bild 3.10 mit n = 5). Ei-
ne optionale Stratifizierung sorgt dafür, dass die Verteilung der Datentupel in die-
sen Teilen möglichst vergleichbar ist (z. B. ähnliche Verteilungen der Klassen Bc bei
Klassifikationsproblemen). Nach den n Durchläufen resultiert ein Testdatensatz, der
jedes Datentupel genau einmal enthält. Der Extremfall mit n = N wird als Jackknife-
Methode (engl. auch Leave-one-out) bezeichnet. Die Crossvalidierung mit n < N wird

69
3 Data Mining: Verfahrensübergreifende Begriffe

(Lern-) Datensatz mit N Datentupeln

T1 1. Durchlauf

T2 2. Durchlauf

T3 3. Durchlauf

T4 4. Durchlauf

T5
5. Durchlauf

T5 T4 T3 T2 T1
„Testdatensatz“

Bild 3.10: Zuordnung zu neuen Lern- (grau) und Testdatensätzen (weiß) am Beispiel einer
5-fachen Crossvalidierung

in der Regel mehrfach mit anderen zufälligen Einteilungen wiederholt. Das ermög-
licht zusätzlich eine Auswertung der Varianzen bei diesen Einteilungen als Maß für
die erwarteten Varianzen bei unbekannten Daten. Mit abnehmendem n tendiert die
Crossvalidierung zu einer pessimistischen Abschätzung, weil sie nur jeweils kleinere
Lerndatensätze und nicht die vollständige enthaltene Information verwendet (Bias).
Mit n → N reduziert sich der Bias, allerdings steigt auch der Rechenaufwand an, was
besonders bei aufwändigen Verfahren zu unakzeptablen Rechenzeiten führen kann.
Der Vorteil besteht in einer sehr guten Ausbeutung des vorhandenen Datenmaterials.
Die Bootstrap-Methode [127, 465] ermittelt aus dem Lerndatensatz neue
Lerndatensätze, indem sie zufällig N Datentupel mit Zurücklegen zieht. Damit entste-
hen Lerndatensätze der gleichen Größe wie der ursprüngliche Lerndatensatz, wobei
diese Lerndatensätze aber einige Datentupel mehrfach enthalten. Die entsprechen-
den Testdatensätze beinhalten die für den jeweiligen Lerndatensatz nicht gezogenen

70
3.7 Validierungstechniken

Datentupel (durchschnittlich N/e ≈ 0.368 · N Datentupel). Durch das zufällige Ziehen


kann auch diese Validierung mehrfach ausgeführt werden. Der Vorteil besteht eben-
falls in einer sehr guten Ausbeutung des vorhandenen Datenmaterials. Nachteilig ist
das Verfahren bei einer extrem kleinen Anzahl an Datentupeln, weil dann zu weni-
ge Informationen im Lerndatensatz vorliegen. In diesem Fall ist z. B. eine Jackknife-
Methode oder eine Crossvalidierung mit einem großen n zu empfehlen.
Beispiel: Die genannten Validierungsverfahren sollen an einem kleinen illustrativen Bei-
spieldatensatz mit N = 10 Datentupeln erläutert werden. Eine mögliche zufällige Aufteilung
für eine 2-fache Crossvalidierung ist beispielsweise T1: Datentupel 2, 9, 3, 5, 8 und T2: 7,
4, 6, 10, 1. Im ersten Durchlauf wird mit T1 gelernt und T2 getestet, im 2. Durchlauf mit T2
gelernt und T1 getestet. Hierbei sind auch andere Aufteilungen möglich, z. B. T1: Datentupel
2, 7, 4, 5, 8 und T2: 9, 3, 6, 10, 1. Daraus können unterschiedliche Ergebnisse entstehen.
Eine 10-fache Crossvalidierung entspricht hier einer Jackknife-Methode. Jedes Datentupel
bildet einen eigenen Datensatz (T1-T10), immer neun Datentupel werden zum Lernen und
ein Datentupel wird zum Testen verwendet. Damit ist die Aufteilung eindeutig.
Bei der Bootstrap-Methode wird z. B. über einen Datensatz mit den Datentupeln 1, 3, 4, 5,
5, 6, 8, 8, 9 gelernt. Die Datentupel 2, 7 und 10 dienen als Test. Bei einem zweiten Datensatz
werden die Datentupel 3, 3, 4, 5, 6, 7, 8, 8, 10, 10 als Lerndaten gezogen und die Datentupel
1, 2, 9 zum Testen verwendet. Dieses Ziehen wird mehrfach wiederholt. Anschließend werden
die Ergebnisse über den Testdaten der einzelnen Aufteilungen gemittelt. ¥
Oftmals werden zu pessimistische Schätzungen durch gewichtete Mittelungen der
Ergebnisse für den Lern- und Testdatensatz korrigiert (z. B. 632-Bootstrap-Methode:
Q = 0.368QLern + 0.632QTest [127]). Diese Schätzungen gelten allerdings nicht für
Verfahren, die auf einem Auswendiglernen des Lerndatensatzes beruhen und folglich
unrealistische Werte für QLern ermitteln (z. B. k-Nearest-Neighbor-Verfahren).
Aufgrund z. T. unbekannter Verteilungen, verletzter Verteilungsannahmen und der
Probleme beim für Data-Mining-Verfahren typischen Testen multipler Hypothesen
sind statistische Fehlerabschätzungen mit Verteilungsannahmen kritisch zu bewer-
ten. Bei der einmaligen Aufteilung in einen Lern- und einen Testdatensatz bleiben
die Informationen in den Testdaten ungenutzt, was im Fall geringer Datentupelzahlen
problematisch ist. Zudem sind die Testdatensätze zu klein, weshalb die aus ihnen
gewonnenen Aussagen wiederum statistisch kritisch zu bewerten sind. Deshalb ist
die Vorgehensweise einer einmaligen Aufteilung hauptsächlich bei großen Datentu-
pelzahlen sinnvoll, während bei kleineren und mittleren Datentupelzahlen Verfahren
mit einer mehrfachen Aufteilung zu bevorzugen sind. Bei der Bootstrap-Methode sind
der Rechenaufwand und die Streuung der geschätzten Fehler tendenziell geringer
als bei der Crossvalidierung [287]. Abschließende zusammenfassende Bewertun-
gen über die statistischen Eigenschaften der Crossvalidierung und der Bootstrap-

71
3 Data Mining: Verfahrensübergreifende Begriffe

Methode liegen bisher nicht vor, Diskussionen über Vor- und Nachteile finden sich
z. B. in [32, 127].
Aufgrund dieser Eigenschaften bieten sich für Data-Mining-Probleme in der Medi-
zin hauptsächlich die Crossvalidierung und die Bootstrap-Methode an. In einigen klar
definierten Problemstellungen mit bekannten Verteilungen sind aber auch statistische
Fehlerabschätzungen im Lerndatensatz mit Verteilungsannahmen sinnvoll.

72
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

4.1 Ablauf

In den vorigen Kapiteln der Arbeit wurden medizinische Problemstellungen und Data-
Mining-Verfahren zunächst isoliert behandelt. Dieses Kapitel schlägt die Brücke zwi-
schen beiden Gebieten und erläutert ein Einsatzszenario, das als Basis für die sys-
tematische Problemlösung bei neuen Anwendungen dienen soll. Dieses Szenario
spezifiziert allgemeinere Data-Mining-Szenarien aus den ursprünglichen Arbeiten
von Fayyad [133] oder den sogenannten ”Cross-Industry-Standard for Data Mining”
(CRISP-DM) [423] für die speziellen Anforderungen bei medizinischen Data-Mining-
Verfahren.
Der Schlüssel für die erfolgreiche Lösung einer medizinischen Data-Mining-
Aufgabe besteht darin, eine geeignete Formulierung für das medizinische Problem zu
finden, passende Data-Mining-Verfahren und Bewertungsmaße aus der Menge aller
möglichen Verfahren und Bewertungsmaße auszuwählen sowie diese geschickt mit-
einander zu verknüpfen. Bei allen Schritten kommt es darauf an, einen Kompromiss
zwischen einer guten Lösung im Sinne des Data-Mining-Verfahrens (z. B. geringer
Klassifikations- oder Regressionsfehler) und im Sinne des medizinischen Anwenders
(z. B. interpretierbarer Lösungsweg) anzustreben. Im Folgenden sollen einige grund-
legende Entwurfsprinzipien diskutiert werden, die sich in einer Vielzahl von Proble-
men bewährt haben.
Die Entwurfsphase einer Lösung für ein Problem geschieht selten vollkommen
schematisch, sondern ist eher ein iterativer Prozess (siehe Bild 4.1). In den Pro-
zess wird häufig interaktiv eingegriffen, indem anhand der bisherigen Ergebnisse Pro-
blemformulierungen (Abschnitt 4.2), Lerndatensätze (Abschnitt 4.3), Merkmale (Ab-
schnitt 4.4) sowie Verfahren und Bewertungsmaße (Abschnitt 4.5) modifiziert werden.
Die Bewertungsmaße basieren auf den Zwischen- und Endergebnissen der einzel-
nen Blöcke Datentupelselektion, Merkmalsextraktion, -selektion, -transformation und
Klassifikation/Regression. Andererseits verändern sie wiederum die Ergebnisse in
den Blöcken und bewirken somit eine modifizierte Ausgangsgröße.
Der Prozess bezieht zu unterschiedlichen Zeitpunkten sowohl Spezialisten für
Data-Mining-Verfahren als auch klinische Experten ein. Hierzu ist insbesondere ei-
ne Visualisierung aller Ergebnisse und Zwischenergebnisse von entscheidender Be-

73
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

Klinische Problemformulierung Entscheidungsfindung


Datenbank (klinisch) (klinisch)

Zusammenstellung Problemformulierung
Lerndatensatz (formalisiert)

XRoh,u.U. y
Bewertungsmaße Visualisierung

Datentupel- Merkmals- Merkmals- Merkmals- Klassifikation/


selektion extraktion selektion transformation Regression
Aus-
f(?) gangs-
?
größe y
Entwurf Data-Mining-Verfahren

Bild 4.1: Typische Struktur der Signalflüsse in der Entwurfsphase eines medizinischen Data-
Mining-Verfahrens (vereinfacht)

deutung, um die erhaltenen Ergebnisse überhaupt analysieren zu können und für


die klinische Entscheidungsfindung aufzubereiten (Abschnitt 4.6). Das iterative Vor-
gehen bringt die Gefahr mit sich, die Verfahren und Bewertungsmaße zu stark auf
den gegebenen Lerndatensatz zuzuschneiden. Hier ist ein geeigneter Kompromiss
zu finden.

Eine bewährte Technik besteht in der Lösung bekannter Probleme mit einem Data-
Mining-Verfahren und dem nachfolgenden Vergleich der automatisch gefundenen mit
der empirisch bekannten Lösung. Die so gefundene Lösung kann dann auf ungelöste,
aber strukturell verwandte Aufgaben übertragen werden.

Einige Zwischenergebnisse der Entwurfsphase (z. B. Merkmalsbewertungen und


-listen für Diagnosen) sind klinisch wertvoller als die eigentliche Schätzung der Aus-
gangsgröße in der Anwendungsphase, weil sie das Problemverständnis erleichtern.
Dieser Sachverhalt wird im Abschnitt 4.2 umfassender diskutiert.

Bereits in der Entwurfsphase besteht die Notwendigkeit, die Realisierbarkeit und


den Aufwand späterer Implementierungen mit zu berücksichtigen und in kritischen
Fällen auch explizit in die Bewertungsmaße mit einzubeziehen (Abschnitt 4.7). Be-
sonders hohe Anforderungen in der Anwendungsphase stellen mobile Medizingeräte,
die eine Implementierung in eingebettete Systeme (engl. embedded systems) erfor-

74
4.1 Ablauf

Entscheidungsfindung
(klinisch)

Bewertungsmaße Visualisierung

Ein-
Merkmals- Merkmals- Klassifikation/
gangs-
extraktion transformation Regression
größe Aus-
xRoh f(?) gangs-
?
größe y
Anwendung Data-Mining-Verfahren

Bild 4.2: Typische Struktur der Signalflüsse in der Anwendungsphase eines medizinischen
Data-Mining-Verfahrens (vereinfacht)

dern. Auch in der Entwurfsphase können zu lange Rechenzeiten die Akzeptanz eines
Verfahrens beeinträchtigen.
In der Anwendungsphase wird das entworfene Modell (dunkel hervorgehobener
Bereich mit Funktion f (·) in Bild 4.2) für unbekannte Datentupel abgearbeitet (vgl.
auch Bild 3.3). Hierbei vereinfacht sich oftmals die Merkmalsextraktion, weil jetzt nur
noch selektierte Merkmale zu berechnen sind. Zudem entfällt dadurch die Merkmals-
selektion als separater Schritt.
Die in der Entwurfsphase benötigten Bewertungsmaße sind in der Anwendungs-
phase meist nur noch zur Visualisierung notwendig, weil Struktur und Parameter der
Verfahren nach dem Entwurf in der Regel feststehen. Sie stellen somit, wie die Vi-
sualisierung selbst, nur noch ergänzende Informationen bereit, beeinflussen aber
das Ergebnis nicht mehr. Adaptive Verfahren, bei denen die Bewertungsmaße auch
in der Anwendungsphase die Parameter und Strukturen von Merkmalsextraktion,
-transformation und Klassifikation bzw. Regression beeinflussen, haben sich bislang
nicht durchgesetzt. Sie weisen zwar ein hohes Potenzial für eine Verbesserung der
Lösung bei zeitvarianten Problemen auf, sind aber auch durch schwer beherrschbare
Risiken gekennzeichnet (z. B. Vergessen bisheriger Lösungen, Konvergenzprobleme,
schwer prognostizierbares Verhalten).
Anhand der visualisierten Ergebnisse erfolgt dann in der Anwendungsphase die
klinische Entscheidungsfindung (z. B. Diagnose und Therapieplanung). Die Entschei-
dung trifft in der überwiegenden Zahl der Fälle ein Mediziner. Nur auf der Basis der
umfangreichen Erfahrungen des Mediziners ist eine sichere Entscheidung unter Ein-

75
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

beziehung des kompletten Expertenwissens möglich. Zudem können nur so alle In-
formationen einbezogen werden, die nicht als explizite Daten vorliegen (z. B. visueller
Eindruck des Patienten). In einigen Medizingeräten (z. B. Prothesen) ist aber auch die
Entscheidungsfindung automatisiert, wobei hier im Vorfeld eine umfassende Evaluie-
rung durch Mediziner erforderlich ist. Die Verantwortung für alle Entscheidungen liegt
somit stets beim Mediziner.
Für das beschriebene Einsatzszenario findet sich nicht bei allen in der Literatur
beschriebenen Lösungen eine explizite Einordnung der Schritte. Oftmals ist es aber
hilfreich, das dort beschriebene Verfahren unter dem Blickwinkel dieser Schritte zu
analysieren. Eine Softwarelösung für dieses Einsatzszenario wird später in Kapitel 6
vorgestellt, konkrete Anwendungsbeispiele diskutiert Kapitel 7.

4.2 Problemformulierungen

Das Aufstellen einer geeigneten formalisierten Problemformulierung ist die am häu-


figsten unterschätzte Teilaufgabe bei der Lösung eines medizinischen Data-Mining-
Problems. Zwar ist bei Modellbildungsproblemen im Sinne von Abschnitt 2.2.3 die
Problemformulierung in der Regel gegeben, die Situation bei der Vorbereitung klini-
scher Studien ist allerdings weniger klar. Hier präsentieren Mediziner eine Vielzahl
von Wünschen, was sie gern an Kenntnissen über die vorliegenden Patientengrup-
pen an Hand der vorliegenden Daten erwerben würden, allerdings sind die Wünsche
nur selten präzise und anhand des Lerndatensatzes meist nur teilweise valide zu
beantworten.
Eine Variante zum Umgang mit dieser Situation ist die Bereitstellung eines Bau-
kastensystems möglicher formalisierter Problemformulierungen, die entweder bereits
zu konkreten Problemen passen oder zumindest als Ausgangsbasis für einen nach-
folgenden Anpassungsprozess dienen können: Aus Sicht des Entwurfs von Data-
Mining-Verfahren lassen sich wichtige Probleme in
• Diagnose
• Diagnose für bekannte Patientengruppen (Diagnose Patient – Proband oder
Differentialdiagnose),
• Suche nach unbekannten Patientengruppen,
• quantitative Patientenbewertung,
• Therapie
• Therapieprognose,
• Therapieevaluierung,
• Therapieauswahl,

76
4.2 Problemformulierungen

Problemstellung

Diagnose Therapie Technische Aspekte

Therapie- Therapie- Therapie-


prognose evaluierung auswahl

unbekannte bekannte alternative Beurteilung Auswahl


Ausgangsgröße Ausgangsgröße Messverfahren unterschiedlicher von Steuer-
Versuchs- strategien
bedingungen
Suche nach Patient- Differential- quantitative
unbekannter Proband diagnose Bewertung
Gruppen- (2 Klassen) (my bzw.
einteilung my+1 Klassen)

Bild 4.3: Einteilung der Problemstellungen für Data-Mining-Verfahren in der Medizin und
Medizintechnik

• technische Aspekte
• Suche nach alternativen Messverfahren,
• Beurteilung unterschiedlicher Versuchsbedingungen und
• Auswahl von Steuerstrategien (für Medizingeräte)
einteilen und formalisieren (vgl. auch Abschnitt 2.2.2, Bild 4.3). Diese Unterteilung
vernachlässigt zwar eine Reihe von Spezialfällen und lässt bei einigen Problemstel-
lungen unterschiedliche Interpretationen zu, deckt aber eine Vielzahl praxisrelevanter
Fälle ab. Sie erweitert Einteilungen, die in [29, 303] vorgeschlagen wurden.
Im Folgenden werden alle Problemstellungen verbal erläutert. Eine begleitende
Darstellung findet sich in Tabelle 4.1. Diese enthält in der Spalte ”gegebene Daten
(Merkmale)” Rohmerkmale XRoh , die prätherapeutisch zum Zeitpunkt tPRE , postthe-
rapeutisch zum Zeitpunkt tPOST oder zu einem beliebigen Zeitpunkt t von Patienten
(PAT) oder Probanden (PROB) erfasst wurden. Die Therapieentscheidung fällt zum
Zeitpunkt tT HER und wird durch skalare oder vektorielle Merkmale xT her (tT HER ) ko-
diert. Dabei gilt tPRE < tT HER < tPOST .
Die Zeitpunkte sind eine Idealisierung, weil in der Praxis die Zeitpunkte tl verschie-
dener Messungen xl (tl ) zwar z. T. erheblich differieren, aber zu einem einheitlichen
Zeitpunkt wie z. B. tPRE zusammengefasst werden. Die Idealisierung verfälscht das
Ergebnis, wenn sich die wirklichen Werte des Patienten innerhalb dieses Zeitraums
wesentlich verändern.

77
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

Problem gegebene gegebene Data-Mining-


Merkmale Ausgangsgröße Problem
Diagnose x(tPRE ) y(tPRE ) = BPAT D23 , D2 , D3
Patient – Proband x(tPRE ) y(tPRE ) = BPROB u. U. auch D24 , D1
Differential- x(tPRE ) y(tPRE ) = BPAT,1 D23 , D2 , D3
diagnose ... u. U. auch D24 , D1
x(tPRE ) y(tPRE ) = BPAT,my
optional x(tPRE ) y(tPRE ) = BPROB
Suche nach x(t) - D23 , D7 , D8
unbekannten u. U. auch D24
Patientengruppen
quantitative x(tPRE ) yBewertung (tPRE ) D1 , D23 , D24
Patientenbewertung x(tPOST ) yBewertung (tPOST ) u. U. auch D2 , D3
Therapieprognose x(tPRE ), xT her (tT HER ) y(tPOST ) = BEr f olg D23 , D2 , D3
(Klassifikation) x(tPRE ), xT her (tT HER ) y(tPOST ) = BMisser f olg u. U. auch D24
Therapieprognose x(tPRE ), xT her (tT HER ) y(tPOST ) D1 , D23 , D24
(Regression)
Therapie- x(tPRE ) y(tPRE ) = BPRE D23
evaluierung I x(tPOST ) y(tPOST ) = BPOST u. U. auch D24
Therapie- x(tPOST ) − x(tPRE ) y(tT HER ) = BT HER,1 D23
evaluierung II x(tPOST ) − x(tPRE ) y(tT HER ) = BKontroll u. U. auch D24
Therapieauswahl x(tPRE ) y(tT HER ) = BT HER,1 D23 , D2 , D3
... u. U. auch D24
x(tPRE ) y(tT HER ) = BT HER,my
Suche nach x(tPRE ) yGoldstandard (tPRE ) D1 , D23 , D24
alternativen optional x(tPOST ) yGoldstandard (tPOST ) u. U. auch D2 , D3
Messverfahren
Beurteilung unter- x(t) y(t) = BVersuch,1 D23 , D2 , D3
schiedlicher Ver- ... ... u. U. auch D24 , D1
suchsbedingungen x(t) y(t) = BVersuch,my
Auswahl von x(t) y(t) = BStrategie,1 D23 , D2 , D3
Steuerstrategien ... ... u. U. auch D24 , D1
x(t) y(t) = BStrategie,my

Tabelle 4.1: Formalisierung ausgewählter klinischer Problemstellungen für den Entwurf von
Data-Mining-Verfahren, Abkürzungen für Datensätze: PAT – Patienten, PROB –
gesunde Probanden, PRE – prätherapeutisch, POST – posttherapeutisch,
THER – Therapie; Abkürzungen für Problemstellungen: Regression D1 , Klassifi-
kation D2 , Clustering D7 , Fuzzy-Klassifikation D3 , Fuzzy-Clustering D8 , univaria-
te D23 oder multivariate D24 Merkmalsbewertung

78
4.2 Problemformulierungen

Die Spalte ”gegebene Ausgangsgröße” enthält diesen Merkmalen zugeordnete ge-


gebene Ausgangsgrößen y, während die Spalte ”Data-Mining-Problem” Hinweise auf
die gesuchten Ausgangsgrößen ŷ und Bewertungen enthält, die aus den genann-
ten Problemstellungen resultieren. Die Datentupel setzten sich dann aus den ent-
sprechenden Paaren für Merkmale und Ausgangsgrößen zusammen. Probleme mit
vektoriellen Ausgangsgrößen (z. B. Kombinationen von Therapien) werden meist in
mehrere Probleme mit skalaren Ausgangsgrößen zerlegt. In der Entwurfsphase des
Data-Mining-Verfahrens sind für jede klinische Problemstellung passende Lerndaten-
sätze gemäß Abschnitt 3.2 zusammenzustellen. Die so gefundene Lösung kann dann
auf unbekannte Datentupel angewendet werden.
Die Diagnose für bekannte Patientengruppen ist die klassische Problemstellung für
entscheidungsunterstützende Systeme (engl. DSS – decision support systems) in der
Medizin. Die Aufgabe bei der Anwendung besteht darin, ein unbekanntes Datentu-
pel richtig zu klassifizieren – entweder durch eine scharfe oder unscharfe (graduelle)
Zuordnung. Dabei geht es entweder um eine Unterscheidung Patient bzw. (gesun-
der) Proband (2-Klassen-Problem) oder um eine Differentialdiagnose zur Unterschei-
dung mehrerer Krankheitsbilder bzw. Patientengruppen mit den Kurzbezeichnungen
BPAT,1 , . . . , BPAT,my (Problem mit my Klassen oder mit my + 1 Klassen bei einer zu-
sätzlichen Probandengruppe). Die letztgenannten Problemstellungen stellen deutlich
höhere Ansprüche, insbesondere was die Zusammenstellung eines repräsentativen
und aussagekräftigen Lerndatensatzes angeht.
Gerade bei einer 2-Klassen-Diagnose Patient – Proband interessieren sich Ärzte
aber nur bedingt für den Einsatz von Klassifikatoren in entscheidungsunterstützen-
den Systemen, weil eine binäre Entscheidung Patient – (gesunder) Proband gerade
bei schwereren Krankheitsbildern als trivial erscheint. Hingegen gibt ein interpretier-
barer Lösungsweg relevante Informationen – hauptsächlich in Form von univariaten
Merkmalsbewertungen oder quantitativen Schwellwerten zum Treffen von Entschei-
dungen bei Klassifikationsproblemen. Solche Bewertungen tragen zu einer quantita-
tiven Beschreibung einer Patientengruppe bei und können auf bisher nicht entdeckte
Zusammenhänge hinweisen.
Die Darstellung der Diagnose als Klassifikationsproblem ohne einen expliziten Zeit-
bezug erfasst allerdings nicht alle Aspekte. Hier werden u. U. kausale Aspekte (Ur-
sache → Wirkung), zeitliche Aspekte beim Entstehen eines Krankheitsbildes, auf-
tretende Abweichungen zu allen vorliegenden Klassen (z. B. abweichende Sympto-
me bei einzelnen Patienten, die auf eine nicht modellierte zusätzliche Klasse hin-
weisen) vernachlässigt. Zusammenfassende Diskussionen zu diesen Themen geben
z. B. [29, 265].

79
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

Diagnostische Regressionsprobleme sind in der Regel mit dem Problem einer


quantitativen Patientenbewertung äquivalent, wenn ein allgemeiner Qualitätsparame-
ter für die Einschätzung des Patienten wie ein skalares Ausmaß einer Abweichung
zu gesunden Probanden gesucht ist.
Ein Sonderfall liegt vor, wenn die zu prognostizierende Diagnose in der Zukunft
liegt (z. B. Differentialdiagnosen bei der Regression zur Schätzung von Überlebens-
raten, bei denen die Auswirkungen unterschiedlicher Merkmale analysiert werden).
Auch hier entstammen die auszuwertenden Merkmale einem zum Zeitpunkt tPRE er-
hobenen Datensatz, die Ausgangsgröße liegt allerdings in der Zukunft. Gemäß der
hier vorgeschlagenen Einteilung entspricht diese Problemstellung einer Therapiepro-
gnose. Die dort untersuchte Therapie kann durchaus auch die Entscheidung ”keine
Behandlung” umfassen und so den zu erwartenden zukünftigen Zustand ohne eine
Therapie beschreiben.
Die Suche nach unbekannten Patientengruppen geht von der Vermutung aus, dass
das Patientenkollektiv im Datensatz in seiner Struktur heterogen ist. Allerdings ist
weder die Einteilung noch die Zuordnung der Datentupel zur Einteilung bekannt.
Die Entwurfsphase bestimmt die Anzahl der heterogenen Gruppen und versucht die
Gruppen (oftmals als Cluster bezeichnet) interpretierbar zu beschreiben. Dazu eig-
nen sich hauptsächlich Verfahren für unüberwachtes Lernen wie scharfe oder un-
scharfe (Fuzzy-) Clusterverfahren. Die klinische Bedeutung besteht darin, grundle-
gend unterschiedliche pathologische Mechanismen nicht zu vermischen und somit
in ihrer Aussage zu verfälschen, sondern gezielt zu extrahieren und zu beschreiben.
Bei der Zuordnung unbekannter Datentupel zu einem solchen Cluster in der Anwen-
dungsphase handelt es sich strenggenommen bereits wieder um ein Klassifikations-
problem (in der Regel zur Diagnose), weil die Klasseneinteilung dann bekannt ist.
Die Zugehörigkeit zu Clustern kann als neues Merkmal in die Analyse einbezogen
werden, somit kann Clustering hier auch als eine spezielle Technik zur Merkmals-
transformation aufgefasst werden.
Eine wichtige Motivation der quantitativen Patientenbewertung besteht darin, aus
einem komplexen Gesamtbild mit einer Vielzahl von Einflussgrößen zu einer quan-
titativen Gesamteinschätzung zu kommen. Eine solche Bewertung ist zur klinischen
Beurteilung der Wirksamkeit einer Therapie (Vergleich prä- und posttherapeutischer
Daten im Rahmen einer Therapieprognose), beim Vergleich verschiedener Thera-
pieoptionen und als Validierungsinstrument gegenüber Krankenversicherungen von
Interesse. Die Gesamteinschätzung vernachlässigt zwar einige wichtige patientenin-
dividuelle Aussagen, zwingt aber insbesondere zu einer klaren quantitativen Formu-
lierung von Therapiezielen. Dabei sollten möglichst auch Daten gesunder Proban-

80
4.2 Problemformulierungen

den mit einbezogen werden, um die Plausibilität des gefundenen Maßes zu prüfen.
Die quantitative Patientenbewertung kann als Sonderfall der Suche nach alternativen
Messverfahren interpretiert werden, wenn eine subjektive Bewertung durch Kliniker
vorliegt und aus anderen Merkmalen nachzubilden ist.

Bei einer Therapieprognose sollen aus dem prätherapeutischen Zustand von Pa-
tienten Hinweise auf den zu erwartenden posttherapeutischen Zustand bei Anwen-
dung einheitlicher oder verschiedener Therapien gezogen werden. Im einfachsten
Fall ist das lediglich eine Aussage, ob eine Therapie bei einem Patienten voraussicht-
lich erfolgreich sein wird oder nicht. Dazu ist durch Auswertung der posttherapeuti-
schen Daten und deren Vergleich mit den prätherapeutischen Daten zunächst ein
Erfolgskriterium abzuleiten, entweder durch eine subjektive Beurteilung oder durch
eine quantitative Patientenbewertung. Die Problemstellung kann bei einer Klassifika-
tion im Sinne einer Therapieauswahl oder im Sinne einer gezielten Suche nach mög-
lichen Ursachen von Misserfolgen betrachtet werden. Eine Erweiterung in Richtung
von Mehrklassenproblemen (unterschiedliche Arten von Teilerfolgen oder Misserfol-
gen) ist möglich und in einigen Fällen sinnvoll, aber selten anzutreffen. Eine wichtige
spezielle Art der Regressionsvariante bei Therapieprognosen sind Schätzungen von
Überlebensraten, bei denen die Auswirkungen unterschiedlicher Therapien analysiert
werden.

Die Therapieevaluierung sucht gezielt nach Merkmalen oder Merkmalskombi-


nationen mit signifikanten Veränderungen zwischen dem prä- und posttherapeuti-
schen Zustand von Patientengruppen. Die Formulierung als Klassifikationsproblem
BPRE − BPOST in der Variante I ist ausschließlich als ein Hilfsmittel anzusehen, da der
Kliniker auch bei nicht im Lerndatensatz enthaltenen Datentupeln die Zuordnung a
priori kennt. Veränderungen umfassen hier sowohl positive als auch negative (z. B.
Nebenwirkungen) Auswirkungen. Da diese Art der Therapieevaluierung nur Aussa-
gen über das gesamte Patientenkollektiv im Lerndatensatz gibt, bietet sie keinen
Ersatz für die gezielte Analyse unerwünschter Nebenwirkungen einzelner Patienten
oder kleiner Subgruppen zur Analyse seltener Ereignisse. Solche Analysen sind –
wenn überhaupt – als Therapieprognoseproblem mit mehreren Misserfolgsklassen
zu formulieren, wenn eine hinreichend große Anzahl von Datentupeln bereitsteht.
Außerdem ist die Formulierung nicht in der Lage, von der untersuchten Therapie
unabhängige Änderungen zu unterdrücken (z. B. Alterungseffekte, Symptome beim
Fortschreiten einer Erkrankung, Auswirkungen paralleler Therapien). Häufiger zu fin-
den ist die Variante II für kontrollierte Studien mit einer Kontrollgruppe, für die eine
andere oder überhaupt keine Therapie durchgeführt wird. Der Vergleich sucht si-
gnifikante Unterschiede für zeitliche Änderungen zwischen einem Patientenkollektiv

81
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

mit der untersuchten Therapie und der Kontrollgruppe. Auch für die Kontrollgruppe
ist dazu eine ”posttherapeutische” Untersuchung erforderlich, wobei die Zeitdifferenz
tPOST − tPRE für beide Gruppen etwa gleich sein muss. Damit besteht im Gegensatz
zur obengenannten Formulierung der ersten Variante die Chance, therapieunabhän-
gige Änderungen zumindest zu reduzieren.
Bei der Therapieauswahl sind anhand gegebener Patientendaten individuelle The-
rapieempfehlungen zu geben. Dazu steht ein Lerndatensatz mit Patienten zur Verfü-
gung, der neben verschiedenen Merkmalen auch Therapieempfehlungen eines er-
fahrenen Arztes beinhaltet. Das Ziel bei der Anwendung besteht darin, für einen
unbekannten Patienten nur aus den prätherapeutisch gegebenen Merkmalen eine
Therapie vorzuschlagen. Ein genauer Blick zeigt, dass das Problem strukturell einer
Differentialdiagnose entspricht – nur dass hier die gegebenen Patientengruppen nicht
durch eine diagnostische, sondern durch eine therapeutische Klassifikation charak-
terisiert sind. Bei solchen Aufgaben ist sorgsam darauf zu achten, dass die Merkma-
le im Lerndatensatz keine versteckten Informationen über die Therapieempfehlung
des erfahrenen Arztes enthalten. Beispiele für solche versteckten Informationen sind
bestimmte Merkmale, die nur bei Verdacht auf eine bestimmte Diagnose erhoben
werden (z. B. bestimmte Bluttests), oder patientenindividuelle Einstellungen bei der
Erhebung von Merkmalen (z. B. Geschwindigkeiten am Fahrradergometer, Gewicht-
sentlastungen bei Laufbandmessungen für inkomplett Querschnittgelähmte, vgl. Ab-
schnitt 7.2.2). Solche Merkmale lassen sich ohne eine expertenbasierte Festlegung
in der Anwendungsphase nicht reproduzieren.
Die Suche nach alternativen Messverfahren strebt an, ein oder mehrere Merkma-
le (der bisherige ”Goldstandard” als das bisher beste Beurteilungskriterium) durch
andere Merkmale zu substituieren. Wesentliche Motivationen sind
• die Ablösung patientenbelastender Messungen (z. B. wegen einer Strahlenexposi-
tion, einer schmerzhaften oder langwierigen Untersuchung) durch patientenscho-
nendere Verfahren,
• die Ablösung subjektiver Merkmale durch objektiv messbare bzw. berechenbare
Merkmale oder
• die Ablösung teurer Messungen gegen kostengünstigere Messungen.
In allen Fällen ist zu zeigen, dass das bisherige Merkmal aus anderen rekonstru-
ierbar ist. Die Problemstellung ist in der Regel ein Regressionsproblem, wobei auch
die Bewertung infrage kommender Merkmale selbst von Interesse ist. Vergleichbare
Ergebnisse liefert u. U. auch eine Formulierung als Diagnose, wenn dort eine ent-
sprechende Merkmalsbewertung alternative Messverfahren gegenüber dem Gold-
standard bevorzugt. Der Ansatz ist aber nicht unbedingt in der Lage, den bisherigen

82
4.2 Problemformulierungen

Goldstandard auf anderem Wege zu rekonstruieren, sondern sucht nur andere Lö-
sungswege.
Die Beurteilung unterschiedlicher Versuchsbedingungen setzt sich zum Ziel, die
Auswirkungen unvermeidbarer Einflussgrößen auf Merkmale und so mittelbar auf
Ausgangsgrößen wie Diagnoseergebnisse abzuschätzen. Somit sollen Kokorrelatio-
nen und ähnliche Effekte analysiert werden. Beispiele sind patientenindividuelle Ein-
stellungen bei der Erhebung von Merkmalen, aber auch Kenngrößen von Patienten
wie Alter, Größe usw. Mit einer solchen Technik kann nach unerwarteten Zusammen-
hängen zwischen Merkmalen gesucht werden, die u. U. auch Hinweise auf poten-
zielle Fehlerquellen, Confounding und Inkonsistenzen im Datensatz (z. B. markante
Korrelationen von zeitbehafteten Größen wie dem Einlieferungsdatum in die Klinik zu
anderen Merkmalen) geben.
Probleme zur Auswahl von Steuerstrategien wirken nicht mittelbar über einen Kli-
niker, sondern unmittelbar über ein medizintechnisches Gerät auf den Patienten. Ty-
pische Anwendungsfelder sind Geräte in der Intensivmedizin und Prothesen (z. B.
Griffartenumschaltung siehe Abschnitt 7.3). Strukturell geschieht das Gleiche wie bei
einer Diagnose – in der Anwendungsphase findet anhand charakteristischer Merk-
male eine Situationseinschätzung in Form einer Klassifikation oder Regression statt,
mit der eine Steuerstrategie verbunden ist. Diese Steuerstrategie kann entweder ei-
ne wertediskrete Klasse (z. B. eine Parameterumschaltung für einen adaptiven Reg-
ler oder eine geschaltete Transition in einem Zustandsautomaten) oder eine reelle
Ausgangsgröße sein. Allerdings sind hier intensivere Risikoanalysen als bei den bis-
her diskutierten Diagnoseproblemen erforderlich, weil ein Eingreifen des Klinikers zur
Korrektur einer falschen Auswahl zumindest erschwert ist.
Aus systematischer Sicht ist dabei interessant, dass sich viele unterschiedliche
Problemstellungen als Datentupelselektionen D22 und Auswahl einer Ausgangsgrö-
ße aus mehreren Ausgangsgrößen darstellen lassen. Ein Datentupel enthält zu-
nächst charakteristische Merkmale x[n] und einen zugehörigen Vektor y[n] mit sy Aus-
gangsgrößen (vgl. Bild 3.1). Beispiele für die Ausgangsgrößen sind die Patienten-ID,
die Patientengruppe, der Untersuchungszeitpunkt (prä- oder posttherapeutisch), evtl.
charakteristische Versuchsbedingungen, die Therapieauswahl eines erfahrenen Arz-
tes und die Bewertung des posttherapeutischen Therapieerfolges. Nicht vorhande-
ne Werte sind geeignet zu ergänzen (z. B. Therapieauswahl ”entfällt” bei gesunden
Probanden). Je nach Problemstellungen und Werten der Ausgangsgröße wird das
Datentupel entweder einbezogen oder ausgeblendet. Zudem wird genau eine Aus-
gangsgröße aktiviert, die der Problemstellung entspricht (z. B. Patientengruppe bei
Diagnose, siehe Beispiel in Abschnitt 6.2.3). Auch hier ist sorgfältig zu beachten, wel-

83
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

che Konsequenzen die jeweilige Einstellung nach sich zieht. Wenn z. B. bei der Dia-
gnose posttherapeutische Datentupel eines vollständig geheilten Patienten mit der
Klasse BPAT mit einbezogen werden, verfälscht das die Ergebnisse der Klasse BPAT
in Richtung der Probandengruppe. Korrekt ist hier das Weglassen des Datentupels.
Bei einem nicht vollständig geheilten Patienten ist die Einstufung als BPAT allerdings
vertretbar (entsprechend dem Grundsatz einiger behandelnder Ärzte: ”nach der The-
rapie ist vor der Therapie...”). Diese Diskussionen zeigen, dass solche Einteilungen
keineswegs immer offensichtlich sind.
Alle genannten Problemformulierungen untersuchen primär Patientengruppen.
Problemstellungen, die sich auf die Beurteilung eines einzelnen Patienten beziehen,
können aus Sicht der Data-Mining-Verfahren nur in der Anwendungsphase bearbeitet
werden. Neben der Anwendung der verschiedenen entworfenen Klassifikatoren oder
Regressoren spielen hier Distanzmaße eine besondere Rolle, um atypische Werte
eines Patienten in Bezug auf eine komplette Patientengruppe zu bewerten. Auch hier
ist nicht nur die reine Zuordnung, sondern auch die Begründung der Zuordnung wich-
tig.

4.3 Lerndatensätze und Datenvorverarbeitung

Die wichtigste Frage nach der Problemformulierung lautet, ob der gegebene Lernda-
tensatz (Synonym: Trainingsdatensatz) die zur Lösung des Problems notwendigen In-
formationen strukturell überhaupt enthalten kann. Data-Mining-Verfahren weisen ein
großes Risiko von irreführenden Ergebnissen auf, wenn wesentliche Informationen im
Lerndatensatz fehlen oder die Realität nur mit erheblichen Verzerrungen widerspie-
geln. Das liegt darin begründet, dass fast alle statistisch motivierten Lernverfahren
den Lerndatensatz als eine hinreichend große Stichprobe aus einer für das Problem
repräsentativen und zeitlich unveränderlichen Verteilung betrachten.
Zudem sind alle zu untersuchenden Fälle der Problemstellung (siehe auch Tabel-
le 4.1) mit einer hinreichenden Anzahl von Datentupeln abzudecken, um die Größe
der Stichprobe abzusichern. Die oft gestellte Frage, wieviele Datentupel erforderlich
sind, ist nicht pauschal zu beantworten. Die Anzahl wird durch die gesuchten unbe-
kannten deterministischen und statistischen Eigenschaften (z. B. ”Nutzsignale” wie
Unterschiede zwischen Gruppen, ”Störsignale” wie Varianzen innerhalb von Grup-
pen, die Heterogenität von Gruppen, die Anzahl der Merkmale und der Grad ihrer ge-
genseitigen Zusammenhänge, die erforderliche Genauigkeit der Aussagen, das Aus-
maß zusätzlicher unbekannter Einflussgrößen usw.) bestimmt. Damit schließt sich
leider ein Teufelskreis: Um Rückschlüsse auf den notwendigen Lerndatensatz zie-

84
4.3 Lerndatensätze und Datenvorverarbeitung

hen zu können, muss das Problem bereits gelöst sein. Ohne Lerndatensatz ist es
aber nicht lösbar. In vielen Anwendungen sind 10 bis 50 Datentupel einer Gruppe
eine sinnvolle Mindestanzahl, die aber anhand verschiedener Validierungsverfahren
zu überprüfen ist. Mehr Datentupel sind in der Regel auch nicht verfügbar, um den
Aufwand der klinischen Studie zu begrenzen.
Bislang erfolgt die Zusammenstellung des Lerndatensatzes hauptsächlich über
manuell generierte Abfragen an die klinische Datenbank oder gar durch das Sich-
ten von Patientenkarteien. Hier ist mittelfristig ein Effizienzgewinn durch eine Auto-
matisierung zu erwarten, wobei die Abfragen direkt aus den Einschluss- und Aus-
schlusskriterien der geplanten Studie generiert werden. Erste Ansätze dazu zeigt
beispielsweise [135].
Viele medizinische Datensätze sind durch fehlende Werte (genauer: fehlende
Merkmale bei einigen Datentupeln) gekennzeichnet. Typische Ursachen für fehlen-
de Werte sind erkannte Messfehler, Übertragungsfehler beim Eintrag in Datenban-
ken oder zufällige Unterschiede bei der Festlegung notwendiger Messungen durch
verschiedene Mediziner.
In einigen Fällen treten fehlende Werte in einem Datentupel aber auch systema-
tisch auf. Beispiele hierfür sind die fehlende klinische Notwendigkeit einer Messung
aufgrund der Arbeitshypothese des Untersuchers, zeitliche Veränderungen (z. B. An-
schaffung neuer Messgeräte während der Entstehung eines Lerndatensatzes), nicht
abgeschlossene Studien (z. B. bei der Bestimmung der Lebenserwartung für am Stu-
dienende lebende Patienten) oder Entscheidungen eines Patienten (z. B. Abbruch ei-
ner Behandlung wegen Erfolgs oder gravierenden Misserfolges). Somit kann die Tat-
sache eines fehlenden Wertes auch wertvolle Informationen enthalten und ist durch
einen speziellen Wert (z. B. eine zusätzliche Klasse) zu kennzeichnen.
Beispiel: Ein Datensatz enthält 50 Datentupel und 10 Merkmale. Im 2. Datentupel fehlen
Werte des 1. und 7. Merkmals, die Werte des 10. Merkmals sind nur in den Datentupeln 1 bis
10 vorhanden. ¥
Da viele Verfahren damit nicht umgehen können, müssen fehlende Werte entspre-
chend behandelt werden. Dazu bieten sich während der Entwurfsphase verschiedene
Strategien an:
• Löschen der betroffenen Datentupel im Lerndatensatz (Datentupelselektion D22 )
(Beispiel: Löschen der Datentupel 2 und 11-50, Ergebnis: Datensatz mit 9 Daten-
tupeln und 10 Merkmalen),
• Löschen der betroffenen Merkmale im Lerndatensatz (Merkmalsselektion D18 )
(Beispiel: Löschen der Merkmale 1, 7 und 10, Ergebnis: Datensatz mit 50 Da-
tentupeln und 7 Merkmalen),

85
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

• Ersetzen der fehlenden Merkmale in den jeweiligen Datentupeln mit Ersatzwer-


ten (Datentupelmodifikation D21 , z. B. Mittelwert des Merkmals für alle Datentupel,
Mittelwert des Merkmals für alle Datentupel der gleichen Klasse, entsprechender
Wert des ähnlichsten Datentupels mit einem existierenden Wert), (Beispiel: pro-
blematische Rekonstruktion insbesondere beim 10. Merkmal, Ergebnis: Datensatz
mit 50 Datentupeln und 10 Merkmalen),
• Kombinationen aus den obigen Methoden (Beispiel: Löschen des 2. Datentupels
und des 10. Merkmals, Ergebnis: Datensatz mit 49 Datentupeln und 9 Merkmalen,
damit hier die beste Lösung), bzw.
• ausschließliche Verwendung von Verfahren und Bewertungen, die unbekannte
Werte geeignet behandeln (z. B. als zusätzliche Klasse bei Merkmalen und deren
Verwendung in Regeln, als zensierte Daten: Intervall mit einem bekannten oberen
bzw. unteren Wert).
Besonders gefährlich sind fehlende Werte, wenn sie durch numerische Ersatzwerte
wie 0 oder -1 im Datensatz kodiert sind, so dass sie erst auf den zweiten Blick als
solche erkannt werden. Besser sind Werte wie ”NaN” (Not a Number), um Missver-
ständnisse zu vermeiden.
Keine Strategie kann das Risiko von Fehleinschätzungen vollständig beseitigen.
Die ersten drei Strategien gehen implizit von einem zufällig fehlenden Wert aus, der
entsprechend aus dem Datensatz zu eliminieren ist. Die vierte Strategie unterstellt
eine Bedeutung und wird u. U. ihre Entscheidungen gezielt auf fehlenden Werten
aufbauen. Hier müssen die Ergebnisse besonders intensiv geprüft werden.
In der Anwendungsphase existieren korrespondierende Strategien, wenn ein be-
nötigtes Merkmal fehlt:
• keine Aussage für das betroffene Datentupel,
• Ignorieren der Teile des Modells, in denen zumindest ein fehlendes Merkmal vor-
kommt (z. B. durch Weglassen betroffener Regeln oder Projektion einer Funktion
in eine reduzierte Dimension ohne das betroffene Merkmal oder durch Bereitstel-
lung redundanter Ersatzfunktionen),
• Ersetzen der fehlenden Merkmale mit Ersatzwerten oder
• Kennzeichnung des fehlenden Merkmals und entsprechende Weiterverarbeitung.
Die Behandlungsstrategien für Ausreißer entsprechen prinzipiell denen für fehlende
Werte, nur dass ein Ausreißer erst als solcher erkannt werden muss. Das erfolgt
durch Verteilungsannahmen für Merkmale, anhand derer extrem unwahrscheinliche
Werte in ausgewählten Datentupeln automatisch als Ausreißer gekennzeichnet wer-
den (siehe z. B. [152] für verschiedene Tests unter Normalverteilungsannahme).

86
4.3 Lerndatensätze und Datenvorverarbeitung

Eine weitere Gruppe von Datenvorverarbeitungsoperationen betrifft Merkmale, bei


denen nur eine obere oder untere Schranke für den wahren Wert bekannt ist. Mögli-
che Ursachen sind Überschreitungen des Messbereichs von Geräten und nur teilwei-
se bekannte Patientendaten (z. B. Überlebenszeit, siehe z. B. [160]). Hier existieren
spezielle Verfahren, die unter dem Begriff Zensierung zusammengefasst werden. Bei
rechts zensierten Werten ist nur eine untere, bei links zensierten Werten eine obere
Schranke für den wahren Wert gegeben. Ein typisches Beispiel ist die Bestimmung
der Überlebenszeit, wenn ein Patient am Ende der Studie noch lebt (z. B. nach 3
Jahren). Hier ist lediglich ein unterer Wert seiner Überlebenszeit ab Studienbeginn
bekannt. Die Daten sind somit rechts zensiert (mindestens 3 Jahre).
Auch gegebene Ausgangsgrößen bei Datentupeln dürfen keineswegs kritiklos als
korrekt angenommen werden. Wenn das Data-Mining-Verfahren für bestimmte Da-
tentupel zu einer anderen geschätzten Ausgangsgröße gelangt und sich die Datentu-
pel von anderen Datentupeln der gleichen Ausgangsgröße stark unterscheiden, soll-
ten auch fehlerhafte Zuordnungen der Ausgangsgröße im Lerndatensatz in Betracht
gezogen werden. Zur Beantwortung dieser Frage empfiehlt sich eine gemeinsame
detaillierte Analyse dieser Datentupel mit einem Mediziner und einem Spezialisten
für Data-Mining-Verfahren. Mögliche Ursachen sind Patienten, die eigentlich nicht
zur Studie gehören, heterogene Patientengruppen mit unterschiedlichen Wirkungs-
mechanismen oder Verwechslungen bei der Zuordnung.
Die Problematik einer für das Problem repräsentativen Stichprobe aus einer zeitlich
unveränderlichen Verteilung kann innerhalb der Data-Mining-Verfahren kaum über-
prüft werden. Wenn wesentliche Merkmale nicht nur in einzelnen Datentupeln, son-
dern im kompletten Lerndatensatz fehlen, äußert sich das häufig durch große Mo-
dellunsicherheiten wie nicht erklärbare Reststreuungen. Noch unangenehmer ist die
Situation, wenn wichtige, aber nicht erfasste Merkmale (z. B. Messbedingungen) zwar
während der Aufnahme des Lerndatensatzes ähnliche Werte annehmen, aber bei ei-
ner folgenden Anwendungsphase abweichende Werte aufweisen. Dann ist zwar die
nicht erklärbare Reststreuung im Lerndatensatz und bei Validierungstechniken wie
einer Crossvalidierung gering, allerdings treten große Fehler in der Anwendungspha-
se auf (siehe Beispiel in [364, 370]). Eine weitere mögliche Ursache für fehlerhafte
Ergebnisse ist die Verwendung von Lösungen in der Anwendungsphase für Werte-
bereiche, die nicht durch den Lerndatensatz abgedeckt waren (”Extrapolation”). Alle
genannten Abweichungen können im Extremfall zur völligen Unbrauchbarkeit der Lö-
sung führen.
Zur Behandlung solcher Zeitvarianzen bieten sich beispielsweise folgende Techni-
ken an [363, 369, 370]:

87
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

• Einsatz einer geeigneten Versuchsplanung, bei der der Lerndatensatz zu verschie-


denen Zeitpunkten aufgenommen wird (z. B. an verschiedenen Tagen), um mög-
lichst viele zeitvariante Einflüsse zu erfassen,
• Ergänzung des Lerndatensatzes um zusätzliche Datentupel, die aus der Modifi-
kation gemessener Datentupel entstehen. Diese Modifikationen beruhen auf An-
nahmen über die Art der Zeitvarianz (z. B. zufällige Streckung und Stauchung von
Zeitreihen oder Zeitreihensegmenten, Multiplizieren mit zufälligen Verstärkungs-
faktoren mit Mittelwert Eins usw.),
• Einbringen von Vorwissen über besonders robuste Merkmale in Form höherer
Merkmalspräferenzen QPF,l in (3.89).
Da außerdem bei medizinischen Data-Mining-Problemen wegen der Komplexität der
untersuchten Systeme immer mit erheblichen unbekannten Einflussgrößen zu rech-
nen ist, stoßen hier Data-Mining-Verfahren oft auf kaum überwindbare Einschränkun-
gen. Die Problematik kann nur durch eine umfassende Analyse der entstandenen Lö-
sungen und Lösungswege beherrscht werden, was wiederum die Interpretierbarkeit
der Lösungswege voraussetzt. Eine weitere wichtige Strategie ist die sorgfältige Eva-
luierung der Lösungen durch nachfolgende randomisierte und kontrollierte klinische
Studien (vgl. Abschnitt 2.2.2), in denen die Lösungen der Data-Mining-Verfahren als
Hypothesen auftreten.

4.4 Merkmalsextraktion, -selektion und -transformation

Das Ziel dieses Abschnittes besteht darin, typische Arten von extrahierten und trans-
formierten Merkmalen in medizinischen und medizintechnischen Applikationen zu
systematisieren und auf wichtige Auswahlkriterien hinzuweisen. Eine umfassende Er-
läuterung aller gebräuchlichen Merkmalsarten überschreitet den hier zur Verfügung
stehenden Rahmen.
Die Merkmalsextraktion ist insbesondere bei Zeitreihen, Bildern und Videos von
entscheidender Bedeutung, weil eine direkte Analyse der Rohdaten keine Problem-
lösung erlaubt. Viele dazu verwendete Merkmalsarten kommen sowohl bei Zeitrei-
hen als auch bei verschiedenen Bilddaten zum Einsatz. Sie können sich sowohl auf
die kompletten Rohmerkmale (komplette Zeitreihe, komplettes Bild, komplettes Vi-
deo) als auch auf speziell ausgewählte Teilbereiche beziehen. Bei Bildern sind das
Pixel (Rohdaten), Kanten (eindimensionale Strukturen), Texturen (zweidimensionale
Strukturen), Regionen (zwei- oder mehrdimensionale Strukturen mit definierter Um-
randung), Objekte (klassifizierte Regionen oder Gruppen von Regionen) und Szenen
(Objekte im zeitlichen und räumlichen Bezug), vgl. [246]. Bei Zeitreihen handelt es

88
4.4 Merkmalsextraktion, -selektion und -transformation

sich um Abtastzeitpunkte (Rohdaten), um Zeitabschnitte mit einer definierten Zeit-


dauer oder um die komplette Zeitreihe.
Bei Bildern finden sich in der Literatur unterschiedliche Einteilungen der not-
wendigen Verarbeitungsschritte. Die hier verwendeten Begriffe orientieren sich an
[166, 246, 345, 355]. Die Merkmalsextraktion besteht aus den Schritten Bildbearbei-
tung, Segmentierung und Segmentbeschreibung (Bild 4.4).
Die Bildbearbeitung (oftmals auch als Bildvorverarbeitung bezeichnet) umfasst
Maßnahmen wie Kalibrierung, Registrierung1 , Kontrasterhöhung, Korrektur von Be-
leuchtungseffekten, Rauschunterdrückung und Reduzierung von Artefakten. Diese
Maßnahmen kommen mit vergleichsweise wenig A-priori-Wissen über die zu extra-
hierende Information aus und lassen sich relativ gut standardisieren. Data-Mining-
Verfahren spielen hier eine untergeordnete Rolle. Im Ergebnis der Bildbearbeitung
entstehen bearbeitete Pixel (komplette Bilder), die sich besser für nachfolgende Ver-
arbeitungsschritte und Visualisierungen eignen.
Die Segmentierung klassifiziert einzelne Pixel bezüglich der Zugehörigkeit zu ei-
ner zusammenhängenden Region. Die Ergebnisse der Segmentierung koppeln nur
indirekt über die Segmentbeschreibung in die Bewertungsmaße zurück. In einem
wesentlich stärkeren Umfang als bei Zeitreihen stellt die automatische Erkennung
von Kanten und Segmenten bereits ein eigenständiges Ziel dar, weil oftmals interes-
sierende Regionen in einem Bild zunächst aufzufinden sind. Insbesondere bei drei-
dimensionalen Bildern oder bei Videos übersteigt eine manuelle zweidimensionale
Segmentierung pro Schicht bzw. Abtastzeitpunkt jeden vernünftigen Aufwand [125].
Oftmals reichen relativ einfache und standardisierte Verfahren aus, um die automa-
tische Segmentierung durchzuführen. Data-Mining-Verfahren ergänzen hier den Me-
thodenvorrat, ohne bereits zu dominieren.
Die Segmentbeschreibung ordnet jedem Segment beschreibende Merkmale zu.
Data-Mining-Verfahren sind hier stark am Auswerteprozess beteiligt.
Alle genannten Schritte können durch Bewertungsmaße aus dem gleichen Schritt
oder aus nachfolgenden Schritten beeinflusst werden. In der Bildbearbeitung spielen
solche Maße allerdings eine untergeordnete Rolle. Die Segmentierung stützt sich oft
auf Maße der Segmentbeschreibung oder aus nachfolgenden Verarbeitungsschrit-
ten bei der Merkmalsselektion und Klassifikation (vgl. Bild 4.1). Bewertungsmaße
ermöglichen auch halbautomatische interaktive Prozesse mit einem Benutzer, indem
er interessierende Regionen manuell markiert und die so entstandenen Klassen in
die Segmentierung rückgekoppelt werden [42, 43].
1
Translation, Rotation und Verformung eines Bildes, um es mit anderen Bildern semantisch korrekt
überlagern zu können, Übersicht siehe [270]. Wichtige Techniken dazu sind das Anbringen und
Klassifizieren von Landmarken oder das gegenseitige Zuordnen separat berechneter Bildregionen.

89
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

Bewertungen
(z.B. Klassifikation),
Bewertungsmaße
Problemformu-
lierungen usw.

Segment-
Bild- Segmen-
Rohbild beschrei- Segmentmerkmale
bearbeitung tierung
bung

Merkmals- Kanten, Regionen


extraktion Bearbeitete Pixel

Bild 4.4: Merkmalsextraktion aus Bildern in Anlehnung an [166, 246, 345] – Einbindung Be-
wertungsmaße siehe Bild 4.1

Ein ähnlicher Ablauf findet sich bei der Merkmalsextraktion aus Zeitreihen, aller-
dings mit modifizierten Schwerpunktsetzungen. Die Berechnung zusätzlicher Zeitrei-
hen dient zwar auch der Stör- und Rauschunterdrückung wie bei einer Bildbearbei-
tung, allerdings dominiert die gezielte Extraktion zusätzlicher Informationen. Die Auf-
gabe der Segmentierung ist in der Regel einfacher als bei Bildern, weil einerseits oft
die gesamte Zeitreihe von Interesse ist und andererseits bei einer Segmentierung
in i Abschnitte nur i − 1 Abtastzeitpunkte als Segmentgrenzen zu ermitteln sind. Bei
periodischen Zeitreihen (z. B. EKG, periodische Bewegungen) geht es hauptsächlich
um die Erkennung eines neuen Zyklus. Die Berechnung von Einzelmerkmalen für
einzelne Zyklen entspricht der Segmentbeschreibung.
Die Merkmalsextraktion aus Videos entspricht grundsätzlich den Algorithmen von
Bildern und Zeitreihen, ist aber aufwändiger.
Alle gegebenen oder aus Zeitreihen, Bildern und Videos extrahierten Einzelmerk-
male werden einer Merkmalsselektion unterzogen, aus der dann eine sortierte Merk-
malsliste mit geeigneten Merkmalen für die Problemstellung hervorgeht. Danach
schließt sich optional eine Merkmalstransformation an, die auf einen ähnlichen Me-
thodenapparat wie die Merkmalsextraktion zurückgreift und nur selektierte Merkma-
le einbezieht. Ein Vorteil der mehrstufigen Vorgehensweise ist ein reduzierter Re-
chenaufwand und eine bessere Interpretierbarkeit, weil nur wenige selektierte Merk-
male zu berechnen und zu analysieren sind. Bei Bildern sind diese nachfolgenden
Merkmalstransformationen selten anzutreffen, weil die entsprechenden Operationen
gleich in die Merkmalsextraktionen integriert werden.
Ein wichtiges Ziel der Merkmalsextraktion und -transformation ist die Berechnung
niederdimensionaler und informationstragender Merkmale aus hochdimensionalen

90
4.4 Merkmalsextraktion, -selektion und -transformation

Bewertungsmaße Bewertungen aus


Klassifikation,
Regression,
Problemformu-
lierungen usw.
Segmen- Berechnung
Berechnung tierung von von
Zeitreihen zusätzlicher Zeitreihen Einzel- Merkmale
Zeitreihen merkmalen

Merkmalsextraktion

Bild 4.5: Merkmalsextraktion aus Zeitreihen – Einbindung Bewertungsmaße siehe Bild 4.1

Datensätzen. Das betrifft bei Zeitreihen insbesondere den Schritt der Berechnung
von Einzelmerkmalen und bei Bildern und Videodaten die Segmentbeschreibung.
Dabei kommt es neben der enthaltenen Information in den Merkmalen auch auf de-
ren Interpretierbarkeit an. Ein weiteres Ziel ist die Hervorhebung schwer erkennba-
rer Informationen (z. B. Unterschiede im maximalen Anstieg einer Zeitreihe in einem
Zeitreihensegment) aus den Rohmerkmalen. Beide Ziele überlappen sich oft, aber
nicht immer. So gibt es dimensionserhaltende oder gar -erhöhende Transformatio-
nen, um enthaltene Informationen in nachfolgenden Verarbeitungsschritten besser
extrahieren zu können.
Eine Übersicht über ausgewählte Merkmalsarten gibt Tabelle 4.2. Hier wird in Ver-
fahren unterschieden, die aufgrund ihrer Wirkungsweise
• fast immer eine Dimensionsreduktion bewirken (”ja”),
• die bei geeigneter Verwendung (z. B. durch ein Komprimieren der Information in ei-
nigen neuen Merkmalen und durch das Weglassen weiterer erzeugter Merkmale)
eine Dimensionsreduktion unterstützen können (”möglich”) bzw.
• die die Dimension in der Regel nicht reduzieren (”nein”).
Linearkombinationen von Merkmalen werden oft zur Dimensionsreduktion einge-
setzt, dienen aber auch der Orthogonalisierung. Wichtige Techniken hierfür sind die
Hauptkomponenten- oder Diskriminanzanalyse (vgl. Abschnitt 5.2.3). Mittel-, Median-
oder Extremwerte sind insofern Sonderfälle einer Linearkombination, weil entweder
eine Gleichgewichtung stattfindet bzw. ein Wert im Datentupel herausgesucht wird
(Wichtung Eins) und alle anderen gelöscht werden (Wichtung Null). Die zeitliche oder
örtliche Lage von Minimal- oder Maximalwerten in einer Bildregion, einem Zeitreihen-
abschnitt oder einer Zeitreihe geben ebenfalls interessante Informationen. Geometri-

91
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

sche Merkmale beschreiben Bildregionen durch Volumina, Umfänge, Schwerpunkte,


Formparameter usw. Bei Zeitreihen geht es hier hauptsächlich um die Zeitdauer von
Abschnitten. Histogramme über Merkmalswerte oder Kombinationen von Merkmals-
werten spielen insbesondere bei Bildern eine wichtige Rolle (z. B. Histogramme über
Nachbarschaften von Pixelgrauwerten in einem Bild: Cooccurence-Matrix). Statische
nichtlineare Transformationen (z. B. Polynom-Ansätze, Logarithmen) beziehen sich
oftmals auf Rohmerkmale und dienen der Vereinfachung nachfolgender Schritte.

Verfahren Dimensionsreduktion
ja möglich nein
Linearkombinationen von Merkmalen x
Mittel-, Median- oder Extremwerte x
(Minimum, Maximum)
zeitliche oder örtliche Lage von Extremwerten x
geometrische Informationen x
Histogramme über Merkmalswerte oder Kombinationen x
von Merkmalswerten in Bildern oder Zeitreihen
statische nichtlineare Transformationen x
Ausgänge von linearen oder nichtlinearen x
digitalen Filtern
ARMAX-Parameter
- Zeitreihe, Zeitreihenabschnitt, Bild, Bildregion x
- rekursive Schätzung Zeitreihe x
Parameter von ein- oder mehrdimensionalen x
Transformationen in einen Bildbereich
Distanzen oder Ähnlichkeiten zu x
Vergleichs-Rohmerkmalen
beobachtbare Zustände bei bekannten Modellstruktu- x
ren
Clusterzugehörigkeiten x
Klassifikationsergebnisse x

Tabelle 4.2: Ausgewählte Verfahren zur Merkmalsextraktion und -transformation sowie deren
Eignung zur Dimensionsreduktion

Eine weitere Gruppe von Merkmalen beruht auf den Ausgängen oder ermittelten
Parametern von digitalen Filtern. Einerseits können die Ausgangsgrößen von im Vor-
feld entworfenen linearen oder nichtlinearen Filtern (z. B. frequenzselektive lineare
Filter: Hoch-, Tief-, Bandpässe, Bandsperren, Wavelet-Koeffizienten als Ausgänge
speziell strukturierter Filterbänke; Schwellwertdetektoren mit oder ohne Hysterese)

92
4.4 Merkmalsextraktion, -selektion und -transformation

als Merkmale verwendet werden. Die Dimension wird dadurch zunächst nicht redu-
ziert, weil die Dimensionen der Zeitreihe bzw. des Bildes erhalten bleiben.
Andererseits existieren Verfahren, um dominierende Signaleigenschaften von
Zeitreihen oder Bildern durch die geschätzten Parameter von speziell strukturierten
Differenzengleichungen zu beschreiben. Diese werden oftmals durch Parameter von
ARMAX-Modellen (engl. für AutoRegressive Moving Average with eXternal input, vgl.
Abschnitt 5.8.4) oder ihren Spezialfällen ausgedrückt. Sie beziehen sich entweder auf
die zusammenfassende Beschreibung eines Bildes, einer Bildregion, einer Zeitreihe,
eines Zeitreihenabschnitts oder auf die rekursiven Schätzungen zur Erfassung zeit-
lich bzw. örtlich veränderlicher Eigenschaften. Nur im erstgenannten Fall kommt es
meist zu einer Dimensionsreduktion. Der letztgenannte Fall erzeugt z. B. aus einer
Zeitreihe eine oder mehrere zusätzliche Zeitreihen, die zeitvariante Parameter von
ARMAX-Modellen enthalten.
Eng verwandt zu Ausgängen oder Parametern von digitalen Filtern sind Merkmale,
die aus eindeutigen Transformationen der Rohmerkmale in einen Bildbereich entste-
hen. Wichtige Vertreter sind die ein- oder mehrdimensionale Fourier-Transformation
in den Frequenzbereich (Zeitreihen) bzw. Ortsfrequenzbereich (Bilder) zur Erken-
nung von Amplituden, Phasenverschiebungen oder spektralen Leistungsdichten für
bestimmte Frequenzanteile, verschiedene Arten von Wavelet-Transformationen, die
Radon-Transformation [47] (mit dem Spezialfall der Hough-Transformation [47, 204]
als spezielle Approximationstechnik) oder ihre Erweiterungen zur Erkennung geome-
trischer Muster wie Linien oder Kurven. Eine optionale Dimensionsreduktion entsteht
durch das Weglassen der Teile im Bildbereich mit vernachlässigbaren Signalantei-
len oder durch eine Diskretisierung im Bildbereich. Eine Rücktransformation in den
Bereich der ursprünglichen Rohmerkmale unterdrückt dann Rauschanteile und re-
konstruiert Merkmale nach einer Kompression.
Distanzen oder Ähnlichkeiten zu Vergleichs-Rohmerkmalen kommen insbesonde-
re dann zum Einsatz, wenn aus dem unmittelbaren Vergleich eines Datentupels
zu gegebenen Rohmerkmalen eines Vergleichskollektivs (z. B. gesunde Probanden,
bereits erfasste Patienten) nützliche Informationen extrahierbar sind. Solche Ma-
ße charakterisieren z. B. einzelne Patienten und kleine Patientenkollektive. Ein Bei-
spiel gibt [281, 282] zum Auffinden vergleichbarer Aufnahmen für individuelle MRT-
Patientenbilder des Hirns in Datenbanken. Ein weiteres Beispiel sind Referenzabwei-
chungszeitreihen (siehe Abschnitt 7.2).
Beobachtbare Zustände bei bekannten Modellstrukturen eignen sich insbesondere
zur Verarbeitung von Zeitreihen. Wenn die Modellstruktur und -parameter eines Sys-
tems mit gemessenen Zeitreihen am Ein- und Ausgang des Systems bekannt sind, ist

93
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

oftmals eine Rekonstruktion nichtmessbarer Zustände mit Hilfe eines Zustandsbeob-


achters möglich. Die Beobachtbarkeit kann bei linearen Systemen formal nachgewie-
sen werden, im nichtlinearen Fall ist dieser Nachweis komplizierter. Ein Beispiel sind
beobachtete Gelenkmomente und -kräfte bei Bewegungen, die aufgrund von struk-
turell bekannten Bewegungsgleichungen, gemessenen Gelenkwinkeln und Boden-
kontaktkräften sowie anatomischen Patientenbasisdaten ermittelt werden (vgl. Ab-
schnitt 7.2). Die Zustände bilden wieder Zeitreihen, in denen interessierende Effekte
möglicherweise deutlicher zum Vorschein kommen. Die Dimension wird im Vergleich
zur Ausgangsgröße zunächst erhöht und kann nachträglich durch eine Zustandsre-
duktion wieder teilweise reduziert werden.
Bei einer Merkmalsextraktion mit Klassifikationsergebnissen (überwachtes Lernen)
oder Clusterzugehörigkeiten (unüberwachtes Lernen, vgl. Abschnitt 5.7) findet ein
mehrstufiger Prozess statt, wobei in der Merkmalsextraktion ein kompletter Ablauf
von Bild 4.1 unterlagert ist. Im einfachsten Fall handelt es sich dabei wieder um
Schwellwerte für Pixel oder Abtastzeitpunkte, die mit Hilfe einer Klassifikation oder
eines Clusterings diskretisiert werden. Allerdings können so auch Zeitreihen oder
Bildregionen auf ein oder mehrere Merkmale zurückgeführt werden. Eine umfangrei-
che Übersicht zu verschiedenen Aspekten der Merkmalsextraktion und Klassifikation
mit einem besonderen Fokus auf Künstliche Neuronale Netze für medizinische Bilder
findet sich beispielsweise in [284].
Neben den genannten Merkmalsarten existiert eine Vielzahl weiterer Varianten.
Der Sammelbegriff Texturmerkmale umfasst Merkmale für Bilder oder Videos aus den
genannten Merkmalskategorien (z. B. Cooccurence-Matrix, Parameter im Frequenz-
bereich usw.) und darauf angewendete Transformationen wie informationstheoreti-
sche Maße.
Jeder der genannten Schritte kann in unterschiedlichem Umfang automatisiert
sein. Es gibt sowohl
• rein manuelle Verfahren,
• halbautomatische Verfahren mit manuellen Veränderungen von Verfahrenspara-
metern und bzw. oder manuellen Nachkorrekturen und
• vollautomatische Verfahren.
Die genannten Extraktions- und Transformationsverfahren bilden oft vielstufige Ver-
arbeitungsketten. In nahezu allen Anwendungsbereichen liegt ein umfangreicher Er-
fahrungsschatz vor, welche Merkmalsarten sich besonders gut für die Merkmalsex-
traktion eignen. So ist beispielsweise bekannt, dass wichtige Informationen bei EEG-
Signalen im Frequenzbereich besonders gut extrahierbar sind. Bei der Auswertung
von EKG-Daten sind das wiederum Extremwerte, Zeitdauern und Kurvenformen von

94
4.5 Klassifikation und Regression

Zeitreihenabschnitten. Ähnliche Informationen existieren über realitätsnahe Formen


bei Bildsegmenten (z. B. mögliche Organgeometrie in verformbaren Objekten oder
maximale Änderungsgeschwindigkeiten für Segmente in Videos), die als strukturel-
les Wissen in die Segmentierung eingebracht werden (siehe [125] für eine Übersicht).
Oftmals wird versucht, aus Zeitreihen und Bildern mit etwas ”versteckteren” Infor-
mationen (z. B. bestimmte Frequenzen mit erhöhten Leistungsdichten) transformierte
Zeitreihen oder Bilder zu erzeugen, die Informationen nur noch in der (meist positi-
ven) Amplitude enthalten. Solche Signale werden im weiteren Verlauf der Arbeit als
Aktivitätssignale bezeichnet. In allen Anwendungsfeldern ermöglichen existierende
A-priori-Informationen eine sinnvolle Vorauswahl von Merkmalen.
Je weniger A-priori-Information vorliegt, desto wichtiger ist eine bewertungsorien-
tierte Merkmalsselektion. Bei einer solchen Vorgehensweise wird eine Vielzahl poten-
ziell nützlicher Merkmale erzeugt und einer nachfolgenden Bewertung unterzogen.
Die Merkmalsarten können aus einem großen Erfahrungsschatz von Experten und
aus einer Analyse relevanter Veröffentlichungen mit verwandten Themenstellungen
geschöpft werden. Die Bewertungsmaße sind teilweise merkmals-, verfahrens- und
anwendungsspezifisch. So existieren z. B. für die Segmentierung von verformbaren
Modellen spezielle Bewertungsmaße [280, 419].
Somit ist eine Teilautomatisierung der Merkmalsextraktion möglich, die sonst eher
den Ruf einer Kunst als eines systematischen Algorithmus genießt. Wichtige univer-
selle Bewertungsmaße wurden bereits im Abschnitt 3.5 diskutiert, speziellere verfah-
rensbezogene Maße finden sich im Kapitel 5.

4.5 Klassifikation und Regression

Eine adäquate Problemformulierung (vgl. Abschnitt 4.2) und die Bereitstellung eines
informationstragenden Merkmalssatzes sind die entscheidenden Schritte zu einer
erfolgreichen Lösung von Klassifikations- und Regressionsproblemen für medizini-
sche und medizintechnische Anwendungen. Generell ist ein Kompromiss zwischen
einem geringen Klassifikations- oder Regressionsfehler, einer hohen Interpretierbar-
keit und einem geringen Aufwand (wenige Merkmale, einfache Abbildungen, geringer
Rechenaufwand) anzustreben, der mit geeigneten Maßen zu formalisieren ist. Zur
Lösung stehen dann viele leistungsfähige Verfahren bereit, die später im Kapitel 5
umfassender diskutiert werden.
Bei der Formulierung eines Klassifikationsproblems ist besonders darauf zu ach-
ten, auf welche Merkmale sind eine Klassifikationsentscheidung bezieht. Typische
Fälle sind

95
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

• ein Vektor von Einzelmerkmalen (z. B. verschiedene Laborwerte einer Untersu-


chung, Blutdruck usw.),

• eine oder mehrere komplette Zeitreihen (z. B. eine vollständige Untersuchung mit
einem EKG oder alle aufgezeichneten Gelenkwinkel einer Bewegungsanalyse),

• ein spezielles Segment aus einer oder mehreren Zeitreihen (z. B. ein spezieller
Herzschlag oder ein einzelner Schritt aus einer Bewegungsanalyse),

• ein einzelner Abtastzeitpunkt (z. B. Beginn eines Herzschlages oder Schrittes),

• ein komplettes Bild (z. B. Anzeichen für mindestens einen Tumor in einem CT-Bild),

• ein Segment eines Bildes (z. B. spezielle Region mit Anzeichen für einen Tumor in
einem CT-Bild) sowie

• ein Pixel eines Bildes (z. B. Zugehörigkeit eines Pixels zu einem speziellen Seg-
ment mit einer semantischen Bedeutung wie Tumorgewebe – gesundes Gewebe,
unterschiedliche Organe usw.).

Probleme zur Klassifikation eines Abtastzeitpunkts oder eines Pixels üben meist eine
Hilfsfunktion im Data-Mining-Verfahren aus. Die bereits in Abschnitt 4.4 thematisierte
Segmentierung ist ein unterlagertes Klassifikationsproblem, das wiederum auf den
genannten Merkmalsarten aufbaut. Bei der Klassifikation von Zeitreihensegmenten
muss unter Umständen zunächst der Beginn des Segments (ein sogenanntes Trig-
gerereignis) durch eine Klassifikation ermittelt werden (vgl. Diskussion in [83, 84]).
Insbesondere bei klinischen Studien ist zu beachten, dass die Entdeckung neuen
Wissens in der Entwurfsphase für Klassifikatoren oder Regressionsmodelle im Vor-
dergrund steht und eher die Analyse des Lösungsweges als die Lösung selbst von
Interesse ist. Die eigentliche Anwendungsphase (z. B. automatische Klassifikation
Patient – Proband) für unbekannte Datensätze findet u. U. nur zu Validierungszwe-
cken statt und ist von untergeordneter klinischer Bedeutung. Das erworbene Wissen
wird dann indirekt in Form erworbener Erfahrungen oder über wissenschaftliche Pu-
blikationen angewendet.
Für medizintechnische Geräte steht hingegen die Anwendungsphase im Vorder-
grund, wobei besonders auf die Zuverlässigkeit der Ergebnisse und die Echtzeitfä-
higkeit der Algorithmen zu achten ist. Unter dem Aspekt der Zuverlässigkeit ist es
von entscheidender Bedeutung, dass ein Mediziner oder Medizintechniker die gene-
rierte Lösung inspizieren und modifizieren kann. Die Rolle eines automatischen Ent-
wurfsverfahrens ist lediglich die einer Einstellhilfe, die medizinische und juristische
Verantwortung bleibt hier beim Mediziner oder Medizintechniker.

96
4.6 Visualisierung

4.6 Visualisierung

Entscheidend für die Akzeptanz der Problemlösung mit einem Data-Mining-Verfahren


ist die Transparenz des Lösungsweges. Ein wichtiges Mittel dazu sind verständli-
che Darstellungen aller Zwischenergebnisse der kompletten Verarbeitungskette von
Bild 4.1. Besonders eingängig sind Grafiken, aber auch Tabellen mit ausgewählten
Ergebnissen und automatisch erzeugte Erklärungstexte sind sinnvoll. Entsprechen-
de Beispiele finden sich in den folgenden Kapiteln, hier soll nur ein kurzer Überblick
gegeben werden (siehe Tabelle 4.3).
Eine besonders gute Analyse von dimensionserhaltenden Merkmalsextraktionen
bei mehrdimensionalen Merkmalen wie Bildern und Zeitreihen ermöglicht eine Vi-
sualisierung im ursprünglichen Raum der Rohmerkmale – also in Pixeln, Voxeln und
Abtastzeitpunkten. Das kann entweder durch die Erzeugung weiterer Bilder bzw.
Zeitreihen, eine Überblendung (z. B. für eine Registrierung), eine Falschfarbendar-
stellung oder durch Markierung von Begrenzungen (z. B. für eine Region oder Kante)
erfolgen. Der Vorteil besteht darin, dem Experten einen Bezug zu den räumlichen
oder zeitlichen Bezügen der ursprünglichen Information zu geben. So ermöglicht bei-
spielsweise ein Vergleich einer gefundenen Segmentierung mit dem ursprünglichen
zweidimensionalen Bild eine Qualitätskontrolle gegenüber einem intuitiven Eindruck.
Segmentierungen in dreidimensionalen Bildern werden entweder in zweidimensiona-
len Schichten oder als Oberflächenvisualisierung mit frei wählbaren Betrachtungs-
positionen angezeigt. Eine entsprechende Übersicht über Visualisierungstechniken
und deren Einbindung in die Diagnose, Operationsplanung und in die bildgestützte
Navigation während Operationen findet sich z. B. in [382].
Einzelne Merkmale lassen sich am besten als Histogramm, Boxplot oder Tabelle
mit charakteristischen Werten (z. B. Mittel-, Median-, Extremwerte, Standardabwei-
chungen) darstellen.
Ein Boxplot ist eine Darstellung, bei der zunächst alle Werte eines Merkmals (oder
nur die innerhalb einer Klasse) aufsteigend sortiert werden. Anschließend wird ein
Rechteck in Höhe des 25%- und 75%-Wertes der sortierten Werte mit einem zu-
sätzlichen Trennstrich beim Median-Wert (50%) eingezeichnet. Der restliche Bereich
(0%-25%, 75%-100%) wird durch gestrichelte Linien mit Minimal- und Maximalwerten
als Endlinien gekennzeichnet. Als Ausreißer eingestufte Werte werden mit Sternen
markiert.
Für paarweise Zusammenhänge zwischen Merkmalen eignet sich ein Scatterplot
(Synonym: Punktwolke, engl. scatterplot), der auf der x-Achse für alle Datentupel die
Werte des ersten und auf der y-Achse die Werte eines zweiten Merkmals enthält. Zu-

97
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

Darzustellendes Darstellungsform
Objekt
mehrdimensionale wenn möglich grafisch im Format der Rohmerkmale
Merkmale (z. B. Bilder, Zeitreihen) (Bild 7.9a)
Merkmalsbewertung wenn möglich grafisch im Format der Rohmerkmale
mehrdimensionaler (z. B. Bilder, Zeitreihen), Bewertung als Amplitude (Bild 7.18) oder
Merkmale als Merkmalskarten mit Farbe bzw. Grauwert (Bild 7.19)
Merkmale 1. Histogramm (Bild 5.17),
(univariat) 2. Boxplot (Bild 5.6a),
3. Konfidenzintervall (Bild 5.2),
4. Tabelle mit charakteristischen Werten (Extrema usw.,
Tabelle 7.1)
Merkmale 1. Scatterplot (Bild 5.1),
(multivariat) 2. Bild mit Korrelationskoeffizienten (Bild 5.35a),
3. Tabelle mit betragsgrößten Korrelationskoeffizienten
(Tabelle 7.4),
4. Scatterplot nach Dimensionsreduktion (Bild 5.3a-c)
Merkmalsselektion, 1. Merkmalslisten (Tabelle mit Merkmalsbewertungen,
Merkmalsbewertung Tabelle 7.1),
(transformierte und 2. separate Boxplots (Bild 5.6a) oder Histogramme (Bild 7.7a) für
extrahierte jede Klasse bei transformierten Merkmalen, evtl. mit Mittelwerten
(Einzel-) Merkmale) und Konfidenzintervallen
Lineartransformation wenn möglich grafisch im Format der Rohmerkmale
Klassifikations- und 1. Scatterplot der besten verwendeten (u. U. transformierten)
Clusterergebnisse Merkmale mit Klasse als Farbe oder Symbol, evtl. mit Trennflä-
chen (Bild 7.8),
2. Mittelwerte grafisch im Format der Rohmerkmale (Bild 7.9e-f),
3. separate Histogramme oder Boxplots für jede Klasse
(Bild 7.7a),
4. Scatterplot mit geschätzten Klassenzugehörigkeiten
(Bild 5.6b),
5. ROC-Kurve (Bild 3.8),
6. Tabellen mit Bewertungsmaßen (Tabelle 7.5),
7. Erklärungstexte (S. 189)
Regressions- 1. Scatterplot Ausgangsgröße y gegen Schätzung ŷ (Bild 5.35b),
ergebnisse 2. Scatterplot relevantes Merkmal gegen Ausgangsgröße
(Bild 5.35c),
3. Tabellen mit Bewertungsmaßen (Tabelle 5.23)

Tabelle 4.3: Ausgewählte Visualisierungstechniken mit Verweisen auf entsprechende Bei-


spiele in den folgenden Kapiteln

98
4.6 Visualisierung

sammenhänge zwischen Merkmalen in sehr hochdimensionalen Datenräumen las-


sen sich über Bewertungsmaße wie Korrelationskoeffizienten grafisch analysieren,
wenn diese paarweise mit den Merkmalen auf der x- und y-Achse aufgetragen wer-
den. Sinnvolle Alternativen sind sortierte Tabellen mit besonders starken Zusammen-
hängen. Einen Eindruck über Zusammenhänge in hochdimensionalen Merkmalsräu-
men vermitteln auch transformierte Merkmale in einem zweidimensionalen Merk-
malsraum, die nur mit dem Ziel einer Visualisierung erzeugt werden (z. B. Hauptkom-
ponentenanalyse, Kohonen-Karte usw.). Für die Darstellung der besten Merkmale
aus einer Merkmalsselektion in Klassifikationsproblemen eignen sich sortierte Tabel-
len mit gut interpretierbaren Werten (z. B. p-Werten von Irrtumswahrscheinlichkeiten)
in Verbindung mit klassenspezifischen Histogrammen oder Boxplots. Wenn die se-
lektierten Merkmale noch Rohmerkmale sind oder zumindest eindeutige Orts- oder
Zeitbezüge aufweisen, bietet sich ebenfalls eine Darstellung als Bild oder Zeitreihe
mit einer Klassenkodierung durch Farben oder Grauwerte an. Auch Merkmalsbewer-
tungen können so in Form von Merkmalskarten visualisiert werden. Dabei wird eine
Merkmalsbewertung in einer zusätzlichen Dimension bzw. als Farb- oder Grauwert
im Raum der Rohmerkmale angezeigt [81]. Ein Beispiel für Zeitreihen sind Merk-
malskarten, die einen ANOVA-Wert über dem Raum K × sz (Anzahl Abtastzeitpunkte
mal Anzahl Zeitreihen) zeigen.
Bei der Merkmalstransformation lassen sich hingegen Beträge von Linearkombina-
tionen für transformierte Merkmale im ursprünglichen Raum der Rohmerkmale farb-
lich oder durch Grauwerte darstellen, um besonders wichtige Regionen zu markieren.
Für die Ergebnisse einer Klassifikation oder eines Clusterings bieten sich insbe-
sondere Darstellungen der Mittelwerte und bzw. oder Standardabweichungen für
Rohmerkmale separat für jede Klasse im Raum der Rohmerkmale an. Ebenso kön-
nen auf diese Art Differenzbilder und -zeitreihen zwischen verschiedenen Klassen
dargestellt werden.
Eine populäre Darstellung ist die zwei- oder dreidimensionale Visualisierung von
transformierten oder selektierten Merkmalen als Scatterplot aller Datentupel mit ei-
ner farbigen oder symbolischen Darstellung der Klasse. So ein Bild lässt zwar kaum
Rückschlüsse auf die ursprünglichen Rohmerkmale zu, visualisiert aber Ähnlichkei-
ten und Beziehungen zwischen Klassen, topologische Eigenschaften von Klassenan-
ordnungen, Abweichungen innerhalb von Klassen, mögliche Subklassenbildungen,
die Lage spezieller Datentupel zu anderen Klassen, Verdachtsfälle für Ausreißer und
Zusammenhänge zwischen Merkmalen. Solche Bilder geben oft Anregungen für an-
dersartige Merkmalsextraktionen, die Notwendigkeit unterlagerter Clusterverfahren,
zur Erkennung von Ausreißern oder zum gezielten Untersuchen einzelner Daten-

99
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

tupel. Punktwolken-Darstellungen von geschätzten Klassenwahrscheinlichkeiten er-


möglichen die Analyse der Beziehungen zwischen Klassen in höherdimensionalen
Merkmalsräumen.
Neben den erwähnten Visualisierungen existiert eine Vielzahl weiterer Verfahren,
die einer besseren Interpretation der ursprünglichen Bilder dienen, ohne dabei di-
rekte Bezüge zu Data-Mining-Verfahren aufzuweisen. Visualisierungen dieses Typs
(z. B. Oberflächenrekonstruktion für Visualisierungszwecke, Beleuchtung, Schattie-
rung, Skalierung, Zoom, Navigation durch 3D-Bilder) werden hier nicht betrachtet.

4.7 Implementierungsaspekte für Medizingeräte

Implementierungsaspekte für Medizingeräte sind in erster Linie durch Restriktionen


an die verfügbaren Rechenzeiten und Speicherkapazitäten sowie durch die mögli-
chen Implementierungsformen von Lösungen gekennzeichnet.
Deren Bedeutung hängt stark von der Problemstellung ab. Hier ist insbesondere
zwischen Implementierungsaspekten in der Entwurfs- und in der Anwendungsphase
von Data-Mining-Verfahren zu unterscheiden.
In der Entwurfsphase verursachen insbesondere solche Verfahren Probleme, die
durch eine exponentiell wachsende Komplexität bezüglich der Zahl der Merkma-
le und bzw. oder der Zahl der Datentupel gekennzeichnet sind. Solche Probleme
können durch eine Merkmalsselektion beherrscht werden. Eine Datentupelselektion
ist nur bei Datensätzen mit extrem vielen Datentupeln sinnvoll, weil dabei zu viel
wertvolle Information verloren geht. Einige Validierungstechniken (insbesondere ei-
ne mehrfache Crossvalidierung) erfordern besonders hohe Rechenzeiten. Diese Si-
tuation ist allerdings dann akzeptabel, wenn eine einzige Validierung am Ende des
Entwurfsprozesses ausreicht, was eine Verlegung in die Mittagspausen und Nacht-
stunden ermöglicht. Alternativen bieten weniger aufwändige Validierungstechniken
wie die Bootstrap-Methode.
In der Anwendungsphase ist die Echtzeitfähigkeit von besonderer Bedeutung. In
Anlehnung an die ehemalige DIN 44 3002 bezeichnet Echtzeitbetrieb den Betrieb ei-
nes Rechensystems, bei dem Programme zur Verarbeitung anfallender Daten ständig
derart betriebsbereit sind, dass die Verarbeitungsergebnisse innerhalb einer vorge-
gebenen Zeitspanne verfügbar sind. Einige Autoren (siehe z. B. [85]) unterscheiden
noch harte Echtzeitanforderungen, bei denen die Überschreitung der Zeitspanne zu
drastischen Fehlern oder zum Ausfall des Systems führt, und weiche Echtzeitanfor-
derungen, die bei Zeitüberschreitung lediglich zu einer Qualitätsminderung führen.
2
Diese Norm ist zwar inzwischen ungültig, es gibt aber keinen direkten Nachfolger.

100
4.7 Implementierungsaspekte für Medizingeräte

Mikrocontroller schränken insbesondere durch geringe Taktfrequenzen und Verar-


beitungsbreiten die zur Verfügung stehenden Rechenzeiten teilweise drastisch ein.
Auch der Speicherplatz ist meist empfindlich limitiert. Mikrocontroller spielen insbe-
sondere bei mobilen Medizingeräten (z. B. Herzschrittmacher, Prothesen, Neuropro-
thesen) eine zunehmende Rolle. Solche Geräte erfordern einen echtzeitfähigen Be-
trieb mit Abtastzeiten von einigen Millisekunden. Besonders aufwändige Merkmal-
sextraktionen (z. B. Fourier-Transformationen ohne die Möglichkeit einer FFT) sind
so kaum realisierbar. Hier sind entweder alternative Verfahren zu bevorzugen (z. B.
Bandpässe als Differenzengleichungen) oder leistungsfähigere Hardwareplattformen
wie Digitale Signalprozessoren (DSP) bereitzustellen. Mikrocontrollerbasierte Syste-
me und DSPs werden unter dem Begriff eingebettete Systeme (engl. embedded sys-
tems) zusammengefasst. Etwas mehr Zeit steht bei stationären Geräten im Online-
Betrieb zur Verfügung, wie z. B. für Überwachungsgeräte in der Intensivmedizin oder
in der geregelten Anästhesie. Hier sind für eine Entscheidungsunterstützung in der
Regel Abtastzeiten von ca. einer Sekunde akzeptabel, was bei den dort verfügbaren
Hardwareplattformen realistisch ist. Bei PC-basierten stationären Geräten im Offline-
Betrieb (z. B. zur Bildauswertung) sind Rechenzeiten und Speicheraufwand in der
Regel unkritisch.

Eine besonders problematische Situation stellen Systeme dar, bei denen sich die
Soft- und Hardwareplattform der Entwurfsphase gravierend von jener der Anwen-
dungsphase unterscheidet (z. B. PC-basierte Systeme in der Entwurfsphase und mi-
krocontrollerbasierte Systeme in der Anwendungsphase). Solche Fälle erfordern be-
sonders recheneffiziente Reimplementierungen der gefundenen Lösungen, z. B. die
Erzeugung und den Export von mikrocontrollertauglichem C-Quellcode in der Ent-
wurfsphase (siehe Beispiel in Bild 4.6). Zwar bieten einige Entwicklungsplattformen
solche Exportfunktionen an, allerdings erzeugen sie schwer interpretierbaren und
wenig implementierungseffizienten Quellcode. Bei der patientenindividuellen Anpas-
sung von Medizingeräten ist jeweils zu untersuchen, ob ein Export von Parametern
ausreichend ist oder ob Teile des individualisierten Steueralgorithmus als Quellco-
de exportiert werden müssen. Die letztgenannte Lösung ist leistungsstärker, aber
aufwändiger. In allen Fällen ist ein automatischer Export anzustreben, um die Fehler-
quote zu minimieren und einen aufwändigen manuellen Arbeitsschritt zu vermeiden.

In der Anwendungsphase ist bei vielen Anwendungen die Zertifizierung der gefun-
denen Lösung entsprechend den gesetzlichen Richtlinien (Medizinproduktegesetz,
FDA-Richtlinien usw.) sicherzustellen. Eine erfolgversprechende Strategie ist die Aus-
legung der neuen Lösung als abschaltbare Zusatzfunktion (Add-on), deren Ausfall
die Betriebsfähigkeit des (idealerweise bereits zertifizierten) Gerätes nicht gefährdet.

101
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin

PC-basierte Plattform in der Entwurfsphase Entwurf Data-


Mining-Verfahren
Patient Datenerfassung Datenbank Merkmals-
extraktion
Quellcode für Implementierung
Visuali-
Merkmals-
sierung
selektion

Anwendung Ablauf-
Data-Mining-Verfahren steuerung Merkmals-
transformation

Simulation, Quelltext- Klassifikation


Training export

Mikrocontroller-
Compiler

Mikrocontrollerbasierte
Plattform in der
Anwendungsphase

Patient
Mikrocontroller
Simulation

Medizingerät

Bild 4.6: Beispiel für eine Implementierungsstrategie zum patientenindividuellen Entwurf ei-
nes Medizingerätes mit einer PC-basierten Plattform in der Entwurfsphase und einer
mikrocontrollerbasierten Plattform in der Anwendungsphase (nach [363])

Diese Vorgehensweise ist aber nicht in jedem Fall möglich. Insbesondere mobile Me-
dizingeräte und stationäre Geräte im Online-Betrieb stellen hier hohe Sicherheitsan-
forderungen und erfordern eine Risikoanalyse. Diese hohen Anforderungen schrän-
ken bisher den Einsatz von Data-Mining-Lösungen ein, weil hier Zertifizierungsstrate-
gien (z. B. Nachweis der Fehlerfreiheit des erzeugten Codes) insbesondere für kom-
plexe Lösungen fehlen.
Die EG-Richtlinie für Medizinprodukte [3, 9] und das deutsche Medizinprodukte-
gesetz als deren Umsetzung [8] teilen Medizinprodukte (und damit auch -geräte) mit
zunehmenden Gefahrenstufen in vier Klassen I (z. B. Brillen), IIa (z. B. Hörgeräte),
IIb (z. B. Beatmungsgeräte, Infusionspumpen) und III (z. B. Implantate) ein. Wichtige
Kriterien sind dabei die Invasivität und die Dauer der Anwendung. Je nach Klasse
ergeben sich unterschiedliche Zulassungs- und Überwachungsprozeduren.

102
5 Data Mining: Spezielle Verfahren

5.1 Übersicht

Das Ziel dieses Kapitels besteht darin, spezielle Data-Mining-Verfahren anhand ihrer
Vorgehensweisen, Entwurfsverfahren und Einsatzgebiete vorzustellen und dabei auf
wichtige Vor- und Nachteile einzugehen. Die vorgestellten Verfahren umfassen
• statistische Verfahren (Abschnitt 5.2),
• Support-Vektor-Maschinen (Abschnitt 5.3),
• Entscheidungsbäume als typische Vertreter von Verfahren des maschinellen Ler-
nens (Abschnitt 5.4),
• Fuzzy-Systeme (Abschnitt 5.5),
• Künstliche Neuronale Netze (Abschnitt 5.6),
• Clusterverfahren (Abschnitt 5.7) und
• Regressionsverfahren (Abschnitt 5.8).
Um die Vergleichbarkeit zu erhöhen, werden alle nachfolgenden Verfahren anhand
eines einfachen künstlich erzeugten illustrativen Datensatzes erläutert. Dieser Da-
tensatz wurde so entworfen, dass er in möglichst übersichtlicher Form viele typische
Eigenschaften unterschiedlicher klinischer Datensätze enthält, die in der Praxis zu
erwarten sind:
Beispiel: Der Lerndatensatz besteht aus N = 230 Datentupeln mit s = 4 normalverteil-
ten Merkmalen und zwei Ausgangsklassen Proband (B1 , N1 = 200 Datentupel) und Patient
(B2 , N2 = 30 Datentupel). Patienten sind durch zwei unterschiedliche Subgruppen A und B
(20 bzw. 10 Datentupel) charakterisiert, wobei deren Aufteilung zunächst als unbekannt an-
genommen wird. Wenn sie bekannt ist, entsteht ein 3-Klassen-Problem mit den veränderten
Klassen Subgruppe A (B2 ) und B (B3 ). Drei Merkmale (Laborwert x1 und x2 sowie Messwert
x4 ) enthalten nützliche Informationen zum Lösen des Problems, der Messwert x3 ist eine rei-
ne Zufallsgröße (Bild 5.1). Die geringen Datentupelzahlen für die Patienten sind eine typische
Eigenschaft bei klinischen Studien. Die wahren Klassenkovarianzmatrizen lauten jeweils
 
0.64 0 0 −0.64
 0 0 
 16 0 
Sc =  . (5.1)
 0 0 64 0 
−0.64 0 0 0.6464

103
5 Data Mining: Spezielle Verfahren

B1: Proband
30 2
B2: Patient A
B3: Patient B 1
25
Laborwert x2

Messwert x4
20 0

−1
15
−2
10
−3
5
−4

−2 0 2 4 0 10 20 30
Laborwert x1 Messwert x3

Bild 5.1: Illustratives Beispiel mit vier Merkmalen bei Verwendung der Ausgangsterme für das
3-Klassen-Problem

Die Merkmale x1 und x4 korrelieren sowohl innerhalb der Klassen als auch für alle Datentupel
negativ und sind somit teilweise redundant. Zu beachten ist außerdem die unterschiedliche
Skalierung (große Wertebereiche für x2 , x3 , kleine Wertebereiche für x1 , x4 ).

Im Zweifelsfall sollte eher zu Patient als zu Proband entschieden werden, um eine rechtzei-
tige Behandlung zu ermöglichen. Dazu wurden empirisch die fünffachen Entscheidungskos-
ten für eine fälschliche Zuordnung von Patienten als Probanden im Vergleich zum entgegen-
gesetzten Fehler angesetzt. Bei richtigen Entscheidungen treten keine Entscheidungskosten
auf. Die resultierenden Entscheidungskosten in (3.59) betragen somit

   
L(ŷ = B1 |y = B1 ) L(ŷ = B1 |y = B2 ) L(ŷ = B1 |y = B3 ) 0 5 5
   
L = L(ŷ = B2 |y = B1 ) L(ŷ = B2 |y = B2 ) L(ŷ = B2 |y = B3 ) = 1 0 1 . (5.2)
L(ŷ = B3 |y = B1 ) L(ŷ = B3 |y = B2 ) L(ŷ = B3 |y = B3 ) 1 1 0

Die wichtigsten Werte des Datensatzes sind in Tabelle 5.1 zusammengefasst. ¥

Für jedes Verfahren werden außerdem ausgewählte Anwendungsbeispiele in der


Medizin und Medizintechnik vorgestellt und in die Einsatzszenarien aus Kapitel 4
eingeordnet. Aufgrund der Fülle der Veröffentlichungen stellen die vorgestellten An-
wendungen nur eine kleine subjektive Auswahl dar, sollen aber einen Eindruck über
besonders wichtige Anwendungen und typische Einsatzgebiete geben. Weitere Bei-
spiele finden sich später in Kapitel 7.

104
5.2 Statistische Verfahren

Proband Patient Typ A Patient Typ B


2-Klassen-Problem B1 B2 B2
3-Klassen-Problem B1 B2 B3
Datentupel N1 = 200 N2 = 20 N3 = 10
Laborwert x1 1 3 -2
Laborwert x2 10 20 10
Messwert x3 10 10 10
Messwert x4 -1 -3 2

Tabelle 5.1: Illustratives Beispiel mit Klassenzuordnungen für das 2-Klassen-Problem (un-
bekannter Patiententyp) und das 3-Klassen-Problem (bekannter Patiententyp),
Merkmalen, Datentupeln und Mittelwerten der Merkmale pro Klasse (unterer Teil
der Tabelle)

5.2 Statistische Verfahren

5.2.1 Verteilungsannahmen

Die im Folgenden vorgestellten statistischen Verfahren basieren auf der Annahme,


dass jede Ausgangsklasse y = Bc im Merkmalsraum durch eine s-dimensionale Ver-
teilungsdichtefunktion (Synonym: Dichte) beschrieben ist. Prinzipiell ist dabei jede
beliebige Verteilungsdichtefunktion zulässig.
Die meisten Verfahren nehmen eine s-dimensionale (Synonym: s-variate) Normal-
verteilung mit der Verteilungsdichtefunktion
1
· e− 2 ((x−µ c ) Σ c (x−µ c ))
1 T −1
p(x|y = Bc ) = sp (5.3)
(2π )2 Σc )
det(Σ
an. Dabei sind Σ c die Kovarianzmatrix und µ c der Vektor der Erwartungswerte der
Merkmale für die c-te Klasse der Ausgangsgröße. Der s-dimensionale Vektor x gibt
die Eingangsgröße an.
Alle weiteren Schritte werden für diese Verteilungsannahme durchgeführt. Bei ab-
weichenden Verteilungen ergeben sich meist kompliziertere Berechnungsvorschrif-
ten.
Die Schätzung der Mittelwerte der Merkmale lautet
1
x̄T = 11,N · X (5.4)
N
und die Schätzung der s-dimensionalen Kovarianzmatrix der Merkmale S (Maximum-
Likelihood-Schätzung für die wirkliche, aber unbekannte Kovarianzmatrix Σ ) berech-
net sich mit

105
5 Data Mining: Spezielle Verfahren

1
S= · (X − 1N,1 · x̄T )T · (X − 1N,1 · x̄T ) (5.5)
N
1 1 1
= · (X − 1N,N · X)T · (X − 1N,N · X)
N N N
1 T 1
= · X · ZN,N · X mit ZN,N = IN,N − 1N,N .
N N
Dabei bezeichnet X die Matrix der Merkmale entsprechend (3.1), I die Einheitsmatrix,
1 eine Matrix, die aus Eins-Elementen besteht, und Z die Zentriermatrix. Die Indizes
geben die entsprechenden Matrixdimensionen an. Im l -ten Element der Hauptdia-
gonale von S steht die geschätzte Varianz (engl. variance) σl2 des l -ten Merkmals.
σ̂l ist die geschätzte Standardabweichung (engl. standard deviation). Beide sind Ma-
ße für die Streuung eines Merkmals. Ein weiteres Maß für die Streuung ist z. B. die
Spannweite (SpW) (engl. range) als Differenz zwischen dem minimalen und dem ma-
ximalen Wert eines Merkmals im Lerndatensatz: RSpW,l = maxn xl [n] − minn xl [n] . Der
Begriff der Streuung wird aber z. T. auch als Synonym für die Standardabweichung
verwendet, was nicht korrekt ist.
Auf diesen Werten basiert die Varianznormierung (VN) von Merkmalen, bei der
jedes Merkmal durch

1 1
xl,V N [n] = (xl [n] − x̄l ) bzw. XV N = ZN,N · X · diag(S)− 2 (5.6)
σ̂l

auf einen Mittelwert von Null sowie eine Varianz und Standardabweichung von Eins
im Lerndatensatz normiert wird. Der Operator diag(·) bedeutet, dass nur die Diago-
nalelemente verwendet werden. Die Normierung verbessert oftmals die Ergebnisse
bei skalierungsvarianten Verfahren.
Für jede der my Klassen der Ausgangsgröße werden jetzt alle Nc = N(y = Bc )
my
Datentupel herausgesucht (N = ∑c=1 Nc ), die zur c-ten Klasse gehören, und in der
Matrix Xc zusammengefasst. Deren Mittelwertvektor berechnet sich aus

1
x̄Tc = 11,Nc · Xc (5.7)
Nc

und die geschätzte Klassenkovarianzmatrix aus

1
Sc = · XTc · ZNc ,Nc · Xc . (5.8)
Nc

Für die Verteilungsdichtefunktion aus (5.3) resultiert die folgende Schätzvorschrift:

1
· e− 2 ((x−x̄c ) Sc (x−x̄c )) .
1 T −1
p̂(x|y = Bc ) = p s (5.9)
(2π ) det(Sc )
2

106
5.2 Statistische Verfahren

Die in vielen anderen Arbeiten anzutreffenden erwartungstreuen Schätzungen mit


1
N −1 in den Nennertermen, also S = N−1 ·(X−1N,1 · x̄T )T ·(X−1N,1 · x̄T ) in (5.5), wer-
den hier nicht verwendet, weil sie die nachfolgenden Berechnungen mit dem Streu-
ungszerlegungssatz (5.12) verhindern.
Aus den Schätzungen in (5.4)-(5.8) lassen sich die Gesamtvariationsmatrix T
(engl. Total Variance, SSCP – Sum of Squares and Cross-products) als Maß für die
Streuung des gesamten Datenmaterials, die Innerklassenvariationsmatrix W (engl.
Within Groups SSCP) für die Streuung innerhalb der einzelnen Klassen und die Zwi-
schenklassenvariationsmatrix B (engl. Between Groups SSCP) für die Streuung zwi-
schen den Klassen gewinnen:
my
T = N ·S W= ∑ Nc · Sc (5.10)
c=1
my
1 1 1 1
B= ∑ Nc · ( Nc 11,Nc · Xc − N 11,N · X)T · ( Nc 11,Nc · Xc − N 11,N · X). (5.11)
c=1
Dabei gilt der Streuungszerlegungssatz

T = B + W. (5.12)
Beispiel: Die Schätzungen für die Kovarianzmatrizen und die Mittelwerte der drei Klassen
lauten:
   
1.00 0.59 −0.09 −0.69 −0.58
 9.78  −0.09 17.37 −2.20 0.11 
   
x̄1 =  , S1 =  , (5.13)
 9.32  −0.69 −2.20 70.99 0.71 
−1.01 −0.58 0.11 0.71 0.59
   
3.11 0.57 1.76 0.19 −0.57
 20.79   1.76 24.95 0.74 −1.73
   
x̄2 =  , S2 =  , (5.14)
 11.18   0.19 0.74 77.29 −0.41
−3.09 −0.57 −1.73 −0.41 0.57
   
−1.87 0.53 −0.45 −0.17 −0.53
 10.37  −0.45 20.22 −7.36 0.47 
   
x̄3 =  , S3 =  . (5.15)
 12.20  −0.17 −7.36 43.13 0.00 
1.85 −0.53 0.47 0.00 0.52
Dabei zeigt sich, dass aufgrund der kleinen Datentupelzahlen bei den Patientenklassen ins-
besondere bei den Kovarianzmatrizen deutliche Schätzfehler auftreten. ¥

5.2.2 Statistische Signifikanztests

Ein statistischer Test (detaillierte Übersichten z. B. in [152, 160]) liefert anhand von
Messdaten eine Entscheidung, ob eine bestimmte Hypothese mit einer bestimmten

107
5 Data Mining: Spezielle Verfahren

Wahrscheinlichkeit verworfen werden kann oder nicht verworfen werden darf. Dazu
werden üblicherweise zwei sich logisch ausschließende Hypothesen H0 (Nullhypo-
these) und H1 (Alternativhypothese als Gegenteil bzw. Verneinung der Nullhypothe-
se) eingeführt. Das Akzeptieren von H1 erfolgt durch Verwerfen von H0 , wenn die
Irrtumswahrscheinlichkeit p kleiner als das Signifikanzniveau (Synonym: Signifikanz-
wert) α (mit den typischen Werten α = 0.05, α = 0.01) ist, z. B.:
• H0 : Die Mittelwerte eines Merkmals xl für zwei Klassen sind gleich.
H1 : Die Mittelwerte eines Merkmals xl für zwei Klassen sind ungleich.
• H0 : Der Mittelwert eines Merkmals xl für eine Klasse ist gleich Null.
H1 : Der Mittelwert eines Merkmals xl für eine Klasse ist ungleich Null.
Ein einseitiger Test prüft einseitige Hypothesen der Form H1 : xl > xl,krit (zugehöriges
H0 : xl ≤ xl,krit mit xl,krit : Konstante), H1 : xl < xl,krit (zugehöriges H0 : xl ≥ xl,krit ). Ein
zweiseitiger Test beschränkt die Werte des Merkmals xl nach beiden Seiten (zwei-
seitige Hypothese), z. B. H1 : xl 6= xl,krit (zugehöriges H0 : xl = xl,krit ).
Statistische Tests unterscheiden sich außerdem, ob die untersuchten Datentu-
pel
• aus einer Stichprobe (Synonym: Messreihe, z. B. ein Patientenkollektiv mit Dia-
gnose A),
• mehreren voneinander unabhängigen Stichproben (z. B. ein Patientenkollektiv mit
Diagnose A und ein Patientenkollektiv mit Diagnose B) oder
• mehreren voneinander abhängigen Stichproben (z. B. ein Patientenkollektiv mit
Diagnose A vor einer Therapie und das gleiche Patientenkollektiv nach der Thera-
pie)
entstammen. Die unterschiedlichen Stichproben entsprechen hier separaten Lernda-
tensätzen für verschiedene Klassen. Der Begriff abhängige Stichprobe bedeutet in
diesem Zusammenhang, dass eine Zuordnung zwischen einzelnen Datentupeln aus
unterschiedlichen Stichproben besteht (hier: Patient vor der Therapie – der gleiche
Patient nach der Therapie). Der zu untersuchende Merkmalsraum kann ein- oder
mehrdimensional sein. Ein weiteres Unterscheidungskriterium ist das Ziel des Tests.
So können Parameter einer Verteilung (Signifikanztest) oder die Art der Verteilung
(Anpassungstest) überprüft werden. Alle genannten Unterscheidungen beeinflussen
die auszuwählenden Tests.
Ein irrtümliches Verwerfen von H0 (Zustand: H0 , Entscheidung: H1 ) wird als Fehler
1. Art (Synonym: α -Fehler), ein irrtümliches Verwerfen von H1 hingegen als Fehler
2. Art (Synonym: β -Fehler) bezeichnet. Der p-Wert für den α -Fehler sagt aber nichts
über die klinische Relevanz eines Unterschieds aus, sondern nur über die statistische
Absicherung eines (u. U. aber extrem kleinen) Unterschieds.

108
5.2 Statistische Verfahren

Konfidenzintervalle
B1 ↔ B2 B1 ↔ B3 B2 ↔ B3
B_3: Patient B ( )
x1 0* 0* 4.4e-016*
B_2: Patient A ( ) x2 0* 0.66 1e-005*
B_1: Proband ( ) x3 0.35 0.29 0.76
x4 0* 0* 4.4e-016*
10 15 20
Laborwert x2

Bild 5.2: Konfidenzintervalle der geschätzten Tabelle 5.2: p-Werte für t -Tests zur Dia-
Mittelwerte für Merkmal x2 (Laborwert gnose für alle paarweisen 2-
x2 ) für das 3-Klassen-Problem und Klassen-Probleme, *: relevante
ein Signifikanzniveau α = 0.05 Unterschiede bei α = 0.05

Hypothesen können auch durch Konfidenzintervalle (Synonym: Vertrauensinterval-


le) geprüft werden. Dazu werden für die Stichproben neben den Verteilungsparame-
tern auch deren erwartete Maximal- und Minimalwerte berechnet, die von der Zahl
der Datentupel in der Stichprobe N und vom gewünschten Signifikanzniveau abhän-
gen. Je größer die Zahl der Datentupel, desto enger wird das Konfidenzintervall. Ein
kleinerer Signifikanzwert α vergrößert hingegen das Konfidenzintervall. Die Parame-
ter zweier Stichproben sind mit einem Signifikanzniveau α ungleich (Hypothese H1 ),
wenn sich die Konfidenzintervalle nicht überlappen (z. B. Parameter der Stichprobe 1
gegenüber den anderen Stichproben). Die Ergebnisse für das Merkmal x2 im Beispiel
zeigt Bild 5.2. Konfidenzintervalle formalisieren die auftretenden Informationsdefizite
als Unsicherheit und Impräzision. Hierbei sind Parameter einer Verteilungsdichte-
funktion (z. B. der Mittelwert für ein Merkmal) nur in Form einer Verteilungsdichte-
funktion angegeben. Dieses Informationsdefizit wird in ein Intervall transformiert.
Besonders populär in der medizinischen Statistik sind Tests, die auf der Untersu-
chung von (meist eindimensionalen) Merkmalsräumen mit angenommenen Normal-
verteilungen beruhen. Bei der Bestimmung der möglichen Lage von Mittelwerten ent-
stehen aber nichtnormalverteilte Teststatistiken. Für eine Stichprobe mit einem ein-
dimensionalen Merkmalsraum und einer unbekannten Standardabweichung ist die
Testgröße die sogenannte Student-Verteilung
x̄l − µ0,l √
t= NF (5.16)
σ̂
mit NF = N − 1 Freiheitsgraden, dem Mittelwert x̄l und der geschätzten Standardab-
weichung σ̂ des Lerndatensatzes sowie dem zur Hypothese gehörenden Mittelwert
µ0,l = xl,krit . Aufbauend auf dieser Verteilung werden die auftretenden Werte mit Hil-
fe von Tabellen oder Softwarepaketen untersucht (Synonym: t -Test). Der gepaarte
t -Test (engl. paired t -test) vergleicht für das Merkmal xl die Mittelwerte zweier abhän-
giger Stichproben 1 und 2 mit dem neuen Merkmal xD,l [n] = x1,l [n] − x2,l [n] (Anzahl

109
5 Data Mining: Spezielle Verfahren

Datentupel: N = N1 = N2 ), für das die entsprechenden Parameter in (5.16) zu be-


rechnen sind. Der ungepaarte t -Test (engl. unpaired t -test) vergleicht unabhängige
Stichproben und beruht auf einer anderen Teststatistik:

x̄1,l − x̄2,l − (µ1,l − µ2,l )


t= r . (5.17)
σ̂1,l
2 σ̂2,l
2

N1 + N2

Die Anzahl der Datentupel in den Stichproben 1 (N1 ) und 2 (N2 ) darf hier voneinander
abweichen.
Beispiel: Die Vergleiche aller paarweisen Klassenkombinationen im 3-Klassen-Problem
zeigen, dass die Merkmale x1 und x4 für alle Klassenkombinationen Bc , B j relevante Unter-
schiede mit einem Signifikanzniveau von α = 0.05 für die Mittelwerte aufweisen (Tabelle 5.2,
Werte für H1 : x̄c,l 6= x̄c,l , H0 : x̄c,l = x̄ j,l , unabhängige Stichproben, gleiche unbekannte Stan-
dardabweichungen). Beim Merkmal x2 sind nur die Unterschiede zwischen den Klassenpaa-
ren Proband – Patient A sowie Patient A – Patient B signifikant. Für die Zufallsgröße x3 erge-
ben sich richtigerweise keine signifikanten Unterschiede. ¥
Für jede Variante existieren einfachere Tests, die von bekannten und bzw. oder
gleichen Standardabweichungen innerhalb der Stichproben ausgehen. Alle auf der
Normalverteilung beruhenden Tests sind bei kleinen Stichproben empfindlich auf
Ausreißer. Hingegen ist die Robustheit gegenüber der Verletzung von Verteilungs-
annahmen meist relativ groß, solange es sich um kompakte Verteilungen handelt.
Eine erhebliche praktische Bedeutung haben Tests für Binomialverteilungen, weil
sie die Überprüfung wertediskreter Verteilungen zulassen. Deren Parameter ist die
Wahrscheinlichkeit, mit der ein binäres Ereignis auftritt (z. B. kategorisches Merkmal
”Geschlecht weiblich” in einer Stichprobe).
Weitere Tests treffen keine parametrische Verteilungsannahme. Sie werden als
nichtparametrische Tests (Gegenteil: parametrische Tests für Tests auf der Basis
parametrischer Verteilungsfunktionen) bezeichnet. Ein typischer Vertreter ist der
Wilcoxon-Rangsummentest (Synonyme: U -Test von Mann-Whitney, Mann-Whitney-
Wilcoxon-Test, engl. Wilcoxon rank sum test), bei dem die Datentupel bei nomina-
len oder ordinalen Werteskalen entsprechend ihrer Rangfolge sortiert und die Unter-
schiede der summierten Rangordnungen bei Datentupeln aus verschiedenen Stich-
proben ausgewertet werden. Der Vorzeichenrangtest von Wilcoxon (engl. Wilcoxon
signed rank test) testet ebenfalls die Symmetrie einer Verteilung um einen Wert. Alter-
nativ können Merkmale diskretisiert werden, wonach Tests für diskrete Verteilungen
zum Einsatz kommen. Hier ist insbesondere der Vorzeichentest (Synonym: Zeichen-
test, engl. sign test) von Bedeutung, der die Binomialverteilungen für die Häufigkeit

110
5.2 Statistische Verfahren

der Vorzeichen auswertet. Nichtparametrische Tests zeichnen sich durch eine hohe
Robustheit gegenüber Ausreißern aus.
Eine problematische Tatsache bei Data-Mining-Verfahren besteht darin, dass in der
Regel eine Vielzahl von Hypothesen getestet werden muss. Die Vorgehensweise,
dann nur die besten Testergebnisse ungeprüft zu übernehmen, führt zu einer zu op-
timistischen Einschätzung. Die Ursache liegt darin, dass die Testerfüllung wiederum
eine Zufallsgröße ist und eben bei einer Vielzahl getesteter Hypothesen das Risiko
der Fehlinterpretation zufälliger Zusammenhänge steigt. Für den als multiples Testen
bezeichneten Fall gibt es eine Reihe von Korrekturen, die auch die Zahl der überprüf-
ten Hypothesen berücksichtigen [44]. Das bekannteste Verfahren ist die Bonferroni-
Holm-Korrektur. Dabei muss die beste der NHyp getesteten Hypothesen eine Ab-
lehnung der jeweils korrespondierenden Nullhypothese mit P1 < N α erreichen. Die
Hyp
Anforderungen an das Signifikanzniveau α werden also strenger. Analog gilt für die
zweitbeste P2 < N α −1 usw. Insgesamt werden i Hypothesen akzeptiert, wobei der
Hyp
Abbruch erfolgt, wenn die i + 1. Hypothese ein Signifikanzniveau Pi+1 < N α −i ver-
Hyp
fehlt. Allerdings neigen solche Tests zu stark konservativen Resultaten, wenn die
Merkmale untereinander starke Abhängigkeiten aufweisen, was für medizinische Pro-
blemstellungen typisch ist.
Signifikanztests eignen sich hauptsächlich zur univariaten Merkmalsbewer-
tung D23 . In der medizinischen Fachliteratur finden sich extrem viele Arbeiten, bei
denen Signifikanztests für mehrere Stichproben als dominierendes Werkzeug in der
Merkmalsbewertung bei Problemen zur Diagnose oder Therapieevaluierung einge-
setzt werden. Allerdings ist dabei zu berücksichtigen, dass solche Tests nur in be-
grenztem Umfang Aussagen über die qualitativen Unterschiede zwischen den un-
tersuchten Klassen zulassen. Sie nehmen deshalb bei Data-Mining-Aufgaben ei-
ne ergänzende Rolle ein, indem sie mit anderen Bewertungsmaßen gefundene
Zusammenhänge evaluieren oder Bewertungen innerhalb bestimmter Data-Mining-
Verfahren übernehmen.

5.2.3 Hauptkomponenten- und Diskriminanzanalyse

Die Hauptkomponentenanalyse (HKA, Synonym: Karhunen-Loeve-Transformation,


engl. Principal Component Analysis – PCA) und die Diskriminanzanalyse (engl.
Discriminant Analysis) sind verbreitete Verfahren, die sich zur Merkmalsbewertung
(D23 und D24 ), linearen Merkmalstransformation (D17 ), Merkmalsselektion D18 bzw.
-extraktion D14 und (nach einer nachfolgenden Schwellwertauswertung) zur Klassifi-
kation (D2 ) eignen.

111
5 Data Mining: Spezielle Verfahren

Beide Verfahren versuchen, in einem niederdimensionalen Merkmalsraum mög-


lichst viele Informationen aus einem höherdimensionalen Merkmalsraum zu erhalten.
Bei der Hauptkomponentenanalyse ist die zu erhaltende Information die Streuung,
bei der Diskriminanzanalyse die Distanz zwischen den Verteilungen der einzelnen
Klassen. Die Diskriminanzanalyse setzt folglich die Kenntnis der Ausgangsklassen im
Lerndatensatz voraus. Beide gehen von multivariaten Normalverteilungen im Merk-
malsraum aus, wobei die Hauptkomponentenanalyse eine Normalverteilung für alle
Datentupel und die Diskriminanzanalyse eine Normalverteilung für jede Ausgangs-
klasse Bc entsprechend (5.3) annimmt. Allerdings liefern sie auch bei erheblichen
Verletzungen der Annahmen oftmals passable Ergebnisse.
Der Rechenweg besteht bei beiden Verfahren darin, für eine Linearkombination
entsprechend (3.8) mit der (s, sd )-dimensionalen Transformationsmatrix A die Spur
einer (in einen u. U. niederdimensionalen Raum) transformierten (s, s)-dimensionalen
positiv definiten Matrix M1 zu maximieren. Zusätzlich ist die folgende Nebenbedin-
gung für eine (s, s)-dimensionale positiv definite Matrix M2 einzuhalten:

Q = sp(AT M1 A) → max Nebenbedingung: AT M2 A = Isd . (5.18)


A

Die Formulierung der Lösung als Eigenwertproblem ergibt

(M−1
2 M1 − λi I)ãi = 0, (5.19)

wobei die gesuchte Transformationsmatrix aus


¡ T ¢ 12 ³ ´
A = à à M2 à mit à = ã1 . . . ãsd , λ1 ≥ λ2 ≥ . . . ≥ λsd (5.20)

resultiert. Für Q aus (5.18) gilt der alternative Berechnungsweg (Spurkriterium, Spur-
Statistik)
sd
Q = ∑ λi mit Q = sp(M−1 T
2 M1 ) = sp(A M1 A) für sd = s. (5.21)
i=1
Dabei finden jeweils Matrizen aus dem Streuungszerlegungssatz Verwendung.
Das Ziel der Hauptkomponentenanalyse als eine Technik der Faktorenanalyse ist
es, eine möglichst große Variation im niederdimensionalen transformierten Merk-
malsraum mit sd Merkmalen zu erzielen.
Die Faktorenanalyse bzw. Faktoranalyse analysiert einen höherdimensionalen
Merkmalsraum mit Merkmalen x, indem sie diesen durch einen niederdimensiona-
len Merkmalsraum mit unkorrelierten Merkmalen xTrans (sogenannte ”Faktoren”) er-
klärt. Dabei wird eine Beziehung x = AFaktor · xTrans + ε mit einem Vektor der nicht
erklärbaren Reste ε angenommen [316]. Für Matrizen mit der Nebenbedingung

112
5.2 Statistische Verfahren

ATFaktor · AFaktor = I gilt nach Multiplikation mit ATFaktor von links die Beziehung für
die lineare Merkmalstransformation xTrans = ATFaktor · x − ATFaktor · ε . Die Hauptkom-
ponentenanalyse ist eine von mehreren möglichen Techniken der Faktorenanalyse,
indem sie die Eigenwertzerlegung in (5.22) zur Ermittlung der unbekannten Faktoren
und der Matrix ATFaktor = A verwendet.
Dieses Ziel darf allerdings nicht über betragsmäßig große Elemente der Transfor-
mationsmatrix A erreicht werden. Deswegen sind die Elemente geeignet zu normie-
ren. Dazu gilt M1 = T, M2 = I: Hier wird die Gesamtvariationsmatrix im transformier-
ten Merkmalsraum maximiert, wobei die Transformationsmatrix aus orthonormalen
Vektoren bestehen muss. Für die Transformationsmatrix gilt à = A (wegen AT IA = I
nach Einsetzen in (5.20)) mit
(T − λi I)ai = 0. (5.22)

Da die Hauptkomponentenanalyse keine Informationen über die Ausgangsgröße ver-


wendet, handelt es sich um ein Verfahren für unüberwachtes Lernen.
Das Ziel der Diskriminanzanalyse besteht darin, eine kleine Anzahl (linear-) trans-
formierter Merkmale zu finden und dabei möglichst wenig Klassifikationsinformation
zu verlieren. Transformierte Merkmale sind dabei umso aussagekräftiger, je dichter
im niederdimensionalen Raum die Datentupel der gleichen Klasse zusammen liegen
und je weiter Datentupel unterschiedlicher Klassen auseinander liegen. Zur Berech-
nung der Matrizen wird die Klasseninformation benötigt. Die Diskriminanzanalyse ist
somit ein überwachtes Lernverfahren. Zur Formalisierung eignen sich Matrizen aus
dem Streuungszerlegungssatz (5.12), wobei die Zwischenklassenvariationsmatrix B
im transformierten Merkmalsraum im Verhältnis zur Innerklassenvariationsmatrix W
maximiert wird. Nach Einsetzen von M1 = B, M2 = W in (5.19) ergibt sich

(W−1 B − λi I)ãi = 0, (5.23)

was noch eine Modifikation mit (5.20) erfordert. Da sich allerdings die Vektoren nur
durch einen konstanten Skalierungsfaktor α mit ai = α ãi unterscheiden, kann auf die
Modifikation auch verzichtet werden.
Numerische Probleme durch einen Rangabfall bei der Inversion von W sind durch
verschiedene Regularisierungstechniken wie Sc,Reg = (1 − δc )Sc + δc S oder Sc,Reg =
Sc + δc I und das Einsetzen in (5.10) zu behandeln [139, 287]. Der Faktor δc ist ent-
weder heuristisch zu wählen oder über eine Crossvalidierung zu optimieren.
Für die Eigenwerte in (5.23) gilt bei einem Problem mit my Klassen

≥ 0 für i = 1, . . . , min(m − 1, s)
y
λi (5.24)
= 0 für i > my − 1.

113
5 Data Mining: Spezielle Verfahren

Neben (5.23) existieren ähnliche Problemstellungen. Das modifizierte Problem mit


M1 = B, M2 = T weist mit

λi
(T−1 B − µi I)ai = 0, µi = (5.25)
1 + λi
abweichende Eigenwerte, aber identische Eigenvektoren wie (5.23) auf. Das in der
Literatur häufig verwendete Problem (BW−1 − λ I)ai = 0 hat reziproke Eigenwerte zu
(5.23), aber andere Eigenvektoren.
Ein Vergleich der Diskriminanzanalyse mit weiteren Verfahren der linearen Merk-
malstransformation findet sich beispielsweise in [351].
Bei allen genannten Eigenwertproblemen ist

λi
Qi = (5.26)
∑i=1 λi
s

ein univariates Maß für die relative Bedeutung des i-ten lineartransformierten Merk-
mals.
Oftmals interessiert sich der Auswerter aber weniger für die Bewertung der linear-
transformierten Merkmale, sondern eher für die der ursprünglichen s Merkmale. Auch
hierfür eignen sich die genannten Verfahren. Ein wichtiges Ziel der Bewertung ist die
Merkmalsselektion D18 , die eine möglichst kleine Anzahl von sm Merkmalen aus den
potenziellen s Merkmalen auswählt. Die Nummern der so ausgewählten Merkma-
le sollen in eine Indexmenge I geschrieben werden. Dazu wird nach einer Gruppe
von sm Merkmalen gesucht, die in ihrem Zusammenwirken besonders wichtig sind.
Dieses Vorgehen liefert bessere Ergebnisse als das Heraussuchen der wichtigsten
Merkmale ohne die Analyse ihres Zusammenwirkens, weil Redundanzen (korrelierte
Merkmale) berücksichtigt werden. Die Gleichungen (5.5-5.12) sind nur für die aus-
gewählten Merkmale aus I anzuwenden. Die Matrizen S, Sc , T, B, W haben somit je-
weils die Dimension (sm , sm ). Zum Durchführen einer Merkmalsselektion sind somit
zunächst für alle Hypothesen über geeignete Merkmale oder Merkmalskombinatio-
nen entsprechende Matrizen zu generieren und mit den nachfolgenden Maßen zu
bewerten. Das Verfahren zielt somit nicht direkt auf die lineartransformierten Merk-
male, sondern nutzt die darauf aufbauenden Bewertungsmaße zur Beurteilung der
untersuchten Merkmale. Die aus den Problemen (5.23) oder (5.25) resultierenden
Maße dienen zur Bewertung der gesamten Gruppe aller sm Merkmale in der multiva-
riaten Varianzanalyse [26] (Multivariate ANalysis Of VAriance – MANOVA, Synonym:
mehrdimensionale Varianzanalyse). Alternativ zu (5.18) bzw. (5.21) sind aufbauend
auf den Eigenwerten auch andere Gütemaße wie der maximale Eigenwert (Synonym:
größte charakteristische Wurzel)

114
5.2 Statistische Verfahren

Q = λ1 , (5.27)
das Produktkriterium (insbesondere für M1 = B, M2 = T üblich)
sm
Q = ∏ λi , (5.28)
i=1

das Lambda-Kriterium (Bezeichnungen für M1 = B, M2 = W: Likelihood-Quotienten-


Kriterium, Wilks-Lambda)
sm
1 det(M2 )
Q=∏ mit Q = (5.29)
i=1 1 + λi det(M1 + M2 )
gebräuchlich [26].
Je nach Problemstellung ergeben sich dann unterschiedliche Werte für die opti-
male Eignung (bester Wert) oder die komplette Nichteignung (schlechtester Wert)
für ein Klassifikationsproblem (siehe Tabelle 5.3). Einige Maße in Tabelle 5.3 (z. B.
T 2 ) weisen Parallelen zu Distanzen auf, weil sie letztlich Abstände zwischen den my
Verteilungsdichtefunktionen der Klassen bewerten. Allerdings existieren auch Unter-
schiede, weil sie sich z. B. für die Beurteilung von mehr als zwei Objekten (Klassen)
eignen und auch bei unterschiedlichen Objekten (z. B. zwei Klassen mit gleichen Mit-
telwerten) ein Maß von Null resultieren kann, was der Forderung in (3.28) wider-
spricht.
Aus praktischen Erfahrungen eignen sich die Merkmalsbewertungen durchaus für
Merkmale mit nicht normalverteilten, aber kompakten Verteilungen. Hingegen wer-
den relevante Merkmale mit nichtkompakten Verteilungen (z. B. durch mehrere nicht
zusammenhängende Subklassen einer Klasse) zu schlecht bewertet. Da alle Maße
Vor- und Nachteile aufweisen, kann hier keine klare Präferenz angegeben werden.
Beispielsweise bewertet (5.27) ausschließlich das wichtigste (eindimensionale) line-
artransformierte Merkmal, während bei den anderen Maßen auch weitere Eigenwerte
Beiträge liefern. Eine umfangreiche Diskussion findet sich in [26].
Im univariaten Fall gehen alle genannten Maße in die univariate Varianzanalyse
(ANOVA, Teststatistik zum t -Test) über.
Im Folgenden wird wegen der einfachen Interpretierbarkeit (schlechtester Wert: 0,
bester Wert: 1) hauptsächlich das auf (5.29) basierende Maß
sm
1 det(W)
Q = 1−∏ = 1− (5.30)
i=1 1 + λi det(B + W)

für das Problem aus (5.23) verwendet.


Ein Problem der Diskriminanzanalyse besteht darin, dass Kriterium (5.18) nur ei-
ne durchschnittliche Entfernung der Mittelwerte der Klassen (M1 = B) in Bezug auf

115
5 Data Mining: Spezielle Verfahren

schlech-
bester
Verfahren Merkmalsbewertung Q tester
Wert
Wert
sm
Spur-Statistik T 2 sp(W−1 B) = ∑ λi ∞ 0
i=1

Likelihood-Quotienten- |W| sm 1
=∏ 0 1
Kriterium Λ (Wilk’s-Lambda) |T| i=1 1 + λi

negiertes Likelihood- |W| sm 1


1− = 1− ∏ 1 0
Quotienten-Kriterium 1 − Λ |T| i=1 1 + λi

größte charakteristische
max λi ∞ 0
Wurzel λmax

sm
Spur-Statistik T 2∗ mit (5.25) sp(T−1 B) = ∑ µi sm 0
i=1

größte charakteristische
max µi 1 0
Wurzel µmax mit (5.25)

Produktkriterium U ? sm
det(T−1 B) = ∏ µi 1 0
mit (5.25) i=1

Tabelle 5.3: Merkmalsbewertungen für D23 (sm = 1) oder D24 (sm > 1) auf der Basis der Ei-
genwerte in (5.23) und (5.25)

die durchschnittlichen Klassenkovarianzmatrizen (M2 = W) im transformierten Merk-


malsraum beurteilt. Das kann zu schlechten Klassifikationsgüten führen, wenn eini-
ge Klassen sehr weit von anderen Klassen entfernt liegen oder im transformierten
Merkmalsraum sehr unterschiedliche Klassenkovarianzmatrizen auftreten. Die Dis-
kriminanzanalyse erzeugt hier Transformationen, die aus Sicht einer optimalen Klas-
sifikationsgüte gut trennbare Klassen unnötig weit weg schieben und die Potenziale
unterschiedlicher Klassenkovarianzmatrizen für die Klassentrennung nicht ausnut-
zen.
Ein Ansatz zur Vermeidung solcher Probleme ist die numerische Optimierung der
Transformationsmatrizen über klassifikationsorientierte Maße (vgl. Abschnitt 3.5.4)
im Mehrklassenfall, z. B. (3.70) mit Q = QK , Q = QK p oder Q = QKw . Die Schätzung
der Ausgangsgröße ŷ kommt hierbei über eine Merkmalstransformation mit A und
eine nachfolgende Berechnung eines Klassifikators (siehe z. B. Abschnitt 5.2.5) im
niederdimensionalen transformierten Raum zustande (siehe [1, 86, 236, 351, 365]).

116
5.2 Statistische Verfahren

Entsprechende Arbeiten finden sich unter den Stichworten heteroskedastische Dis-


kriminanzanalyse (engl. Heteroskedastic Discriminant Analysis). Das gleiche Grund-
prinzip funktioniert auch zur Merkmalsselektion anstelle einer MANOVA gemäß (3.69)
mit Q = QK , Q = QK p oder Q = QKw . Einen ähnlichen Grundgedanken verfolgen An-
sätze, die im transformierten Merkmalsraum die kleinste Mahalanobis-Distanz (ge-
mäß (3.36) mit S = S j ) des Mittelwertes einer Klasse x̄c bezüglich aller anderen Klas-
sen Bc 6= B j maximieren (siehe z. B. [1]). Für einen eindimensionalen transformierten
Merkmalsraum im 2-Klassen-Fall ergibt sich nach einigen weiteren Vereinfachungen
(gleiche A-priori-Wahrscheinlichkeiten der Klassen, gleiche Determinanten der Kova-
rianzmatrix der Klassen) das Gütemaß
µ ¶
(aT (x̄1 − x̄2 ))2 (aT (x̄1 − x̄2 ))2
Q = min , → max (5.31)
aT S1 a aT S2 a a

(aT (x̄1 − x̄2 ))2


= T → max mit 0 ≤ β ≤ 1, (5.32)
a (β S1 + (1 − β )S2 )a a,β

mit der Teillösung für einen noch zu optimierenden Wichtungsfaktor β

a = (β S1 + (1 − β )S2 )−1 (x̄1 − x̄2 ). (5.33)

Im Mehrklassenfall folgt das numerisch lösbare Gütemaß

(aT (x̄c − x̄ j ))2


Q = min → max . (5.34)
c, j,c6= j aT Sc a a

Zusammenfassend lassen sich aus allen genannten Problemen nun unterschiedliche


Informationen gewinnen:
• Der Gütewert Q aus (5.18) gibt ein Maß für die multivariate Merkmalsbewer-
tung D24 zur Eignung aller s Merkmale für die jeweilige Problemstellung. Gilt
s = 1, eignet sich Q auch zur univariaten Merkmalsbewertung D23 . Somit kann
eine Merkmalsselektion D18 durchgeführt werden.
• Aus den Eigenvektoren ai in den Transformationsmatrizen von (5.20) lassen sich
lineartransformierte Merkmale entsprechend D17 gewinnen, die miteinander nicht
korreliert sind. Die Eigenvektoren geben zudem die Ausrichtung von Trennebenen
an, die zur Klassifikation dienen können.
• Die sortierten Eigenwerte λi geben darüber Auskunft, wie wichtig das zugehöri-
ge lineartransformierte Merkmal für die jeweilige Problemstellung ist. Damit findet
wiederum über (5.26) eine univariate Merkmalsbewertung über die transformierten
Merkmale statt.

117
5 Data Mining: Spezielle Verfahren

Die abweichenden Ausprägungen tragen insbesondere bei der Diskriminanzanaly-


se zu einer erheblichen Begriffsverwirrung bei. Einige Autoren bezeichnen nur den
Schritt der linearen Merkmalstransformation als Diskriminanzanalyse, während an-
dere Autoren damit die nachfolgende Klassifikation mittels einer Trennebene meinen.
Beispiel: Für das Beispiel ergeben sich die folgenden Transformationsvorschriften A
für die besten ein bis zwei lineartransformierten Merkmale (HK: Hauptkomponentenanaly-
se ohne Varianznormierung, HKS: Hauptkomponentenanalyse mit Varianznormierung, DA2:
Diskriminanzanalyse für das 2-Klassen-Problem und DA3: Diskriminanzanalyse für das 3-
Klassen-Problem) und die univariaten Merkmalsbewertungen Q gemäß (5.26) für alle mögli-
chen vier transformierten Merkmale:
 
−0.01 −0.08
−0.01 −0.99 ³ ´
 
AHK =  , QHK = 0.70 0.28 0.02 0.00 , (5.35)
 1.00 −0.02
0.01 0.07
 
−0.57 0.02
−0.07 0.03  ³ ´
 
AHKS =  , QHKS = 0.54 0.25 0.21 0.00 , (5.36)
 0.01 0.12 
0.57 −0.02
 
0.99 0.81
 0.11 −0.40 ³ ´
 
ADA3 =  , QDA3 = 0.88 0.12 0.00 0.00 , (5.37)
 0.01 −0.05
−0.10 −0.42
 
−0.34
−0.80 ³ ´
 
aDA2 =  , QDA2 = 1.00 0.00 0.00 0.00 . (5.38)
−0.09
−0.49

Die Hauptkomponentenanalyse ohne Varianznormierung in (5.35) (transformierte Merkmale


in Bild 5.3a) extrahiert wegen ihrer hohen Varianzen fast ausschließlich die Merkmale x3 und
x2 . Die Klassen Patient B und Proband überlappen stark. Nach einer zusätzlichen Varianznor-
mierung in (5.36) (transformierte Merkmale in Bild 5.3b) wird nun die Linearkombination aus
den stark korrelierten Merkmalen x1 und x4 als erstes neues Merkmal gebildet. Die Normie-
rung der Spaltenvektoren auf Eins für AHKS gilt nur noch für varianznormierte Werte, kann
aber bei Bedarf wiederhergestellt werden. Alle Klassen sind nun recht gut unterscheidbar,
was in medizinischen Problemen zwar häufig, aber keinesfalls selbstverständlich ist: Diese
Transformation ist immer dann erfolgreich, wenn die gesuchten Klassenunterschiede auch
mit den größten Varianzen einhergehen.
Die Diskriminanzanalyse für den 2-Klassen-Fall in (5.38) hat zwar nur ein transformiertes
Merkmal (Bild 5.4), kann aber wegen der im ursprünglichen Merkmalsraum nichtkompak-
ten Patientenklasse keine befriedigende Lösung anbieten. Die Diskriminanzanalyse in (5.37)

118
5.2 Statistische Verfahren

a. HK 4−>2 b. HKS (normiert) 4−>2


4
−5

−10 3
2. Merkmal

2. Merkmal
−15 2
−20
1
−25
0
−30

0 10 20 30 B1: Proband −6 −4 −2 0 2
1. Merkmal B2: Patient A 1. Merkmal
B3: Patient B
c. DA3 (3 Klassen) 4−>2 d. MANOVA (3 Klassen)
2
30
0
25
−2
2. Merkmal

Laborwert x2

20
−4
15
−6
10
−8
5
−10
−2 0 2 4 6 8 −2 0 2 4
1. Merkmal Laborwert x1

Bild 5.3: Transformierte Merkmale für das Beispiel nach a. Hauptkomponentenanalyse ohne
Varianznormierung (oben links), b. Hauptkomponentenanalyse mit Varianznormie-
rung (oben rechts), c. Diskriminanzanalyse im 3-Klassen-Problem (unten links) und
d. Merkmalsselektion der beiden besten Merkmale mit MANOVA I = {1, 2} im 3-
Klassen-Problem (unten rechts)

(transformierte Merkmale in Bild 5.3c) findet im 3-Klassen-Problem hauptsächlich eine Line-


arkombination aus x1 , x2 , x4 , in der das Merkmal x2 trotz seines scheinbar niedrigen Wertes
in aDA3,1,2 wegen seiner hohen Streuung signifikant eingeht. Die Klassen sind recht gut un-
terscheidbar.
Alle univariaten und ausgewählte multivariate Merkmalsrelevanzen gemäß (5.30) zeigt Ta-
belle 5.4. Für das 3-Klassen-Problem sind bei einer univariaten Bewertung alle Merkmale au-
ßer Merkmal x3 relevant, am besten sind die Merkmale x1 , x4 . Die Kombination dieser besten
Einzelmerkmale x1 , x4 bringt bei einer multivariaten Bewertung wegen ihrer starken Korrelati-

119
5 Data Mining: Spezielle Verfahren

(DA2 2−Klassen−Problem)
Merkmal Q Q 1

B2: Patient
(2-Kl-Pr.) (3-Kl-Pr.)
Laborwert x1 0.017 0.559 0.5

Laborwert x2 0.232 0.345


Messwert x3 0.008 0.008 0
−30 −20 −10 0
Messwert x4 0.016 0.555
1

B1: Proband
I = {1, 2} 0.241 0.678
I = {1, 4} 0.233 0.559 0.5
I = {1, 2, 3} 0.241 0.683
I = {1, 2, 3, 4} 0.241 0.683 0
−30 −20 −10 0
Transformiertes Merkmal
Tabelle 5.4: Univariate und ausgewählte multi- Bild 5.4: Transformierte Merkmale für
variate Merkmalsrelevanzen gemäß das Beispiel nach Diskrimi-
(5.30) für das 2- und 3-Klassen- nanzanalyse im 2-Klassen-
Problem Fall

on allerdings keinen Zugewinn. Eine bessere Merkmalskombination ist x1 , x2 (Bild 5.3d), bei
der alle drei Klassen nach einer Merkmalsselektion gut unterscheidbar sind. Die Auswahl von
drei bzw. vier Merkmalen bringt keine signifikante Verbesserung. Für das 2-Klassen-Problem
gibt es weder ein gutes Merkmal noch eine gute Merkmalskombination. Merkmal x2 liefert
noch den größten Beitrag, weitere Merkmale sind im Prinzip irrelevant. ¥
Ein alternatives Verfahren zur unüberwachten Merkmalstransformation ist die Un-
abhängigkeitsanalyse (engl. Independent Component Analysis, ICA), wo neben der
Unkorreliertheit der transformierten Merkmale auch deren statistische Unabhängig-
keit gefordert wird. Das zugrundeliegende Modell geht davon aus, dass sich die
Merkmale xl durch eine Linearkombination von unbekannten Quellensignalen xTrans,i
ergeben (engl. Blind Source Separation). Damit erfolgt in der Anwendungspha-
se wie bei der Hauptkomponentenanalyse eine Merkmalstransformation mit (3.8).
Allerdings unterscheiden sich die Berechnungsansätze zur Ermittlung der (s, sd )-
dimensionalen Transformationsmatrix A. Die ICA maximiert dabei die geschätzte
Entropie für die transformierten Merkmale durch Modifikation der Transformations-
matrix A (siehe [184, 437] für eine umfangreiche mathematische Herleitung) und ist
deshalb nur durch ein numerisches Optimierungsverfahren lösbar.
Alle genannten Verfahren werden in der Medizin insbesondere zur Transforma-
tion extrem hochdimensionaler Merkmalsräume auf niederdimensionale Merkmals-
räume – insbesondere als Verfahren zur Merkmalsextraktion eingesetzt. So gelingt

120
5.2 Statistische Verfahren

es in vielen Anwendungen, mehrere Hundert oder Tausend Rohmerkmale auf weni-


ge (typischerweise 2-6) Merkmale zu reduzieren. Dabei ist insbesondere bei höher-
dimensionalen Rohmerkmalen wie Zeitreihen, Bildern und Videos bei der Problem-
formulierung darauf zu achten, welche Varianzen mit einer Merkmalstransformation
auszuwerten sind. Die Verfahren unterscheiden sich in der Behandlung der Rohmerk-
male entsprechend Tabelle 3.2. Dazu werden verschiedene Typen unterschieden:
Typ I transformiert Merkmale bei gleichen Abtastzeitpunkten. Hier werden Trans-
formationen von Einzelmerkmalen s → sd , sz → sd (Zeitreihen) bzw. Ix · Iy (·Iz ) → sd
(zwei- oder dreidimensionale Bilder oder Videobilder) ermittelt. Die Berechnung der
Transformationsvorschrift verwendet einen Hilfsdatensatz mit N Datentupeln bei Ein-
zelmerkmalen und Bildern ohne einen zeitlichen Bezug (Typ Ia) bzw. K · N Daten-
tupeln bei Zeitreihen und Videobildern (Typ Ib). Bei Videobildern gilt oftmals N = 1
(Analyse einzelner Datentupel), d.h. jedes Videobild wird einzeln analysiert. Eben-
falls typisch ist die Vektorisierung im Hilfsdatensatz mit s = Ix · Iy (·Iz ) bei Bildern oder
Videobildern, um Methoden wie die HKA bzw. ICA einzusetzen. Der resultierende Da-
tensatz mit transformierten Merkmalen ist entweder vom Typ Einzelmerkmale (Typ Ia,
Bestandteile: sd Einzelmerkmale, N Datentupel) oder vom Typ Zeitreihe (Typ Ib, Be-
standteile: sd Zeitreihen, K Abtastzeitpunkte, N Datentupel).
Typ II transformiert hingegen Abtastzeitpunkte. Dabei werden die K Abtastzeit-
punkte pro Zeitreihe oder Videobild als zu transformierende Merkmale interpretiert.
Bei Zeitreihen ist eine separate Transformation für jede der sz Zeitreihen (Typ IIa:
sz verschiedene Transformationen mit K → sd ) oder eine kombinierte Transformati-
on für alle Zeitreihen (Typ IIb: nur eine Transformation sz · K → sd ) zu unterscheiden.
Die Vorgehensweise eignet sich auch für Videobilder, wobei die zeitlichen Verläufe
aller Pixel bzw. Voxel ausgewertet werden (Typ IIc: eine einheitliche Transformation
K → sd ). Die Berechnung der Transformationsvorschrift verwendet Hilfsdatensätze
mit N Datentupeln (Zeitreihen) bzw. N · Ix · Iy (·Iz ) Datentupeln bei Videobildern. Das
Ergebnis ist je nach Typ ein (N, sd · sz )-, (N, sd )- oder (N, sd · Ix · Iy (·Iz ))- dimensionaler
Datensatz mit Einzelmerkmalen bzw. Bildern, die den aggregierten zeitlichen Verlauf
beinhalten.
Alle genannten Transformationen können zudem für den gesamten Datensatz oder
separat für Teile des Datensatzes (z. B. einzelne Datentupel, alle Datentupel für einen
Patienten, alle Datentupel einer Patientengruppe) durchgeführt werden. Jede Daten-
tupelselektion ändert u. U. die jeweilige Aussage erheblich, weil nun ein anderer Da-
tensatz zugrunde liegt .
Bei Videobildern (wie z. B. fMRT-Bilder bei einer funktionellen Magnetresonanzto-
mographie) eignen sich sowohl die transformierten Merkmale xTrans (Typ I: Abtast-

121
5 Data Mining: Spezielle Verfahren

zeitpunkte, Typ II: Bilder) als auch die Transformationsmatrix A bzw. deren Pseudoin-
verse1 A−1 (Typ I: Bilder, Typ II: Abtastzeitpunkte) zur Visualisierung. ICA-Verfahren
für Typ I werden als TICA (Temporal Independent Component Analysis) und für Typ II
als SICA (Spatial Independent Component Analysis) bezeichnet, wobei sich die Na-
mensgebung an den transformierten Merkmalen orientiert [88, 332, 350]. Wegen
der alternierenden Visualisierung der transformierten Merkmale und der zugehöri-
gen Transformationsvektoren sind beide Methoden kaum unterscheidbar, allerdings
liefern sie in der Regel abweichende Ergebnisse.
Eine Vielzahl von Anwendungen verwendet die Hauptkomponentenanalyse zum
Auffinden informationstragender Unterschiede bei bildgebenden Verfahren. Der Vor-
teil ist dabei, dass die Werte der Transformationsvektoren (hier: Eigenvektoren) eben-
falls wieder als Bild visualisiert werden können und so eine Interpretation erlauben.
So werden z. B. in [267] MRT-Daten von 84 Patienten ausgewertet (42 weiblich, 42
männlich), um festzustellen, in welchen Hirnregionen anatomische Unterschiede auf-
treten (Typ Ia).
Ein wichtiges Einsatzgebiet für Typ I ist die Extraktion von Merkmalen aus Zeitrei-
hen. So findet sich beispielsweise in [106] ein umfassender Überblick zum Einsatz
der Hauptkomponentenanalyse bei der Einschätzung der Variabilität von Bewegun-
gen. Die Rohdaten sind dabei Markertrajektorien von Bewegungen, Zeitreihen von
Gelenkwinkeln und EMG-Signale, die Transformation ist vom Typ Ib. Eine Extrakti-
on unabhängiger Signalquellen aus Zeitreihen für MEG-Daten diskutiert [186] am
Beispiel der Analyse visuell evozierter Potenziale (ebenfalls Typ Ib). [87] identifiziert
mit einer ICA fünf unabhängige Komponenten aus dem Zeitverlauf von MRT-Bildern
(Typ Ib). Eine Anwendung für EEG-Zeitreihen zeigt [272] (Typ Ib).
[111] reduziert die 101 Abtastzeitpunkte von 8 verschiedenen Zeitreihen bei Be-
wegungen (3 Kräfte, 3 Momente und 2 Winkel) auf 8 × 3 neue Merkmale (Typ IIa),
um im transformierten Raum die Normalisierung von Patienten mit Kniearthroplasti-
ken anhand einer prä- und einer postoperativen Messung im Vergleich mit Proban-
den aufzuzeigen. Die Darstellung räumlich unabhängiger Regionen der Aktivitäten in
fMRT-Bildern bei gesunden Probanden mit Hilfe einer ICA stellt [124] vor, eine ähnli-
che Anwendung für anästhesierte Kinder zeigt [214] (jeweils Typ IIc).
Eine weitere trickreiche Anwendung der Hauptkomponentenanalyse zeigt [109]
anhand der Klassifikation verschiedener Patientengruppen (einer Kontroll- und fünf
Patienten-Subgruppen mit unterschiedlicher Ausprägung von Multipler Sklerose) mit
der sogenannten Magnetisierungs-Transfer-Kontrast-Technik. Hier werden zunächst
Grauwerthistogramme von Bildern als Einzelmerkmale berechnet, die dann wahlwei-
1
A−1 = (AT · A)−1 AT , in einigen Sonderfällen gilt A−1 = AT .

122
5.2 Statistische Verfahren

se mit einer Diskriminanz- und Hauptkomponentenanalyse auf wenige Merkmale re-


duziert werden (Typ Ia für Einzelmerkmale, sowohl für den gesamten Datensatz als
auch gruppenspezifisch). Die transformierten Merkmale nach einer Hauptkomponen-
tenanalyse beschreiben dann die Varianz innerhalb der Histogramme im Datensatz.
Zusätzlich werden zu Visualisierungszwecken Bilder berechnet, deren Grauwerte
durch eine nichtlineare Transformation der originalen Grauwerte in den Raum der
Histogrammeigenvektoren entstehen. Solche Bilder werden als Eigenbilder bezeich-
net (engl. eigenimages). Regionen mit starken Varianzen werden so hervorgehoben,
Regionen mit geringen Varianzen gedämpft.

5.2.4 Distanz- und Separationsmaße

Distanz- und Separationsmaße stammen ursprünglich aus geometrischen Betrach-


tungen. Allerdings eignen sie sich auch für statistische Betrachtungen, wenn die Ver-
teilungsdichtefunktionen grafisch dargestellt werden.
So zeigt der Vergleich des Distanzmaßes (3.36) mit der Gleichung für die s-
dimensionale Normalverteilungsdichte (5.3), dass es sich dabei mit S = Σ c strukturell
um den negativen Term im Exponenten der Exponentialfunktion handelt, der den Ab-
stand eines Datentupels x zum Mittelwert einer Klasse x̄c angibt:

1 1 2
p(x|y = Bc ) = p
s · e− 2 dMah,S=ΣΣc (x,x̄c ) , (5.39)
(2π ) 2 Σc )
det(Σ

wobei dMah die Mahalanobis-Distanz ist.


Die Ähnlichkeit von unbekannten Datentupeln zu Klassen mit einer Normalver-
teilungsannahme kann durch eine Distanz D9 ausgedrückt werden. Diese Betrach-
tungsweise findet insbesondere im folgenden Abschnitt zu Bayes-Klassifikatoren Ver-
wendung.
Auch für die in Abschnitt 3.5.2 diskutierten Separationsmaße ergeben sich unter
der Annahme von Normalverteilungen (5.3) spezielle Lösungen. Diese Maße ermög-
lichen den Vergleich kompletter Verteilungsdichtefunktionen und bieten somit einen
Zugang zum Vergleich von Klassen. Für die Separationsmaße in (3.39)-(3.41) erge-
ben sich die Spezialfälle [365]:

−1
S−1
c +Sj 1
T
dKL (pc (x), p j (x)) =(x̄c − x̄ j ) (x̄c − x̄ j ) + sp(Sc S−1 −1
j + Sc S j − 2Is )
2 2
(5.40)
³1 1
dKL,min (pc (x), p j (x)) = min (x̄c − x̄ j )T S−1 −1
c (x̄c − x̄ j ) + sp(Sc S j − Is ),
2 2

123
5 Data Mining: Spezielle Verfahren

1 1 ´
T −1 −1
(x̄c − x̄ j ) S j (x̄c − x̄ j ) + sp(S j Sc − Is ) (5.41)
2 2
³ ´−1 S +S
det c 2 j
1 T Sc + S j 1
dBat (pc (x), p j (x)) = (x̄c − x̄ j ) (x̄c − x̄ j ) + ln p . (5.42)
8 2 2 det(Sc S j )

5.2.5 Bayes-Klassifikatoren und deren Vereinfachungen

Die Aufgabe bei der Anwendung eines Klassifikators lautet, aus einem gegebenen
reellwertigen Merkmalsvektor eine wertediskrete Entscheidung zu treffen. Beim Ent-
wurf ist der entsprechende funktionelle Zusammenhang festzulegen. Er besteht ent-
weder
• explizit aus einer Entscheidungsfunktion im Merkmalsraum (D2 : ŷ(x)) bzw.
• implizit aus Distanzen zu einer Klasse (D9 : dc (x)) oder aus Verteilungsdichtefunk-
tionen (D10 : pc (x)) sowie A-priori-Wahrscheinlichkeiten D12 für jede einzelne Klas-
se, die in einem nachfolgenden Schritt ausgewertet werden.
Die Trennebenen mit unterschiedlichen Entscheidungen werden oft als Diskrimi-
nanzfunktionen bezeichnet und dürfen nicht mit der Diskriminanzanalyse aus Ab-
schnitt 5.2.3 verwechselt werden.
Der wichtigste statistische Klassifikator ist der Bayes-Klassifikator, der A-posteriori-
Wahrscheinlichkeiten entsprechend D11 (D10 ,D12 ) für eine Klassifikation

P̂(y = Bc ) · p̂(x|y = Bc ) P̂(y = Bc ) · p̂(x|y = Bc )


P̂(y = Bc |x) = = my (5.43)
p̂(x) ∑k=1 P̂(y = Bk ) · p̂(x|y = Bk )

schätzt2 (Wie wahrscheinlich ist die Ausgangsklasse y = Bc bei einem gegebenen


Messwert x?) und dann die Ausgangsklasse Bc mit der maximalen Wahrscheinlichkeit
auswählt:
ŷ = argmaxc (P̂(y = Bc |x)). (5.44)

Dabei gehen die A-priori-Wahrscheinlichkeiten der Ausgangsklassen P̂(y = Bc ) eben-


so in die Entscheidung ein wie die geschätzten Verteilungen der Merkmale für jede
Ausgangsklasse in Form der Verteilungsdichtefunktionen p̂(x|y = Bc ).
Ein Einsetzen der mehrdimensionalen Normalverteilungen entsprechend (5.3) mit
den Schätzungen der Kovarianzmatrizen Sc und der Mittelwerte x̄c liefert nun For-
meln für die Entscheidung. Nach Einsetzen in (5.43), (5.44), Kürzen und Weglassen
unveränderlicher Terme ergibt sich
2
Die Umformung erfolgt mit dem Bayes-Theorem für die Wahrscheinlichkeiten von zwei diskreten
Ereignissen E1 , E2 : P(E1 ∩ E2 ) = P(E1 |E2 )P(E2 ) = P(E2 |E1 )P(E1 ).

124
5.2 Statistische Verfahren

1 T S−1 (x−x̄ ))
P̂(y = Bc ) det(Sc )−1/2 · e(− 2 (x−x̄c ) c c
ŷ = argmaxc my 1 T −1
(5.45)
∑k=1 P̂(y = Bk ) det(Sk )−1/2 · e(− 2 (x−x̄k ) Sk (x−x̄k ))
1 T −1
= argmaxc P̂(y = Bc ) det(Sc )−1/2 · e(− 2 (x−x̄c ) Sc (x−x̄c )) . (5.46)

Mit weiteren Annahmen (gleiche A-priori-Wahrscheinlichkeiten P̂(y = Bc ) = m1y , glei-


che Klassenkovarianzmatrizen Sc = S bzw. Einheitsmatrizen Sc = I) ergeben sich
nach dem Logarithmieren von (5.46) für Kriterium (5.44) bei Normalverteilung weiter
vereinfachte Kriterien. Eine Übersicht gibt Tabelle 5.5.

Vereinfachung Kriterium
in (5.46)
- ŷ = argminc (ln(det(Sc )) − 2 ln(P̂(y = Bc )) + (x − x̄c )T S−1
c (x − x̄c ))
P̂(y = Bc ) = 1 T −1
ŷ = argminc (ln(det(Sc )) + (x − x̄c ) Sc (x − x̄c ))
my
Maximum-Likelihood-Klassifikator
und Sc = S ŷ = argminc ((x − x̄c )T S−1 (x − x̄c ))
c = 1, . . . , my Mahalanobis-Distanz entsprechend (3.36)
und Sc = σ 2 · I ŷ = argminc ((x − x̄c )T (x − x̄c ))
c = 1, . . . , my Euklidische Distanz (Abstandsklassifikator) gemäß (3.34)

Tabelle 5.5: Entscheidungskriterien bei Maximierung der Klassifikationswahrscheinlichkeit


und vereinfachten Normalverteilungen

Eine verwandte Strategie zur Vereinfachung stellen naive Bayes-Klassifikatoren


dar. Sie nehmen die statistische Unabhängigkeit der Merkmale an, weshalb sich
(5.43) zu
P̂(y = Bc ) · ∏sl=1 p̂(xl |y = Bc )
P̂(y = Bc |x) = my (5.47)
∑k=1 P̂(y = Bk ) · ∏sl=1 p̂(xl |y = Bk )
vereinfacht. Bei Normalverteilungen entspricht das der Annahme, dass alle Kova-
rianzmatrizen Sc Diagonalmatrizen sind. Somit sind nur noch eindimensionale Nor-
malverteilungen auszuwerten (siehe z. B. [61]). Hierbei ergeben sich wesentliche Re-
chenvereinfachungen. Allerdings ist diese Annahme in vielen Anwendungen verletzt.
Deshalb muss die näherungsweise Gültigkeit der Annahme kritisch geprüft werden,
um eine Erhöhung des Klassifikationsfehlers zu vermeiden.
Alternativ zur Entscheidungsstrategie in (5.44) kann die A-posteriori-Wahrschein-
lichkeit aus (5.43) bzw. (5.47) auch dazu verwendet werden, entsprechend (3.59) die
Entscheidung ŷ = Bc mit den geringsten erwarteten Entscheidungskosten festzule-
gen:
my
ŷ = argminc ∑ L(ŷ = Bc |y = Bi ) · P̂(y = Bi |x). (5.48)
i=1

125
5 Data Mining: Spezielle Verfahren

Das ist immer dann von Bedeutung, wenn es asymmetrische Präferenzen für Fehl-
entscheidungen gibt (siehe Diskussion in Abschnitt 3.5.4).
Prinzipiell kann dieses Klassifikationskonzept bereits auf die Originaldaten mit s
Merkmalen angewendet werden. Allerdings erfordert die Klassifikation dann die Be-
stimmung extrem vieler Parameter in den geschätzten Mittelwerten und Kovarianz-
matrizen, so dass die erforderliche Menge an Lerndaten zu groß ist (siehe folgendes
Beispiel mit Tabelle 5.6).
Eine bessere Strategie ist eine drastische Reduzierung des Merkmalsraums für
die Klassifikation durch verschiedene Vorverarbeitungsschritte (Merkmalsextraktion,
-selektion, -transformation usw.). Danach wird die bedingte Wahrscheinlichkeit aus
(5.43) berechnet, die von der nachfolgenden Entscheidung D5A wie ein Merkmals-
vektor behandelt wird. Dieser letzte Schritt ist beispielsweise durch (5.44) oder (5.48)
realisiert. Somit entstehen bei der Anwendung Abbildungsreihenfolgen wie
à !
D 18A D D D10A ,D12A 5A D
xRoh [n] →
14A
x[n] → x[n] −→
17A
xTrans [n] −→ P̂[n] → ŷ[n]. (5.49)
(sRoh ,1) (s,1) (sm ,1) (sd ,1) (my ,1) (1,1)

Die verschiedenen Operatoren sind in den Tabellen 3.4 und 3.6 beschrieben. Durch
die Merkmalsselektion und -transformation entsteht ein reduzierter Merkmalsraum.
Somit erhöht sich die statistische Zuverlässigkeit der in diesem Raum geschätzten
Mittelwerte und Kovarianzmatrizen. Das reduziert tendenziell den Klassifikationsfeh-
ler über Testdaten.
Beispiel: Die Ergebnisse unterschiedlicher Klassifikatoren für das 3-Klassen-Problem des
Beispiels verdeutlichen Tabelle 5.6 und Bild 5.5. Im Allgemeinen gelingt es mit transformierten
Merkmalsräumen (wie nach einer Diskriminanzanalyse DA oder einer Merkmalsselektion mit
einer Multivariaten Varianzanalyse MA), gute Ergebnisse zu erzielen.
Eine Reduktion auf ein Merkmal ist allerdings zu einfach, um gute Ergebnisse zu erzie-
len. Das verdeutlicht auch der Boxplot für das ausgewählte Merkmal x1 , der noch deutliche
Überlappungen aufweist (Bild 5.6a).
Besonders einfache und stückweise lineare Trennflächen ergeben sich bei der Verwendung
Euklidischer Distanzen mit Sc = I in (5.46). Allerdings kann es so zu einer zu stark vereinfach-
ten Klassentrennung kommen (Bild 5.5a), bei der einige Datentupel auf der falschen Seite der
Trennflächen liegen. Mahalanobis-Distanzen (Bild 5.5b) und klassenspezifische Kovarianz-
matrizen (Bild 5.5c) verbessern in der Regel die Ergebnisse, weil hier gebogene Trennflächen
entstehen können.
Die Konsequenzen einer wahrscheinlichkeitsorientierten Entscheidung gemäß (5.44) (Ab-
kürzung W) und einer kostenorientierten Entscheidung gemäß (5.48) (Abkürzung K) jeweils
mit und ohne Berücksichtigung von A-priori-Wahrscheinlichkeiten (mit: AW, AK, ohne: W,
K) zeigt Bild 5.5d. A-priori-Wahrscheinlichkeiten vergrößern stets die Entscheidungsgebie-
te häufigerer Klassen, indem sich die Klassengrenzen in Richtung der selteneren Klassen

126
5.2 Statistische Verfahren

a. Euklidisch (AK) b. Mahalanobis (AK)


2 2

0 0

−2 −2
2. Merkmal

2. Merkmal
−4 −4

−6 −6

−8 −8

−10 −10
B1: Proband
−2 0 2 4 6 8 −2 0 2 4 6 8
1. Merkmal B2: Patient A 1. Merkmal
c. Sc (AK) B3: Patient B d. Sc (K,W,AK,AW)
2 2 AW AW
AK AK
0 0 W W
−2 −2 K K
2. Merkmal

2. Merkmal
−4 −4

−6 −6

−8 −8

−10 −10
−2 0 2 4 6 8 −2 0 2 4 6 8
1. Merkmal 1. Merkmal

Bild 5.5: Trennflächen unterschiedlicher Klassifikatoren nach einer Diskriminanzanalyse im


3-Klassen-Problem entsprechend Bild 5.3c für den Lerndatensatz (vgl. Tabelle 5.6),
a. Euklidische Distanz mit A-priori-Wahrscheinlichkeiten und Kostenmatrix (AK), b.
Mahalanobis-Distanz mit AK, c. Klassenspezifische Distanz (auf der Basis von Sc )
mit AK, d. Auswirkungen von A-priori-Wahrscheinlichkeiten und Kostenmatrix auf die
Trennflächen (A: mit A-priori-Wahrscheinlichkeit, K: mit Kosten entsprechend (5.48),
W: ohne Kosten entsprechend (5.44))

verschieben. Das gilt sowohl für wahrscheinlichkeitsorientierte (AW im Vergleich zu W) als


auch für kostenorientierte Entscheidungen (AK im Vergleich zu K). Das verringert tendenziell
den Klassifikationsfehler. Bei der kostenorientierten Entscheidung werden die Trennflächen
zwischen Klassen mit asymmetrischen Entscheidungskosten in L gemäß (5.2) in Richtung
der Klasse mit den geringeren Entscheidungskosten verschoben (K im Vergleich zu W, AK im
Vergleich zu AW), hier in Richtung Klasse B1 (Proband). Somit fällt bei einer kostenorientier-
ten Betrachtung die Entscheidung im Zweifelsfall zu Gunsten der Patientenklassen, was aber
u. U. den Klassifikationsfehler gegenüber einer wahrscheinlichkeitsorientierten Betrachtung
vergrößert. Je nach Kriterium treten somit besonders niedrige Klassifikationsfehler (AW) bzw.
Kosten (AK) auf (Tabelle 5.6).

127
5 Data Mining: Spezielle Verfahren

a. Boxplot für x1 b. A−posteriori−Wahrscheinlichkeiten


5 100
B1: Proband
4 B2: Patient A
80 B3: Patient B
3
Laborwert x1

B2: Patient A
2 60
1

0 40

−1
20
−2

−3 0
B1 B2 B3 0 50 100
Diagnose (3 Klassen) B1: Proband

Bild 5.6: a. Boxplot für x1 und das 3-Klassen-Problem, b. A-posteriori-Wahrscheinlichkeiten


P̂(y[n] = B1 |x[n]) und P̂(y[n] = B2 |x[n]) für die Klassen B1 und B2 in Prozent als
Scatterplot (Variante mit vier Merkmalen ohne Merkmalstransformation, Sc und A-
priori-Wahrscheinlichkeiten)

Eine Darstellung der A-posteriori-Wahrscheinlichkeiten als Scatterplot ist geeignet, auch


in höherdimensionalen Merkmalsräumen die Problemstruktur zu verdeutlichen. Bild 5.6b gibt
ein Beispiel mit P̂(y[n] = B1 |x[n]) und P̂(y[n] = B2 |x[n]) für die Variante mit vier Merkmalen
ohne Merkmalstransformation, Sc und A-priori-Wahrscheinlichkeiten. Da die Summe der A-
posteriori-Wahrscheinlichkeiten aller drei Klassen für jedes Datentupel 100 % beträgt, müs-
sen sich alle Datentupel in einem Dreieck unterhalb der Diagonale befinden. An der Diagonal-
und Linienstruktur ist zu sehen, dass sich die Entscheidungen immer zwischen zwei Klassen
und nicht etwa zwischen allen drei Klassen bewegen. Bei einer Entscheidung mit der ma-
ximalen Wahrscheinlichkeit werden wegen P̂(y[n] = B1 |x[n]) > 50% zahlreiche Patienten als
Proband klassifiziert, was durch eine kostenorientierte Betrachtung verhindert wird. ¥
In medizinischen Anwendungen sind Effekte durch A-priori-Wahrscheinlichkeiten
und Kosten oft gegenläufig, weil vergleichsweise wenige Patienten zur Verfügung
stehen (niedrige A-priori-Wahrscheinlichkeiten), die aber im Zweifelsfall nicht als ge-
sunde Probanden eingestuft werden sollen (hohe Entscheidungskosten). Das ver-
ursacht den paradoxen Effekt, dass bei einer Entscheidung mit (5.44) die Kosten
bei der Verwendung von geschätzten A-priori-Wahrscheinlichkeiten gegenüber einer
Entscheidung ohne A-priori-Wahrscheinlichkeiten teilweise ansteigen. Eine Berück-
sichtigung von Kosten gemäß (5.48) mit A-priori-Wahrscheinlichkeiten führt hingegen
zu guten Ergebnissen. Deshalb ist es immer ratsam, zunächst über ein geeignetes
Bewertungsmaß nachzudenken und erst dann den Klassifikator zu entwerfen.

128
5.2 Statistische Verfahren

Merkmale VDF A-priori WS, Anzahl Klassifika- Kosten gemäß


Kosten Para- tionsfehler [%] (3.59)
meter LD (5CV, 2CV) LD (5CV, 2CV)
Alle Sc AK 44 4.8 (5.6, 6.8) 0.10 (0.12, 0.27)
AN (4 → 1) Sc AK 9 6.5 (6.6, 6.6) 0.12 (0.12, 0.13)
MA (4 → 2) Sc AK 19 3.5 (3.4, 5.0) 0.09 (0.09, 0.15)
DA (4 → 2)∗a Euk AK 14 9.6 (6.0, 5.9) 0.15 (0.11, 0.16)
DA (4 → 2)∗b Mah AK 17 2.2 (2.2, 3.7) 0.09 (0.08, 0.12)
DA (4 → 2)∗c,d Sc AK 23 3.9 (4.8, 4.8) 0.09 (0.10, 0.11)
DA (4 → 2)∗d Sc AW 23 2.2 (2.7, 3.5) 0.11 (0.13, 0.15)
DA (4 → 2)∗d Sc K 21 17.4 (16.4, 16.1) 0.17 (0.19, 0.22)
DA (4 → 2)∗d Sc W 21 6.5 (7.6, 7.0) 0.10 (0.13, 0.14)

Tabelle 5.6: Auswirkungen verschiedener Klassifikatoren und Merkmale für das 3-Klassen-
Problem, Abkürzungen AN: Merkmalsselektion mit univariater Varianzanaly-
se, MA: Merkmalsselektion mit multivariater Varianzanalyse (Bild 5.3d), je-
weils zwei transformierte Merkmale, Parameter der Verteilungsdichtefunkti-
on (VDF) Sc : klassenspezifische Kovarianzmatrizen, Euk: Euklidische Distanz,
Mah: Mahalanobis-Distanz, DA: Diskriminanzanalyse (Bild 5.3c), A: mit A-priori-
Wahrscheinlichkeiten, K: Kosten, W: ohne Kosten, LD: Lerndatensatz, 5CV: 10
Versuche 5-fache Crossvalidierung, 2CV: 10 Versuche 2-fache Crossvalidierung,
∗a−d siehe Teilbild a − d von Bild 5.5

Je nach Problemstellung ist ein vernünftiger Kompromiss zwischen einer Unteran-


passung (Underfitting, zu wenige Parameter) und einer Überanpassung bezüglich der
Anzahl freier Parameter in den Operationen zur Merkmalstransformation und Klassi-
fikation (Distanz bzw. Wahrscheinlichkeitsschätzung, A-priori-Wahrscheinlichkeiten)
zu suchen.
Beispiel: Die Auswirkungen für das Beispiel zeigt Tabelle 5.6. Pro Diskriminanzfunkti-
on (Abbildung s → sd ) fallen in der Transformationsmatrix A (s − 1) · sd freie Parameter an,
also sechs Parameter bei einer Reduktion von s = 4 auf sd = 2 Merkmale (DA). Die Redu-
zierung um Eins entstammt der üblichen Bedingung, dass die Länge des Vektors auf Eins
gesetzt wird. Die entsprechende Transformation zeigt (5.37). Bei einer Merkmalsselektion mit
MANOVA gibt es nur sm freie Parameter, und zwar die Indizes der ausgewählten Merkmale
bzw. die Positionen der entsprechenden Eins-Elemente in der Matrix A. Pro Klasse gibt es
bei jeder Verteilungsdichtefunktion je einen Mittelwert (insgesamt my · sd Parameter) und zu-
sätzlich (sd + 1) · sd /2 Parameter pro Kovarianzmatrix (eine bei Mahalanobis und my bei Sc ).
Hierbei wird die Symmetrie der Kovarianzmatrizen ausgenutzt, was sich im Faktor 2 im Nen-
ner äußert. Pro Schätzung der A-priori-Wahrscheinlichkeit existieren (my − 1) Parameter. Die

129
5 Data Mining: Spezielle Verfahren

Reduzierung um Eins entstammt der Nebenbedingung, dass die Summe aller Wahrschein-
lichkeiten Eins ist.
Somit ergeben sich z. B. für eine Variante mit DA (4 → 2): (4 − 1) · 2 = 6 Parameter, Mah:
(3 · 2 · 1/2 = 3 Parameter), AK: 3 − 1 = 2 Parameter, Klassenmittelwerte: 3 · 2 = 6 Parameter
folglich insgesamt 17 Parameter.
Die Auswirkungen zu vieler freier Parameter zeigen sich besonders bei kleineren Daten-
mengen. Bei einer 2-fachen Crossvalidierung stehen z. B. im 3-Klassen-Fall für die drei Klas-
sen nur noch 100/10/5 Lerndatentupel zur Verfügung. Bei Verwendung aller Merkmale steigen
die Klassifikationsfehler gegenüber einer 5-fachen Crossvalidierung (160/16/8 Lerndatentu-
pel) zwar moderat von 5.6 auf 6.8 % an, allerdings steigen die Kosten von 0.12 auf 0.27
auf mehr als das Doppelte. Die Ursache dafür liegt in der schlechten Schätzung der Kovari-
anzmatrix für Klasse B3 (sd = 4 : (sd + 1) · sd /2 = 5 · 2 = 10) aufgrund der kleineren Anzahl
an Datentupeln (5). Weniger ausgeprägt ist dieser Anstieg bei DA mit Mahalanobis-Distanz:
2.2 % → 3.7 % (Klassifikationsfehler), 0.08 → 0.12 (Kosten), weil hier weniger Parameter zu
schätzen sind (sd = 2 : ((sd + 1) · sd /2 = 3 · 1 = 3)).
Insgesamt sind aber hier die meisten Parameterzahlen noch unproblematisch. In einigen
Fällen kommt es sogar zufällig zu geringeren Kosten über Testdaten. ¥
Die geschätzten Klassifikationsgüten bieten auch einen Zugang zur Merkmals-
transformation. Der Zugang ist u. U. besser als der über die Diskriminanzanalyse, weil
das Kriterium (5.18) für die Klassifikationsgüte oder Kosten nur suboptimal ist. Mit Be-
wertungsmaßen wie (3.56) lassen sich Rückkopplungen aufbauen, die zunächst ei-
ne Transformationsvorschrift A ansetzen (Startwerte z. B. aus Diskriminanzanalyse).
Daraus sind transformierte Merkmale zu berechnen (D17 ), mit (5.46) bedingte Wahr-
scheinlichkeiten (D11 ) zu ermitteln, woraus sich der Gütewert in (3.56) ergibt. Die
Wahrscheinlichkeit P̂(ŷ = Bc ∩ y = Bc ) hängt dann von der Transformationsvorschrift
A ab. Darauf aufbauend kann nun eine numerische Optimierung von A vorgenom-
men werden:

?
D17 mit A D (3.56)
X −→ X −→
11
P̂ −→ Q.
(N,s) (N,sd ) (N,my ) (1,1)

Die grundsätzliche Philosophie ist auf andere Gütemaße (z. B. unter Berücksichti-
gung von Klassifikationskosten) übertragbar.
Klassifikationsprobleme spielen in der klinischen Praxis insbesondere bei hoch-
dimensionalen Merkmalsräumen eine wesentliche Rolle. So beschreibt beispielswei-
se [238] die Detektion von Augentumoren aus MRT-Bildern. Dabei werden Form- und
Texturmerkmale extrahiert und mit Hilfe von klassenspezifischen Kovarianzmatrizen
fünf Klassen und einer Rückweisungsklasse (unähnlich zu allen anderen Klassen)

130
5.2 Statistische Verfahren

zugeordnet, die unterschiedliche anatomische Eigenschaften des Auges beschrei-


ben. Neu zugeordnete Bilder werden in die jeweilige Klasse einbezogen, so dass bei
der nächsten Zuordnung bezüglich der Mittelwerte und Kovarianzmatrizen der Klas-
sen ein Lernvorgang stattfindet. Somit handelt es sich um teilüberwachtes Lernen,
weil nur für einen Teil der Datentupel die Ausgangsgröße bekannt ist.
Häufig werden Klassifikationsprobleme über Diskriminanzfunktionen gelöst, so
dass das Problem erst auf den zweiten Blick sichtbar ist. So wird in [219] aus ei-
ner Vielzahl von EEG-Merkmalen aus Zeitreihen (absolute und relative Leistungs-
dichtespektren bei verschiedenen Sensoren, mittlere Frequenzen usw.) eine Unter-
scheidung mit linearen Diskriminanzfunktionen (Klassen Patient mit Depression –
Proband) vorgenommen und über Crossvalidierung (Leave-one-out) verifiziert. Ähn-
liche Techniken dienen zur Analyse von Merkmalen für die Barorezeptorsensitivität
(engl. Baroreflex sensitivity BRS), die Herzfrequenz- (engl: heart rate variability HRV)
und die Blutdruckvariabilität (engl. blood pressure variability BPV) bei der Unterschei-
dung von Patienten mit dilatativer Kardiomyopathie und gesunden Probanden [274].
Hier erfolgt mit den Klassifikationsergebnissen zusätzlich eine Bewertung von Merk-
malskategorien (BRS, HRV, BPV) im Sinne von Bild 3.1 zur Lösung der Aufgabe.
Wichtig sind statistische Klassifikatoren auch bei der patientenindividuellen Anpas-
sung von Medizingeräten, was in den Abschnitten 7.3 (Unterarmprothesen) und 7.4
(Brain Machine Interfaces) umfassender diskutiert wird.

5.2.6 Nearest-Neighbor-Verfahren

Nearest-Neighbor-Verfahren (Synonym: k-Nearest-Neighbor-Verfahren, k-NN-Ver-


fahren) benötigen keine explizite Lernphase, sondern speichern den kompletten
Lerndatensatz mit Merkmalen x und Ausgangsgrößen y ab [104]. In der Anwendung
lösen sie ihre Aufgabe in zwei Stufen:
• Zunächst werden die k nächstgelegenen Datentupel im Lerndatensatz zu einem
unbekannten Datentupel x mit einer beliebigen Distanz d(·, ·) berechnet (vgl. Ab-
schnitt 3.5.2):

Ik−NN (x) = {I1 , . . . , Ik } (5.50)


mit d(x, x[I1 ]) ≤ . . . ≤ d(x, x[Ik ]) ≤ . . . ≤ d(x, x[IN ]). (5.51)

Die Indexmenge Ik−NN (x) enthält die Indices der k nächstgelegenen Datentupel In ,
die in (5.51) nach aufsteigenden Distanzen zum unbekannten Datentupel sortiert
werden. Oftmals findet die Euklidische Distanz (3.34) Verwendung.
• Die Berechnung der Ausgangsgröße erfolgt durch Übernahme der häufigsten zu-
gehörigen Ausgangsgröße innerhalb dieser k Datentupel:

131
5 Data Mining: Spezielle Verfahren

ŷ(x) = argmaxBc N((y[n] = Bc ) ∩ (n ∈ Ik−NN (x))). (5.52)

Nearest-Neighbor-Verfahren ähneln somit statistischen Verfahren zur Klassifikation


(vgl. Abschnitt 5.2.5), nur dass eine Klasse nicht durch einen, sondern mehrere Re-
präsentanten vertreten wird. Die Vorgehensweise wird auch als fallbasiertes Schlie-
ßen (engl. cased-based reasoning) bezeichnet, weil sich das Verfahren an ähnliche
bekannte Fälle (bzw. Datentupel) ”erinnert”.
Mögliche Erweiterungen umfassen
• die Option der Rückweisung bei zu großen Abständen eines Datentupels zu sei-
nen Nachbarn oder bei widersprüchlichen Entscheidungen,
• die Verwendung einer variablen Anzahl von Nachbarn (z. B. alle Nachbarn mit we-
niger als einer definierten maximalen Distanz, reduzierte Anzahl von Nachbarn bei
zu großen Distanzen) sowie
• verschiedene Arten von Wichtungen (z. B. nach der inversen Distanz), um beson-
ders nah gelegene Nachbarn verstärkt an der Entscheidung zu beteiligen. Darauf
aufbauende gewichtete Mittelwerte anstelle der maximalen Häufigkeit in (5.52) eig-
nen sich insbesondere für Regressionsprobleme, um eine unerwünschte Quanti-
sierung der Ausgangsgröße zu vermeiden.
Umfassende Übersichten zu diesen Themen finden sich in [81, 105, 113].
Ein Vorteil von Nearest-Neighbor-Verfahren gegenüber Verfahren mit der expliziten
Annahme von Verteilungsdichtefunktionen besteht darin, auch bei nichtkompakten
Verteilungen (z. B. aufgrund heterogener Patientengruppen) und kompliziert geform-
ten nichtlinearen Verteilungen noch plausible Ergebnisse zu liefern.
Allerdings weisen sie auch gravierende Nachteile auf, die alle mit den zugrunde-
liegenden Distanzmaßen zusammenhängen. Jedes Datentupel wird separat behan-
delt, es gibt somit keine gemeinsamen Eigenschaften. Die Wahl einer Distanzfunktion
hängt somit nicht vom Datentupel ab. Das ist immer dann kritisch, wenn einige Merk-
male zwar keine klassifikationsrelevante Information, aber dafür zufällige Störungen
enthalten. Diese Störungen gehen voll in die Distanzberechnung ein und überlagern
die Nutzinformation. Deshalb ist es sinnvoll, vorher eine geeignete Merkmalsselek-
tion oder -transformation (z. B. durch eine Diskriminanzanalyse wie in [153]) durch-
zuführen. Zudem erfordern Nearest-Neighbor-Verfahren bei großen Lerndatensätzen
einen großen Speicher- und Berechnungsaufwand.
Beispiel: Die Ergebnisse für k = 1, 3, 10 für das 3-Klassen-Problem des Beispiels ver-
deutlichen Tabelle 5.7 und Bild 5.7. Klassifikatoren mit k = 1 passen sich zwar besonders gut
an komplizierte Verteilungen an, neigen aber zu zerklüfteten Trennflächen. So entstehen im
Umfeld einzelner Datentupel Inseln mit abweichenden Entscheidungen (Bild 5.7a, c). Über

132
5.2 Statistische Verfahren

dem Lerndatensatz sind diese Klassifikatoren stets fehlerfrei, solange keine Datentupel mit
identischen Merkmalswerten, aber abweichenden Ausgangsgrößen existieren.

Merkmale k Varianz- Klassifika- Kosten gemäß


normierung tionsfehler [%] (3.59)
LD (5CV, 2CV) LD (5CV, 2CV)
x1 , x2 1 nein 0.0 (5.9, 6.1) 0.00 (0.21, 0.22)
x1 , x2 3 nein 3.5 (5.4, 6.7) 0.16 (0.23, 0.29)
x1 , x2 10 nein 6.5 (7.7, 8.5) 0.31 (0.36,0.38)
alle 1 nein 0.0 (6.3, 6.5) 0.00 (0.24, 0.28)
alle 3 nein 3.5 (6.5, 7.6) 0.17 (0.30,0.36)
alle 10 nein 7.8 (10.3,11.7) 0.39 (0.50, 0.57)
x1 , x2 1 ja 0.0 (5.7, 5.2) 0.00 (0.18, 0.16)
x1 , x2 3 ja 1.7 (3.1, 3.6) 0.09 (0.12, 0.15)
x1 , x2 10 ja 2.6 (4.1, 5.4) 0.13 (0.19, 0.27)
alle 1 ja 0.0 (3.3, 3.4) 0.00 (0.12, 0.13)
alle 3 ja 1.3 (2.9, 3.7) 0.07 (0.12, 0.17)
alle 10 ja 3.0 (4.6, 7.3) 0.15 (0.23, 0.37)
DA (4 → 2) 1 nein 0.0 (3.5, 3.7) 0.00 (0.12, 0.14)
DA (4 → 2) 3 nein 2.2 (2.6, 3.4) 0.11 (0.11, 0.15)
DA (4 → 2) 10 nein 3.5 (4.0, 5.3) 0.17 (0.20, 0.26)

Tabelle 5.7: Auswirkungen verschiedener Nachbarschaften k und Merkmale für das 3-


Klassen-Problem bei Verwendung der Euklidischen Metrik

Eine Erhöhung von k lässt Fehler im Lerndatensatz zu, bewirkt aber tendenziell glattere
Trennflächen. Allerdings begünstigt sie nahe der Klassengrenzen die Klassen mit einer grö-
ßeren Dichte von Datentupeln. Das führt hier wegen der geringeren Dichte der beiden Patien-
tenklassen zu einer unerwünschten Verschiebung der Trennflächen zugunsten der Proban-
denklasse. Sehr große k wie k = 10 sind darum insbesondere unter Kostenaspekten negativ
zu bewerten.
Besonders niedrige Klassifikationsfehler ergeben sich mit einer vorherigen Diskriminanz-
analyse (DA) mit zwei transformierten Merkmalen. Auch eine Merkmalsselektion mit MANO-
VA zugunsten der besten beiden Merkmale x1 , x2 ist besser als eine Verwendung des kom-
pletten Merkmalssatzes, der durch das nicht informationstragende Merkmal x3 beeinflusst
wird.
Metrikeffekte spielen eine wichtige Rolle, weil Merkmale mit größeren Streuungen die Er-
gebnisse stärker beeinflussen als Merkmale mit geringeren Streuungen. Dieser Effekt kann
durch eine vorherige Varianznormierung aller Merkmale oder eine veränderte Metrik (z. B.
Mahalanobis-Distanz) berücksichtigt werden. Eine Varianznormierung ist hier vorteilhaft, weil
sie insbesondere das nicht informationstragende Merkmal x3 in seiner Wirkung reduziert und

133
5 Data Mining: Spezielle Verfahren

a. k−NN mit k=1 (ohne Varianznormierung) b. k−NN mit k=3 (ohne Varianznormierung)

30 30

25 25
Laborwert x2

Laborwert x2
20 20

15 15

10 10

5 5 B1: Proband
B2: Patient A
−2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1 B3: Patient B

c. k−NN mit k=1 (mit Varianznormierung) d. k−NN mit k=3 (mit Varianznormierung)
4 4

3
Laborwert x2 (normiert)

Laborwert x2 (normiert)

2 2

1 1

0 0

−1 −1

−2 0 2 −2 0 2
Laborwert x1 (normiert) Laborwert x1 (normiert)

Bild 5.7: Ergebnisse von Nearest-Neighbor-Klassifikatoren: a. k = 1 ohne Varianznormierung,


b. k = 3 ohne Varianznormierung, c. k = 1 mit Varianznormierung und d. k = 3 mit
Varianznormierung auf dem Beispieldatensatz nach einer vorherigen Merkmalsse-
lektion für die besten Merkmale x1 und x2

zudem das Merkmal x2 mit seiner geringen Spannweite genauso stark berücksichtigt wie das
Merkmal x1 mit seiner großen Spannweite (Bild 5.7c, d).
Die Ergebnisse zeigen, dass eine vorherige Merkmalsselektion oder -transformation ent-
scheidenden Einfluss ausübt. Unterschiedliche Entscheidungskosten beeinflussen die Ergeb-
nisse hingegen nicht, weil das verwendete Kriterium (5.52) die Kosten nicht einbezieht. ¥
Ein wichtiges Anwendungsgebiet für Nearest-Neighbor-Verfahren ist die Segmen-
tierung von Bildern. In [450] wird aus multispektralen MRT-Bildern eine quantitative
Bestimmung von Tumorgrößen von Hirntumoren vor, während und nach einer Che-
motherapie vorgenommen. Hier wird ein k-NN-Klassifikator mit einem Klassifikator
auf der Basis einfacher Grauwertschwellwerte, einem Fuzzy-Clusterverfahren und ei-
nem manuellen Klassifikator verglichen. Sowohl der k-NN-Klassifikator als auch das
Fuzzy-Clusterverfahren zeigen plausible Ergebnisse in angemessener Rechenzeit im

134
5.3 Support-Vektor-Maschinen

Vergleich zu einer sehr aufwändigen manuellen Segmentierung. Allerdings sind die


Fallzahlen mit acht Patienten sehr klein, was die Aussagekraft der Studie limitiert.
Eine ähnliche Vorgehensweise findet sich auch in [90] für die Vermessung zeitlicher
Änderungen von Knochenverletzungen bei rheumatischer Arthritis in multispektralen
MRT-Aufnahmen mit 13 Patienten.
Eine der noch relativ seltenen klinischen Anwendungen von Genexpressionsdaten
stellt [339] für Überlebenszeitprognosen bei verschiedenen Tumorarten vor. Genex-
pressionsprofile weisen hier eine stärkere Aussagekraft als klassische histologische
Untersuchungen auf. Dabei kommen ebenfalls k-NN-Klassifikatoren zum Einsatz.

5.3 Support-Vektor-Maschinen

Die Idee bei der Nutzung von Support-Vektor-Maschinen (SVM, engl. Support Vec-
tor Machines) besteht darin, zunächst eine optimale Trennebene zur Separation von
Datentupeln zweier Klassen zu finden. Dabei werden zwei Ziele verfolgt: Die Trenn-
ebene soll einen möglichst großen (Sicherheits-) Abstand zu den nächstgelegenen
Datentupeln aufweisen und dabei keine oder zumindest möglichst wenige Klassifi-
kationsfehler verursachen. Die nächstgelegenen Datentupel und eventuelle Klassifi-
kationsfehler werden als Support-Vektoren bezeichnet und bestimmen die Lage der
Trennebene.
In der mathematischen Formulierung (für eine ausführliche Herleitung siehe
[77, 103, 404]) werden die zwei Klassen stets durch die Werte y = 1 und y = −1
kodiert. Anschließend erzeugt eine Lineartransformation mit dem Vektor a und einem
Absolutterm a0 ein skalares transformiertes Merkmal3

xTrans = xT · a + a0 . (5.53)

Die Klassifikation erfolgt durch



1 wenn xTrans ≥ 0
ŷ = (5.54)
−1 wenn xTrans < 0.

Die Bedingung einer fehlerfreien Klassifikation im Lerndatensatz wird durch die Ne-
benbedingungen

y[n](x[n]T · a + a0 ) − 1 ≥ 0 für alle n = 1, . . . , N (5.55)


3
Die hier gewählten Bezeichner sind konform zu den in Kapitel 3 eingeführten Bezeichnern. Die
Spezialliteratur für Support-Vektor-Maschinen verwendet in der Regel abweichende Bezeichner,
z. B. Transformationsvektor w, Lagrange-Multiplikatoren αi usw.

135
5 Data Mining: Spezielle Verfahren

formuliert. Die nächstgelegenen Punkte für die beiden Klassen zur Trennebene
xTrans = 0 erfüllen genau die Gleichungsrestriktion in (5.55)4 und legen somit den
letzten verbliebenen Freiheitsgrad in (5.53) fest (Normierung von a).
Die Summe ihrer Abstände zur Trennebene ist zu maximieren:
|1 − a0 | |1 + a0 | |2|
Q= + = → max . (5.56)
kak kak kak a

Dazu ist kak unter Berücksichtigung der N Nebenbedingungen (5.55) zu minimieren,


was nach einer Lagrange-Formulierung der Nebenbedingungen mit nichtnegativen
Lagrange-Multiplikatoren
λn ≥ 0 (5.57)
auf das Problem
N
1
QL = kak − ∑ λn (y[n] · (x[n]T · a + a0 ) − 1) → max
2
(5.58)
2 n=1 a,a0 ,λ1 ,...,λN

mit den Nebenbedingungen (5.57) und die Bedingungen


∂ QL ∂ QL
= 0 und =0 (5.59)
∂a ∂ a0
für die Lösung des Problems führt.
Die Herleitung steht in [77] und nutzt sogenannte duale Probleme zum Umformen
von konvexen Optimierungsproblemen unter Restriktionen aus. Hierbei wird ein zu
minimierendes Gütekriterium QL mit den Nebenbedingungen
∂ QL
=0 (5.60)
∂ λn
und (5.57) in ein zu maximierendes Gütekriterium QL gemäß (5.58) mit den Neben-
bedingungen (5.59) und (5.57) umgeformt.
Ableiten von (5.58) nach a und a0 liefert die Bedingungen
N
a= ∑ λny[n]x[n], (5.61)
n=1
N
∑ λny[n] = 0, (5.62)
n=1

um (5.59) einzuhalten und die Freiheitsgrade entsprechend zu reduzieren. Das Ein-


setzen von (5.61), (5.62) in (5.58) erzeugt schließlich das numerisch lösbare quadra-
tische Optimierungsproblem
4
Im Falle eines möglichst großen Abstandes aller Datentupel zu dieser Trennebene existiert pro
Klasse mindestens ein Datentupel, das diese Bedingung erfüllt.

136
5.3 Support-Vektor-Maschinen

N
1 N N
QNR = ∑ λn − ∑ ∑ λiλ j y[i]y[ j]x[i]T x[ j] → λ1max
2 i=1 ,...,λN
(5.63)
n=1 j=1

mit den Restriktionen (5.62) und (5.57). Eine weitere interessante Eigenschaft zeigt
sich, wenn (5.61) in die Transformationsvorschrift (5.53) eingesetzt wird. Dabei be-
einflussen nur die Datentupel mit nicht verschwindenden Lagrange-Faktoren λsup :
λn > 0 das Ergebnis, die als Support-Vektoren bezeichnet werden:
N
xTrans (x) = xT · a + a0 = ∑ λny[n]xT x[n] + a0 = ∑ λn y[n]xT x[n] + a0 . (5.64)
n=1 n mit λn ∈λ sup

Der Parameter a0 lässt sich über die Kuhn-Tucker-Bedingungen des Optimierungs-


problems aus den Support-Vektoren gemäß
¡ ¢
λn y[n](x[n]T · a + a0 − 1) = 0 für alle λn > 0 (5.65)
1
a0 = − x[n]T · a für alle n mit λn > 0 (5.66)
y[n]
berechnen [77]. Das Optimierungsproblem hat keine lokalen Optima, die beschriebe-
ne Vorgehensweise garantiert folglich das Finden der optimalen Lösung für die Wahl
der Trennebene.
Allerdings gibt es Fälle, wo keine Trennebene für eine fehlerfreie Klassifikation exis-
tiert. Deshalb werden einzelne Klassifikationsfehler für das n-te Datentupel mit Kor-
rekturwerten ξn > 0 (Synonym: Schlupfvariablen) durch Modifizieren von (5.55) zu

y[n](x[n]T · a + a0 ) − 1 + ξn ≥ 0 für alle n = 1, . . . , N (5.67)

erlaubt. In Erweiterung von (5.58) sind nun zusätzlich die Anzahl und das Ausmaß der
Fehlklassifikationen mit einem frei wählbaren Wichtungsfaktor C ≥ 0 zu minimieren
und die Ungleichungsrestriktion ξn ≥ 0 durch zusätzliche Lagrange-Multiplikatoren µn
zu berücksichtigen:
N N N
1
QL = kak2 +C ∑ ξn − ∑ λn (y[n](x[n]T · a + a0 ) − 1 + ξn ) − ∑ µn ξn . (5.68)
2 n=1 n=1 n=1
Je größer C ist, desto stärker versucht die SVM, Fehlklassifikationen im Lerndaten-
satz zu vermeiden. Ein Auflösen der scheinbar deutlich komplizierteren Gleichungen
zeigt nur eine geringfügige Änderung im Vergleich zur bisherigen Lösung. Durch Ab-
leiten nach ξn ergeben sich die zusätzlichen Bedingungen C − λn − µn = 0, die wegen
der hier nichtnegativen µn nur durch modifizierte Nebenbedingungen

0 ≤ λn ≤ C, n = 1, . . . , N (5.69)

lösbar sind. Damit bleibt auch hier das Problem (5.63) zu lösen, nur dass sich zur
Nebenbedingung (5.62) nun (5.69) anstelle von (5.57) gesellt.

137
5 Data Mining: Spezielle Verfahren

Der Parameter a0 folgt analog zu (5.66) aus


1
a0 = − x[n]T · a für alle n mit 0 < λn < C. (5.70)
y[n]
Damit tauchen sowohl in der Lösungsvorschrift als auch im Optimierungsproblem nur
noch Skalarprodukte der Merkmalsvektoren auf. Diese Eigenschaft kann mit soge-
nannten Kernoperationen mit der Eigenschaft
K(x1 , x2 ) = xTTrans,H (x1 ) · xTrans,H (x2 ) (5.71)
zur virtuellen Konstruktion und effizienten Berechnung hochdimensionaler Merkmals-
räume xTrans,H entsprechend D16 ausgenutzt werden. Hierbei wird statt (5.53) eine
Transformationsvorschrift mit
xTrans = xTTrans,H (x) · aH + a0 (5.72)
verwendet. Allerdings wird dieser höherdimensionale Merkmalsraum mit dem Merk-
malsvektor xTrans,H und dem zugehörigen Transformationsvektor aH nicht explizit be-
rechnet, sondern nur durch Kernoperationen im niederdimensionalen Raum wie
xTrans (x) = xTTrans,H (x) · aH + a0 (5.73)
= ∑ λn y[n] K(x, x[n])
| {z }
+a0 (5.74)
n mit λn ∈λsup
xTrans,H (x)T xTrans (x[n])

und das Optimierungsproblem


N
1 N N
QNR = ∑ λn − ∑ ∑ λiλ j y[i]y[ j]
2 i=1
K(x[i], x[ j])
| {z }
→ max
λ1 ,...,λN
(5.75)
n=1 j=1
xTrans,H (x[i])T xTrans (x[ j])

implizit ausgewertet. Zur Berechnung von a0 folgt analog zu (5.66)


1
a0 = − xTrans,H [n]T · aH für alle n mit 0 < λn < C, (5.76)
y[n]
wobei das Skalarprodukt für mindestens einen Support-Vektor unter Ausnutzen der
Kernoperation in (5.74) auszuwerten ist.
Wichtige Kernfunktionen sind dabei
K(x[i], x[ j]) = (x[i]T · x[ j]) p (homogener Polynom-Kern), (5.77)
K(x[i], x[ j]) = (x[i]T · x[ j] + 1) p (Polynom-Kern), (5.78)
− 1 2 (x[i]−x[ j])T (x[i]−x[ j])
K(x[i], x[ j]) = e 2σ (RBF-Kern), (5.79)
K(x[i], x[ j]) = tanh(p1 x[i]T x[ j] − p2 ) (Hyperbolischer Kern), (5.80)
mit den jeweiligen freien Parametern p, p1 , p2 , σ . Ein homogener Polynom-Kern mit
p = 1 entspricht einem linearen Ansatz und wird als linearer Kern bezeichnet. Der
RBF-Kern ist die Abkürzung für einen Kern mit Radialen Basisfunktionen.

138
5.3 Support-Vektor-Maschinen

Beispiel: Ein zweidimensionaler (s = 2) Merkmalsraum wird in einen höherdimensionalen


Merkmalsraum mit drei Merkmalen transformiert:
³ √ ´T
xTrans,H [i] = x1 [i]2 2x1 [i]x2 [i] x2 [i]2 . (5.81)

Der Wert für xTrans,H [i]T · xTrans,H [ j] lässt sich jetzt sowohl über das Ausmultiplizieren der
transformierten Merkmale aus (5.81)

xTrans,H [i]T · xTrans,H [ j] = x1 [i]2 x1 [ j]2 + x2 [i]2 x2 [ j]2 + 2x1 [i]x1 [ j]x2 [i]x2 [ j] (5.82)

als auch über einen homogenen Polynom-Kern mit p = 2 aus (5.77) mit
µ³ ´ ³ ´T ¶2
K(x[i], x[ j]) = x1 [i] x2 [i] · x1 [ j] x2 [ j] (5.83)

= (x1 [i]x1 [ j] + x2 [i]x2 [ j])2 (5.84)


2 2 2 2
= x1 [i] x1 [ j] + x2 [i] x2 [ j] + 2x1 [i]x1 [ j]x2 [i]x2 [ j] (5.85)

ermitteln. Mit (5.83)-(5.85) können Skalarprodukte für die transformierten Merkmale wie in
(5.74) direkt berechnet werden. Die höherdimensionalen transformierten Merkmale in (5.81)
müssen niemals explizit ermittelt werden (und können im Extremfall sogar unbekannt sein),
sie sind lediglich durch den Kern implizit gegeben. ¥
Lineare Trennfunktionen in einem höherdimensionalen Merkmalsraum ergeben
dann nichtlineare Trennfunktionen im ursprünglichen niederdimensionalen Merkmals-
raum. Auch hier garantiert die Vorgehensweise das Finden der global optimalen Lö-
sung für die nun nichtlineare Trennfunktion.
Mehrklassenprobleme werden durch den Entwurf mehrerer SVMs behandelt, ent-
weder für einen paarweisen Vergleich zwischen allen Klassen oder für einen Ver-
gleich jeder Klasse gegen die ODER-Verknüpfung aller anderen Klassen.
Bei einem paarweisen Vergleich für alle C Klassen (engl. one-against-one) werden
zunächst separate Support-Vektor-Maschinen für alle Klassenpaare entworfen (1 ge-
gen 2, 1 gegen 3, . . ., 1 gegen C, . . ., C − 1 gegen C). Die benötigte SVM-Anzahl
lautet 12 ·C · (C − 1).
Bei einem Vergleich gegen die ODER-Verknüpfung aller anderen Klassen (engl.
one-against-all) werden nur C SVMs benötigt (1 gegen 2 ODER ... ODER C, 2 gegen
1 ODER 3 ODER . . . ODER C, . . ., C gegen 1 ODER 2 ODER . . . ODER C − 1). Auf-
grund der meist komplizierteren Geometrie der ODER-verknüpften Restklassen ist in
der Regel der Einsatz nichtlinearer SVMs sinnvoll. Dennoch sind die Klassifikations-
fehler oftmals größer als bei einer Dekomposition nach dem Schema one-against-
one.
Das Fusionieren der Teilergebnisse durch eine Klassifikatorfusion erfolgt beispiels-
weise zugunsten der am häufigsten gewählten Ausgangsklasse für alle 2-Klassen-

139
5 Data Mining: Spezielle Verfahren

SVMs. Weitere Verfeinerungen (z. B. unter Berücksichtigung der jeweiligen geschätz-


ten Klassenwahrscheinlichkeiten oder der Abstände) sind ebenfalls möglich (vgl. Ab-
schnitt 3.3.2).
Das beschriebene Konzept der SVMs und Kernfunktionen ist nicht ausschließ-
lich auf einen Einsatz für Klassifikationsprobleme beschränkt. Beispielsweise ge-
ben [404, 452] Hinweise für den Einsatz von Support-Vektor-Maschinen für Regres-
sionsprobleme.
Beispiel: Die Ergebnisse unterschiedlicher Parametrierungen für das Beispiel zeigen
Bild 5.8 (nur für die besten beiden Merkmale) und Tabelle 5.8 (für alle Merkmale). Die Merk-
male wurden bei der Berechnung der Support-Vektoren jeweils auf das Intervall [0, 1] nor-
miert. Die programmtechnische Umsetzung erfolgte mit der frei verfügbaren SVM and Kernel
Methods Matlab Toolbox [89], die in die MATLAB-Toolbox Gait-CAD (siehe Abschnitt 6.2)
integriert wurde.
Das 2-Klassen-Problem (Patient – Proband) ist nicht linear trennbar (Fehler über Lerndaten
bei einem linearen Kern: 7.8 %) und nur durch höhere Polynom- oder RBF-Kerne beherrsch-
bar (Fehler über Lerndaten: 1.7-2.2 %). Diese sind hier vorteilhaft, weil sie auch ohne die
Dekomposition in zwei Patientensubklassen (3-Klassen-Problem) auskommen.
Das 3-Klassen-Problem wird wegen der Eigenschaft der SVMs, nur paarweise 2-Klassen-
Probleme lösen zu können, jeweils in drei Teilprobleme (one-against-one) dekomponiert. Die
Ergebnisse der Teilprobleme werden anschließend fusioniert. Davon sind zwei Teilprobleme
(Proband – Patient A, Proband – Patient B) im originalen Merkmalsraum im Sinne der Restrik-
tion (5.55) nicht fehlerfrei lösbar (siehe Lage der Datentupel in Bild 5.8b). Die Fehlerfreiheit ist
nur für ein Teilproblem (Patient A – Patient B) gegeben (Bild 5.8a). Durch die Dekomposition
der Patientensubklassen wird das 3-Klassen-Problem auch für lineare Kerne gut lösbar (Feh-
ler über Lerndaten: 1.7 %). RBF-Kerne geben ebenfalls gute Ergebnisse über Lern- (1.7-2.2
%) und Testdaten (2.5-4.5 %), siehe auch Bild 5.8d für zwei Merkmale.
Der Polynom-Kern mit p = 3 findet im Lerndatensatz nahezu fehlerfreie Trennfunktionen
(Fehler 0.9 %, siehe auch Bild 5.8c für zwei Merkmale). Die sind aber sehr kompliziert und
erhöhen das Risiko einer Überanpassung, was sich an den unbefriedigenden Werten für die
Crossvalidierung zeigt (z. B. 6.0% bei 5-facher Crossvalidierung im 3-Klassen-Problem).
Die Anzahl der Support-Vektoren und somit auch der Rechenaufwand steigen mit der Kom-
pliziertheit der Trennfunktionen und der Anzahl von fehlklassifizierten Datentupeln deutlich an
(z. B. 3 Support-Vektoren in Bild 5.8a, 17 in Bild 5.8b).
Ein Beispiel für die Wirkung des Parameters C für die Wichtung von Fehlklassifikationen
zeigt Bild 5.9. Mit zunehmenden Werten von C entstehen zur Vermeidung von Fehlklassifika-
tionen kompliziertere Trennfunktionen, solange der gewählte Kern das zulässt. Beispielsweise
gelingt es der SVM mit einem Parameter von C = 1000000 (Bild 5.9d) und einem Polynom-
Kern dritter Ordnung, die Zahl der Fehlklassifikationen auf 2 zu reduzieren. Ein geeigneter
C-Wert ist problemspezifisch zu wählen, Werte zwischen 100 und 10000 führen aber in vielen

140
5.3 Support-Vektor-Maschinen

a. lineare SVM (nur B2,B3) b. lineare SVM

30 30

25 25
Laborwert x2

Laborwert x2
20
20
15
15
10
10
5
5
−2 0 2 4 B1: Proband −2 0 2 4
Laborwert x1 B2: Patient A Laborwert x1
c. SVM mit Polynom−Kern (p=3) B3: Patient B d. SVM mit RBF−Kern (p=1)

30 30

25 25
Laborwert x2

Laborwert x2

20 20

15 15

10 10

5 5

−2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1

Bild 5.8: Ergebnisse von Support-Vektor-Maschinen nach einer vorherigen Merkmalsselek-


tion (zur besseren Visualisierung) für die besten Merkmale x1 und x2 :
a. fehlerfrei lösbares Teilproblem mit den Patientenklassen B2 , B3
(SVM mit linearem Kern),
b. 3-Klassen-Problem (SVM mit linearem Kern, one-against-one),
c. 3-Klassen-Problem (SVM mit Polynom-Kern für p = 3, one-against-one),
d. 3-Klassen-Problem (SVM mit RBF-Kern und p = 1, one-against-one).
Die Support-Vektoren sind durch Dreiecke hervorgehoben.

141
5 Data Mining: Spezielle Verfahren

Kern Grad p Klassen Klassifika- Kosten gemäß


tionsfehler [%] (3.59)
LD (5CV, 2CV) LD (5CV, 2CV)
linear 1 2 7.8 (8.8, 9.3) 0.37 (0.41, 0.43)
Polynom 1 2 7.8 (9.3, 9.9) 0.37 (0.44, 0.46)
Polynom 2 2 1.7 (3.8, 4.3) 0.07 (0.14, 0.14)
Polynom 3 2 1.7 (5.0, 6.3) 0.07 (0.16, 0.18)
RBF 1 2 1.7 (3.6, 4.7) 0.07 (0.14, 0.17)
RBF 2 2 2.2 (2.8, 3.3) 0.09 (0.12, 0.14)
RBF 3 2 2.2 (3.5, 4.5) 0.11 (0.17, 0.21)
linear 1 3 1.7 (3.0, 3.3) 0.09 (0.10, 0.11)
Polynom 1 3 1.7 (2.9, 3.3) 0.09 (0.10, 0.11)
Polynom 2 3 1.7 (3.9, 4.5) 0.09 (0.14, 0.15)
Polynom 3 3 0.9 (6.0, 6.2) 0.04 (0.17, 0.19)
RBF 1 3 1.7 (3.5, 4.5) 0.09 (0.12, 0.13)
RBF 2 3 2.2 (2.7, 3.4) 0.09 (0.10, 0.12)
RBF 3 3 1.7 (2.5, 2.8) 0.09 (0.10, 0.11)

Tabelle 5.8: Klassifikationsfehler und Kosten bei verschiedenen Parametrierungen von


Support-Vektor-Maschinen (C = 1000, s = 4: alle Merkmale, 5CV: 5-fache Cross-
validierung, 2CV: 2-fache Crossvalidierung, LD: Lerndatensatz)

Problemstellungen zu guten Kompromissen. Bei einem Polynom-Kern der Ordnung 1 ändert


sich hingegen wenig, weil er im zweidimensionalen Raum nur Geraden zulässt. ¥
In medizinischen Aufgaben eignen sich Support-Vektor-Maschinen insbesonde-
re für komplizierte Klassifikationsprobleme in hochdimensionalen Merkmalsräumen
[241, 363, 202]. Sie zeichnen sich durch niedrige Klassifikationsfehler und eine gu-
te Robustheit gegen Überanpassung aus, erfordern allerdings einen vergleichsweise
hohen Rechenaufwand in der Entwurfsphase. Der Aufwand in der Anwendungspha-
se hängt stark von den gewählten SVMs und der Problemstellung ab. Bei SVMs mit
linearem Kern und 2-Klassen-Problemen ist die direkte Berechnung von a, a0 und die
Auswertung von (5.53) sehr effizient. Bei anderen Kernen ist oftmals der Umweg über
(5.74) günstiger, wobei der Aufwand dann linear von der Zahl der Support-Vektoren
und somit von der Kompliziertheit des Problems abhängt.
Ein wichtiges Anwendungsfeld sind Brain Machine Interfaces (siehe z. B. [241],
Abschnitt 7.4), bei denen ein größerer Rechenaufwand in der Regel unproblematisch
ist. Ein ähnliches Anwendungsfeld bearbeitet [202] zur Auswertung von evozierten
Potenzialen aus EEG-Zeitreihen, um eine Diagnose zwischen depressiven Patienten
und gesunden Probanden vorzunehmen (je 25 Personen). In [148] werden Support-

142
5.3 Support-Vektor-Maschinen

a. SVM mit C=1 b. SVM mit C=100


35 35

30 30

25 25
Laborwert x2

Laborwert x2
20 20

15 15

10 10

5 5

0 0
−1 0 1 2 3 4 5 −1 0 1 2 3 4 5
Laborwert x1 Laborwert x1
B1: Proband
c. SVM mit C=10000 B2: Patient A d. SVM mit C=1000000
35 35

30 30

25 25
Laborwert x2

Laborwert x2

20 20

15 15

10 10

5 5

0 0
−1 0 1 2 3 4 5 −1 0 1 2 3 4 5
Laborwert x1 Laborwert x1

Bild 5.9: Ergebnisse einer Support-Vektor-Maschine mit Polynom-Kern ( p = 3) für verschiede-


ne Werte des Parameters C zur Wichtung von Fehlklassifikationen bei Trennung der
Klassen Proband und Patient A: a. C = 1, b. C = 100, c. C = 10000, d. C = 1000000
für die besten Merkmale x1 und x2

Vektor-Maschinen zur Merkmalsselektion und nachfolgenden Klassifikation zweier


Leukämiesubklassen (Lerndatensatz mit 38 Datentupeln, Testdatensatz mit 34 Da-
tentupeln, 7129 Merkmale) sowie zur Klassifikation zwischen Patienten mit einem
Dickdarmkarzinom und gesunden Probanden (Lerndatensatz mit 62 Datentupeln,
2000 Merkmale) verwendet. Die zugrundeliegenden Merkmale sind jeweils Genex-
pressionsprofile aus Microarray-Experimenten. Die SVMs sind dabei einer linearen
Diskriminanzanalyse überlegen [241].

143
5 Data Mining: Spezielle Verfahren

?=B1
x1

A1,1 A1,2 A1,3 A1,4 A1,5


?=B3 ?=B1 ?=B1 ?=B2 ?=B2
x2

A2,1 A2,2 A2,3 A2,4 A2,5


?=B1 ?=B1 ?=B1 ?=B1 ?=B2
x3

x A3,1 A3,2 A3,3 A3,4 A3,5


?=B1 ?=B1 ?=B2 ?=B1 ?=B2

Bild 5.10: Entscheidungsbaum für das Beispiel

5.4 Entscheidungsbäume

Ein Entscheidungsbaum ist ein Modell für einen mehrstufigen Auswerteprozess zur
Berechnung einer Ausgangsgröße für ein Datentupel anhand der Werte seiner Merk-
male. Die Idee besteht darin, die Auswertung durch schrittweise hintereinander aus-
zuführende Entscheidungen vorzunehmen. Übersichten über Entscheidungsbäume
finden sich beispielsweise in [70, 287, 359].
In einer formalen Darstellung ist ein Entscheidungsbaum ein Graph, der aus Kno-
ten und Zweigen besteht (vgl. Beispiel in Bild 5.10). Jeder Knoten enthält eine Funk-
tion zur Bestimmung der geschätzten Ausgangsgröße ŷ(·) und optional ein Merkmal
xl zur weiteren Auftrennung. In der obersten Hierarchieebene befindet sich der Wur-
zelknoten. Jeder Knoten einer niedrigeren Hierarchieebene ist durch einen Zweig mit
genau einem Knoten der nächsthöheren Hierarchieebene verbunden (Vorgängerkno-
ten). Zu jedem Zweig gehört ein wertediskreter Wert des Merkmals xl des Knotens
der nächsthöheren Hierarchieebene (z. B. in Bild 5.10 x1 = A1,1 für den linken Zweig,
der vom Wurzelknoten abgeht). Vom Knoten der höheren Hierarchieebene aus gese-
hen entspricht die Anzahl der abgehenden Zweige somit stets der Anzahl der mögli-
chen Werte ml , z. B. ml = 5 für alle Knoten im Bild 5.10. Ein Knoten heißt Endknoten,
wenn von ihm keine Zweige zur nächstniedrigeren Hierarchieebene abgehen.
In der Entwurfsphase gehört zu jedem Knoten ein eigener Lerndatensatz. Der
Lerndatensatz wählt die Datentupel aus dem Lerndatensatz des Knotens der nächst-
höheren Hierarchieebene aus, die den Werten des beide verbindenden Zweiges ent-

144
5.4 Entscheidungsbäume

sprechen. Der komplette Lerndatensatz wird nur im Wurzelknoten verwendet. Für je-
den Knoten wird anhand eines Bewertungsmaßes eine Funktion zur Bestimmung der
geschätzten Ausgangsgröße ŷ(·) festgelegt. Wenn die Datentupel in einem Knoten
homogen bezüglich des Bewertungsmaßes sind, ist
ihre weitere Auftrennung nicht notwendig. Der Knoten wird somit zu einem End-
knoten. Wenn die Datentupel noch Inhomogenitäten aufweisen, werden sie in Ab-
hängigkeit vom Wert eines Merkmals xl aufgespalten (im Bild 5.10 unterer Eintrag im
Knoten, z. B. x1 im Wurzelknoten). Wenn ein bestimmter Wert im Lerndatensatz nicht
vorkommt, wird für diesen Zweig ein Endknoten generiert, der die Ausgangsgröße
des übergeordneten Knotens übernimmt.
Die Auswahl des optimalen Merkmals xl erfolgt über eine univariate Merkmalsbe-
wertung D23 für den zum Knoten gehörenden Lerndatensatz. Jeder Zweig nimmt eine
Datentupelselektion D22 vor, die für den Knoten der niedrigeren Hierarchieebene gilt.
Wertekontinuierliche Merkmale müssen zunächst geeignet diskretisiert werden.
Das Aufspalten wird für jeden Knoten durchgeführt, bis in der jeweils unters-
ten Hierarchieebene nur noch Endknoten entstehen. Jedes Datentupel lässt sich
genau einem Endknoten zuordnen. Es handelt sich somit um Teile-und-Herrsche-
Algorithmen zum Dekomponieren von Lerndatensätzen. Eventuell auftretende feh-
lende Werte in einem Lerndatensatz können optional als zusätzliche Werte betrachtet
werden. Damit erhöht sich die Zahl der zulässigen Werte und der abgehenden Zwei-
ge ml := ml +1. Fuzzy-Entscheidungsbäume [197, 479] lassen fuzzifizierte Merkmale
zu. Damit werden die Datentupelselektionen, Lerndatensätze und Zuordnungen von
Datentupeln zu Endknoten unscharf.
Ein Entscheidungsbaum lässt sich auch als Regelbasis mit scharfen oder unschar-
fen (Fuzzy-) Regeln darstellen. Hierbei entsteht aus jedem Endknoten eine Regel
(Algorithmus siehe S. 173 in Abschnitt 5.5). Solche Regelbasen decken prinzipiell
den gesamten Merkmalsraum ab.
In der Anwendungsphase beginnt die Auswertung eines gegebenen Entschei-
dungsbaums für ein Datentupel mit unbekannter Ausgangsgröße im Wurzelknoten.
Dort wird derjenige Zweig ausgewählt, der zum Wert des Merkmals im Wurzelknoten
gehört. Im Nachfolgeknoten, den der Zweig mit dem Wurzelknoten verbindet, wird
wiederum das dortige Merkmal untersucht und der zum Wert des Merkmals pas-
sende Zweig sowie der nächste Knoten ausgewählt. Das wird iterativ solange wie-
derholt, bis ein Endknoten erreicht wird. Der Endknoten liefert dann die geschätzte
Ausgangsgröße des Datentupels. Die geschätzten Ausgangsgrößen in den vorher
durchlaufenen Knoten werden ignoriert. Entscheidungsbäume erfordern nur einen
geringen Rechenaufwand in der Anwendungsphase. Ihre Auswertung besteht ledig-

145
5 Data Mining: Spezielle Verfahren

lich aus einer Reihe scharfer Schwellwertentscheidungen für einzelne Merkmale in


den durchlaufenen Knoten sowie der Berechnung der Ausgangsgröße im Endkno-
ten. Bei konstanten Ausgangsgrößen im Endknoten kommt die Anwendung somit
ohne aufwändige Operationen wie Multiplikationen oder Potenzbildungen aus.
Bei Fuzzy-Entscheidungsbäumen sind parallel alle Zweige und Knoten zu durch-
laufen, für die Zugehörigkeitsgrade größer Null auftreten. Die geschätzten Ausgangs-
größen aller Endknoten sind dann mit einer Defuzzifizierung (siehe Abschnitt 5.5.4)
zu fusionieren. Der Rechenaufwand in der Anwendungsphase ist somit höher als bei
(scharfen) Entscheidungsbäumen, weil mehrere Zweige parallel auszuwerten sind
und Zugehörigkeitswerte berechnet werden müssen, was die Ausführung von Multi-
plikationen erfordert (vgl. Abschnitt 5.5).
Die Algorithmen für den Entwurf von Entscheidungsbäumen unterscheiden sich
nach
• der Funktion und dem Bewertungsmaß zur Bestimmung der Ausgangsgröße ŷ(·)
im i-ten Knoten,
• dem univariaten Bewertungsmaß, mit dem das Merkmal xl für die Aufspaltung im
i-ten Knoten ausgewählt wird, sowie
• der Art der Diskretisierung oder Fuzzifizierung beim Auftreten wertekontinuierli-
cher Merkmale.

Alle Bewertungsmaße beziehen sich prinzipiell nur auf den selektierten Lerndaten-
satz im i-ten Knoten.
Entscheidungsbäume eignen sich für Entscheidungs-, Klassifikations- und Regres-
sionsprobleme. Bei Entscheidungs- oder Klassifikationsproblemen wird mit Hilfe ei-
nes geeigneten Maßes für D25 eine Funktion ŷ = Bc ermittelt. Meist ist Bc die häu-
figste Ausgangsklasse im Knoten, was der Klasse mit dem geringsten Klassifikations-
fehler (3.53) entspricht. Alternativ kann aber auch die kostengünstigste Entscheidung
entsprechend (3.59) gewählt werden. Die gewählte Ausgangsklasse wird im Bild 5.10
als oberer Wert in jedem Knoten eingetragen, z. B. ŷ = B1 im Wurzelknoten. Im Falle
eines Regressionsproblems ist die Funktion ŷ(·) ein Regressionsansatz, der nur für
diesen Knoten gilt. Oftmals handelt es sich lediglich um Konstanten ŷ = a0,i für den i-
ten Knoten (z. B. Classification and Regression Trees CART [70]). Es existieren aber
auch lineare Modelle mit ŷ(x) = aTi x + a0,i mit separaten Transformationsvektoren ai
und Absoluttermen a0,i für jeden Knoten (siehe z. B. lineare Modelle [360, 446], LO-
LIMOT [172, 325]). Alternativ dazu sind auch nichtlineare Funktionen möglich. Als
Bewertungsmaß kommt ein regressionsorientiertes Maß D27 wie z. B. (3.73) zum
Einsatz.

146
5.4 Entscheidungsbäume

In jedem Knoten entscheidet ein univariates Bewertungsmaß D23 , welches Merk-


mal xl als das beste auszuwählen ist oder ob kein Merkmal gut genug ist und ein
Endknoten erzeugt wird. Eine Übersicht über solche Bewertungsmaße (engl. split-
ting criteria) gibt [69]. Jedes Bewertungsmaß bezieht sich entweder auf den Lern-
datensatz im Knoten oder auf daraus generierte Testdatensätze, die durch Validie-
rungstechniken wie Bootstrap oder Crossvalidierung entstehen. Zur Bewertung gibt
es unter anderem die folgenden Maße:
• maximale Transinformation (3.45) zwischen der Ausgangsgröße y und dem Merk-
mal xl (ID3-Algorithmus, [359])5 , wobei hier die statistischen Korrekturen entspre-
chend (3.49) und (3.50) empfehlenswert sind,
• maximale Transinformation pro Eingangsentropie (3.51) zwischen der Ausgangs-
größe y und dem Merkmal xl (C4.5-Verfahren [361]), auch mit den entsprechenden
statistischen Korrekturen wie z. B. entsprechend (3.49) und (3.50),
• Twoing-Index für binäre Merkmale mit Werten Al,1 und Al,2

QTwoing (xl ) =
P̂(xl = Al,1 )P̂(xl = Al,2 ) ³ y ¯¯ ¯´2
m

4 ∑ P̂(y = Bc|xl = Al,1) − P̂(y = Bc|xl = Al,2)¯ (5.86)


c=1

(gute Auftrennung: große Werte, ungünstigster Fall QTwoing = 0),


• Gini-Index (3.61) sowie
• klassifikations- oder regressionsorientierte Bewertungsmaße D25 bzw. D27 für die
Ausgangsgröße nach Auftrennung mit dem Merkmal xl in Folgeknoten.
Die Bewertung kann einmalig beim Generieren des Knotens oder zweimalig erfolgen.
Im letztgenannten Fall wird der vollständig entwickelte Baum noch einmal von unten
nach oben daraufhin geprüft, ob alle Auftrennungen statistisch relevant sind. Knoten,
deren Auftrennungen nicht relevant sind und die nur mit nicht relevanten Knoten in
tieferen Hierarchieebenen verbunden sind, werden zu Endknoten. Dieser Schritt wird
als Pruning bezeichnet, weil somit Teilbäume abgeschnitten werden. Allerdings kann
der Vorgang eine nichtoptimale Entwicklung des Baums (Auswahl eines bestimmten
Merkmals in einem Knoten) nicht beheben.
Die Diskretisierung bei wertekontinuierlichen Merkmalen erfolgt entweder vor der
Berechnung des Entscheidungsbaums oder individuell für jeden Knoten. Im letztge-
nannten Fall muss in der Entwurfsphase für jeden Knoten außer den Endknoten eine
geeignete Diskretisierungsvorschrift D20 entworfen werden. So nimmt beispielsweise
der CART-Algorithmus [70] stets eine binäre Diskretisierung vor. Dabei berechnet er
5
Eine identische Merkmalsselektion bewirken das Minimieren der Irrelevanz (3.46) sowie das Maxi-
mieren der Transinformation pro Ausgangsentropie in (3.52).

147
5 Data Mining: Spezielle Verfahren

für jedes Merkmal jede mögliche Diskretisierung für die Ni Datentupel im i-ten Kno-
ten. Das führt zwar oftmals zu guten Lösungen, erfordert aber einen hohen Rechen-
aufwand und ist bei größeren Entscheidungsbäumen u. U. schwer interpretierbar.
Beispiel: Einen Entscheidungsbaum für das Beispiel zeigt Bild 5.10. Es handelt sich hier-
bei um einen Baum für ein Klassifikationsproblem, der mit der Transinformation pro Aus-
gangsentropie (3.52) mit den statistischen Korrekturen entsprechend (3.49) und (3.50) ermit-
telt wurde.
Die Diskretisierung erfolgt vor dem Entwurf des Entscheidungsbaums durch ein Cluster-
verfahren. Der diskretisierte Wert xDis,l basiert auf der Nummer des Clusters für jedes Daten-
tupel:
xDis,l [n] = argmini dEuk (xl [n], al,i ). (5.87)
Das eingesetzte Clusterverfahren arbeitet separat für jedes Merkmal mit ml = 5 Cluster-
zentren al,i und Euklidischen Distanzen (Ergebnis siehe Tabelle 5.9, Verfahren siehe Ab-
schnitt 5.7).

xl Bezeichnung al,1 al,2 al,3 al,4 al,5


x1 Laborwert x1 -2.06 0.17 1.09 2.03 3.46
x2 Laborwert x2 4.02 7.99 11.50 15.64 22.18
x3 Messwert x3 -2.56 3.27 9.25 15.16 22.21
x4 Messwert x4 -3.40 -2.00 -1.10 0.20 2.05

Tabelle 5.9: Clusterzentren als Basis für die Diskretisierung mit jeweils eindimensionalen
Clusterverfahren und ml = 5

Bei allen Entropieberechnungen ist zu beachten, dass unterschiedliche Diskretisierungen


die Werte beeinflussen können. Für die Diskretisierung
³ ´
a1 = −2.06 0.17 1.09 2.03 3.46 (5.88)

aus Tabelle 5.11 (Variante A) ergibt sich eine Verbundverteilung von


 
0.000 0.296 0.370 0.200 0.004
 
P̂(y ∩ xl ) = 0.000 0.000 0.000 0.035 0.052 (5.89)
0.039 0.004 0.000 0.000 0.000

mit den Elementen P̂(y = Bc ∩ x1 = A1,i ). Für die Variante B mit gerundeten Werten
³ ´
a1 = −2 0 1 2 3 (5.90)

folgt
 
0.000 0.230 0.417 0.196 0.026
 
P̂(y ∩ xl ) = 0.000 0.000 0.000 0.013 0.074 . (5.91)
0.039 0.004 0.000 0.000 0.000

148
5.4 Entscheidungsbäume

Die entsprechenden Entropieberechnungen zeigt Tabelle 5.10. Der relativ hohe Wert der
Transinformation pro Ausgangsentropie zeigt ein informationstragendes Merkmal an. Ein
ideales Merkmal hat den Wert Eins, ein komplett informationsloses den Wert Null. Hingegen
weist der relativ niedrige Wert der Transinformation pro Eingangsentropie darauf hin, dass
eine Diskretisierung mit fünf Werten für das Beispiel etwas zu fein ist. Die Werte der Fehler-
terme in den Klammern belegen, dass die gefundenen Zusammenhänge relevant sind. Die
Fehlerfortpflanzungen für (3.51) und (3.52) werden dadurch approximiert, dass die Transin-
formation im Zähler um den Korrekturwert der Gesamtentropie (3.50) mit einem Sicherheits-
faktor Kstat reduziert und die Ein- bzw. Ausgangsentropie um ihre jeweiligen Korrekturwerte
(3.49) mit einem Sicherheitsfaktor erhöht werden:

max(0, H(xl ; y) − KStat · ∆Ĥ(xl ; y))


Ql = , Ql ∈ [0, 1]. (5.92)
H(y) + KStat · ∆Ĥ(y)
Für Kstat = 1 reduziert sich die Transinformation pro Ausgangsentropie auf einen Wert von
0.67 (Variante A) bzw. 0.69 (Variante B). Für Kstat = 2.5 gilt entsprechend 0.60 (Variante A)
bzw. 0.62 (Variante B).

Diskretisierung Variante A Variante B


Eingangsentropie H(x1 ) 1.96 (0.01,0.03) 2.00 (0.01,0.03)
Ausgangsentropie H(y) 0.68 (0.01,0.02) 0.68 (0.01,0.02)
Gesamtentropie H(x1 , y) 2.16 (0.03,0.08) 2.19 (0.03,0.08)
Transinformation H(x1 ; y) 0.48 0.49
Irrelevanz H(y|x1 ) 0.20 0.18
Äquivokation H(x1 |y) 1.48 1.51
Transinformation pro Ausgangsentropie 0.71 (0.04,0.11) 0.73 (0.04,0.11)
Transinformation pro Eingangsentropie 0.25 (0.02,0.04) 0.25 (0.02,0.04)

Tabelle 5.10: Auswirkungen unterschiedlicher Diskretisierungen gemäß den Varianten A


(5.88) und B (5.90) auf die Entropiebilanz für x1 mit Formeln aus (3.42-3.47),
Werte in Klammern: statistische Korrekturen ∆Ĥ als Fehlerabschätzungen ge-
mäß (3.49), (3.50) und (5.92), 1. Wert Sicherheitsfaktor Kstat = 1, 2. Wert Si-
cherheitsfaktor Kstat = 2.5

Mit Variante A, allen anderen Diskretisierungen aus Tabelle 5.9 und Kstat = 2.5 wird nun ein
Entscheidungsbaum berechnet. Die Details über die einzelnen Knoten, wie Nummer, Vorgän-
gerknoten in der höheren Hierarchieebene, zugehöriger Wert des Merkmals für den Zweig zur
höheren Hierarchieebene, Entscheidung ŷ im Knoten, Merkmal zur Auftrennung, Merkmals-
bewertung, Anzahl Fehler und Anzahl Datentupel im Knoten können Tabelle 5.11 entnommen
werden.
Im Wurzelknoten gibt es mit x1 und x4 zwei nahezu gleichwertige Merkmale mit einer Merk-
malsbewertung von Q1 = 0.60 und Q4 = 0.57.

149
5 Data Mining: Spezielle Verfahren

Knoten Vorgänger- Wert ŷ xl Merkmalsbewertung Ql Fehler Datentupel


knoten (Zweig) x1 x2 x3 x4 Ni
v1 (W ) – – B1 x1 0.60 0.24 0.00 0.57 30 230
v2 (E) v1 A1,1 B3 – – – – – 0 9
v3 (E) v1 A1,2 B1 – – 0.00 0.00 0.00 1 69
v4 (E) v1 A1,3 B1 – – – – – 0 85
v5 v1 A1,4 B1 x2 – 0.46 0.00 0.00 8 54
v6 (E) v1 A1,5 B2 – – 0.00 0.00 – 1 13
v7 (E) v5 A2,1 B1 – – – – – 0 14
v8 (E) v5 A2,2 B1 – – – – – 0 10
v9 (E) v5 A2,3 B1 – – – – – 0 16
v10 v5 A2,4 B1 x3 – – 0.22 – 4 10
v11 (E) v5 A2,5 B2 – – – – – 0 4
v12 (E) v10 A3,1 B1 – – – – – 0 3
v13 (E) v10 A3,2 B1 – – – – – 0 2
v14 (E) v10 A3,3 B2 – – – – – 0 3
v15 (E) v10 A3,4 B1 – – – – – 0 1
v16 (E) v10 A3,5 B2 – – – – – 0 1

Tabelle 5.11: Detailinformationen zum Entscheidungsbaum in Bild 5.10 (W: Wurzelknoten, E:


Endknoten, Ni : Anzahl Datentupel im Lerndatensatz des Knotens vi ), Sicher-
heitsfaktor Kstat = 2.5

Der Baum entscheidet sich für das etwas bessere Merkmal x1 zum Auftrennen. Allerdings
kann eine leichte Modifikation des Lerndatensatzes bzw. der Diskretisierung eine andere Auf-
trennung mit x4 und somit einen vollständig anders entwickelten Baum bewirken. Die zugehö-
rige Entscheidung ist im Wurzelknoten B1 (Proband). Eine Auftrennung in die fünf Nachfolge-
knoten bringt eine deutliche Verbesserung. Die Knoten 2 und 4 sind fehlerfrei. Die Knoten 3
und 6 verursachen nur je einen Fehler, wobei kein weiteres Merkmal eine statistisch rele-
vante Verbesserung erreicht. Ein zu niedriger Sicherheitsfaktor (z. B. 1) sorgt hingegen für
eine Aufspaltung. Knoten 5 mit 8 Fehlern kann durch Aufspalten mit Merkmal x2 (Q2 = 0.60)
weiterentwickelt werden. Die daraus entstehenden Knoten 7-11 lösen das Problem bereits
mit wenigen Restfehlern. Die Auftrennung in Knoten 10 nutzt das eigentlich informationslose
Merkmal x3 . Eine solche Überanpassung kann durch geeignete Pruningverfahren, durch eine
schärfere statistische Abschätzung mit einem vergrößerten Strafterm (z. B. mit Kstat = 5 in
(5.92) und einem entsprechenden Wert von Q3 = 0 in Knoten 10) unterdrückt werden. Der
Knoten 10 wird dann zu einem Endknoten.
Die so entstehenden Trennflächen ohne die Knoten 11-16 zeigt Bild 5.11. Aufgrund
der wertediskreten Merkmale und der schrittweisen Entscheidungen in den Hierarchieebe-
nen des Entscheidungsbaums sind die Trennflächen stets stückweise achsenparallel und

150
5.4 Entscheidungsbäume

Klassengrenzen Entscheidungsbaum (2 Merkmale)

B1: Proband
B2: Patient A
B3: Patient B
22.18
Laborwert x2

15.64

11.50

7.99

4.02

−2.06 0.17 1.09 2.03 3.46


Laborwert x1

Bild 5.11: Klassengrenzen des Entscheidungsbaums aus Bild 5.10 und Tabelle 5.11 (ohne
Knoten 11-16)

verlaufen nur an den Grenzen zwischen den Einzugsgebieten von zwei Clusterzentren
(0.5 · (al,i+1 − al,i ), i = 1, . . . , ml − 1). Die Grenzen befinden sich immer in der Mitte zwischen
zwei dünn gepunkteten Linien, welche die Lage der Clusterzentren kennzeichnen. ¥
Im Idealfall eines ungestörten und durch die diskreten Werte eindeutig lösbaren
Lerndatensatzes garantiert der Entscheidungsbaum ein fehlerfreies Lernen. Bei ge-
störten und nicht eindeutigen Daten wird ein an den Lerndatensatz angepasster Ent-
scheidungsbaum generiert, der auch die Störungen modelliert. Deswegen ist er nicht
zwangsläufig in der Lage, befriedigend zu generalisieren, d. h. Ausgangsgrößen für
nicht im Lerndatensatz enthaltene Datentupel richtig zu schätzen.
Der Effizienz des Baum-Induktionsverfahrens stehen allerdings verschiedene
Nachteile gegenüber:
• Die Reihenfolge der Spezialisierungen, die von den Lerndaten abhängt, entschei-
det darüber, welcher Entscheidungsbaum entsteht. Zwei unterschiedliche Daten-
sätze desselben Prozesses können so zu unterschiedlichen Entscheidungsbäu-
men führen.
• Einige Zusammenhänge werden unnötig kompliziert ausgedrückt, z. B. durch meh-
rere identische Teilbäume in tieferen Hierarchieebenen.
• Bei den dargestellten Entscheidungsbäumen liegen die Klassengrenzen zwischen
verschiedenen Entscheidungen immer achsenparallel.

151
5 Data Mining: Spezielle Verfahren

• Bei gestörten und nicht eindeutigen Daten lernt der Entscheidungsbaum auch die
Störung auswendig und ist nicht in der Lage, befriedigend zu generalisieren.
• Viele Entscheidungen in Endknoten sind statistisch schlecht abgesichert, u. a. we-
gen zu komplizierter Ausdrücke des Entscheidungsbaums.
Neben den dargestellten Bäumen gibt es auch eine Reihe von Erweiterungen. Bei-
spielsweise können anstelle einer Merkmalsselektion nichtachsenparallele Klassen-
grenzen [319, 449] (engl. oblique trees) oder gemeinsame Nachfolgeknoten zugelas-
sen werden.
Aus Entscheidungsbäumen lassen sich auch multivariate Merkmalsbewertungen
ableiten, indem die ohnehin vorhandenen univariaten Merkmalsbewertungen aller
Knoten zusammengefasst werden. Die Bewertung im Wurzelknoten ist rein univa-
riat. Die Knoten tieferer Hierarchieebenen berücksichtigen hingegen Redundanzen
zwischen mehreren Merkmalen. Die Ursache liegt darin, dass durch die bereits ge-
troffenen Entscheidungen in höheren Hierarchieebenen nur die Merkmale in tieferen
Hierarchieebenen noch Vorteile für die Separierung widersprüchlicher Ausgangsklas-
sen bringen, die nicht zu stark mit den bereits ausgewählten Merkmalen zusammen-
hängen. Eine gewichtete Summe von Merkmalsrelevanzen aller Knoten eines Ent-
scheidungsbaums ist somit ein Maß für die multivariaten Relevanzen verschiedener
Merkmale. Jeder Knoten vi geht dabei um so stärker ein, je größer Ni ist. Die Forma-
lisierung dieser Idee liefert die Merkmalsrelevanz für das l -te Merkmal:

NKnoten Hi (xl ; y)
∑ Ni
i=1 Hi (y)
Ql = NKnoten
. (5.93)
∑ Ni
i=1

Im Unterschied zu MANOVA beziehen sich die Relevanzen nicht auf eine Gruppe
von Merkmalen, sondern auf eine durchschnittliche Relevanz des Merkmals unter
Berücksichtigung der Auswahlentscheidungen in höheren Hierarchieebenen des Ent-
scheidungsbaums.
Eine wichtige Erweiterung ist die Erzeugung mehrerer Entscheidungsbäume, um
alternative Regelbasen zu erhalten. Das können einerseits Entscheidungsbäume mit
den nächstbesten Merkmalen im Wurzelknoten oder klassenspezifische Entschei-
dungsbäume sein, die immer die Unterschiede zwischen einer Ausgangsklasse und
deren Negation auswerten. Klassenspezifische Entscheidungsbäume finden insbe-
sondere Zusammenhänge, die eine spezielle Ausgangsklasse Bc von allen anderen
unterscheiden (Bc ), was genau der Philosophie einer Regel mit der Konklusion Bc ent-
spricht (Dekomposition durch one-against-all). Zudem bieten sie geeignete Ansatz-

152
5.5 Fuzzy-Systeme

punkte zur Suche nach negativen Regeln (· · · DANN NICHT Bc ) entsprechend [212]
(vgl. Abschnitt 5.5).
Ein Beispiel für Entscheidungsbäume gibt [470] für die Untersuchung der progno-
stischen Relevanz verschiedener Laborwerte auf die Rezidivwahrscheinlichkeit bei
Mammakarzinomen (4 Merkmale, 280 Patienten). Interessant ist hier, dass der au-
tomatisch entworfene Entscheidungsbaum direkt zum Aufstellen von Hypothesen für
ein Studiendesign verwendet wird. Ähnliche Arbeiten finden sich in [271] für die Dia-
gnose bei Herzinfarkten, in [67] für die Diabetes-Diagnose und in [239] für progno-
stische Faktoren bei Osteomyelofibrosis. Stärker in Richtung einer Online-Nutzung
für die Telemedizin geht die Klassifikation von Herzschlägen aus einem Elektrokar-
diogramm (EKG) in [384]. Hier ergab ein umfangreicher Methodenvergleich (z. B. mit
Künstlichen Neuronalen Netzen und Nearest-Neighbor-Verfahren) eine Überlegen-
heit von Entscheidungsbäumen.
Bei der Aufstellung von Leitlinien für die Evidenz-basierte Medizin erfreuen sich
Entscheidungsbäume wegen ihrer systematischen Vorgehensweise und ihrer ver-
gleichsweise guten Interpretierbarkeit einer großen Beliebtheit (siehe z. B. [308]). Sie
bieten eine systematische Darstellung für den diagnostischen Teil in klinischen Algo-
rithmen, wie er in [4] empfohlen wird. Deren Aufstellung erfolgt bisher mehr oder we-
niger manuell, die Parameter (z. B. Schwellwerte in Binärbäumen) werden aber durch
klinische Studien gestützt. Allerdings gibt es auch kritische Stimmen (z. B. [331]), weil
die Baumstruktur komplexere Entscheidungsprozesse (z. B. Unschärfen von Merk-
malen, weitere entscheidungsrelevante Merkmale in parallelen Schlussfolgerungswe-
gen, z. T. keine explizite Einbeziehung von Patientenbedürfnissen) nur eingeschränkt
widerspiegelt.

5.5 Fuzzy-Systeme

5.5.1 Prinzip

Das Grundprinzip von Fuzzy-Systemen [480] besteht in der Nutzung natürlichsprach-


licher (linguistischer) Regeln, die Zusammenhänge zwischen Ein- und Ausgangsgrö-
ßen beschreiben. Während klassische regelbasierte Systeme nur Ja-Nein-Aussagen
über die Ein- und Ausgangsdaten (Bedingung bezüglich der Eingangsdaten voll-
ständig erfüllt oder nicht erfüllt) verarbeiten, können Fuzzy-Systeme auch unscharfe
Aussagen auswerten (Bedingung zu einem bestimmten Grad erfüllt). Eingangs- und
Ausgangssituationen werden mit Hilfe sogenannter linguistischer Terme beschrie-
ben. Die Verbindung zwischen quantitativen Werten (z. B. Mess- und Stellgrößen)
und der qualitativen Beschreibung mittels linguistischer Terme wird durch Zugehörig-

153
5 Data Mining: Spezielle Verfahren

keitsfunktionen hergestellt. Damit haben Fuzzy-Systeme gegenüber anderen nichtli-


nearen Modellierungsansätzen, wie Polynommodellen oder Künstlichen Neuronalen
Netzen (KNN), den entscheidenden Vorteil, Systemzusammenhänge in einer dem
Anwender verständlichen Form zu beschreiben. Dieser Vorteil kommt besonders in
der nicht sonderlich mathematikbegeisterten Welt medizinischer Anwender zum tra-
gen. Fuzzy-Systeme können dabei sowohl auf Klassifikations- als auch auf Regres-
sionsprobleme angewendet werden.
Bei der Informationsverarbeitung mit einem Fuzzy-System müssen drei Schritte
abgearbeitet werden:
• die Umwandlung von wertekontinuierlichen oder wertediskreten Eingangsgrößen
in eine Beschreibungsform der Eingangsgrößen, die an eine natürlichsprachliche
Darstellung angelehnt ist (Fuzzifizierung, Abschnitt 5.5.2),
• die Anwendung der Regeln und spezieller Fuzzy-Operatoren zur Erzeugung der
natürlichsprachlichen Ausgangsgrößen (Fuzzy-Inferenz, Abschnitt 5.5.3) und
• die Umwandlung der natürlichsprachlichen Ausgangsgrößen in eine wertekonti-
nuierliche oder wertediskrete Ausgangsgröße (Defuzzifizierung, Abschnitt 5.5.4).
Die Struktur ist in Bild 5.12 schematisch dargestellt. Ausführliche Beschreibungen
für Fuzzy-Systeme finden sich beispielsweise in [35, 192, 212, 220, 234, 438], im
Folgenden werden nur wesentliche Grundlagen beschrieben. Die zu verwendenden
Begriffe und Definitionen enthält [7].
Das Wissen in einem Fuzzy-System ist in den Regeln, in sogenannten Zugehö-
rigkeitsfunktionen und den Fuzzy-Operatoren zur Auswertung von Regeln kodiert. In
einem Entwurfsprozess (Abschnitt 5.5.5) müssen alle genannten Bestandteile spezi-
fiziert werden.

5.5.2 Zugehörigkeitsfunktionen und Fuzzifizierung

Eine Fuzzy-Menge A wird durch eine Zugehörigkeitsfunktion µA (x) beschrieben, die


Werte zwischen Null und Eins annimmt und einen graduellen Wahrheitswert der Aus-
sage A für jeden numerischen Wert von x angibt. Für jede Eingangsgröße des Fuzzy-
Systems xl werden spezielle Fuzzy-Mengen (sogenannte linguistische Terme) Al,i ,
i = 1, · · · , ml , eingeführt, die für natürlichsprachliche Situationseinschätzungen ste-
hen. Zu jedem linguistischen Term gehört eine Zugehörigkeitsfunktion µAl,i (xl ). Meist
werden sogenannte normale Zugehörigkeitsfunktionen mit maxxl µAl,i (xl ) = 1 verwen-
det. Für die Ausgangsgröße gilt entsprechend Bc mit µBc (y). Die Fuzzifizierung von
Eingangsgrößen ist sowohl beim Entwurf als auch bei der Anwendung von Fuzzy-
Systemen, die bei einer wertekontinuierlichen Ausgangsgröße notwendige Fuzzifi-
zierung von Ausgangsgrößen nur beim Entwurf durchzuführen.

154
5.5 Fuzzy-Systeme

Regelbasis
x1
WENN
.... Bedingung y
DANN
xs Aktion

Fuzzifizierung Inferenz Defuzzifizierung

reellwertige linguistische linguistische reellwertige


Messwerte (natürlichsprachliche) (natürlichsprachliche) Handlung
Situationseinschätzung Handlungsanweisung

Bild 5.12: Prinzip der Fuzzy-Wissensverarbeitung

Ein α -Schnitt (engl. α -cut) transformiert Zugehörigkeitsfunktionen mit einer un-


scharfen Zuordnung wieder in Zugehörigkeitsfunktionen mit einer scharfen Zuord-
nung:


1 für µ (x) ≥ α
A
µA,α (x) = mit 0 < α ≤ 1. (5.94)
0 sonst

Eine Zugehörigkeitsfunktion heißt konvex, wenn

µA (x2 ) ≥ min (µA (x1 ), µA (x3 )) für x1 ≤ x2 ≤ x3 (5.95)

gilt. Somit darf eine konvexe Zugehörigkeitsfunktion kein lokales Minimum aufweisen.
Einige typische Arten von Zugehörigkeitsfunktionen zeigt Bild 5.13. Besonders
häufig kommen trapezförmige Zugehörigkeitsfunktionen (Bild 5.13a) zum Einsatz, die
mit vier Parametern m1 , m2 , b1 , b2 vollständig charakterisiert sind:

155
5 Data Mining: Spezielle Verfahren



0 für x ≤ m1 − b1



 1

1 + (x − m1 ) für m1 − b1 < x ≤ m1

 b1
µA (x) = 1 für m1 < x ≤ m2 (5.96)



 1

1 − (x − m2 ) für m2 < x ≤ m2 + b2

 b2


0 für x > m2 + b2 .

Viele gebräuchliche Arten von Zugehörigkeitsfunktionen sind Spezialfälle: rechteck-


förmige (b1 = b2 = 0, Bild 5.13b), dreieckförmige (m = m1 = m2 , Bild 5.13c) und
Singletons (m = m1 = m2 , b1 = b2 = 0, Bild 5.13d). Im Fall von rechteckförmigen
und Singleton-Zugehörigkeitsfunktionen degenerieren unscharfe zu scharfen Zuge-
hörigkeitsfunktionen. Teilweise werden auch gaußförmige Zugehörigkeitsfunktionen
(Bild 5.13e) verwendet
(x − m)2

µ (x) = e 2b2 , (5.97)

die beispielsweise Umwandlungen in Neuro-Fuzzy-Systeme mit RBF-Netzen erleich-


tern [307].
In praktischen Anwendungen werden häufig Standardpartitionen mit dreieckförmi-
gen Zugehörigkeitsfunktionen in der Mitte und trapezförmigen Zugehörigkeitsfunktio-
nen am Rand eingesetzt (Bild 5.14a). Alle Zugehörigkeitsfunktionen ergänzen sich zu
Eins, wobei immer nur höchstens zwei benachbarte Zugehörigkeitsfunktionen Funk-
tionswerte größer Null aufweisen. Bei einer solchen Standardpartition reicht pro lin-
guistischem Term ein skalarer Parameter al,i zur Beschreibung der jeweiligen Zuge-
hörigkeitsfunktion aus (Knickpunkt mit Funktionswert Eins der jeweiligen Zugehörig-
keitsfunktion), die in einen Parametervektor al geschrieben werden. Ein weiterer Vor-
teil einer solchen Standardpartition liegt in ihrer guten Interpretierbarkeit: Jeder Wert
wird graduell, aber vollständig (Summe Eins aller Zugehörigkeitswerte) zu höchstens
zwei verschiedenen linguistischen Termen als natürlichsprachliche Beschreibung zu-
geordnet. Damit decken die Zugehörigkeitsfunktionen für alle ml linguistischen Terme
gemeinsam den Definitionsbereich des Merkmals xl komplett ab.
Bei der Verwendung einer Standardpartition mit trapezförmigen Funktionen wird
pro Term ein zweiter Parameter benötigt, der die Breite des Bereichs mit dem Wert
Eins angibt (Bild 5.14b).
Die Standardpartition kann durch einen α -Schnitt mit α = 0.5 eindeutig in eine
scharfe Partitionierung mit rechteckförmigen Zugehörigkeitsfunktionen umgewandelt
werden (Bild 5.14c), wobei der kleinste Term dann m1 = −∞ und der größte Term
m2 = ∞ als Parameter hat. Die inverse Transformation von einer scharfen Partition in

156
5.5 Fuzzy-Systeme

a. Trapezförmig b. Rechteckförmig c. Dreieckförmig

1 1 1
µ(x)

µ(x)

µ(x)
0 0 0
m1−b1 m1 m2 m2+b2 m1 m2 m−b1 m m+b2
d. Singleton e. Gaußförmig x

1 1
µ(x)

µ(x)

0 0
m m−b1m m+b2
x x

Bild 5.13: Arten von unscharfen (a, c, e, f) und scharfen (b, d) Zugehörigkeitsfunktionen:
a. Trapezförmig, b. Rechteckförmig, c. Dreieckförmig, d. Singleton, e. Gaußförmig,
Bezeichnungen für linguistische Terme NEG – Negativ, ZE – Null, PK – Positiv
Klein, PM – Positiv Mittel, PG – Positiv Groß

eine unscharfe Standardpartition mit den genannten Eigenschaften ist hingegen nur
in Spezialfällen möglich. Die stets mögliche Transformation von rechteck- in trapez-
förmige Zugehörigkeitsfunktionen ist hingegen nicht eindeutig.
Die Aufgabe bei der Fuzzifizierung besteht darin, jeder Eingangsgröße eine gradu-
elle Zuordnung zu jedem linguistischen Term zuzuweisen.
´ Zugehörigkeitsfunktionen in Bild 5.14a und ihrem Parametervektor a1 =
³ Beispiel: Mit den
−3 0 1 2 5 kann beispielsweise ein Messwert x1 = 1.2 den linguistischen Termen
PK (Positiv Klein) mit einem Zugehörigkeitsgrad von 0.8 und PM (Positiv Mittel) mit einem
Zugehörigkeitsgrad von 0.2 zugeordnet werden. Alle anderen linguistischen Terme erhalten
einen Zugehörigkeitsgrad von Null. ¥
Werden nun alle Merkmale (N Datentupel mit s Merkmalen) fuzzifiziert, resultiert für
jedes Datentupel eines Merkmals und jeden Term ein Zugehörigkeitswert µAl,i (xl [n]).
Aus mathematischer Sicht ist diese Darstellung allerdings redundant: Für jeden der
N Datensätze werden aus einem Merkmalswert xl [n] mehrere (ml ) Werte erzeugt –
wobei die Berechnung zwar eindeutig, aber meist nicht eineindeutig ist. Allerdings
stellt dieser Rechenschritt die Verbindung zur nachfolgenden Auswertung dar.

157
5 Data Mining: Spezielle Verfahren

a. Dreieckförmig b. Trapezförmig c. Rechteckförmig

NEG ZE PK PM PG NEG ZE PK PM PG NEG ZE PK PM PG


1 1 1
µ(x )

µ(x1)

µ(x1)
1

0 0 0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
Laborwert x Laborwert x Laborwert x
1 1 1

Bild 5.14: Standardpartition mit fünf Termen für den Laborwert x1 im Beispiel, a. Dreieckför-
mig, b. Trapezförmig, c. Rechteckförmig, Bezeichnungen für linguistische Terme
NEG – Negativ, ZE – Null, PK – Positiv Klein, PM – Positiv Mittel, PG – Positiv
Groß

5.5.3 Fuzzy-Inferenz

Eine Fuzzy-Regelbasis ist durch r = 1, . . . , rmax Regeln vom Typ WENN Bedingung
(Voraussetzung, Prämisse) DANN Aktion (Schlussfolgerung, Konklusion) mit

Rr : WENN x1 = A1,Rr UND · · · UND xs = As,Rr DANN y = Cr .


| {z } | {z }
Teilprämisse Vr1 Teilprämisse Vrs
| {z }
Prämisse Vr

Die Regelbasis kann optional eine Sonst-Regel mit SONST y = CrSonst enthalten, die
häufig an die letzte Position gestellt wird.
Für die Konklusion Cr einer Regel werden entweder
• linguistische Terme als Ausgangsklassen Cr = Bc mit c = 1, · · · , my (Fuzzy-
Systeme vom Mamdani-Typ),
• Funktionen der Eingangsgrößen Cr = fr (x) (Fuzzy-Systeme vom Takagi-Sugeno-
Typ, Synonyme: Fuzzy-Systeme vom Takagi-Sugeno-Kang-Typ, TSK-Systeme)
oder
• konstante Werte Cr = yr (Singleton-Fuzzy-Systeme, Sonderfall eines Takagi-
Sugeno-Systems)
eingeführt. Dabei gibt es zunehmend einen Trend, Fuzzy-Systeme vom Mamdani-Typ
aus Gründen der Rechenvereinfachung in Singleton-Fuzzy-Systeme umzuwandeln,
indem die Werte für yr aus den Zugehörigkeitsfunktionen mittels yr = argmaxy µBc (y)
mit Cr = Bc bestimmt werden.

158
5.5 Fuzzy-Systeme

Die Prämisse Vr ist eine UND-Verknüpfung (∩)6 von Teilprämissen xl = Al,Rr . Der
Term in einer Teilprämisse Al,Rr bezeichnet entweder
• einen einzelnen Term: Al,Rr = Al,i ,
• eine ODER-Verknüpfung (∪) von mehreren benachbarten linguistischen Termen
mit
Al,Rr = Al,rs ∪ · · · ∪ Al,re , 1 ≤ r s < r e ≤ ml , (5.98)

• bzw. eine ODER-Verknüpfung aus allen linguistischen Termen des Merkmals


Al,Rr = Al,1 ∪ Al,2 · · · ∪ Al,ml .
Im letztgenannten Fall wird bei geeigneter Wahl der Zugehörigkeitsfunktionen als
Standardpartition die Prämisse nicht mehr durch die Teilprämisse beeinflusst, weil
sie eine Zugehörigkeit von Eins und somit eine UND-Verknüpfung mit Eins in der Re-
gelprämisse liefert. Damit kann die Teilprämisse aus der Prämisse der Regel entfernt
werden. Die allgemeinste mögliche Regel weist eine Eins-Prämisse auf, wenn für alle
Merkmale alle linguistischen Terme in den Teilprämissen stehen. Die Regel gilt somit
für alle Datentupel.
Zusätzlich kann jede Regel noch mit einer Regelplausibilität µr ∈ [0, 1] versehen
werden. Eine Regelplausibilität von Null steht dabei für eine ungültige, eine Regel-
plausibilität von Eins für eine vollständig gültige Regel. Alle Zwischenwerte zeigen ei-
ne teilweise Gültigkeit an. Regelplausibilitäten können für eine detaillierte Anpassung
des Ein-Ausgangs-Verhaltens des Fuzzy-Systems verwendet werden. Allerdings er-
schweren sie die Interpretierbarkeit des Fuzzy-Systems und werden deshalb kaum
eingesetzt. Regelplausibilitäten entstehen oftmals aus einer Parameteroptimierung.
Wesentliche Rechengrundlage der Inferenz sind geeignete Verknüpfungsoperato-
ren für die UND- (T-Norm) bzw. ODER-Verknüpfung (T-Konorm), siehe z. B. [212].
Das Grundprinzip besteht jeweils darin, zunächst erst einmal alle Rechenregeln aus
der binären Logik zu erfüllen, also für die Werte Null und Eins von Zugehörigkeits-
funktionen. Außerdem werden weitere Forderungen gestellt, um auch für alle Werte
zwischen Null und Eins möglichst viele Rechenregeln der binären Logik nicht zu ver-
letzen.
Für eine T-Norm (Synonym: Dreiecksnorm, engl. triangular norm) müssen die fol-
genden Bedingungen eingehalten werden:

6
Die Operatoren ∩ (UND, T-Norm, Schnitt von Mengen) und ∪ (ODER, T-Konorm, Vereinigung von
Mengen) werden im Folgenden sowohl für die Verknüpfung von logischen Aussagen, linguistischen
Termen, Mengen, Fuzzy-Mengen und Zugehörigkeitsgraden verwendet, wobei jeweils unterschied-
liche Berechnungsvorschriften zugrunde liegen.

159
5 Data Mining: Spezielle Verfahren

∩(µ1 , 0) = 0 (Verknüpfung mit Null) (5.99)


∩(µ1 , 1) = µ1 (Verknüpfung mit Eins) (5.100)
µ1 ≤ µ2 ⇒ ∩(µ1 , µ3 ) ≤ ∩(µ2 , µ3 ) (Monotonie) (5.101)
∩(µ1 , µ2 ) = ∩(µ2 , µ1 ) (Kommutativität) (5.102)
∩(µ1 , ∩(µ2 , µ3 )) = ∩(∩(µ1 , µ2 ), µ3 ) (Assoziativität). (5.103)

Für eine T-Konorm gilt entsprechend:

∪(µ1 , 0) = µ1 (Verknüpfung mit Null) (5.104)


∪(µ1 , 1) = 1 (Verknüpfung mit Eins) (5.105)
µ1 ≤ µ2 ⇒ ∪(µ1 , µ3 ) ≤ ∪(µ2 , µ3 ) (Monotonie) (5.106)
∪(µ1 , µ2 ) = ∪(µ2 , µ1 ) (Kommutativität) (5.107)
∪(µ1 , ∪(µ2 , µ3 )) = ∪(∪(µ1 , µ2 ), µ3 ) (Assoziativität). (5.108)

Die gebräuchlichsten Operatoren sind die zusammengehörigen Operatorenpaare in


Tabelle 5.12. Deren Kennfelder für zwei Eingangsgrößen sind in Bild 5.15 visualisiert.

Die Zusammengehörigkeit folgt stets aus der Erfüllung der de’Morganschen-


Gesetze
µ1 ∪ µ2 = µ1 ∩ µ2 sowie µ1 ∩ µ2 = µ1 ∪ µ2 (5.109)
für zwei beliebige Zugehörigkeitswerte µ1 , µ2 mit einer frei wählbaren Negation. Für
die Negation gilt üblicherweise
µ1 = 1 − µ1 . (5.110)
Bei der Negation (5.110) besteht der große Vorteil, dass die Rechenregel der dop-
pelten Negation eingehalten wird:

µ1 = µ1 . (5.111)

Die (gewöhnliche) Summe µ3 = µ1 + µ2 ist wegen der möglichen Verletzung von


(5.105) keine allgemein gültige T-Konorm. Sie ist nur dann einsetzbar, wenn in einem
bestimmten Fuzzy-System stets µ1 + µ2 ≤ 1 gilt, weil sie dann in die Beschränkte
Summe übergeht.
Andere aus der binären Logik bekannten Rechenregeln wie

∩(µ1 , µ1 ) = µ1 (Idempotenz bei UND-Verknüpfungen) (5.112)


∪(µ1 , µ1 ) = µ1 (Idempotenz bei ODER-Verknüpfungen) (5.113)
∩(µ1 , µ1 ) = 0 (Satz vom ausgeschlossenen Widerspruch) (5.114)
∪(µ1 , µ1 ) = 1 (Satz vom ausgeschlossenen Dritten) (5.115)

160
5.5 Fuzzy-Systeme

a. Minimum b. Maximum

1 1

max(µ1,µ2)
min(µ1,µ2)
0.5 0.5

0 0
1 1
1 1
0.5 0.5 0.5 0.5
µ 0 0 µ µ 0 0 µ
2 1 2 1
c. Produkt d. Algebraische Summe

µ1 + µ2 − µ1 * µ2
1 1
µ1 * µ2

0.5 0.5

0 0
1 1
1 1
0.5 0.5 0.5 0.5
µ2 0 0 µ1 µ2 0 0 µ1
e. Beschränkte Differenz f. Beschränkte Summe
max(0,µ1 + µ2 −1)

min(1,µ1 + µ2)

1 1

0.5 0.5

0 0
1 1
1 1
0.5 0.5 0.5 0.5
µ2 0 0 µ1 µ2 0 0 µ1

Bild 5.15: Kennfelder der zusammengehörigen Operatorenpaare für UND- sowie ODER-
Verknüpfungen: a. Minimum, b. Maximum, c. Produkt, d. Algebraische Summe, e.
Beschränkte Differenz, f. Beschränkte Summe. µ1−2 ∈ [0, 1] Zugehörigkeitswerte

gelten nicht für alle Operatoren bzw. deren Kombinationen für µ1 ∈ [0, 1]. So halten
von den Operatoren aus Tabelle 5.12 nur Minimum und Maximum die Idempotenz
ein. Bei Verwendung von (5.110) gilt der Satz vom ausgeschlossenen Widerspruch
nur für die Beschränkte Differenz, der Satz vom ausgeschlossenen Dritten nur für die
Beschränkte Summe.
In der klassischen (binären) Logik kann eine Regel mit der logischen Operation
der Implikation ausgewertet werden. Hierbei ist eine Regel nur dann falsch, wenn
die Prämisse erfüllt und die Konklusion nicht erfüllt ist. Daraus ergeben sich wichtige
Schlussfolgerungsweisen der klassischen Logik und auch der Fuzzy-Logik: der mo-
dus ponens (Vorwärtsschließen) und der modus tollens (Rückwärtsschließen). Der

161
5 Data Mining: Spezielle Verfahren

Bezeichnung UND: µ3 = ∩(µ1 , µ2 ) ODER: µ3 = ∪(µ1 , µ2 )


Minimum-Maximum µ3 = min(µ1 , µ2 ) µ3 = max(µ1 , µ2 )
Produkt- µ3 = µ1 · µ2 µ3 = µ1 + µ2 − µ1 · µ2
Algebraische Summe
Beschränkte Differenz- µ3 = max(µ1 + µ2 − 1, 0) µ3 = min(µ1 + µ2 , 1)
Beschränkte Summe

Tabelle 5.12: Zusammengehörige Operatorenpaare für UND- sowie ODER-Verknüpfungen,


µ1−3 ∈ [0, 1] Zugehörigkeitswerte

modus ponens schließt bei erfüllter Prämisse und wahrer Regel auf die Erfüllung der
Konklusion. Der modus tollens zieht aus einer wahren Regel und einer nicht erfüllten
Konklusion die Konsequenz, dass die Prämisse nicht erfüllt ist.
In der praktischen Anwendung dominiert der modus ponens, dessen Mechanismen
bei der Auswertung im Folgenden beschrieben werden. Hier sind bei der Inferenz
(engl. inference) die Teilaufgaben
• Prämissenauswertung (engl. aggregation) zur Verknüpfung der Teilprämissen
s
\ [
µVr (x) = µVrl (xl ) mit µVrl (xl ) = µAl,i (xl ), (5.116)
l=1 i mit Al,i ∈Vlr

• Aktivierung7 (engl. activation) zur Verknüpfung der Prämisse mit der Regelplausi-
bilität
µCr (x) = µVr (x) ∩ µr (5.117)

• sowie Akkumulation (engl. accumulation, nur bei Mamdani-Systemen) mit den Teil-
schritten
[
µBc , AkI (x) = µCr (x) (Akkumulation I) (5.118)
r mit Cr =Bc

µBc , AkII (y, x) = µBc (y) ∩ µBc , AkI (x) (Akkumulation II) (5.119)
my
[
µy (y, x) = µBc , AkII (y, x) (Akkumulation III) (5.120)
c=1

zu bearbeiten. Die Akkumulation I nimmt eine ODER-Verknüpfung aller Regeln mit


gleichen Konklusionen vor und gibt einen skalaren empfohlenen Zugehörigkeitsgrad
7
Eine Auftrennung von Prämissenauswertung und Aktivierung ist nur dann zwingend notwendig,
wenn Regelplausibilitäten µr zwischen Null und Eins existieren. Bei Verzicht auf Regelplausibilitäten
gilt µCr (x) = µVr (x).

162
5.5 Fuzzy-Systeme

für jeden Term der Ausgangsgröße an. Die Akkumulation II verknüpft mit einem UND-
Operator den empfohlenen Zugehörigkeitsgrad und die Zugehörigkeitsfunktion. Sie
berechnet somit für jeden einzelnen Term der Ausgangsgröße eine modifizierte Zu-
gehörigkeitsfunktion. Daraus bildet die Akkumulation III mit einer ODER-Verknüpfung
eine Gesamt-Zugehörigkeitsfunktion der Empfehlungen für die Ausgangsgröße. Da-
bei bezeichnen die µBc (y) in (5.118)-(5.120) die gegebene Zugehörigkeitsfunktion
(Ausgangsterm Bc ), µBc , AkI (x) den aus den Merkmalen berechneten (empfohlenen)
Zugehörigkeitsgrad (Ausgangsterm Bc ), µBc ,AkII (y, x) die Verknüpfung beider Funk-
tionen und die Funktion µy (y, x) den (empfohlenen) Zugehörigkeitsgrad für alle Werte
von y bei gegebenen Merkmalen x.
In der Literatur findet sich die recheneffiziente Aufsplittung der Akkumulation selten,
hier dominiert die Einschrittlösung
r[
max
µy (y, x) = µBc (y) ∩ µCr (x) (Akkumulation). (5.121)
r=1

Diese Berechnungsvorschrift erfordert allerdings die deutlich aufwändigere Verknüp-


fung von rmax Funktionen und my Werten im Gegensatz zur Verknüpfung von lediglich
my Funktionen und rmax + my Werten in (5.118)-(5.120), weil oftmals rmax >> my gilt.
Für die Verwendung in Fuzzy-Regelbasen wird als UND-Verknüpfung das Produkt,
als ODER-Verknüpfung die Beschränkte Summe empfohlen [295]. Beide sind zwar
kein zusammenhängendes Operatorenpaar entsprechend Tabelle 5.12, die Recht-
fertigung für dieses Vorgehen ist allerdings in der unterschiedlichen Semantik be-
gründet. Bei überlappenden Regeln sind weitere Modifikationen sinnvoll [294]. Eine
Beispielrechnung zeigt Abschnitt 5.5.5.
Die Prämissenauswertung der Sonst-Regel ist nur im Fall von Standardpartitio-
nen und nicht überlappenden Regeln einfach zu berechnen. Hier kann der Effekt
ausgenutzt werden, dass sich die Ergebnisse aller Prämissenauswertungen zu Eins
ergänzen und die Sonst-Regel somit die negierte ODER-Verknüpfung aller anderen
Regeln ist. Somit gilt:
[
µVrSonst (x) = 1 − µVr (x). (5.122)
r6=rsonst

Bei Fuzzy-Systemen vom Takagi-Sugeno-Typ und bei Singleton-Fuzzy-Systemen ist


die Prämissenauswertung und Aktivierung mit (5.117) bereits das Endergebnis der
Inferenz.
Beispiel: Tabelle 5.13 zeigt eine vollständige Regelbasis mit 25 Regeln für das Beispiel
unter Verwendung der Merkmale x1 und x2 . Für ein Datentupel mit x1 = 2.60, x2 = 18.26
ergeben sich unter Verwendung von Zugehörigkeitsfunktionen mit den Parametern aus Ta-
belle 5.9 auf Seite 148 die Zugehörigkeitswerte µAli (x), die in der jeweiligen Merkmalszeile

163
5 Data Mining: Spezielle Verfahren

und -spalte eingetragen sind. Eine Prämissenauswertung mit dem Produkt als Operator für
die UND-Verknüpfung ergibt die Werte µVr (x), die unter den Regelkonklusionen eingetragen
sind. Hierbei haben nur vier Regeln Werte größer Null. Eine Verknüpfung mit dem Minimum
als Operator ergibt abweichende Werte (0.6 statt 0.36, 0.4 statt 0.16 bzw. 0.24). Eine Akku-
mulation I mit der Beschränkten Summe liefert

µB1 ,AkI = 0.36, µB2 ,AkI = 0.64, µB3 ,AkI = 0 (Prämissenauswertung: Produkt) (5.123)
µB1 ,AkI = 0.6, µB2 ,AkI = 1, µB3 ,AkI = 0 (Prämissenauswertung: Minimum) (5.124)

und mit dem Maximum

µB1 ,AkI = 0.36, µB2 ,AkI = 0.24, µB3 ,AkI = 0 (Prämissenauswertung: Produkt) (5.125)
µB1 ,AkI = 0.6, µB2 ,AkI = 0.4, µB3 ,AkI = 0 (Prämissenauswertung: Minimum). (5.126)

Je nach Operatorenpaar ergeben sich folglich unterschiedliche Präferenzen zugunsten von


B1 oder B2 . Die Ergebnisse von Akkumulation II und III hängen im vorliegenden Fall nicht
mehr von den gewählten Operatoren für diese Schritte ab, weil die Ausgangszugehörigkeits-
funktionen Singletons sind (Bild 5.16a) und Verknüpfungen eines beliebigen Wertes mit Eins
bzw. Null stets operatorunabhängig sind. Allerdings ergibt sich eine Abhängigkeit von den Er-
gebnissen der Akkumulation I. Das Ergebnis der Inferenz für das Datentupel sowie die Opera-
toren Produkt und Beschränkte Summe zeigen die fett durchgezogenen Linien in Bild 5.16a.
Mit einigen für scharfe Mengen identischen Umformungen kann die Regelbasis in eine ein-
fachere Regelbasis mit nur noch fünf Regeln umgeschrieben werden:
R1 : WENN x1 = A1,1 DANN y = B3
R2 : WENN (x1 = A1,2 ∪ A1,3 ) DANN y = B1
R3 : WENN x1 = A1,4 ∩ x2 = NICHT A2,5 DANN y = B1
R4 : WENN x1 = A1,4 ∩ x2 = A2,5 DANN y = B2
R5 : WENN x1 = A1,5 DANN y = B2
Dabei ist jedoch zu beachten, dass solche Umformungen für Fuzzy-Mengen nur in be-
stimmten Sonderfällen identisch sind. Beispielsweise ergeben sich für die umgeformte Re-
gelbasis und das diskutierte Datentupel bei Verwendung von Produkt/Maximum µB1 ,AkI =
0.36, µB2 ,AkI = 0.4, bei Minimum/Maximum, Produkt/Beschränkte Summe bleiben die Er-
gebnisse hier unverändert. Bei anderen Werten unterscheiden sich auch die Werte für Mi-
nimum/Maximum (z. B. x1 = 4.0, x2 = 18.9, Regelbasis mit 25 Regeln: µB1 ,AkI = µB3 ,AkI =
0, µB2 ,AkI = 0.5, Regelbasis mit 5 Regeln µB1 ,AkI = µB3 ,AkI = 0, µB2 ,AkI = 1 usw.). Systema-
tische Vorgehensweisen für Inferenzverfahren mit einer identischen Umformung finden sich
in [294, 295]. ¥
In der Literatur finden sich auch Regelbasen mit Regeln und Inferenzverfahren, die
über die in diesem Abschnitt diskutierten Formen hinausgehen. Ein Beispiel sind Re-
gelbasen mit negativen Regeln im Sinne von verbotenen Handlungen. Bei negativen

164
5.5 Fuzzy-Systeme

a. Ergebnisse Inferenz für x1=2.60, x2=18.26

B1 B2 B3
x1 NEG PK PM PG PSG

ZGF
1
0.0 0.0 0.0 0.6 0.4
x2 0.64
PSG B3 B1 B1 B2 B2 0.36
0.4 0.0 0.0 0.0 0.24 0.16
PG B3 B1 B1 B1 B2 0
1 2 3 y
B1: Proband
0.6 0.0 0.0 0.0 0.36 0.24
B : Patient A b. Klassengrenzen
2
PM B3 B1 B1 B1 B2 B : Patient B
3
0.0 0.0 0.0 0.0 0.0 0.0
PK B3 B1 B1 B1 B2 22.18

Laborwert x2
0.0 0.0 0.0 0.0 0.0 0.0 15.64
PSK B3 B1 B1 B1 B2 11.5
7.99
0.0 0.0 0.0 0.0 0.0 0.0 4.02
−2.06 0.17 1.09 2.03 3.46
Laborwert x1

Tabelle 5.13: Konklusionen y = Bc für eine Bild 5.16: a. Ergebnisse der Inferenz für die Re-
Regelbasis mit 25 Regeln, gelbasis aus Tabelle 5.13 bei Verwen-
Merkmale x1 , x2 des Bei- dung der Operatoren Produkt und Be-
spiels, Ergebnisse der Fuz- schränkte Summe für x1 = 2.60, x2 =
zifizierung (unter den Ter- 18.26, b. Klassengrenzen nach ei-
men) und der Prämissen- ner Maximum-Defuzzifizierung, Drei-
auswertung mit dem Pro- eck: im Beispiel genauer untersuchtes
dukt (Mittelteil Tabelle) Datentupel

Regeln treten Konklusionen vom Typ NICHT Cr auf. Das gleichzeitige Auftreten von
normalen (positiven) und negativen Regeln erfordert eine spezielle Inferenz (Hyperin-
ferenz [212]). Eine andere Erweiterung verarbeitet unscharfe Zeiten in der Prämisse
und bzw. oder in der Konklusion [430].

5.5.4 Defuzzifizierung

Die Inferenz gibt lediglich ”Empfehlungsgrade” für unterschiedliche Werte der Aus-
gangsgröße. Die Defuzzifizierung löst die Aufgabe, die Empfehlungsgrade zu einem
besten numerischen Wert zusammenzufassen. Auch hier existieren unterschiedliche
Methoden (siehe z. B. [212] für eine umfassende Übersicht).
Die Maximum-Defuzzifizierung wählt denjenigen Wert der Ausgangsgröße mit

165
5 Data Mining: Spezielle Verfahren

ŷ = argmaxy µy (y, x) (Mamdani-Systeme) (5.127)


ŷ = argmaxCr µCr (x) (Singleton- und Takagi-Sugeno-Systeme) (5.128)

aus. Wenn mehrere Maxima existieren, löst eine Menge {ŷmin , . . . , ŷi , . . . , ŷmax } mit
ŷmin < ŷi < ŷmax die Gleichungen (5.127) bzw. (5.128). Hier wird entweder das kleinste
Maximum ŷmin (Methode Linkes Maximum – LM, engl. left maximum), das größte
Maximum ŷmax (Methode Rechtes Maximum – RM, engl. right maximum) oder der
Mittelwert aller Maxima einer endlichen Menge (Methode Mittleres Maximum – engl.
Mean of Maxima – MOM) ausgewählt.
Beispiel: Das Ergebnis der Maximum-Defuzzifizierung für das Beispiel aus Abschnitt 5.5.3
mit den Operatoren Produkt und Beschränkte Summe zeigt Bild 5.16. Für das betrachtete
Datentupel resultiert ŷ = 2. Obwohl die Regeln denen des Entscheidungsbaums in Bild 5.11
entsprechen, ergeben sich im Grenzbereich zwischen den Regeln wegen der kompensato-
rischen Effekte der Operatoren weichere Übergänge. Allerdings verlaufen nach wie vor die
meisten Klassengrenzen achsenparallel. Die Verwendung der Schwerpunktmethode ist hier
nicht sinnvoll, weil eine formale Verrechnung der kategorischen Merkmale in den Singletons
zu irreführenden Ergebnissen führt. ¥
Bei Mamdani-Systemen berechnet die Schwerpunktmethode (engl. Center of Gra-
vity – COG) R
y · µy (y, x) · dy
ŷ = R (5.129)
µy (y, x) · dy
eine numerische Ausgangsgröße. Fuzzy-Systeme vom Takagi-Sugeno-Typ oder
Singleton-Fuzzy-Systeme verwenden mit den Ergebnissen von (5.116)
rmax
∑r=1 fr (x) · µCr (x)
ŷ = (Takagi-Sugeno-Systeme) (5.130)
∑r=1 µCr (x)
rmax

∑ yr · µCr (x)
rmax
ŷ = r=1 (Singleton-Fuzzy-Systeme). (5.131)
rmax
∑r=1 µCr (x)

Die Schwerpunktmethode für Singletons (COGS) kann aber auch auf den Ergeb-
nissen der Akkumulation I aufbauen. Sie eignet sich dann sowohl für Singletons als
Ausgangszugehörigkeitsfunktionen als auch für dreieckförmige Zugehörigkeitsfunk-
tionen. Mit den Parametern bc (Stützpunkte der Singletons bzw. Maxima der dreieck-
förmigen Zugehörigkeitsfunktionen) gilt analog zu (5.131)
m
∑c=1 bc · µBc ,AkI (x)
y
ŷ = my . (5.132)
∑c=1 µBc ,AkI (x)
Als relativ selten verwendete Alternative zur Schwerpunktmethode existiert noch die
Flächenmedianmethode (engl. Center of Area – COA), die den Punkt auswählt, für

166
5.5 Fuzzy-Systeme

den die Flächeninhalte der beiden Teilflächen mit größeren und kleineren Werten
jeweils gleich sind:
Z ŷ Z ∞
ŷ mit µy (y, x) · dy = µy (y, x) · dy. (5.133)
−∞ ŷ

Weitere Verfahren wie die Drehmomentenmethode [212] eignen sich insbesondere


für Fälle, bei denen sich gleichsinnige Konklusionen gegenseitig verstärken sollen.

5.5.5 Entwurf von Fuzzy-Systemen

Prinzip

Fuzzy-Regeln und Zugehörigkeitsfunktionen für linguistische Terme können auf un-


terschiedlichen Wegen generiert werden. Der klassische Weg, Experten für das zu
untersuchende Problem zu befragen, liefert zwar für den Experten eine besonders
transparente Regelbasis, stößt aber in vielen praktischen Fällen frühzeitig an Gren-
zen. Ein Großteil der menschlichen Erfahrungen resultiert aus unbewusstem Wis-
sen und intuitiven Handlungen, die nur bedingt in Regelform abfragbar sind. Selbst
die erfassten Regeln sind unvollständig und teilweise sogar widersprüchlich. Für ein
leistungsfähiges Gesamtsystem ist somit ein aufwändiges iteratives Vorgehen zum
Überprüfen der Vollständigkeit und Konsistenz notwendig. Generell problematisch ist
auch die Quantifizierung der Zugehörigkeitsfunktionen. Deshalb ist es sinnvoll, voll-
ständige Fuzzy-Systeme (Zugehörigkeitsfunktionen, Einzelregeln und Regelbasen)
mit datenbasierten Methoden zu entwerfen. Allerdings ist bei einem datenbasierten
Entwurf zu beachten, dass die entstehenden Systeme noch interpretierbar sein müs-
sen, um die Vorteile von Fuzzy-Systemen zu erhalten.
Die Interpretierbarkeit eines Systems steigt mit
• einer kleineren Anzahl verwendeter Merkmale und Regeln,
• einfach strukturierten Regeln,
• dem Verzicht auf Regelplausibilitäten,
• der Berücksichtigung von eventuellen Anwenderpräferenzen für bestimmte Merk-
male sowie
• einfach geformten Zugehörigkeitsfunktionen mit intuitiv verständlichen Termbe-
zeichnungen und Parametern
(siehe z. B. [56, 91, 200, 296] für umfassendere Diskussionen). Ein sinnvoller Kom-
promiss zwischen der Bewertung im Sinne klassifikations- und regressionsorientier-
ter Maße sowie der Interpretierbarkeit andererseits muss nun in alle Entwurfsschritte
von Fuzzy-Systemen integriert werden. Das erfolgt entweder durch eine explizite For-
mulierung geeigneter Bewertungsmaße oder durch die Verwendung von geeigneten

167
5 Data Mining: Spezielle Verfahren

Strukturansätzen und Heuristiken, die implizit für das Erreichen eines Kompromisses
sorgen.

Zugehörigkeitsfunktionen

Der Entwurf der Zugehörigkeitsfunktionen erfordert die Festlegung der Form, der An-
zahl ml und der Parameter. Oftmals werden Form und Anzahl heuristisch für alle
Merkmale einheitlich gewählt und nur die Parameter für jedes Merkmal individuell
festgelegt.
Die Ziele beim Entwurf von Zugehörigkeitsfunktionen bestehen darin,
• für das komplette Fuzzy-System ein gutes klassifikations- oder regressionsorien-
tiertes Bewertungsmaß zu erzielen (z. B. durch Separierung der Ausgangsklas-
sen),
• für zusammengehörige Datentupel (im Sinne gleicher oder ähnlicher Werte der
Eingangs- und Ausgangsgröße) möglichst repräsentative Stützpunkte auszuwäh-
len,
• eine möglichst gleichmäßige Datentupelzahl für alle Terme zu bewirken und
• eine gute Interpretierbarkeit der Parameter und Termbezeichnungen zu sichern
(z. B. Parameter 0 und nicht 0.02 für den Term Null).
Die erste Forderung lässt sich realisieren, wenn die Güte für ein komplettes Fuzzy-
System überprüft wird. Die Ansätze berücksichtigen zwar indirekt auch die zweite
und dritte Forderung, benötigen allerdings einen hohen Rechenaufwand.
Recheneffizienter sind informationstheoretische Maße wie (3.52), die dann von den
Parametern der Zugehörigkeitsfunktionen eines Merkmals abhängen. Die Transin-
formation bewertet den (durchschnittlichen) Zusammenhang zwischen den linguisti-
schen Termen des Merkmals und der Ausgangsgröße, was eine günstige Ausgangs-
position für die spätere Regelsuche darstellt. Allerdings bevorzugt sie bei gestörten
Daten dicht zusammenliegende Parameter, die kleine homogene Gebiete mit gerin-
gen Datentupelzahlen, aber ähnlicher Zusammensetzung der Ausgangsklassen er-
zeugen. Solche Gebiete widersprechen der dritten Forderung, erschweren die Re-
gelsuche und beeinträchtigen die Interpretierbarkeit der Zugehörigkeitsfunktionen.
Die Forderung nach zusammengehörigen Datentupeln ähnelt unterlagerten ein-
oder höherdimensionalen Fuzzy-Clustering-Problemen (vgl. Abschnitt 5.7). Ein Be-
wertungsmaß wie (5.178) auf Seite 208 bevorzugt eine relativ gleichmäßige Datentu-
pelzahl für alle Terme, wenn das nicht den in den Daten enthaltenen Strukturinforma-
tionen widerspricht. Der eindimensionale Ansatz wird separat für jede Eingangsgröße
xl durchgeführt und entspricht einem unüberwachten Lernen [296].

168
5.5 Fuzzy-Systeme

Mehrdimensionale Ansätze beziehen mehrere relevante Merkmale und bzw. oder


die gesuchte Ausgangsgröße mit ein. Bei Einbeziehung der Ausgangsgröße han-
delt es sich dann um überwachtes Lernen. Der Vorteil höherdimensionaler Ansätze
liegt darin, dass sie die spätere Regelsuche erleichtern. Allerdings resultieren auch
mehrere Nachteile: Die Suche erfordert Lerndatensätze mit einer großen Zahl von
Datentupeln. Zudem müssen die Clusterzentren wiederum eindimensional projiziert
werden, was oftmals zu unnötig vielen und außerdem eng beieinander liegenden
Parametern führt. Diese sind schwer interpretierbar und reduzieren die statistische
Absicherung, weil die zugehörigen Terme die Datentupel untereinander aufteilen. Ei-
ne Alternative ist eine nachträgliche Zusammenfassung solcher Parameter durch ein
heuristisches Verfahren oder ein weiteres Clusterverfahren.
Eine möglichst gleichmäßige Datentupelzahl für alle Terme kann beispielsweise
über eine Bewertung mit einer zu maximierenden Eingangsentropie (3.42) erfolgen.
Eine sinnvolle Heuristik zum Erzeugen äquifrequenter Parameter startet mit dem
Sortieren aller Werte des Lerndatensatzes für jedes Merkmal in aufsteigender Rei-
henfolge. Das Ergebnis wird mit xlsort [n], n = 1, . . . , N, bezeichnet. Anschließend wer-
den die Parameter durch
µ ¶
N −1
al,i = xlsort [ ji ] mit ji = rd 1 + (i − 1) · , xlsort [n] ≤ xlsort [n + 1] (5.134)
ml − 1
gesetzt (rd: Rundungsoperator). Bei einer annähernden Gleichverteilung ist auch die
äquidistante Heuristik
i−1
al,i = min xl [n] + · (max xl [n] − min xl [n]) (5.135)
n ml − 1 n n

gebräuchlich. Diese Heuristik kann aber u. U. Parameter al,i in dünn besetzten Be-
reichen des Merkmals platzieren. Dieser Effekt tritt bei der Heuristik in (5.134) kaum
auf, weil sie nur im Lerndatensatz existierende Werte verwendet.
Keines der bisher genannten Bewertungsmaße oder Heuristiken beurteilt die In-
terpretierbarkeit der Zugehörigkeitsfunktionen. Besonders gut interpretierbar sind bei
vielen Anwendungen runde Werte mit der Zehnerpotenz der Spannweite als Expo-
nent. Die Null ist besonders hervorzuheben, sofern sie im Bereich enthalten ist. Je
stärker die Werte verfeinert sind, desto geringer ist die Akzeptanz. Ein Weg ist die
Einführung expliziter Bewertungsmaße, die bestimmte Parameter bevorzugen (siehe
z. B. [293]). Das erfordert allerdings einen hohen Rechenaufwand und ist durch die
nicht stetigen Bewertungsfunktionen numerisch nur durch trickreiche Verfahren [293]
praktikabel lösbar (z. B. Einschränkung Suchraum, geeignete Starthypothesen).
Eine Alternative bietet ein heuristisches Verfahren, das bereits vorhandene Para-
meter von Zugehörigkeitsfunktionen aStart
l,i geeignet rundet und somit die Interpretier-

169
5 Data Mining: Spezielle Verfahren

barkeit nachträglich erhöht. Ein erster Schritt berechnet die Spannweite, bildet den
Zehnerlogarithmus und rundet das Ergebnis (Operation rd). Dadurch entsteht eine
Zahl βl,i , die die Ausdehnung des Wertebereichs charakterisiert:
³ ³ ´ ´
βl,i = − rd log10 al,my − al,1 − 0.5 .
Start Start
(5.136)

Anschließend werden gerundete Parameterwerte berechnet:

rd(10βl,i · aStart
l,i )
al,i = . (5.137)
10βl,i
Solange für benachbarte Werte im Ergebnis von (5.137) noch al,i = al,i+1 gilt, werden
die korrespondierenden β -Werte hochgezählt: βl,i = βl,i + 1, βl,i+1 = βl,i+1 + 1.
Die linguistischen Terme heißen entsprechend ihrer Parameter Null (ZE für al,i = 0),
Positiv (POS), Positiv Sehr Klein (PSK), Positiv Klein (PK), Positiv Mittel (PM), Positiv
Groß (PG) und Positiv Sehr Groß (PSG) (für al,i > 0). Für al,i < 0 erhalten sie die
korrespondierenden negativen Bezeichnungen. Die Auswahl der Bezeichner erfolgt
entsprechend der Anzahl der positiven bzw. negativen Terme (Tabelle 5.14).

Anzahl al,i > 0 al,i < 0 al,i = 0


Terme
1 POS NEG ZE
2 PK, PG NK, NG -
3 PK, PM, PG NK, NM, NG -
4 PK, PM, PG, PSG NK, NM, NG, NSG -
5 PSK, PK, PM, PG, PSG NSK, NK, NM, NG, NSG -

Tabelle 5.14: Automatisch gewählte Bezeichnungen für linguistische Terme

Beispiel: Tabelle 5.15 zeigt einen Vergleich unterschiedlicher Verfahren für den Entwurf
der Zugehörigkeitsfunktionen für das Merkmal x1 . Hierbei kommen die äquifrequente (5.134)
und die äquidistante (5.135) Heuristik, ein Clusterverfahren und eine numerische Nachopti-
mierung der Zugehörigkeitsfunktionen mit einer gegebenen Regelbasis zum Minimieren des
Fuzzy-Klassifikationsfehlers (3.54) zum Einsatz. Die Interpretierbarkeit aller Varianten kann
nachträglich durch (5.137) verbessert werden. Die Ergebnisse ähneln einander, der wesent-
liche Unterschied liegt in den gerundeten Parametern. Beim Auftreten von Ausreißern oder
Extrema in dünn besetzten Gebieten verwenden beide Heuristiken diese Werte (siehe z. B.
Wert a1,5 = 4.74). Durch das Rundungsverfahren kommen teilweise noch extremere Werte zu
Stande (z. B. a1,5 = 5). Bei ungünstigen Verteilungen kann das zu dünn besetzten äußeren
Termen und nachfolgenden Problemen bei der statistischen Absicherung der entsprechenden
Regeln führen. Das Clusterverfahren vermeidet solche Extrema.

170
5.5 Fuzzy-Systeme

Verfahren Modifikation a1,1 a1,2 a1,3 a1,4 a1,5


gemäß
(5.137)
Äquifrequent (5.134) nein -2.797 0.4205 1.069 1.763 4.744
Äquifrequent (5.134) ja -3 0 1 2 5
Äquidistant (5.135) nein -2.797 -0.9115 0.974 2.859 4.744
Äquidistant (5.135) ja -3 -1 1 3 5
Clustering nein -2.059 0.1693 1.091 2.025 3.458
Clustering ja -2 0 1 2 3
Nachoptimierung nein -1.798 0.06754 1.484 2.412 2.979

Tabelle 5.15: Vergleich unterschiedlicher Verfahren zum Entwurf der Zugehörigkeitsfunktio-


nen am Beispiel des Merkmals x1 für fünf linguistische Terme

Die Parameter für die Zugehörigkeitsfunktionen mit einem eindimensionalen Clusterver-


fahren wurden bereits in Tabelle 5.9 auf Seite 148 vorgestellt. Ein nachfolgendes Runden
entsprechend dem Verfahren in (5.137) ergibt die besser interpretierbaren Parameter in Ta-
belle 5.16 und Bild 5.17. Wegen des Bewertungsmaßes des Clusterverfahrens spiegeln die
Parameter noch näherungsweise die Häufigkeitsverteilung im Datensatz wider, was durch die
unterlegten Histogramme in Bild 5.17 gezeigt wird. ¥

xl Bezeichnung al,1 al,2 al,3 al,4 al,5


x1 Laborwert x1 -2 (NEG) 0 (ZE) 1 (PK) 2 (PM) 3 (PG)
x2 Laborwert x2 0 (ZE) 8 (PK) 11 (PM) 16 (PG) 22 (PSG)
x3 Messwert x3 0 (ZE) 3 (PK) 10 (PM) 15 (PG) 22 (PSG)
x4 Messwert x4 -3 (NG) -2 (NM) -1 (NK) 0 (ZE) 2 (POS)

Tabelle 5.16: Interpretierbare Parameter für die Zugehörigkeitsfunktionen, Berechnung durch


ein Clusterverfahren mit der Modifikation gemäß (5.137)

Ziele beim Entwurf von Regeln und Regelbasen

Die Regelsuche umfasst das Aufstellen und Bewerten von Hypothesen für Einzelre-
geln und Regelbasen. Die Ziele sind
• ein gutes klassifikations- oder regressionsorientiertes Bewertungsmaß für die Re-
gelbasis und alle Einzelregeln,
• die statistische Absicherung der Einzelregeln und Regelbasen,
• die Verständlichkeit der Einzelregeln,

171
5 Data Mining: Spezielle Verfahren

NEG ZE PK PM PG ZE PK PM PG PSG
1 1
0.8 0.8
ZGF

ZGF
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−2 0 2 4 0 10 20 30
Laborwert x1 Laborwert x2

ZE PK PM PG PSG NG NM NK ZE POS
1 1
0.8 0.8
ZGF

ZGF
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 10 20 30 −4 −2 0 2
Messwert x3 Messwert x4

Bild 5.17: Zugehörigkeitsfunktionen mit gerundeten Parametern (vgl. Tabelle 5.16) und Histo-
gramme für das Beispiel

• die Transparenz ihres Zusammenwirkens,


• eine vollständige Abdeckung des Eingangsraums (für jede Situation gibt es min-
destens eine teilweise aktivierte Regel),
• ein niedriger Aufwand zur Speicherung und Auswertung der Regeln und
• ein niedriger Messaufwand für die in den Regelprämissen auftretenden Merkmale.

Hypothesengenerierung für Regeln und Regelbasen

Da bei der Hypothesengenerierung aufgrund der Komplexität ein vollständiges


Durchsuchen des Regelraums praktisch nicht durchführbar ist, müssen geeignete
Heuristiken auch bei unvollständiger Suche möglichst viele relevante Regeln bzw.
Regelbasen finden. Beim direkten Zugang sind die Hypothesen komplette Regel-
basen (Synonym: Pittsburgh-Ansatz [428]). Er verwendet Gütemaße für Regelbasen
und ist somit nicht in der Lage, die Qualität einzelner Regeln zu bewerten. Fehlerhafte
Einzelregeln können sich gegenseitig kompensieren, was die Interpretierbarkeit der

172
5.5 Fuzzy-Systeme

Regeln reduziert. Außerdem ist der Suchraum wegen der großen Anzahl möglicher
Hypothesen sehr groß.
Im Unterschied dazu stellt der indirekte Zugang (Michigan-Ansatz [175]) Einzelre-
geln als Hypothesen auf und fasst sie später zu Regelbasen zusammen. Der Such-
raum ist deutlich kleiner. Die Bewertung beurteilt die Relevanz einzelner Regeln, aber
nicht ihr Zusammenwirken in der Regelbasis (Redundanzen, nicht abgedeckte Ge-
biete usw.). Somit bestehen Risiken wegen einer unbefriedigenden Güte für die ge-
samte Regelbasis und schwer interpretierbaren Regelbasen.
Die meisten Strategien für Einzelregeln gehen von vorhandenen Regeln aus und
modifizieren sie durch Generalisierungen oder Spezialisierungen. Eine Spezialisie-
rung verfeinert eine Prämisse durch das Hinzufügen einer neuen Teilprämisse oder
das Weglassen einzelner linguistischer Terme in einer Teilprämisse.
Der allgemeinste Ausgangspunkt ist eine Regel mit Prämisse Eins. Ein Beispiel
ist die Vorgehensweise bei Entscheidungsbäumen, die ausgehend von der Eins-
Prämisse im Wurzelknoten Regeln durch schrittweises Hinzufügen von Teilprämis-
sen spezialisiert. Jeder Endknoten liefert eine Regel, die zusammen eine vollständi-
ge Regelbasis bilden. Die Entscheidung im Endknoten legt die Regelkonklusion fest.
Die Prämisse besteht aus der UND-Verknüpfung (Bezeichnung: ∩) aller spezifizierten
Merkmale xl auf dem Rückweg zum Wurzelknoten. Jeder durchlaufene Knoten ergibt
somit eine neue Teilprämisse. Allerdings schränkt die Strategie die Lösungsmenge
der möglichen Regeln ein, z. B. weil das im Wurzelknoten ausgewählte Merkmal in
allen Regeln vorkommt.
Die am stärksten spezialisierte Form ist eine separate Regel für jedes Datentu-
pel im Lerndatensatz. Hier kommt jedes Merkmal in jeder Regel mit genau einem
linguistischen Term vor. Solche Regeln sind normalerweise zu speziell und decken
genau ein Datentupel im Lerndatensatz ab, falls keine Datentupel mit identischen lin-
guistischen Termen existieren. Oft werden unbekannte Datentupel durch keine Regel
erfasst, die Regelbasis ist folglich unvollständig.
Eine Generalisierung erweitert den Einzugsbereich einer Regelprämisse durch das
Hinzufügen linguistischer Terme zu Teilprämissen, das Weglassen von Teilprämissen
oder das Fusionieren mit einer anderen Regelprämisse (Bild 5.18).
Letzteres ist aber problematisch, weil die Prämissen u. U. unübersichtlich und
schwer interpretierbar werden. Das Wegschneiden von weiteren Verzweigungen in
Bäumen (Pruning) lässt nur das Streichen der jeweils zuletzt hinzugefügten Teilprä-
misse zu und reduziert somit den Suchraum.
Hypothesen für Regelbasen entstehen durch Hinzufügen, Löschen oder Austau-
schen von Einzelregeln. Eine Alternative sind Modifikationen (z. B. durch Generalisie-

173
5 Data Mining: Spezielle Verfahren

a. originale Regel b. Löschen Teilprämisse c. Ergänzen Nachbarterm


x2 x2 x2
a23 a23 a23
a22 a22 a22

a21 a21 a21

a11 a12 a13 a11 a12 a13 a11 a12 a13


x1 x1 x1

Bild 5.18: Beispiele für Möglichkeiten zur Generalisierung von Einzelregeln (schwarzes
Rechteck: Gebiet mit α = 0.5 bei Verwendung des Minimums, grau: Gebiet mit
Zugehörigkeitswerten größer Null):
a. originale Regel mit Prämisse x1 = A1,2 ∩ x2 = A2,2 ,
b. Weglassen einer Teilprämisse: x1 = A1,2 ,
c. Hinzufügen eines linguistischen Terms x1 = (A1,1 ∪ A1,2 ) ∩ x2 = A2,2

ren oder Spezifizieren) von in der Regelbasis enthaltenen Einzelregeln beim direkten
Zugang.
Modifikationen von Zugehörigkeitsfunktionen wirken für einzelne Regeln wie Ge-
neralisierungen oder Spezialisierungen, weil sie die Einzugsbereiche der betroffenen
Regelprämissen vergrößern bzw. verkleinern.
Übersichten über unterschiedliche Verfahren finden sich in [101, 102, 297]. Tabel-
le 5.17 zeigt eine Einteilung ausgewählter Verfahren zur Regelgenerierung für Fuzzy-
Systeme entsprechend der beiden Zugänge.
Oftmals werden verschiedene Verfahren miteinander kombiniert. So erzeugt das
Verfahren in Bild 5.19 zunächst spezielle Regeln durch Entscheidungsbäume, um sie
nachher zu generalisieren und daraus kooperierende Regelbasen zusammenzustel-
len.

Bewertung von Regeln und Regelbasen

Die Bewertung von Einzelregeln und Regelbasen ist nicht trivial, weil alle Bewer-
tungsmaße vollständige Lösungen unterstellen. Eine vollständige Lösung bedeutet,
dass alle Datentupel in einem Lerndatensatz einbezogen werden. Hier bieten sich
verschiedene Strategien an:

174
5.5 Fuzzy-Systeme

Zugang Verfahren
direkter - ASMOD [252]
Zugang - Fuzzy CART [195]
(Pittsburgh- - LOLIMOT [324]
Ansatz) - Entscheidungsbäume [23]
- Fuzzy-Entscheidungsbäume [66, 171, 196, 381, 391]
- Evolutionäre Algorithmen [38, 102, 173, 188, 207, 217]
- Clustering [420]
indirekter Zu- - Fuzzy-ROSA (explorative Standardstrategie) [140, 426]
gang - Entscheidungsbäume [38, 126, 140, 156, 191, 210, 296]
(Michigan- - Fuzzy Version Space Learning [178, 462]
Ansatz) - induktives Lernen modularer Fuzzy-Regeln [178, 218]
- Induktion hierarchischer Fuzzy-Systeme [176]
- Evolutionäre Algorithmen [38, 58, 102, 163, 228, 229, 426]

Tabelle 5.17: Einteilung von Verfahren zur Regelgenerierung für Fuzzy-Systeme

• Eine Datentupelselektion wählt nur die abgedeckten Datentupel im Einzugsbereich


der Regelprämisse(n) mit einem beliebigen α -Schnitt aus (oftmals Absolutwert
α = 0.5 oder Regel mit größter Erfüllung der Prämisse). Diese Strategie bevorzugt
fehlerfreie Einzelregeln mit kleinen Einzugsgebieten der Prämisse. Daraus entste-

Entwurf Extraktion von


Zugehörigkeits- Regelhypothesen
funktionen

Entwurf mit Induktion


informations- Entscheidungs- Generalisierung
theoretischen bäume und Bewertung
Maßen

Merkmale
Auswahl der
bewerten und
Regelbasis
auswählen

Bild 5.19: Modulares Entwurfsverfahren für Fuzzy-Systeme in [302]

175
5 Data Mining: Spezielle Verfahren

hende Regelbasen bestehen aus unnötig vielen Regeln. Bei Regelbasen besteht
das Risiko, dass große Gebiete nicht abgedeckt werden.
• Eine Regel oder Regelbasis wird durch eine Sonst-Regel ergänzt, die das nicht
durch die Regelprämisse(n) erfasste Gebiet behandelt. Somit entsteht stets eine
vollständige Regelbasis.
Diese Strategie begünstigt große Einzugsgebiete der Prämisse und nimmt mode-
rat fehlerbehaftete Regeln in Kauf. So erzeugte Regelbasen bestehen aus weni-
gen Regeln, weisen aber teilweise schlechtere klassifikations- oder regressions-
orientierte Bewertungsmaße auf. Zudem ist hier festzulegen, welche Konklusion
diese ergänzende Regel aufweisen soll. Dazu bieten sich hauptsächlich vier Un-
tervarianten an:
• I: optimale scharfe oder unscharfe Konklusion über der Prämisse der Sonst-
Regel für den Lerndatensatz,
• II: Konklusion NICHT y = Cr (nur bei Einzelregeln für Klassifikationsprobleme),
• III: a priori festgesetzte Konklusion ”Rückweisung” (nur für Klassifikationspro-
bleme) und
• IV: beliebige a priori festgesetzte Konklusion.
Alle Untervarianten haben Vor- und Nachteile.
Untervariante I hat insbesondere bei scharfen Konklusionen Probleme beim Fin-
den von Regeln mit der häufigsten Klasse. Außerdem neigt sie bei Mehrklassen-
problemen dazu, fehlerhafte Datentupel in der Regelprämisse zu akzeptieren, die
weder zur Regelkonklusion noch zur Konklusion der Sonst-Regel gehören. Die
Ursache für diesen Effekt liegt darin, dass diese Datentupel in beiden Gebieten
Fehler erzeugen und somit eine in späteren Schritten störende Zuordnung zur Re-
gelprämisse nicht bestraft wird.
Die Untervarianten II und III erzeugen tendenziell zu große Prämissen. Sie ver-
suchen, alle Datentupel zur jeweiligen Konklusion in die Prämisse zu integrieren,
auch wenn dadurch relativ viele Fehler im Einzugsgebiet der Prämisse entstehen.
Die Untervariante IV findet keine Regeln mit der festgesetzten Konklusion und hat
ansonsten ähnliche Probleme wie Untervariante I. Andererseits ist sie sehr gut
geeignet, relative kleine Gebiete mit abweichenden Klassen zu finden, die in ein
großes und nicht kompaktes Gebiet mit der festgesetzten Konklusion eingebettet
sind.
Die Komplexität solcher Effekte steigt insbesondere bei Problemen mit unter-
schiedlichen Entscheidungskosten stark an [38, 39, 40]. Eine Ursache ist die ge-
eignete Festlegung von Entscheidungskosten für die Untervarianten II und III, die
nicht aus dem Problem resultieren. Außerdem werden ”billige” Fehlentscheidun-

176
5.5 Fuzzy-Systeme

a. Einzelregel b. 2 Regeln c. 4 Regeln


x2 x2 x2
a23 a23 a23
R2 R3 R2
a22 a22 a22

R1 R1
a21 a21 a21 R4 R1

a11 a12 a13 a11 a12 a13 a11 a12 a13


x1 x1 x1

Bild 5.20: Einzugsgebiete von Regeln und der Sonst-Regel bei a. einer Einzelregel, b. einer
unvollständigen Regelbasis mit zwei Regeln, c. einer vollständigen Regelbasis mit
vier Regeln; dunkelgrau: nur Regel(n), hellgrau: anteilig Regel und Sonst-Regel,
weiß: nur Sonst-Regel, fette Linien: α = 0.5-Schnitt der Regeln, gepunktete Linien:
Parameter Zugehörigkeitsfunktionen, Regelprämissen V1 : x1 = (A1,2 ∪ A1,3 ) ∩ x2 =
A2,1 , V2 : x1 = A1,3 ∩ x2 = (A2,2 ∪ A2,3 ), V3 : x1 = (A1,1 ∪ A1,2 ) ∩ x2 = (A2,2 ∪ A2,3 ),
V4 : x1 = A1,1 ∩ x2 = A2,1

gen bevorzugt zu Regelprämissen von Einzelregeln zugeordnet, was später zu


suboptimalen Ergebnissen beim Zusammenstellen von Regelbasen führt.
Beim Zusammenstellen der Regelbasis reduziert sich schrittweise das Einzugs-
gebiet der Sonst-Regel (weißer Bereich in Bild 5.20). Solange nicht der komplette
Bereich durch Regeln abgedeckt wird, gibt es an den Grenzen zwischen abge-
decktem und nicht abgedecktem Bereich außerdem noch einen hellgrau einge-
zeichneten Bereich mit gradueller Zugehörigkeit zur Sonst-Regel.

• Verschiedene Kompromisse aus beiden Varianten (z. B. reduzierte Einbeziehung


der Sonst-Regel) versuchen die Vorteile beider Varianten zu fusionieren (siehe [38]
für eine umfassende Diskussion). In die gleiche Richtung zielt die Idee, die Güte
einer Regel im Einzugsgebiet ihrer Prämisse gegenüber einer generalisierten Re-
gel (z. B. mit einer Eins-Prämisse) zu vergleichen. Diese Strategie sucht ebenfalls
nach Regeln, die viele Datentupel abdecken und eine abweichende Konklusion
zur untersuchten generellen Regel aufweisen (siehe z. B. Bewertungsmaße des
ROSA-Verfahrens [212, 225, 231]).

Neben der Black-Box-Bewertung des kompletten Fuzzy-Systems durch ein belie-


biges klassifikations- oder regressionsorientiertes Bewertungsmaß bietet sich eine
Bewertung als Fuzzy-Klassifikationsproblem mittels (3.72) an [190, 296], wodurch
strenggenommen wieder eine regressionsorientierte Bewertung erfolgt. Die Schät-

177
5 Data Mining: Spezielle Verfahren

zung der unscharfen Ausgangsgröße erfolgt hierbei in Analogie zu den Schätzvor-


schriften in (3.22) – (3.26) mittels

Q(P̂(y|x = V )) = 12 kµ y − µ V (x) · P̂T (y|x = V ) k2F → min (5.138)


| {z } P̂(y|x=V )
µ̂ y

mit der Frobenius-Norm sowie


 
P̂(y = B1 |x = V1 ) ··· P̂(y = B1 |x = Vrmax )
 .. ... .. 
P̂(y|x = V ) =  . . , (5.139)
P̂(y = Bmy |x = V1 ) · · · P̂(y = Bmy |x = Vrmax )
P̂(y|x = V ) ≥ 0my ×rmax , (5.140)
1Tmy P̂(y|x = V ) = 1Trmax , (5.141)

was einer Akkumulation I mit der gewöhnlichen Summe als Operator entspricht. Im
Falle nicht überlappender Regeln und bei der Verwendung einer Standardpartition ist
die Summe aller Regelaktivierungen nie größer Eins. Somit ist dieser Operator der
Beschränkten Summe äquivalent. Die Matrix µ V (x) ergibt sich mit
 
µVr1 (x[1]) · · · µVrmax (x[1])
 .. ... 
..
µ V (x) =  . 
. (5.142)
µVr1 (x[N]) · · · µVrmax (x[N])

und µ y aus (3.4).


Diese Bewertung bezieht allerdings die Akkumulation II und III, die Defuzzifizierung
und die Lage der Ausgangszugehörigkeitsfunktionen nicht mit ein. Dennoch ergeben
sich für einige Klassifikationsprobleme Vorteile, weil durch (5.138) ein meist stetiges
Bewertungsmaß gegeben wird, welches sich besser zur numerischen Optimierung
(z. B. für Parameter von Zugehörigkeitsfunktionen) eignet. Zudem ist (5.138) selbst
geschlossen lösbar [302].
Ein besser interpretierbares relatives regressionsorientiertes Bewertungsmaß ent-
steht durch Anwendung von (3.79) auf die Bewertungsmaße in (5.138) mit

Q(P̂(y|x = V ))
QR2 ,F (µ y , µ̂ y ) = 1 − . (5.143)
Q(P̂(y))

Das Trivialmodell P̂(y) entspricht der optimalen Konklusion einer Regel mit Eins-
Prämisse.
Weitere Bewertungsaspekte für Regeln wie Kosten für verwendete Merkmale bzw.
eine möglichst eindeutige Verteilung zugunsten der Klasse in der Konklusion können

178
5.5 Fuzzy-Systeme

bei Bedarf gesondert einbezogen werden. Ein Maß für Letzteres ist die sogenannte
Klarheit einer Regel [190, 296] mit

QKlar,r = P̂(y = Cr |x = Vr ). (5.144)

Ein Wert von Eins bedeutet eine eindeutige Zuordnung der Konklusion zur Prämisse,
ein Wert von Null schließt die Konklusion komplett aus.
Die bisher diskutierten Maße enthalten nur indirekte Informationen über die sta-
tistische Absicherung einer Regel. Zwar ist es naheliegend, dass Regeln mit einem
geringen Klassifikationsfehler statistisch relevant sind. Allerdings existieren dafür Ge-
genbeispiele, z. B. kann die Erklärung seltener Klassen Bc mit wenigen Datentupeln
zu sehr guten Gütewerten bezüglich eines Klassifikationsproblems Bc gegen B̄c , aber
auch zu einer geringen statistischen Sicherheit führen.
Ein statistischer Test kann bei Klassifikationsproblemen im einfachsten Fall durch
das Testen zweier Binomialverteilungen erfolgen, welche die Häufigkeiten der Kon-
klusion im Gebiet der Prämisse gegen das Gebiet der Eins-Regel [212, 232]
bzw. das Gebiet der Sonst-Regel [302] vergleichen. Dabei entstehen für jedes
Signifikanzniveau jeweils Konfidenzintervalle mit oberen und unteren Schranken
[P̂Cr ,un (·), P̂Cr ,ob (·)] mit der abkürzenden Schreibweise

P̂Cr (·) = P̂(y = Cr |·). (5.145)

Ein Beispiel zeigt Bild 5.21.


Aus den Konfidenzintervallen können wiederum quantitative Bewertungsmaße für
Regelrelevanzen abgeleitet werden. Bei einem Vergleich der Regelprämisse gegen
die negierte Regelprämisse (Spezialfall der Sonst-Regel) ergibt sich beispielsweise
gemäß [302] eine statistische Absicherungsgüte

 1

1− wenn P̂Cr ,un (x = Vr ) > P̂Cr ,ob (x = Vr )

 max(1, K pos )
QStat = −1 + 1 (5.146)
 wenn P̂Cr ,ob (x = Vr ) < P̂Cr ,un (x = Vr )

 max(1, Kneg )


0 sonst

mit den Abkürzungen

P̂Cr (x = Vr ) − P̂Cr (x = Vr )
K pos = , (5.147)
P̂Cr ,ob (x = Vr ) − P̂Cr (x = Vr ) + P̂Cr (x = Vr ) − P̂Cr ,un (x = Vr )
P̂Cr (x = Vr ) − P̂Cr (x = Vr )
Kneg = . (5.148)
P̂Cr ,ob (x = Vr ) − P̂Cr (x = Vr ) + P̂Cr (x = Vr ) − P̂Cr ,un (x = Vr )

179
5 Data Mining: Spezielle Verfahren

Fall 1: relevante Einzelregel


P̂Cr ,un (x¾= Vr ) (x = Vr )
P̂Cr ,ob-
¾ -
0 1
P̂Cr ,un (x = Vr ) P̂Cr ,ob (x = Vr )
Fall 2: relevante negative Einzelregel
P̂Cr ,un (x¾= Vr ) (x = Vr )
P̂Cr ,ob-
¾ -
0 1
P̂Cr ,un (x = Vr ) P̂Cr ,ob (x = Vr )
Fall 3: irrelevante Regel
P̂Cr ,un (x¾= Vr ) (x = Vr )
P̂Cr ,ob-
¾ -
0 1
P̂Cr ,un (x = Vr ) P̂Cr ,ob (x = Vr )

Bild 5.21: Konfidenzintervalle der geschätzten Wahrscheinlichkeiten zur Berechnung der sta-
tistischen Absicherungsgüte [212, 302]

Bei einer geometrischen Deutung ist K pos bzw. Kneg der multiplikative Faktor, mit dem
die jeweiligen Konfidenzintervalle gestreckt werden können, um noch relevant zu blei-
ben. Bewertungsmaße wie QStat oder ähnliche Maße eignen sich auch als Regelre-
levanz [212].
Die statistische Absicherungsgüte darf aber nicht mit einem Signifikanzniveau α
verwechselt werden. Bei einer Einzelregel bedeutet zwar jeder Wert QStat > 0, dass
die Regel über dem vorgegebenen Signifikanzniveau liegt. Je näher dieser Wert
in Richtung Eins geht, desto sicherer ist die Regel. Dennoch lässt er keine direkte
Schlussfolgerung über das Signifikanzniveau zu.
Mit den modularen Maßen relative Regressionsgüte QR2 ,F entsprechend (5.143)
und Klarheit QKlar sowie der statistischen Absicherungsgüte QStat können nun Ein-
zelregeln auf ihre Relevanz geprüft werden. Dazu dient hier das Kriterium [297]

Q 2 (µ , µ̂ ) · QβKlar (βKlar > 0) für QStat > 0
R ,F y y Klar
Qges = (5.149)
0 sonst.

Die relative Regressionsgüte bewertet die Verbesserung der Schätzung der Zugehö-
rigkeiten der Ausgangsgröße im Vergleich zum Trivialmodell auf Basis der Frobenius-
Norm. Der Exponent βKlar erlaubt eine Gewichtung zwischen relativer Regressions-
güte und Klarheit. Größere Werte von βKlar führen zu einer Bevorzugung speziellerer
Regeln mit wenigen Fehlern, weniger Datentupeln und einer geringeren statistischen
Absicherung (niedrigeres Abstraktionsniveau) gegenüber allgemeineren Regeln mit

180
5.5 Fuzzy-Systeme

einigen Fehlern, vielen Datentupeln und einer höheren statistischen Absicherung (hö-
heres Abstraktionsniveau). Während der Regelgeneralisierung ist es vorteilhaft, die
statistische Absicherungsgüte erst nach dem letzten Generalisierungsschritt einzu-
beziehen, weil sonst vielversprechende spezielle Regeln nicht weiterverfolgt werden.
Bei einer Bewertung von Einzelregeln mit entscheidungstheoretischen Maßen wie
(3.83) treten multikriterielle Optimierungsprobleme auf (z. B. geringer Klassifikations-
fehler und somit niedrige Entscheidungskosten, geringe Merkmalskosten).
Eine gute Lösung für die Regelbasis erfordert das Abspeichern jeder möglichen
Pareto-optimalen Lösung für die Einzelregeln.
Selbst wenn in der finalen Regelbasis nur die Gesamtkosten zu minimieren sind, ist
zum Zeitpunkt der Generierung der Einzelregeln nicht abzusehen, welche Merkmale
in der Regelbasis verwendet werden. Deshalb liegt der zusätzliche Beitrag einer Ein-
zelregel zu den Merkmalskosten der Regelbasis zwischen Null (die Merkmale werden
bereits durch andere Regeln in der Regelbasis verwendet) und den vollen Merkmals-
kosten für alle verwendeten Merkmale. Deswegen ist es sinnvoll, eine zweikriterielle
Minimierung bezüglich der Gesamtkosten QT (3.83) (inkl. der vollen Merkmalskosten)
und der Entscheidungskosten QD (3.59) für Einzelregeln und deren Generalisierun-
gen durchzuführen (Beispiel in Bild 5.22).
Nur das Weglassen von Teilprämissen kann die Merkmalskosten in der finalen Re-
gelbasis reduzieren, das Hinzufügen linguistischer Terme ändert die Merkmalskosten
nicht. Deswegen sind alle Regeln aus dem Indifferenzgebiet

QD,r + γ QF,r < QD,ropt + QF,ropt mit ropt = argminr QD,r , γ ∈ [0, 1] (5.150)

potenzielle Pareto-optimale Lösungen. Der Faktor γ formalisiert die Impräzision des


Kostenbeitrags der Einzelregel, wobei γ = 1 für die vollen Merkmalskosten und γ = 0
für verschwindende Mehrkosten durch die in der Regel verwendeten Merkmale steht.
Der Index ropt kennzeichnet die Pareto-optimale Regel mit den kleinsten Entschei-
dungskosten QD,ropt .

Vergleich

Der folgende Abschnitt erläutert ausgewählte Aspekte bei der Hypothesengenerie-


rung und Bewertung anhand des illustrativen Beispiels:
Beispiel: Der Ausgangspunkt der folgenden Untersuchungen ist der generierte Entschei-
dungsbaum aus Tabelle 5.11. Tabelle 5.18 verdeutlicht eine mögliche Vorgehensweise bei
der Hypothesengenerierung von Einzelregeln am Beispiel des Generalisierens einer bereits
existierenden Regel R11 , die aus dem Entscheidungsbaum stammt (vgl. Knoten v11 in Ta-

181
5 Data Mining: Spezielle Verfahren

von Ursprungsregel dominierte


Regeln (werden gelöscht)
QF Indifferente Regeln
(dominieren Ursprungsregel und
QT konstant werden behalten)
Ursprungsregel des Generalisie-
QT steigt
rungsschrittes (wird gelöscht)
QT sinkt
Rropt (minimales QD)
QFropt Hinzufügen von Termen
(keine Änderung der Merkmalskosten)
Weglassen von Teilprämissen
(Änderung der Merkmalskosten)

Dominanzgebiet Indifferenzgebiet

QD,ropt QD

Bild 5.22: Kandidaten für Pareto-optimale Einzelregeln beim Generalisieren einer Regel
durch Hinzufügen von linguistischen Termen zu Teilprämissen sowie Weglassen
von Teilprämissen (nach [38])

belle 5.11 auf S. 150).8 Die Regel ist mit drei zugehörigen Datentupeln statistisch kaum
abgesichert und nur deswegen relevant, weil die Klasse B2 extrem selten ist (Prämisse:
P̂(Cr |Vr ) = 1 mit Konfidenzintervall [0.29,1.00] für ein Signifikanzniveau α = 0.05, negierte
Prämisse P̂(Cr |Vr ) = 0.07 mit Konfidenzintervall [0.04,0.12]).
Hypothesen für generalisierte Regelprämissen entstehen durch Weglassen einer Teilprä-
misse (R17 , R5 ) oder durch das Ergänzen benachbarter Terme (R18 , R19 , R20 ). Alle Regeln
übernehmen die Konklusion der ursprünglichen Regel, um Regeln mit einer seltenen Konklu-
sion zu schützen.
Die fehlerfreie Regel R19 (Ergänzen des Terms A1,5 ) zeichnet sich durch eine Prämisse
aus, die weitaus mehr Datentupel als R11 abdeckt. Alle anderen Optionen weisen zu große
Klassifikationsfehler und damit schlechtere Bewertungen auf. Regel R19 bildet somit den Aus-
gangspunkt für den nächsten Generalisierungsschritt. Durch Weglassen der Teilprämissen
entstehen nochmals die Regel R17 und die neue Regel R21 . Ein Ergänzen benachbarter Ter-
me erzeugt die Regeln R22 und R23 . Die relative Regressionsgüte bevorzugt Regel R23 wegen
8
Die Nummerierung der Regeln bis R16 stimmt mit den Knotennummern des Entscheidungsbaums
überein. Neu entstehende Regelhypothesen werden fortlaufend nummeriert. Die unterschiedliche
Anzahl der zugehörigen Datentupel resultiert aus unterschiedlichen Inferenzverfahren beim Aus-
werten von (scharfen) Entscheidungsbäumen und (unscharfen) Fuzzy-Regeln.

182
5.5 Fuzzy-Systeme

SG Nr. Prämisse Vr Qges QR2 ,F QKlar QStat Fr Nr


(5.149) (5.143) (5.144) (5.146)
1 R11 x1 = A1,4 ∩ x2 = A2,5 0.13 0.13 1.00 0.19 0 3
1 R17 x2 = A2,5 0.01 0.30 0.72 0.58 5 18
1 R5 x1 = A1,4 0 0.01 0.15 0 47 55
1 R18 x1 = A1,3 ∪ A1,4 ∩ x2 = A2,5 0 0.05 0.50 0 3 6
1 R19 x1 = A1,4 ∪ A1,5 ∩ x2 = A2,5 0.46 0.46 1.00 0.71 0 13
1 R20 x1 = A1,4 ∩ x2 = A2,4 ∪ A2,5 0.00 0.12 0.67 0.41 4 12
2 R19 x1 = A1,4 ∪ A1,5 ∩ x2 = A2,5 0.46 0.46 1.00 0.71 0 13
2 R17 x2 = A2,5 0.01 0.30 0.72 0.58 5 18
2 R21 x1 = A1,4 ∪ A1,5 0.00 0.14 0.29 0.57 48 68
2 R22 x1 = A1,3 ∪ A1,4 ∪ A1,5 0.04 0.35 0.81 0.61 3 16
∩ x2 = A2,5
2 R23 x1 = A1,4 ∪ A1,5 0.07 0.48 0.83 0.71 4 23
∩ x2 = A2,4 ∪ A2,5

Tabelle 5.18: Schrittweises Generalisieren der ursprünglichen Regel R11 (Konklusion ŷ = B2 ),


Generalisierungsschritt SG mit den Bewertungsmaßen Qges mit βKlar = 10, rela-
tive Regressionsgüte QR2 ,F , Klarheit QKlar , statistische Absicherungsgüte QStat ,
Fehler Fr = N(x = Vr ∩ y 6= ŷ) und Datentupel in der Prämisse: Nr = N(x = Vr )

der hohen Anzahl von Datentupeln. Das finale Bewertungsmaß Qges entscheidet sich wegen
der deutlich größeren Klarheit wieder zugunsten von R19 . Damit ist das Generalisieren der
ursprünglichen Regel R11 abgeschlossen.
Mit dieser Methode entstehen aus den ursprünglichen 13 Regeln aus den Endknoten des
Entscheidungsbaums die sieben generalisierten und statistisch abgesicherten Regeln in Ta-
belle 5.19.
Anschließend werden Hypothesen für eine Regelbasis aufgestellt und mit (5.143) bewer-
tet. In einem ersten Schritt werden sieben Regelbasen überprüft, die jeweils eine der Regeln
in Kombination mit einer Sonst-Regel mit Rückweisung enthalten. Die beste Regelbasis ent-
hält R2 . Der nächste Schritt testet Regelbasen mit Regel R2 , einer weiteren Kandidatenregel
und der Sonst-Regel usw. Auf diese Weise werden schrittweise die Regeln R19 , R24 und R6
ergänzt. Alle weiteren Regeln verbessern das Ergebnis nicht und werden verworfen. Somit
entsteht eine Regelbasis mit vier Regeln und einer Sonst-Regel (mit ∗ markierte Regeln in
Tabelle 5.19).
R19 überdeckt sich mit Teilgebieten von Regel R24 (widersprüchliche Konklusionen B1 ↔
B2 ) und R6 (gleiche Konklusion B2 ). Die Inferenz löst die Widersprüche auf und sorgt letztlich
für plausible Klassengrenzen (Bild 5.23). Eine Lösung mit optimalen Einzelregeln entsteht so
allerdings nicht, weil R24 unnötig fehlerbehaftet ist.

183
5 Data Mining: Spezielle Verfahren

Nr. Prämisse Vr Cr Qges QR2 ,F QKlar QStat Fr Nr


(5.149) (5.143) (5.144) (5.146)
R∗2 x1 = A1,1 B3 0.56 0.56 1.00 0.64 0 9
R∗19 x1 = A1,4 ∪ A1,5 B2 0.46 0.46 1.00 0.71 0 13
∩ x2 = A2,5
R∗24 x1 = A1,2 ∪ A1,3 ∪ A1,4 B1 0.27 0.42 0.96 0.76 9 208
R∗6 x1 = A1,5 B2 0.17 0.39 0.92 0.64 1 13
R25 x1 = A1,2 ∪ A1,3 ∪ A1,4 B1 0.35 0.41 0.98 0.76 3 198
∩ x2 = A2,5
R26 x2 = A2,5 B1 0.09 0.19 0.92 0.58 16 212
R23 x1 = A1,4 ∪ A1,5 B2 0.07 0.48 0.83 0.71 4 23
∩ x2 = A2,4 ∪ A2,5
R∗rsonst SONST B1 - - - - - -

Tabelle 5.19: Regeln nach Generalisierung und daraus zusammengestellte Regelbasis (al-
le Regeln mit ∗ ) incl. Bewertung für das 3-Klassen-Problem, Abkürzungen für
Bewertungsmaße siehe Tabelle 5.18, Visualisierung siehe Bild 5.23

Da die Regeln der Regelbasis im Beispiel alle möglichen Eingangsgrößen abdecken, wird
strenggenommen keine Sonst-Regel benötigt. Solche Eigenschaften sind allerdings bei einer
Vielzahl verwendeter Merkmale kaum noch prüfbar. Folglich ist es sinnvoll, die Vollständigkeit
der Regelbasis immer durch eine Sonst-Regel abzusichern.
Die entstehenden Regelbasen hängen hauptsächlich von den ausgewählten Zugehörig-
keitsfunktionen, den verwendeten Verfahren zur Hypothesengenerierung und den Bewer-
tungsmaßen ab. Eine Auswahl von Ergebnissen für das Beispiel zeigt Tabelle 5.20. Alle
Verfahren lösen sowohl das 3-Klassen- als auch das 2-Klassen-Problem ohne merkliche
Unterschiede. Die Erzeugung klassenspezifischer Entscheidungsbäume generiert beim 3-
Klassen-Problem nEB = 3 unterschiedliche Bäume (jede Klasse gegen die beiden anderen),
während beim 2-Klassen-Problem nur ein Baum entsteht (Klasse Proband gegen Klasse Pa-
tient). Allerdings reicht für das Beispiel ein Entscheidungsbaum auch aus, um hinreichend
viele Regelhypothesen zu generieren.
Die mit einem Clusterverfahren bestimmten Parameter der Zugehörigkeitsfunktionen in Ta-
belle 5.9 bieten eine gute Ausgangsbasis für den Entwurf von Regelbasen. Ein äquifrequenter
Ansatz ist für das Beispiel etwas schlechter, weil er Randterme mit zu wenigen Datentupeln in
den Regeln erzeugt und außerdem eher zufällig zu ungünstigeren Klassengrenzen neigt. Ein
Optimieren der ZGF-Parameter nach dem Entwurf der Regelbasis9 lohnt sich nur über dem
Lerndatensatz und mit Einschränkungen bei Testdaten einer 5-fachen Crossvalidierung. Die
Ursache liegt in einer erhöhten Empfindlichkeit gegenüber einer Überanpassung über kleinen
9
zu maximierendes Gütemaß: (5.143), freie Parameter für Optimierung: Parameter der Zugehörig-
keitsfunktionen der in der Regelbasis verwendeten Merkmale

184
5.5 Fuzzy-Systeme

Fuzzy−Regelbasis mit 4+1 Regeln

B1: Proband
B2: Patient A
B3: Patient B

22.18
R19
Laborwert x2

R2 R24
15.64

11.5
R
6
7.99

4.02

−2.06 0.17 1.09 2.03 3.46


Laborwert x1

Bild 5.23: Einzugsgebiete der ausgewählten Regeln (alle Regeln mit ∗ in Tabelle 5.19) und
Klassengrenzen der resultierenden Regelbasis

Lerndatensätzen (vgl. 2-fache Crossvalidierung), weil der Lerndatensatz stärker ausgebeu-


tet wird. Ein Runden der Parameter der Zugehörigkeitsfunktionen gemäß (5.137) verbessert
zwar die Interpretierbarkeit, erhöht aber den Klassifikationsfehler und die Entscheidungskos-
ten. Dieser Widerspruch ist typisch für viele Aufgaben [296] und muss durch einen aufgaben-
spezifisch zu wählenden Kompromiss aus Interpretierbarkeit und Klassifikationsgüte aufge-
löst werden.
Eine Verwendung aller gefundenen Einzelregeln ohne die explizite Suche nach einer klei-
nen Regelbasis führt zu schlechten Ergebnissen (RB: nein). Einige der verwendeten Ein-
zelregeln sind zwar für sich statistisch abgesichert und relevant, verursachen aber dennoch
unnötige Klassifikationsfehler. Außerdem sind so entstandene Fuzzy-Systeme schlechter in-
terpretierbar, weil sie aus sehr vielen Regeln mit beträchtlichen Überlappungen bestehen.
Die Suche nach Regelbasen verwirft hingegen solche Regeln, wenn sie das Gütemaß für die
gesamte Regelbasis verschlechtern.
Eine Berücksichtigung der unterschiedlichen Entscheidungskosten (EK) beim Entwurf
bringt für das Beispiel eine deutliche Reduzierung der Kosten mit sich, ohne dass die Klassifi-
kationsfehler merklich ansteigen. Die heuristisch festgelegten Entscheidungskosten aus (5.2)
bewirken im Zweifelsfall eine Entscheidung zu Gunsten der beiden Patientenklassen. ¥
Aufgrund der kombinatorischen Explosion aller möglichen Komponenten in den Lö-
sungsverfahren und den auftretenden komplexen Wechselwirkungen zeigt das Bei-

185
5 Data Mining: Spezielle Verfahren

my ZGF-Entwurf nEB RB Bewer- Klassifika- Kosten gemäß


Parameter RU tung tionsfehler [%] (3.59)
(5.137) LD (5CV, 2CV) LD (5CV, 2CV)
3 Clustering nein 3 ja RRG 2.6 (2.8,4.2) 0.11 (0.11,0.16)
3 Äquifrequent nein 3 ja RRG 4.3 (5.7,6.6) 0.20 (0.26,0.29)
3 Optimiert nein 3 ja RRG 1.7 (2.8,4.7) 0.07 (0.10,0.18)
3 Clustering ja 3 ja RRG 4.3 (5.1,4.3) 0.11 (0.16,0.14)
3 Clustering nein 1 ja RRG 2.6 (3.0,3.4) 0.11 (0.12,0.14)
3 Clustering nein 3 nein RRG 5.2 (5.3,4.3) 0.26 (0.27,0.20)
3 Clustering nein 3 ja EK 2.2 (3.1,4.4) 0.06 (0.08,0.11)
2 Clustering nein 1 ja RRG 2.6 (3.2,5.0) 0.11 (0.13,0.20)
2 Äquifrequent nein 1 ja RRG 4.3 (5.9,7.0) 0.20 (0.27,0.32)
2 Optimiert nein 1 ja RRG 1.7 (3.6,5.3) 0.07 (0.14,0.20)
2 Clustering ja 1 ja RRG 4.3 (5.0,5.5) 0.11 (0.17,0.20)
2 Clustering nein 1 nein RRG 5.2 (5.7,5.2) 0.26 (0.28,0.23)
2 Clustering nein 1 ja EK 2.2 (3.0,4.7) 0.06 (0.08,0.14)

Tabelle 5.20: Klassifikationsfehler und Kosten für unterschiedliche Fuzzy-Systeme: my : 2-


oder 3-Klassen-Problem, RU: gerundete Parameter entsprechend (5.137), nEB :
Anzahl generierter Entscheidungsbäume, RB: Suche nach einer Regelbasis,
RRG: Bewertung mit relativer Regressionsgüte, EK: Bewertung mit minimalen
Entscheidungskosten, LD: Lerndatensatz, 5CV: 10 Versuche 5-fache Crossva-
lidierung, 2CV: 10 Versuche 2-fache Crossvalidierung

spiel nur einige ausgewählte Aspekte. Eine Verallgemeinerung der Ergebnisse auf
andere Anwendungen ist nur eingeschränkt möglich. Deswegen ist es sinnvoll, ver-
schiedene Einstellungen automatisiert auszuprobieren und diejenigen mit den besten
Ergebnissen über Testdaten zu verwenden. Allerdings ist die Kombination mit Clus-
terverfahren zum Entwurf von Zugehörigkeitsfunktionen, my klassenspezifischen Ent-
scheidungsbäumen zur Extraktion von Regelhypothesen, Generalisieren und nach-
folgendem Suchen nach einer Regelbasis relativ robust und erzielt in vielen Anwen-
dungen gute Ergebnisse [258, 288, 296].

5.5.6 Automatisierte Generierung von Erklärungstexten

Bei der Bewertung von Regeln fallen viele Zusatzinformationen an, die zu einem bes-
seren Verständnis der Regeln beitragen können. Dabei handelt es sich insbesondere
um Aussagen, inwieweit eine Regel fehlerfrei ist, wie speziell sie ist und wie die ein-
zelnen Teilprämissen zu den Ergebnissen beitragen.

186
5.5 Fuzzy-Systeme

Kennzahlen für solche Aussagen finden sich in den ohnehin berechneten beding-
ten Wahrscheinlichkeiten P̂(·). Eine Idee zur Vermittlung dieser Zusatzinformationen
und zur Annäherung an den menschlichen Sprachgebrauch besteht darin, Erklä-
rungstexte automatisch zu erzeugen [260, 301] und relevante Regelbewertungen in
die Beschreibung zu integrieren.
Die entstehenden Erklärungstexte setzen sich dann aus mehreren Bestandteilen
zusammen:
• feststehende Textrahmen zur Struktur der Regeln und der Erklärungstexte,
• textuelle Übersetzungen für verschiedene Wahrscheinlichkeitsaussagen TWahr (·),
bzw. der relativen Anzahl von Datentupeln TAnz (·) aus der Regelbewertung (Tabel-
le 5.21),
• textuelle Langfassungen für linguistische Terme TTerm (·) inkl. numerischer Zusatz-
informationen wie deren Einzugsbereiche,
• relative Aussagen für die Lage der Regelprämisse im Verhältnis zu ihrer jeweiligen
Sonst-Regel TRelsonst (·) sowie
• aufgabenspezifische natürlichsprachliche Namen von Merkmalen und Ausgangs-
größen TName (·).
Das Konzept lässt sich auch erweitern, um bei komplexeren entscheidungstheoreti-
schen Maßen Gründe für die Annahme und Ablehnung alternativer Hypothesen für
Einzelregeln und Regelbasen anzugeben [38].
Die textuelle Übersetzung der Zahlenwerte der bedingten Wahrscheinlichkeiten in
linguistische Terme (Tabelle 5.21) stützt sich auf [24, 59, 375]. Aus sprachlichen Grün-
den wird zwischen der geschätzten Wahrscheinlichkeit und der relativen Anzahl der
Datentupel unterschieden.

Relative linguistischer Term TWahr (h) linguistischer Term TAnz (h)


Häufigkeit h (geschätzte Wahrscheinlichkeit) (relative Anzahl von Datentupeln)
0 nie keine
(0, 0.20] selten wenige
(0.20, 0.50] gelegentlich einige
(0.50, 0.80] häufig viele
(0.80, 1) meistens fast alle
1 immer alle

Tabelle 5.21: Linguistische Terme zur Beschreibung der relativen Häufigkeiten

Ein erster Textrahmen erklärt alle relevanten Merkmale der Regel Rr . Die sind da-
durch gekennzeichnet, dass die l -te Teilprämisse der Regel nicht aus einer ODER-

187
5 Data Mining: Spezielle Verfahren

Verknüpfung aller Terme besteht. Für das erste Merkmal entsteht der folgende Text-
rahmen:

Die Beispiele für TTerm (Cr ) sind dadurch charakterisiert, dass TName (xl )
TWahr (∆P(Hrl )) TRelsonst (Vr ) als sonst ist: TAnz (P̂(xl = Al,L1 |Cr )) TTerm (Al,L1 ) und . . .
und TAnz (P̂(xl = Al,Lv |Cr )) TTerm (Al,Lv ).

Mögliche relative Aussagen TRelsonst (Vr ) sind die drei zu testenden Hypothesen Hrl
”größer”, ”kleiner” und ”anders” für jedes Merkmal, das in der Prämisse vorkommt.
Dabei wird z. B. bei der Hypothese größer geprüft, ob die in der Teilprämisse ausge-
wählten Terme und alle größeren Terme für die Regelkonklusion häufiger auftreten
als für die negierte Regelkonklusion. Für die Berechnung der Häufigkeit wird die Diffe-
renz der Häufigkeiten gebildet. Kommt beispielsweise der Term Al,4 als Teilprämisse
vor, werden Differenzen der Häufigkeiten als Maße für die beiden Hypothesen größer
und kleiner berechnet:
ml ml
∆P(Hrl = größer) = ∑ P̂(xl = Al,i |Cr ) − ∑ P̂(xl = Al,i |Cr ) (5.151)
i=4 i=4
4 4
∆P(Hrl = kleiner) = ∑ P̂(xl = Al,i |Cr ) − ∑ P̂(xl = Al,i |Cr ). (5.152)
i=1 i=1

Ist keines der beiden Maße relevant positiv (z. B. ∆P(Hrl ) > 0.2), wird noch das Maß
anders getestet:

∆P(Hrl = anders) = P̂(xl = Al,4 |Cr ) − P̂(xl = Al,4 |Cr ). (5.153)

Für das so gefundene größte Maß ∆P(Hrl ) wird die entsprechende Bezeichnung
für Häufigkeiten aus Tabelle 5.21 eingesetzt. Die Vergleichsinformation wird nur für
∆P(Hrl ) > 0.2 angezeigt. Ansonsten wird diese Information ersatzlos weggelassen
und ein leicht modifizierter Textbaustein verwendet:

Die Beispiele für TTerm (Cr ) sind durch TName (xl ) charakterisiert: TAnz (P̂(xl =
Al,L1 |Cr )) TTerm (Al,L1 ) und . . . und TAnz (P̂(xl = Al,Lv |Cr )) TTerm (Al,Lv ).

Die Bezeichnungen der Merkmale TName (xl ) werden stets als Langtext ausge-
schrieben.
Zur Verbesserung der Lesbarkeit werden die relevanten Terme nach absteigender
relativer Häufigkeit h = P̂(xl = Ali |Cr ) sortiert (L1 , . . . , Lv ) und Terme mit einer relativen
Häufigkeit kleiner h < 0.2 weggelassen.

188
5.5 Fuzzy-Systeme

Eine verbesserte Erklärung der Bedeutung der Terme bewirkt die zusätzliche An-
gabe des Abdeckungsbereiches anhand des α -Schnitts (α = 0.5) der Zugehörig-
keitsfunktionen. Für Randterme werden die Bausteine kleiner als und größer als, für
Mittelterme zwischen . . . und . . . genutzt. Eventuell anhand der Merkmale und der
Kategorien ermittelte physikalische Einheiten werden optional als weitere Textbau-
steine angehängt.
Ab dem zweiten Merkmal einer Teilprämisse wird ein leicht veränderter Textbau-
stein verwendet, der den ersten Teilsatz durch ”Weiterhin gilt für diese Beispiele, ...”
ersetzt.
Der zweite Textrahmen beschreibt die eigentliche Regel:

Aus diesen Aussagen lässt sich eine Regel aufbauen, die TAnz (P̂(Vr |Cr )) Fälle
von TTerm (Cr ) beschreibt. Wenn TTerm (Vr1 ) ist und · · · TTerm (Vrs ) ist, folgt daraus
TWahr (P̂(Cr |Vr )) TTerm (Cr ).

Zur Komprimierung des Inhalts werden ODER-verknüpfte hintereinander stehende


Terme (erster Term, zweiter Term, dritter Term, ... oder letzter Term) durch erster Term
bis letzter Term inklusive des daraus resultierenden Abdeckungsbereiches abgekürzt.
Beispiel: Für die Regel R23 lässt sich so der folgende Erklärungstext ermitteln:

Die Beispiele für Patient A sind dadurch charakterisiert, dass Laborwert x1 häufig größer
als sonst ist: häufig sehr groß (größer als 2.75) und gelegentlich groß (zwischen 1.56 und
2.75). Weiterhin gilt für diese Beispiele, dass Laborwert x2 häufig größer als sonst ist:
häufig sehr groß (größer als 18.9) und gelegentlich groß (zwischen 13.6 und 18.9). Aus
diesen Aussagen lässt sich eine Regel aufbauen, die viele Fälle von Patient A beschreibt:
Wenn Laborwert x1 groß bis sehr groß (größer als 1.56) ist und Laborwert x2 sehr groß
(größer als 18.9) ist, folgt daraus immer Patient A.

Obwohl dieser Text einer menschlichen Beschreibung noch wenig ähnelt, ist er dennoch
für einen Nichtspezialisten verständlicher als eine formale Regelbeschreibung. Dieser Vorteil
kommt insbesondere bei komplexeren Regeln zum tragen, die nicht mehr zweidimensional
darstellbar sind. ¥

5.5.7 Implementierungsaspekte

Ein hemmender Faktor beim Einsatz von Fuzzy-Systemen in Geräten ohne leistungs-
fähige integrierte Computer ist die intransparente und rechenaufwändige Implemen-
tierung, um Mamdani-Systeme mit einer aufwändigen Fuzzifizierung bei vielen Merk-
malen, einer einschrittigen Akkumulation und einer Defuzzifizierung mit der Schwer-

189
5 Data Mining: Spezielle Verfahren

punktmethode umzusetzen. Einen Ausweg bieten effizientere Implementierungsstra-


tegien, die bei den Eingangsgrößen von einer Standardpartition mit dreieck- oder
trapezförmigen Zugehörigkeitsfunktionen sowie von einer kleinen Regelanzahl mit
wenigen Teilprämissen ausgehen. Diese Voraussetzungen schränken die Anwend-
barkeit bei den meisten Medizingeräten nicht ein.
Eine Möglichkeit bei Fuzzy-Systemen mit ein bis drei Eingangsgrößen besteht dar-
in, eine Look-up-Tabelle (engl. look-up table) zu berechnen und zwischen den be-
rechneten Stützpunkten (multi-) linear zu interpolieren. Diese Lösung entspricht ei-
nem nichtlinearen Kennfeld und ist für bestimmte Fuzzy-Zugehörigkeitsfunktionen
und -Operatoren10 identisch bezüglich des Ein-Ausgangs-Verhaltens des Systems.
Dazu existieren unterschiedliche Varianten, siehe z. B. [285, 298].
Ein anderer Ansatz [372] führt Fuzzifizierung und Teile der Prämissenauswertung
in einem Schritt aus. Dieser Ansatz lässt viele Merkmale zu, lohnt sich aber nur bei
einer kleinen Anzahl von Regeln und Teilprämissen. Teilprämissen mit Disjunktionen
von Termen werden als neue Terme mit trapezförmigen Zugehörigkeitsfunktionen in-
terpretiert, was einer ODER-Verknüpfung mit der Beschränkten Summe entspricht.
Der Zugehörigkeitsgrad einer Teilprämisse basiert auf einer Umformung von (5.96)
mit den zwei begrenzenden Geraden ( f (x): 2. Fallunterscheidung in (5.96) bzw. g(x):
4. Fallunterscheidung in (5.96)) (siehe Ergebnis am Beispiel der Regel R24 aus Ta-
belle 5.19 in Bild 5.24) und einer Hilfsfunktion fT P (·):



 fT P (xl ) < 0
0, für
µVrl (xl ) = 1, für fT P (xl ) > 1 mit fT P (xl ) = min( f (xl ), g(xl )). (5.154)



fT P sonst

Die Prämissenauswertung erfordert zur Umsetzung von (5.116) nun noch eine Multi-
plikation der Ergebnisse von (5.154) für alle Teilprämissen. Die Akkumulation I erfolgt
gemäß (5.118) durch eine Addition aller Zugehörigkeitswerte gleicher Konklusionen.
Zur Defuzzifizierung wird die Maximum-Defuzzifizierung (5.128) oder die Schwer-
punktmethode für Singletons verwendet. Der verwendete Algorithmus generiert einen
kompakten recheneffizienten Quellcode, der sich problemlos in Medizingeräte inte-
grieren lässt und sich auch für Mikrocontrollerimplementierungen eignet.
Den Quellcode für das Beispiel zeigt Bild 5.25.

10
Verwendung einer Standardpartition für alle Zugehörigkeitsfunktionen, Produkt als Operator für die
UND-Verknüpfung, Beschränkte Summe als Operator für die ODER-Verknüpfung, vollständige und
nicht überlappende Regelbasis

190
5.5 Fuzzy-Systeme

1.5

NEG ZE PK PM PG
1
ZGF

0.5

0
f(x) g(x)

−0.5
−2 −1 0 1 2 3 4
Laborwert x1

Bild 5.24: Implementierungsstrategie für die Fuzzifizierung und die Auswertung von Teilprä-
+2.06
missen am Beispiel der Teilprämisse V24,1 mit f (x1 ) = x12.29 , g(x1 ) = 3.46−x1
1.43 (ge-
strichelt) und der resultierenden Funktion fT P (fett) an der Stelle x1 = 1: Ergebnis
µV24,1 (1) = 1

5.5.8 Anwendungsfelder in der Medizin

Fuzzy-Systeme sind in der Medizin und Medizintechnik wegen ihrer guten Interpre-
tierbarkeit und des (scheinbar) geringeren mathematischen Aufwands sehr beliebt.
Umfassende Übersichten geben [17, 18, 98, 268, 297, 418, 424, 429, 440]. Fuzzy-
Systeme finden sich sowohl bei Klassifikationsproblemen (z. B. Diagnose, Therapie-
auswahl usw.) als auch bei Regressionsproblemen (z. B. Modellbildung biologischer
Systeme, Regelung in Medizingeräten).
Bereits die Pionierarbeit in [24] nutzt die Fähigkeit von Fuzzy-Systemen zur Fu-
sion verschiedener Arten von Unsicherheiten in Merkmalen, Häufigkeitsaussagen,
zeitlichen Abläufen und Regeln aus. Basierend auf jener Arbeit begann die Entwick-
lung medizinischer Diagnose- und Beratungssysteme für die innere Medizin (z. B.
CADIAG-II, Medframe/CADIAG-IV), die auf eine Differentialdiagnose und eine Thera-
pieauswahl zielen (siehe z. B. [25, 57] für neuere Übersichten). Das CADIAG-System
ist in das klinische Informationssystem des Allgemeinen Krankenhauses der Stadt
Wien (AKH) eingebunden und in verschiedenen klinischen Studien erprobt (siehe
z. B. [247]). Die hier verwendeten Regeln und Logiken gehen deutlich über einen mo-
dus ponens hinaus und lassen verschiedene Arten logischer Operatoren zu. Ähnlich
geartet sind erste Überlegungen [255], Fuzzy-Logik zur Auswertung von textuell ge-

191
5 Data Mining: Spezielle Verfahren

//Automatically generated C code of a fuzzy rulebase with 4 rules


//Project: [Link], 03-May-2005, 10:49

//Default value output variable: y=1


/*Rulebase:
Rule 1 (Q=+0.563, 0 Err./ 9 Examp.): IF x1=1 THEN y=3
Rule 2 (Q=+0.463, 0 Err./ 13 Examp.): IF (x1=4 OR 5) AND x2=5 THEN y=2
Rule 3 (Q=+0.431, 9 Err./208 Examp.): IF (x1=2 OR 3 OR 4) THEN y=1
Rule 4 (Q=+0.399, 1 Err./ 13 Examp.): IF x1=5 THEN y=2
*/

//Input variables, program definition necessary: float x[5];


//Output variable’s membership degrees, program definition necessary: float mu_y[4];

//Function for partial premises and fuzzification (triangular or trapezoid MBF’s)


float computeTp(float tp1,float tp2)
{
float tp;
if (tp1<tp2) tp=tp1; else tp=tp2;
if (tp<0) tp=0;
if (tp>1) tp=1;
return tp;
};

//Main function fuzzy_control, return value: y (defuzzified output value)


int fuzzy_control(float* x,float* mu_y)
{
float pr[5],max_mu_y;
int i,y;
//Fuzzifizication and Aggregation
pr[1]=computeTp(1,(0.169348-x[1])/2.228516);
pr[2]=computeTp((x[1]-1.091154)/0.934189,1)*computeTp((x[2]-15.644869)/6.538353,1);
pr[3]=computeTp((x[1]+2.059168)/2.228516,(3.458289-x[1])/1.432947);
pr[4]=computeTp((x[1]-2.025342)/1.432947,1);

//Accumulation I
mu_y[1]=pr[3];
mu_y[2]=pr[2]+pr[4];
mu_y[3]=pr[1];

//Defuzzification
y=1;max_mu_y=0;
for (i=1;i<4;i++)
{
if (mu_y[i]>max_mu_y) {y=i;max_mu_y=mu_y[i];};
if (mu_y[i]>1) {mu_y[i]=1;};
return y;
};

Bild 5.25: Automatisch generierter Quellcode zum Implementieren einer Fuzzy-Regelbasis


(Maximum-Defuzzifizierung). Die Regeln wurden neu nummeriert.

192
5.6 Künstliche Neuronale Netze

gebenem Wissen in Leitlinien einzusetzen. Hierbei werden unscharfe Aussagen in


Leitlinien als Regeln übersetzt. Die Regeln werden dann zur Diagnose und Therapie-
planung für konkrete Patienten eingesetzt. Weitere Systeme aus der gleichen Gruppe
befassen sich mit der intensivmedizinischen Überwachung der Beatmung von Pati-
enten nach Herzoperationen (Fuzzy-KBWean, [406]) und akutem Lungenversagen
(FuzzyARDS, [433]). Beide Systeme basieren methodisch auf Fuzzy-Automaten, die
unscharfe extrahierte Merkmale aus Zeitreihen (z. B. detektierte Trends) als Transi-
tionen verwenden [432]. Die Systeme lassen sich der Problemstellung Auswahl von
Steuerstrategien zuordnen.
Eine Reihe von Arbeiten befasst sich mit Fuzzy-Reglern und -Modellen zur
Anästhesie-Regelung [199, 338, 387, 424]. So stellt beispielsweise [424] eine hierar-
chische Überwachung der Anästhesietiefe mit Fuzzy-Modellen vor, die in erster Linie
auf das Generieren von Alarmen bei unzulässigen Zuständen zielt. Interessant ist
hier die iterative Entwicklung mit mehrfachen Expertenbefragungen und der Auswer-
tung von Patientendaten, um zu gültigen Regelbasen zu kommen. [338] verwendet
mehrere miteinander verschaltete Fuzzy-Systeme vom Takagi-Sugeno-Typ und vom
Mamdani-Typ als Modell der Pharmakinetik. Das Modell wurde anhand von Patien-
tendaten angelernt und evaluiert, eine Erprobung im Rahmen einer prädiktiven Re-
gelung steht aber noch aus.
Die datenbasierte Entwicklung von Fuzzy-Modellen des Herz-Kreislauf-Systems
zeigt [273]. Hier werden für Probanden und Patienten separate Modelle von Regu-
lationsmechanismen generiert und nachfolgend miteinander verglichen. Die Modelle
erlauben die simulative Analyse unterschiedlicher Szenarien. Vorteilhaft ist hier ins-
besondere die strukturierte Einbeziehung von Vorwissen (z. B. bekannte Eingangs-
größen und Zeitverzögerungen für Regulationsmechanismen) und die Möglichkeit zur
physiologischen Interpretation von Regelbasen.
In der Bildverarbeitung spielen Fuzzy-Regeln hauptsächlich bei der Segmentie-
rung eine Rolle. Beispielsweise wendet [30] manuell definierte Fuzzy-Regeln in MRT-
Daten und bei der Lasermikroskopie an. Ähnliche Ansätze, bei denen Fuzzy-Regeln
anatomisches Expertenwissen enthalten, finden sich in [165] bei der automatischen
Segmentierung von MRT-Daten des Gehirns.

5.6 Künstliche Neuronale Netze

5.6.1 Aufbau und Einteilung

Künstliche Neuronale Netze (KNN) bestehen aus einer Vielzahl miteinander ver-
knüpfter relativ einfacher Verarbeitungseinheiten, den sogenannten Neuronen (typi-

193
5 Data Mining: Spezielle Verfahren

sche Struktur in Bild 5.26a). Sie unterscheiden sich in der Art ihrer Verschaltung und
in der Art ihrer Neuronen. Umfassende Übersichten zu Künstlichen Neuronalen Net-
zen finden sich beispielsweise in [158, 386, 410]. Eine Zusammenstellung wichtiger
Begriffe steht in [5].
Im Vergleich zu ihren biologischen Vorbildern sind Künstliche Neuronale Netze ex-
trem vereinfacht. Biologische Neuronen kommunizieren durch Spikes als Ein- und
Ausgangsgrößen und sind durch komplizierte Vernetzungsstrukturen mit gegenseiti-
gen Erregungen und Hemmungen gekennzeichnet. Gegenwärtig verwendete Model-
le des Übertragungsverhaltens solcher Neuronen basieren auf dem Hodgkin-Huxley-
Modell [170]. Inzwischen wurden zahlreiche Erweiterungen vorgeschlagen (siehe
z. B. [60, 394]), eine Übersicht findet sich in [95, 96]. Alle genannten Modelle sind
deutlich komplizierter als die im Folgenden vorgestellten Modelle und werden wegen
dieser Kompliziertheit nur selten für Künstliche Neuronale Netze verwendet.
Besonders einfache Eigenschaften und Lernverfahren ergeben sich bei einer Ver-
schaltung als sogenanntes Feedforward-Netz. Jedes Neuron gehört zu einer Schicht.
Die Eingänge eines Neurons einer Schicht sind nur mit den Neuronen der vorher-
gehenden Schicht und der Ausgang eines Neurons mit Neuronen der nachfolgen-
den Schicht verbunden (Bild 5.26b). Die erste Schicht (Eingabeschicht) verbindet
das Netz mit den Eingangsgrößen, die letzte Schicht (Ausgabeschicht) mit den Aus-
gangsgrößen des Systems. Die dazwischen liegenden Schichten werden auch als
verdeckte Schichten (Synonym: verborgene Schicht, versteckte Schicht, engl. hidden
layer) bezeichnet.
Netze mit Rückkopplungen über mehrere Schichten, innerhalb einer Schicht oder
innerhalb eines Neurons eignen sich in Kombination mit dynamischen Übertragungs-
gliedern (z. B. Zeitverzögerungen um einen Abtastzeitpunkt oder speziellen Filter-
bänken) besonders zur Repräsentation dynamischer Systeme und werden als rekur-
rente Netze bezeichnet. Aufgrund von Problemen beim Entwurf rekurrenter Netze,
ihres komplexen Verhaltens und der reduzierten Analysefähigkeit haben sich solche
Netze bislang nicht in breitem Umfang durchgesetzt. Deshalb werden im Folgenden
Feedforward-Netze betrachtet.
Jedes einzelne Neuron ist durch sogenannte Kanten (zugehöriger Parametervek-
tor: w) mit seinem Eingangsvektor x verbunden und verfügt über einen skalaren in-
neren Zustand z, eine Aktivierungsfunktion f (z) und eine skalare Ausgangsgröße y.
Diese Ausgangsgröße berechnet sich mittels

y(x) = f (z(x, w)). (5.155)

Beispiele für Aktivierungsfunktionen sind

194
5.6 Künstliche Neuronale Netze

w1
x1 ... z y
...
z(x,w) f(z)
ws ...
xs
Neuron
Eingabe- Verdeckte Ausgabe-
schicht Schicht schicht

Bild 5.26: a. Typische Struktur eines Neurons (links),


b. Feedforward-Netz mit einer verdeckten Schicht (rechts)

f (z) = z (Lineare Aktivierungsfunktion), (5.156)


2
f (z) = −1 (Tansig-Funktion), (5.157)
1 + e−2z
1
f (z) = (Sigmoid-Funktion). (5.158)
1 + e−z
Wichtige Funktionen zur Berechnung des internen Zustands sind

z(x, w) = wT · x + w0 (gewichtete Summe mit Absolutterm), (5.159)


2
z(x, w) = e−w0 ·dEuk (x,w)
T (x−w)
= e−w0 ·(x−w) (RBF: Radiale Basisfunktion), (5.160)
−d 2 (x,w)
z(x, w) = e (beliebige Distanz), (5.161)
z(x) = argmaxi xi (Wettbewerbslernen). (5.162)

Der Parametervektor spielt somit eine unterschiedliche Rolle: als Wichtigkeit der Kan-
te in (5.159) (bei einem Wert Null hat die Kante keinen Einfluss auf das Neuron) oder
als Referenzwert für die Eingangsgröße in (5.160) und (5.161). Beim Wettbewerbs-
lernen benötigt ein Neuron keinen Parametervektor am Eingang.
Neuronen mit (5.159) wirken global im gesamten Merkmalsraum. Zudem nehmen
sie eine lineare Merkmalstransformation D17 mit einem zusätzlichen Eingang (Wert
Eins) vor. Neuronen mit (5.160), (5.161) haben hingegen nur einen lokalen Einfluss
in der Nähe von w. Die lokale Wirkung ähnelt Vorgehensweisen bei einem Nearest-
Neighbor-Klassifikator: Ein Neuron wird umso stärker aktiviert, je näher sich der Ein-
gangsvektor x am Parametervektor w befindet. Der Parameter w0 in (5.160) bestimmt

195
5 Data Mining: Spezielle Verfahren

die Größe des lokalen Einzugsbereichs. Er wird oftmals auf


sNeuron,i
w0 = 2
, dmax = max dEuk (wi , w j ) (5.163)
dmax
gesetzt [158], wobei sNeuron,i die Anzahl der Neuronen in der zugehörigen Schicht und
dmax die maximale euklidische Distanz zwischen zwei Parametervektoren der Schicht
darstellt.
Nach der Verschaltung entstehen aus den vergleichsweise einfachen Elementen
komplizierte statische nichtlineare Funktionen zur Beschreibung des kompletten Net-
zes.
Die Ein- und die Ausgabeschicht haben meist je eine lineare Aktivierungsfunktion
und eine gewichtete Summe mit Absolutterm zur Ermittlung des inneren Zustands.
Die Funktionen zur Berechnung des inneren Zustands der verdeckten Schichten ent-
scheiden hingegen über die Typisierung der Netze. Sogenannte MLP-Netze (Multi-
Layer Perceptrons) verwenden stets (5.159), RBF-Netze (Radiale Basisfunktionen)
(5.160) und Kohonen-Karten (Synonyme: SOM bzw. SOFM – Self Organizing (Fea-
ture) Maps) (5.161).
Eine Kohonen-Karte arbeitet mit nur einer verdeckten Schicht und einer Ausgabe-
schicht mit einem Neuron, das (5.162) zur Bestimmung des Gewinnerneurons ver-
wendet. Die Neuronen in Kohonen-Karten sind in einer feststehenden Topologie mit
Positionsvektoren pi angeordnet. Üblich sind dabei zweidimensionale Netze mit
à ! à ! à ! à !
1 2 sEbene sEbene
p1 = , p2 = , . . . , psEbene = , . . . , ps2 = . (5.164)
1 1 1 Ebene sEbene

Wegen den verwendeten Funktionen zur Berechnung des internen Zustands wirken
die Neuronen der verdeckten Schicht bei MLP-Netzen global, aber bei RBF-Netzen
und Kohonen-Karten lokal. Alle drei Netztypen sind noch in engem Maße mit spezi-
ellen Entwurfs- bzw. Lernverfahren verbunden, die im folgenden Abschnitt erläutert
werden.
Klassifikationsprobleme können über ein Ausgangsneuron (D2 mit der Nummer
der Klasse als Ausgangsgröße ŷ) oder über my Ausgangsneuronen (Kodierung als
Fuzzy-Klassifikationsproblem D3 mit der geschätzten Zugehörigkeit der Klasse µBc
als Ausgangsgröße) umgesetzt werden. In der Praxis dominiert die zweite Variante,
weil sie bessere Konvergenzeigenschaften in der Entwurfsphase aufweist. Bei schar-
fen Klassifikationsproblemen kommen dann im Lerndatensatz nur Zugehörigkeiten
von Null oder Eins vor.
Mit speziellen Netzstrukturen (Eingabeschicht mit linearen Aktivierungsfunktionen;
eine verdeckte Schicht mit RBF-Neuronen, deren Eingänge nur mit einem Neuron der

196
5.6 Künstliche Neuronale Netze

Eingabeschicht verbunden sind usw.) lassen sich Künstliche Neuronale Netze erzeu-
gen, die zu Fuzzy-Systemen äquivalent sind (siehe z. B. ANFIS – Adaptive Network
based Fuzzy Inference System [194], NEFCLASS – Neuro Fuzzy Approach for the
Classification of Data [321, 322]). Der Vorteil solcher Strukturen besteht darin, Fuzzy-
und Neuro-Systeme ineinander umwandeln zu können. Somit sind Lernverfahren für
beide Verfahren einsetzbar, Vorwissen ist in Form von Fuzzy-Regeln integrierbar und
die bessere Interpretierbarkeit von Fuzzy-Systemen kann ausgenutzt werden. Zu-
dem finden sich bei einigen Fuzzy-Systemen Strukturen, die sich auch als Künstliche
Neuronale Netze darstellen lassen (siehe z. B. RBF-ähnliche Strukturen in [356]). Au-
ßerdem existiert eine Vielzahl weiterer Netztypen mit entsprechenden Lernverfahren.
Künstliche Neuronale Netze sind bei richtigem Einsatz (insbesondere mit einer ge-
eigneten Struktur) ein leistungsfähiges Verfahren für verschiedene Problemstellun-
gen:
• Regression D1 (meist Multi-Layer-Perceptrons oder RBF-Netze),
• Klassifikation, die über die Schätzung von bedingten Wahrscheinlichkeiten D11
der Ausgangsgröße für den aktuellen Wert der Eingangsgrößen erfolgt (meist
Multi-Layer-Perceptrons oder RBF-Netze, jeweils mit my Neuronen in der Ausga-
beschicht) sowie
• Clustering D7 bzw. Fuzzy-Clustering D8 (meist mit Kohonen-Karten).
Künstliche Neuronale Netze orientierten sich ursprünglich an Verarbeitungsmecha-
nismen im menschlichen und tierischen Gehirn. Diese Ähnlichkeit dient häufig als
Marketing-Instrument für ihre Überlegenheit gegenüber anderen Verfahren. Aller-
dings stellen sie nur ein stark vereinfachtes Modell dar, was die Argumentation frag-
würdig erscheinen lässt.

5.6.2 Entwurfsverfahren

Auch bei Künstlichen Neuronalen Netzen müssen beim Entwurf die Struktur und die
Parameter festgelegt werden. Zur Festlegung der Struktur gehört die Anzahl der Neu-
ronen in der i-ten Schicht sNeuron,i , die Anzahl der Schichten sSchicht (inkl. Ein- und
Ausgabeschicht) und die Art der Neuronen pro Schicht (Festlegung der Funktionsty-
pen für f , z). Ebenso wichtig ist die Verknüpfung des Künstlichen Neuronalen Netzes
mit den Merkmalen und Ausgangsgrößen in der Ein- bzw. Ausgabeschicht.
Auch hier erfolgt die Strukturbestimmung in der Regel indirekt durch Bewertung
verschiedener Strukturen, deren Parameter jeweils geschätzt werden müssen. Die
Bewertungsmaße entsprechen den üblichen Maßen aus Abschnitt 3.5. Bei MLP-
und RBF-Netzen dominiert der Regressionsfehler über den Neuronen der Ausga-

197
5 Data Mining: Spezielle Verfahren

beschicht (3.71). Kohonen-Karten verwenden hingegen Distanzmaße über die letzte


(und meist einzige) verdeckte Schicht.
Pro Netz existieren
sSchicht −1
sKNN = ∑ (sNeuron,i + 1) · sNeuron,i+1 (5.165)
i=1

zu wählende Parameter w, wobei noch zusätzliche Parameter aus nichteuklidischen


Distanzmaßen in (5.161) stammen können. Bereits mit wenigen Einzelmerkmalen
und Schichten resultieren große Parameteranzahlen, die mit Hilfe des Lerndatensat-
zes geeignet zu bestimmen sind. Um eine Überanpassung zu vermeiden, ist deshalb
bei größeren Anwendungen unbedingt auf eine vorgelagerte Merkmalsselektion und
evtl. -transformation sowie eine möglichst kleine Zahl von Schichten zu achten.
Meist ergeben sich parameternichtlineare Schätzprobleme für die Parameter. Ein
wichtiger Sonderfall sind die Parameter zwischen der letzten verdeckten Schicht und
der Ausgabeschicht bei Verwendung linearer Aktivierungsfunktionen (z. B. bei RBF-
und MLP-Netzen), die mit der Methode der kleinsten Fehler-Quadrate (MKQ) gemäß
(5.192) geschlossen ermittelbar sind.
Die Parameterbestimmung bei Multi-Layer-Perceptrons erfolgt hauptsächlich durch
rekursives Auswerten der partiellen Ableitungen des Bewertungsmaßes Q nach den
Parametern des Netzes wMLP :

∂Q
wMLP [k + 1] = wMLP [k] − ρ [k]Wrek [k] | , ρ ∈ [0, 1], (5.166)
∂ wMLP wMLP [k]
wobei ρ [k] ein Lernfaktor, Wrek [k] eine Wichtungsmatrix und wMLP [k] der k-te Itera-
tionsschritt für den Parametervektor ist. Durch geschicktes Ausnutzen der Schich-
tenstruktur und geschlossene Berechnung der partiellen Ableitungen ergibt sich
ein erheblich vereinfachtes Verfahren, das als Backpropagation-Verfahren bezeich-
net wird und die Einheitsmatrix als Wichtungsmatrix verwendet: Wrek [k] = I. Mo-
difikationen des Verfahrens mit verbesserten Konvergenzeigenschaften berücksich-
tigen zusätzlich die Schätzung der inversen Hesse-Matrix11 als Wichtungsmatrix
sowie zusätzliche Regularisierungstechniken (z. B. Levenberg-Marquardt-Verfahren:
Wrek [k] = (Ĥ + α [k] · I)−1 , α [k] – Wichtungsfaktor).
Beispiel: Die Ergebnisse des Anlernens von MLP-Netzen für das Beispiel zeigen Bild 5.27
und Tabelle 5.22. MLP-Netze lösen bei annähernd passender Anzahl der Neuronen in der
verdeckten Schicht sowohl das 2-Klassen- als auch das 3-Klassen-Problem mit guten Er-
gebnissen (Klassifikationsfehler über Testdaten ≤ 4 % bei 5-facher Crossvalidierung). Dabei
11
Hesse-Matrix H: Matrix der partiellen zweiten Ableitungen des Bewertungsmaßes nach den Para-
metern mit Elementen Hi j = ∂ 2 Q/(∂ wMLP,i · ∂ wMLP, j ).

198
5.6 Künstliche Neuronale Netze

a. MLP (1 Neuron) b. MLP (5 Neuronen) c. MLP (30 Neuronen)

30 B1: Proband
30 30
B2: Patient A
25 B3: Patient B
25 25
Laborwert x2

Laborwert x2

Laborwert x2
20 20 20

15 15 15

10 10 10

5 5 5

−2 0 2 4 −2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1 Laborwert x1

Bild 5.27: Trennebenen dreier angelernter MLP-Netze für das 3-Klassen-Problem des Bei-
spiels mit unterschiedlicher Anzahl von Neuronen in der verdeckten Schicht:
a. 1 Neuron, b. 5 Neuronen, c. 30 Neuronen

ist ein Neuron auf jeden Fall zu wenig: Es reicht nicht aus, um angepasste Trennebenen zu
generieren (Bild 5.27a) und produziert hohe Fehlerquoten über Lern- und Testdaten. Geeig-
nete Strukturen weisen etwa 5-10 Neuronen auf (Bild 5.27b). Bei Strukturen mit mehr Neu-
ronen kommt es zu überangepassten Lösungen (Bild 5.27c), wobei der Klassifikationsfehler
über Testdaten wieder ansteigt. Im Beispiel ist das Künstliche Neuronale Netz nicht auf ei-
ne Merkmalsselektion angewiesen und liefert mit und ohne Merkmalsselektion vergleichbare
Ergebnisse.

Eine typische Netztopologie für ein MLP-Netz mit den Eingangsgrößen x1 , x2 , einer ver-
deckten Schicht mit fünf Neuronen und drei Ausgangsneuronen zeigt Bild 5.28a. Die drei
Ausgangsneuronen wurden mit den geschätzten Zugehörigkeiten der Ausgangsgröße zu den
Termen B1 , B2 und B3 angelernt. Durchgezogene Linien geben negative, gestrichelte Linien
positive Werte der verbindenden Wichtungsfaktoren an. Die Linienstärke nimmt mit der Stärke
der Verbindung zu.

Einen Ausschnitt aus dem Ein-Ausgangs-Verhalten des Netzes visualisiert Bild 5.28b. Da-
bei wurde ein fester Wert für x2 = 10 gesetzt und der Wert von x1 schrittweise verändert. Die
Verläufe erinnern prinzipiell an gaußförmige Zugehörigkeitsfunktionen bei Fuzzy-Systemen.
Die Grenze zur Entscheidung zwischen Klasse B1 und B3 liegt bei x1 ≈ −0.7, die für die Ent-
scheidung zwischen B2 und B3 bei x1 ≈ 3.5 (vgl. Bild 5.27). In den dünn besetzten Gebieten
um etwa x1 = 5 steigt die Gefahr einer fehlerhaften Extrapolation. Hier kommt es im Beispiel
sogar zu negativen Werten für µB1 (x1 ), was durch eine spätere Begrenzung auf das Intervall
[0, 1] korrigiert werden kann.

199
5 Data Mining: Spezielle Verfahren

Klassen Merkmale Anzahl Klassifika- Kosten gemäß


Neuronen tionsfehler [%] (3.59)
LD (5CV, 2CV) LD (5CV, 2CV)
3 alle 1 5.7 (7.3, 10.3) 0.28 (0.32, 0.45)
3 alle 2 3.0 (5.8, 5.8) 0.13 (0.22, 0.20)
3 alle 5 2.2 (4.0, 4.7) 0.09 (0.12, 0.16)
3 alle 10 2.2 (3.4, 4.8) 0.09 (0.12, 0.18)
3 alle 15 1.7 (4.0, 4.3) 0.09 (0.14, 0.15)
3 alle 20 0.9 (4.7, 4.8) 0.04 (0.15, 0.19)
3 alle 30 0.9 (4.7, 5.0) 0.04 (0.16, 0.17)
3 alle 50 0.9 (4.8, 7.3) 0.04 (0.16, 0.26)
3 x1 , x2 5 2.6 (3.4, 3.5) 0.10 (0.12, 0.13)
2 alle 5 1.3 (3.7, 4.4) 0.07 (0.12, 0.16)
2 x1 , x2 5 2.6 (3.3, 4.3) 0.10 (0.11, 0.16)

Tabelle 5.22: Auswirkungen verschiedener Merkmale und der Anzahl von Neuronen für das
2- und das 3-Klassen-Problem des Beispiels, LD: Lerndatensatz, 5CV: 10 Ver-
suche 5-fache Crossvalidierung, 2CV: 10 Versuche 2-fache Crossvalidierung

Die Komplexität der Auswirkungen einzelner Parameteränderungen verdeutlicht Bild 5.29.


Die meisten Parameter erzeugen nichtlineare Verschiebungen und Verformungen der gezeig-
ten Funktion. Lediglich der Absolutterm der Ausgabeschicht (Bild 5.29d) weist ein lineares
Verhalten auf, in dem er die Funktion anhebt oder absenkt. ¥
Die Idee des Lernens einer Kohonen-Karte [221, 223] besteht darin, jedes Neuron
i der einzigen verdeckten Schicht zum Zeitpunkt k + 1 durch das Lerngesetz

wSOM,i [k + 1] = wSOM,i [k] + ρi,iG [k] [k](x[k] − wSOM,i [k]) (5.167)


iG [k] = argmini d(wSOM,i [k], x[k]) (5.168)
ρi, j [k] = ρ0 [k] · exp(−d(pi , p j )) mit ρiG [k],iG [k] [k] = ρ0 [k] ≥ ρi,iG [k] (5.169)

zu aktualisieren. Dabei wird zunächst das Gewinnerneuron iG bestimmt, dessen Pa-


rametervektor im Sinne eines beliebig wählbaren Distanzmaßes d dem Eingangs-
vektor x[k] am Ähnlichsten ist. Der Parametervektor des Gewinnerneurons wird mit
(5.167) am stärksten in Richtung des Eingangsvektors geschoben. Die Lernfaktoren
ρi,iG [k] für alle anderen Neuronen hängen nicht direkt vom Abstand ihres Parameter-
vektors zum Eingangsvektor, sondern vom Abstand ihres Positionsvektors im Netz pi
im Vergleich zur Position des Gewinnerneurons iG ab. Je näher das Neuron am Ge-
winnerneuron liegt, desto stärker wird es mit verschoben. Der Lernfaktor 0 < ρ0 [k] < 1
fällt dabei monoton mit der Zeit. Durch das Lerngesetz entstehen topologieerhaltende

200
5.6 Künstliche Neuronale Netze

a. Struktur und Parameter MLP−Netz b. Ausgang bei x2=10


1.5
A1
Laborwert x2

Ausgang Neuron A1, A2, A3


A3 A2
1 A3

A 0.5
2

0
A1
Laborwert x1
−0.5
Input Hidden Output −2 0 2 4 6
Layer Laborwert x1

Bild 5.28: a. Topologie eines angelernten MLP-Netzes mit zwei Eingangsneuronen für x1 , x2
(E1-E2), einer verdeckten Schicht mit fünf Neuronen (V1-V5) und drei Neuronen in
der Ausgabeschicht (A1-A3) für die drei Terme der Ausgangsgröße (links)
b. Ein-Ausgangs-Verhalten des Netzes µBc (x1 , x2 ), c = 1, 2, 3, für variable Werte von
x1 und einem festen Wert von x2 = 10 (rechts)

Abbildungen, die Zusammenhänge in höherdimensionalen Räumen in einen werte-


diskreten niederdimensionalen (meist zweidimensionalen) Raum transformieren.
Die Vektorquantisierung erlaubt eine Interpretation als Kohonen-Karte ohne Nach-
barschaftsbeziehungen. Sie verwendet das Lerngesetz (5.167) mit

0 für i 6= iG [k]
ρi [k] = (5.170)
ρ0 [k] für i = iG [k].

Die Lernende Vektorquantisierung (LVQ, engl. Learning Vector Quantization) ist


ein Verfahren für überwachtes Lernen [150, 222]. Sie berücksichtigt im Lerngesetz
(5.167) zusätzlich die Ausgangsklasse yi , die einem Neuron zugewiesen wird. Die
Zuweisung erfolgt je nach Aufgabenstellung entsprechend dem geringsten Klassifi-
kationsfehler oder den geringsten Entscheidungskosten aller Datentupel des Lernda-
tensatzes, für die das Neuron Gewinnerneuron ist. Der Parametervektor des Gewin-
nerneurons iG wird in Richtung des aktuellen Datentupels verschoben, wenn die Aus-
gangsklassen des Neurons und des Datentupels übereinstimmen. Anderenfalls er-
folgt eine Verschiebung in Gegenrichtung. Die Parametervektoren der anderen Neu-
ronen bleiben unverändert:

201
5 Data Mining: Spezielle Verfahren

a. Absolutterm ZW5 b. Wichtung E1 −> V1


1.5 1.5
Ausgang Neuron A1

Ausgang Neuron A1
1
1
0.5
0.5
0
0
−0.5

−0.5 −1
−2 0 2 4 6 −2 0 2 4 6
Laborwert x1 Laborwert x1
c. Wichtung V1 −> A1 d. Absolutterm A1
1 1.5
Ausgang Neuron A1

0.5 Ausgang Neuron A1 1

0.5
0
0
−0.5
−0.5

−1 −1
−2 0 2 4 6 −2 0 2 4 6
Laborwert x1 Laborwert x1

Bild 5.29: Auswirkungen von Parameteränderungen auf das Ein-Ausgangs-Verhalten des


Netzes am Beispiel von µB1 (x1 , x2 = 10):
a. Änderung des Absolutterms w0 des fünften Neurons der verdeckten Schicht,
b. Änderung des Kantengewichts w1 zwischen dem ersten Neuron der Eingabe-
schicht und dem ersten Neuron der verdeckten Schicht,
c. Änderung des Kantengewichts w1 zwischen dem ersten Neuron der verdeckten
Schicht und dem ersten Neuron der Ausgabeschicht,
d. Änderung des Absolutterms w0 des ersten Neurons der Ausgabeschicht



 für i 6= iG [k]
0
ρi [k] = ρ0 [k] für i = iG [k] und yi = y[k] (5.171)



−ρ0 [k] für i = iG [k] und yi 6= y[k].

Für alle Netze kann die Aktualisierung der Parameter in (5.166) bzw. (5.167) separat
für jedes Datentupel (Datentupel-basiertes Training, Synonym: Datenpunkt-basiertes
Training) oder gemittelt für den vollständigen Lerndatensatz erfolgen (Datensatz-
basiertes Training, Synonym: Batch-Training). Die Unterschiede beider Varianten lie-
gen hauptsächlich in den Konvergenzeigenschaften, die Vor- und Nachteile sind aber

202
5.6 Künstliche Neuronale Netze

a. Zuordnungen (links: B1, Mitte: B2, rechts: B3) b. Projektion auf x1, x2
B1: Proband
30 B2: Patient A
1
B3: Patient B
25
Neuronen 1. Ebene

2
20

Laborwert x2
3
15

4 10

5 5

1 2 3 4 5 −2 0 2 4
Neuronen 2. Ebene Laborwert x1

Bild 5.30: Ergebnisse einer Kohonen-Karte für das Beispiel, a. Neuronen mit Klassenzuord-
nung (Histogramme für jedes Neuron von links nach rechts: Klasse B1 bis B3 ), b. La-
ge der Neuronen für x1 , x2 (Projektion der vierdimensional angelernten Kohonen-
Karte)

umstritten. Datensatz-basiertes Training konvergiert meist schneller und sicherer ge-


gen gute lokale Optima oder sogar zum globalen Optimum der Bewertungsfunktion,
bleibt aber gelegentlich auch in ungünstigen lokalen Optima hängen. Datentupel-
basiertes Training mit einer zufälligen Reihenfolge der präsentierten Datentupel ist
eher in der Lage, solche ungünstigen lokalen Optima wieder zu verlassen. Es kon-
vergiert aber meist langsamer und hat auch in einem annähernd eingeschwungenen
Zustand noch oszillierende Werte des Klassifikationsfehlers.
Beispiel: Die Ergebnisse einer zweidimensionalen Kohonen-Karte mit insgesamt 25 Neu-
ronen (sEbene = 5) für das Beispiel zeigt Bild 5.30. Jedes Neuron besitzt einen Parameter-
³ ´T
vektor, z. B. w5,1 = −1.21 10.30 10.70 1.22 für das Neuron mit der Ordnungsnummer
Fünf³in der
´ ersten und der Ordnungsnummer Eins in der zweiten Ebene, Positionsvektor:
p = 5 1 (mit dem Pfeil gekennzeichnetes Neuron in Bild 5.30a und b).
Das Anlernen erfolgte mit varianznormierten Merkmalen, um eine Dominanz der stark
streuenden Merkmale zu verhindern. Die Kohonen-Karte bewirkt eine nichtlineare Merkmals-
transformation D16 von s = 4 auf sm = 2 Dimensionen, wobei die beiden transformierten Merk-
male wertediskret mit je sEbene möglichen Werten sind (Bild 5.30a). Die Parametervektoren
geben die Lage im vierdimensionalen Merkmalsraum an und lassen sich auch in niederdi-
mensionalen Unterräumen visualisieren (Bild 5.30b). Die meisten Neuronen (21) siedeln sich
in den dichter besetzten Gebieten mit der Probandenklasse an und entscheiden sich auch für

203
5 Data Mining: Spezielle Verfahren

die Klasse Proband.


³ ´Nur vier Neuronen entscheiden
³ ´ sich
³ für´die beiden
³ Patientensubklassen
´
Patient A: p = 5 1 und Patient B: p = 1 5 , p = 2 4 , p = 2 5 . Diese Zuordnung
ist an der größten lokalen Häufigkeit für eine der beiden Klassen zu erkennen (Mitte oder
rechts).
Da alle vier Merkmale die Parametervektoren beeinflussen und zumindest drei Merkmale
(x1 /x4 , x2 , x3 ) voneinander unabhängig sind, spiegelt die Kohonen-Karte die Verteilung hier
nur bedingt wider. Immerhin zeigt sie auch ohne Kenntnis der Klasseneinteilung die grund-
sätzliche Topologie, dass sich zwei unterschiedliche Patientensubklassen an gegenüberlie-
genden Seiten der Probandenklasse befinden. ¥
Neuronen in der verdeckten Schicht von RBF-Netzen können im einfachsten Fall
durch das Abspeichern ausgewählter oder aller Datentupel im Lerndatensatz para-
metriert werden: wn = x[n]. Besser geeignet sind Clusterverfahren, wobei die Clus-
terzentren für Merkmale xc als Parametervektor wc eines Neurons übernommen wer-
den. Ein weiterer Ansatz besteht darin, Parametervektoren über einer vollständigen
oder unvollständigen wertediskreten Gitterstruktur im Merkmalsraum zu platzieren.
Die genannten Lösungen können entweder als finale Lösung oder als Startschät-
zung dienen. Die Startschätzung kann dann ebenfalls durch die partiellen Ablei-
tungen des Bewertungsmaßes modifiziert werden (Backpropagation-Verfahren, Al-
gorithmen in [158]). Da RBF-Netze meist lineare Aktivierungsfunktionen und eine
gewichtete Summe mit Absolutterm zur Ermittlung des inneren Zustands in der Aus-
gabeschicht verwenden, werden deren Parameter geschlossen mit der Methode der
kleinsten Fehler-Quadrate (MKQ) bestimmt.
Hebbsches Lernen (siehe z. B. [63, 158]) verstärkt Parameter wi, j an Verbindungen
zwischen zwei Neuronen i, j mit den Ausgangsgrößen yi , y j gemäß

∆wi, j [k + 1] = wi, j [k] + ∆wi, j [k] mit (5.172)


∆wi, j [k] = f (yi [k], y j [k]), z. B. ∆wi, j [k] = ρ · yi [k] · y j [k], (5.173)

(Lernfaktor ρ > 0).12 Dieses Lerngesetz erhöht immer dann die Werte einer Wich-
tung in besonders starkem Maß, wenn die Ausgangsgrößen der durch sie verbunde-
nen Neuronen für die gleichen Datentupel groß sind. Im Gegensatz dazu reduziert
Anti-Hebbsches-Lernen den verbindenden Parameter (ρ < 0). Oftmals wird ein Ver-
gessensfaktor α ergänzt, um ein unbeschränktes Wachstum von ∆wi, j zu verhindern:

∆wi, j [k] = yi [k](ρ · y j [k] − α · wi j [k]). (5.174)


12
Teilweise wird in der Literatur noch zwischen präsynaptischen Aktivitäten y j [k] und postsynaptischen
Aktivitäten yi [k] unterschieden. Anstelle der Ausgangsgrößen können auch innere Zustände der
Neuronen verwendet werden.

204
5.6 Künstliche Neuronale Netze

Außerdem existiert eine Vielzahl von Erweiterungen, z. B. mit modifiziertem Zeitver-


halten bei den Vergessensfaktoren [122] oder zur Integration von Reinforcement-
Lernen [63]. Hebbsches Lernen eignet sich im Gegensatz zum Backpropagation-
Verfahren auch für komplexe rekurrente Netze.

5.6.3 Anwendungsfelder in der Medizin

Eine umfangreiche Übersicht über den Einsatz von Künstlichen Neuronalen Netzen
in klinischen Studien gibt [254] inklusive einer Auflistung des Anwendungsfeldes, des
Studientyps und der Validierungstechniken.
Die wichtigste Problemstellung für Künstliche Neuronale Netze ist die Differenti-
aldiagnose. [157] klassifiziert mit einem MLP-Netz vier verschiedene Leberschäden
auf der Basis von zehn Merkmalen (z. B. Laborwerte für Blut und Urin) anhand ei-
ner Datenbasis von 536 Patienten. Außerdem werden aus dem angelernten Netz-
werk Regeln extrahiert. Die Ergebnisse werden mit einer linearen Diskriminanzana-
lyse und einem Neuro-Fuzzy-System verglichen und zeigen die Überlegenheit des
MLP-Netzes. [119] vergleicht ein MLP-Netz mit verschiedenen statistischen Ansät-
zen (logistische Regression über alle Merkmale, Schwellwerte über einzelnen Merk-
malen) bei der Früherkennung von Prostatakrebs (Differentialdiagnose gegen nor-
males Gewebe und verschiedene gutartige Veränderungen). Die Studie basiert auf
Laborwerten von 1246 Patienten. Die Netzstruktur wird über Genetische Algorithmen
bestimmt. Auch hier zeigt sich bei einer Analyse der ROC-Kurve die Überlegenheit
des Künstlichen Neuronalen Netzes. Eine weitere große klinische Studie (928 Patien-
ten) zu dieser Thematik beschreibt [434] (Merkmale z. B. Laborwerte, Stammdaten).
Anwendungen zur Prognose stellt beispielsweise [79] zur Schätzung der Überlebens-
zeiten bei Tumoren vor.
Neben Einzelmerkmalen finden sich auch bild- und zeitreihengestützte Analy-
sen. [340] analysiert je eine Ruhe- und Belastungsmessung des Blutflusses im
Herz mit SPECT-Aufnahmen (Single-Photon-Emission-Computertomographie). Da-
bei werden dreidimensionale Aufnahmen ortsdiskretisiert und in Form einer soge-
nannten Bulls-eye-Darstellung zweidimensional visualisiert, um die Interpretierbar-
keit zu verbessern. Als Lerndatensatz standen 1320 Bilder zur Verfügung. Mit einem
MLP-Netz werden fünf wertediskrete Aussagen (nein, wahrscheinlich nein, schwer
entscheidbar, wahrscheinlich ja, ja) für die Wahrscheinlichkeit eines Herzinfarktes
berechnet. Das Netz ist besser als eine logistische Regression und ein Nearest-
Neighbor-Verfahren. Das MLP-Netz wurde in das Expertensystem WeAidU integriert,
das 17 Kliniken in Schweden zur Verfügung gestellt wurde. Eine nachfolgende Stu-
die zu Entscheidungen mit und ohne Expertensystemunterstützung ist geplant. Ei-

205
5 Data Mining: Spezielle Verfahren

ne ähnliche Applikation mit einem komplett unterschiedlichen Merkmalssatz (zeit-


diskrete Zeitreihen verschiedener Laborwerte) zeigt [129], wobei hier eine Vielzahl
modifizierter MLP-Strukturen und rekurrente Netze verglichen werden (Lerndaten-
satz: 88 Patienten mit Brustschmerzen). [206] klassifiziert mit einem MLP-Netz At-
mungsgeräusche von 126 Patienten in sechs Klassen und setzt dabei eine Wavelet-
Transformation zur Vorverarbeitung ein.
Künstliche Neuronale Netze eignen sich auch zur Segmentierung in Bildern. Ein
Beispiel hierfür ist die Segmentierung von Osteosarkomen in MRT-Aufnahmen [143]
mit einer Kohonen-Karte zur Vermessung der Tumorgröße nach einer Chemotherapie
(Studie mit 43 Patienten).

5.7 Clusterverfahren

Der entscheidende Unterschied zwischen Clusterverfahren und Klassifikationsver-


fahren besteht darin, dass bei Clusterverfahren in der Entwurfsphase keine Informa-
tionen über die Klassenzugehörigkeit der Datentupel im Lerndatensatz vorliegen. In
der Entwurfsphase sind folglich neben der Beschreibung der unterschiedlichen Clus-
ter mit explizit oder implizit gegebenen Funktionen ŷ(·) (scharfes Clustering D7 ) oder
µ̂Bc (·), c = 1, . . . , my (Fuzzy-Clustering D8 ) auch die entsprechenden Ausgangsgrö-
ßen der Datentupel im Lerndatensatz zu ermitteln. Die Aufgabe bei der Anwendung
eines Clusterverfahrens besteht darin, einem Datentupel eine Klasse ŷ[n] = Bc oder
unscharfe Zugehörigkeitswerte zu mehreren Klassen µBc [n] zuzuordnen. Damit ist es
in der Anwendungsphase äquivalent zu einer Klassifikation bzw. Fuzzy-Klassifikation.
Bild 5.31 zeigt die prinzipiellen Arbeitsschritte während der Entwurfs- und Anwen-
dungsphase eines Clusterverfahrens, die im Folgenden erläutert werden.
Der Begriff Cluster entspricht prinzipiell dem Begriff Klasse. Er betont aber die
unterschiedliche Entstehung der zugeordneten Information und die Tatsache, dass
bei einem datengestützt gefundenen Cluster im Gegensatz zu einer vorgegebenen
Klasse keine semantische Äquivalenz aller Datentupel gesichert ist. Ein gutes Cluster
zeichnet sich dadurch aus, dass sich die Datentupel innerhalb eines Clusters ähneln,
sich aber möglichst deutlich von Datentupeln unterscheiden, die zu anderen Clustern
gehören.
Das wichtigste Bewertungsmaß beim Clustering ist die Summe der quadratischen
Distanzen aller Datentupel im Lerndatensatz zum nächstgelegenen Clusterzentrum
x̄c
N
QCluster (X̄) = ∑ min
c
dc2 (x[n], x̄c ) → min,

(5.175)
n=1

206
5.7 Clusterverfahren

Bild 5.31: Arbeitsschritte in der Entwurfs- und Anwendungsphase bei Clusterverfahren

die zu minimieren ist. Die Anpassung³ erfolgt durch´ die Festlegung der Lage der Clus-
terzentren, die in einer Matrix X̄ = x̄1 · · · x̄my mit der Dimension s × my (s Anzahl
Merkmale, my Anzahl Cluster) angeordnet sind. Die Variante mit der Euklidischen
Distanz dc = dEuk wird als K-means-Algorithmus bezeichnet.
Das Kriterium ist äquivalent zu einer Formulierung
my
QCluster (ŷ, X̄) = ∑ ∑ dc2 (x[n], x̄c ) → min
ŷ,X̄,
(5.176)
c=1 n mit ŷ[n]=Bc

ŷ[n] = argmin dc2 (x[n], x̄c ). (5.177)


Bc

Fuzzy-Clusterverfahren [48, 180] verallgemeinern das Kriterium in (5.176) durch das


Zulassen unscharfer Zugehörigkeiten µBc [n] eines Datentupels zu einem Cluster. Das

207
5 Data Mining: Spezielle Verfahren

zu minimierende Bewertungsmaß des Fuzzy-C-Means-Algorithmus (FCM) lautet


N my
QFuzzy−Cluster (µ y , X̄) = ∑ ∑ (µBc [n])q · dc2(x[n], x̄c) → µmin
y ,X̄
. (5.178)
n=1 c=1

Die Nebenbedingungen erzwingen eine probabilistische Clustereinteilung (Summe


aller Zugehörigkeiten für jedes Datentupel ist Eins, keine negativen Zugehörigkeiten)
in (5.179) und fordern in (5.180), dass kein Cluster leer ist:

my
∑ µBc [n] = 1, für alle n = 1, . . . , N, mit µBc [n] ≥ 0, (5.179)
c=1
N
∑ µBc [n] > 0, für alle c = 1, . . . , my. (5.180)
n=1

Sie vermeiden die Triviallösung mit µBc [n] → 0. Possibilistische Clustereinteilungen


lassen anstelle der Nebenbedingung (5.179) auch Summen kleiner Eins zu. Sie müs-
sen dann aber mit modifizierten Gütekriterien arbeiten, um die Triviallösung zu ver-
hindern (siehe z. B. [444]).
Durch den Fuzzifier q können „harte“ (q → 1) oder „weiche“ Zugehörigkeiten q → ∞
eingestellt werden, üblich ist q = 2. Hinweise zu Auswirkungen der Wahl des Fuzzi-
fiers finden sich beispielsweise in [215]. Das Bewertungsmaß bewirkt große Zuge-
hörigkeiten µBc [n] bei kleinen quadratischen Distanzen zum zugehörigen Clusterzen-
trum und kleine Zugehörigkeiten bei großen Distanzen.
Die Optimierungsprobleme mit den Gütekriterien in (5.176) bzw. (5.178) sind nicht
in einem Schritt geschlossen lösbar. Die meisten Algorithmen berechnen die Clus-
terzuordnung und die Clusterparameter (z. B. Clusterzentren, u. U. clusterspezifische
Distanzen) iterativ durch das wechselseitige Lösen reduzierter Probleme mit fest-
gehaltenen Clusterparametern bzw. festgehaltenen Clusterzuordnungen (Bild 5.31).
Das iterative Vorgehen erfordert entweder eine initiale Zuordnung von Datentupeln zu
Clustern (Weglassen des 1. Schrittes und Start mit dem 3. Schritt) oder eine initiale
(meist zufällige) Parameterwahl für Startcluster (Bild 5.31, 1. Schritt der Entwurfs-
phase). Aus den nun gegebenen Clusterparametern werden die Distanzen jedes
Datentupels zu jedem Cluster berechnet (2. Schritt). Für die reduzierten Probleme
im 3. und 4. Schritt lassen sich oft analytische Lösungen angeben. So ergibt sich für
(5.178) im 3. Schritt die Lage der Clusterzentren durch Ableiten von (5.178) nach den
Clusterzentren, Nullsetzen der Ableitung und Umstellen. Für Euklidische Distanzen
folgt z. B.
∑Nn=1 (µBc [n])q x[n]
x̄c = . (5.181)
∑Nn=1 (µBc [n])q

208
5.7 Clusterverfahren

Datensätze mit einer großen Zugehörigkeit ziehen das Clusterzentrum stärker in ihre
Richtung als Datensätze mit kleinen Zugehörigkeiten. Der nachfolgende 4. Schritt hält
die Clusterzentren fest und bestimmt nach Einsetzen der Nebenbedingung (5.179),
Nullsetzen der Ableitung von (5.178) nach µ y für q > 1 und Umstellen die Zugehörig-
keit
¡ 2 ¢ 1
dc (x[n], x̄c ) 1−q
µBc [n] = ¢ 1 . (5.182)
my ¡ 2
∑i=1 di (x[n], x̄i ) 1−q
Eine Bewertung (5. Schritt) beurteilt die Güte der Ergebnisse und koppelt u. U. durch
Löschen zu unbedeutender oder zu ähnlicher Cluster bzw. Ergänzen neuer Clus-
ter auf die Berechnung der Parameter zurück. Zudem beurteilt sie, wie stark sich
die Clusterparameter im letzten Iterationsschritt verändert haben. Die Iteration wird
beendet, wenn sich die Clusterzuordnung der Datentupel nicht mehr oder nur noch
geringfügig ändert. Anderenfalls wiederholt sich der Ablauf durch Berechnen der Di-
stanzen zu den aktualisierten Clustern (2. Schritt). Die Konvergenz ist nicht a priori
gesichert, allerdings sind insbesondere bei Fuzzy-Clusterverfahren mit nicht cluster-
spezifischen Distanzen die Konvergenzeigenschaften gutmütig. Der Algorithmus kon-
vergiert oft gegen das globale Optimum oder zumindest gegen ein lokales Optimum,
das nur eine geringe Gütedifferenz zum globalen Optimum aufweist. Bei clusterspezi-
fischen Kovarianzmatrizen neigt der Algorithmus bei ungünstigen Startwerten dazu,
Cluster mit sehr geringen Datentupelzahlen und mit betragsmäßig kleinen Werten
der Kovarianzmatrizen zu generieren.
In der Anwendungsphase sind meist nur noch die Schritte 2 und 3 mit gegebe-
nen Clusterparametern für jedes neue Datentupel auszuführen. Es existieren aber
auch adaptive Varianten, die die Clusterparameter entsprechend dem vierten Schritt
ständig nachführen.
Die Freiheitsgrade beim Clustering bestehen in der Wahl der Clusteranzahl, des
Distanzmaßes und der Art der Berechnung der Clusterzugehörigkeiten. Zusätzlich
können Bewertungsmaße auf die extrahierten Merkmale zurückkoppeln, so dass ein
geschlossener Kreis aus Merkmalsextraktion und Clustering entsteht.
Die Clusteranzahl wird entweder manuell gesetzt oder durch mehrfaches Cluste-
ring mit unterschiedlicher Clusteranzahl und Auswahl der besten Lösung gemäß ei-
nem Bewertungsmaß ermittelt. Sie kann sich auch während eines iterativen Algorith-
mus ändern, wenn dicht beieinander liegende Cluster verschmolzen oder heterogene
Cluster aufgespalten werden.
Die Festlegung eines Distanzmaßes bedeutet implizit auch eine Annahme über die
Clustergeometrie. Die Euklidische Distanz (3.34) (Sonderfall der quadratischen Form
(3.35) mit WQF = I) unterstellt (hyper-)kugelförmige Cluster mit Volumen Eins. Ei-

209
5 Data Mining: Spezielle Verfahren

ne Varianznormierung (VN) kompensiert lediglich unterschiedliche Skalierungen der


Merkmale mit WQF = diag(S)−1 , bei der nur die Diagonalelemente von WQF besetzt
sind.13 Eine Mahalanobis-Distanz mit WQF = S−1 korrigiert sowohl unterschiedliche
Skalierungen der Merkmale als auch Korrelationen im Merkmalsraum, nimmt aber
nach wie vor gleiche Clustervolumina und -orientierungen an.
Clusterspezifische Distanzmaße heben zwar die Einschränkung z. T. auf, ziehen
aber oftmals Konvergenzprobleme in den Algorithmen nach sich. Von praktischer Be-
deutung ist hier der Gustafson-Kessel-Algorithmus, der eine clusterspezifische qua-
dratische Distanz entsprechend (3.35) mit
q
WQF := WQF,c = s
det(SF,c )S−1
F,c (5.183)
∑Nn=1 (µBc [n])q (x[n] − x̄c )(x[n] − x̄c )T
mit SF,c = (5.184)
∑Nn=1 (µBc [n])q

verwendet, wobei SF,c wegen der Ähnlichkeit zu einer Kovarianzmatrix als Fuzzy-
Kovarianzmatrix bezeichnet wird. Die Cluster haben wegen des Normierungsterms
ps
det(SF,c ) das gleiche Volumen, sind aber Ellipsoide mit clusterindividuellen Seiten-
verhältnissen und Orientierungen. Der Gath-Geva-Algorithmus arbeitet in Anlehnung
an einen statistischen Zugang auf der Basis einer Normalverteilung (5.3) mit cluster-
spezifischen Maßen14
p µ ¶
2 det(SF,c ) 1 T −1
dc (x[n], x̄c ) = exp (x[n] − x̄c ) SF,c (x[n] − x̄c ) (5.185)
P̂(ŷ = Bc ) 2
∑Nn=1 µBc [n]
mit P̂(ŷ = Bc ) = N my , (5.186)
∑n=1 ∑i=1 µBi [n]
die sowohl unterschiedliche Clustervolumina als auch unterschiedliche Orientierun-
gen zulassen.
Andere Clusterprototypen (z. B. Konturen in Form von Linien, Kreisen, Ellipsen und
Rechtecken) können durch entsprechend modifizierte Clusterparameter und Distanz-
maße oder durch geeignete extrahierte Merkmale nachgebildet werden. Solche Pro-
totypen sind insbesondere bei der Suche nach Objekten mit einer bestimmten Geo-
metrie in Bildern und Videos bedeutsam.
Clusterbewertungsmaße beurteilen die Güte eines Clusterings und sind somit
wertvolle Hilfsmittel zur Merkmalsselektion und zur Auswahl der Clusteranzahl (Über-
sicht siehe z. B. [180, 444]). Obwohl eine Vielzahl von Bewertungsmaßen vorgeschla-
13
Alternativ dazu können auch alle Merkmale gemäß (5.6) auf Seite 106 normiert werden, damit gilt
dann die Euklidische Distanz mit WQF = I.
14
Das Maß ist allerdings keine Distanz: dc (x, x) 6= 0, damit Widerspruch zu (3.28).

210
5.7 Clusterverfahren

gen wurde, existiert bisher kein hundertprozentig befriedigendes Maß. Ein wichtiger
Vertreter ist der Trennungsgrad (engl. separation)
QCluster (ŷ, X̄)
QTrenn (my ) = , (5.187)
my · min (dc2 (x̄i , x̄ j ))
i, j=1,...,my ,i6= j

der analog auch für QFuzzy−Cluster (µ y , X̄) einsetzbar ist. Er bestraft eine zu kleine
Distanz zwischen den beiden am nächsten benachbarten Clustern. Die beste Clus-
teranzahl wird durch das erste lokale Minimum für my ermittelt. Mit steigender Clus-
teranzahl sinken die Werte allerdings weiter.
Beispiel: Aufgrund der eng aneinander grenzenden Klassen ist ein Clusterverfahren im
Beispieldatensatz nicht in der Lage, die drei Klassen mit einem unüberwachten Lernverfahren
im originalen Lerndatensatz befriedigend aufzufinden (Bild 5.32a). Das ist daran zu erkennen,
dass die Clusterzugehörigkeiten nicht mit den Klassenzuordnungen in Bild 5.23 übereinstim-
men. Allerdings findet es nach einer Datentupelselektion zur alleinigen Auswahl der Pati-
entendaten bei geeigneter Parametrierung die beiden Patienten-Subgruppen (Bild 5.32c,f).
Hier gelingt sogar die automatische Bestimmung der Clusteranzahl my = 2 (Bild 5.32c),
weil die Lösung mit drei Clustern (Bild 5.32b) einen höheren Wert der Separation aufweist
(QTrenn (my = 2) = 2.17, QTrenn (my = 3) = 2.25) und somit das erste lokale Minimum gewählt
wird. Damit ist das Clusterverfahren in der Lage, ein 2-Klassen-Problem durch Auffinden der
Patientensubklassen in ein leichter lösbares 3-Klassen-Problem umzuwandeln. Außerdem
gibt es einen gut interpretierbaren Hinweis auf die Existenz der zwei Subklassen, die anhand
der Zuweisungen der Patienten zu den Clustern bzw. Subklassen und einer Visualisierung
klinisch auswertbar ist.
Die Auswirkungen von Merkmalsselektionen und von unterschiedlichen Distanzmaßen
erfordern eine sorgfältige Analyse: Der verstärkte Einfluss durch die große Streuung des
informationslosen Merkmals x3 beeinträchtigt die Ergebnisse der Euklidischen Distanz.
Hier kommt es zu zahlreichen falschen Zuordnungen (Bild 5.32d). Der Gustafson-Kessel-
Algorithmus ohne Merkmalsselektion (Bild 5.32e) scheitert, weil er die Redundanzen von x1
und x4 nicht ausnutzt, aber die Reststörung auf beiden Merkmalen verstärkt.15 Auch hier
steigt die Zahl der falschen Zuordnungen deutlich an. Das Problem lässt sich beispielsweise
durch eine Merkmalsselektion (nur noch x1 und x2 , siehe Bild 5.32f) lösen, wonach auch der
Gustafson-Kessel-Algorithmus die Datentupel richtig zuordnet16 . ¥
In der Literatur existiert eine Vielzahl modifizierter Verfahren. Die Entwick-
lung wurde und wird hauptsächlich von Problemstellungen getrieben, für die
Standard-Clusterverfahren unbefriedigende Ergebnisse liefern (Ausreißer im Lern-
datensatz, Cluster mit stark unterschiedlichen Verteilungsdichtefunktionen und A-
priori-Wahrscheinlichkeiten, Merkmalsräume mit fehlenden Werten, Integration von
15
Ähnliche Wirkungen verursacht die Mahalanobis-Distanz.
16
Genauso wirkungsvoll sind Merkmalsselektionen x1 , x2 , x3 oder x2 , x3 , x4 usw.

211
5 Data Mining: Spezielle Verfahren

a. alle Datentupel, m =3, VN b. nur Patienten, m =3, VN


y y

30 30
25 25
20
Laborwert x2

Laborwert x2
20
15
15
10
10
5
5
−2 0 2 4 −2 0 2 4
c. nur Patienten, my=2, VN d. nur Patienten, my=2, EU

30 30
25 25
Laborwert x2

20 Laborwert x2 20
15 15
10 10
5 5
−2 0 2 4 −2 0 2 4
e. nur Patienten, my=2, GK f. nur Patienten, nur x1 und x2, my=2, GK

30 30
25 25
Laborwert x2

Laborwert x2

20 20
15 15
10 10
5 5
−2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1

Bild 5.32: Clusterergebnisse für den Beispieldatensatz (alleinige Darstellung der Merkmale
x1 , x2 für alle Teilbilder, siehe auch Klasseneinteilung in Bild 5.3d auf Seite 119):
a. alle Datentupel, alle Merkmale, 3 Cluster, Distanzmaß: Varianznormierung
b. nur Patienten, alle Merkmale, 3 Cluster, Distanzmaß: Varianznormierung
c. nur Patienten, alle Merkmale, 2 Cluster, Distanzmaß: Varianznormierung
d. nur Patienten, alle Merkmale, 2 Cluster, Distanzmaß: Euklidische Distanz
e. nur Patienten, alle Merkmale, 2 Cluster, Distanzmaß: Gustafson-Kessel-
Algorithmus
f. nur Patienten, nur Merkmale x1 und x2 , 2 Cluster, Distanzmaß: Gustafson-Kessel-
Algorithmus

212
5.7 Clusterverfahren

A-priori-Informationen wie bekannte Ausgangsklassen für einen Teil der Datentu-


pel usw.). So verfälschen z. B. Ausreißer die Clusterergebnisse, da sie bei scharfen
Clusterverfahren ein Clusterzentrum und bei Fuzzy-Clusterverfahren mehrere Clus-
terzentren in ihre Richtung ziehen und bei clusterspezifischen Distanzmaßen auch
die Distanzen beeinflussen. Zum Reduzieren des Effektes bieten sich verschiedene
Techniken an, z. B. eine vorherige Datentupelselektion. Das Einführen eines Rausch-
clusters BRausch mit dRausch (x) = const. wirkt wie eine scharfe bzw. unscharfe Daten-
tupelselektion. Datentupel mit einer großen Distanz zu allen anderen Clusterzentren
werden vollständig oder anteilig dem Rauschcluster (engl. noise cluster) zugewiesen.
Das beseitigt oder reduziert den Einfluss solcher Datentupel auf die anderen Cluster.
Die Zuweisung zum Rauschcluster ähnelt einer Rückweisung bei einer Klassifikation.
Ein hierarchisches Clustering stellt ein mehrfaches scharfes Clustering eines Da-
tensatzes in Form eines Baums (sogenanntes Dendrogramm) dar. Ein Dendrogramm
besteht in der obersten Ebene aus einem Wurzelknoten mit einem Cluster, das al-
le Datentupel umfasst. In der untersten Ebene bildet jedes Datentupel ein eigenes
Cluster. In den dazwischen liegenden Ebenen werden die Knoten höherer Ebenen
schrittweise aufgespalten.
Beispiel: Ein Beispiel für ein Dendrogramm zeigt Bild 5.33. Es resultiert aus einem hierar-
chischen Clustering mit den beiden Merkmalen x1 und x2 , einer Varianznormierung und einer
Euklidischen Distanz. Hierbei wurden nur die Datentupel der beiden Patientenklassen ver-
wendet. Deren Nummerierung und die paarweisen Abstände der Datentupel sind in Bild 5.34
zu sehen. Sowohl im Merkmalsraum als auch in den Distanzen können die beiden Gruppen
mit den Nummern der Datentupel 1-20 (Patient B) und 21-30 (Patient A) deutlich unterschie-
den werden.
Das Dendrogramm zeigt von unten nach oben das stückweise Zusammenfassen ähnlicher
Datentupel (z. B. 7-9, 25-29). In den nächsten Ebenen werden die gefundenen Cluster unter-
einander bzw. mit einzelnen Datentupeln fusioniert, wobei immer ein Zusammenschluss der
Cluster mit den geringsten mittleren Abständen erfolgt. In der vierten Hierarchieebene gelingt
eine fehlerfreie Trennung der beiden Patientenklassen. Somit liefert ein hierarchisches Clus-
terverfahren auf den verschiedenen Ebenen unterschiedliche Vorschläge für die Anzahl von
Clustern. ¥
Clusterverfahren spielen sowohl direkt zum Auffinden unbekannter (Sub-) Klassen
als auch als Hilfsverfahren (z. B. beim Bestimmen der Anzahl und Parameter von
Zugehörigkeitsfunktionen für Fuzzy-Systeme D19 oder für den Entwurf von Diskreti-
sierungsvorschriften D20 ) eine Rolle.
Clusterverfahren sind in der Medizin insbesondere dann interessant, wenn es um
die automatische Analyse von Lerndatensätzen mit einer großen Anzahl von Daten-
tupeln ohne oder mit unvollständiger Klassenzuweisung geht (unüberwachtes oder

213
5 Data Mining: Spezielle Verfahren

5
Hierarchieebenen für Cluster

11 19 17 1 14 10 16 5 2 3 4 8 12 7 9 6 18 15 20 13 21 23 24 30 27 26 25 29 28 22
Datentupel

Bild 5.33: Dendrogramm für ein hierarchisches Clustering mit den Merkmalen x1 und x2 für
alle Datentupel der beiden Patientenklassen

a. Merkmale b. Distanzen
15 8
30 B2: Patient A
B3: Patient B 20 5 7

25 5 11 6
19 6 10
14 16
Laborwert x2

Datentupel

1 10 17 18 5
20 22
48 2 15 4
12
7 3
15 29 9 3
20
25 30 2
10 24
21
23
27 13 25
1
5 26
28 30 0
−2 0 2 4 5 10 15 20 25 30
Laborwert x1 Datentupel

Bild 5.34: a. Merkmale x1 und x2 für alle Datentupel der beiden Patientenklassen als Basis
für das Dendrogramm in Bild 5.33, die Nummern der Datentupel stehen neben den
jeweiligen Symbolen,
b. Paarweise Distanzen der ausgewählten Datentupel nach einer Varianznormie-
rung und der Verwendung der Euklidischen Distanz, dunklere Farben bedeuten
größere Distanzen

214
5.8 Regressionsverfahren

teilüberwachtes Lernen). Beispiele für solche Problemstellungen sind die unüber-


wachte oder teilüberwachte Segmentierung von MRT-Bildern [450, 469] oder CT-
Bildern (z. B. [476] zur automatisierten Erkennung von Darmpolypen, Studie mit 43
Fällen). Bei Zeitreihen geht es beispielsweise um die Auswertung von visuell evozier-
ten Potenzialen aus EEG-Daten zur Diagnose von Multipler Sklerose [108]. Ähnliche
Problemstellungen finden sich auch bei der Auswertung von Genexpressionsprofi-
len, wo Clusterverfahren eine dominierende Rolle einnehmen. So sucht z. B. [451]
prognostische Aussagen für die Metastasenbildung bei Brusttumoren aus Genex-
pressionsprofilen.
Bei Zeitreihen und Videos ist sorgfältig darauf zu achten, über welche Informa-
tionen geclustert wird. So behandelt [471] die Zeitverläufe einzelner Pixel in fMRT-
Bildern als Merkmale und die einzelnen Pixel als Datentupel. Entsprechend reprä-
sentieren die Clusterzentren Zeitverläufe, die wiederum über die Ortsinformationen
im Bild darstellbar sind. Die hier auftretenden Interpretationsdifferenzen ähneln de-
nen bei den Merkmalstransformationen vom Typ I und II auf Seite 121.

5.8 Regressionsverfahren

5.8.1 Übersicht

Regressionsprobleme mit einer skalaren Ausgangsgröße y lassen sich allgemein


durch
ŷ = f (x, â) (5.188)

ausdrücken. Die Ausgangsgröße y wird in medizinischen Anwendungen oftmals als


Zielvariable (engl. response variable), ein Merkmal xl als erklärende Variable (engl.
explanatory variable) bezeichnet. Während der Entwurfsphase sind eine geeignete
Struktur f (·) und ein Parametersatz â zu bestimmen.
Die allgemeine Form in (5.188) ist zwar sehr flexibel, aber die Bestimmung der
Parameter muss meist durch eine numerische Optimierung erfolgen. Das kann ins-
besondere bei höherdimensionalen Strukturen zu Konvergenzproblemen sowie zu
langen Rechenzeiten führen.
Bei parameterlinearen Regressionsproblemen gilt17

ŷ = f(x)T · â, (5.189)


17
In der Literatur wird oftmals ein Modell ohne die nichtlineare Transformation mit veränderten Be-
zeichnungen verwendet: y = α + ∑sl=1 βl xl . Dieses Modell ist ein Sonderfall von (5.189) mit f1 = 1,
fi+1 = xi , â1 = α und âi+1 = βi für i = 1, . . . , s.

215
5 Data Mining: Spezielle Verfahren

die Parameter âi gehen nur linear in das Ergebnis ein. Sie lassen sich somit bei
einigen wichtigen Bewertungsmaßen wie z. B. beim Minimieren von (3.75) über die
Methode der kleinsten Fehler-Quadrate (MKQ, engl. LS – least square method) ge-
schlossen bestimmen. Anderenfalls wird das Problem als parameternichtlinear be-
zeichnet.
Die Strukturfindung besteht in der Festlegung geeigneter Funktionen f(x), wozu
eine umfangreiche theoretische Literatur über Suchstrategien existiert (siehe z. B.
[179]). Ein Beispiel für einen solchen Ansatz sind Polynome mit f1 = 1 (zur Einbe-
ziehung eines konstanten Absolutterms), f2 = x1 , f3 = x2 , f4 = (x1 )2 , f5 = x1 · x2 , f6 =
(x2 )2 usw. Deren Werte werden dann in eine Matrix F der Dimension (N, s f ) mit Ele-
menten fi geschrieben:
 
1 x1 [1] x2 [1] (x1 [1])2 x1 [1] · x2 [1] (x2 [1])2
 
F =  ... ..
.
..
.
..
.
..
.
..
. . (5.190)
2
1 x1 [N] x2 [N] (x1 [N]) x1 [N] · x2 [N] (x2 [N]) 2

Die Parameter stehen im s f -dimensionalen Vektor â, der entsprechend dem Bewer-
tungsmaß
1
F · â )T · (y − |{z}
Q = (y − |{z} F · â ) → min (5.191)
2 â
ŷ ŷ
als Spezialfall von (3.71) geschätzt wird. Die Lösung des Problems lautet

â = (FT · F)−1 · FT · y. (5.192)

Das Ergebnis ist eindeutig, wenn FT · F den Rang s f hat. Das erfordert mindestens
s f linear unabhängige Zeilen (Datentupel) und Spalten (Merkmale) in F, was durch
einen geeigneten Datensatz zu sichern ist18 . Wegen dieser Rechenvorteile ist anzu-
streben, entweder von vornherein parameterlineare Funktionen anzusetzen oder zu
versuchen, parameternichtlineare Strukturen durch geeignete identische Transforma-
tionen (z. B. Logarithmieren beider Seiten in (5.188)) in parameterlineare Funktionen
umzuwandeln.
Auch das Problem in (3.81) (Diagonalmatrix WQF mit Wichtungskoeffizienten) kann
geschlossen mit der MKQ gelöst werden:

â = (FT · WQF · F)−1 · FT · WQF · y. (5.193)

Struktursuche-Probleme werden üblicherweise durch das Aufstellen vieler Hypothe-


sen für potenziell relevante Funktionen fi , die jeweilige Auswertung von (5.192) bzw.
18
Das ist lediglich eine Mindestanforderung. Besser ist eine gezielte Versuchsplanung, die zusätzlich
auf besonders günstige statistische Eigenschaften für das resultierende Problem zielt. Bei vielen
medizinischen und medizintechnischen Problemen ist der Datensatz aber überhaupt nicht oder nur
eingeschränkt beeinflussbar.

216
5.8 Regressionsverfahren

(5.193) und die schrittweise Auswahl der besten Funktionen suboptimal gelöst. Die
so ausgewählten Funktionen erlauben eine Deutung als zusätzliche transformierte
Merkmale, die aus den bisher gegebenen Merkmalen xl resultieren.
Im Spezialfall einer univariaten linearen Regression mit ŷ = a1 · x ist a1 nach einer
Varianznormierung von x und y auf jeweils Mittelwert Null und Standardabweichung
Eins der lineare Korrelationskoeffizient R. Der hängt wiederum über a21 = R2 mit dem
Bestimmtheitsmaß aus (3.76) zusammen.
Für parameterlineare Regressionsmodelle in (5.192), die mindestens einen
Mittelwert-Schätzer mit f1 = 1 enthalten19 , gilt der Streuungszerlegungssatz, der ei-
ne Gesamtstreuung (TSS: Total Sum of Squares), eine erklärte Streuung (ESS: Ex-
plained Sum of Squares) und eine nicht erklärte Streuung (RSS: Residual Sum of
Squares) enthält (vgl. auch (3.76) auf S. 59):

(y − ȳ)T (y − ȳ) = (ŷ − ȳ)T (ŷ − ȳ) + (y − ŷ)T (y − ŷ). (5.194)


| {z } | {z } | {z }
Gesamtstreuung (TSS) erklärte Streuung (ESS) nicht erklärte Streuung Q (RSS)

Regressionsprobleme entstehen hauptsächlich bei der Modellbildung, Regelung und


Steuerung biologischer Systeme, bei der quantitativen Patientenbewertung und der
Suche nach alternativen Messverfahren. Zudem entsprechen viele andere Ansätze
(z. B. MLP-Netz, Fuzzy-Systeme vom Takagi-Sugeno-Typ, Verteilungsdichtefunktio-
nen) Regressionsproblemen mit speziellen Strukturansätzen f(·). In den folgenden
Abschnitten werden außerdem spezielle Regressionsprobleme vorgestellt, die in der
Medizin eine wichtige Rolle spielen.
Beispiel: Die Ergebnisse von Regressionsmodellen für die Suche nach alternativen Mess-
verfahren zeigen Tabelle 5.23 und Bild 5.35. Hierbei besteht die Aufgabe darin, einen Ersatz
für den Laborwert x1 des Beispiels zu finden. Eine lineare Korrelationsanalyse und eine Vi-
sualisierung aller paarweisen Korrelationskoeffizienten in Bild 5.35a zeigen, das insbesonde-
re der Messwert x4 (linearer Regressionskoeffizient rx1 ,x4 = −0.997), aber auch der Laborwert
x2 (rx1 ,x2 = −0.320) relevante Informationen enthalten. Hingegen hängt der Messwert x3 er-
wartungsgemäß kaum mit x1 zusammen (rx1 ,x2 = −0.065). Aus diesen Erkenntnissen lassen
sich unterschiedlich komplexe Modelle aufbauen. Das sinnvollste Modell ist eine Merkmals-
selektion auf ein Merkmal mit dem betragsgrößten linearen Regressionskoeffizienten als Be-
wertungsmaß gefolgt von einer linearen Regression mit einem Merkmal gemäß (5.192) mit
 
1 x4 [1]
 .. 
F =  ... . . (5.195)
1 x4 [N]
Die Optimierung mit (5.192) liefert dann die entsprechenden Koeffizienten für das Modell:
19
Die Gleichung geht nur auf, wenn die Schätzung mindestens genauso gut wie der Mittelwert-
Schätzer mit ŷ = ȳ ist.

217
5 Data Mining: Spezielle Verfahren

x̂1 [n] = −0.005 − 1.001 · x4 [n]. (5.196)


Die dadurch generierten Zusammenhänge sind in Bild 5.35b als Scatterplot x̂1 [n] gegen x1 [n]
sowie in Bild 5.35c als Funktion x̂1 (x4 ) mit einem zusätzlichen Scatterplot x4 [n] gegen x1 [n]
visualisiert. Ein Polynom-Ansatz ohne Merkmalsselektion erzeugt mit
 
1 x2 [1] x3 [1] x4 [1]
 .. 
F =  ... ..
.
..
. .  (5.197)
1 x2 [N] x3 [N] x4 [N]
ein Modell
x̂1 [n] = −0.019 + 0.002 · x2 [n] − 0.000 · x3 [n] − 0.998 · x4 [n]. (5.198)
Komplexere Modelle wie ein MLP-Netz (mit fünf Neuronen in der verdeckten Schicht) oder ein
k-Nearest-Neighbor-Verfahren (k = 10, Ermittlung der Ausgangsgröße über einen gewichte-
ten Mittelwert der Nachbarn mit einer linear fallenden Wichtung entsprechend der steigenden
Euklidischen Distanz) verbessern aufgrund des nahezu linearen Zusammenhangs das Er-
gebnis nicht. Nur im Lerndatensatz gelingt dem MLP-Netz eine geringe Verbesserung, wäh-
rend das k-Nearest-Neighbor-Modell strukturell nicht passt. Bei einer Crossvalidierung fällt
die Güte beider Modelle deutlich ab, insbesondere bei einer 2-fachen Crossvalidierung mit
entsprechend weniger Lerndaten. Die Unterschiede zwischen dem Polynom-Modell mit und
ohne Merkmalsselektion sind zu vernachlässigen und bei der Crossvalidierung eher durch
die zufällige Zusammenstellung der Datensätze bedingt. Zusammenfassend ist festzustellen,
dass sich ein polynomiales Modell gemäß (5.196) bei Bedarf gut für ein alternatives Mess-
verfahren eignet. ¥

Merkmale Verfahren Linearer Korrelations- Mittlerer Modellfehler


koeffizient (3.77) (3.74), Manhattan-Distanz
LD (5CV, 2CV) LD (5CV, 2CV)
x4 Polynom 0.997 (0.997, 0.997) 0.067 (0.069, 0.070)
Alle Polynom 0.997 (0.997, 0.997) 0.067 (0.069, 0.069)
Alle MLP-Netz 0.998 (0.986, 0.978) 0.063 (0.082, 0.099)
Alle k-Nearest-Neighbor 0.994 (0.977, 0.960) 0.132 (0.234, 0.297)

Tabelle 5.23: Auswirkungen verschiedener Regressionsmodelle auf die Suche nach alternati-
ven Messverfahren zum Ersetzen von Laborwert x1 , LD: Lerndatensatz, 5CV: 10
Versuche 5-fache Crossvalidierung, 2CV: 10 Versuche 2-fache Crossvalidierung

5.8.2 Schätzung von Überlebenszeiten

Spezielle strukturierte Regressionsansätze ergeben sich in der Medizin insbeson-


dere bei der Analyse von erwarteten Überlebensraten S(t) (engl. survival rate), die

218
5.8 Regressionsverfahren

a. Korrelationen der Merkmale b. Ausgangsgröße und Schätzung c. Ein− und Ausgangsgröße


1
0.9
0.8 4 4
0.7
1 0.6 3 3

Laborwert x1 (Schätzung)
0.5
0.4
0.3 2 2

Laborwert x1
2 0.2
Merkmale

0.1
0 1 1
−0.1
3 −0.2
−0.3 0 0
−0.4
−0.5 −1 −1
4 −0.6
−0.7
−0.8 −2 −2
−0.9
−1
1 2 3 4 −2 0 2 4 −4 −2 0 2
Merkmale Laborwert x1 Messwert x4

Bild 5.35: Ergebnisse der Regression für die Suche nach alternativen Messverfahren zum
Ersetzen von Laborwert x1 für das Beispiel: a. Korrelationsvisualisierung, b. Schät-
zung des Polynom-Modells gemäß (5.196) als Funktion der wirklichen Werte von
x1 , c. Schätzung des Polynom-Modells gemäß (5.196) mit Regressionsgerade und
wirklichen Werten von x1 als Funktion des Messwertes x4

in Abhängigkeit des kumulierten Sterberisikos H(t) bzw. des Sterberisikos (Hasard)


h(t) mittels
Z t
−H(t)
S(t) = e mit H(t) = h(τ )d τ (5.199)
τ =0
erfolgt [147]. Als zeitdiskrete Variante für (nicht unbedingt äquidistante) (Abtast-) Zeit-
punkte k kommt das Verfahren nach Kaplan-Meier mit

k k
NS [k]
S[k] = (1 − h[k]) · S[k − 1] = ∏(1 − h[i]) = ∏ mit S[0] = 1, k ≥ 1 (5.200)
i=1 i=1 NS [k − 1]

zum Einsatz. h[k] ist das Sterberisiko für den Zeitraum zwischen den Zeitpunkten
k − 1 und k mit
NT [k] NS [k − 1] − NS [k]
h[k] = = (5.201)
NS [k − 1] NS [k − 1]
(NT [k]: Anzahl der im Zeitraum zwischen k − 1 und k verstorbenen Personen und
NS [k]: Anzahl der zum Zeitpunkt k lebenden Personen).
Der Einfluss der Merkmale xl in (5.199) kann durch das parameternichtlineare Cox-
Modell mittels

219
5 Data Mining: Spezielle Verfahren

s ³ ´T
h(t) = h0 (t) · ∏ e βl ·xl
(t) · e∑l=1 βl ·xl
s xT ·a
= h0 = h0 (t) · e , a = β1 . . . βs , (5.202)
l=1

mit einer gegebenen Referenzkurve h0 (t) approximiert werden. Alle Merkmale ohne
Einfluss haben zugehörige Parameter βl = 0 bzw. eβl = 1, βl > 0 ist lebenszeitver-
kürzend und βl < 0 ist lebenszeitverlängernd. Bei der Interpretation der βl sind die
auftretenden Wertebereiche von xl zu berücksichtigen, da eβl das erhöhte Risiko für
die Erhöhung eines (einheitslosen) Merkmalswertes von xl um ∆xl = 1 beschreibt.
Alle wertediskreten Merkmale xl sind geeignet wertekontinuierlich zu kodieren.
Das Problem ist nach Logarithmieren von (5.202)
µ ¶ s µ ¶
h(t) h(t)
ln = ∑ βl · xl = x · a mit ŷ := ln
T
(5.203)
h0 (t) l=1 h0 (t)

zwar parameterlinear, allerdings sind bei praktischen Anwendungen nicht die Ha-
sards h(t), sondern die Überlebenszeiten für N Patienten gegeben. Deswegen muss
das Problem iterativ gelöst werden, ein Lösungsalgorithmus findet sich z. B. in [306].
Die Struktur ist somit prinzipiell gegeben, dennoch können als Data-Mining-
Aufgabe Struktursuche-Probleme für die Auswahl weniger Merkmale mit βl 6= 0 auf-
treten. Da es sich um ein mehrfaktorielles Problem handelt (alle xl mit βl 6= 0 be-
einflussen S(t)), sind sorgfältige Interpretationen und statistische Abschätzungen er-
forderlich. Besondere Vorsicht sollte bei der Analyse verschiedener einfaktorieller
und mehrfaktorieller Ansätze gelten, wenn Vermutungen über Ursache-Wirkungs-
Mechanismen abgeleitet werden sollen.
Das Modell in (5.199) ist auch auf andere Studien übertragbar, bei denen es um
die Eintrittswahrscheinlichkeit eines binären Ereignisses zu bestimmten Zeitpunkten
geht (z. B. zeitliche Funktion der Rückfallquote einer Erkrankung).
Die Schätzung von Überlebenszeiten ist eine dominierende Anwendung von Re-
gressionsansätzen in der Medizin.20 Sie ist eine spezielle Anwendung zur Therapie-
prognose und Therapieevaluierung. Ein Beispiel zeigt [203] im Rahmen einer ran-
domisierten klinischen Studie mit 457 Patienten zur Behandlung nach Schlaganfäl-
len. Nach dem Prüfen von Einschlusskriterien wird für einen Patienten zufällig eine
von drei Behandlungsstrategien gewählt (A: stationäre Behandlung in einer spezia-
lisierten Schlaganfall-Einrichtung, B: in einer normalen Station unter Einbeziehung
von Schlaganfall-Spezialisten oder C: häusliche Behandlung unter Einbeziehung von
Schlaganfall-Spezialisten und Weiterführung mit A beim Eintreten von Komplikatio-
nen). Die Ergebnisse (Überlebenszeiten, Wiedergewinnen funktioneller Fähigkeiten)
20
Stand 2005: 3811 Publikationen unter MEDLINE ([Link]) mit den Schlagwörtern ”survival
analysis” und ”prognostic factors”.

220
5.8 Regressionsverfahren

zeigen die Überlegenheit der spezialisierten Schlaganfall-Einrichtung. Im Falle sol-


cher Studien werden im Wesentlichen nur noch Parameter für einen gegebenen
strukturellen Ansatz in (5.202) bestimmt.
Andere Studien suchen gezielt prognostische Faktoren im Sinne von relevanten
Merkmalen in (5.202). Ein Beispiel ist eine retrospektive klinische Studie mit 213
Patienten [344], die Überlebensraten bei Leukämie in Abhängigkeit verschiedener
Blutwerte, klinischer Anomalien und Chromosomenanomalien untersucht.
Solche Studien haben einen indirekten Einfluss auf eine nachfolgende Therapie,
indem sie sinnvolle Ansatzpunkte für therapeutische Interventionen aufdecken. So
zeigt beispielsweise [20, 346] anhand einer retrospektiven Analyse von 68 quer-
schnittgelähmten Tumor-Patienten, dass der physische und funktionelle Allgemein-
zustand ein wesentlicher Faktor für eine verlängerte Überlebenszeit darstellt. Daraus
lässt sich die Hypothese ableiten, dass eine verstärkte querschnittorientierte Reha-
bilitation mit dem Ziel der Verbesserung des funktionellen Zustands eine sinnvolle
Therapieoption ist. Aufgrund der komplexen Wechselwirkungen müssen solche Hy-
pothesen aber mit randomisierten und kontrollierten Studien überprüft werden.

5.8.3 Logistische Regression

Ein wichtiger medizinischer Regressionsansatz für Wahrscheinlichkeiten von binären


Ausgangsgrößen Bc (z. B. Diagnose ja/nein) ist die logistische Regression (engl. lo-
gistic regression) [45], die Logarithmen von Wahrscheinlichkeitsverhältnissen (soge-
nannte Logit-Funktionen) angibt:
µ ¶
P̂(y = Bc )
logit(ŷ = Bc ) = ln = f(x[k])T · â. (5.204)
1 − P̂(y = Bc )

Der Term P(·)/(1 − P(·)) wird dabei als Chance (engl. odds) bezeichnet. Der aus
dem geschätzten Vektor â berechenbare Term exp(âi ) ist das sogenannte adjustierte
Odds Ratio (OR) für das transformierte Merkmal fi (x[k]). Somit eignet sich die logisti-
sche Regression hauptsächlich für Klassifikationsprobleme D2 mit zwei Klassen und
die Schätzung von bedingten Verteilungsdichtefunktionen D11 .
Insbesondere bei medizinischen Datensätzen mit wenigen Datentupeln und (re-
lativ) vielen Merkmalen ist bei der Struktursuche darauf zu achten, einerseits alle
informationstragenden Merkmalskombinationen zu erfassen, aber ein Overfitting zu
vermeiden. Hinweise zu geeigneten Strategien finden sich in [435].
Ein Beispiel für eine logistische Regression gibt [326], wo anhand großer Daten-
sätze mit über 87000 Patienten aus 106 Intensivstationen von französischen Kliniken

221
5 Data Mining: Spezielle Verfahren

mit Regressionsansätzen und verschiedenen Entscheidungsbäumen Überlebensra-


ten geschätzt werden.

5.8.4 Regressionsansätze für dynamische Modelle

Nichtlineare Differentialgleichungsmodelle werden oft als Zustandsgleichungssystem

ẋ(t) = f(x(t), u(t), z(t)) (5.205)


y(t) = g(x(t), u(t), z(t)) (5.206)

dargestellt, dessen Funktionen f und g zu bestimmen sind. Dabei bezeichnen u die


Eingangsgrößen, y die Ausgangsgrößen, x die internen Zustände und z die Störgrö-
ßen eines Systems.
Die Bestimmung von f und g erfolgt iterativ durch numerisches Lösen der Differenti-
algleichung und Bewerten der Lösungen anhand eines gegebenen Lerndatensatzes.
Das Lösen erfordert einen angenommenen Parametersatz bei einer vorgegebenen
Struktur für beide Funktionen. Die in den Lerndaten enthaltene Ausgangsgröße y(t)
und die geschätzten Werte ŷ(t) werden dann mit einem regressionsorientierten Maß
verglichen (vgl. Abschnitt 3.5.5). Das entstehende Problem ist meist parameternicht-
linear. Deshalb wird im Rahmen einer ebenfalls numerischen Optimierung ein neuer
Parametersatz bestimmt und das Vorgehen bis zu einem Abbruchkriterium fortge-
setzt. Nachteilig sind hierbei ein großer Rechenaufwand und die unbekannten Kon-
vergenzeigenschaften.
In einigen Fällen reicht es aus, parameterlineare Funktionen anzusetzen, das
System zeitlich zu diskretisieren (t = k · TA , k ∈ N, TA : Abtastzeit) und eine z-
Transformation [75] durchzuführen. Dann entstehen gemäß [256] Differenzenglei-
chungsmodelle vom Typ

B(z) C(z)
A(z)Y (z) = U(z) + Z(z) (5.207)
F(z) D(z)
A(z)D(z)F(z)Y (z) = B(z)D(z)U(z) +C(z)F(z)Z(z) (5.208)

mit Parameterpolynomen A, B,C, D, F und z-transformierten Eingangs- U(z),


Ausgangs- Y (z) und Störgrößen Z(z). Die internen Zustände sind in dieser Darstel-
lung nicht mehr explizit sichtbar, verstecken sich aber in den gespeicherten vergan-
genen Werten der Eingangs-, Ausgangs- und Störgrößen. In der Literatur wird oft
U(z) zusätzlich mit einer separaten Totzeit z−kTot versehen, die in der obengenannten
Schreibweise in B berücksichtigt ist. Die Störgröße z[k] wird dabei als gaußverteiltes
weißes Rauschen angenommen.

222
5.8 Regressionsverfahren

Die Polynome in (5.207) sind für ein SISO-System (ein Eingang und ein Ausgang,
engl. single input single output, damit s = sy = 1) durch

A(z) = 1 + a1 z−1 + . . . + ana z−na B(z) = b0 + b1 z−1 + . . . + bnb z−nb


C(z) = 1 + c1 z−1 + . . . + cnc z−nc D(z) = 1 + d1 z−1 + . . . + dnd z−nd (5.209)
F(z) = 1 + f1 z−1 + . . . + fn f z−n f

beschrieben. Bei einem MIMO-System (Mehrgrößensystem mit s Eingängen und sy


Ausgängen, engl. multiple input multiple output) werden A(z), B(z), C(z), D(z), F(z)
Matrizen mit Polynomen als Elemente (z. B. A(z) der Dimension (sy , sy ), B(z) der Di-
mension (sy , s) usw.) sowie U(z), Y(z), Z(z) Vektoren mit z-Transformierten als Ele-
menten.
Vereinfachte Sonderfälle der Modellstruktur (5.207) sind in Tabelle 5.24 dargestellt.
Dabei werden Modellansätze mit Vergangenheitswerten der Ausgangsgröße A 6= 1
als autoregressive Modelle und Systeme mit speziellen Störfiltern (C 6= 1 oder D 6= 1)
als Moving-Average-Modelle bezeichnet.

Polynome Kurzbezeichner Langbezeichner (engl.)


A=C =D=F =1 FIR Finite Impulse Response model
C=D=F =1 ARX AutoRegressive model with eXternal input
A=C =D=1 OE Output Error
D=F =1 ARMAX AutoRegressive Moving Average
with eXternal input
A=1 BJ Box-Jenkins model
B = 0,C = D = F = 1 AR AutoRegressive model
A = D = F = 1, B = 0 MA Moving Average model
B = 0, D = F = 1 ARMA AutoRegressive Moving Average model

Tabelle 5.24: Vereinfachte Sonderfälle des Modells in (5.207) (Die Schreibweise Polynome=
0, 1 bedeutet, dass alle Koeffizienten für vergangene Werte Null sind: a1 = . . . =
ana = 0, b1 = . . . = nnb = 0 usw., der Wert Null (b0 = 0) bzw. Eins (alle anderen
Polynome) beschreibt dann den Wert ohne Zeitverschiebung), nach [256]

Somit entstehen Differenzengleichungen wie z. B.

na nb
y[k] = − ∑ ai y[k − i] + ∑ b j u[k − j] + z[k] (5.210)
i=1 j=0

für ein ARX-Modell mit einem Eingang und einem Ausgang.

223
5 Data Mining: Spezielle Verfahren

Bei ARIMA(X)-Modellen bzw. AutoRegressive Integrated Moving Average models


(with eXternal input) werden anstelle y[k] die zeitlichen Differenzen y[k] − y[k − 1] ver-
wendet. Nichtlineare Ansätze werden in den Kurzbezeichnern durch ein vorgestelltes
N gekennzeichnet, z. B. NARMAX.
Ein statisches parameterlineares Modell entsprechend (5.189) zeichnet sich durch
A = 1,C = D = F = 1, B = b0 aus. Bei einem entsprechenden MISO-System (engl.
multiple input single output) mit s Eingängen und einem Ausgang (sy = 1) hat B die
Dimension (s × 1) mit Elementen Bl = b0,l .
Bei der Parameterschätzung für (5.207) ergeben sich nach Ausmultiplizieren der
Polynome in (5.208) Parameterkombinationen in ai , di , fi , sowie bi , di und ci , fi , die
wiederum aufzulösen sind. Je nach Sonderfall ergibt sich für C = F = 1 ein pa-
rameterlineares Problem, was nach entsprechender Umformung mit (5.191) lösbar
ist. Spezielle Algorithmen für parameternichtlineare, vollbesetzte Problemstellungen
(z. B. über die Hilfsvariablenmethode) in (5.207) finden sich u. a. in [72, 256].
Bei zeitvarianten Systemen, bei denen einige oder alle Parameter ai , . . . , fi vom
Abtastzeitpunkt k abhängen, kommen rekursive Schätzungen zum Einsatz. Für die
Güte der Parameterschätzung ist dabei wichtig, dass sich die Parameter im Vergleich
zu den Änderungen in den Ein- und Ausgangsgrößen nur langsam verändern.
Alle diskutierten Verfahren bereiten in Abhängigkeit der Eigenschaften von
Eingangs- und Störgrößen u. U. numerische Probleme, weswegen die Ergebnisse
kritisch zu prüfen sind. Insbesondere beim On-line-Einsatz von Schätzalgorithmen
sind Überwachungsmechanismen vorzusehen, die auftretende numerische Proble-
me erkennen und behandeln.
Modelle entsprechend (5.205) bzw. (5.207) kommen in der Medizintechnik haupt-
sächlich bei der Modellierung biologischer Systeme und bei der Informationskom-
pression und Analyse von Zeitreihen zum Einsatz.
Eine modellprädiktive Anästhesie-Regelung auf der Basis patientenindividuell er-
mittelter ARMAX-Modelle stellt [269] vor. Die Stellgröße des Reglers ist die Dosierung
eines Anästhesie-Gases (Isofluran), die Regelgrößen sind die Zusammensetzungen
des Atemgases und der Blutdruck. Während einer Operation kommt es zu signifi-
kanten Parameteränderungen der Modelle, ohne deren Berücksichtigung keine hin-
reichende Regelgüte zu erzielen ist. Der Ansatz wurde anhand von acht Patienten
klinisch erprobt. Weitergehende NARMAX-Modelle für ähnliche Aufgabenstellungen
untersucht [251] anhand einer Pilotstudie mit zehn gesunden Probanden.
Eine wichtige Aufgabe bei Zeitreihen ist die Erkennung von Ausreißern, Parame-
teränderungen sowie Wirkungsrichtungen und -stärken von therapeutischen Eingrif-

224
5.9 Wertung

fen, die beispielsweise in der Patientenüberwachung in Intensivstationen eingesetzt


wird [309].

5.9 Wertung

Die vergangenen Abschnitte verdeutlichen die Breite und Vielfalt der zur Verfügung
stehenden Data-Mining-Verfahren. Die meisten der genannten Verfahren lassen sich
für eine Vielzahl von Problemstellungen aus Abschnitt 3.3 verwenden. Eine subjek-
tive Einschätzung des Autors hinsichtlich der jeweiligen Eignung verdeutlicht Tabel-
le 5.25. Die Einstufung als Hilfsverfahren bedeutet, dass das jeweilige Verfahren bei
einer Dekomposition der Problemstellung in mehrere Teilschritte (insbesondere durch
Merkmalsextraktion, -selektion und -transformation) bedeutsam sein kann.

Verfahren D1 D2 D3 D4 D5 D7 D8
Hauptkomponentenanalyse H H H H H H H
Diskriminanzanalyse - H, + H, + H, + - - -
Klassifikation - + + + 0 H H
SVM
linear + + + + 0 - -
nichtlinear + + + + + - -
Fuzzy-Systeme
Mamdani-Typ 0+ + + + 0+ 0+ 0+
Takagi-Sugeno-Typ + 0+ 0+ 0+ + H H
Künstliche Neuronale Netze
MLP-Netz + + + + + H 0+, H
RBF-Netz + + + + + H 0+, H
Kohonen-Karte 0+ 0+ 0+ 0+ + + +
Nearest-Neighbor-Verfahren + + + + + H H
Clusterverfahren 0, H 0+, H 0+, H 0+, H 0+, H + +
Regression + 0 0 0 0 - -
Logistische Regression + + + + + - -

Tabelle 5.25: Einsatzgebiete für verschiedene Data-Mining-Verfahren, H: Hilfsverfahren,


+: gut geeignet, 0: bedingt geeignet, -: ungeeignet, D1 : Regression, D2 : Klassi-
fikation, D3 : Fuzzy-Klassifikation, D4 : Entscheidungsproblem, D5 : statistisches
Entscheidungsproblem, D7 : Clustering, D8 : Fuzzy-Clustering

Ein wichtiger Faktor für die Eigenschaften jedes Verfahrens ist dessen Empfind-
lichkeit gegen verschiedene Merkmalstransformationen und spezielle Eigenschaften

225
5 Data Mining: Spezielle Verfahren

einer bestimmten Problemstellung (Tabelle 5.26). Invarianz gegen Skalierung bedeu-


tet, dass eine Merkmalstransformation mit xTrans,l = al · xl das Ergebnis nicht beein-
flusst. Invarianz gegen Drehung bezieht sich auf eine Merkmalstransformation für
jedes Merkmal mit xTrans,l = ∑si=1 ail · xi und AT A = I. Eine Einstufung mit ”nein” kenn-
zeichnet jeweils den allgemeinen Fall, spezielle Strukturen mit drehungs- und skalie-
rungsinvarianten Eigenschaften sind möglich (z. B. bei der nichtlinearen Regression).
Nichtkompakte Ausgangsgrößen bedeuten, dass Gebiete mit gleichen oder ähnli-
chen Ausgangsgrößen (z. B. Klassen) im Merkmalsraum der Eingangsgrößen nicht
zusammenhängen. Nicht jedes Verfahren eignet sich zur Lösung solcher Probleme.
Dieser Fall verursacht insbesondere bei Verfahren mit linearen Funktionsansätzen
und kompakten Verteilungsannahmen (z. B. Normalverteilungen) Probleme. Er lässt
sich z. B. durch problemspezifisch zu wählende nichtlineare Merkmalstransforma-
tionen (z. B. Logarithmen, Potenzen) oder Clusterverfahren zur Aufteilung von Aus-
gangsklassen behandeln.
Viele Verfahren gehen von einer strukturell feststehenden Verteilungsannahme für
die Merkmale aus. Nachteilig ist, dass sie nur bei annähernder Einhaltung der An-
nahme gute Ergebnisse liefern. Der Vorteil solcher Annahmen liegt oftmals in einer
geschlossenen Lösbarkeit. Geschlossen lösbare Verfahren zur Parametersuche er-
zeugen für einen feststehenden Lerndatensatz stets die optimale Lösung im Sinne
des jeweiligen Bewertungsmaßes. Diese wünschenswerte Eigenschaft weisen z. B.
die statistischen Verfahren Hauptkomponenten- und Diskriminanzanalyse, die Klassi-
fikatoren in (5.46) sowie die lineare und logistische Regression auf. Bei den anderen
Verfahren kommt es meist zu zufälligen Initialisierungen und nachfolgenden nume-
rischen Optimierungen. Das führt oft zu suboptimalen Lösungen, die außerdem für
den Lerndatensatz variieren. Geeignete Heuristiken bzw. eine definierte Initialisie-
rung des Zufallsgenerators vermeiden solche Variationen. Die Chance zum Finden
der optimalen Lösung verbessert sich hingegen durch ein mehrfaches Starten des
Algorithmus mit verschiedenen Initialisierungen. Heuristiken bei der Struktursuche
(z. B. bei der Regression) neigen ebenfalls zum Generieren suboptimaler Lösungen.
Hier ist ein geeigneter Kompromiss zwischen Rechenaufwand und einem systemati-
schen Durchsuchen der möglichen Strukturvarianten anzustreben.
Die Robustheit gegen Überanpassung unterscheidet sich ebenfalls für die ver-
schiedenen Verfahren. Besonders anfällig sind Verfahren mit einer Vielzahl von
Parametern und großen strukturellen Freiheiten (z. B. Künstliche Neuronale Netze,
Nearest-Neighbor-Verfahren, nichtlineare Support-Vektor-Maschinen). Bei unüber-
wachten Verfahren (z. B. Hauptkomponentenanalyse, Clusterverfahren) existiert kei-
ne Überanpassung im Sinne eines Auswendiglernens der Ausgangsgröße.

226
5.9 Wertung

Operation Invarianz gegen Eignung Feststehende Robustheit


Drehung Skalierung für nicht- Verteilungs- gegen
kompakte annahme für Über-
Ausgangs- Merkmale anpassung
größen
Hauptkomponenten- ja nein ja ja -
analyse
Diskriminanz- ja ja nein ja mittel
analyse
Klassifikation
mit (5.46) und
Sc ja ja bedingt ja mittel
Sc = I nein nein nein ja groß
Sc = diag(S) nein ja nein ja groß
Sc = S ja ja nein ja groß
SVM
linear ja nein bedingt ja groß
nichtlinear ja nein ja bedingt mittel
Fuzzy-Systeme nein ja ja bedingt mittel
Künstliche
Neuronale Netze
MLP bedingt nein ja nein gering
RBF nein nein ja nein gering
SOM bedingt nein ja nein gering
k-NN ja nein ja nein gering
Clusterverfahren nein nein ja bedingt -
Regression
Linear ja ja nein ja mittel
Nichtlinear nein nein ja ja mittel
Logistische
Regression
Linear ja ja nein ja mittel
Nichtlinear nein nein ja ja mittel

Tabelle 5.26: Ausgewählte Eigenschaften einiger Verfahren

227
5 Data Mining: Spezielle Verfahren

Eine generelle aufgabenübergreifende Verfahrensempfehlung ist wegen der unter-


schiedlichen Stärken und Schwächen der verschiedenen Verfahren nahezu unmög-
lich. Eine solche Empfehlung setzt ein tiefgreifendes strukturelles Wissen über die
Aufgabe voraus, das in der Regel nicht existiert. Dennoch gibt eine zunehmende
Anzahl von Publikationen einen Überblick über verschiedene Data-Mining-Verfahren
in bestimmten Anwendungsgebieten und versucht die Ergebnisse für ein bestimm-
tes Anwendungsgebiet zu werten: [149] systematisiert beispielsweise verschiedene
Studien zur Tumordetektion aus MRT-Bildern mit Künstlichen Neuronalen Netzen,
linearer Diskriminanzanalyse und Clusterverfahren. Eine weitere Option ist der kon-
kurrierende Entwurf mehrerer Verfahren und die Auswahl des besten Verfahrens über
Validierungsdaten. Noch weitgehender ist die Idee, mehrere Verfahren parallel einzu-
setzen und die Ergebnisse zu fusionieren. So untersucht z. B. [310] Metaanalysen
mit mehreren konkurrierenden Verfahren inklusive einer fallbasierten Verfahrensaus-
wahl. Bislang fehlten allerdings Arbeiten, die den kompletten Umfang der in Kapitel 5
vorgestellten Verfahren abdecken und Zusatzforderungen wie z. B. Interpretierbarkeit
mit einbeziehen.

Für eine zusätzliche Überprüfung der gefundenen Zusammenhänge empfiehlt sich


eine konsequente Merkmalsselektion und -transformation sowie eine umfassende Vi-
sualisierung aller Zwischen- und Endergebnisse. Das Vorgehen trägt zu einer gut in-
terpretierbaren Lösung bei, vermittelt wertvolle Informationen über die Aufgabenstel-
lung und reduziert das Risiko einer Überanpassung bzw. der ungeprüften Ermittlung
irreführender Zusammenhänge.

Eine realistische Abschätzung der klinischen Bedeutung der verschiedenen Verfah-


ren fällt schwer. Ein möglicher Ansatz besteht darin, die Anzahl der themenbezoge-
nen Veröffentlichungen in medizinischen Literaturdatenbanken zu vergleichen. Das
ermöglicht zumindest einen Überblick über aktuelle und vergangene Forschungs-
schwerpunkte. Die Ergebnisse einer Recherche in MEDLINE zeigt Tabelle 5.27 mit
den entsprechenden Schlagwörtern und einer Einschränkung auf den Themenbe-
reich Mensch sowie Mensch und Klinische Studien. Letzteres ist ein Indikator für
sorgfältig geplante Untersuchungen, die über reine Vorversuche hinausgehen. Diese
Suche erfasst einen kleinen Anteil nichtklinischer Arbeiten, die sich beispielsweise mit
Sprach- und Gesichtserkennungen sowie psychiatrischen und ökonomischen Unter-
suchungen beschäftigen. Eine Abschätzung anhand der Titel zeigte aber, dass sich
der überwiegende Anteil (ca. 80...90 %) der Publikationen klinischen und medizin-
technischen Fragen widmet. Bei Künstlichen Neuronalen Netzen wurde die Suche
weiter eingeschränkt (diagnosis), um offensichtliche Fehlklassifikationen von Grund-
lagenarbeiten zu reduzieren.

228
5.9 Wertung

Schlagwort Anzahl Publikationen


Mensch Mensch UND
Klinische Studien
t -Test 13206 2529
Hauptkomponentenanalyse 2106 161
(Principal component analysis)
Diskriminanzanalyse (Discriminant analysis) 6683 370
Bayes-Klassifikator 81 3
(Bayes* classif*)
Support-Vektor-Maschinen 187 11
(Support vector machine*)
Fuzzy-Logik (Fuzzy logic) 753 46
Künstliche Neuronale Netze 1865 108
(Neural network (computer))
MLP-Netze (Multi-layer perceptron) 43 3
Kohonen-Karte (Kohonen map, 97 4
Self organizing (feature) map)
RBF-Netze (Radial basis function*) 82 3
Nearest-Neighbor-Verfahren 535 10
(Nearest neighbo(u)r)
Lineare Regression (Linear regression) 14141 1298
Logistische Regression (Logistic regression) 37145 2582
Clusterverfahren (Cluster analysis) 8143 433
... UND Gene (gene*) 3226 119

Tabelle 5.27: Rechercheergebnisse der Anzahl an Publikationen für ausgewählte Verfahren in


MEDLINE mit deutschen Begriffen und den verwendeten englischen Suchanfra-
gen in Klammern (Stand: August 2005, [Link]), der Operator * kenn-
zeichnet eine Suchanfrage für den Wortstamm

229
5 Data Mining: Spezielle Verfahren

Auffällig ist die hohe Anzahl von Publikationen bei statistischen Verfahren und
Clusterverfahren. Clusterverfahren profitieren besonders stark von Struktursuchen in
Genexpressionsprofilen (siehe gesonderte Abfrage in Tabelle 5.27). Die vergleichs-
weise niedrigen Zahlen der speziellen Arten bei Künstlichen Neuronalen Netzen
lassen sich hauptsächlich darauf zurückführen, dass die medizinische Fachliteratur
keine detaillierten Informationen über die verwendeten Netze bereitstellt. Hierbei ist
auch zu beachten, dass viele Lösungen durch den routinemäßigen Einsatz von ferti-
gen Programmpaketen für Künstliche Neuronale Netze entstehen und somit ein tief-
greifendes Verständnis (z. B. über Netztypen) nicht erforderlich ist. Generell weisen
alle Verfahren relevante Publikationszahlen auf, wobei sich die Arbeiten in den Jahren
seit 2002 konzentrieren.
Eine große Herausforderung ist die Zulassung von integrierten Data-Mining-
Verfahren im Rahmen der Zertifizierung von Medizingeräten. Hier spielen Aspekte
einer numerischen und algorithmischen Zuverlässigkeit und die Fähigkeit zur Eigen-
diagnose eine Rolle. Das betrifft die Anwendungsphase einer existierenden Data-
Mining-Lösung und mit noch wesentlich größeren Anforderungen die Entwurfsphase,
falls eine ständige Adaption gefordert ist. Während sich zumindest in der medizini-
schen Fachliteratur eine Art Pseudostandard bei der Verwendung von statistischen
Tests (insbesondere t -Tests mit p-Werten als Irrtumswahrscheinlichkeiten) gebildet
hat, fehlen solche Berechnungsvorschriften für andere Data-Mining-Verfahren. Hier
sind zukünftige Entwicklungen unabdingbar.

230
6 Data-Mining-Softwarelösungen in der Medizin

6.1 Ausgangssituation

Alle in den vorherigen Kapiteln vorgestellten Verfahren erfordern aufgrund ihrer Kom-
plexität eine umfangreiche Unterstützung durch Softwarelösungen. Hierbei ist eine
Unterstützung des kompletten Auswerteprozesses aus Kapitel 4 anzustreben, wobei
in den einzelnen Auswerteschritten (wie z. B. Merkmalsextraktion, -selektion, Klas-
sifikation) möglichst viele unterschiedliche Verfahren implementiert sein sollen. Zu-
sätzlich sind die Problemformulierung, die grafische Auswertung, eine komfortable
Bedienung, die Automatisierung von Auswerteabläufen und die anwendungsspezi-
fische Erweiterbarkeit zu unterstützen. Anderenfalls ist ein effektives Arbeiten nicht
oder nur eingeschränkt möglich.
Bei klinischen Datenanalysen dominieren bislang kommerziell verfügbare Pakete
wie z. B. SPSS (1851 Nennungen in MEDLINE und 127 explizite Nennungen bei kli-
nischen Studien1 ), STATISTICA (555/21) und MATLAB (470/31) für statistische Ver-
fahren, Regressionsverfahren und ausgewählte Erweiterungen wie z. B. Künstliche
Neuronale Netze.
Eine zweite große Gruppe von Softwarelösungen setzt ein oder mehrere spezielle
Data-Mining-Verfahren um (wie z. B. Fuzzy-Systeme mit dem Paket WINROSA mit
der Fuzzy-ROSA-Methode [212, 230], DataEngine der Fa. MIT GmbH, Clementine
der Fa. SPSS Inc.). Hierbei existieren sowohl frei verfügbare als auch kommerzielle
Produkte.
Eine Vielzahl von Open-Source-Toolboxen ist frei verfügbar. Der JAVA-basierte
Rapid Miner2 (früher Yale) enthält statistische Algorithmen, Entscheidungsbäume,
Support-Vektor-Maschinen, Künstliche Neuronale Netze, aber keine datenbasierte
Suche nach Fuzzy-Modellen. Nefclass3 der Universität Magdeburg ist auf Neuro-
Fuzzy-Systeme spezialisiert. Der Stuttgart Neural Network Simulator (SNNS4 ) un-
terstützt eine Vielzahl verschiedener Netzstrukturen. Der Konstanz Information Miner
1
Recherche am 1.2.2007, Schlagwörter: ”human?” und zusätzlich ”clinical trial?” für klinische Studien
in Textfeldern. Damit werden allerdings nur die Artikel erfasst, die die verwendeten Softwarepakete
explizit im Abstract erwähnen.
2
[Link]
3
[Link]
4
[Link]

231
6 Data-Mining-Softwarelösungen in der Medizin

(Knime5 ) umfasst viele Verfahren und koppelt an das frei verfügbare Statistik-Paket
R6 an. BioSig7 der TU Graz enthält umfangreiche Importfilter für verschiedene Da-
tenformate, Algorithmen zur Statistik und Zeitreihenanalyse.
Darüber hinaus existieren spezielle anwendungsspezifische Implementierungen,
die in die Auswertesoftware von kommerziell verfügbaren medizinischen Geräten im-
plementiert sind (z. B. bei bildgebenden Verfahren), und einige klinische Experten-
systeme zur Entscheidungsunterstützung (z. B. [247]).
Alle genannten Softwarelösungen decken jeweils nur einen kleinen Teil des Ein-
satzszenarios aus Kapitel 4 sowie der verfügbaren Methoden aus Kapitel 5 ab. Au-
ßerdem unterstützen sie die komfortable Analyse und Visualisierung von Zeitreihen
und Einzelmerkmalen nur in stark reduziertem Umfang. Das Durchführen eines um-
fassenden Vergleichs verschiedener Verfahren erfordert den Einsatz verschiedener
Softwarelösungen und wird oftmals aus Aufwandsgründen nur in reduziertem Um-
fang oder gar nicht durchgeführt.

6.2 Gait-CAD als Plattform für interaktive Analysen

6.2.1 Motivation

Aus dieser Situation heraus entstanden etwa seit 1998 am Forschungszentrum Karls-
ruhe verschiedene MATLAB-Toolboxen zunächst für die interne Nutzung. Die Ent-
scheidung für eine MATLAB-basierte Lösung fiel, um die umfangreiche mathemati-
sche Funktionalität und modulare Erweiterbarkeit des Programmpakets der Fa. The
Mathworks Inc. zu nutzen. Die weit verbreitete Plattform vermeidet die Entwicklung
von Insellösungen durch das sukzessive Einbinden von Verfahren und Funktionen.
Alle Toolboxen sind als offene Entwicklungsplattformen für methodische Weiterent-
wicklungen von Data-Mining-Verfahren und deren Spezifikation für verschiedene An-
wendungsfelder konzipiert:
Die MATLAB-Toolbox KAFKA (KArlsruher Fuzzy-Modellbildungs-, Klassifikations-
und datengestützte Analyse-Toolbox) zielte hauptsächlich auf die Analyse von Pro-
blemen mit Einzelmerkmalen.
Etwa ab 2001 verschob sich im Rahmen neuer Projekte (insbesondere durch
das DFG-geförderte Projekt ”Diagnoseunterstützung in der Ganganalyse”) der Fo-
kus zunehmend in Richtung Klassifikation aus Zeitreihen [302]. Hierbei entstand die
MATLAB-Toolbox Gait-CAD (Gait = Englisch für Gang, CAD: Computer Aided Dia-
5
[Link]
6
[Link]
7
[Link]

232
6.2 Gait-CAD als Plattform für interaktive Analysen

gnosis) zur Visualisierung und Analyse von Ganganalyse-Zeitreihen [258, 263]. Die
Toolbox DAVE-Design [363] umfasst anwendungsspezifische Funktionen zum Ent-
wurf von Prothesensteuerungen.
Ab 2006 wurden die Funktionalitäten aller Toolboxen in Gait-CAD integriert, woraus
eine universelle Toolbox zur Analyse von Zeitreihen und Einzelmerkmalen entstand
[84, 292, 300]. Das Ziel bestand darin, in MATLAB die Auswertung und Visualisie-
rung hochdimensionaler Datensätze komfortabel zu ermöglichen und so Einblicke in
die strukturellen Eigenschaften von komplizierten Datensätzen zu erhalten. Gait-CAD
ist eine freie Software (open source) und steht in der deutschen Version seit Novem-
ber 2006 im Internet zur Verfügung. 2007 folgten weitere zwei weitere Updates und
eine englische Version. Die Toolbox kann unter den Bedingungen der GNU8 Gene-
ral Public License (GNU-GPL), wie von der Free Software Foundation veröffentlicht,
weitergegeben und/oder modifiziert werden (siehe [Link]

6.2.2 Leistungsumfang und Bedienkonzept

Gait-CAD9 verfügt über eine grafische Oberfläche (GUI - Graphical User Interface)
mit Menüpunkten sowie Bedienelementen wie Auswahllisten, Checkboxen und Edi-
tierfeldern (Bild 6.1). Eine solche Arbeitsweise reduziert den Einarbeitungsaufwand
für neue Nutzer und erleichtert bei Verwendung der später vorgestellten Makros
die Automatisierung und Standardisierung von Auswerteabläufen. Prinzipiell ist aber
auch eine MATLAB-typische Arbeit mit dem Kommandofenster und den Variablen
möglich.
Gait-CAD beruht auf einer konsequenten Umsetzung des Konzepts zum Entwurf
und zur Anwendung von Data-Mining-Verfahren in Bild 4.1 und 4.2. Es ermöglicht die
komfortable Bedienung zahlreicher Algorithmen zur
• Datentupelselektion (z. B. Ausreißerdetektion, Auffinden und Löschen unvollstän-
diger Datentupel bzw. Merkmale, Auswählen von Teildatensätzen),
• Merkmalsextraktion (z. B. Spektrogramme, FFT-Analysen, Korrelationsanalysen,
lineare Filter, Ermittlung von Extrema und Mittelwerten von Zeitreihensegmenten,
Fuzzifizierung usw.),
• Merkmalsbewertung und -selektion mit verschiedenen Bewertungsmaßen (z. B.
ANOVA, MANOVA, t -Test, Informationstheoretische Maße, Regressionsanalyse),
• Merkmalstransformation (z. B. Diskriminanzanalyse, Hauptkomponentenanalyse,
ICA - Independent Component Analysis),
8
Die Abkürzung GNU ist rekursiv und bedeutet GNU is Not Unix. Sie steht für ein freies Betriebssys-
tem, das sich an UNIX orientiert.
9
[Link]

233
6 Data-Mining-Softwarelösungen in der Medizin

Bild 6.1: Menüs und Bedienelemente in Gait-CAD

• überwachten bzw. unüberwachten Klassifikation (z. B. Entscheidungsbäume,


Clusterverfahren, Bayes-Klassifikatoren, Künstliche Neuronale Netze wie RBF-
Netze und MLP-Netze, Nearest-Neighbor-Verfahren, Support-Vektor-Maschinen,
Fuzzy-Klassifikation),
• Regression für Einzelmerkmale und Zeitreihen sowie zur
• Visualisierung (z. B. ROC-Kurve, Merkmalslisten).

Hinzu kommen umfangreiche Funktionen zu Validierungstechniken (z. B. Crossvali-


dierung, Bootstrap), zum Importieren und Exportieren von Daten, zum Protokollieren
von Ergebnissen in Text- und LATEX-Dateien, zum Umbenennen usw.
Gait-CAD setzt MATLAB (getestet für Version 5.3 bis 2008a) voraus. Die Funk-
tionen greifen auf Matlab-Standardfunktionen, freie Matlab-Toolboxen (FastICA10 ,

10
[Link]

234
6.2 Gait-CAD als Plattform für interaktive Analysen

SVM and Kernel Methods Matlab Toolbox [89]11 , SOM Toolbox [459]12 , lp_solve13 )
und eine Vielzahl eigener Funktionen zu. Einzelne Funktionen erfordern außerdem
MATLAB-Standard-Toolboxen wie die Signal-Toolbox, die Statistik-Toolbox und die
Wavelet-Toolbox.

6.2.3 Repräsentation der Problemstellungen

Ausgangspunkt für jede Problemstellung ist ein Lerndatensatz mit Einzelmerkmalen


X, Zeitreihen XRoh und Ausgangsgrößen Y entsprechend Bild 3.1. Neben diesen
Daten können weitere Informationen (z. B. Merkmalspräferenzen QPF,l entsprechend
(3.89)) und Merkmalskategorien verarbeitet werden. Der Lerndatensatz wird durch ei-
ne binäre MATLAB-Projektdatei dargestellt, die Matrizen mit standardisierten Namen
enthält (z. B. d_orgs für Zeitreihen, d_org für Einzelmerkmale und code_alle für
Ausgangsgrößen). Hinzu kommen optionale Matrizen bzw. Strukturen mit textuellen
Bezeichnern und weiteren Informationen. Fehlende Informationen werden soweit wie
möglich durch Standardwerte und -bezeichner ergänzt.
Die Auswahl verschiedener Klassifikationsprobleme entsprechend Tabelle 4.1 er-
folgt durch die parallele Verwaltung mehrerer Ausgangsgrößen (z. B. Diagnosen be-
züglich verschiedener Erkrankungen, Therapieentscheidungen, qualitative Bewer-
tung von Therapieerfolgen, Untersuchungszeitpunkt vor/nach einer Behandlung, Ge-
schlecht, Altersgruppen, Patienten-ID usw.) für jedes Datentupel. Die Strategie er-
möglicht sowohl die Datentupelselektion für die problemspezifische Zusammenstel-
lung des Lerndatensatzes als auch die Auswahl der aktuell gewünschten Ausgangs-
größe für die Bewertung und Visualisierung.
Beispiel: Eine solche Aufteilung zeigt Tabelle 6.1 anhand eines Lerndatensatzes aus der
Bewegungsanalyse, der später in Abschnitt 7.2 noch ausführlicher behandelt wird. Der Da-
tensatz enthält ursprünglich 218 Datentupel, von denen 6 Datentupel wegen Ausreißern und
nicht plausibler Messwerte in der Vorverarbeitung ausgeschlossen werden. Für jeden Patien-
ten und Probanden gibt es jeweils zwei Datentupel für die Messungen der linken und rechten
Körperseite. Für die verbleibenden 42 Patienten gibt es je eine prä- (PRE) und postthera-
peutische (POST) Messung. Je nach formalisierter klinischer Problemstellung entsprechend
Tabelle 4.1 werden unterschiedliche Datentupel selektiert und unterschiedliche Klassenzu-
weisungen verwendet: Die Problemstellung Diagnose Patient – Proband vergleicht präthe-
rapeutische Patientendaten mit Probandendaten, die Problemstellung Therapieevaluierung
prä- mit posttherapeutischen Patientendaten. ¥
11
[Link]
12
[Link]
13
[Link]

235
6 Data-Mining-Softwarelösungen in der Medizin

Alle nach Diagnose Therapie-


Datentupel Vorverarbeitung Patient – Proband (y1 ) evaluierung (y2 )
Patient PRE, links 43 42 42 (y1 = B1 ) 42 (y2 = B1 )
Patient POST, links 44 42 - 42 (y2 = B2 )
Proband, links 22 22 22 (y1 = B2 ) -
Patient PRE, rechts 43 42 42 (y1 = B1 ) 42 (y2 = B1 )
Patient POST, rechts 44 42 - 42 (y2 = B2 )
Proband, rechts 22 22 22 (y1 = B2 ) -
Anzahl Datentupel 218 212 128 168

Tabelle 6.1: Datentupelselektion als Methode zur Verwaltung mehrerer Problemstellungen in


einem Projekt. Die Zahlen geben die Anzahl von Datentupeln an, die Werte in
Klammern die jeweilige Ausgangsgröße y j mit ihrem linguistischen Term Bc .

6.2.4 Versuchsautomatisierung

Die Versuchsautomatisierung wird in Gait-CAD hauptsächlich durch Makros unter-


stützt. Makros sind Textdateien mit aufgezeichneten Betätigungen von Menü- und
Bedienelementen, die später wieder abgespielt werden können. In die Textdateien
können zusätzlich beliebige MATLAB-Funktionen manuell eingetragen werden. Der
Hauptvorteil besteht darin, auch komplexe Verarbeitungsketten verschiedener Opera-
tionen schnell und fehlerlos ausführen zu können. Die Vorgehensweise ersetzt zumin-
dest teilweise grafische Editoren zum Festlegen der Verarbeitungsreihenfolge (z. B.
Clementine der Fa. SPSS14 , InformationMiner [389]), die deutlich aufwändiger zu im-
plementieren sind.
Zur Validierung wurde eine universelle Funktion für die Crossvalidierung und das
Bootstrap-Verfahren implementiert. Die Funktion benötigt zwei verschiedene Makros
für das Anlernen und Testen. Die Validierungsfunktion übernimmt lediglich noch die
Auswahl der Datentupel entsprechend dem aktuellen Lern- bzw. Testdatensatz. Ma-
kros können über Skripte auch auf mehrere Projektdateien automatisiert angewendet
werden, was ein effektives Arbeiten für Probleme mit einem hohen Rechenaufwand
ermöglicht. Beispiele hierfür sind Projekte mit vielen Datentupeln und Merkmalen, bei
denen eine Validierung oft einige Stunden Rechenaufwand erfordert.

6.2.5 Erweiterbare Merkmalsextraktion mit Plugins

In Gait-CAD übernehmen Plugins die Merkmalsextraktion aus Zeitreihen. Plugins


sind speziell konfigurierbare und strukturierte Funktionen, die aus ganzen Zeitrei-
14
[Link]

236
6.3 Diskussion

hen oder Zeitreihensegmenten neue Zeitreihen oder Einzelmerkmale (z. B. Extrema


usw.) extrahieren. Dazu existiert ein Schema zur Auswahl für
• eine oder mehrere ausgewählte Zeitreihen aus dem aktuellen Projekt,
• ein oder mehrere allgemeine oder projektspezifische Einzugsgebiete (Datei
*.einzug) in Abtastzeitpunkten für die Segmente einer Zeitreihe [kmin , . . . , kmax ]
sowie
• Algorithmen zum Extrahieren der neuen Merkmale (enthalten in Datei
plugin_*.m) aus dem jeweiligen Segment.
Gait-CAD verfügt über vielfältige vorgefertigte Plugins. Das Erzeugen nutzerspe-
zifischer Plugins ist ebenfalls möglich. Ein Beispiel für ein vorgefertigtes Plu-
gin ist das Berechnen der Mittelwerte von Zeitreihensegmenten mit dem Plugin
plugin_mean_em.m
kmax
1
xMean_[kmin ..kmax ]_l [n] = ∑ xZR,l [k, n],
kmax − kmin + 1 k=k
mit 1 ≤ kmin ≤ kmax , (6.1)
min

woraus sich beispielsweise mit einem Einzug [kmin = 10, . . . , kmax = 100] für die Zeitrei-
he l = 5
1 100
xMean_[10..100]_5 [n] = ∑ xZR,5[k, n]
91 k=10
(6.2)

ergibt. Die Auswahl mehrerer Zeitreihen, Einzugsbereiche und Merkmalsextraktoren


bewirkt ein sequentielles Abarbeiten aller möglichen Kombinationen. Somit ist ein
schnelles und automatisiertes Erzeugen einer Vielzahl von Einzelmerkmalen mög-
lich.

6.3 Diskussion

Die Entwicklung von Gait-CAD zielt auf die Bereitstellung einer universellen Tool-
box unter MATLAB, um das Einsatzszenario aus Kapitel 4 mit den speziellen Data-
Mining-Verfahren umzusetzen. Inzwischen wird Gait-CAD u. a. zur Auswertung von
Bewegungsanalysen (Abschnitt 7.2, [472]), Nervensignalen [233] und Handkraftmes-
sungen [358] eingesetzt. Zudem wurden medizintechnische Fragestellungen für die
Auswahl von Steuerstrategien für Unterarmprothesen (Abschnitt 7.3, [363]) und Brain
Machine Interfaces (Abschnitt 7.4, [83]) bearbeitet. Das Einsatzpotenzial für techni-
sche Anwendungen zeigen die Auswertung von Kfz-Benchmark-Daten [288], die Feh-
lerdiagnose von pH-Sensoren in der chemischen Industrie [146] sowie mehrere nicht
publizierte industrielle Vorstudien auf dem Gebiet der thermischen Abfallbehandlung.

237
6 Data-Mining-Softwarelösungen in der Medizin

Einerseits erleichtert Gait-CAD durch die Visualisierung von Rohdaten, Zwischen-


und Endergebnissen eine interaktive Arbeitsweise. Somit gelingt oftmals ein Einblick
in die strukturellen Eigenheiten der jeweiligen Aufgabenstellung, um Ursachen für
unbefriedigende Ergebnisse zu verstehen und die Auswertung gezielt zu verbessern.
Hervorzuheben sind Möglichkeiten zum Generieren und Bewerten neuer Merkmale,
zum Auswählen einzelner Klassen, zum Vergleich verschiedener Klassifikatoren, zur
Validierung usw. Typische Probleme wie z. B. zeitvariante Änderungen von Merkma-
len, das Vorhandensein von Ausreißern, gravierende Abweichungen zu getroffenen
Verteilungsannahmen (z. B. das Vorhandensein heterogener Subklassen innerhalb
einer Klasse), die grundlegende Nichteignung bestimmter Algorithmen für die jewei-
lige Aufgabenklasse und die Nicht-Unterscheidbarkeit einzelner Klassen können so
insbesondere in der Phase des Algorithmenentwurfs für eine Aufgabenklasse kom-
fortabel analysiert werden. Deren Behandlung erfolgt dann über eine manuelle oder
teilautomatische Selektion von Datentupeln und Merkmalen.
Andererseits unterstützt Gait-CAD durch das Arbeiten mit Makros und Plugins die
Automatisierung von Abläufen und das einfache Einbinden anwendungsspezifischer
Funktionalitäten. Das erlaubt
• eine schnelle und komfortable Bearbeitung ähnlicher Problemstellungen,
• das Wiederholen von Auswerteabläufen nach der Modifikation von Datensätzen
(z. B. durch detektierte Ausreißer) und
• eine automatische Struktursuche durch das systematische oder stochastische
Durchsuchen verschiedener Strukturvarianten.
Bei der Entwicklung wurde besonderer Wert auf offene Benutzerschnittstellen, die
Anpassbarkeit an neue Anwendungsgebiete und eine komfortable Erweiterung der
Funktionalität gelegt.
Somit steht erstmals eine Data-Mining-Softwarelösung für medizinische Problem-
stellungen zur Verfügung, die eine Umsetzung des vorgeschlagenen Einsatzszenari-
os unterstützt und zudem auf nichtmedizinische Probleme übertragbar ist [291].

238
7 Anwendungen

7.1 Übersicht

Die Zielstellung dieses Kapitels besteht darin, typische medizinische Anwendungs-


szenarien für den Einsatz von Data-Mining-Verfahren zu demonstrieren. Alle betrach-
teten Anwendungsfelder weisen dabei wesentliche Unterschiede auf und sollen einen
Einblick in verschiedene Problemstellungen vermitteln.
Bei der Entscheidungsunterstützung für Bewegungsanalysen (Abschnitt 7.2) domi-
niert die Entdeckung bisher unbekannter Zusammenhänge aus Daten im Sinne der
Hypothesengenerierung für klinische Studien mit einer Vielzahl unterlagerter Pro-
blemstellungen. Die Analyse von Bewegungsdaten basiert im Wesentlichen auf auf-
gezeichneten Zeitreihen, die die Kinematik, Kinetik und die zugehörigen Muskelakti-
vierungen pathologischer menschlicher Bewegungen beschreiben. Das Gebiet wird
bisher hauptsächlich von hochspezialisierten medizinischen Experten bearbeitet, die
ihr Wissen über mehrere Jahre aufbauen. Sie sind aufgrund der Komplexität des The-
mengebiets und der eher unbewussten Natur ihres Wissens nur bedingt in der La-
ge, es zu systematisieren, zu verallgemeinern und weiterzuverbreiten. Data-Mining-
Verfahren zielen hauptsächlich auf interpretierbare Einschätzungen zur Diagnose,
Therapieplanung, -prognose und -evaluierung für einzelne Patienten und Patienten-
gruppen. Die Echtzeitfähigkeit ist somit von untergeordneter Bedeutung.
Die Echtzeitfähigkeit stellt hingegen bei der individuellen Anpassung von myoelek-
trischen Unterarmprothesen (Abschnitt 7.3) einen entscheidenden Faktor dar. Hier
soll für jeden Patienten eine optimale Einstellung zur Auswahl von Griffarten gefun-
den und automatisiert eine effiziente Steuerstrategie für ein medizintechnisches Ge-
rät (Prothese) entwickelt werden. Diese Steuerstrategie ist auf einem Mikrocontroller
so zu implementieren, dass der komplette Entwurfsprozess von einem Medizintechni-
ker ohne explizite Data-Mining-Kenntnisse zu führen ist und in der Anwendungspha-
se etwa innerhalb einer Sekunde eine möglichst fehlerfreie Griffartenauswahl durch
den Patienten erfolgen kann. Der datenanalytische Schwierigkeitsgrad ist dabei ver-
glichen mit den anderen Anwendungen mittel bis gering.
Die Entwicklung von Brain Machine Interfaces (Abschnitt 7.4) beruht auf EEG-
Daten, die schlechtere Nutz-Rausch-Signalverhältnisse aufweisen als myoelektri-
sche Signale. Hier ist derzeit die Anwendung rechenaufwändigerer Algorithmen ak-

239
7 Anwendungen

Bild 7.1: Patientin während einer Gangmessung

zeptabel, solange sie relevante Informationen aus EEG-Zeitreihen extrahieren. Folg-


lich ist für diese Anwendung eher auf das Maximieren der Klassifikationsgüte als auf
das Reduzieren des Aufwands zu achten.
Die bildgestützte Analyse von Mammakarzinomen ist seit Jahren nahezu ein
Benchmarkproblem für die Analyse medizinischer Bilder (Abschnitt 7.5). Wie bei der
Bewegungsanalyse ging es in der Vergangenheit zunächst um eine Extraktion von
Hypothesen aus Daten im Sinne der Hypothesengenerierung für klinische Studien.
Heute existieren zunehmend kommerzielle Lösungen, die den Kliniker im Sinne der
Anwendungsphase eines Data-Mining-Problems bei der Analyse massenweise anfal-
lender Bilder effizient unterstützen. Die Anforderungen an die Echtzeitfähigkeit sind
dabei mittel, weil PCs mit einigen Sekunden Rechenzeit als Auswertemedium akzep-
tabel sind.

7.2 Entscheidungsunterstützung bei Bewegungsanalysen

7.2.1 Aufgabenstellung

Die Instrumentelle Ganganalyse untersucht menschliche Bewegungen durch quan-


titative Messungen [349]. Sie erfasst mit Hilfe von speziellen Markern (Bild 7.1) Vi-
deodaten von Bewegungsabläufen sowie optional Bodenreaktionskräfte sowie Mus-
kelaktivitäten (Bild 7.2).
Im Ergebnis entstehen Zeitreihen, die über die Freiheitsgrade in den Gelenken
bzw. Körpersegmenten (Becken, Hüfte, Knie, oberes Sprunggelenk (OSG) bzw. Fuß)
und die drei körperbezogenen Ebenen (von der Seite: sag – sagittal, von oben: tra –
transversal, von vorn: fro – frontal) aufgetragen werden (Bild 7.3). Die Methodik er-

240
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

Personen

6 x CCD- Vor- Kraft- EMG-


Kameras untersuchungen messplatten Sensoren

bis zu 6 x 2D Personen-spezifische Biomechanisches Muskel-


Trajektorien Daten (z.B. aktivierungen
pro Marker Beinlängen, Gewicht)
Starrkörper-
Modell
anthropo- Boden- Messungen
Berechnung 3D Schätzung metrische reaktions- und
Marker- individuelles Referenz- kräfte Gewinnung
trajektorien Körpermodell daten
von
Rohdaten
3D Trajektorien
für jeden Marker Personen-Parameter
(z.B. Trägheitsmomente,
Gelenkzentren)

Berechnung der Berechnung Berechnung der EMG-


Kinematik-Daten Raum-Zeit- Kinetik-Daten Zeitreihen
Parameter
Daten-
analyse

Bild 7.2: Messablauf bei der Instrumentellen Ganganalyse (erweiterte Fassung in Anlehnung
an [258, 302])

laubt die systematische Beurteilung von dynamischen Bewegungsvorgängen, die in


ihrer Komplexität durch einfaches Beobachten nicht erfassbar sind. Historisch geht
die Instrumentelle Ganganalyse auf die manuelle Auswertung von Filmen im späten
19. Jahrhundert zurück. Allerdings erlangte sie erst mit der Einführung kommerziell
verfügbarer Mehrkamerasysteme mit computergestützter Auswertung etwa ab 1980
eine relevante klinische Bedeutung. Die Systeme unterstützen zwar den Messablauf,
Teile der Merkmalsextraktion (Segmentierung, Generierung Raum-Zeit-Parameter)
und die Visualisierung, aber nicht die nachfolgenden klinischen Problemstellungen
im Sinne von Abschnitt 4.2.
In der klinischen Praxis dominieren Patienten mit neurogenen Bewegungsstörun-
gen wie infantilen Zerebralparesen (siehe z. B. [21, 349]), Schlaganfällen (siehe z. B.
[342]) oder inkompletten Querschnittlähmungen (siehe z. B. [22, 393]), aber auch zu-
nehmend Prothesenträger.
Infantile Zerebralparesen (ICP) sind die Folge eines Geburtstraumas, wobei be-
stimmte Hirnregionen geschädigt werden. Das bewirkt individuell stark variierende
motorische Beeinträchtigungen, die beidseitig (Diplegie) oder auf einer Körpersei-
te (Hemiplegie) auftreten. Sie verursachen oftmals Muskelspastiken (nicht willkür-
lich beeinflussbare Muskelspannungen). So entstehen pathologische Veränderungen

241
7 Anwendungen

Stiftung Orthopaedische
Universitaetsklinik Heidelberg
Sagittal Frontal Transversal
Beckenkippung [Grad] Beckenschiefstand [Grad] Becken Rotation [Grad]
35 15 30
Ant 30 Kran 10 IRO
20
Kinematik 25

Becken
20 5 10
15 0 0
10 5 10
5
0 10 20
Post 5
Kaud15 ARO 30
rechte Seite:
Hüfte Flex - Ext [Grad] Hüfte Ad - Abduktion [Grad] Hüfte Rotation [Grad]
linke Seite: 60 30 30
Flex Add IRO
20 20
Referenzwerte: 40
10 10

Hüfte
20 0 0
10 10
0
Name: XXXXXXXXXXXXXX 20 20
ID: 815 Ext 20 Abd 30 ARO 30
U-Datum: 06.04.98 (PRE)
Knie Flex - Ext [Grad]
80
Flex
60
Geschw.: 72,6 +/- 17,9 cm/sec 40
Knie

Kadenz: 166,3 +/- 29,5 Schritte/min 20


Doppelschrittlänge: 52,1 +/- 6,5 cm
Dauer Doppelschritt: 0,74 +/- 0,12 sec 0
Spurbreite: +/- cm Ext 20
Schrittlänge rechts: 27,3 +/- 4,0 cm
Schrittlänge links: 29,5 +/- 1,8 cm OSG PlantFlex - DorsExt [Grad] OSG Rotation [Grad]
Standphase rechts: 64,9 +/- 0,8 % 20 30
10 IRO 20
Standphase links: 63,6 +/- 3,8 % Dors
0
Kinematik rechts n = 3 10 10
Kinematik links n = 4 20 0
OSG

30 10
40
50 20
ARO
Plant 60 30
0 20 40 60 80 100 0 20 40 60 80 100
Raum-Zeit-Parameter % Gangzyklus % Gangzyklus

Bild 7.3: Rechte und linke Gelenkwinkelverläufe (Becken, Hüfte, Knie, oberes Sprungge-
lenk – OSG) aus den drei körperbezogenen Ebenen (sagittal, frontal, transversal)
(rechts) [258], Daten aus der Orthopädischen Universitätsklinik Heidelberg

des Gangbildes, die u. a. Wachstumsstörungen, Gelenküberlastungen und mit zu-


nehmendem Alter den vollständigen Verlust der Gehfähigkeit verursachen können.
Behandlungen mit Botulinum Toxin [439] stellen spastische Muskeln gezielt ruhig,
um das Gangbild temporär so zu gestalten, dass keine irreversiblen Schäden auftre-
ten. Orthopädisch-chirurgische Eingriffe wie Verlängerungen und Transfers von Mus-
keln und Sehnen sowie Eingriffe am knöchernen Bewegungsapparat verbessern das
Gangbild auch langfristig, erfordern aber wegen der stark eingeschränkten Korrigier-
barkeit eine sorgfältige Planung.
Querschnittlähmungen ziehen abhängig von der Höhe der Schädigung dramati-
sche Funktionsstörungen sowohl des somatischen als auch des vegetativen Nerven-
systems nach sich [142]. Je nach Umfang der Beeinträchtigung ist zwischen komplet-
ten und inkompletten Querschnittlähmungen zu unterscheiden. Die resultierenden
Bewegungsstörungen erstrecken sich auf die unteren Extremitäten (Paraplegie) oder
auf alle vier Extremitäten (Tetraplegie). Die betreffenden Muskeln sind nicht mehr will-
kürlich ansteuerbar und bzw. oder die sensomotorische Rückkopplung (Bewegungs-
gefühl) für bestimmte Körperregionen fehlt vollständig oder teilweise. Bei inkomplet-
ten Querschnittlähmungen gibt es starke individuelle Unterschiede der betroffenen

242
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

Regionen. Im Laufe der Zeit kann es zu neurologischen Erholungen kommen. Mit


Hilfe einer individuell auszuwählenden geeigneten Therapie (z. B. Laufbandtraining,
Physiotherapie) kann in einigen Fällen die Stand- und Gehfähigkeit zumindest teil-
weise wiederhergestellt werden. Zudem trägt eine geeignete Therapie entscheidend
zur Kreislaufstabilisierung und somit zur Erhöhung der Lebenserwartung bei.
Normale und pathologische Bewegungsmuster hängen stark von der Geschwin-
digkeit ab [395]. Die Komplexität der Bewegungsanalyse resultiert aber insbeson-
dere aus Kompensationsmechanismen, die die meisten ursächlichen Bewegungs-
störungen begleiten. Die ermöglichen dem Patienten zwar die Einhaltung notwendi-
ger Bedingungen (Gleichgewicht, angemessene Geschwindigkeit, energieeffiziente
Bewegungen) entsprechend den individuellen Einschränkungen (neurologische Dys-
funktionen, Schmerzvermeidung, maximale Bewegungsumfänge in bestimmten Ge-
lenken), tragen aber ihrerseits ebenfalls zur Abweichung vom normalen Bewegungs-
ablauf bei. Sowohl die ursächlichen Bewegungsstörungen als auch die Kompensa-
tionsmechanismen sind in gleichen Patientengruppen mit erheblichen individuellen
Unterschieden versehen, so dass die Patientengruppen heterogen sind. Außerdem
werden die Unterschiede durch die erwähnten Geschwindigkeitseffekte überlagert.
Für die genannten Patientenkollektive ist die Instrumentelle Ganganalyse ein wich-
tiges Diagnoseverfahren mit Einfluss auf die nachfolgende Therapieentscheidung.
Hier sind detaillierte Patientenbeschreibungen für eine Diagnose, aber auch globale
und zusammenfassende Bewertungen von Interesse. Viele Therapieoptionen sind
noch Gegenstand klinischer Studien und weisen bisher nicht vollständig befriedi-
gende Erfolgsquoten auf. Seit vielen Jahren wird versucht, Wissen zu systemati-
sieren und formalisieren (z. B. Dr. Gait Expertensystem [168]). Pionierarbeit für die
Entwicklung von Data-Mining-Verfahren auf dem Gebiet der Ganganalyse leisteten
u. a. die Arbeiten [36, 112, 177, 258, 264, 343], umfassende Übersichten finden sich
in [19, 93, 405]. Dennoch existieren bisher aufgrund der kleinen Patientenzahlen,
der hohen Komplexität der Zusammenhänge und der heterogenen Patientenkollek-
tive keine in der Evidenz-basierten Medizin verankerten Leitlinien zur Diagnose und
Therapieauswahl.

7.2.2 Methoden und Ergebnisse

Merkmalsextraktion und -transformation

In den meisten Publikationen basiert die Merkmalsextraktion auf heuristischen Vor-


untersuchungen, wobei eine kleine, aber gut interpretierbare Merkmalsmenge aus-
gewählt wird. Die Merkmale enthalten somit relevante Informationen für die jeweilige

243
7 Anwendungen

Problemstellung, müssen aber für andere Problemstellungen grundlegend überarbei-


tet werden. Andere Arbeiten [258, 261] präferieren hingegen einen systematischen
Ansatz, bei dem einige Tausend Merkmale problemunabhängig generiert werden und
die Problemstellung erst zur Bewertung hinzugezogen wird.
Die Merkmalsextraktion aus Zeitreihen vollzieht sich entsprechend Abschnitt 4.4
und Bild 4.5. Aus jeder originalen Zeitreihe xZR,l [k, n] können optional zusätzliche
Zeitreihen extrahiert werden [258]1 . Das sind insbesondere Geschwindigkeitszeitrei-
hen (GZR)
xZR,l [k + 1, n] − xZR,l [k − 1, n]
ẋZR,l [k, n] ≈ xGZR,l [k, n] = (7.1)
2
und Referenzabweichungszeitreihen (RZR)
¯ ¯
¯xZR,l [k, n] − x̄l,Re f [k]¯
xRZR,l [k, n] = , (7.2)
σl,Re f [k]
mit der mittleren Zeitreihe eines Referenzkollektivs x̄l,Re f [k] und der Standardabwei-
chung des Referenzkollektivs σl,Re f [k]. Referenzabweichungszeitreihen quantifizie-
ren das Ausmaß der Abweichung eines Zeitreihenwertes von einem Referenzkollek-
tiv (z. B. von der Probandengruppe). Null bedeutet Identität zur Referenz, Werte bis
ca. Eins kennzeichnen übliche Abweichungen und Werte größer Eins deutliche Ab-
weichungen.
Standardabweichungszeitreihen (SZR) eignen sich zur Charakterisierung der Wie-
derholgenauigkeit der Bewegungsmuster von Patienten, wenn sie die Standardab-
weichung eines Patienten über mehrere Schritte als Maß für die intraindividuelle Va-
riabilität angeben. Dabei bezeichnet im Folgenden NSchritt,Pati die Anzahl aller aufge-
nommenen Schritte des i-ten Patienten während einer Messung. Die Kennzeichnung
der zugehörigen Datentupel übernimmt eine Ausgangsklasse yPatID , die jedem Da-
tentupel die entsprechende Patienten-ID zuweist. Mit diesen Informationen kann zu-
nächst eine Zeitreihe berechnet werden, die das mittlere Verhalten eines Patienten
für die l -te Zeitreihe beschreibt:
1
x̄l,Pati [k] =
NSchritt,Pati n mit y ∑ xZR,l [k, n]. (7.3)
PatID [n]=Pati

Nun folgt die Berechnung der zugehörigen Standardabweichungszeitreihe:


s
1
xSZR,l,Pati [k] =
NSchritt,Pati − 1 n mit y ∑ (xZR,l [k, n] − x̄l,Pati [k])2 . (7.4)
PatID [n]=Pati

Diese Standardabweichungszeitreihe muss bei Bedarf wieder allen Datentupeln des


Patienten zugewiesen werden. Wenn sich mehrere Messungen zu verschiedenen
1
k: Abtastzeitpunkt, n: Datentupel, vgl. Tabelle 3.2 auf Seite 32.

244
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

1 2 3 4 5 6 7

Bild 7.4: Visualisierung der sieben Schrittphasen gemäß [349] am Beispiel des rechten Beins,
Standphase: Schrittphase 1-4, Schwungphase: Schrittphase 5-7

Zeitpunkten oder mit verschiedenen Versuchsbedingungen (z. B. eine prä- und eine
posttherapeutische) in einem Datensatz befinden, müssen (7.3) und (7.4) separat für
jede Messung berechnet werden.
Zur weiteren Verarbeitung werden die neuen Zeitreihen an die Datensätze ange-
hängt, die Zahl der Zeitreihen sz vergrößert sich entsprechend.
Die leider unvermeidliche Komplexität des Bezeichnungsapparats für die zusätz-
lichen Zeitreihen weist bereits darauf hin, dass äußerste Sorgfalt bei der Analyse,
Berechnung und Implementierung angebracht ist. Die Segmentierung erfolgt meist
dreistufig. In der obersten Hierarchieebene wird nur auf ganze Doppelschritte (engl.
stride) segmentiert, in der darunter liegenden zusätzlich auf die sogenannte Stand-
(St) und Schwungphase (Sw) sowie in der untersten auf eine achtstufige Feineintei-
lung des Doppelschrittes durch sieben Schrittphasen und den Zeitpunkt des Fußauf-
setzens Initial Contact (IC). Die Schrittphasen heißen 1. Loading Response (LR), 2.
Midstance (MSt), 3. Terminal Stance (TSt), 4. Preswing (PSw), 5. Initial Swing (ISw),
6. Midswing (MSw) und 7. Terminal Swing (TSw) (Bild 7.4). Die Segmentierung er-
folgt teils über separat zu erkennende Ereignisse (z. B. gemessene Kraftspitzen beim
Aufsetzen des Fußes, Extrema von Markertrajektorien [395]), teils über relative Zeit-
dauern [349].
Als Einzelmerkmale werden beispielsweise Minima (MIN), Maxima (MAX), Spann-
weiten (SpW, engl. Range of Motion), Mittelwerte (MW) und die Positionen der
Extremwerte (MIPO: Minimumposition, MAPO: Maximumposition) für jede Zeitrei-
he und jedes Segment extrahiert. In einigen Publikationen finden sich aber auch
stärker auf die Bewegungsanalyse zugeschnittene Merkmale wie die Volumina von
3D-Markertrajektorien über mehrere Schritte als Maß für die Reproduzierbarkeit
des Gangbildes [19, 20]. Hinzu kommen die bereits angesprochenen Raum-Zeit-

245
7 Anwendungen

Parameter wie Schrittlänge, Geschwindigkeit, Zeitdauer der Standphase usw. Hier-


bei ist über geeignete Normierungen (auf Alter, Körpergröße, Körpergewicht) nach-
zudenken, um die Vergleichbarkeit der Merkmale bei verschiedenen Patienten zu
erhöhen [343].
Auch Merkmalstransformationen wurden vorgeschlagen, um ein zusammengefass-
tes Merkmal zu bilden. So wird die erste Hauptkomponente über 16 bereits extrahier-
te Merkmale [412] (13 Kinematik-Einzelmerkmale und 3 Raum-Zeit-Parameter) oder
über Fourier-Koeffizienten von Gangkurven [445] als Indikator für die Normalität des
Gangbildes verwendet (Normalcy-Index).

Segmentierung der Zeitreihen

Bereits die Segmentierung in Form der Ermittlung der Schrittphasen kann neben
heuristischen Verfahren (z. B. auf der Basis von Markertrajektorien [395]) durch Data-
Mining-Verfahren unterstützt werden [302]. So zeigt Bild 7.5 einen Merkmalsraum,
der durch eine Merkmalsselektion auf sm = 6 Merkmale mit dem MANOVA-Verfahren
und einer nachfolgenden Diskriminanzanalyse auf sd = 2 transformierte Merkmale
aus ursprünglich s = 174 Merkmalen hervorgeht. Die Merkmale beinhalten die aktu-
ellen Abtastzeitpunkte verschiedener Kinematik- und Kinetikzeitreihen inkl. des Ober-
körpers beider Körperseiten (siehe Anhang A1 in [302]). Als Klassen wurden die sie-
ben Schrittphasen der rechten Körperseite verwendet. Der Schrittzyklus ist deutlich
durch die Kreisform der Datenprojektion erkennbar, beginnt unten rechts mit dem
Zustand LR und wird im Uhrzeigersinn durchlaufen. Die benachbarten Phasen sind
qualitativ voneinander trennbar. Allerdings überlagern Geschwindigkeitseffekte die
Klassifikationsergebnisse deutlich, was die Klassifikationsfehler erhöht.
Solche Bilder eignen sich aber gerade wegen der deutlich sichtbaren Geschwin-
digkeitseffekte für weitergehende Visualisierungen. So verdeutlicht Bild 7.6 für einen
Probanden die Auswirkung unterschiedlicher Gehgeschwindigkeiten, die bei geringe-
ren Geschwindigkeiten zu engeren Kreisen führen. Die Unterschiede treten insbeson-
dere in der Schwungphase (linker oberer Teil des Zyklus) in Erscheinung. Ebenso gut
sichtbar sind Unterschiede zwischen der linken und der rechten Körperseite. Jedoch
ist anzumerken, dass die Akzeptanz solcher durchaus interessanten Ergebnisse bei
Medizinern wegen der abstrakten transformierten Merkmale gering ist.

Klinische Problemstellungen

Eine große klinische Bedeutung kommen der Diagnose und Therapieevaluierung zu.
Bei der Diagnose geht es allerdings weniger um die Anwendung eines Klassifika-

246
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

2. Transformiertes Merkmal (Diskriminanzanalyse)


8 LR
MSt
TSt
6 PSw
ISw
6 MSw
4 TSw

5 7
2

1
0 4
2

−2 3

−20 −10 0 10 20
1. Transformiertes Merkmal (Diskriminanzanalyse)

Bild 7.5: Klassifikation der Schrittphasen (rechte Körperseite) in einem zweidimensionalen


transformierten Merkmalsraum nach einer Diskriminanzanalyse mit vorgeschalteter
Merkmalsselektion auf sechs Merkmale

tors, da Patienten in der Regel bereits mit detaillierten Voruntersuchungen zu ei-


ner Ganganalyse kommen. Insbesondere die Unterscheidung eines Patienten mit
schwerwiegenden neurologischen Defiziten von einem gesunden Probanden ist auch
ohne Data-Mining-Verfahren problemlos möglich und klinisch vollkommen irrelevant.
Allerdings ist sehr wohl interessant, wodurch sich bestimmte Patientengruppen von
der Probandengruppe unterscheiden und wie Therapien wirken.
Ein Weg zur Beantwortung dieser Fragen ist die Erzeugung von Merkmalslisten für
verschiedene Problemstellungen. Die im Folgenden verwendeten Datensätze und Er-
gebnisse entstammen [472] und entsprechen bis auf einige Vorverarbeitungsschritte
und ein anderes Probandenkollektiv denen in [258].
Für die folgenden Probleme werden 3670 Merkmale angesetzt. Davon resultie-
ren 3660 durch Merkmalsextraktion aus Zeitreihen durch die folgenden Kombinatio-
nen:

• drei körperbezogene Ebenen,

• vier Gelenke bzw. Körpersegmente,

247
7 Anwendungen

Person 10025 − Geschwindigkeitsvergleich


2. Transformiertes Merkmal (Diskriminanzanalyse) 10
Langsam (R)
Langsam (L)
Schnell (R)
Schnell (L)

−5
−30 −20 −10 0 10 20 30
1. Transformiertes Merkmal (Diskriminanzanalyse)

Bild 7.6: Visualisierung von Geschwindigkeitseffekten im Merkmalsraum aus Bild 7.5, Abkür-
zungen R: rechte Körperseite, L: linke Körperseite

• fünf Zeitreihen (originale Zeitreihe mit Gelenkwinkeln, Geschwindigkeitszeitreihe


GZR (7.1), Referenzabweichungszeitreihen RZR (7.2) für die originale und die
Geschwindigkeitszeitreihe sowie eine Standardabweichungszeitreihe SZR (7.4)),
• elf Segmente (Stri, St, Sw, IC, LR, MSt, TSt, PSw, ISw, MSw, TSw) sowie
• sechs extrahierte Merkmale (MIN, MAX, MW, SpW, MIPO, MAPO) für zehn Seg-
mente und lediglich der Mittelwert für IC
mit
s = 3 · 4 · 5 · (10 · 6 + 1) = 3660. (7.5)

Weitere zehn Merkmale (Raum-Zeit-Parameter wie Geschwindigkeit, Schrittlänge


usw.) liegen bereits in extrahierter Form vor.
Auf den Kategorien (Ebenen, Gelenke bzw. Körpersegmente, Zeitreihen, Segmen-
te, Merkmale) der obigen Aufzählung basieren problemunabhängige Merkmalsprä-
ferenzen QPF,l entsprechend (3.89), die besser interpretierbare oder messtechnisch
zuverlässigere Merkmale bevorzugen (siehe [258] für eine ausführliche Übersicht und
Berechnungsalgorithmen).

248
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

Ein erstes Beispiel für eine Merkmalsliste zeigt Tabelle 7.1 zur Diagnose Patient –
Proband. Die Formulierung erfolgt entsprechend Tabelle 4.1 als Klassifikationspro-
blem eines Patientenkollektivs vor einer Therapie (Bezeichnung: ICP-PRE, 42 Pati-
enten, Alter 6.1 ± 2.2 Jahre) gegen ein Kollektiv von gesunden Probanden (Bezeich-
nung: PROB, 22 Probanden, Alter 8.3 ± 1.8 Jahre). Bei allen folgenden Untersuchun-
gen werden die linke und rechte Körperseite als separate Datentupel behandelt.

Merkmal QPT QPF = QPD = ICP-PRE ICP-POST PROB


QPF,l Ql MW±STD MW±STD MW±STD
SpW Stri Becken sag 0.517 1 0.517 8.0 ±3.3 7.8 ±3.2 3.0 ±0.8
Geschwindigkeit 0.505 1 0.505 0.8 ±0.3 0.8 ±0.3 1.2 ±0.1
SpW Sw Knie sag 0.463 0.8 0.579 24.6 ±9.6 24.9±10.8 50.6±6.2
MW Stri OSG sag 0.339 1 0.339 -12.0±13.0 -2.2 ±10.2 2.3 ±2.7
MIN LR Knie sag GZR 0.330 0.48 0.688 -1.2 ±0.8 -1.2 ±0.8 0.4 ±0.4
MW Stri Becken tra SZR 0.323 0.6 0.538 2.9 ±1.3 2.9 ±1.3 1.1 ±0.4
MW MSt OSG sag GZR 0.277 0.48 0.577 -0.3 ±0.4 -0.2 ±0.3 0.5 ±0.1
MW Stri OSG sag SZR 0.260 0.6 0.433 6.0 ±3.5 5.7 ±3.5 2.3 ±0.6
MAX Stri Fuß trans 0.257 0.8 0.321 11.7 ±13.6 7.0 ±15.1 -3.7 ±4.8
MIN Stri OSG sag GZR 0.213 0.8 0.266 -1.7 ±0.9 -1.6 ±0.7 -2.7 ±0.6

Tabelle 7.1: Beste zehn Einzelmerkmale für eine Diagnose Patient – Proband, QPD = Ql pro-
blembezogene Bewertung durch Transinformation pro Ausgangsentropie (3.52),
QPF,l problemunabhängige Merkmalspräferenzen zur Berücksichtigung der In-
terpretierbarkeit und der Messgenauigkeit, QPT Gesamtpräferenz entsprechend
(3.88) mit zusätzlicher Rückstufung korrelierter Merkmale, Mittelwerte und Stan-
dardabweichungen für das prätherapeutische (ICP-PRE) und posttherapeutische
(ICP-POST) Patientenkollektiv sowie das Probandenkollektiv (PROB) [472]

Tabelle 7.1 enthält eine sortierte Liste gut geeigneter Merkmale mit charakteristi-
schen Eigenschaften des ICP-Kollektivs. Die Bewertung orientiert sich an einer mög-
lichst eindeutigen Klassifikation und bevorzugt folglich solche Merkmale, die sich bei
möglichst allen Datentupeln der Patienten im Lerndatensatz von den Werten der
Probanden unterscheiden. Das Löschen von Merkmalen, die mit besser platzierten
Merkmalen stark korrelieren, verhindert eine unübersichtliche Häufung vieler ähn-
licher Merkmale. In der Liste finden sich sowohl alle klinisch bekannten Merkmale
(z. B. MW Stri OSG sag, SpW Stri Becken sag) als auch weniger bekannte (z. B. MW
Stri Becken tra SZR). Eine klinische Diskussion in [472] bestätigt, dass die Merkmals-
liste sinnvoll ist und zudem bisher unbekannte, aber plausible Informationen enthält.

249
7 Anwendungen

Die zusätzliche Angabe von Mittelwerten und Standardabweichungen für die unter-
suchten Kollektive verbessert die Interpretierbarkeit, weil sie näher an der klinischen
Denkweise ist. Sie dient einer weiteren Plausibilitätsprüfung, indem sie das Ausmaß
der Unterschiede verdeutlicht. Bei gravierenden Abweichungen der Merkmale von ei-
ner Normalverteilung sind Mittelwerte und Standardabweichungen aber eher irrefüh-
rend. Generell sinnvoll ist eine visuelle Analyse der Histogramme, um Abweichungen
von Normalverteilungen, Ausreißer sowie eventuelle Überkompensationen zu erken-
nen (siehe Bild 7.7).

Ein erster Schritt in Richtung einer Therapieevaluierung ist die zusätzliche Angabe
der Mittelwerte und Standardabweichungen für das posttherapeutische Patientenkol-
lektiv (ICP-POST). Das Kollektiv enthält die gleichen Patienten wie ICP-PRE, aber
bei einer späteren Ganganalyse ca. sechs Wochen nach einer Therapie mit Botu-
linum Toxin. Auffällig ist, dass sich nur für das viertbeste Merkmal ”MW Stri OSG
sag” aus Tabelle 7.1 eine markante Änderung ergibt, alle anderen Merkmale bleiben
nahezu gleich. Der Effekt ist dadurch zu erklären, dass die Botulinum Toxin Therapie
hauptsächlich eine Spastikreduktion und somit eine Entspannung der Unterschenkel-
muskulatur bewirkt. Allerdings widerspricht er der weit verbreiteten Annahme, dass
ein geringeres Ausmaß einer Hauptpathologie eine Normalisierung anderer Gelenk-
winkel (z. B. wegen nicht mehr notwendiger Kompensationsmechanismen) nach sich
zieht.

Eine nachfolgende formale Therapieevaluierung als Klassifikationsproblem zwi-


schen prä- und posttherapeutischen Datentupeln der Patientengruppe (vgl. Tabel-
le 4.1) bestätigt den Eindruck. Tabelle 7.2 beinhaltet die besten Einzelmerkmale
für die Problemstellung. Die relevantesten Merkmale der Therapieevaluierung un-
terscheiden sich deutlich von denen der Diagnose Patient – Proband, kein Merkmal
kommt in beiden Listen vor. Allerdings sind einige Merkmale aus Tabelle 7.1 stark
mit Merkmalen aus Tabelle 7.2 korreliert (z. B. ”MW Stri OSG sag” und ”MW St OSG
sag”). Tabelle 7.2 untermauert die Tatsache, dass sich nur Sprunggelenks- bzw. Fuß-
merkmale relevant verbessern, was auch die p-Werte der gepaarten t -Tests zeigen.
Bei einem Verzicht auf problemunabhängige Merkmalsrelevanzen und auf eine Rück-
stufung korrelierter Merkmale gehören sogar die besten 29 Merkmale zum Sprung-
gelenk bzw. Fuß. Die posttherapeutische Annäherung für die ersten drei Merkmale
an die Probandenwerte zeigt den Behandlungserfolg und ermöglicht dessen Quanti-
sierung. Im Falle von Verschlechterungen (z. B. durch Nebenwirkungen) enthält eine
Tabelle für die Therapieevaluierung noch zusätzliche Merkmale, bei denen die post-
therapeutischen Werte weiter von den Probandenwerten entfernt sind als die prä-
therapeutischen Werte. Das ist hier nicht der Fall. Daraus folgt ein weiteres positives

250
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

Ergebnis der Therapie, dass durch die Therapie keine relevanten Verschlechterungen
bei anderen Merkmalen auftreten. Das Fehlen solcher Merkmale wie die Spannweite
des Beckens (SpW Stri Becken sag) zeigt aber auch, dass die Therapie lediglich lokal
wirkt und das Gangbild nicht bezüglich aller Merkmale verbessert.

Merkmal QPT p-Wert ICP-PRE ICP-POST PROB


PRE-POST MW±STD MW±STD MW±STD
MW St OSG sag 0.091 2.30E-07 -9.1 ±14.0 1.7 ±11.8 6.0 ±2.6
SpW MSw OSG sag 0.037 3.90E-05 7.2 ±5.5 4.3 ±3.0 7.5 ±2.6
MW St OSG sag GZR 0.032 1.50E-03 -0.3 ±0.2 -0.2 ±0.2 -0.2 ±0.1
MAX Stri Becken tra GZR 0.023 >0.05 0.7 ±0.3 0.7 ±0.4 0.5 ±0.2
MAX MSt OSG sag GZR 0.021 >0.05 0.1 ±0.4 0.2 ±0.3 0.8 ±0.2
MW Stri Fuß tra GZR 0.020 >0.05 0.0 ±0.1 0.0 ±0.1 0.0 ±0.0
Schrittlänge 0.019 >0.05 0.7 ±0.2 0.7 ±0.2 1.1 ±0.1
MW Stri Knie sag GZR 0.018 >0.05 -0.0 ±0.1 -0.1 ±0.1 -0.0 ±0.0
MW Stri Hüfte sag 0.016 >0.05 24.7 ±8.0 23.7 ±8.6 16.0 ±5.6
MW PSw Knie sag SZR 0.014 >0.05 7.0 ±4.5 7.2 ±3.0 3.3 ±1.7

Tabelle 7.2: Beste Einzelmerkmale für eine Therapieevaluierung, QPT Gesamtpräferenz, p-


Wert (Irrtumswahrscheinlichkeit) bzgl. unterschiedlicher Mittelwerte (gepaarter t -
Test), Mittelwerte und Standardabweichungen für das prätherapeutische (ICP-
PRE) und das posttherapeutische Patientenkollektiv (ICP-POST) sowie für das
Probandenkollektiv (PROB) [472]

Solche Analysen ermöglichen eine systematische Suche nach relevanten Zusam-


menhängen. Beide Merkmalslisten sind hierbei immer in Kombination zu betrachten.
Die Diagnose Patient – Proband betont die Hauptprobleme einer Patientengruppe,
die in einer Therapie verbessert werden sollen. Die Therapieevaluierung findet alle
tatsächlichen Änderungen und ist somit auch in der Lage, unerwünschte Änderungen
(z. B. Nebenwirkungen) jenseits der Hauptprobleme zu detektieren.
Bei den Merkmalslisten ist zu beachten, dass die absoluten Zahlenwerte für QPT
in verschiedenen Tabellen nur bedingt quantitativ vergleichbar sind. Sie werden vom
jeweiligen Maß, von der Anzahl der Datentupel in den jeweiligen Klassen, von Ab-
ständen zwischen den betrachteten Klassen und von Ausreißern in komplexer Art
und Weise beeinflusst. Generell empfehlenswert sind eine begleitende visuelle Ana-
lyse der Histogramme und Scatterplots von zusammengehörigen Datenpaaren (wie
Patienten aus ICP-PRE und ICP-POST in Bild 7.7), um detailliertere Aussagen über
die Verteilung zu gewinnen und typische Veränderungsmuster aufzudecken. Diese
Vorgehensweise wird nun anhand von Bild 7.7 beispielhaft erläutert.

251
7 Anwendungen

Histogramm
1
Korr−Koef: 0.64 Spearman Korr Koef: 0.66
PROB

0.5 20

MW St OSG sag (ICP−POST)


0 10
−60 −40 −20 0 20
1 0
ICP−POST

0.5 −10

−20
0
−60 −40 −20 0 20
−30
1
ICP−PRE

−40
0.5
−50
0
−60 −40 −20 0 20 −40 −20 0 20
MW St OSG sag MW St OSG sag (ICP−PRE)

Bild 7.7: a. Histogramme (links) und b. prä- und posttherapeutische Scatterplots (rechts) für
das Merkmal ”MW St OSG sag” für die Kollektive PROB, ICP-PRE und ICP-POST

Deutlich zu erkennen sind die großen Unterschiede in den prä- und posttherapeu-
tischen Verteilungen in Bild 7.7a. Das posttherapeutische Kollektiv ähnelt dem Pro-
bandenkollektiv wesentlich stärker als das prätherapeutische Kollektiv, was auf eine
erfolgreiche Therapie hinweist. Bild 7.7b verdeutlicht die Veränderung der Patienten
durch die Therapie. Die durchgezogene Linie kennzeichnet Werte ohne Veränderun-
gen. Einige Patienten mit großen prätherapeutischen Abweichungen (< -20◦ ) ändern
sich durch die Therapie kaum. Eine große Anzahl von Patienten weist nach der The-
rapie nahezu normale Werte auf (mit gepunkteten Linien eingezeichneter Bereich).
Patienten mit vergleichsweise hohen prätherapeutischen Werten (>-5◦ ) neigen zu ei-
ner Überkompensation mit zu hohen posttherapeutischen Werten (>10◦ ).
Für beide Problemstellungen können auch multivariate Merkmalsrelevanzen oder
Klassifikatoren entworfen werden. Der Vorteil besteht darin, Merkmalskombinationen
zu finden, die eine Trennung von Patienten und Probanden gestatten. Eine zweite
Motivation ist eine zielgerichtete Visualisierung der Patientengruppe, um eventuelle
Heterogenitäten (z. B. in Form von Subgruppen oder Ausreißern) zu detektieren. Ein
Beispiel zeigt Bild 7.8 für eine Fuzzy-Regel.
Aus dieser Regel lässt sich zudem automatisch ein Erklärungstext generieren, der
mit seinen Zusatzinformationen das Verständnis der Regel erleichtert:
Die Datentupel für Proband (PROB) sind dadurch charakterisiert, dass die Schritt-
länge meistens größer als sonst ist: gelegentlich groß (zwischen 0.45 m und 0.6 m)

252
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

ICP−PRE
20
PROB

SpW STRI Becken sag

6
4
2

0.1 0.3 0.4 0.5 0.7


Schrittlänge

Bild 7.8: Visualisierung der Regel „WENN (Schrittlänge=PG oder PSG) UND (SpW Stri Be-
cken sag =PSK oder PK) DANN Klasse=PROB“

und gelegentlich sehr groß (größer als 0.6 m). Weiterhin gilt für die Beispiele, dass
die Spannweite der Beckenkippung während des Schrittes (SpW Stri Becken sag)
meistens kleiner als sonst ist: gelegentlich sehr klein (kleiner als 3◦ ) und gelegent-
lich klein (zwischen 3◦ und 5◦ ). Aus den Aussagen lässt sich eine Regel aufbauen,
die alle Fälle für Proband (PROB) beschreibt: WENN die Schrittlänge groß bis sehr
groß (größer als 0.45 m) ist UND die Spannweite der Beckenkippung während des
Schrittes (SpW Stri Becken sag) sehr klein bis klein (kleiner als 5◦ ) ist, DANN FOLGT
DARAUS immer Proband (PROB).
Mit der Kombination aus beiden Merkmalen ist im Lerndatensatz eine fehlerfreie
Klassentrennung möglich. Ein Blick auf die Patienten zeigt (Bild 7.8), dass sie deutlich
heterogener sind als die Probandengruppe. Patienten, die eine größere Schrittlänge
erreichen, weisen immer auch eine größere Spannweite in der sagittalen Becken-
zeitreihe auf. Umgekehrt gibt es keine Patienten, die bei normähnlichen geringen
Spannweiten im Becken mit normalen Geschwindigkeiten gehen.
Eine den Merkmalslisten der Diagnose verwandte Aufgabe ist die quantitative
Patientenbewertung für einzelne Patienten und ganze Patientenkollektive, um indi-
viduelle Besonderheiten einzelner Patienten zu lokalisieren und Gemeinsamkeiten
herauszufinden. Ein mögliches Einsatzgebiet ist eine echtzeitfähige Visualisierung
quantitativer Ergebnisse während der Therapie [396]. Solche Informationen vermit-

253
7 Anwendungen

teln aber ebenfalls wertvolle Hinweise für die nachfolgende Therapieauswahl. Dazu
eignen sich insbesondere Mittelwerte über Referenzabweichungszeitreihen gemäß
(7.2). Die Mittelwerte können sowohl über einzelne Zeitreihen bzw. deren Segmen-
te gebildet werden, aber auch über alle beteiligten Zeitreihen einer körperbezogenen
Ebene, eines Gelenks bzw. Körpersegments, einer Körperseite oder über alle Zeitrei-
hen gemittelt werden. Werte zwischen Null und Eins bedeuten annähernd norma-
les, größere Werte zunehmend anormales Verhalten. Ein Beispiel zeigt Tabelle 7.3
für das Patientenkollektiv ICP-PRE und beispielhaft für einen einzelnen Patienten.
Hierbei ist deutlich zu erkennen, dass insbesondere die sagittale Ebene des Fußge-
lenks deutlich von den Werten der Probandengruppe abweicht. Interessant sind die
unterschiedlichen Hervorhebungen: Während das relevanteste Einzelmerkmal in Ta-
belle 7.3 zur sagittalen Ebene des Beckens gehört, ist die Referenzabweichung der
zugehörigen Zeitreihe moderat. Das Merkmal ”Spannweite Becken sag” erkennt al-
lerdings die abweichende Kurvenform, die sich auch in der Geschwindigkeitszeitreihe
des Beckens widerspiegelt. Somit ergänzen sich beide Problemstellungen und beto-
nen andere Aspekte. Der Patient ID 50504 zeigt im Wesentlichen ein durchschnittli-
ches Verhalten für das Patientenkollektiv. Auffällig sind lediglich die vergleichsweise
geringen Referenzabweichungen in der sagittalen Ebene des Beckens. Auch mit sol-
chen Merkmalen können Fragen der Therapieevaluierung beantwortet werden, indem
nach markanten Verbesserungen der Referenzabweichungen in den verschiedenen
Zeitreihen gesucht wird [258].

Merkmalslisten müssen aber keinesfalls immer ergiebig sein. Beispielsweise fin-


det sich in den erwähnten Datensätzen nur ein signifikanter Zusammenhang für
eine Therapieprognose. Diese sucht im prätherapeutischen Patientenkollektiv nach
möglichen Ursachen für unbefriedigende Verbesserungen durch eine Therapie. Hier-
bei wird eine prozentuale Verbesserung der gemittelten Referenzabweichung vom
prä- zum posttherapeutischen Zustand gefordert und als Basis für ein 2-Klassen-
Problem (Therapie erfolgreich – Therapie nicht erfolgreich) genommen. Die Ergeb-
nisse in [258, 472] zeigen, dass die Verbesserung insbesondere bei Patienten mit
einer großen mittleren Referenzabweichung für die Zeitreihe OSG sag RZR erreicht
wird. Patienten mit geringeren Abweichungen neigen zu einer Überkompensation, die
signifikante Verbesserungen verhindert. Eine alleinige Auswertung des Mittelwertes
von ”MW St OSG sag” ist insofern gefährlich, weil dabei die unerwünschten Überkom-
pensationen leicht übersehen werden, zumal sie sogar zu einer besonders starken
Änderung des Mittelwertes des Patientenkollektivs in Richtung der Probandengrup-
pe beitragen. Hilfreich ist hier wiederum die bereits diskutierte visuelle Analyse des
Histogramms und Scatterplots in Bild 7.7, die eine Zunahme unerwünschter Wer-

254
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

ICP, PRE (Werte in Klammern: Patient ID 50504)


Gelenk/ Ebene sagittal frontal transversal gesamt
Becken 1.7 ± 1.1 (1.1) 2.5 ± 1.1 (2.5) 2.1 ± 1.2 (1.9) 2.1 ± 1.0 (1.8)
Becken GZR 2.7 ± 1.0 (2.1) 2.3 ± 0.7 (2.8) 1.6 ± 0.7 (0.9) 2.2 ± 0.7 (1.9)
Hüfte 2.0 ± 1.1 (2.1) 1.6 ± 0.9 (1.6) 2.1 ± 1.3 (2.6) 1.9 ± 1.1 (2.1)
Hüfte GZR 2.5 ± 0.9 (2.3) 2.0 ± 0.7 (1.1) 1.5 ± 0.3 (1.2) 2.0 ± 0.5 (1.5)
Knie 3.9 ± 1.8 (2.8) 3.9 ± 1.8 (2.8)
Knie GZR 3.6 ± 0.9 (2.4) 3.6 ± 0.9 (2.4)
Fuß/OSG 5.1 ± 3.7 (4.6) 3.2 ± 1.9 (1.7) 4.6 ± 2.6 (3.2)
Fuß/OSG GZR 2.7 ± 0.8 (2.5) 2.4 ± 0.9 (1.0) 2.6 ± 0.8 (1.8)
gesamt 3.1 ± 1.2 (2.6) 2.0 ± 0.9 (2.0) 2.4 ± 0.9 (2.3) 2.5 ± 0.8 (2.3)
gesamt GZR 2.9 ± 0.6 (2.3) 2.2 ± 0.9 (2.0) 1.9 ± 0.3 (1.1) 2.3 ± 0.5 (1.8)

Tabelle 7.3: Gemittelte Referenzabweichungen der Kinematikzeitreihen sowie deren Ge-


schwindigkeitszeitreihen (GZR) des ICP-Kollektivs und in Klammern eines ein-
zelnen Patienten (Patienten-ID 50504), jeweils zum prätherapeutischen Zu-
stand [258]

te > 10◦ im Kollektiv ICP-POST aufdeckt. Komplexere Zusammenhänge (wie z. B.


ein Zusammenhang für eine Patientensubgruppe mit Recurvatum in [258]) konnten
wegen der geringen Datentupelzahlen zwar vermutet, aber nicht mit akzeptablen sta-
tistischen Sicherheiten belegt werden.
Ein weiteres klinisch relevantes Problem ist die Suche nach unbekannten Pa-
tientengruppen. Sie ist ein Instrument, um heterogene Patientenkollektive sinnvoll
zu unterteilen und so einen Eindruck über voneinander abweichende Wirkungsme-
chanismen zu gewinnen. Je nach gewünschtem Ergebnis werden alle Zeitreihen,
eine Zeitreihe oder extrahierte bzw. transformierte Merkmale einbezogen. Solche
extrahierten oder transformierten Merkmale können sich auf alle Zeitreihen (z. B.
Raum-Zeit-Parameter, die das komplette Gangbild beinhalten) oder auf eine ein-
zelne Zeitreihe beziehen. Bild 7.9 zeigt ausgewählte Ergebnisse am Beispiel des
Clusterings der prätherapeutischen Patientendaten für die Zeitreihe ”OSG sag GZR”
(Bild 7.9a). Dazu werden zwei verschiedene Merkmalssätze verwendet:
• alle Abtastzeitpunkte der Zeitreihen in Bild 7.9a (s = 101) oder
• daraus berechnete transformierte Merkmale nach einer linearen Merkmalstrans-
formation durch eine Hauptkomponentenanalyse (sd = 2, Bild 7.9b).
Basierend auf beiden Merkmalssätzen werden mit einem Fuzzy-C-Means-
Algorithmus (FCM) unscharfe Clusterzugehörigkeiten (Bild 7.9c, d) und Cluster-
zentren gemäß (5.181) und (5.182) mit q = 2 berechnet. Während die Cluster-

255
7 Anwendungen

zugehörigkeiten bei der Variante mit 101 Merkmalen nahezu gleichverteilt sind
(Bild 7.9c), ergibt sich bei den zwei Merkmalen die erwünschte deutliche Unterschei-
dung (Bild 7.9d). Der Effekt äußert sich insbesondere bei der Verwendung der un-
scharfen Zugehörigkeiten mit einem Fuzzifier q = 2 in (5.181) zur Berechnung der
Clusterzentren. Selbst nach einer Diskretisierung mit q → 1 ergeben sich bei zwei
Merkmalen noch deutlich besser unterscheidbare Clusterzentren als bei der Variante
mit 101 Merkmalen (Bild 7.9e, f). Clusterzugehörigkeiten dienen dann wiederum als
neue Merkmale oder als Klassen in der Differentialdiagnose oder bei der Therapie-
evaluierung. Weitergehende Diskussionen finden sich in [258, 259, 262].

Die bisher für das ICP-Kollektiv beschriebene Methodik wird in [258] für die Pro-
blemstellungen Diagnose Patient – Proband und Therapieevaluierung bei inkomplett
gelähmten Querschnittpatienten vor und nach einer Laufbandtherapie angewendet.
Hierbei zeigt sich, dass erwartungsgemäß andere Merkmalslisten im Vergleich zu
ICP-Patienten entstehen. Insgesamt ist das Patientenkollektiv bei inkompletten Quer-
schnittlähmungen weniger klar von gesunden Probanden zu trennen. Die Ähnlichkeit
verstärkt sich, wenn die langsamere Gehgeschwindigkeit der Patienten dadurch be-
rücksichtigt wird, indem sie mit Probanden ähnlich langsamer Gehgeschwindigkeiten
verglichen werden. Eine umfassende Untersuchung solcher Geschwindigkeitseinflüs-
se bei gesunden Probanden und Querschnittpatienten auf eine Vielzahl von Merkma-
len findet sich in [395].

Einen anderen Ansatz für eine quantitative Patientenbewertung verwenden [115,


258]. Hier wurden durch drei Kliniker (Untersucher A, B und C, Mittelwert in M) Vi-
deodaten von Querschnittpatienten subjektiv ausgewertet. Sie quantifizierten das
Gangbild mit einer visuellen Analogskala (VAS) mit Werten zwischen Null (schlecht)
und Zehn (optimal). Nachfolgend wurde ein Regressionsproblem aufgestellt, um die
Werte von VAS aus gemessenen Merkmalen vorherzusagen. Als Bewertungsmaß
dient der Korrelationskoeffizient R, der aus der Berechnung des Bestimmtheitsmaßes
R2 in (3.76) hervorgeht. Hierbei zeigt sich, dass alle Untersucher sehr stark auf die
Geschwindigkeit achten. Es folgen klinische Merkmale wie die Lähmungshöhe oder
die eingestellte Gewichtsentlastung auf dem Laufband, die durch Erfahrungswerte
eingestellt wurde. Das beste Kinematik-Merkmal ist der Mittelwert der Referenzab-
weichungszeitreihen, der aus den sagittalen Gelenkwinkelzeitreihen von Hüfte, Knie
und oberem Sprunggelenk gebildet wurde (mittlere RZR sagittal). Ausgewählte Er-
gebnisse zeigt Tabelle 7.4. Die Korrelation steigt stark an, wenn nur Patienten oh-
ne Gewichtsentlastung betrachtet werden (R = 0.78 zu VAS M). Das deutet darauf
hin, dass die Patienten mit Gewichtsentlastung zwar ein scheinbar normales Gang-
bild aufweisen, aber dieses Gangbild nur unter Hilfestellung aufrechterhalten kön-

256
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

Cluster 1
Cluster 2
a. Zeitreihen Cluster 3 b. Transformierte Merkmale (HKA)
4

xTrans,HKA,2 (OSG sag GZR)


2
10
OSG sag GZR

0
5
−2

−4 0

−6
0 20 40 60 80 100 −8 −6 −4 −2 0 2 4
% Gangzyklus xTrans,HKA,1 (OSG sag GZR)
c. Clusterzugehörigkeiten (ZR) d. Clusterzugehörigkeiten (HKA)
1

3
1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
20 40 60 80 20 40 60 80

e. Clusterzentren für 3 Cluster (ZR) f. Clusterzentren für 3 Cluster (HKA)


3 3

2 2
OSG sag GZR

OSG sag GZR

1 1

0 0

−1 −1

−2 −2

−3 −3
0 20 40 60 80 100 0 20 40 60 80 100
% Gangzyklus % Gangzyklus

Bild 7.9: Clustering der Zeitreihe OSG sag GZR für die prätherapeutischen Patientendaten
(ICP-PRE) mit drei Clustern: a. originale Zeitreihen, b. zwei daraus durch Haupt-
komponentenanalyse transformierte Merkmale (HKA), c. unscharfe Clusterzugehö-
rigkeiten mit den 101 Abtastzeitpunkten der Zeitreihe als Merkmale, d. unscharfe
Clusterzugehörigkeiten mit den zwei Merkmalen aus b., e. Clusterzentren der dis-
kretisierten Cluster aus c. (q → 1), f. Clusterzentren der diskretisierten Cluster aus d.
(q → 1 )

257
7 Anwendungen

nen. Weitere umfassende Untersuchungen zur Diagnose und Therapieevaluierung


für ähnliche Patientenkollektive unter Einbeziehung von verschiedenen klinischen
Scores (VAS, Bewertungsbogen der American Spinal Cord Injury Association – ASIA,
Walking Index for Spinal Cord Injury – WISCI), Variabilitätsmaßen und der Geschwin-
digkeit enthält [19].

VAS Merkmal(e) R
VAS A Gehgeschwindigkeit 0.56
Gehgeschwindigkeit und Entlastung [kg] 0.70
mittlere RZR sagittal 0.62
VAS B Gehgeschwindigkeit 0.52
Gehgeschwindigkeit und Lähmungshöhe 0.68
mittlere RZR sagittal 0.55
VAS C Gehgeschwindigkeit 0.77
Gehgeschwindigkeit und Lähmungshöhe 0.81
mittlere RZR sagittal 0.64
VAS M Gehgeschwindigkeit 0.70
Gehgeschwindigkeit und Lähmungshöhe 0.76
mittlere RZR sagittal 0.64

Tabelle 7.4: Lineare Regression mit erreichten Korrelationskoeffizienten R zur Erklärung der
VAS mit den klinischen Parametern: Gewichtsentlastung, erreichte Gehdau-
er, Gehgeschwindigkeit, Halten am Barren links bzw. rechts, Lähmungshöhe,
Gehstrecke, Variabilität, Körpergewicht, Hilfsmittel rechter bzw. linker Fuß und
Kinematik-Einzelmerkmale, angegeben sind die beste univariate (ein Merkmal)
und bivariate Regression (zwei Merkmale) sowie die beste univariate Regression
mit einem Kinematik-Merkmal

Fragen einer Therapieauswahl sind anhand der hier vorliegenden Daten nicht zu
beantworten, weil keine Daten für andere Therapieoptionen vorliegen.
Ein Beispiel für ein entscheidungsunterstützendes System zur Operationsplanung
bei Multi-Level- und Multi-Joint-Operationen wird in [80, 81, 82] mit einem anderen
Datensatz vorgestellt. Data-Mining-Verfahren finden Regeln und Merkmalsregionen,
bei denen sich bestimmte Klassen von Operationen in ihrer Häufigkeit deutlich un-
terscheiden. Allerdings reicht die Güte nicht für eine automatisch generierte und de-
taillierte Empfehlung einer Operation für einen unbekannten Patienten aus. Solche
Probleme weisen oftmals eine sehr hohe Komplexität auf, weil sie durch viele Merk-
male beeinflusst werden, die nicht alle im Lerndatensatz enthalten sein müssen.

258
7.2 Entscheidungsunterstützung bei Bewegungsanalysen

7.2.3 Diskussion

Die Wahl eines geeigneten Kompromisses zwischen einer möglichst umfassenden


Untersuchung des potenziellen Merkmalsraums einerseits, sowie der Sicherung der
Interpretierbarkeit und der statistischen Signifikanz der Lösungen andererseits ist in
der Bewegungsanalyse der entscheidende Erfolgsfaktor. Eine unkritische Generie-
rung von Lösungen mit einem vollen Merkmalsraum führt zu fragwürdigen Lösungen,
weil schwer interpretierbare Merkmale die Lösung beeinflussen und somit zufällige
Effekte ungebremst auf die Lösung durchschlagen. Kleine Merkmalsräume durch ei-
ne individuelle Vorauswahl relevanter Merkmale bieten sich nur bei bekannten Pati-
entengruppen an und versperren zudem den Blick auf weitergehende Lösungen. Die
Einführung problemunabhängiger Merkmalspräferenzen zur Bewertung der mess-
technischen Zuverlässigkeit und der Interpretierbarkeit ist ein interessanter Ansatz
zur Lösung des Dilemmas, bedarf aber weitergehender Untersuchungen. Da die vor-
geschlagenen Data-Mining-Verfahren stets oberhalb des biomechanischen und neu-
rologischen Abstraktionsniveaus agieren, müssen die Ergebnisse nachfolgend auf
Plausibilität geprüft werden und möglichen Ursachen zugeordnet werden. Eine en-
gere Kopplung der Abstraktionsniveaus ist zwar wünschenswert, überschreitet aber
wegen der messtechnischen Restriktionen bei der Erfassung neurologischer und
muskulärer Größen, der fehlenden systematischen Kenntnisse und fehlender praxis-
tauglicher Softwarelösungen die heutigen Möglichkeiten erheblich. Rechenzeit- und
Implementierungsrestriktionen spielen hingegen nur eine untergeordnete Rolle, weil
leistungsfähige PC-Systeme zur Verfügung stehen und die anfallenden Rechenzeiten
bei der ohnehin aufwändigen Interpretation von Bewegungsdaten nicht ins Gewicht
fallen.
In den letzten Jahren wurden in Fachzeitschriften und Konferenzen Hunderte Ar-
beiten mit Ergebnissen von Data-Mining-Verfahren vorgestellt. Viele davon sind in
der Lage, relevante Zusammenhänge für die untersuchten Patientenkollektive auto-
matisch aus Daten zu extrahieren. Besonders verbreitet sind Problemstellungen der
Diagnose und der Therapieevaluierung. Hingegen existieren kaum Anwendungen zur
Therapieprognose und Therapieauswahl.
Der bisherige Einfluss der Ergebnisse auf die klinische Meinungsbildung ist
schwer abzuschätzen. Einige mit Data-Mining-Verfahren erzeugte Merkmale wie der
Normalcy-Index gewinnen zunehmend eine klinische Akzeptanz. Dennoch existiert
bisher weder in der Anwendungsphase zur Diagnose und Therapieplanung neuer
Patienten noch in der Entwurfsphase zur Generierung klinischen Wissens über Pa-
tientenkollektive eine routinemäßige Entscheidungsunterstützung mit Data-Mining-
Verfahren. Zudem ist die klinische Skepsis für die vorgeschlagenen Methoden bis-

259
7 Anwendungen

her noch erheblich. Eine Hürde liegt im Fehlen prospektiver kontrollierter klinischer
Studien, die Vor- und Nachteile entscheidungsunterstützender Systeme im Vergleich
zu einer rein manuellen Auswertung untersuchen. Eine weitere Ursache ist, dass
Data-Mining-Verfahren bislang noch nicht in die Softwarepakete der Hersteller von
Messsystemen eingebunden sind.

7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen

7.3.1 Aufgabenstellung

Myoelektrisch angesteuerte Unterarmprothesen (Fremdkraftprothesen) mit ein bis


zwei aktiven Freiheitsgraden sind eine wichtige Versorgungsoption bei Unterarmam-
putationen [13, 388]. Sie bestehen aus einem Prothesenschaft, einem in der Regel
drehbaren Handgelenk und einer Handprothese mit einem ästhetisch wirkenden Pro-
thesenhandschuh.
Hierbei erfassen zwei oberflächlich am Prothesenschaft angebrachte EMG-Sen-
soren elektrische Aktivierungssignale von Muskeln im Armstumpf (EMG: Elektromyo-
gramm). Die Bewegungsgeschwindigkeit der Prothese beim Öffnen und Schließen ist
proportional zur Amplitude der Sensorsignale, wobei jeder Sensor eine Bewegungs-
richtung steuert. Eine einfache Freigabelogik unterdrückt Rauschsignale und schaltet
optional durch Aktivieren beider Sensoren zwischen zwei Freiheitsgraden um.
Kommerziell angebotene Prothesen (z. B. von Otto Bock) verfügen lediglich über
eine Griffart (Pinzettengriff) und z. T. eine zusätzliche Drehung des Handgelenks. Für
eine befriedigende Abdeckung wichtiger Alltagsbewegungen sind aber mindestens
fünf Griffarten erforderlich (Bild 7.10).
Eine formale Erweiterung des bisherigen Steuerungskonzepts (mehr Freiheitsgra-
de, mehr Sensoren) stößt schnell an seine Grenzen: Einerseits sind nur wenige Pa-
tienten in der Lage, mehr als zwei Muskelgruppen im Armstumpf unabhängig von-
einander zu kontrahieren. Andererseits sind Sensoren teuer und der Bauraum in
der Prothese ist beschränkt. Die Probleme des Steuerungskonzepts verhindern ne-
ben weiteren Gründen (Gewicht, Kosmetik, Energieversorgungsprobleme) bisher den
technologischen Durchbruch für Prothesen mit einer akzeptablen Anzahl von Frei-
heitsgraden und Griffarten.
Die Situation stellt eine Herausforderung für Data-Mining-Verfahren dar. Hierbei ist
die Aufgabe zu lösen, einem Prothesenträger eine komfortable Auswahl und Bedie-
nung mehrerer Griffarten mit Muskelsignalen zu ermöglichen.
Teilziele sind
• eine sichere Erkennung von Griffarten,

260
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen

• eine hohe Robustheit gegen äußere elektromagnetische Störungen, zeitvariante


Änderungen der Signale und Bewegungsartefakte,
• eine Rückkopplung der aktuellen Situation der Prothese (insbesondere der auftre-
tenden Greifkräfte) für den Patienten,
• eine Teilautomatisierung von Greifaufgaben (z. B. Festhalten rutschender Objek-
te),
• ein geringer messtechnischer Aufwand (idealerweise Nutzung der vorhandenen
Sensoren) und
• eine Integration in eine Mikrocontrollerumgebung.

7.3.2 Methoden und Ergebnisse

Das anspruchsvollste der genannten Teilziele ist die Erkennung der gewünschten
Griffart aus den EMG-Signalen als ein spezielles Klassifikationsproblem zur Auswahl
von Steuerstrategien.
Üblicherweise werden die Muskelsignale in einer bipolaren Messanordnung auf-
genommen (Bild 7.11a), verstärkt und im Frequenzbereich gefiltert (z. B. durch eine
Bandsperre bei 50 Hz zum Unterdrücken von Netzstörungen). EMG-Signale erstre-
cken sich über einen Frequenzbereich von 10-1000 Hz, wobei sich ein Großteil in
einem breiten Bereich zwischen 30 und 300 Hz findet (Bild 7.11b). Oftmals schließt

Bild 7.10: Wichtige Griffarten für Alltagsbewegungen [363]

261
7 Anwendungen

sich eine Gleichrichtung (Bild 7.11c) und eine weitere Tiefpassfilterung und Verstär-
kung an, um Aktivitätssignale zu erzeugen (Bild 7.11d). Bei Prothesen erfolgen jene
Arbeitsschritte wegen des großen Rechenaufwands stets hardwareseitig im EMG-
Sensor [205]. Aufgrund der geringen Amplituden und der hohen Anfälligkeit gegen
elektromagnetische Störungen haben sich Sensoren durchgesetzt, die nur ein Akti-
vitätssignal messen und keine weiteren Differenzierungen (z. B. im Frequenzbereich)
zulassen. Solche Sensoren werden von erfahrenen Orthopädietechnikern eingestellt,
was die Platzierung der Sensoren auf dem Unterarmstumpf (und damit die Festle-
gung des Einbauortes im Prothesenschaft) und das Einstellen der Verstärkung jedes
Sensors umfasst. Bei Forschungsprojekten finden sich aber auch Lösungen, die un-
terschiedliche Frequenzen auswerten.
Zur Erkennung von Griffarten kristallisieren sich zwei Konzepte heraus (vgl. auch
Bild 4.5 auf Seite 91):
Das erste Konzept versucht, direkt aus originalen oder zusätzlichen gefilterten
EMG-Zeitreihen zu jedem Zeitpunkt eine Entscheidung über die Griffart und die je-
weils anzusteuernden Freiheitsgrade zu treffen [161, 333, 371]. Die Merkmalsextrak-
tion besteht folglich daraus, den aktuellen Abtastzeitpunkt der Zeitreihe als Merkmal
zu verwenden.
Das zweite Konzept wertet hingegen die Zeitreihen über einen bestimmten Zeit-
raum aus, erkennt Segmente und extrahiert daraus Einzelmerkmale [130, 183, 250,
365]. Der Zeitraum und die Segmentlängen werden entweder fest vorgegeben (z. B.
200 ms in [183] mit 50 ms Segmenten, 240 ms mit 40 ms Segmenten in [250]) oder
aus detektierten Ereignissen wie Schwellwertüberschreitungen und erkannten loka-
len Extrema ermittelt [373]. Typische extrahierte Merkmale sind Mittelwerte, mittle-
re Absolutwerte, die Anzahl von Nulldurchgängen bei nichtvorverarbeiteten EMG-
Signalen, Trends, geschätzte Standardabweichungen, Parameter von autoregressi-
ven Modellen, Wavelet-Koeffizienten usw.
Die Klassifikation erfolgt in einem nachfolgenden Schritt auf Basis der so extra-
hierten Merkmale mit Künstlichen Neuronalen Netzen (MLP-Netz: [183, 250, 333],
Kohonen-Karte: [132]), einer Diskriminanzanalyse [130, 131, 161] oder Fuzzy-
Regelbasen [92, 286, 371].
Einige Arbeiten werden im Folgenden detaillierter dargestellt. [161] zeichnet mit
sechs EMG-Sensoren über nahezu unabhängig aktivierbaren Muskelgruppen Phan-
tomhandbewegungen von vier Patienten auf und versucht, sechs verschiedene Griff-
arten zu unterscheiden. Der Begriff der Phantomhand bedeutet, dass ein Patient
noch über eine kognitive Repräsentation einer amputierten Hand verfügt und sich ih-
re Bewegungen vorstellen kann. In der Regel bewirken die Bewegungsvorstellungen

262
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen

Bild 7.11: a. EMG-Signal von musculus extensor digitorum, b. Spektrogramm, c. Gleichge-


richtetes EMG-Signal, d. Aktivitätssignal

auch auswertbare Signale an den zugehörigen Muskeln, soweit die noch vorhanden
und durch EMG-Sensoren erfassbar sind. Die EMG-Zeitreihen werden in Aktivitäts-
signale umgewandelt und für jeden Abtastzeitpunkt durch eine lineare Diskriminanz-
analyse ausgewertet (Konzept 1). Bei der Klassifikation sind simultane Erkennungen
von Klassen möglich, was auf eine Formulierung als sechs parallel auszuwertende
2-Klassen-Probleme (i-te Griffart ja – nein) hindeutet. Trainierte Patienten erreichen
Klassifikationsgüten von 77-100 %, allerdings z. T. mit unerwünschten simultan er-

263
7 Anwendungen

kannten weiteren Griffarten. Das Konzept ist nicht bei allen Patienten sinnvoll ein-
setzbar, weil die Operationstechnik bei der Amputation eine separate Aktivierung so
vieler Muskelgruppen erschwert, Phantomhandbewegungen nicht immer existieren
und ein hoher Trainingsaufwand erforderlich ist.
[183] arbeitet mit dem zweiten Konzept und demonstriert anhand der Daten von
zwölf Probanden und sechs Patienten mit einer Unterarmamputation dessen Funktio-
nalität. Der Ansatz verwendet mit 1 kHz abgetastete, vorverstärkte EMG-Signale ent-
sprechend Bild 7.11a. Das Überschreiten eines Amplitudenschwellwertes zu einem
Zeitpunkt t triggert die Auswertung eines Zeitfensters in einem Intervall [t − 50 ms,
t + 150 ms]. Das Zeitfenster wird in Segmente von 50 ms unterteilt. Die Merkmals-
extraktion berechnet für jedes Segment den mittleren Absolutwert, dessen Differenz
zum vorhergehenden Segment, durchschnittliche mittlere Änderungen sowie die An-
zahl von Nulldurchgängen und Richtungsänderungen. Somit werden 40 Merkmale
(2 EMG-Sensoren, 4 Segmente mit jeweils 5 Merkmalen) extrahiert. Die Klassifi-
kation der Griffart übernimmt ein MLP-Netz, das vier Griffarten unterscheidet. Für
vier Probanden und Patienten aus dem gleichen Datensatz gelingt es [92] mit einem
Neuro-Fuzzy-System, den Klassifikationsfehler über Testdaten von 11 % auf 9 % zu
reduzieren.
Das Konzept in [363, 367, 373] basiert auf einem Zustandsautomaten (Bild 7.12)
mit einem neutralen Zustand und my Bewegungszuständen, die Griffarten repräsen-
tieren.
Bild 7.13 zeigt einen typischen Bedienablauf. Die Auswahl von Griffarten erfolgt nur
im neutralen Zustand. Hier startet wie bei [183] die Auswertung beim Überschreiten
eines Schwellwertes im Aktivitätssignal eines EMG-Sensors. Das nachfolgende Zeit-
fenster hat eine variable Länge und wird anhand der Detektion lokaler Maxima und
Minima in bis zu vier variable Segmente unterteilt. Mit Segmentbeschreibungen wie
Zeitdauer des Segments, Mittelwert, Anzahl Durchgänge durch gefilterte Verläufe,
mittlere geschätzte Standardabweichung, Amplitude und Zeitpunkt lokaler Extrema
sowie verschiedener Verhältnisse entstehen insgesamt 108 Merkmale [366].
Für die nachfolgende Klassifikation zur Erkennung der Griffart werden verschie-
dene Methoden miteinander verglichen. Hierbei kommen sechs verschiedene Klas-
sifikatoren zum Einsatz, die sich bezüglich der Techniken und Bewertungsmaße zur
Merkmalsselektion (3.8), (3.69) und Merkmalstransformation (3.8), (3.70) sowie des
eigentlichen Klassifikators (3.68) unterscheiden:
• MAN/DA: Merkmalsselektion mit einer multivariaten Varianzanalyse (MANOVA)
von 108 auf acht Merkmale (5.23), (5.30), lineare Diskriminanzanalyse (DA) auf
zwei transformierte Merkmale mit (5.23) und Bayes-Klassifikator (5.46),

264
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen

2c Cc
Schließen Schließen

E11 E21 E11


E21 E12 E12
2d Cd
Öffnen E12 2b Cb E12 Öffnen
Warten Warten
E22 Griff- Griff- E22
art 2 art C
Preshape Preshape
2a Ca

Schalt- Schalt-
E11 signal 2 0a signal C E11
Preshape
Neu-
tral 0b
Warten

Schalt-
signal 1
E11 E12
1a
Preshape
Griff-
art 1 1b
Warten
E11
E12
1d E21 1c
Öffnen
E22
Schließen

Bild 7.12: Zustandsautomat zur Umsetzung von my = C Griffarten [367] unter Verwendung
von zwei EMG-Sensoren. Erkannte Ereignisse: E11 : Kontraktion von Muskel 1, E12 :
Kontraktion von Muskel 2, E21 : Relaxation von Muskel 1, E22 : Relaxation von Mus-
kel 2, E11 ∧ E12 : Kokontraktion

• MM/MD: modifizierte Merkmalsselektion (MM) von 108 auf sechs Merkmale mit
(3.56), modifizierte Merkmalstransformation (MD) auf zwei transformierte Merk-
male mit (3.56) und Bayes-Klassifikator (5.46),
• KO: Merkmalsselektion mit einer multivariaten Varianzanalyse von 108 auf sechs
Merkmale (5.23), (5.30), danach Berechnung separater Klassifikatoren für alle
möglichen 2-Klassen-Probleme (one-against-one), dazu jeweils eine Merkmalsse-
lektion von sechs auf drei Merkmale mit einer multivariaten Varianzanalyse, einer
linearen Diskriminanzanalyse auf ein transformiertes Merkmal mit (5.23) und ei-
nem Bayes-Klassifikator (5.46), in der Anwendungsphase schrittweises Ausschlie-
ßen von Klassen (KO: Knock-out) durch Auswerten der 2-Klassen-Probleme Sie-
gerklasse der vorherigen Auswertung – noch nicht getestete Klasse,

265
7 Anwendungen

Kokon- Schalt- Kokon- Schalt- Bewegungs-


traktion signal 1 Bewegungssignal traktion signal 2 signal
2
Sensor
1 1
Spannung [V]

0
2
Sensor
1 2

0a E11 E21 E12 E22 E12 E22 E11 E21


0b
Zustand

1a
1b
1c
1d
2a
2b
2c Zeit
Pumpenspannung

V1
Ventil- und

V2
V3
V4
V5
V6
P
Zylindergriff Hakengriff Lateralgriff

Bild 7.13: Myoelektrisches Signal zur Umsetzung von Bewegungsmustern unter Verwendung
von zwei EMG-Sensoren [363]

• Fuzzy: Entwurf eines Fuzzy-Klassifikators entsprechend Abschnitt 5.5.5 (Bild 5.19)


ohne explizite Merkmalsselektion,
• KNN: Merkmalsselektion mit einer multivariaten Varianzanalyse von 108 auf acht
Merkmale (5.23), (5.30), danach Entwurf eines MLP-Netzes entsprechend Ab-
schnitt 5.6 mit my separaten Ausgangsneuronen,
• SVM: Entwurf von Support-Vektor-Maschinen für alle 2-Klassen-Probleme und
Zusammenfassung der Ergebnisse entsprechend Abschnitt 5.3, keine vorherige
Merkmalsselektion.

266
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen

Die unterschiedlichen Parametrierungen sind Ergebnisse von heuristischen Einstel-


lungen, um für das jeweilige Verfahren den Klassifikationsfehler über der Crossvali-
dierung zu minimieren.
Tabelle 7.5 zeigt die Ergebnisse einer Erprobung des Konzepts anhand eines
Patientenkollektivs aus 17 Patienten (Amputationshöhe: 14 Unterarm, 2 Oberarm,
1 Hand) [363, 460]. Die Ergebnisse weisen zwar patientenspezifische Unterschie-
de, aber eine Tendenz zugunsten von SVM und (mit Abstrichen) KO und KNN auf.
MAN/DA hat Probleme mit der Unterscheidung ähnlicher Klassen, die durch die ent-
sprechenden Bewertungsmaße nicht gezielt angegangen werden (vgl. Diskussion
auf S. 115). Zudem beeinträchtigen deutliche Verletzungen der Normalverteilungs-
annahme die Ergebnisse von MAN/DA und MM/MD. Für MM/MD reichen die klei-
nen Datentupelzahlen nicht aus, um die Auswahl irreführender nicht normalverteil-
ter Merkmale zu unterdrücken. Der Fuzzy-Klassifikator scheitert an stark korrelierten
Merkmalen. Weiterführende Probanden- und Patiententests unter Berücksichtigung
von Zeitvarianzen werden in [162] vorgestellt.
Für die zusammenfassende quantitative Bewertung wird in [363] eine Gesamt-
präferenz namens MMI-Index verwendet, die u. a. problemspezifische Präferenzen
für Klassifikationsfehler und den Implementierungsaufwand multiplikativ zusammen-
fasst. Die Vorgehensweise ähnelt somit (3.88). Für einen Einsatz in einer Mikrocon-
trollerumgebung scheiden KNN und SVM wegen des erforderlichen hohen Rechen-
aufwands aus. Die beste Gesamtpräferenz hat KO gefolgt von MM/MD. Umfangreiche
Betrachtungen zur Mikrocontroller-Implementierung finden sich in [144, 363].
Nach Erkennen eines Schaltsignals geht die Prothesensteuerung vom neutralen
Zustand in den Preshape-Zustand der erkannten Griffart über. Im neutralen Zustand
bewegt die Unterarmprothese alle Finger programmgesteuert in eine geeignete Start-
position für die folgende Bewegung (z. B. Zylindergriff: Oppositionsstellung des Dau-
mens), was dem Anwender zugleich ein Feedback über die erkannte Griffart gibt. Für
eine Griffart werden die entsprechenden Freiheitsgrade gekoppelt. Die Kopplung er-
folgt für die verwendete Prothese mit hydraulisch betriebenen Aktoren [408] durch ein
gleichzeitiges Öffnen von Ventilen Vi (Bild 7.14). Durch das Kontrahieren von Mus-
kelgruppen (z. B. Flexoren und Extensoren des Unterarms, Biceps und Triceps des
Oberarms) öffnet und schließt der Anwender den gewählten Griff (Ereignisse Ei j :
Start-Stopp-Erkennung). Die Amplitude des Aktivitätssignals steuert die Geschwin-
digkeit bzw. Kraft der Bewegung (hier: Förderrichtung und -geschwindigkeit einer
Pumpe P).
Eine Kokontraktion führt in den neutralen Zustand zurück, die Prothese öffnet sich
und wartet auf ein weiteres Schaltsignal. Um eine Griffart zu wechseln, ist somit eine

267
7 Anwendungen

Patient my MAN/DA MM/MD KO Fuzzy KNN SVM


sm 8 6 6 bzw. 3 108 8 108
sd 4 3 1 - - -
A 6 5.5 ± 1.3 4.3 ± 1.6 2.3 ± 0.8 7.0 ± 2.8 3.6 ± 1.5 2.3 ± 0.4
B 4 7.4 ± 2.0 11.1 ± 3.9 9.6 ± 2.5 5.7 ± 1.6 7.8 ± 2.7 9.9 ± 1.2
C 8 11.2 ± 2.8 13.4 ± 3.1 7.5 ± 2.5 10.6 ± 2.6 9.7 ± 3.0 4.0 ± 0.7
D 8 6.1 ± 1.7 5.6 ± 1.8 2.9 ± 1.5 10.6 ± 2.1 3.0 ± 1.2 0.9 ± 0.2
E 7 11.7 ± 1.6 10.5 ± 2.2 7.5 ± 2.1 11.3 ± 2.7 11.3 ± 1.9 8.3 ± 1.2
F 5 5.8 ± 0.5 8.3 ± 1.8 7.5 ± 1.6 8.5 ± 3.8 4.5 ± 1.8 5.0 ± 0.6
G 5 9.2 ± 1.9 5.9 ± 2.2 4.2 ± 2.2 6.4 ± 2.3 5.7 ± 1.8 1.9 ± 0.0
H 5 8.6 ± 1.6 7.4 ± 2.7 6.3 ± 2.7 15.6 ± 5.4 12.2 ± 2.8 8.0 ± 1.1
I 5 0.0 ± 0.3 5.0 ± 3.0 2.6 ± 2.0 11.5 ± 5.1 0.7 ± 1.1 0.0 ± 0.0
J 6 1.5 ± 1.5 3.0 ± 1.9 2.2 ± 1.7 24.0 ± 5.5 3.8 ± 2.0 0.2 ± 0.6
K 4 7.6 ± 1.5 8.7 ± 2.6 6.6 ± 1.8 9.7 ± 4.2 6.0 ± 2.2 6.0 ± 1.1
L 7 5.4 ± 0.9 3.4 ± 1.1 4.1 ± 0.7 6.2 ± 2.7 3.3 ± 0.8 1.9 ± 0.0
M 5 7.5 ± 1.7 7.4 ± 2.0 5.9 ± 1.8 8.8 ± 3.2 8.1 ± 2.2 5.4 ± 1.0
N 5 7.8 ± 2.1 5.7 ± 2.4 4.8 ± 1.7 9.7 ± 4.1 9.7 ± 2.1 1.7 ± 0.9
O 6 6.9 ± 2.3 10.2 ± 2.1 8.9 ± 1.9 17.4 ± 6.3 6.8 ± 2.2 5.5 ± 1.0
P 4 4.5 ± 1.6 4.5 ± 1.7 3.9 ± 1.4 4.3 ± 2.1 5.4 ± 1.9 4.9 ± 0.9
Q 4 8.7 ± 1.9 8.2 ± 2.7 7.3 ± 2.8 14.7 ± 4.2 4.5 ± 1.9 3.1 ± 1.3
Ø 5.5 6.8 7.2 5.5 10.7 6.2 4.0

Tabelle 7.5: Klassifikationsfehler der Klassifikatoren bei Verwendung von Patientendaten mit
Training (50 Wiederholungen einer 10-fachen Crossvalidierung) (Daten aus [363],
ohne Probanden)

Kokontraktion und ein Schaltsignal zu generieren. Das Konzept eignet sich für belie-
bige Schaltsignale, wenn sie vom Patienten reproduzierbar sind und die extrahierten
Merkmale zu ihrer Beschreibung ausreichen.
Die erzeugten Muskelsignale hängen von verschiedenen zeitvarianten technischen
(z. B. Schweißfilm unter den Sensoren, Akku-Versorgungsspannungen) und persön-
lichen (z. B. Motivation, Tagesform, Konzentration, Muskelermüdung, Trainingszu-
stand) Einflussfaktoren von Prothese und Prothesenträger ab. Die einmalige Auf-
zeichnung von Schaltsignalen in einer Aufnahmesitzung erfasst folglich nur einen
nicht repräsentativen Ausschnitt der auftretenden Signale.
Das führt in der Regel zu schlechten Klassifikationsergebnissen bei der Erkennung
von Schaltsignalen bei einer nachfolgenden Anwendung an anderen Tagen (z. B. An-
stieg der Klassifikationsfehler von etwa 5 % in der Crossvalidierung der Aufnahme-
sitzung auf 20-30 % in einer nachfolgenden Sitzung [162]). Diese Situation kann nur

268
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen

V2
Griff Preshape Bewegung
V1 V6 Zylindergriff V5, P+ V1-4, V6, P±
V4 Zeigefingerstellung V1, V6, P+ keine
V3 Lateralgriff V1-3, V6, P+ V4-5, P±
Pinzettengriff V5, P+ V3, P±
V5 Hand neutraler Zustand V1-6, P− keine

Bild 7.14: Gekoppelte Freiheitsgrade der Prothese: Ventile V1, V4, V6 bedienen mehrere
Fluidaktoren gleichzeitig, das Öffnen zusammengehöriger Ventile führt zur Aus-
führung von Griffarten, die Förderrichtung der Pumpe (P+: in Richtung Aktor, P−:
aus Aktor heraus) bewirkt ein Öffnen oder Schließen, Hakengriff: Preshape des
Lateralgriffs [362]

durch die Zusammenfassung von verschiedenen Aufnahmesitzungen an verschiede-


nen Tagen zu einem Lerndatensatz erfolgreich gelöst werden (z. B. Klassifikations-
fehler unter 10 % bei nachfolgenden Sitzungen bei der Verwendung von Lerndaten
aus zwei Aufnahmesitzungen [162]). Dabei erfolgt eine Selektion anderer Merkmale
(z. B. die Bevorzugung relativer Zeitdauern oder Amplituden) als bei einer Aufnahme-
sitzung.
Wenn das Aufzeichnen mehrerer Sitzungen aus Aufwandsgründen nicht möglich
ist, bringt die Bevorzugung besonders robuster Merkmale durch Merkmalspräferen-
zen oder eine künstliche Erweiterung des Lerndatensatzes durch abweichende Si-
gnale eine zumindest verbesserte Erkennung im Vergleich zu einer einmaligen Auf-
nahmesitzung. Detaillierte Erläuterungen der Trainingsparadigmen und der erreich-
ten Ergebnisse werden in [162, 363] vorgestellt.
Neben der Erkennung von Griffarten ist die Teilautomatisierung von Greifaufgaben
(z. B. Festhalten rutschender Objekte) ein weiterer Schwerpunkt bei Unterarmpro-
thesen, was allerdings die Integration von Sensoren in eine Prothese voraussetzt.
Danach besteht die Aufgabe darin, bestimmte Situationen (wie ein rutschendes Ob-
jekt) richtig zu erkennen und entsprechend zu reagieren. Dazu sind Sensorsigna-
le von Kraftsensoren [275, 276, 357], Beschleunigungssensoren an der Prothesen-
haut [182] oder akustischen Sensoren [240] auszuwerten.
In der Entwurfsphase ist eine Kalibrierung und Anpassung von Schwellwerten an-
hand von Messdaten erforderlich, was auf Regressions- und Klassifikationsproble-
me (Kontakt – kein Kontakt) führt [41, 275]. Eine kommerziell verfügbare Lösung ist
die überlagerte Griffsteuerung in der Sensorhand von Otto Bock, die über einen mi-

269
7 Anwendungen

niaturisierten taktilen Rutschsensor zur Messung der Kraft und der Kraftrichtung im
Daumen sowie einen weiteren Kraftsensor zur Messung der Handkraft zwischen Fin-
ger und Daumen verfügt [357, 388]. Ein Mikrocontroller übernimmt die Auswertung
der Sensorsignale sowie die unterlagerte Steuerung und Regelung. [250] integriert
einen akustischen Rutschsensor in die Prothese und unterscheidet sensorbasiert
die Zustände Positionieren, Berühren, Halten, Zudrücken und Freilassen (SAMS:
Southampton Adaptive Manipulation Scheme). Die Implementierung erfolgt auf ei-
nem Digitalen Signalprozessor (DSP).
Einen Prototyp für eine Rückkopplung der Greifkräfte einer Prothese zum Patien-
ten stellt [311] vor. Das Ziel besteht darin, feinfühligere Prothesenbewegungen zu er-
möglichen, die sich näher am biologischen Vorbild einer eher taktilen Wahrnehmung
beim Greifen orientieren. Das Konzept beruht auf vibrotaktilen Aktoren im Prothesen-
schaft und einer Kraftmessung an den Fingern der Prothese mit den bereits oben
erwähnten Kraftsensoren. Eine gute Patientenakzeptanz setzt schmerzlose, aber zu-
verlässig wahrnehmbare vibrotaktile Reize sowie eine sichere Kontakterkennung zur
Vermeidung fehlerhafte Reize voraus. Das erfordert wiederum eine umfassende Mo-
dellierung des Übertragungsverhaltens der vibrotaktilen Aktoren, der Haut sowie der
entsprechenden menschlichen Wahrnehmung (z. B. Unterscheidbarkeit von Reizen)
mit Regressionsansätzen auf der Basis von Patienten- und Probandendaten. Eine
Mikrocontrollerimplementierung des Konzepts [226, 363] ermöglicht den Prothesen-
einsatz.

7.3.3 Diskussion

Zum gegenwärtigen Zeitpunkt gibt es noch keinen kommerziell erfolgreichen Einsatz


myoelektrischer Unterarmprothesen mit einer Vielzahl von Freiheitsgraden und den
zugehörigen Steuerungskonzepten. Das derzeit am weitesten fortgeschrittene Kon-
zept (5-Finger-Hand i-LIMB der schottischen Fa. Touch Bionics2 ) ist erst seit 2008 auf
dem Markt und verwendet ein einfaches dezentrales Steuerungskonzept, bei dem
jeder Finger beim Schließen der Hand ab bestimmten gemessenen Kontaktkräften
stoppt. Das ermöglicht über Trickbewegungen verschiedene Griffarten. Alle anderen
laufenden Entwicklungen befinden sich zwischen Laborversuchen mit gesunden Pro-
banden und ersten klinischen Voruntersuchungen am Patienten.
Data-Mining-Verfahren dienen hier sowohl zur Unterstützung der Entwicklungspha-
se (z. B. bei der Modellierung der zugrundeliegenden Zusammenhänge) als auch zur
patientenindividuellen Anpassung von Prothesen. Eine zumindest teilautomatisierte
patientenindividuelle Anpassung stellt einen entscheidenden Erfolgsfaktor zur Eta-
2
[Link]

270
7.4 Brain Machine Interfaces

blierung solcher Konzepte dar, weil sich die anatomischen Voraussetzungen und die
Steuersignale für die Prothese von Patient zu Patient stark unterscheiden.
Eine Vielzahl von Laborversuchen führte in technologische Sackgassen, weil zu
komplizierte Lösungen angestrebt und Patienten überhaupt nicht oder in zu geringem
Umfang in die Entwicklungen einbezogen wurden. Die Erfolgschancen laufender Pro-
jekte sind um so höher einzustufen, je realitätsnäher das entwickelte Gesamtszenario
unter Beachtung der Hardwarerestriktionen bei einer Mikrocontrollerimplementierung
sowie der Trainings- und Einstellstrategien ist. Die bisher durchgeführten klinischen
Vorversuche lassen eine gute Erfolgschance erwarten. Sie zeigen aber auch, dass zu
stark vereinfache Lösungen die vom Patienten erwartete Funktionalität nicht leisten
können. Allerdings ist immer das Medizingerät als Gesamtsystem am Markt erfolg-
reich oder nicht. Es kann sowohl an der Einsatzreife der mechanischen und elek-
trischen Komponenten, am Steuerungskonzept, an Zertifizierungsfragen und nicht
zuletzt auch an ökonomischen Fragen wie dem erzielbaren Preis und dem Misserfolg
des Marketing-Konzepts scheitern.

7.4 Brain Machine Interfaces

7.4.1 Aufgabenstellung

Der Begriff Brain Machine Interfaces (BMI) fasst alle Mensch-Maschine-Schnittstellen


zusammen, bei denen ein technisches System direkt durch elektrisch oder magne-
tisch erfasste Hirnpotenziale angesteuert wird (siehe z. B. [121, 277, 473] für einen
Überblick). Brain Computer Interfaces (BCI) sind spezielle BMIs, bei denen das tech-
nische System ein Computer ist.
Ein Haupteinsatzgebiet von Brain Machine Interfaces sind Kommunikationsgerä-
te für Locked-In-Patienten, die sich wegen der Lähmung nahezu aller Muskeln nur
noch so mit ihrer Umgebung verständigen können. Eine typische Ursache ist eine
Amyotrophe Lateralsklerose (ALS) (Prävalenz: 4-7/100000), bei der Motoneuronen
degenerieren, was zu Spastiken und Paresen der betroffenen angesteuerten Musku-
latur führt [198]. Hier spielen insbesondere virtuelle BMI-Keyboards eine Rolle, die
ein Schreiben von Texten durch Auswahl von Buchstaben an einem Computer er-
möglichen.
Außerdem existieren mittel- bis langfristige Zielstellungen wie das Bedienen eines
Rollstuhls [304, 441] oder das Extrahieren von Bewegungsabsichten für Neuropro-
thesen [243, 244, 318, 353].
Messbare Hirnsignale entstehen hauptsächlich durch extra- und intrazelluläre Strö-
me der Pyramidenzellen in der Hirnrinde. Die wichtigsten Informationen sind in örtlich

271
7 Anwendungen

und zeitlich abhängigen Leistungsdichten bei bestimmten Frequenzen enthalten. Die


örtliche Zuordnung bestimmter Prozesse zu Hirnregionen, die relevanten Frequenz-
bänder (Tabelle 7.6) und Grundprinzipien der örtlichen und zeitlichen Abfolge beim
Vorstellen und Ausführen von Bewegungen sind im Wesentlichen bekannt.
Zeitliche Abläufe umfassen u. a. langsame Potenzialänderungen (engl. SCP: slow
cortical potentials) oder ereignisabhängige Erhöhungen (engl. ERS: event-related
synchronization) oder Reduzierungen der Leistungsdichte (engl. ERD: event-related
desynchronization) für bestimmte Frequenzen (siehe z. B. [352]). Spezielle Mecha-
nismen sind P300 (positiver Peak ca. 300 ms nach einem unerwarteten Ereignis,
Synonym: oddball response), N300 oder N400 (negative Peaks ca. 300 ms bzw.
400 ms nach einem Ereignis) oder Bereitschaftspotenziale (langsam betragsmäßig
zunehmende negative Potenziale vor der Ausführung einer geplanten Bewegung).

Name Frequenzen Amplitude Anmerkungen


in [Hz] in [µ V ]
langsame Potenzial- Erregungen und Hemmungen
änderungen (SCP)
δ -Wellen 0.5-3 5-250 Schlaf
θ -Wellen 4-7 20-100 Schlaf
µ -Wellen 7-12 20-120 Bewegungen, Bewegungsvor-
stellungen (insbesondere
motorischer oder somato-
sensorischer Kortex)
α -Wellen 8-13 20-120 wacher Ruhezustand
(insbesondere visueller Kortex)
β -Wellen 14-30 5-50 Aufmerksamkeit und Lernen
γ -Wellen 31-60 ca. 10 Aufmerksamkeit und Lernen

Tabelle 7.6: Typische EEG-Signale bei Erwachsenen (nach [246, 403, 473])

Solche Informationen gestatten allerdings nur grobe Schlussfolgerungen (z. B. un-


terschiedliche Wach- oder Schlafzustände, aktive Regionen) und sind zudem durch
eine Vielzahl nebenläufiger Prozesse überlagert. Zudem bestehen beträchtliche indi-
viduelle Unterschiede. Die Ausnutzung solcher Effekte für Brain Machine Interfaces
erfordert deshalb stets einen patientenindividuellen Entwurf. Die entsprechenden Si-
gnale können über Bewegungsvorstellungen beeinflusst werden. Eine gute Repro-
duzierbarkeit bei einer willkürlichen Ansteuerung stellt sich meist erst nach einem
umfangreichen Training ein.

272
7.4 Brain Machine Interfaces

rechts links
Abkürzungen und Symbole
O2 O1
A: aurikulär
(auf das Ohr bezogen)
T6 P4 Pz P3 T5 F: frontal
Fp: fronto-polar
A2 A1 T: temporal (Schläfe)
T4 C4 Cz C3 T3
C: central
P: parietal (Scheitelbein)
O: occipital (Hinterkopf)
F8 F4 Fz F3 F7
Z: zero (Mitte)
gerade Nummern: rechts
Fp2 Fp1
ungerade Nummern: links

Nase

Bild 7.15: International standardisiertes Schema zur Anbringung von 21 EEG-Sensoren bei
Draufsicht auf den Kopf mit Bezeichnung der Sensorpositionen. Erweiterungen be-
halten diese Bezeichnungen bei.

Zur Erfassung von Hirnsignalen dominieren oberflächlich angebrachte EEG-


Sensoren (Synonym: EEG-Elektroden, EEG: Elektroencephalogramm), die entspre-
chend einem international standardisierten Schema über bestimmten Hirnregionen
befestigt werden (Bild 7.15). EEG-Sensoren messen Summenpotenziale über eine
relativ große Anzahl von oberflächennahen Neuronen, die zudem durch dazwischen-
liegende Schichten (insbesondere die Schädeldecke) tiefpassgefiltert werden. Pro-
blematisch ist der große Einfluss elektromagnetischer Störungen, die aus anderen
bioelektrischen Zeitreihen (z. B. Augenbewegungen, andere Muskelaktivierungen)
oder äußeren Störquellen (z. B. Mobiltelefone, Straßenbahnen) resultieren.
Invasiv angebrachte Sensoren, die als flaches Sensorfeld direkt unter der Schädel-
decke (ECoG: Elektrokortikographie) oder als Nadelelektroden angebracht werden,
bringen eine wesentlich bessere Signalqualität (bessere Ortsauflösung, geringere
Dämpfung hochfrequenter Signale). Tierversuche zur Korrelation von Hand- oder
Armbewegungen mit Hirnpotenzialen bei Affen mit invasiven Sensoren [120, 283,
466] zeigen die Fähigkeit der Affen zur willkürlichen Steuerung von Objekten auf
einem Computermonitor und bei der Ansteuerung eines Roboterarms zur Aufnah-
me von Futter [456]. Eine zusätzliche simultane Erfassung von EMG- und ECoG-
Signalen ermöglicht eine weitere Analyse. Zunehmend existieren auch erste Hu-

273
7 Anwendungen

manversuche als Kurzzeitmessungen mit Epilepsiepatienten als ”Probanden” [34]3 ,


bei einem Tetraplegiker zur Ansteuerung von Computern oder dem Öffnen und
Schließen einer Handprothese [169] oder als Langzeitmessungen (>4 Jahre) bei
zwei ALS-Patienten [211]. Derzeit stellen sie wegen der nicht erwiesenen Langzeit-
Biokompatibilität und der geringeren Patientenakzeptanz aber noch keine vollwertige
Alternative dar.
Prinzipiell sind auch BMIs auf der Basis von MRT-Bildern und PET-Bildern denkbar,
was aber wegen des immensen gerätetechnischen Aufwands ausscheidet. Solche
Untersuchungen kommen eher bei der Grundlagenforschung zur Aufklärung von pa-
thologischen oder nichtpathologischen kortikalen Wirkungsmechanismen (z. B. Be-
wegungsplanung, Phantomschmerzen) und zur Diagnostik bei neurologischen Er-
krankungen (z. B. Parkinson, Epilepsie) oder neurologischen Nebenwirkungen ande-
rer Erkrankungen (z. B. bei Hirntumoren) zum Einsatz.
Der folgende Abschnitt beschreibt eine Auswahl relevanter Arbeiten zu Klassifikati-
onsproblemen mit EEG-Sensoren sowie die darin enthaltenen Methoden und Ergeb-
nisse. Eine umfassendere Literaturübersicht gibt z. B. [277].

7.4.2 Methoden und Ergebnisse

Bei Kommunikationsgeräten für Locked-in-Patienten mit einem BMI ist das wichtigs-
te Erfolgskriterium zum Schreiben von Texten die erreichbare Anzahl von richtig er-
kannten Zeichen pro Minute. Dabei auftretende Klassifikationsfehler muss der Pati-
ent durch geeignete Maßnahmen korrigieren. Ein gutes System wählt somit einen
geeigneten Kompromiss aus einer schnellen Klassifikation und geringen Klassifikati-
onsfehlern aus. Da die Zahl unterscheidbarer Klassen stets kleiner als die Zahl der
Buchstaben ist, muss der Auswerteprozess in eine geeignete Sequenz von Klassifi-
kationsproblemen gegliedert werden.
Viele Arbeiten stützen sich auf die willkürliche Beeinflussung von langsamen
Potenzialänderungen (SCP) [50]. Solche Systeme verwenden die EEG-Sensoren C3,
C4, Cz, F3, F4, Pz (vgl. Bild 7.15) und erfordern Auswahlzeiten von ca. 4-6 Sekunden
pro Klassifikation. Die EEG-Signale werden gefiltert und durch Schwellwerte ausge-
wertet. Wichtig ist hier die automatische Korrektur von störenden Augenbewegungen.
Das System erreicht je nach Patient Klassifikationsgüten zwischen 75 und 90 %, was
etwa zwei Buchstaben pro Minute ermöglicht. [51] stellt die klinische Erprobung für
11 Patienten (darunter 9 ALS-Patienten) vor.
3
Die Messungen entstanden als zusätzlicher Versuch bei einer Kurzzeitimplantation, die auf die Su-
che nach Zentren für epileptische Anfälle zielte.

274
7.4 Brain Machine Interfaces

[397] verwendet zwei EEG-Sensorpositionen (C3, Cz oder C4 mit optionalen Modi-


fikationen) zur Vorstellung einer linken bzw. rechten Handbewegung und einer Fuß-
bewegung (3 Klassen). Aus diesen Signalen werden über zwei Filter patientenin-
dividuell spektrale Leistungsdichten als Merkmale gewonnen. Die Parametrierung
der Filter erfolgt über Genetische Algorithmen und erlaubt eine Interpretation als
Merkmalsselektion über der Menge aller zulässigen Merkmale. Die Klassifikation ba-
siert auf einer Dekomposition in drei 2-Klassen-Probleme (linke Hand – Fuß, rech-
te Hand – Fuß, linke Hand – rechte Hand; Dekomposition mit one-against-one) mit
jeweils einer linearen Diskriminanzanalyse. Auszuwählende Buchstaben und Steu-
ersignale wie ”OK” und ”Delete” erscheinen auf der linken und rechten Seite eines
Bildschirms. Eine erkannte Fußbewegung bewegt den Cursor nach unten, die er-
kannten Handbewegungen nach links und rechts. Beim Erreichen eines Buchstabens
oder Steuersignals erfolgt eine Auswahl. So werden bei drei gesunden Probanden
Erkennungsraten von 2 Zeichen pro Minute (etwa 10 Bit/Minute bei einem etwaigen
Kodierungsbedarf von 5 Bit pro Buchstabe = 25 = 32 Buchstaben) beim Schreiben
von Wörtern erreicht. Diese Algorithmen wurden mit Erkennungsraten von 0.2-2.5
Zeichen pro Minute auch für einen nahezu vollständig gelähmten Patienten mit Zere-
bralparese eingesetzt [328].

[52] beschreibt ein System, das aus den Signalen von 27 EEG-Sensoren eines
gesunden Probanden drei Klassen (links, rechts, keine Aktivität) erkennt und so
Prognosen zu Fingerbewegungen beim realen Betätigen von zwei Tasten einer her-
kömmlichen Computertastatur abgibt (N = 516 Tastaturbetätigungen). Die Merkma-
le entstehen aus einer Abtastung mit 100 Hz, einer Tiefpassfilterung mit 5 Hz und
einem Downsampling auf 20 Hz durch Mittelung von fünf gefilterten Werten. Als
Klassifikatoren kommen eine lineare Diskriminanzanalyse (z. T. optional mit einer zu-
sätzlichen Regularisierung und Merkmalsselektion), Support-Vektor-Maschinen und
ein Nearest-Neighbor-Klassifikator zum Einsatz. Das System ist in der Lage, Be-
wegungsabsichten (Bereitschaftspotenziale) etwa 120 ms vor der Bewegungsaus-
führung zu erkennen. Alle Klassifikatoren außer den deutlich abfallenden Nearest-
Neighbor-Klassifikatoren liefern etwa gleichwertige Ergebnisse (Klassifikationsfehler
ca. 3-4 %). Für einen zukünftigen Patienteneinsatz (z. B. ALS-Patienten) ist allerdings
die Tatsache zu hinterfragen, ob mit einer reinen Vorstellung der Bewegung die glei-
chen Resultate zu erzielen sind.

Eine Untersuchung mit acht Probanden und leicht modifizierten Algorithmen


(u. a. eine Selbstdetektion von Fehlern aus dem EEG-Signal der Probanden) be-
schreibt [53]. Insgesamt werden Bitraten von 6-25 Bit pro Minute bei sechs Proban-
den und von über 50 Bit pro Minute bei zwei weiteren Probanden erreicht. Allerdings

275
7 Anwendungen

finden sich keine Angaben über die erreichte Güte beim Schreiben von Wörtern. Die
gleiche Gruppe berichtet in späteren Arbeiten [315] über ein System mit 118 EEG-
Elektroden, das bei zwei Probanden 2.3 bis 7.3 Zeichen pro Minute erreicht.
[241] erprobt BCIs mit Support-Vektor-Maschinen und 39 EEG-Sensoren anhand
acht gesunder Probanden. Die EEG-Sensoren mit den besten Positionen werden
anhand der Klassifikationsergebnisse probandenspezifisch ausgewählt.
Erste Erfolge zum Extrahieren von Bewegungsabsichten für die Elektrostimulati-
on einer Neuroprothese für einfache Greiffunktionen zeigt [354] am Beispiel eines
Patienten mit einer hohen Querschnittlähmung (vollständige Lähmung ab Halswirbel-
segment C5, inkomplette Lähmung ab Halswirbelsegment C4). Mit Hilfe von zwei bi-
polaren EEG-Sensoren (modifizierte Positionen nahe den Sensorpositionen C3 und
Cz) gelingt die Ansteuerung einer Neuroprothese mit vier oberflächlich angebrachten
Stimulationselektroden am Unterarm.
Das System verfügt über fünf stets aufeinander folgende Griffphasen. Jeder Pha-
senübergang wird durch ein EEG-Aktivitätssignal ausgelöst, wobei ein Mindestzeitab-
stand von 5 s erforderlich ist, um unerwünschte Phasenübergänge zu vermeiden.
Somit reicht eine Erkennung von zwei Klassen (Aktivitätssignal – kein Aktivitätssi-
gnal) aus. Als Merkmale kommen aktuelle Werte von Zeitreihen (jeweils spektrale
Leistungsdichten in Frequenzbereichen 15-19 Hz und 20-60 Hz) zum Einsatz, die
durch eine Diskriminanzanalyse ausgewertet werden. Bei der Auswahl der Merkma-
le ist hier insbesondere auf eine geringe Beeinflussung durch die hohen Störsignale
durch die Elektrostimulation zu achten. Mittelfristig ist die routinemäßige Kopplung
mit implantierten Neuroprothesen wie dem Freehand-System anzustreben.
Einen ersten Patientenversuch mit einem ähnlichen Steuerungskonzept (drei auf-
einander folgende Griffphasen) zeigt [318, 392]. Entsprechende Grundlagenuntersu-
chungen stellt [313] dar, die sich mit den Feedback-Reaktionen von neun gesunden
Probanden auf eigene Handbewegungen und durch eine Elektrostimulation ausge-
löste Handbewegungen befassen. Relevante Bewegungsunterschiede im Zeit- und
Frequenzbereich werden dabei durch eine Bootstrap-Methode angezeigt.
Eine weitergehende Zielstellung ist das Bedienen eines Rollstuhls, das wegen
der Vermeidung von Kollisionen und der Notwendigkeit einer quantitativen Bewe-
gungsplanung hohe Anforderungen an die Güte des BMIs stellt. Simulative Unter-
suchungen stellt [304] vor. Erste praktische Versuche mit gesunden Probanden in
einer stark vereinfachten Umgebung zeigt [441] (15 EEG-Sensoren, FFT-Merkmale,
Bayes-Klassifikator als Abstandsklassifikator mit Euklidischer Distanz). Eine praxis-
taugliche Lösung ist allerdings nur zu erwarten, wenn die EEG-Steuerung durch eine
teilautonome Bahnplanung und Kollisionsvermeidung des Rollstuhls ergänzt wird.

276
7.4 Brain Machine Interfaces

Eine wesentliche Rolle beim Vergleich verschiedener Methoden nehmen regelmä-


ßige Wettbewerbe ein, die mit realen Daten als Benchmarkprobleme bei unbekann-
ten Testdatensätzen mit einer nachfolgenden Auswertung stattfinden. Die Ergebnis-
se der BCI Competition 2003 mit vier Datensätzen fasst [54] zusammen. Der darin
enthaltene Datensatz III wurde von der Technischen Universität Graz zur Verfügung
gestellt4 . Eine weibliche Probandin (25 Jahre) steuert ein Zeichen auf einem Bild-
schirm durch das Vorstellen linker und rechter Handbewegungen (my = 2 Klassen).
Die Problemstellung entspricht somit annähernd einem virtuellen Keyboard. Der Da-
tensatz enthält die Aufzeichnung von drei bipolaren EEG-Sensoren (C3, Cz, C4) in
sieben Durchläufen mit je 40 Versuchen mit einer Zeitdauer von 9s (280 Zeitreihen).
Jeweils 140 Zeitreihen wurden als Lern- und Testdatensatz zufällig ausgewählt. Die
Aufzeichnung startet vor einem akustischen Signal (t = 2s), das den Versuchsbeginn
anzeigt. Im Zeitraum zwischen t = 3 − 9s versucht die Probandin, das Zeichen in die
gewünschte Richtung zu steuern. Die Problemstellung umfasst die Auswahl geeigne-
ter Merkmale und Klassifikatoren.
Als Merkmale kommen in [374] die rekursiv mit exponentiellem Vergessen ge-
schätzten Parameter eines autoregressiven Modells dritter Ordnung (MATLAB-
Algorithmus AAR.M in der BIOSIG-Toolbox [399], Merkmalsbezeichnungen AR1-3)
und spektrale Leistungsdichtespektren (BP10: 10-12 Hz, BP16: 16-24 Hz) zum Ein-
satz. Somit stehen maximal s = 15 Merkmale (3 Sensoren mit je 3 AR-Merkmalen
und 2 BP-Merkmalen) zur Verfügung.
Eine erste Orientierung über die enthaltenen Informationen geben die für beide
Klassen gemittelten Spektrogramme in Bild 7.16. Sie zeigen insbesondere, dass es
bei den µ -Wellen (ca. 11 Hz) nach etwa 4-5 s beim Sensor C3 für Klasse 2 und
beim Sensor C4 für Klasse 1 eine Tendenz zu einer Abschwächung der Leistungs-
dichte (ERD) gibt, die an den helleren Bereichen zu erkennen ist. Auffällig sind auch
die markanten Oberwellen bei Vielfachen der µ -Wellen (ca. 22 Hz, ca. 33 Hz), die
sich dann formal im β -Band befinden. µ -Wellen werden häufig als arkadenförmig
beschrieben [246], was bereits auf das Vorhandensein von Oberwellen im Gegen-
satz zu einem rein monofrequenten sinusförmigen Signal hindeutet. Auch dort sind
Abschwächungen an den helleren Bereichen zu erkennen. Alle anderen Frequenzen
verändern sich kaum.
Die erreichbaren multivariaten Merkmalsbewertungen Q(t) verdeutlichen Bild 7.17
und Tabelle 7.7 (maximale Werte über der Zeit Qopt = maxt Q(t)) anhand des MA-
NOVA-Verfahrens mit dem (inversen) Likelihood-Quotienten-Kriterium entsprechend
(5.30) [374]. Im Gegensatz zur Auswertung von Einzelmerkmalen handelt es sich
4
Daten unter [Link] verfügbar

277
7 Anwendungen

a. C3, Klasse 1 b. C4, Klasse 1

60 60

50 50
Frequenz [Hz]

Frequenz [Hz]
40 40

30 30

20 20

10 10

0 0
0 2 4 6 8 0 2 4 6 8

c. C3, Klasse 2 d. C4, Klasse 2

60 60

50 50
Frequenz [Hz]

Frequenz [Hz]

40 40

30 30

20 20

10 10

0 0
0 2 4 6 8 0 2 4 6 8
Zeit [s] Zeit [s]

Bild 7.16: Klassenspezifische Spektrogramme für die Sensoren C3 und C4 für den Daten-
satz III der BCI Competition 2003. Werte mit größeren Leistungsdichten werden
dunkler dargestellt.

bei Q(t) zunächst um eine Zeitreihe, bei der immer Merkmale für einen Zeitpunkt
gemeinsam auszuwerten sind. Dabei erfolgt zunächst eine Auswahl des besten Ein-
zelmerkmals für den jeweiligen Merkmalssatz. Anschließend ergänzt der Algorithmus
jeweils das Merkmal, das das multivariate Bewertungsmaß maximiert.
Die Tabelle enthält zusätzlich den ersten Zeitpunkt tmin mit einer Merkmalsbewer-
tung Q > 0.4 als Indikator für die Schnelligkeit des Klassifikators. Je kleiner tmin ist,
desto geringer ist auch die Zeitverzögerung nach Beginn der Ansteuerung. Der opti-
male Zeitpunkt bei sofortiger Erkennung der Bewegungsvorstellung ist t = 3s, Bewe-
gungsintentionen in Form von Bereitschaftspotenzialen können theoretisch ab dem
Stimulus bei t = 2s erkannt werden. Die deutlich spätere Erkennung gegenüber dem

278
7.4 Brain Machine Interfaces

Merkmale s tmin Qopt


(Sensor) sm = 1 sm = 2 sm = 3 sm = 4 sm = 5
AR+BP 5 - 0.20 0.21 0.22 0.22 0.22
(C3) (BP10C3) (BP16C3) (AR3C3) (AR2C3) (AR1C3)
AR+BP 5 - 0.07 0.09 0.11 0.17 0.18
(Cz) (BP10Cz) (AR3Cz) (BP16Cz) (AR1Cz) (BP16Cz)
AR+BP 5 - 0.17 0.30 0.33 0.33 0.33
(C4) (AR3C4) (BP16C4) (BP10C4) (AR1C4) (AR2C4)
AR+BP 10 - 0.20 0.26 0.29 0.32 0.36
(C3+Cz) (BP10C3) (BP10Cz) (AR3Cz) (AR2Cz) (AR1Cz)
AR+BP 10 4.1 s 0.20 0.51 0.55 0.57 0.57
(C3+C4) (BP10C3) (BP10C4) (AR3C4) (AR2C4) (AR3C3)
AR+BP 10 4.5 s 0.17 0.47 0.51 0.52 0.53
(C4+Cz) (AR3C4) (BP10Cz) (BP10C4) (AR2C4) (AR1Cz)
AR 6 4.4 s 0.17 0.34 0.37 0.47 0.48
(C3+C4) (AR3C4) (AR3C3) (AR2C4) (AR1C3) (AR1C4)
BP 4 5.2 s 0.20 0.51 0.52 0.52
(C3+C4) (BP10C3) (BP10C4) (BP16C3) (BP16C4)
AR+BP 15 4.1 s 0.20 0.51 0.55 0.57 0.57
(alle Ci) (BP10C3) (BP10C4) (AR3C4) (AR2C4) (BP10Cz)

Tabelle 7.7: Maximale Merkmalsbewertung Qopt mit dem MANOVA-Verfahren und dem inver-
sen Likelihood-Quotienten-Kriterium für die gewählten Merkmalssätze mit einer
schrittweisen Auswahlstrategie im Lerndatensatz, fett: ausgewählte Merkmale für
die Diskriminanzanalyse in Tabelle 7.8

0.7 100
1. Merkmal
0.6 2. Merkmal 90
3. Merkmal
Klassifikationsgüte in %
Merkmalsbewertung Q

0.5 4. Merkmal
5. Merkmal 80
0.4
70
0.3
60
0.2

0.1 50

0 40
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
Zeit in s Zeit in s

Bild 7.17: Zeitreihe der multivariaten Merk- Bild 7.18: Zeitreihe der Klassifikationsgüte
malsbewertung Q mit dem QK,G bei Verwendung der drei bes-
MANOVA-Verfahren (beste fünf ten Merkmale über Testdaten in
Merkmale) Prozent

279
7 Anwendungen

Spektrogramm in Bild 7.16 resultiert aus den Filtereigenschaften bei der Erzeugung
der AR- und BP-Merkmale, die auf eine gute Störunterdrückung optimiert sind.
Die Ergebnisse zeigen, dass unabhängig vom Merkmalstyp AR oder BP mindes-
tens zwei Sensoren für die Ausschöpfung des Informationsgehalts notwendig sind.
Die besten Ergebnisse gibt jeweils die Kombination C3 und C4. Autoregressive Merk-
male erfordern mindestens vier Merkmale, weisen aber eine schnellere Reaktion auf
(kleineres tmin als bei alleiniger Verwendung der spektralen Leistungsdichten). Spek-
trale Leistungsdichten kommen hingegen mit zwei Merkmalen aus, die beide den µ -
Wellen (hier: 10-12 Hz) entstammen. Das bestätigt den Eindruck der visuellen Analy-
se aus Bild 7.16. Die gemeinsame Verwendung beider Merkmalstypen bringt weitere
Güteverbesserungen, erfordert aber einen höheren Rechenaufwand. Die Merkmals-
sätze sind somit etwa gleichwertig, die Präferenz hängt von der konkreten Anwen-
dung ab.
Eine vergleichende Untersuchung mit Wavelet-Koeffizienten (Daubechies-
Wavelets, Symlet-Wavelets und Coiflet-Wavelets, jeweils mit verschiedenen Ordnun-
gen) ergibt mit Q = 0.51...0.56 ähnliche Merkmalsrelevanzen bei Auswahl von jeweils
vier Merkmalen, Verwendung aller drei Sensoren und Bewertung mit dem gleichen
Bewertungsmaß [253].
Eine schnelle Übersicht über die enthaltenen Informationen in Zeitreihen bieten
Merkmalskarten. Zwei Beispiele für einen erweiterten Merkmalssatz mit 48 Zeitreihen
für die Kanäle C3 und C4 zeigt Bild 7.19. Die ANOVA-Werte in Bild 7.19a verdeutli-
chen, dass es eine Vielzahl von informationstragenden Zeitreihen mit QANOVA,l [k] ≈
0.2 insbesondere um k ≈ 500 → t = 5s gibt, die durch eine dunklere Farbe gekenn-
zeichnet sind. Auffällig sind insbesondere die guten Werte für BP10 C3/C4 (Zeitrei-
hen ZR 9 und ZR 10) und bestimmte Daubechies-Wavelets (C3: ZR 40-42, C4: ZR
45-47). Hingegen bringen die Zeitreihen der Rohdaten (ZR 1-2) und einzelner AR-
Werte (ZR 33-38) nur schlechte Ergebnisse. Nach Auswahl der Zeitreihe 9 (I = {9})
und einer nachfolgenden MANOVA (Bild 7.19b) bringen nur noch BP10 C4 (Zeitrei-
he 10) und mit Abstrichen die Daubechies-Wavelets des Kanals C4 (ZR 45-47) eine
relevante Verbesserung. Bei der MANOVA-Merkmalskarte werden Verbesserungen
der Merkmalsbewertung gemäß

QMANOVA,{l,I} [k] − QMANOVA,{I} [k]


∆Ql [k] = (7.6)
1 − QMANOVA,{I} [k]

angezeigt. Für ein einzelnes Element in I ist der MANOVA-Wert gleich dem ANOVA-
Wert:
QMANOVA,{I} [k] = QANOVA,l [k] wenn I = {l}. (7.7)

280
7.4 Brain Machine Interfaces

Bild 7.19: a. ANOVA-Merkmalskarte, b. MANOVA-Merkmalskarte mit einer relativen Verbes-


serung ∆Ql

Alle ANOVA- und MANOVA-Bewertungen entstammen (5.30), wobei die entspre-


chenden Matrizen B, W für die ausgewählten Merkmale berechnet werden.
Ein Wert von ∆Ql ≈ 0.35 bedeutet hier, das es zusätzlich zum ANOVA-Wert eine
Verbesserung um etwa 30 %, also QMANOVA,{9,10} = 0.2 + 0.35 · (1 − 0.2) ≈ 0.5 für
die Gesamtbewertung ergibt. Alle anderen Zeitreihen, insbesondere aus Kanal C3,
bringen kaum noch Zusatzinformationen. Zeitlich gibt es sowohl bei der ANOVA als
auch bei der MANOVA etwa ab 3.5 s informationstragende Zeitreihen.
Als Klassifikatoren kommen eine lineare Diskriminanzanalyse (DA) auf sd = 1
Merkmal mit einem nachfolgenden Bayes-Klassifikator (entspricht einer quadrati-
schen Diskriminanzanalyse) und Fuzzy-Regeln zum Einsatz. Die Klassifikationsgüte
und die Transinformation (nach einer modifizierten Berechnung gemäß [401]) sind
wiederum Zeitreihen. Ein Beispiel für die Klassifikationsgüte zeigt Bild 7.18 für eine
lineare Diskriminanzanalyse auf der Basis der drei besten Merkmale für den Test-
datensatz. Tabelle 7.8 gibt die jeweils besten Werte der Zeitreihe über dem Testda-
tensatz an [374]. Die Ergebnisse für die unterschiedlichen Merkmalstypen bestätigen
die Ergebnisse der multivariaten Merkmalsbewertung über dem Lerndatensatz, dass

281
7 Anwendungen

eine Kombination beider Merkmalstypen überlegen ist. Die deutlich besseren Ergeb-
nisse erreicht hier die Diskriminanzanalyse mit dem Bayes-Klassifikator.

Klassifikator Merkmale maximale Trans- maximale Klassifikations-


(Anzahl sm ) information (Pos.) güte QK,G in [%] (Pos.)
DA + Bayes-Klassifikator AR+BP (3) 0.46 (2) 85.7 (4)
DA + Bayes-Klassifikator AR (4) 0.27 (6) 79.3 (8)
DA + Bayes-Klassifikator BP (2) 0.41 (5) 82.9 (5)
Fuzzy-Regeln (6 Regeln) AR+BP (7) 0.14 (8) 74.3 (8)
Fuzzy-Regeln (7 Regeln) AR (7) 0.13 (8) 71.4 (8)
Fuzzy-Regeln (2 Regeln) BP (2) 0.25 (7) 78.6 (8)
Ergebnisse in [398] 0.61-0.00 (1-9) 89.3-50.8 (2-10)
Ergebnisse in [248] 0.61 (1) 89.3 (2)
Ergebnisse in [253] - 83.6 (4)

Tabelle 7.8: Vergleich der unterschiedlichen Merkmalssätze und Klassifikatoren über dem
Testdatensatz (Pos.: Position des Klassifikators bei Einordnung in die Ranglis-
te aus [398])

Fuzzy-Regelbasen verfehlen diese Ergebnisse deutlich. Ein Beispiel für eine ge-
fundene Fuzzy-Regel zeigt Bild 7.20
WENN (BP10C3 = NICHT NSK) UND (BP10C4 =NM ODER NK ODER NSK)
DANN y = rechts
mit den linguistischen Termen NSK (negativ sehr klein), NK (negativ klein), NM (ne-
gativ mittel).
Das Bild verdeutlicht, dass eine achsenparallele Aufteilung wegen der deutlichen
Korrelation beider Merkmale hier ungünstig ist. Das erklärt die besseren Ergebnisse
einer Diskriminanzanalyse, die eine nichtachsenparallele Trennung zulässt. Anderer-
seits ist die Regel gut interpretierbar und inspiriert beispielsweise zu der Idee, ein Ver-
hältnis zwischen beiden Merkmalen als neues transformiertes Merkmal einzuführen.
Das transformierte Merkmal BP10C3/BP10C4 ist mit einer univariaten Merkmalsbe-
wertung von Qopt = 0.48 bestes Einzelmerkmal.
Die besten Ergebnisse für den Datensatz im offiziellen Wettbewerb (Zusammen-
fassung in [398]) beschreibt [248] (Tabelle 7.8). Als Merkmale kommen modifizierte
Morlet-Wavelets über die Zeitreihen der Sensoren C3 und C4 zum Einsatz, woraus
vier Zeitreihen entstehen. Die Wavelet-Parameter werden über die Minimierung des
Klassifikationsfehlers ermittelt, die Modifikation sichert die Kausalität. Daraus ermit-
telt ein Bayes-Klassifikator entsprechend (5.43) Wahrscheinlichkeiten für beide Klas-
sen. Dessen Ergebnisse werden nochmals tiefpassgefiltert. Insbesondere der letzt-

282
7.4 Brain Machine Interfaces

−5.6

BP C4 10−12Hz
−6.5

−7.4

−8.5

−9.7
links
rechts
−10 −8.8 −7.6 −6 −4.7
BP C3 10−12Hz

Bild 7.20: Fuzzy-Regel (durchgezogene Linie) und Parameter al,i der Zugehörigkeitsfunktio-
nen (gepunktete Linien für µAl,i (xl ) = µAl,i (al,i ) = 1)

genannte Schritt sichert eine gute Unterdrückung kurzfristiger Störungen und erhöht
die Robustheit des Ansatzes.
Die Kombination von Wavelet-Koeffizienten, einer Diskriminanzanalyse und einem
nachfolgenden Bayes-Klassifikator liegt qualitativ etwa im Bereich der AR- und BP-
Merkmale mit der gleichen Klassifikationsstrategie [253]. Da der Berechnungsauf-
wand für Wavelet-Koeffizienten höher liegt, sind hier die beiden anderen Merkmals-
typen zu bevorzugen.
In der nachfolgenden BCI-Competition III im Jahr 2005 [55] wurden drei ähnliche
Datensätze vorgestellt (Datensatz IIIb mit drei Probanden 03vr, S4b, X11, Tabel-
le 7.9). Die besten Klassifikationsgüten im offiziellen Wettbewerb5 erreichten Klas-
sifikatoren, die zwei Bayes-Klassifikatoren mit verschiedenen Merkmalssätzen (ERD
und Bereitschaftspotenziale) über der Zeit mit variablen Wichtungsfaktoren fusionie-
ren [249].
Auch in [83] werden die Zeitinformationen unter Nutzung eines mehrstufigen Ver-
fahrens explizit in den Klassifikator einbezogen, was zu den bisher besten bekannten
Ergebnissen führt. Das Ergebnis ist allerdings nicht im offiziellen Wettbewerb der
BCI-Competition III 2005 enthalten. Zunächst werden 53 verschiedene bandpass-
gefilterte Zeitreihen (inkl. relativer Anteile für bestimmte Frequenzen und Kanäle)
berechnet, der beste Zeitpunkt für eine Klassifikation ermittelt und die dort besten
Zeitreihen ausgewählt. Darauf folgt unter Nutzung dieser Merkmale für jeden Zeit-
5
Datensätze und Ergebnisse siehe [Link]

283
7 Anwendungen

Datensatz 03vr S4b X11


Anzahl Lern- und Testdatentupel 320/160 540/540 540/540
Ergebnisse des Wettbewerbs [400] 10.7 - 47.8 11.5 - 46.2 16.5 - 45.6
Ergebnisse in [249] 10.7 11.5 16.5
Ergebnisse in [81, 83] 10.1 10.9 10.7
Takagi-Sugeno-Fuzzy-System in [290] - 13.3 -

Tabelle 7.9: Ergebnisse (beste Klassifikationsgüte über Testdaten) der BCI-Competition III
2005

punkt ein separater Bayes-Klassifikator-Entwurf und dessen Anwendung. Als Ergeb-


nis entsteht eine Zeitreihe mit geschätzten Klassenzugehörigkeiten, die über ein
Filter mit variablen Parametern tiefpassgefiltert wird. Dessen Parameter bevorzu-
gen Zeitpunkte mit hohen Klassifikationsgüten. Ein besser interpretierbarer Fuzzy-
Klassifikator mit einem deutlich geringeren Speicheraufwand [290] erreicht geringfü-
gig schlechtere Klassifikationsgüten.
Zukünftige Optimierungspotenziale liegen beispielsweise in der Erkennung von Be-
nutzerreaktionen auf fehlerhafte Klassifikationsergebnisse [134].
Bei der Verwendung von invasiven Sensoren dominieren Regressionsansätze, die
Aktionspotenziale bestimmter Neuronen messen und über Parameter anteilig zu
zwei- oder dreidimensionalen Bewegungsrichtungen zuordnen (Übersicht in [414]).
Mit den so erhaltenen Richtungs- und Geschwindigkeitsinformationen kann beispiels-
weise in Echtzeit ein Roboterarm angesteuert werden ([456] im Tierversuch mit ei-
nem Affen).

7.4.3 Diskussion

Hirnpotenziale sind entsprechend der vorgestellten Aktionen stets bestimmten Or-


ten, zeitlichen Abläufen (Bewegungsplanung, Bewegungsausführung usw.) und Fre-
quenzbereichen zuzuordnen. Das ermöglicht eine Vorauswahl von Merkmalen, die
gezielt Frequenzinformationen über Ort und Zeit extrahieren (z. B. Amplituden von
Kurzzeit-Fourier-Transformationen, spektrale Leistungsdichten, autoregressive Mo-
delle, Wavelets). Viele Arbeiten nehmen zusätzlich eine Merkmalsselektion vor. Als
Bewertungsmaße kommen sowohl klassifikationsorientierte Maße (siehe z. B. [52])
als auch multivariate Bewertungsmaße für Merkmale zum Einsatz (siehe z. B. [374]).
Die ausgewählten Merkmale lokalisieren wertvolle Informationen für Orte (Wel-
che Sensorpositionen sind notwendig?) und Frequenzbereiche (Welches Frequenz-
band?). Beide Informationen ermöglichen eine detaillierte physiologische Analyse mit

284
7.4 Brain Machine Interfaces

einer guten Interpretierbarkeit (z. B. Positionen C3, C4 oberhalb des motorischen Kor-
tex bei der Vorstellung von Handbewegungen [403]). Zudem ermöglichen sie eine
Einsparung von Sensoren und eine Reduzierung des Rechenaufwands in der An-
wendungsphase. Die Kodierung kann über Merkmalskategorien (Sensor, Frequenz-
bereich, u. U. Zeitdifferenz zu einem bekannten Stimulus) erfolgen.
Die Signale unterliegen aber großen individuellen Variationen. Deswegen ist stets
ein patientenindividueller Entwurf eines BMIs erforderlich. Unterschiedliche Meinun-
gen existieren hingegen zum notwendigen Trainingsumfang der Patienten zum Er-
lernen von BMIs und zur Bedeutung eines Feedbacks der Klassifikationsergebnisse
zum Patienten. Während einige Gruppen [397] hier große Anstrengungen fordern,
gehen andere Gruppen [52] von einer vollständigen Erlernbarkeit beliebiger Hirnpo-
tenziale durch den Computer aus.
Als klinische Problemstellung dominiert die Auswahl von Steuerstrategien und die
Suche nach alternativen Messverfahren. Zum Verständnis der pathologischen Wir-
kungsmechanismen sind aber auch Problemstellungen wie die Diagnose Patient –
Proband, die Differentialdiagnose und die Suche nach unbekannten Patientengrup-
pen von Bedeutung. Mittelfristig besteht auch ein Interesse an einer Therapieprogno-
se, um frühzeitig vor einem aufwändigen Training die Realisierungschancen eines
leistungsfähigen BMIs abzuschätzen (siehe erste Resultate in [167]).
Bei der Auswahl von Steuerstrategien sind Data-Mining-Verfahren geeignet in ein
umfassenderes Steuerungskonzept zum Erreichen der vorgegebenen Ziele einzubet-
ten. Die Aufwandswichtung des Data-Mining-Problems unterscheidet sich dabei von
Fall zu Fall erheblich. Wichtig ist insbesondere ein geschickt komponiertes Gesamt-
konzept, das die geeignete Konstruktion von möglichst fehlerfrei lösbaren Klassifikati-
onsproblemen, die Echtzeitfähigkeit, komfortable Korrekturmöglichkeiten bei Fehlern
und ein optionales Patientenfeedback berücksichtigt.
Die relativ schlechten Erkennungsraten verhindern bislang den Einsatz von BMIs
in Anwendungsfeldern mit höheren Sicherheitsanforderungen, wie z. B. das Bedie-
nen von Rollstühlen. Je schneller die Bewegungsabsichten für eine sinnvolle Ausfüh-
rung erkannt werden müssen, desto höhere Anforderungen stellen sich zudem an
die Echtzeitfähigkeit von Brain Machine Interfaces. Der heutige Entwicklungsstand
lässt wegen der langen Erkennungszeiten und der geringen Klassifikationsgüte nur
den praktischen Einsatz für Keyboards und (mit Einschränkungen) Greiffunktionen
zu. Für solche Anwendungsgebiete sind aber derzeit EMG-basierte Systeme zu be-
vorzugen, wenn der Patient Muskeln willkürlich aktivieren kann.
Brain Machine Interfaces unterliegen aufgrund der kleinen Fallzahlen und der gra-
vierenden Einschränkungen der Patienten einem vergleichsweise geringen ökono-

285
7 Anwendungen

mischen Druck. Da die bisherigen Patientenkollektive ohnehin kaum mobil sind und
im Rollstuhl sitzen, sind stationäre Lösungen meist akzeptabel. Das reduziert die
Anforderungen an die Echtzeitfähigkeit der Lösungen und lässt aufwändigere Algo-
rithmen zu (z. B. spektrale Leistungsdichten, Wavelet-Koeffizienten, Support-Vektor-
Maschinen).

7.5 Bildgestützte Diagnose bei Mammakarzinomen

7.5.1 Aufgabenstellung

Brustkrebs (engl. breast cancer) ist in den Industrieländern eine der häufigsten Tu-
morarten. In den USA (Zahlen basieren auf dem nationalen US-amerikanischen
Krebsregister 1975-2001 [377]) werden in einer Hochrechnung 215.990 weibliche
Neuerkrankungen und 40.110 weibliche Todesfälle im Jahr 2004 geschätzt. Die 5-
Jahres-Überlebensraten sind von 60 % im Jahr 1950 auf 89 % im Jahr 2000 ange-
stiegen, was wesentlich auf eine bessere Früherkennung zurückzuführen ist. Dazu
werden Reihenuntersuchungen mit Röntgenaufnahmen eingesetzt, bei denen vier
Bilder auszuwerten sind (pro Brust ein kranio-kaudales Bild von oben und ein medio-
laterales seitliches Bild, siehe Bild 7.21). Zunehmend finden sich bei vertiefenden
Untersuchungen auch MRT- und Ultraschallaufnahmen (Übersicht siehe z. B. [317]).
Alle drei Verfahren liefern Bilder, die heute tendenziell manuell ausgewertet werden.
Bei der parallelen Verwendung mehrerer Messtechniken ergeben sich zusätzliche
anspruchsvolle Registrierungsaufgaben beim Versuch einer Bildfusion oder des Wie-
derauffindens verdächtiger Regionen, weil die Brust bei Röntgenmammographien
verformt wird (siehe z. B. [390] für entsprechende Untersuchungen).
In diesen Bildern sind nun verschiedene Anzeichen für Tumore zu detektieren (für
eine Übersicht siehe z. B. [284, 474]). Ein wichtiges, aber besonders schwer iden-
tifizierbares Indiz für bösartige Brusttumore sind Ansammlungen von Mikroverkal-
kungen, bei denen mindestens drei bis fünf Mikroverkalkungen mit Durchmessern
zwischen 0.1 bis 5 mm in einer Region von einem Kubikzentimeter auftreten. Zur
Entscheidung über Gut- oder Bösartigkeit sind unter anderem Form, Größe und Hel-
ligkeit (Grauwert) auf dem Röntgenbild sowie die Anzahl von Mikroverkalkungen in
einem Gebiet auszuwerten. Solche Mikroverkalkungen können nur von erfahrenen
Klinikern durch eine sorgfältige Analyse gefunden und in Anzeichen für normales Ge-
webe, gutartige oder bösartige Tumore klassifiziert werden. Das Verfahren ist somit
zweistufig – zunächst sind verdächtige Regionen mit Mikroverkalkungen aufzufinden
und zu segmentieren sowie anschließend zu klassifizieren.

286
7.5 Bildgestützte Diagnose bei Mammakarzinomen

Bild 7.21: Röntgenaufnahmen mit Mikroverkalkungen und bösartigen Tumoren (Daten aus
der DDSM-Datenbasis [159]), oben: medio-laterale Aufnahmen, unten: kranio-
kaudale Aufnahmen

287
7 Anwendungen

Deswegen besteht ein Interesse daran, mit Hilfe von Data-Mining-Verfahren aus
den Röntgenbildern verdächtige Regionen automatisiert zu klassifizieren. Die Er-
gebnisse können als entscheidungsunterstützendes System entweder als eine Art
Zweitgutachten (engl. second opinion) nach einer manuellen Beurteilung oder als
Werkzeug einer Bildvorverarbeitung während einer Beurteilung durch einen Exper-
ten eingesetzt werden.
Aufgrund der großen Fallzahlen und der hohen Komplexität hat sich die bildge-
stützte Diagnose bei Mammakarzinomen zu einer Art Benchmarkproblem für das
Data Mining von medizinischen Bildern entwickelt. Inzwischen existiert eine Reihe
frei verfügbarer Datenbanken von digitalisierten (eingescannten) Mammographiebil-
dern inkl. der zugehörigen Klasseneinteilungen für überwachtes Lernen (z. B. Digital
Database for Screening Mammography (DDSM) mit N = 2620 Datentupeln [159]).
Viele Arbeiten nutzen auch eine Datenbasis der Universität Nijmegen mit N = 40
Datentupeln zur Erkennung von Mikroverkalkungen [208, 209]. Zudem enthält das
Benchmarkprojekt UCI Repository of Machine Learning Databases [329] den Wis-
consin Breast Cancer Datensatz mit N = 699 Datentupeln und s = 9 bereits extra-
hierten Merkmalen, auf den sich viele Data-Mining-Projekte beziehen.

7.5.2 Methoden und Ergebnisse

Wegen der Bedeutung des Krankheitsbildes ist die Anzahl der Arbeiten sehr groß,
die sich der Detektion von Mammakarzinomen widmen. An dieser Stelle kann folg-
lich nur eine unvollständige Übersicht gegeben werden, um einen Eindruck über die
Vorgehensweisen zu vermitteln. Weitere Informationen finden sich z. B. in den um-
fangreichen Übersichtsarbeiten [209, 467, 474].
Die Algorithmen in [208, 209] filtern zunächst das Bild, um eine adaptive Rausch-
schätzung vorzunehmen. Anschließend folgen eine Merkmalsextraktion und ein sta-
tistischer Klassifikator. Das Verfahren erreicht auf der Nijmegen-Datenbasis mit 40
Mammographien ca. 84 % Sensitivität bei ca. 0.2 False Positive (FP) per Bild oder
ca. 90 % Sensitivität und ca. 1 FP per Bild. [478] nimmt zunächst eine Zerlegung
(Kompression und Rekonstruktion) mit Wavelet-Koeffizienten vor, um niederfrequente
Anteile, hochfrequentes Rauschen und Ortsfrequenzbereiche, in denen Mikroverkal-
kungen liegen, voneinander zu trennen. Aus diesen vorverarbeiteten Bildern werden
für jede Region 31 Merkmale (z. B. Mittelwert, Standardabweichung, Merkmale aus
Histogrammen zweiter Ordnung) generiert. Die nachfolgende Klassifikation erfolgt
mit einem MLP-Netz. Dabei zeigt sich bei einer Analyse der Nijmegen-Datenbasis,
dass 15 Merkmale ausreichen (90 % Sensitivität, 0.5 FP per Bild über Lern- und
Validierungsdaten). [97] schlägt eine Bildvorverarbeitung mit Fuzzy-Methoden und

288
7.5 Bildgestützte Diagnose bei Mammakarzinomen

eine nachfolgende Merkmalsextraktion mit speziell strukturierten Filtern vor. Wie bei
Wavelets werden durch unterschiedliche Parameter mehrere Bilder erzeugt. Auch
hier werden Künstliche Neuronale Netze und die Nijmegen-Datenbasis verwendet
(86 % Sensitivität, 0.35 FP per Bild). [37] vergleicht anhand der Nijmegen-Datenbasis
Support-Vektor-Maschinen, Künstliche Neuronale Netze und lineare Klassifikatoren.
Die Ergebnisse über Testdaten zeigen eine leichte Überlegenheit der Support-Vektor-
Maschinen (91 % Sensitivität bei 0.5 FP per Bild, 96 % Sensitivität bei 1 FP per Bild,
AUC-Wert 0.963) gegenüber Künstlichen Neuronalen Netzen (AUC 0.958) und ei-
ne deutlichere Überlegenheit gegenüber einer linearen Diskriminanzanalyse (AUC
0.930). Die leichte Überlegenheit von Support-Vektor-Maschinen gegenüber Künst-
lichen Neuronalen Netzen bestätigt [128] auf einer anderen Datenbasis mit 140
Mammographien. [458] kombiniert Merkmalsselektionstechniken, Fuzzy-Regeln und
Künstliche Neuronale Netze und erreicht auf der Nijmegen-Datenbasis Klassifikati-
onsgüten von bis zu 89 % auf Testdaten, erlaubt aber keine detailliertere Analyse
der Ergebnisse. Ein direkter Vergleich der Ergebnisse ist für alle genannten Arbei-
ten hochgradig problematisch, weil unterschiedliche Validierungstechniken verwen-
det wurden.
[213] untersucht verschiedene Texturmerkmale mit statistischen Methoden und be-
rechnet dabei jeweils eine ROC-Kurve. Dabei erweist sich bei der Auswertung von
120 Mammographien eine Methode als überlegen, die für jedes Pixel Grauwertdif-
ferenzen in drei verschiedenen benachbarten Regionen vergleicht. Die Ergebnisse
werden anschließend durch ein Künstliches Neuronales Netz (MLP mit einer ver-
deckten Schicht) ausgewertet und einer Crossvalidierung unterzogen.
In [317] werden Hochpassfilter (Laplacefilter als Approximation der örtlichen zwei-
ten Ableitung im Bild) verwendet, Merkmale extrahiert und klassifiziert. Zusätz-
lich findet eine Bildfusion statt, die eine Volumenrekonstruktion (inverse Radon-
Transformation) auf der Basis beider aufgenommener Röntgenbilder vornimmt. Die
Ausführung wird durch spezielle Hardwarechips beschleunigt.
Eine umfangreiche Analyse verschiedener regionenorientierter Merkmale und
Klassifikatoren (Bayes-Klassifikator, Nearest-Neighbor-Klassifikator, MLP-Netz, Ent-
scheidungsbaum) anhand verschiedener Benchmarkdatensätze findet sich in [474].
Besonders hervorzuheben ist hier die explizite Auswahl von sechs bis acht Merkma-
len aus 42 Kandidaten. Diese Maßnahme verbessert die Interpretierbarkeit der Klas-
sifikatoren. Die qualitativen Ergebnisse für eine Crossvalidierung zeigen eine leich-
te Überlegenheit von Nearest-Neighbor-Klassifikatoren gegenüber MLP-Netzen und
Bayes-Klassifikatoren mit Euklidischer und vollständiger Entscheidungsregel. Binäre
Entscheidungsbäume fallen gegenüber den anderen Verfahren deutlich ab.

289
7 Anwendungen

[467] nimmt einen Methodenvergleich zur Klassifikation anhand bereits extrahierter


Merkmale (Regressionsansatz, RBF-Netz, Nearest-Neighbor-Klassifikator, Diskrimi-
nanzanalyse) im Wisconsin Breast Cancer Datensatz vor und präferiert die Diskrimi-
nanzanalyse.
Einen Vergleich zwischen einer manuellen Auswertung und einer rein computerge-
stützten Auswertung zeigt [454] für insgesamt 278 Mammographien. Die in [455] be-
schriebene Auswertemethodik stützt sich auf 16 geometrische Merkmale wie z. B. die
Position verdächtiger Regionen sowie deren Anzahl, Größe, Orientierung, Kompakt-
heit und Form. Das Verfahren wählt daraus die neun besten Merkmale automatisch
aus. Die Klassifikation erfolgt zweistufig mit einem Nearest-Neighbor-Verfahren und
einer statistischen Auswertung der Ergebnisse in beiden Röntgenbildern. Dabei zeigt
sich, dass der AUC-Wert der computergestützten Auswertung mit 0.83 besser ist als
der Durchschnittswert von 15 Radiologen mit einem AUC-Wert von 0.63. Zu anderen
Ergebnisse kommt eine randomisierte Vergleichsstudie [71]. Die Studie stellt fest,
dass bei einer computergestützten Auswertung von Röntgenaufnahmen (Erkennung
basiert auf Bildverarbeitungsalgorithmen und Künstlichen Neuronalen Netzen) durch
erfahrene Experten keine statistisch signifikante Verbesserung gegenüber einer rein
manuellen Auswertung durch erfahrene Experten nachweisbar ist. Allerdings zeigt
die Studie immerhin eine leichte positive Tendenz zugunsten der computergestützten
Auswertung.
Letztlich entstehen bei allen Data-Mining-Verfahren qualitative Aussagen zur Cha-
rakterisierung verschiedener Bildregionen, die im Prinzip bei geeigneter Interpretati-
on auch eine manuelle regelbasierte Auswertung ermöglichen. Beispiele für solche
Regeln finden sich in [110, 409], die Unterscheidungskriterien zwischen malignen
und benignen Bildregionen in unterschiedlichen Typen von Mammographiebildern
angeben.
Von einigen Herstellern sind inzwischen CAD-Softwarepakete (ImageChecker von
R2 Technology, FDA-Zulassung 1998, CAD: Computer Aided Detection) oder digi-
tale Komplettsysteme mit CAD-Komponenten verfügbar (Fuji Mammo Workstation
MV-SR 657, Kodak – FDA-Zulassung 2004). Eine Marktübersicht bis 2003 über kom-
merziell verfügbare Systeme zur CAD-Unterstützung geben [28, 335]. In [335] findet
sich zudem eine umfassende Übersicht und Wertung der durchgeführten klinischen
Studien im Sinne einer Metaanalyse. Allen kommerziellen Systemen ist gemeinsam,
dass nur wenige Informationen über die zugrundeliegenden Algorithmen vorliegen.
So ist für R2 Technology lediglich bekannt, dass Künstliche Neuronale Netze zum
Einsatz kommen.

290
7.5 Bildgestützte Diagnose bei Mammakarzinomen

[78] wertet die Ergebnisse einer großen klinischen Multi-Center-Studie mit 427 Pa-
tientinnen und dem System von R2 Technology aus. Dabei werden retrospektiv die
vorhergehenden Mammographien solcher Patientinnen ausgewertet, bei denen zu
einem späteren Untersuchungszeitpunkt (9-24 Monate nach dieser vorhergehenden
Untersuchung) ein Mammakarzinom diagnostiziert wurde. Bei einer retrospektiven
Wiederholung der Auswertung der vorherigen Untersuchung sind bei 286/427 Pati-
entinnen die sich entwickelnden Mammakarzinome bereits erkennbar. Damit ist diese
Aufgabenstellung besonders schwer, weil diese Mammakarzinome während der rou-
tinemäßigen manuellen Erst-Auswertung nicht gefunden wurden. Das CAD-System
ist in der Lage, 171/286 der Mammakarzinome richtig zu markieren, wobei 87/110
Mikroverkalkungen und 84/176 Herdbefunde (engl. masses) detektiert werden. Da-
bei stufte das CAD-System pro Untersuchung durchschnittlich vier Regionen als ver-
dächtig ein. Bemerkenswert ist dabei, dass der Einsatz des CAD-Systems die Zahl
der notwendigen detaillierteren Folgeuntersuchungen bei Verdachtsfällen nicht signi-
fikant änderte, was auf eine gute Selektivität des Gesamtsystems Arzt – CAD-System
hindeutet. Andererseits zeigen die Zahlen, dass eine vollautomatische Diagnose oh-
ne medizinischen Experten keinesfalls ausreicht.
Bei einer prospektiven Studie mit 12860 Patienten finden zwei erfahrene Radio-
logen ohne CAD-Unterstützung 41 histologisch bestätigte Mammakarzinome [137].
Eine nachfolgende CAD-unterstützte Entscheidungsfindung erhöht diese Zahl auf 49
Mammakarzinome. Auch hier ist die Sensitivität des CAD-Systems bei Mikroverkal-
kungen besser als bei Herdbefunden.
Insgesamt entstanden in den letzten Jahren Leitlinien, die den diagnostischen Pro-
zess bei Mammakarzinomen detailliert festschreiben [407]. Sie beinhalten zum der-
zeitigen Zeitpunkt aber keine Aussagen zu einer automatisierten Bildauswertung im
Sinne der Anwendungsphase eines Data-Mining-Verfahrens. Hierbei ist schwer zu
beurteilen, inwieweit die publizierten Ergebnisse aus Data-Mining-Verfahren zur Spe-
zifikation der Diagnoserichtlinien beigetragen haben.
Neben den genannten Analysen von Röntgenmammographien gibt es weitere Ar-
beiten mit anderen Messmethoden. Mit der Auswertung von Ultraschallmammogra-
phien beschäftigt sich [94]. Die Merkmale sind geschätzte Koeffizienten einer zwei-
dimensionalen Autokorrelationsfunktion, die von einem Künstlichen Neuronalen Netz
klassifiziert werden. Mit einer Datenbasis von 140 Bildern wird über Validierungsda-
ten (10-fache Crossvalidierung) eine Sensitivität von 98 %, eine Spezifität von 93 %
und ein AUC-Wert von 0.956 erreicht. [266] zeigt die Auswertung von dynamischen
MRT-Bildern mit Künstlichen Neuronalen Netzen, bei denen die Ausbreitung eines
Kontrastmittels über 12 Minuten mit einer Abtastzeit von 23 s gemessen wird.

291
7 Anwendungen

7.5.3 Diskussion

Die Ergebnisse verdeutlichen den langen Weg von ersten Data-Mining-


Anwendungen bis hin zu einer vielleicht noch nicht routinemäßigen, aber doch
zunehmend breiteren klinischen Anwendung. Als entscheidender Erfolgsfaktor
erweist sich hier die Tatsache, dass ohnehin benötigte Bildauswertesysteme die
Diagnose als Zusatzfunktionalität beinhalten und organisch in den Auswerteprozess
integrieren. Somit sind Auswertezeiten von Sekunden bis Minuten akzeptabel,
was mittlere bis geringe Anforderungen an die Echtzeitfähigkeit der Algorithmen
bei leistungsfähigen PCs als Auswertemedium stellt. Die Entwicklung zeigt auch,
dass Medizingeräte mit integrierten entscheidungsunterstützenden Data-Mining-
Anwendungen in der Lage sind, die hohen Zertifizierungsanforderungen zu erfüllen.
Aus Sicht der klinischen Problemstellungen in Abschnitt 4.2 handelt es sich haupt-
sächlich um die Problemstellung Diagnose Patient – Proband (Verdacht auf malignen
Brustkrebs – kein Verdacht). Zudem gibt es eine Reihe von Arbeiten zur Suche nach
alternativen Messverfahren, um die patientenbelastenden Röntgenuntersuchungen
abzulösen (z. B. durch Ultraschalluntersuchungen) und die Gleichwertigkeit der mo-
derneren digitalen Auswertungen nachzuweisen.
Die Interpretierbarkeit der Lösungen wird in der Anwendungsphase dadurch ge-
sichert, dass Verdachtsregionen im Bild markiert werden. Da der auswertende Arzt
sich die Regionen daraufhin genauer ansieht, scheint hier kein Bedarf für weiterge-
hende Erklärungsfunktionalitäten vorzuliegen.
Eine objektive Bewertung der vorgeschlagenen Methoden fällt schwer, weil unter-
schiedliche Merkmale, Klassifikations- und Validierungstechniken über verschiede-
nen Datensätzen verwendet werden. Die vorliegenden Resultate sprechen für gu-
te Ergebnisse beim Einsatz Künstlicher Neuronaler Netze und von Support-Vektor-
Maschinen, wobei der Qualität des Merkmalssatzes eine große Bedeutung zukommt.
Die Vielfalt der Merkmale deutet aber darauf hin, dass viele Wege zum Ziel führen
können, solange durch empirische oder bewertungsorientierte Voruntersuchungen
eine geeignete Merkmalsextraktion und -selektion vorgenommen wird.
Ganz ähnlich ist die Situation bei der Analyse von pulmonalen Rundherden zur
Früherkennung von Lungentumoren aus mehrschichtigen Computertomographie-
Bildern (CT) [475]. Auch hier existieren klinische Studien, wie der Einsatz von com-
puterbasierten Verfahren zur Entscheidungsunterstützung die Erkennungsraten er-
höhen kann [46].

292
8 Vorgehensweise bei medizinischen Datenanalysen

In den vorangegangenen Kapiteln wurden medizinische Problemstellungen und Rah-


menbedingungen erläutert sowie Begriffe, spezielle Verfahren, Softwarelösungen
und Anwendungen für Data-Mining-Analysen vorgestellt.
Dieses Kapitel greift erneut das in Kapitel 4 vorgestellte Einsatzszenario auf. Als
Orientierung dient das allgemeine Schema in Bild 4.1. Die dort zunächst in abstrak-
ter Form vorgestellten Blöcke sind in den Spalten von Tabelle 8.1 aufgeführt. Durch
Auswerten der Erfahrungen der exemplarischen Anwendungen aus Kapitel 7 können
sie jetzt konkretisiert werden. Die Erfahrungen ermöglichen das Ableiten kompak-
ter Empfehlungen für eine systematische Vorgehensweise, um die medizinische Da-
tenanalyse für neue Problemstellungen zu erleichtern. Diese Empfehlungen sind als
(Arbeits-) Schritte gegliedert, die sich an der Sichtweise des Ingenieurs oder Infor-
matikers orientieren, der die Analyse durchführt. Zur Erhöhung der Übersichtlichkeit
fasst Tabelle 8.1 die Schritte in den Zeilen nochmals zusammen und ordnet sie den
Blöcken aus Bild 4.1 zu:
1. In einem ersten Schritt ist es notwendig, sich die klinische Problemstellung und
eventuell bereits in der klinischen Datenbank verfügbare Daten vom Mediziner
verbal erläutern zu lassen. Klinische Ein- und Ausschlusskriterien sind bereits hier
festzulegen und später zu präzisieren. Beispiele für solche Betrachtungen finden
sich im jeweiligen Abschnitt ”Aufgabenstellung” für alle Anwendungen in Kapitel 7.
2. Anschließend ist das Problem einem oder mehreren Problemen aus Tabelle 4.1
zuzuordnen (z. B. Diagnose Patient – Proband bei der Bewegungsanalyse und
Auswahl von Steuerstrategien bei Brain Machine Interfaces). In Zweifelsfällen ist
hier eine erneute Diskussion entsprechend 1. notwendig.
3. Anhand der formalisierten Problemformulierung wird überprüft, ob die notwendi-
gen Daten in der klinischen Datenbank bereits vorliegen. Wenn das der Fall ist,
ist mit 4. fortzusetzen. Anderenfalls müssen diese zunächst erhoben werden (wie
z. B. bei der Anpassung von Unterarmprothesen). Das erfordert ein geeignetes
Studiendesign (Anzahl Patienten, Art, Ablauf und Zeitpunkt der Messungen, Ran-
domisierung, Verblindung usw., siehe Abschnitt 2.2.2). Allgemeine Aussagen über
eine Mindestanzahl an Patienten sind problematisch, solide Studien setzen aber
in der Regel mindestens 15...20 Patienten pro Gruppe voraus.

293
8 Vorgehensweise bei medizinischen Datenanalysen

Problemformulierung

Problemformulierung
Klinische Datenbank

Datentupelselektion
Zusammenstellung

Bewertungsmaße

findung (klinisch)
Entscheidungs-
transformation
Lerndatensatz

Visualisierung
Klassifikation/
(formalisiert)

Regression
Merkmals-

Merkmals-

Merkmals-
extraktion

selektion
(klinisch)
Schritt

1 x x
2 x x
3 x x x
4 x x x
5 x x x x
6 x x
7 x x x x x
8 (x) (x) x (x)
9 x x x x
10 x x (x) x x
11 x x x x
12 x x x x x x
13 x x x x x
14 x x x x x x x
15 x x x x x

Tabelle 8.1: Zuordnung der Schritte für die empfohlene Vorgehensweise zu den Blöcken aus
Bild 4.1. Die mit Kreuzen markierten Felder kennzeichnen die jeweiligen Haupt-
aufgaben, Kreuze in Klammern stehen für unterstützende Elemente.

4. Parallel dazu ist ein ingenieurwissenschaftliches Verständnis für die verwendeten


Messverfahren aufzubauen. Daraus folgen zumindest qualitative Annahmen für
erwartete zufällige oder systematische Messfehler. Diese bilden eine Basis für die
Beurteilung von Ausreißern in den Daten und für die Bewertung relevanter oder
irrelevanter Unterschiede zwischen verschiedenen Klassen.
5. Anhand der formalisierten Problemstellung wird der Lerndatensatz unter Beach-
tung der Ein- und Ausschlusskriterien zusammengestellt. Hierbei sind möglichst
alle Einzelmerkmale zu importieren. Umfangreiche Rohmerkmale, wie Zeitreihen
und Bilder, können geeignet zusammengefasst werden (z. B. Mittelwerte über
mehrere Schritte wie in der Bewegungsanalyse, charakteristische Merkmale für
Regionen). Der Datensatz muss alle notwendigen Informationen (z. B. Diagno-
sen und ausgewählte Therapien) enthalten. Anderenfalls sind diese zu beschaffen
oder umzuwandeln (z. B. aus handschriftlichen Aufzeichnungen oder nicht stan-
dardisierten Texten in Bemerkungen). Der Lerndatensatz ist in eine Form mit nu-
merischen Werten entsprechend Abschnitt 3.2 zu konvertieren. Typische Aufga-

294
ben sind dabei die Anonymisierung von Patienten durch Nummern, die Kodierung
von sprachlichen Werten (z. B. ja/nein) und fehlenden Einträgen als Klassen, die
Umwandlung von Datumsangaben in Zahlenwerte usw. Im Ergebnis entsteht ein
Datensatz, der von der Auswertesoftware (vgl. Kapitel 6) lesbar ist.
6. Aus den Ergebnissen von 1.-5. sind nun Bewertungsmaße zu generieren. Dieser
Schritt beinhaltet insbesondere die Umwandlung von verbalen Erläuterungen und
qualitativen Bewertungen über die Wichtigkeit ergänzender Forderungen in quan-
titative Maße. Beispiele hierfür sind Merkmalspräferenzen gemäß Abschnitt 3.5.6,
Kosten von Fehlentscheidungen gemäß (3.59) usw. Je nach Problemformulierung
sind Interpretierbarkeitsforderungen (z. B. bei der Bewegungsanalyse) oder An-
forderungen an die Implementierbarkeit (z. B. bei Unterarmprothesen) stärker zu
gewichten.
7. Alle folgenden Schritte setzen eine leistungsfähige Auswertesoftware voraus. Un-
ter deren Nutzung müssen nun die vorhandenen Daten einer intensiven Inspek-
tion mit einer grafischen Visualisierung unterzogen werden. Dieser Schritt um-
fasst die Suche nach möglichen Messfehlern, fehlenden Werten und Ausreißern
(Ausreißertests bzgl. der Messwerte oder der Ausgangsgröße, z. B. Zuordnung
eines Datentupels als Patient inmitten des Referenzkollektivs oder umgekehrt) so-
wie möglichen Fehlklassifikationen (z. B. Verwechseln von Diagnosen). Alle nicht
plausiblen Werte sind mit den Medizinern zu diskutieren und mit einer Datentupel-
selektion oder dem Löschen ganzer Zeitreihen oder Einzelmerkmale aus der wei-
teren Analyse auszuschließen. Nur bei extrem kleinen Datensätzen mit wenigen
Datentupeln lohnt eine (in der Regel sehr aufwändige) Rekonstruktion. Bei allen
nachfolgenden Schritten ist wieder zu Schritt 7 zurückzukehren, wenn dort bisher
übersehene Ausreißer oder ähnliche Probleme detektiert werden.
8. In der folgenden Merkmalsextraktion ergeben sich Kandidaten für relevante Merk-
male aus einer Befragung der Mediziner aus dem ersten Schritt (z. B. Raum-
Zeit-Parameter und Extrema für eine Schrittphase bei der Bewegungsanalyse),
aus einer umfassenden Literaturrecherche mit ähnlichen Problemstellungen (z. B.
Normalcy-Index bei der Bewegungsanalyse) und aus einer Bibliothek mit standar-
disierten Merkmalen (z. B. Mittelwerte und Extrema von Geschwindigkeitszeitrei-
hen, vgl. Abschnitt 4.4). Außerdem ist es oftmals sinnvoll, über Normierungen be-
stimmter Merkmale nachzudenken (z. B. auf Größe, Gewicht, maximale Amplitu-
de von Zeitreihen usw.), um patienten- oder versuchsspezifische Unterschiede zu
kompensieren.
9. Die folgenden Schritte sind für jede formalisierte Problemstellung (z. B. Diagno-
se, Therapieplanung) separat auszuführen. Das setzt u. U. mehrere temporäre

295
8 Vorgehensweise bei medizinischen Datenanalysen

Datentupelselektionen voraus (z. B. für die Diagnose in der Bewegungsanalyse:


Auswahl aller Datentupel mit prätherapeutischen Patientendaten und Probanden-
daten, Klassifikation über diese beiden Klassen, vgl. Tabelle 4.1). Eine bewährte
Technik lautet, zunächst in Schritt 8 eine große Menge potenziell nützlicher Merk-
male zu erzeugen und durch die jetzt folgende Merkmalsselektion zu reduzieren,
um eine umfassende Übersicht über aussagekräftige Merkmale zu ermöglichen.
Hierbei ist der vergleichende Einsatz von verschiedenen univariaten und multiva-
riaten Bewertungsmaßen (u. a. ANOVA und MANOVA, informationstheoretische
Maße, klassifikationsorientierte Maße) für das entsprechende Klassifikationspro-
blem zu empfehlen, um lineare und nichtlineare strukturelle Zusammenhänge zu
identifizieren.
Wenn sich unerwartete Merkmale mit hohen Bewertungen finden, sind mögliche
Ursachen intensiv zu prüfen und mit Medizinern zu besprechen. Solche Merkmale
können sowohl auf neu entdeckte wertvolle Zusammenhänge, aber auch auf Ar-
tefakte und Fehler in der Studie hindeuten. Außerdem ist darauf zu achten, ob die
von den Medizinern präferierten Merkmale die Erwartungen einhalten (Validierung
des Expertenwissens). Korrelationen und Zusammenhänge zwischen Merkmalen
sind durch Korrelationsanalysen und Visualisierungen zu prüfen, um je nach Auf-
gabe auf redundante Merkmale zu verzichten oder um ähnliche, aber besser in-
terpretierbare Merkmale zu bevorzugen. In den meisten Projekten ist die Zahl der
ausgewählten Merkmale soweit wie möglich zu reduzieren, weil das sowohl die
Interpretierbarkeit als auch die Implementierbarkeit erhöht.

10. Eine Merkmalstransformation ist besonders dann sinnvoll, wenn die Implementier-
barkeit eine wichtige Rolle und die Interpretierbarkeit eine untergeordnete Rolle
spielt (z. B. für Unterarmprothesen und Brain Machine Interfaces). Oftmals reicht
eine Reduzierung auf zwei bis drei transformierte Merkmale aus, um wesentli-
che Informationen in komprimierter Form zu erhalten. Besonders leistungsfähige
Techniken sind die Diskriminanzanalyse oder verwandte Techniken wie modifizier-
te Merkmalstransformationen (z. B. Verfahren MD bei der Steuerung von Unter-
armprothesen).

11. Auch die folgende Klassifikationsaufgabe hängt von der formalisierten Problem-
stellung und den entsprechend gewählten Bewertungsmaßen ab. Bei hohen In-
terpretierbarkeitsforderungen (wie z. B. bei der Bewegungsanalyse) sind Fuzzy-
Klassifikatoren (eher mit einer großen Anzahl ausgewählter Merkmale) oder
Bayes-Klassifikatoren mit zwei oder drei ausgewählten Merkmalen zu empfehlen.
Bei Problemen, die nur auf eine hohe Klassifikationsgüte zielen, sind Support-
Vektor-Maschinen, MLP-Netze und Bayes-Klassifikatoren eine gute Wahl.

296
Die Implementierbarkeit hängt hauptsächlich von der vorherigen Merkmalsselek-
tion und -transformation ab. Hier sind Support-Vektor-Maschinen, Fuzzy-Regeln
und Bayes-Klassifikatoren besonders interessant, weil sich die Entscheidungen
bei entsprechender Darstellung teilweise durch Schwellwerte realisieren lassen.
Künstliche Neuronale Netze erfordern hingegen einen hohen Implementierungs-
aufwand. Regressionsaufgaben treten hauptsächlich bei der Rekonstruktion von
schwer messbaren Größen auf (siehe z. B. die quantitative Patientenbewertung
bei der Bewegungsanalyse).
12. Aufgrund der intensiven Informationsgewinnung aus dem Datenmaterial sind sorg-
fältig geplante Validierungen für die komplette Verarbeitungskette Merkmalsselek-
tion, -transformation und Klassifikation bzw. Regression unbedingt erforderlich. Als
Validierungstechnik eignet sich z. B. eine Crossvalidierung (z. B. mit n = 5...10, vgl.
Abschnitt 3.7).
13. Aus den Schritten 1-12 können nun durch den Mediziner gemeinsam mit den Infor-
matikern und Ingenieuren Hypothesen über allgemeine Zusammenhänge für die
untersuchten Problemstellungen formuliert werden. Diese Hypothesen bilden die
Grundlage für eine zukünftige klinische Entscheidungsfindung. Nach der Formulie-
rung ist mit einem geeigneten Studiendesign für prospektive Studien die Erhebung
zusätzlicher neuer Daten zu planen und auszuführen, um gefundene Zusammen-
hänge bezüglich der Robustheit gegen Überanpassung zu prüfen.
14. Die so durchgeführten prospektiven Studien orientieren sich bezüglich der statis-
tischen Auswertung an klassischen und medizinisch akzeptierten univariaten Vali-
dierungstechniken wie t -Tests. Erst die Validierung aller Ergebnisse mit den Daten
aus Schritt 13 vermeidet das Problem von multiplen Tests, das bei Data-Mining-
Aufgaben sonst unvermeidlich ist. Solche zusätzlichen Daten sind außerdem die
einzige Chance, zeitliche Veränderungen der Zusammenhänge zu erkennen, die
nicht in den Lerndaten enthalten sind (Robustheit gegen Zeitvarianz). Diese Ro-
bustheit ist z. B. bei Unterarmprothesen und Brain Machine Interfaces von großer
Bedeutung.
15. Bei der Implementierung für die Anwendungsphase eines Data-Mining-Verfahrens
müssen nur noch ausgewählte Merkmale berechnet werden, wodurch die Merk-
malsselektion als expliziter Schritt in der Regel entfällt. Die Merkmalstransforma-
tion ist meist als gewichtete Addition zu implementieren. Für Fuzzy-Regeln ist eine
Implementierungsstrategie gemäß Abschnitt 5.5.7 zu empfehlen.
Besonders recheneffizient sind Schwellwertvergleiche bei Support-Vektor-
Maschinen mit linearen Kernen oder Bayes-Klassifikatoren in eindimensionalen
Merkmalsräumen. Zur Realisierung bietet sich in allen betrachteten Fällen eine

297
8 Vorgehensweise bei medizinischen Datenanalysen

automatische Codegenerierung (z. B. in der Zielsprache C) an, um die Auswer-


tung zu beschleunigen und um teure Lizenzkosten der Softwarepakete während
der routinemäßigen Anwendung einzusparen.
Die jeweilige Ausgangsgröße (z. B. Diagnose für einen Patienten, Griffart der Un-
terarmprothese) dient dann der klinischen Entscheidungsfindung. Bei den meisten
diagnostischen und therapeutischen Problemstellungen entscheidet letztlich der
Mediziner unter Einbeziehung der visualisierten Ausgangsgröße. In anderen Pro-
blemstellungen (z. B. Griffart Unterarmprothese) erfolgt eine vollautomatische Ent-
scheidung. Zwischenstufen wie beispielsweise eine automatische Entscheidung
unter der ständigen Überwachungen eines Mediziners (z. B. in der intensivmedizi-
nischen Überwachung) sind ebenfalls weit verbreitet.
Die Schritte erläutern jeweils nur wesentliche Punkte, weiterführende detailliertere
Hinweise finden sich insbesondere in den Abschnitten 4.2 bis 4.6. Darüber hinaus
haben sich die folgenden allgemeinen Strategien bewährt, die für mehrere Schritte
gelten:
• Es ist vorteilhaft, den kompletten Ablauf von der Zusammenstellung des Lernda-
tensatzes bis zur Klassifikation so weit wie möglich durch Auswerteskripte und
Makros zu automatisieren sowie die Ergebnisse vollautomatisch in Dateien zu
dokumentieren. Das reduziert den Aufwand bei nachfolgenden Korrekturen des
Datensatzes in erheblichem Umfang. Typische und leider häufig auftretende Ursa-
chen für solche Korrekturen sind z. B. die nachträgliche Erkennung von Ausreißern
und die Korrektur von Klassenzuordnungen, die alle quantitativen Aussagen beein-
flussen. Außerdem werden so Fehler durch die handschriftliche Übertragung von
Ergebnissen in Tabellen vermieden.
• Alle Zwischen- und Endergebnisse sind durch eine Auswertesoftware zu visua-
lisieren und kritisch zu überprüfen. Zusätzlich zur Überprüfung von Einzelmerk-
malen und Zeitreihen lohnt sich auch die Visualisierung transformierter Merkma-
le im zwei- oder dreidimensionalen Raum, z. B. nach einer Hauptkomponenten-
oder Diskriminanzanalyse. Nur so ist es möglich, Ausreißer, fehlerhafte Klassenzu-
ordnungen und die grobe Verletzung zugrunde liegender statistischer Annahmen
(z. B. Abweichungen von Normalverteilungen usw.) zu erkennen.
• Auch bei deutlicher Verletzung der zugrunde liegenden Annahmen (z. B. klassen-
spezifische Normalverteilungen bei Bayes-Klassifikatoren und Diskriminanzanaly-
se) können einige Verfahren wertvolle Aussagen liefern. Hier sind aber die Ergeb-
nisse besonders intensiv zu evaluieren.
• Zum Erlangen schneller Ergebnisse reichen die in den jeweiligen Schritten ge-
nannten Verfahrensempfehlungen aus. Für detaillierte Untersuchungen hat es sich

298
hingegen bewährt, möglichst viele konkurrierende Verfahren zur Merkmalsselek-
tion, -transformation und Klassifikation zu vergleichen. Ähnliche Ergebnisse deu-
ten hierbei auf einen Datensatz mit offensichtlichen und gut trennbaren Zusam-
menhängen hin. Deutliche Abweichungen geben hingegen wertvolle Auskünfte
über strukturelle Zusammenhänge im Datensatz.
• Bei allen Visualisierungen ist zu kontrollieren, ob es relevante Subgruppen gibt,
die auf Heterogenitäten der Datentupel innerhalb einer Klasse schließen lassen.
Bei deren Auftreten ist es sinnvoll, solche Subgruppen durch Clusterverfahren zu
identifizieren und als separate Klassen in der formalisierten Problemstellung zu
kennzeichnen, weil es sonst wegen der Annahme kompakter Klassen in vielen
Bewertungsmaßen zu ungünstigen Bewertungen kommt. Außerdem ermöglichen
die Subgruppen interessante Rückschlüsse zur medizinischen Interpretation der
Ursachen.
• Gefundene Zusammenhänge in den Daten sind noch lange keine Ursache-
Wirkungs-Beziehung! Solche Zusammenhänge können ebenso aus fehlerhaften
Daten, Ungleichgewichten des Auftretens verschiedener Klassen in den Lern-
datensätzen, Zufällen oder komplexeren Ketten von Zusammenhängen entste-
hen. Der Auswerter muss deshalb immer kritisch prüfen, ob sich unerwartete und
scheinbar widersinnige Zusammenhänge (z. B. Abhängigkeit der Diagnosen vom
Datum der Erstuntersuchung eines Patienten usw.) ergeben.
Die vorgestellten 15 Schritte und die allgemeinen Hinweise resultieren aus den bear-
beiteten praktischen Projekten in Kapitel 7 und haben sich in einer Vielzahl von weite-
ren, hier nicht dokumentierten medizinischen Anwendungen bewährt. Sie bilden den
Rahmen für eine standardisierte Vorgehensweise, die selbstverständlich mit dem je-
weiligen Problemwissen zu vervollständigen ist. Jede neue Problemstellung enthält
spezifische Aspekte, die an den beschriebenen Stellen (z. B. als Bewertungsmaße
oder zu extrahierende Merkmale) einzubringen sind. Große Teile dieser Vorgehens-
weise sind nicht auf medizinische Probleme beschränkt und können nach entspre-
chenden Modifikationen auch Anregungen für technische Fragestellungen wie die
Fehlerdiagnose in technischen Prozessen, die Optimierung des Betriebs technischer
Anlagen auf der Basis von Prozessdaten usw. geben.

299
8 Vorgehensweise bei medizinischen Datenanalysen

300
9 Zusammenfassung und Ausblick

Die Arbeit wendet sich hauptsächlich an Ingenieure, Informatiker und mathematisch


interessierte Mediziner, die sich mit der Auswertung medizinischer Daten und der In-
tegration der Auswerteverfahren in medizintechnische Geräte beschäftigen. Sie sys-
tematisiert erstmals Ziele, Einsatzszenarien, Vorgehensweisen, Methoden und An-
wendungsfelder für eine automatisierte Datenanalyse in der Medizintechnik. Im Mit-
telpunkt steht dabei das Spannungsfeld zwischen medizinischen Anwendern und ih-
ren Zielstellungen, den Potenzialen vorhandener Data-Mining-Verfahren sowie deren
Integration in medizintechnische Geräte und Auswertetools. Ein wesentliches Ziel be-
steht darin, einen Beitrag zur Verringerung der Kommunikationsprobleme zwischen
Medizinern und Ingenieuren zu leisten.
Ein wichtiges Ergebnis der vorliegenden Arbeit besteht in der Empfehlung, zum
Erreichen dieses Ziels die folgenden methodischen Strategieelemente zu nutzen:
• Eine klare formalisierte Definition der Problemstellungen inklusive ihrer Ein- und
Ausgangsgrößen sowohl aus klinischer als auch aus datenanalytischer Sicht ver-
meidet Missverständnisse.
• Die Verwendung großer Merkmalsräume sowie deren nachfolgende Bewertung
und Selektion verbessert die Chancen, auch bisher unbekannte klinisch relevante
Zusammenhänge zu entdecken. Dieser Vorteil wiegt schwerer als die resultieren-
den statistischen Bedenken beim Test vieler Hypothesen.
• Die konsequente Einbeziehung von Interpretierbarkeitsanforderungen in den Ent-
wurfsprozess von Data-Mining-Verfahren erhöht die klinische Akzeptanz der Lö-
sung.
• Die formalisierte Berücksichtigung von Implementierungsanforderungen im Ent-
wurfsprozess von Data-Mining-Verfahren verbessert die Chance, die entwickelten
Lösungen erfolgreich in den Routineeinsatz zu überführen.
• Eine zumindest teilweise standardisierte Vorgehensweise beim Entwurf von Data-
Mining-Verfahren für konkrete Problemstellungen verkürzt Entwicklungszeiten und
reduziert das Risiko von Misserfolgen.
• Die komplette Vorgehensweise ist durch geeignete Softwarelösungen zu unterstüt-
zen.

301
9 Zusammenfassung und Ausblick

Die Strategieelemente tragen dazu bei, gemeinsame Vorgehensweisen in vielen


Data-Mining-Aufgaben zu betonen. Sie öffnen den Weg zu einer stärkeren Übertrag-
barkeit von Lösungen für andere Aufgaben anstelle einer ausschließlichen Neuent-
wicklung einer Lösung für ein spezifisches Problem. Damit verbindet sich die Erwar-
tung kürzerer Entwicklungszeiten für neue Anwendungsfelder und einer verbesserten
subjektiv empfundenen Qualität der Lösung für den medizinischen Anwender. Die
komplette Vorgehensweise wird anhand von praktischen medizinischen Anwendun-
gen demonstriert.

Eine besondere Herausforderung liegt darin, die komplexen medizintechnischen


Problemstellungen zu durchdringen und zu formalisieren, um die bereits erwähn-
ten subjektiven Präferenzen so gut wie möglich durch quantitative Bewertungsmaße
auszudrücken. Diesem Ziel dienen insbesondere die Einteilung klinischer Problem-
stellungen im zweiten Kapitel und die Systematisierungen verfahrensübergreifender
Begriffe im dritten Kapitel. Kapitel 4 fusioniert beide Betrachtungsweisen. Die Arbeit
soll dazu ermutigen, möglichst alle verbalen und qualitativen Forderungen zu analy-
sieren und in eine quantitative Beschreibung umzuwandeln. Die Vorschläge in den
genannten Kapiteln geben Anregungen zum problemspezifischen Entwurf solcher
Beschreibungen. Sie sind als offenes Baukastensystem und Denkanstoß anzusehen,
ohne bereits den Anspruch auf ein allumfassendes und abgeschlossenes Konzept
zu erheben. Problemspezifische Erweiterungen sind allerdings nur sinnvoll, wenn sie
nicht durch andere Maße abgedeckte Aspekte ergänzen und möglichst auf weitere
Problemstellungen übertragbar sind. Anderenfalls tragen sie nur wieder zur Zersplit-
terung der existierenden Maße und Verfahren bei und laufen den Zielstellungen einer
Systematisierung zuwider.

Die unterschiedlichen Data-Mining-Verfahren in Kapitel 5 überlappen sich bezüg-


lich ihrer Einsetzbarkeit für verschiedene Problemstellungen. Alle Verfahren haben
Vor- und Nachteile, die für verschiedene Aufgaben in unterschiedlichem Maße do-
minieren oder zu vernachlässigen sind. Ein generell zu bevorzugendes Verfahren
ist nicht erkennbar und wird es wohl auch nicht geben. Oftmals ähneln sich unter-
schiedliche Verfahren in ihrer Lösungsqualität. Für detaillierte Untersuchungen ist es
empfehlenswert, mehrere unterschiedliche Verfahren für eine Problemstellung einzu-
setzen und die Ergebnisse miteinander zu vergleichen. Diese Vorgehensweise gibt
zumindest einen ersten Eindruck über das Ausmaß der enthaltenen Informationen
und vergrößert die Chance, auch versteckte Informationen zu finden. Ansonsten rei-
chen die in den jeweiligen Kapiteln bevorzugten Standardverfahren (z. B. Support-
Vektor-Maschinen für eine hohe Klassifikationsgüte, Fuzzy-Regeln für eine gute In-
terpretierbarkeit) oftmals für ein effektives Arbeiten aus.

302
Das vorgestellte Szenario erfordert eine durchgängige Unterstützung durch kom-
fortabel nutzbare und modular erweiterbare Softwarelösungen. In Kapitel 6 werden
Anforderungen an solche Lösungen diskutiert und eine beispielhafte Umsetzung an-
hand der MATLAB-Toolbox Gait-CAD gezeigt.
Kapitel 7 stellt drei repräsentative medizinische und medizintechnische Applikatio-
nen vor und zeigt sowohl die Arbeitstechniken der modularen Vorgehensweise als
auch ihre Potenziale auf. Die Applikationen decken sowohl grundlagenforschungsna-
he Bereiche (Bewegungsanalyse, Brain Machine Interfaces) als auch produktnahe
Themen (Unterarmprothesen, Diagnose bei Mammakarzinomen) ab. Die in den ers-
ten drei Applikationen vorgestellten Ergebnisse entstammen hauptsächlich Projek-
ten, die in der Arbeitsgruppe des Autors in den Jahren 2000-2007 bearbeitet wurden.
Aus dem Einsatzszenario und den Anwendungen werden Empfehlungen für eine
systematische Vorgehensweise bei neuen Projekten abgeleitet (Kapitel 8), um hier
mit möglichst kurzen Bearbeitungszeiten zu qualitativ guten Lösungen zu gelangen.
Medizingeräte, die nur vorprogrammierte und nicht patientenspezifische Abläufe
abarbeiten können, werden immer auf Grenzen bezüglich eines optimalen Betriebs
mit einem Patienten stoßen. Eine detaillierte Erfassung der Intentionen des Patienten
und seines aktuellen Zustands eröffnet hier Perspektiven für eine bessere Anpas-
sung des Medizingerätes. Das beginnt mit einer patientenindividuellen Einstellung
des Medizingerätes und geht bis zu einer ständigen Erfassung und Auswertung des
Zustands während des Gerätebetriebs. Deshalb hängt der zukünftige Erfolg neuer
Medizingeräte maßgeblich von der Integration neuartiger Sensoren und deren Aus-
wertung durch Data-Mining-Verfahren ab.
Beispielsweise werden bei Neuroprothesen mit dem Vorliegen der entsprechenden
Technik die Anforderungen für Data-Mining-Verfahren schnell neue Größenordnun-
gen erreichen. Chancen ergeben sich so bei der Erfassung von Bewegungsabsich-
ten aus Hirn- und Nervensignalen (efferente Ableitung) sowie bei der Ansteuerung
von Gliedmaßen, Retinaimplantaten und Auditory Brainstem Implants (jeweils affe-
rente Stimulationen). Zwar bietet sich hier die Möglichkeit, auf eine Selbstadaption
(neurologische Plastizität) des Gehirns zur Nutzung der Signale zu vertrauen, ei-
ne unterstützende Modellbildung (u. U. unter Einbeziehung evozierter Potenziale und
bildgebender Verfahren) erscheint aber denkbar.
Auch aus methodischer Sicht bleiben offene Fragen. Alle genannten Methoden ori-
entieren sich hauptsächlich an Problemstellungen mit Daten, die sich in eine struk-
turgleiche Form übertragen lassen. Abweichende Problemstellungen (z. B. fehlende
Werte) verursachen sofort erhebliche Probleme. Für verteilte und heterogene Da-

303
tenbanken (z. B. für Public Health) werden andere Algorithmen benötigt, für die es
bislang nur erste Vorschläge gibt (siehe z. B. Distributed Data Mining [320]).
Viel Arbeit verbleibt auch bei Einsatzempfehlungen für Bewertungsmaße und Ver-
fahren sowie bei der Automatisierung von Auswahlprozessen für verschiedene Ver-
fahren. Geeignete Einsatzempfehlungen setzen ein tiefes Verständnis für zugrunde-
liegende Strukturen in Problemstellungen einerseits sowie Bewertungsmaßen und
Verfahren andererseits voraus, die über Erfolg und Misserfolg der jeweiligen Kombi-
nationen entscheiden.
Die meisten genannten Aspekte treffen auch auf nichtmedizinische Problemstellun-
gen zu. Sicherlich unterscheiden sich technische oder ökonomische Systeme in vie-
len Fragestellungen von medizinischen Aufgaben, dennoch weisen sie weitgehende
Übereinstimmungen bezüglich der auftretenden Datenstrukturen sowie der zu ver-
wendenden Bewertungsmaße und Verfahren auf. Auch hier bestehen derzeit noch
gravierende Defizite bei der quantitativen Durchdringung vieler Problemstellungen,
die eine durchgehend gute Qualität aller Lösungen und eine schnelle Übertragbarkeit
behindern. Kommunikationsprobleme treten nicht nur zwischen Medizinern einerseits
sowie Ingenieuren und Informatikern andererseits auf. Sie existieren auch zwischen
Ingenieuren unterschiedlicher Fachrichtungen, zwischen Ökonomen und Ingenieu-
ren usw. Obwohl die vorliegende Arbeit ihre Anregungen und Fallbeispiele aus der
Medizintechnik bezieht, lässt sie sich mit einem überschaubaren Aufwand auch auf
Probleme in der Fehlerdiagnose und Modellbildung technischer Anlagen oder auf die
Analyse soziologischer und ökonomischer Prozesse übertragen.

304
A Wichtige Symbole und Bezeichnungen

Beim hier gewählten Bezeichnungsapparat wurde ein Kompromiss zwischen einheitlichen


und durchgängigen Bezeichnungen einerseits sowie literaturkonformen und einfachen Be-
zeichnungen andererseits gewählt.
Anmerkungen:
• Das Symbol x̂ zeigt immer an, dass es sich um eine Schätzung für x handelt.
• Ein x bedeutet in der Statistik einen Mittelwert für das Symbol x, in der Logik eine Negation.
• Ein ẋ kennzeichnet eine Ableitung des Merkmals x nach der Zeit t .
• Sofern nicht anderweitig vermerkt, kennzeichnen fett gedruckte Großbuchstaben Matri-
zen, fett gedruckte Kleinbuchstaben Vektoren und normal gesetzte Zeichen in Symbolen
skalare Werte.
• Optimale Lösungen für ein Symbol x werden durch xopt bezeichnet.
• Mengen werden durch das Aufzählen von Elementen mit beispielsweise y ∈ {0, 1}, durch
die Angabe von offenen Intervallen y ∈ (0, 1) (alle Werte zwischen Null und Eins gehören
zur Menge) oder geschlossenen Intervallen y ∈ [0, 1] (Werte Null, Eins und alle Werte
dazwischen gehören zur Menge) angegeben.

Symbol Bezeichnung
0 Matrix oder Vektor mit Null-Elementen
1 Matrix oder Vektor mit Eins-Elementen
2CV zweifache Crossvalidierung
2D zweidimensional
3D dreidimensional
5CV fünffache Crossvalidierung
a, ai Parameter (allgemein)
a 1. Transformationsvektor auf ein transformiertes Merkmal in der linearen
Merkmalstransformation, 2. Parametervektor (allgemein)
A Transformationsmatrix in der linearen Merkmalstransformation
ã Eigenvektor
à Transformationsmatrix aus Eigenvektoren
A(z) Parameterpolynom in einer z-Übertragungsfunktion
a0 Absolutwert
A1 − 3 Neuronen in Ausgabeschicht
AFaktor Transformationsmatrix in der Faktoranalyse
aH Transformationsvektor auf ein transformiertes Merkmal in einem höherdi-
mensionalen Raum bei SVMs
al Vektor der Parameter der Zugehörigkeitsfunktionen aller Terme des Merk-
mals xl

305
Symbol Bezeichnung
al,i Parameter der Zugehörigkeitsfunktion des Terms Al,i (i = 1: rechtes Ma-
ximum Trapez-ZGF, i = ml : linkes Maximum Trapez-ZGF, i = 2, . . . , ml − 1:
Maximum Dreieck-ZGF)
Al,i i-ter linguistischer Term des l -ten Merkmals xl
aStart
l,i Startiteration für Parameter der Zugehörigkeitsfunktion des Terms Al,i
Al,Rr ODER-Verknüpfung linguistischer Terme des l -ten Merkmals xl in der Teil-
prämisse der r-ten Regel
Az AUC-Wert
AK Bewertung mit A-priori-Wahrscheinlichkeiten und Kosten
ALS Amyotrophe Lateralsklerose
ANFIS Adaptive Network based Fuzzy Inference System
ANOVA (univariate) Varianzanalyse (ANalysis Of VAriances)
AR Autoregressives Modell (siehe Tabelle 5.24 auf S. 223)
AR1-3 Koeffizienten eines autoregressiven Modells
argmax Argument mit dem maximalen Wert
argmin Argument mit dem minimalen Wert
ARIMA AutoRegressive Integrated Moving Average model
ARIMAX AutoRegressive Integrated Moving Average model with eXternal input
ARMA AutoRegressive Moving Average model (siehe Tabelle 5.24 auf S. 223)
ARMAX AutoRegressive Moving Average model with eXternal input
(siehe Tabelle 5.24 auf S. 223)
ASIA American Spinal Cord Injury Association
AUC Fläche unter der ROC-Kurve (Area under Curve)
AW Bewertung mit A-priori-Wahrscheinlichkeiten und wahrscheinlichster Ent-
scheidung
b, bi Parameter
B Zwischenklassenvariationsmatrix der Merkmale – Dimension (s, s)
B(z) Parameterpolynom einer z-Übertragungsfunktion
bc 1. Parameter (allgemein),
2. Parameter der Zugehörigkeitsfunktion des Terms Bc
Bc c-ter linguistischer Term der Ausgangsgröße y
BRausch Rauschcluster
BCI Brain Computer Interface
BJ Box-Jenkins model (siehe Tabelle 5.24 auf S. 223)
BMI Brain Machine Interface
BP Bandpower (spektrale Leistungsdichte)
BP10 Bandpower 10-12 Hz (spektrale Leistungsdichte)
BP16 Bandpower 16-24 Hz (spektrale Leistungsdichte)
c Laufindex für Klassen
C 1. Anzahl Cluster,
2. Wichtungsfaktor zur Bestrafung von Klassifikationsfehlern bei SVMs
C(z) Parameterpolynom einer z-Übertragungsfunktion
ci Parameter von C(z)
Cr 1. Konklusion der r-ten Regel, 2. r-ter Klassifikator
C3 EEG-Sensor (Lage siehe Bild 7.15)
C4 EEG-Sensor (Lage siehe Bild 7.15)
C4.5 spezieller Algorithmus für Entscheidungsbäume

306
Symbol Bezeichnung
CAD Computer Aided Detection
card Kardinalität (Anzahl von Elementen einer Menge)
CART Classification and Regression Tree
CCD Charge Coupled Device (elektronisches Bauelement, das u. a. bei Kame-
ras verwendet wird)
COG Schwerpunktmethode (Center of Gravity)
COGS Schwerpunktmethode für Singletons (Center of Gravity for Singletons)
CT Computertomographie
CV Crossvalidierung
Cz EEG-Sensor (Lage siehe Bild 7.15)
d Distanz
D(z) Parameterpolynom einer z-Übertragungsfunktion
dBat Ähnlichkeitsmaß nach Bhattacharyya
dc 1. Distanz zur c-ten Klasse der Ausgangsgröße,
2. Parameter in einer z-Übertragungsfunktion
dEuk Euklidische Distanz
Di Aufgaben und Bewertungsmaße im Data Mining (Entwurf),
siehe Tabellen 3.3, 3.5 und 3.7
DiA Aufgaben und Bewertungsmaße im Data Mining (Anwendung),
siehe Tabellen 3.4, 3.6
dKL Divergenz nach Kullback-Leibler
dKL,min untere Abschätzung der Divergenz nach Kullback-Leibler
dMah Mahalanobis-Distanz
dMan Manhattan-Distanz
dMink Minkowski-Distanz
dQF,WQF Distanz mit quadratischer Form
dRausch Konstante, die Distanz zum Rauschcluster angibt
dTr Triviale Distanz
DA Diskriminanzanalyse
det Determinante einer Matrix
diag Diagonalmatrix
DNA Desoxyribonukleinsäure
DS Datensatz
DSP Digitaler Signalprozessor
DSS Entscheidungsunterstützendes System (Decision Support System)
E(·) Erwartungswert
E1-E3 Neuronen in Eingangsschicht
Ei Ereignis (allgemein)
EBM Evidenz-basierte Medizin
ECoG Elektrokortikographie
EEG Elektroencephalogramm
EK Entscheidungskosten
EKG Elektrokardiogramm
EMG Elektromyogramm
ENG Elektroneurogramm
ERD Event-related Desynchronization

307
Symbol Bezeichnung
ERS Event-related Synchronization
ESS erklärte Streuung (Explained Sum of Squares)
EU Euklidische Distanz
exp Exponentialfunktion
F Matrix mit transformierten Merkmalen bei Regressionsproblemen,
Dimension (N, s f )
f (·) allgemeine Funktion
F(z) Parameterpolynom einer z-Übertragungsfunktion
fi Parameter
Fp (x) Verteilungsfunktion
fr (·) r-te Funktion
Fr Anzahl fehlerhaft klassifizierter Datentupel der r-ten Regel
fT P (·) Hilfsfunktion bei der Implementierung von Fuzzy-Systemen
FCM Fuzzy-C-Means
FDA Food and Drug Association
FFT Fast Fourier Transformation
FIR Finite Input Response
fMRT funktionelle Magnetresonanztomographie
FN False Negative (Anzahl der falsch klassifizierten Datentupel mit y = Bc
und Entscheidung ŷ = Bc )
FP False Positive (Anzahl der falsch klassifizierten Datentupel mit y = Bc und
Entscheidung ŷ = Bc )
fro frontale Ebene (von vorn)
g(·) allgemeine Funktion
GK Gustafson-Kessel-Algorithmus
GZR Geschwindigkeitszeitreihe
H Hesse-Matrix
H(·) 1. Entropie,
2. kumuliertes Sterberisiko bei der Schätzung von Überlebenszeiten
h(t) Sterberisiko (Hasard)
H(x) Eingangsentropie
H(x, y) Gesamtentropie der Größen x, y
H(x; y) Transinformation
H(x|y) Äquivokation (Rückschlussentropie)
H(y) Ausgangsentropie
H(y|x) Irrelevanz
H0 Nullhypothese bei statistischen Tests
h0 (t) Referenzkurve für das Sterberisiko (Hasard)
H1 Alternativhypothese bei statistischen Tests (Gegenteil der Nullhypothese)
Hi (·) Entropie in einem Teil des Datensatzes
(z. B. in einem Knoten eines Entscheidungsbaums)
HK Hauptkomponentenanalyse ohne Varianznormierung
HKA Hauptkomponentenanalyse (allgemein)
HKS Hauptkomponentenanalyse mit Varianznormierung
i Laufindex
I Einheitsmatrix

308
Symbol Bezeichnung
I Indexmenge für Merkmale
iG Nummer des Gewinnerneurons
Ik Indexmenge für Kategorien
Ik−NN Indexmenge mit den k nächsten Nachbarn
ix Laufindex für Spalten in einem Bild
Ix Anzahl Spalten in einem Bild
iy Laufindex für Zeilen in einem Bild
Iy Anzahl Zeilen in einem Bild
iz Laufindex für Schichten in einem dreidimensionalen Bild
Iz Anzahl Schichten in einem dreidimensionalen Bild
ICA Unabhängigkeitsanalyse (Independent Component Analysis)
ICP Infantile Zerebralparese
ID Identifikationsnummer
ID3 spezieller Algorithmus für Entscheidungsbäume
IIR Infinite Input Response
ISw Initial Swing (5. Schrittphase)
j Laufindex
k 1. Abtastzeitpunkt (in eckigen Klammern),
2. Anzahl Nachbarn bei k-Nearest-Neighbor-Klassifikatoren
K Anzahl Abtastzeitpunkte
K(·, ·) Kernoperation
Kneg Faktor bei der Berechnung von Konfidenzintervallen für Regeln
K pos Faktor bei der Berechnung von Konfidenzintervallen für Regeln
Kstat Sicherheitsfaktor für Fehlerabschätzungen der Entropie
kTot diskrete Totzeit
Kx Matrix der Merkmalskategorien
KDD Knowledge Discovery in Databases
k-NN k-Nearest Neighbor
KNN Künstliches Neuronales Netz
KO Knock Out
l Laufindex
L 1. Kosten (allgemein), 2. linke Körperseite (Bewegungsanalyse)
L(ŷ = Bc | Kosten für eine (Fehl-) Entscheidung zu Gunsten von Klasse Bc für ein
y = Bi ) Datentupel der Klasse Bi
L f ix,l fixe Kosten für die Berechnung eines Merkmals xl
lk Laufindex für Kategorien
Lvar,l variable Kosten für die Berechnung eines Datentupels des Merkmals xl
LD Lerndatensatz
LM Linkes Maximum
ln natürlicher Logarithmus
log2 Logarithmus zur Basis 2
logit Logit-Funktion
LOLIMOT Local linear model trees
LR Loading Response (1. Schrittphase)
LS Least Square
LVQ Lernende Vektorquantisierung

309
Symbol Bezeichnung
m 1. Parameter (Mittelwert),
2. Anzahl der linguistischen Terme aller Merkmale
Mi Matrix (allgemein)
ml Anzahl der linguistischen Terme des l -ten Merkmals xl
my Anzahl der linguistischen Terme (Klassen) der Ausgangsgröße
MA Moving Average model (siehe Tabelle 5.24 auf S. 223)
MAN, multivariate Varianzanalyse (Multivariate ANalysis Of VAriances)
MANOVA
MAPO Maximumposition: zugehöriger Abtastzeitpunkt zum Maximum
max, MAX Maximum
MD Modifizierte Diskriminanzanalyse
MDL Minimum Description Length
MEG Magnetoencephalographie
MIMO System mit mehreren Ein- und Ausgängen
(Multiple Input Multiple Output)
min, MIN Minimum
MIPO Minimumposition: zugehöriger Abtastzeitpunkt zum Minimum
MISO System mit mehreren Eingängen und einem Ausgang
(Multiple Input Single Output)
MKQ Methode der kleinsten Fehler-Quadrate
MLP Multi-Layer Perceptron
MM Modifizierte Merkmalsselektion
MML Minimum Message Length
MOM Mean of Maximum
MRI Magnetresonanztomographie (Magnetic Resonance Imaging)
MRT Magnetresonanztomographie
MSt Mid Stance (2. Schrittphase)
MSw Mid Swing (6. Schrittphase)
MW Mittelwert
n 1. Laufindex Datentupel, 2. allgemeine Bezeichnung für eine Anzahl
N Anzahl Datentupel
N Menge der natürlichen Zahlen
N(xl = Al,i ) Anzahl des Auftretens der Klasse Al,i für das Merkmal xl
N(xl = Al,i ∩ Anzahl des Auftretens der UND-Verknüpfung von xl = Al,i und y = Bc
y = Bc )
N(y = Bc ) Anzahl des Auftretens der Ausgangsklasse Bc
N300 negativer Peak in einem EEG-Signal 300 ms nach einem Ereignis
na Ordnung eines Polynoms A(z)
NAnw Anzahl auszuwertender Datentupel in der Anwendungsphase
nb Ordnung eines Polynoms B(z)
nc Ordnung eines Polynoms C(z)
Nc Anzahl Datentupel der c-ten Ausgangsklasse
nCl Laufindex Klassifikatoren bei Klassifikatorfusion
NCl Anzahl Klassifikatoren bei Klassifikatorfusion
nd Ordnung eines Polynoms D(z)
NDiagnose c Anzahl Patienten mit einer Diagnose c
nEB Anzahl generierter Entscheidungsbäume

310
Symbol Bezeichnung
nf Ordnung eines Polynoms F(z)
NF Anzahl an Freiheitsgraden einer Verteilung
NHyp Anzahl getesteter Hypothesen
Ni Anzahl Datentupel im Knoten vi eines Entscheidungsbaums
NKnoten Anzahl Knoten in einem Entscheidungsbaum
NLern Anzahl Datentupel im Lerndatensatz
Nmod Anzahl ausgewählter Datentupel nach einer Datentupelselektion
NPopulation Anzahl Personen in einem untersuchten Kollektiv
Nr Anzahl abgedeckter Datentupel durch die Prämisse der r-ten Regel
NS [k] Anzahl der zum Zeitpunkt k lebenden Personen
NSchritt,Pati Anzahl aller aufgenommenen Schritte des i-ten Patienten
NT [k] Anzahl der im Zeitraum zwischen k − 1 und k verstorbenen Personen
NTest Anzahl Datentupel im Testdatensatz
nx Anzahl einbezogener vergangener Abtastzeitpunkte für die Merkmale
ny Anzahl einbezogener vergangener Abtastzeitpunkte für die Ausgangsgrö-
ße
NARMAX Nonlinear AutoRegressive Moving Average model with eXternal input
NEFCLASS Neuro Fuzzy Approach for the Classification of Data
NEG linguistischer Term Negativ
NG linguistischer Term Negativ Groß
NK linguistischer Term Negativ Klein
NM linguistischer Term Negativ Mittel
NSG linguistischer Term Negativ Sehr Groß
NSK linguistischer Term Negativ Sehr Klein
Oi , O j , OK Objekte, Elemente einer Menge
OE Output error model (siehe Tabelle 5.24 auf S. 223)
OR Odds ratio
OSG Oberes Sprunggelenk
p 1. Parameter, 2. Irrtumswahrscheinlichkeit bei einem statistischen Test
p(·) Verteilungsdichtefunktion
P(·) Wahrscheinlichkeit
P̂ Vektor oder Matrix der Wahrscheinlichkeiten für Klassen einer skalaren
Ausgangsgröße
P+ Förderrichtung Pumpe in Richtung Aktor
P− Förderrichtung Pumpe aus Aktor heraus
P± Förderrichtung Pumpe in Richtung Aktor bzw. aus Aktor heraus
p(x|y = Bc ) bedingte Wahrscheinlichkeit von x für die Ausgangsklasse y = Bc
(x mehrdimensional und reell)
P(xl = Al,i ) Wahrscheinlichkeit des Auftretens der Klasse Al,i für das Merkmal xl
P(xl = Al,i ∩ Wahrscheinlichkeit der UND-Verknüpfung von xl = Al,i und y = Bc
y = Bc )
P(y = Bc ) Wahrscheinlichkeit der Ausgangsklasse y = Bc
P(y = Bc |x) bedingte Wahrscheinlichkeit der Ausgangsklasse y = Bc für x
(x mehrdimensional und reell)
P̂(y|xl ) Matrix der geschätzten bedingten Wahrscheinlichkeiten für die Ausgangs-
klassen von y für die ml Klassen des Merkmals xl für einen Datensatz

311
Symbol Bezeichnung
pc (·) Verteilungsdichtefunktion der Merkmale für die Ausgangsklasse y = Bc
pi i-ter Positionsvektor bei Kohonen-Karten
Pob (·) obere Schranke einer Wahrscheinlichkeit
Pun (·) untere Schranke einer Wahrscheinlichkeit
P300 positiver Peak in einem EEG-Signal 300 ms nach einem Ereignis
PAT Patientenkollektiv
PATi i-ter Patient
PC Personalcomputer
PCA Hauptkomponentenanalyse (Principal Component Analysis)
PET Positronenemissionstomographie
PG linguistischer Term Positiv Groß
PK linguistischer Term Positiv Klein
PM linguistischer Term Positiv Mittel
POS linguistischer Term Positiv
POST posttherapeutisches Patientenkollektiv
PRE prätherapeutisches Patientenkollektiv
PROB Probandenkollektiv
PSG linguistischer Term Positiv Sehr Groß
PSK linguistischer Term Positiv Sehr Klein
PSw Pre Swing (4. Schrittphase)
q Fuzzifier bei Clusterverfahren
Q Bewertungsmaß (allgemein)
QCluster Bewertungsmaß beim (scharfen) Clustering
QD Entscheidungskosten
QD,r Entscheidungskosten für die r-te Regel
QD,ropt geringste Entscheidungskosten einer Regel aus mehreren Alternativen
QF Kosten zur Auswertung eines Modells f (·)
QF0 Kosten zur Auswertung eines Modells f (·) ohne Merkmalskosten
QF,l Kosten zur Berechnung des Merkmals xl
QF,r Kosten zur Auswertung eines Modells f (·) für die r-te Regel
QFuzzy−Cluster Bewertungsmaß Fuzzy-Clustering
QGini Gini-Index
QK Klassifikationsfehler
QK,0 Klassifikationsfehler eines Trivialmodells
QK,G Klassifikationsgüte
QK,GV Verbesserung der Klassifikationsgüte im Vergleich zu einem Trivialmodell
QKlar Klarheit
QKlar,r Klarheit einer Regel
QK p Klassifikationsfehler über geschätzte Wahrscheinlichkeiten von
Fehlklassifikationen
QK p,0 Klassifikationsfehler über geschätzte Wahrscheinlichkeiten von
Fehlklassifikationen eines Trivialmodells
QK p,G Klassifikationsgüte über geschätzte Wahrscheinlichkeiten von
Fehlklassifikationen
QK p,GV Verbesserung der Klassifikationsgüte über geschätzte Wahrscheinlichkei-
ten von Fehlklassifikationen im Vergleich zu einem Trivialmodell

312
Symbol Bezeichnung
QKw gewichteter Klassifikationsfehler
Ql Merkmalsbewertung (allgemein)
QL Bewertungsmaß in Lagrange-Formulierung bei SVMs
QLern beliebiges Bewertungsmaß für den Lerndatensatz
QNR nichtrestringiertes Bewertungsmaß bei SVMs
QPD Präferenz einer Entscheidung
QPF Präferenz zur Auswertung eines Modells f (·)
QPF,0 Präferenz zur Auswertung eines Modells f (·) ohne Präferenzen
von Merkmalen
QPF,Imp Präferenz bezüglich der Implementierbarkeit
QPF,Int Präferenz bezüglich der Interpretierbarkeit
QPF,l Merkmalspräferenz xl
QPFK,lk Präferenz der lk -ten Merkmalskategorie
QPT Gesamtpräferenz (Entscheidung und Modell)
QR2 ,F Bestimmtheitsmaß mit Frobenius-Norm
QR2 ,Norm Bestimmtheitsmaß mit einer beliebigen Norm
Qred (·, ·) Redundanzmaß
QRS Bewertungsmaß nach einer Rückstufung redundanter Merkmale
QSens,c Sensitivität für Klasse Bc (ohne c: für nur eine Klasse und ihre Negation)
QSpez,c Spezifität für Klasse Bc (ohne c: für nur eine Klasse und ihre Negation)
QStat statistische Absicherungsgüte
QT Gesamtkosten (Entscheidungs- und Modellkosten)
QTest beliebiges Bewertungsmaß für den Testdatensatz
QTrenn Trennungsgrad
QTwoing Twoing-Index
r Laufindex Regel
R rechte Körperseite (Bewegungsanalyse)
R Menge der reellen Zahlen
R2 Bestimmtheitsmaß
re letzter linguistischer Term in der ODER-Verknüpfung einer Teilprämisse
rmax Anzahl Regeln in Regelbasis
Rr r-te Regel
rs erster linguistischer Term in der ODER-Verknüpfung einer Teilprämisse
Rs Spearman-Korrelationskoeffizient
rsonst Nummer der Sonst-Regel
RSpW,l Spannweite eines Merkmals xl
ry,ŷ empirischer Korrelationskoeffizient zwischen y und ŷ
RB Regelbasis
RCT Randomized Controlled Trials
rd Rundungsoperator
RM Rechtes Maximum
ROC Receiver Operator Characteristic
ROSA Regelorientierte Statistische Analyse
RRG Relative Regressionsgüte
RSS nicht erklärte Streuung (Residual Sum of Squares)

313
Symbol Bezeichnung
RU Runden
RZR Referenzabweichungszeitreihe
s Anzahl der Merkmale
S Schätzung der Kovarianzmatrix der Merkmale
S(t) erwartete Überlebensrate
sb Anzahl der Bilder, die zu einem Datentupel gehören
Sc Schätzung der Kovarianzmatrix der Merkmale für die c-te Ausgangsklasse
Sc,Reg wie Sc , aber mit zusätzlicher Regularisierung
sd Anzahl der transformierten Merkmale
sdx Anzahl einbezogener Rohmerkmale (Abtastzeitpunkte und Merkmale) bei
der Merkmalsextraktion für dynamische Systeme
sdy Anzahl einbezogener Rohmerkmale (Abtastzeitpunkte und Ausgangsgrö-
ßen) bei der Merkmalsextraktion für dynamische Systeme
sEbene Anzahl Neuronen in einer Ebene einer Kohonen-Karte
sf Anzahl der Merkmale bei Regressionsansätzen
SF,c Fuzzy-Kovarianzmatrix
SG Nummer Generalisierungsschritt beim Generalisieren von Einzelregeln
sk Anzahl der Kategorien
sKNN Parameteranzahl eines Künstlichen Neuronalen Netzes
sm Anzahl der ausgewählten Merkmale
sNeuron,i Anzahl der Neuronen in der i-ten Schicht eines Künstlichen
Neuronalen Netzes
sRoh Anzahl der Rohmerkmale
sSchicht Anzahl der Schichten eines Künstlichen Neuronalen Netzes
sv Anzahl der Videos, die zu einem Datentupel gehören
sy Anzahl der Ausgangsgrößen
sz Anzahl der Zeitreihen, die zu einem Datentupel gehören
sag sagittale Ebene (seitlich)
SAMS Southampton Adaptive Manipulation Scheme
SCP Slow Cortical Potentials
SICA räumliche Unabhängigkeitsanalyse
(Spatial Independent Component Analysis)
SISO System mit einem Ein- und einem Ausgang (Single Input Single Output)
SOFM Kohonen-Karte (Self Organizing Feature Map)
SOM Kohonen-Karte (Self Organizing Map)
sp Spur einer Matrix
SPECT Single-Photon-Emission-Computertomographie
SpW Spannweite
SSCP Gesamtstreuung (Sum of Square and Cross Products)
SSE nicht erklärte Streuung (Sum of Squares Error)
St Standphase (Stand phase)
STD Standardabweichung
Stri Stride (Doppelschritt)
SVM Support-Vektor-Maschine
Sw Schwungphase (Swing phase)
SZR Standardabweichungszeitreihe

314
Symbol Bezeichnung
t Zeit (wertekontinuierlich)
T Gesamtvariationsmatrix der Merkmale – Dimension (s, s)
T2 Spur-Statistik
TA Abtastzeit
ti bestimmter Zeitpunkt
Tname Textrahmen für Erklärungstexte
tPOST Zeitpunkt einer Messung nach einer Therapie
tPRE Zeitpunkt einer Messung vor einer Therapie
tT HER Zeitpunkt einer Therapie
THER Therapie
TICA zeitliche Unabhängigkeitsanalyse
(Temporal Independent Component Analysis)
TP True Positive (Anzahl richtig klassifizierter Datentupel einer Klasse Bc )
TN True Negative (Anzahl richtig klassifizierter Datentupel einer Klasse Bc )
tra transversale Ebene (von oben)
TSS Gesamtstreuung (Total Sum of Squares)
TSt Terminal Stance (3. Schrittphase)
TSw Terminal Swing (7. Schrittphase)
u(t), u(t) skalare bzw. vektorielle Eingangsgröße eines dynamischen Systems
U(z) z-Transformierte der Eingangsgröße u
U? Produktkriterium
V1-6 1. Ventile 1-6

2. Neuronen in verdeckter Schicht


vi i-ter Knoten eines Entscheidungsbaums
vi (E) Endknoten eines Entscheidungsbaums
vi (W ) Wurzelknoten eines Entscheidungsbaums
Vr Prämisse der r-ten Regel
Vr,l l -te Teilprämisse der Prämisse der r-ten Regel
VAS Visuelle Analogskala
VC Vapnik-Chervonensky-Dimension
VDF Verteilungsdichtefunktion
VN Varianznormierung
w Parametervektor bei Künstlichen Neuronalen Netzen (allgemein)
W Innerklassenvariationsmatrix der Merkmale – Dimension (s, s)
w0 Absolutwert als Parameter bei Künstlichen Neuronalen Netzen
wi Parametervektor bei Künstlichen Neuronalen Netzen (i-tes Neuron)
wMLP Parametervektor bei MLP-Netzen
WQF Wichtungsmatrix einer quadratischen Form
WQF,c Wichtungsmatrix einer quadratischen Form für das c-te Cluster
wQF,n Diagonalelemente einer Wichtungsmatrix
Wrek Wichtungsmatrix bei der Aktualisierung von Parametervektoren
wSOM,i Parametervektor des i-ten Neurons bei Kohonen-Karten
WISCI Walking Index for Spinal Cord
x Merkmal (allgemein)
X Matrix der Merkmale (N Zeilen, s Spalten)
x Mittelwert der Merkmale

315
Symbol Bezeichnung
x(t), x(t) skalare bzw. vektorielle Zustandsgröße eines dynamischen Systems
xBild,l Pixel bzw. Voxel eines 2D- oder 3D-Bildes (siehe Tabelle 3.2)
Xc Matrix der Merkmale: nur Datentupel für Klasse c (Nc Zeilen, s Spalten)
xc Mittelwert der Merkmale für Klasse c
xD,l Differenzmerkmal
xDis,l wertediskretes Merkmal xl
xGZR,l [k, n] k-ter Abtastzeitpunkt der l -ten Geschwindigkeitszeitreihe
(n-tes Datentupel)
XI Matrix der selektierten Merkmale (N Zeilen, sm Spalten)
xl l -tes Merkmal
xl [n] n-tes Datentupel für das l -te Merkmal im Datensatz
xl,krit kritischer Wert für das l -te Merkmal (Konstante)
x̄l,Re f [k] k-ter Abtastzeitpunkt des Mittelwertes der l -ten Zeitreihe für ein
Referenzkollektiv
xlsort [n] aufsteigend sortierte Werte für das Merkmal xl in einem Datensatz
XRoh Matrix der Rohmerkmale (N Zeilen, sRoh Spalten)
xRZR,l [k, n] k-ter Abtastzeitpunkt der l -ten Referenzabweichungszeitreihe
(n-tes Datentupel)
xSZR,l,Pati [k] k-ter Abtastzeitpunkt der l -ten Standardabweichungszeitreihe des i-ten
Patienten (n-tes Datentupel)
xT her Vektor der Therapieentscheidungen
xTrans skalares transformiertes Merkmal
xTrans Vektor der transformierten Merkmale (sd Spalten)
XTrans Matrix der transformierten Merkmale (N Zeilen, sd Spalten)
xTrans,H Vektor der transformierten Merkmale in einem höherdimensionalen
Merkmalsraum
xVideo,l Pixel bzw. Voxel eines 2D- oder 3D-Videobildes (siehe Tabelle 3.2)
XV N Vektor varianznormierter Merkmale
xZR,l [k, n] k-ter Abtastzeitpunkt der l -ten Zeitreihe (n-tes Datentupel)
y skalare Ausgangsgröße
y Vektor der skalaren Ausgangsgröße (N Zeilen)
Y Matrix der Ausgangsgröße (N Zeilen, sy Spalten)
y(t), y(t) skalare bzw. vektorielle Ausgangsgröße eines dynamischen Systems
Y (z) z-Transformierte der Ausgangsgröße y
yj j-te Ausgangsgröße
y j [n] n-tes Datentupel für die j-te Ausgangsgröße im Datensatz
yPatID [n] zugehörige Patienten-ID des n-ten Datentupels
yr Parameter für die Ausgangsgröße für die Konklusion der r-ten Regel
yZR, j [k] k-ter Abtastzeitpunkt der j-ten Zeitreihe der Ausgangsgröße
z 1. interner Zustand eines Neurons, 2. Verschiebungsoperator um einen
Abtastzeitpunkt in einer Differenzengleichung
Z Zentriermatrix
z(t), z(t) skalare bzw. vektorielle Störgröße eines dynamischen Systems
Z(z) z-Transformierte der Störgröße z
ZE linguistischer Term Null
ZGF Zugehörigkeitsfunktion

316
Symbol Bezeichnung
ZR Zeitreihe
α 1. statistisches Signifikanzniveau für das irrtümliche Verwerfen der Null-
hypothese,
2. Wichtungsfaktor bzw. Parameter,
3. Frequenzband bei EEG-Daten,
4. Parameter der Diskretisierung von Fuzzy-Mengen (α -Schnitt)
αi Wichtungsfaktor für das i-te Modell
αkrit Schwellwert
αImp Wichtungsfaktor bezüglich der Implementierbarkeit
αInt Wichtungsfaktor bezüglich der Interpretierbarkeit
β 1. statistisches Signifikanzniveau für das irrtümliche Verwerfen der Alter-
nativhypothese,
2. Wichtungsfaktor,
3. Frequenzband bei EEG-Daten
βKlar Wichtungsfaktor für Klarheit
βl Parameter eines Cox-Modells
βl,i Parameter beim Runden von Parametern für Zugehörigkeitsfunktionen
γ 1. Wichtungsfaktor, 2. Frequenzband bei EEG-Daten
δ Frequenzband bei EEG-Daten
δc Wichtungsfaktor bei der Regularisierung für Klasse c
∆Ĥ Fehlerabschätzungen für Entropie
ε Vektor der nicht erklärbaren Reste
θ 1. Parameter bei ROC-Kurven, 2. Frequenzband bei EEG-Daten
θ Parametervektor
Θ Menge zulässiger Parameter
λ 1. Eigenwert, 2. Lagrange-Multiplikator
Λ Likelihood-Quotienten-Kriterium
λsup Lagrange-Multiplikator eines Support-Vektors
µ 1. Zugehörigkeitswert zu einer Fuzzy-Menge,
2. Frequenzband bei EEG-Daten
µA (·) Zugehörigkeitsfunktion zu einer Fuzzy-Menge A
µ A (·) Vektor der Zugehörigkeitsfunktionen zu allen linguistischen Termen aller
Merkmale
µ Al (·) Vektor der Zugehörigkeitsfunktionen zu allen linguistischen Termen des
Merkmals xl
µAl,i (·) Zugehörigkeitsfunktion zum i-ten linguistischen Term des Merkmals xl
µA,α diskretisierte Zugehörigkeitsfunktion bei einem α -Schnitt
µ B (·) Vektor der Zugehörigkeitsfunktionen zu allen linguistischen Termen der
Ausgangsgröße y
µBc (·) Zugehörigkeitsfunktion zum c-ten linguistischen Term der Ausgangsgröße
y
µBc ,AkI (·) Zugehörigkeitsfunktion zum c-ten linguistischen Term der Ausgangsgröße
y nach der Akkumulation I
µBc ,AkII (·) Zugehörigkeitsfunktion zum c-ten linguistischen Term der Ausgangsgröße
y nach der Akkumulation II (Funktion höherer Ordnung, Ergebnis ist eine
Funktion)

317
Symbol Bezeichnung
µc Vektor der Erwartungswerte der Merkmale, in den nur Datentupel der c-
ten Ausgangsklasse eingehen (im Abschnitt Statistische Verfahren)
µn Lagrange-Multiplikator bei SVMs
µr Regelplausibilität
µVr (·) Zugehörigkeitsfunktion der Prämisse der r-ten Regel
µVrl (·) Zugehörigkeitsfunktion der l -ten Teilprämisse der r-ten Regel
µX Matrix der fuzzifizierten Merkmale (N Zeilen, ∑sl=1 ml Spalten)
µ xl Matrix der Zugehörigkeitsgrade zu allen linguistischen Termen des Merk-
mals xl für alle N Datentupel
µy Matrix der fuzzifizierten Ausgangsgröße (N Zeilen, my Spalten)
µ y [n, nCl ] Vektor der fuzzifizierten Ausgangsgröße für den Klassifikator nCl und das
n-te Datentupel
µy (y, x) Zugehörigkeitsfunktion nach der Inferenz (Grad der Empfehlung für ver-
schiedene Werte von y)
ρ , ρ0 , ρi, j Lernfaktoren
ξ Laufvariable für Integrale
ξn Korrekturwert bei SVMs
σ Standardabweichung
Σ Kovarianzmatrix der Merkmale
σ2 Varianz
Σc Kovarianzmatrix der Merkmale, in die nur Datentupel der c-ten Ausgangs-
klasse eingehen
σl Standardabweichung des Merkmals xl
σl,Re f [k] k-ter Abtastzeitpunkt der Standardabweichung der l -ten Zeitreihe für ein
Referenzkollektiv
τ Laufvariable für die Zeit in einem Integral
∪ ODER-Verknüpfung
∩ UND-Verknüpfung
k·k Norm (allgemein)
k · kF Frobenius-Norm

318
B Abbildungsverzeichnis

1.1 Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1 Neuromuskuläres System . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22


2.2 Strukturen beim Einsatz von Neuroprothesen . . . . . . . . . . . . . . . . . . 23

3.1 Veranschaulichung der Datenstrukturen in einem Lerndatensatz (nach [258]) . 28


3.2 System mit Hüllflächen, Teilsystemen, Ein- und Ausgangsgrößen . . . . . . . 31
3.3 Ablauf des Entwurfsprozesses von Data-Mining-Problemen . . . . . . . . . . 33
3.4 Struktur einer Klassifikatorfusion . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5 Ursachen für Rückweisungen: Ausreißer und Überlappungen . . . . . . . . . 40
3.6 Visualisierung für ausgewählte Distanzen . . . . . . . . . . . . . . . . . . . . 51
3.7 Entropiebilanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.8 ROC-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.9 Typen von Optimierungsproblemen . . . . . . . . . . . . . . . . . . . . . . . 67
3.10 Crossvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.1 Signalflüsse beim Entwurf eines Data-Mining-Verfahrens . . . . . . . . . . . . 74


4.2 Signalflüsse bei der Anwendung eines Data-Mining-Verfahrens . . . . . . . . 75
4.3 Einteilung der Problemstellungen für Data-Mining-Verfahren . . . . . . . . . . 77
4.4 Merkmalsextraktion aus Bildern . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.5 Merkmalsextraktion aus Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . 91
4.6 Implementierungsstrategie zum Entwurf eines Medizingerätes . . . . . . . . . 102

5.1 Illustratives Beispiel mit vier Merkmalen . . . . . . . . . . . . . . . . . . . . . 104


5.2 Konfidenzintervalle der geschätzten Mittelwerte für Merkmal x2 . . . . . . . . 109
5.3 Transformierte Merkmale für das Beispiel . . . . . . . . . . . . . . . . . . . . 119
5.4 Transformierte Merkmale für das Beispiel nach Diskriminanzanalyse . . . . . 120
5.5 Trennflächen unterschiedlicher Klassifikatoren . . . . . . . . . . . . . . . . . 127
5.6 Boxplot für x1 und A-posteriori-Wahrscheinlichkeiten für das Beispiel . . . . . 128
5.7 Ergebnisse von Nearest-Neighbor-Klassifikatoren . . . . . . . . . . . . . . . . 134
5.8 Ergebnisse von Support-Vektor-Maschinen . . . . . . . . . . . . . . . . . . . 141
5.9 Auswirkungen des Parameters C . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.10 Entscheidungsbaum für das Beispiel . . . . . . . . . . . . . . . . . . . . . . . 144
5.11 Klassengrenzen des Entscheidungsbaums aus Bild 5.10 . . . . . . . . . . . . 151
5.12 Prinzip der Fuzzy-Wissensverarbeitung . . . . . . . . . . . . . . . . . . . . . 155
5.13 Arten von unscharfen und scharfen Zugehörigkeitsfunktionen . . . . . . . . . 157
5.14 Standardpartition mit fünf Termen . . . . . . . . . . . . . . . . . . . . . . . . 158
5.15 Kennfelder der zusammengehörigen Operatorenpaare . . . . . . . . . . . . . 161
5.16 Ergebnisse der Inferenz und Klassengrenzen . . . . . . . . . . . . . . . . . . 165
5.17 Zugehörigkeitsfunktionen mit gerundeten Parametern . . . . . . . . . . . . . 172
5.18 Möglichkeiten zur Generalisierung von Einzelregeln . . . . . . . . . . . . . . 174
5.19 Modulares Entwurfsverfahren für Fuzzy-Systeme in [302] . . . . . . . . . . . 175

319
5.20 Einzugsgebiete von Regeln und der Sonst-Regel . . . . . . . . . . . . . . . . 177
5.21 Konfidenzintervalle für die statistische Absicherungsgüte . . . . . . . . . . . . 180
5.22 Kandidaten für Pareto-optimale Einzelregeln . . . . . . . . . . . . . . . . . . 182
5.23 Einzugsgebiete der ausgewählten Regeln . . . . . . . . . . . . . . . . . . . . 185
5.24 Implementierungsstrategie für die Fuzzifizierung . . . . . . . . . . . . . . . . 191
5.25 Generierter Quellcode zum Implementieren einer Fuzzy-Regelbasis . . . . . . 192
5.26 Typische Struktur eines Neurons und Feedforward-Netz . . . . . . . . . . . . 195
5.27 Trennebenen dreier angelernter MLP-Netze . . . . . . . . . . . . . . . . . . . 199
5.28 Netztopologie und Ein-Ausgangs-Verhalten . . . . . . . . . . . . . . . . . . . 201
5.29 Parametervariation für ein MLP-Netz . . . . . . . . . . . . . . . . . . . . . . . 202
5.30 Ergebnisse einer Kohonen-Karte für das Beispiel . . . . . . . . . . . . . . . . 203
5.31 Arbeitsschritte in der Entwurfs- und Anwendungsphase bei Clusterverfahren . 207
5.32 Clusterergebnisse für den Beispieldatensatz . . . . . . . . . . . . . . . . . . 212
5.33 Beispiel: Dendrogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.34 Beispiel: Merkmale für das Dendrogramm . . . . . . . . . . . . . . . . . . . . 214
5.35 Ergebnisse der Regression für das Beispiel . . . . . . . . . . . . . . . . . . . 219

6.1 Menüs und Bedienelemente in Gait-CAD . . . . . . . . . . . . . . . . . . . . 234

7.1 Patientin während einer Gangmessung . . . . . . . . . . . . . . . . . . . . . 240


7.2 Messablauf bei der Instrumentellen Ganganalyse . . . . . . . . . . . . . . . . 241
7.3 Gelenkwinkelverläufe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
7.4 Visualisierung der sieben Schrittphasen . . . . . . . . . . . . . . . . . . . . . 245
7.5 Klassifikation der Schrittphasen . . . . . . . . . . . . . . . . . . . . . . . . . 247
7.6 Visualisierung von Geschwindigkeitseffekten . . . . . . . . . . . . . . . . . . 248
7.7 Histogramme, prä- und posttherapeutische Scatterplots . . . . . . . . . . . . 252
7.8 Visualisierung einer Ganganalyse-Regel . . . . . . . . . . . . . . . . . . . . . 253
7.9 Clustering der Zeitreihe OSG sag GZR . . . . . . . . . . . . . . . . . . . . . 257
7.10 Wichtige Griffarten für Alltagsbewegungen [363] . . . . . . . . . . . . . . . . 261
7.11 EMG-Signale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
7.12 Zustandsautomat zur Umsetzung von my = C Griffarten . . . . . . . . . . . . 265
7.13 Myoelektrisches Signal zur Umsetzung von Bewegungsmustern . . . . . . . . 266
7.14 Ventilzusammengehörigkeiten einer Prothese . . . . . . . . . . . . . . . . . . 269
7.15 Anordnung von EEG-Sensoren . . . . . . . . . . . . . . . . . . . . . . . . . . 273
7.16 Klassenspezifische Spektrogramme für die Sensoren C3 und C4 . . . . . . . 278
7.17 Zeitreihe der multivariaten Merkmalsbewertung mit dem MANOVA-Verfahren . 279
7.18 Zeitreihe der Klassifikationsgüte . . . . . . . . . . . . . . . . . . . . . . . . . 279
7.19 Merkmalskarten mit dem ANOVA- und MANOVA-Verfahren . . . . . . . . . . 281
7.20 Beispiel einer Fuzzy-Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
7.21 Röntgenaufnahmen mit Mikroverkalkungen . . . . . . . . . . . . . . . . . . . 287

320
C Tabellenverzeichnis

2.1 Strategieelemente beim Design klinischer Studien . . . . . . . . . . . . . . . 14


2.2 Evidenzklassen und -grade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Arzneimittelzulassung bei der FDA . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1 Zulässige Operationen auf verschiedenen Skalenniveaus (nach [31]) . . . . . 29


3.2 Datensätze für verschiedene Arten von Rohmerkmalen . . . . . . . . . . . . . 32
3.3 Einteilung der Problemstellungen für den Entwurf von Data-Mining-Verfahren
(Prognose von Ausgangsgrößen) . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Einteilung der Problemstellungen für die Anwendung der Data-Mining-
Verfahren aus Tabelle 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5 Einteilung der Problemstellungen für den Entwurf von Data-Mining-Verfahren . 42
3.6 Einteilung der Problemstellungen für die Anwendung der Data-Mining-
Verfahren aus Tabelle 3.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.7 Einteilung der Problemstellungen für die Bewertungsmaße beim Entwurf von
Data-Mining-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.8 Zahlenbeispiele für ausgewählte Distanzen . . . . . . . . . . . . . . . . . . . 51

4.1 Formalisierte Problemstellungen für den Entwurf von Data-Mining-Verfahren . 78


4.2 Ausgewählte Verfahren zur Merkmalsextraktion und -transformation . . . . . . 92
4.3 Ausgewählte Visualisierungstechniken mit Verweisen auf entsprechende Bei-
spiele in den folgenden Kapiteln . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.1 Illustratives Beispiel (2- und 3-Klassen-Problem) . . . . . . . . . . . . . . . . 105


5.2 p-Werte für t -Tests zur Diagnose . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.3 Merkmalsbewertungen auf der Basis der Eigenwerte . . . . . . . . . . . . . . 116
5.4 Univariate und ausgewählte multivariate Merkmalsrelevanzen für das Beispiel 120
5.5 Entscheidungskriterien bei vereinfachten Normalverteilungen . . . . . . . . . 125
5.6 Auswirkungen verschiedener Klassifikatoren und Merkmale . . . . . . . . . . 129
5.7 Auswirkungen verschiedener Nachbarschaften und Merkmale . . . . . . . . . 133
5.8 Klassifikationsfehler und Kosten bei Support-Vektor-Maschinen . . . . . . . . 142
5.9 Clusterzentren als Basis für die Diskretisierung . . . . . . . . . . . . . . . . . 148
5.10 Auswirkungen unterschiedlicher Diskretisierungen auf die Entropiebilanz . . . 149
5.11 Detailinformationen zum Entscheidungsbaum in Bild 5.10 . . . . . . . . . . . 150
5.12 Zusammengehörige Operatorenpaare für UND- sowie ODER-Verknüpfungen . 162
5.13 Konklusionen für eine Regelbasis mit 25 Regeln . . . . . . . . . . . . . . . . 165
5.14 Automatisch gewählte Bezeichnungen für linguistische Terme . . . . . . . . . 170
5.15 Ergebnisse für den Entwurf von Zugehörigkeitsfunktionen . . . . . . . . . . . 171
5.16 Interpretierbare Parameter für die Zugehörigkeitsfunktionen . . . . . . . . . . 171
5.17 Einteilung von Verfahren zur Regelgenerierung für Fuzzy-Systeme . . . . . . 175
5.18 Beispiel zum schrittweisen Generalisieren einer Regel . . . . . . . . . . . . . 183
5.19 Regeln und Regelbasis nach Generalisierung . . . . . . . . . . . . . . . . . . 184

321
5.20 Klassifikationsfehler und Kosten für unterschiedliche Fuzzy-Systeme . . . . . 186
5.21 Linguistische Terme zur Beschreibung der relativen Häufigkeiten . . . . . . . 187
5.22 Auswirkungen verschiedener Merkmale und der Anzahl von Neuronen . . . . 200
5.23 Auswirkungen verschiedener Klassifikatoren und Merkmale . . . . . . . . . . 218
5.24 Vereinfachte Sonderfälle des Modells in (5.207) . . . . . . . . . . . . . . . . . 223
5.25 Einsatzgebiete für verschiedene Data-Mining-Verfahren . . . . . . . . . . . . 225
5.26 Ausgewählte Eigenschaften einiger Verfahren . . . . . . . . . . . . . . . . . . 227
5.27 Rechercheergebnisse der Anzahl an Publikationen für ausgewählte Verfahren 229

6.1 Datentupelselektion als Methode zur Verwaltung mehrerer Problemstellungen 236

7.1 Beste zehn Einzelmerkmale für eine Diagnose Patient – Proband . . . . . . . 249
7.2 Beste Einzelmerkmale für eine Therapieevaluierung . . . . . . . . . . . . . . 251
7.3 Gemittelte Referenzabweichungen . . . . . . . . . . . . . . . . . . . . . . . . 255
7.4 Lineare Regression mit erreichten Korrelationskoeffizienten . . . . . . . . . . 258
7.5 Klassifikationsfehler über Patientendaten . . . . . . . . . . . . . . . . . . . . 268
7.6 Typische EEG-Signale bei Erwachsenen . . . . . . . . . . . . . . . . . . . . 272
7.7 Maximale Merkmalsbewertung Qopt . . . . . . . . . . . . . . . . . . . . . . . 279
7.8 Vergleich der unterschiedlichen Merkmalssätze und Klassifikatoren . . . . . . 282
7.9 Ergebnisse der BCI-Competition III 2005 . . . . . . . . . . . . . . . . . . . . 284

8.1 Zuordnung der Schritte für die empfohlene Vorgehensweise . . . . . . . . . . 294

322
D Literaturverzeichnis

[1] Discriminant Analysis and Clustering - Panel on Discriminant Analysis, Classification and Clus-
tering, Committee on Applied and Theoretical Statistics, Board on Mathematical Sciences, Na-
tional Research Council. National Academic Press, 1988.
[2] Pharmaceuticals: The Rules Governing Medical Products in the European Union. Part 3c: Gui-
delines. Medical Products for Human Use. European Commission. Directorate General III -
Industry, Pharmaceuticals and Cosmetics, 1998.
[3] Richtlinie 93/42/EWG. Amtsblatt der Europäischen Gemeinschaften (L 669, S.1 (1993); L331,
S.1 (1998); L 313, S. 22-24 (2000)), 2000.
[4] Das Leitlinienmanual von AWMF und ÄZQ. Zeitschrift für ärztliche Fortbildung und Qualitätssi-
cherung, 2001.
[5] VDI/VDE-Richtlinie 3550, Blatt 1: Künstliche Neuronale Netze in der Automatisierungstechnik -
Begriffe und Definitionen. 2001.
[6] Entwurf Europanorm prEN 12052: Health Informatics - Digital Imaging - Communication, Work-
flow and Data Management. 2002.
[7] VDI/VDE-Richtlinie 3550, Blatt 2: Fuzzy-Logik und Fuzzy Control - Begriffe und Definitionen.
2002.
[8] Gesetz über Medizinprodukte (Medizinproduktegesetz). Bundesministerium für Gesundheit und
Soziale Sicherung, 2003.
[9] Medizinprodukte - Merkblatt zur EU-Richtlinie 93/42/EWG. Bayerisches Staatsministerium für
Wirtschaft, Verkehr und Technologie, 2003.
[10] PS 3.1-2003: Digital Imaging in Medicine (DICOM), Part 1: Introduction and Overview. National
Electrical Manufacturers Association, 2003.
[11] VDI/VDE-Richtlinie 3550, Blatt 3: Evolutionäre Algorithmen - Begriffe und Definitionen. 2003.
[12] Gesetz über den Verkehr mit Arzneimitteln (Arzneimittelgesetz). Bundesministerium für Ge-
sundheit und Soziale Sicherung, 2004.
[13] Leitlinie Unterarmprothesen. Bundesinnungsverband für Orthopädie-Technik, Bundesfachschu-
le für Orthopädie-Technik (BUFA), 2004.
[14] Situation der Medizintechnik in Deutschland im internationalen Vergleich. Studie im Auftrag des
BMBF. Aachener Kompetenzzentrum Medizintechnik, Deutsche Gesellschaft für Biomedizini-
sche Technik im VDE, 2005.
[15] VDE-Studie zum Anwendungsfeld Neuroprothetik. VDE-Initiative Mikromedizin, 2005.
[16] Das Einsparpotenzial innovativer Medizintechnik im Gesundheitswesen. Spectaris - Deutscher
Industrieverband für optische, medizinische und mechatronische Technologien e.V., Berlin; TU
Berlin, FG Medizintechnik; Droege & Comp. GmbH, Düsseldorf, 2006.
[17] A BBOD, M. F.; L INKENS , D. A.; M AHFOUF, M.; D OUNIAS , G.: Survey on the Use of Smart
and Adaptive Engineering Systems in Medicine. Artificial Intelligence in Medicine 26(3) (2002),
S. 179–209.
[18] A BBOD, M. F.; VON K EYSERLINGK , D. G.; L INKENS , D. A.; M AHFOUF, M.: Survey of Utilisati-
on of Fuzzy Technology in Medicine and Healthcare. Fuzzy Sets and Systems 120(2) (2001),
S. 331–349.

323
[19] A BEL , R.: Quantifizierung von Bewegungsvarianz. Habilitationsschrift, Medizinische Fakultät
Heidelberg der Ruprecht-Karls-Universität, 2004.
[20] A BEL , R.; PARSCH , D.; M IKUT, R.; G ERNER , H. J.: Welche Chancen haben Patienten mit Quer-
schnittlähmungen auf Grund von Wirbelsäulenmetastasen? In: Nichttraumatische Querschnitt-
lähmungen (G RÜNINGER , W.; P OTT, M., Hg.), S. 249–254, Darmstadt: Steinkopf-Verlag, 2003.
[21] A BEL , R.; RUPP, R.; S UTHERLAND, D.: Quantifying the Variability of a Complex Motor Task
Specifically Studying the Gait of Dyskinetic CP Children. Gait & Posture 17 (2003), S. 50–58.
[22] A BEL , R.; S CHABLOWSKI , M.; RUPP, R.; G ERNER , H.: Gait Analysis on the Treadmill - Monito-
ring Exercise in the Treatment of Paraplegia. Spinal Cord 40 (2002), S. 17–22.
[23] A BONYI , J.; R OUBOS , J. A.; S ZEIFERT, F.: Data-Driven Generation of Compact, Accurate,
and Linguistically Sound Fuzzy Classifiers Based on a Decision-Tree Initialization. International
Journal of Approximate Reasoning 32(1) (2003), S. 1–21.
[24] A DLASSNIG , K.-P.: A Fuzzy Logical Model of Computer-Assisted Medical Diagnosis. Methods
of Information in Medicine 19 (1980), S. 141–148.
[25] A DLASSNIG , K.-P.: Fuzzy Set Theory and Fuzzy Logic in Medicine. In: Proc., 7th European
Congress on Intelligent Techniques and Soft Computing EUFIT’99, Aachen, 1999.
[26] A HRENS , H.; L ÄUTER , J.: Mehrdimensionale Varianzanalyse: Hypothesenprüfung, Dimensi-
onserniedrigung, Diskrimination bei multivariaten Beobachtungen. Berlin: Akademie-Verlag,
1974.
[27] A NDREASEN , L.; S TRUIJK , J.: Skin Contact Forces Extracted from Human Nerve Signals - a
Possible Feedback Signal for FES-Aided Control of Standing. IEEE Transactions on Biomedical
Engineering 50(12) (2003), S. 1320–1325.
[28] A STLEY, S. M.; G ILBERT, F. J.: Computer-Aided Detection in Mammography. Clinical Radiology
59(5) (2004), S. 390–399.
[29] AUGUSTO, J. C.: Temporal Reasoning for Decision Support in Medicine. Artificial Intelligence in
Medicine 33(1) (2005), S. 1–24.
[30] A XER , H.; J ANTZEN , J.; V. K EYSERLINGK , D.; B ERKS , G.: The Application of Fuzzy-Based
Methods to Central Nerve Fiber Imaging. Artificial Intelligence in Medicine 29(3) (2003), S. 225–
239.
[31] B ACKHAUS , K.; E RICHSON , B.; P LINKE , W.; W EIBER , R.: Multivariate Analysemethoden: Eine
anwendungsorientierte Einführung. Berlin u.a.: Springer, 2000.
[32] B AILEY, T.; E LKAN , C.: Estimating the Accuracy of Learned Concepts. In: Proc., 13th Interna-
tional Joint Conference on Artificial Intelligence, S. 895–890, Morgan Kaufmann, 1993.
[33] B ALL , M. J.: Hospital Information Systems: Perspectives on Problems and Prospects, 1979 and
2002. International Journal of Medical Informatics 69 (2003), S. 83–89.
[34] B ALL , T.; N AWROT, M.; P ISTOHL , T.; A ERTSEN , A.; S CHULZE -B ONHAGE , A.; M EHRING , C.:
Towards an Implantable Brain-Machine Interface Based on Epicortical Field Potentials. Biome-
dizinische Technik 49(2) (2004), S. 756–759.
[35] B ANDEMER , H.; G OTTWALD, S.: Einführung in Fuzzy Methoden. Akademie-Verlag, Berlin,
1993.
[36] B ARTON , J.; L EES , A.: An Application of Neural Networks for Distinguishing Gait Patterns on
the Basis of Hip-Knee Joint Angle Diagrams. Gait & Posture 5 (1997), S. 28–33.
[37] B AZZANI , A.; B EVILACQUA , A.; B OLLINI , D.; B RANCACCIO, R.; C AMPANINI , R.; L ANCONELLI ,
N.; R ICCARDI , A.; R OMANI , D.: An SVM Classifier to Separate False Signals from Microcalcifi-
cations in Digital Mammograms. Physics in Medicine and Biology 46(6) (2001), S. 1651–1664.

324
[38] B ECK , S.: Ein Beitrag zum automatischen Entwurf von Fuzzy-Entscheidungssystemen bei
unvollständiger Information. Dissertation, Universität Karlsruhe, Universitätsverlag Karlsruhe,
2005.
[39] B ECK , S.; M IKUT, R.; J ÄKEL , J.: A Cost-Sensitive Learning Algorithm for Fuzzy Rule-Based
Classifiers. Mathware and Soft Computing 11(2-3) (2004), S. 175–195.
[40] B ECK , S.; M IKUT, R.; J ÄKEL , J.; B RETTHAUER , G.: Decision-Theoretic Approaches in Fuzzy
Rule Generation for Diagnosis and Fault Detection Problems. In: Proc., Eusflat 2003, S. 558–
563, 2003.
[41] B ECK , S.; M IKUT, R.; L EHMANN , A.; B RETTHAUER , G.: Model-Based Control and Object Con-
tact Detection for a Fluidic Actuated Robotic Hand. In: Proc., 42nd IEEE Conference on Decisi-
on and Control, S. 6369–6374, 2003.
[42] B ELLER , M.; S TOTZKA , R.; G EMMEKE , H.: Merkmalsgesteuerte Segmentierung in der Medizi-
nischen Mustererkennung. In: Proc., Bildverarbeitung für die Medizin 2004, Informatik Aktuell,
S. 184–188, Springer, 2004.
[43] B ELLER , M.; S TOTZKA , R.; M ÜLLER , T.: Application of an Interactive Feature-Driven Segmen-
tation. Biomedizinische Technik 49 (E2) (2004), S. 210–211.
[44] B ENDER , R.; L ANGE , S.; Z IEGLER , A.: Multiples Testen. Deutsche Medizinische Wochenzeit-
schrift 127 (2002), S. T4–T7.
[45] B ENDER , R.; Z IEGLER , A.; L ANGE , S.: Logistische Regression. Deutsche Medizinische Wo-
chenschrift 127 (2002), S. T11–T13.
[46] B EYER , F.; Z IEROTT, L.; FALLENBERG , E.; J UERGENS , K.; S TOECKEL , J.; H EINDEL , W.; W OR -
MANNS , D.: Comparison of Sensitivity and Reading Time for the Use of Computer-Aided De-
tection (CAD) of Pulmonary Nodules at MDCT as Concurrent or Second Reader. European
Radiology 17(11) (2007) 11, S. 2941–2947.
[47] B EYERER , J.; L EON , F. P.: Die Radontransformierte in der digitalen Bildverarbeitung. at - Auto-
matisierungstechnik 50(10) (2002), S. 472–480.
[48] B EZDEK , J. C.: Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Ple-
num Press, 1981.
[49] B HATTACHARYYA , A.: On a Measure of Divergence between Two Statistical Populations Defined
by their Probability Distributions. Bulletin of Calcutta Maths Society 35 (1943), S. 99–110.
[50] B IRBAUMER , N.; G HANAYIM , N.; H INTERBERGER , T.; I VERSEN , I.; KOTCHOUBEY, B.; K ÜBLER ,
A.; P ERELMOUTER , J.; TAUB , E.; F LOR , H.: A Spelling Device for the Paralysed. Nature 398
(1999), S. 297–298.
[51] B IRBAUMER , N.; H INTERBERGER , T.; K UBLER , A.; N EUMANN , N.: The Thought-Translation De-
vice (TTD): Neurobehavioral Mechanisms and Clinical Outcome. IEEE Transactions on Neural
Systems and Rehabilitation Engineering 11(2) (2003), S. 120–123.
[52] B LANKERTZ , B.; C URIO, G.; M ÜLLER , K.-R.: Classifying Single Trial EEG: Towards Brain Com-
puter Interfacing. In: Proc., Advances in Neural Information Processing Systems, S. 157–164,
2001.
[53] B LANKERTZ , B.; D ORNHEGE , G.; S CHÄFER , C.; K REPKI , R.; KOHLMORGEN , J.; M ÜLLER , K.-
R.; K UNZMANN , V.; L OSCH , F.; C URIO, G.: Boosting Bit Rates and Error Detection for the Clas-
sification of Fast-Paced Motor Commands Based on Single-Trial EEG Analysis. IEEE Trans-
actions on Neural Systems and Rehabilitation Engineering 11(2) (2003), S. 127–131.
[54] B LANKERTZ , B.; M ÜLLER , K.-R.; C URIO, G.; VAUGHAN , T. M.; S CHALK , G.; W OLPAW, J. R.;
S CHLÖGL , A.; N EUPER , C.; P FURTSCHELLER , G.; H INTERBERGER , T.; S CHRÖDER , M.; B IR -
BAUMER , N.: The BCI Competition 2003: Progress and Perspectives in Detection and Discri-

325
mination of EEG Single Trials. IEEE Transactions on Biomedical Engineering 51(6) (2004),
S. 1044–1051.
[55] B LANKERTZ , B.; M ÜLLER , K.-R.; K RUSIENSKI , D. J.; S CHALK , G.; W OLPAW, J. R.; S CHLÖGL ,
A.; P FURTSCHELLER , G.; M ILLÁN , J. D. R.; S CHRÖDER , M.; B IRBAUMER , N.: The BCI Com-
petition III: Validating Alternative Approaches to Actual BCI Problems. IEEE Transactions on
Neural Systems and Rehabilitation Engineering 14(2) (2006), S. 153–159.
[56] B ODENHOFER , U.; B AUER , P.: A Formal Model of Interpretability of Linguistic Variables. In:
Trade-off between Accuracy and Interpretability in Fuzzy Rule-Based Modelling (C ASILLAS , J.;
C ORDÓN , O.; H ERRERA , F.; M AGDALENA , L., Hg.), Studies in Fuzziness and Soft Computing,
Heidelberg: Physica, 2002.
[57] B OEGL , K.; A DLASSNIG , K.-P.; H AYASHI , Y.; R OTHENFLUH , T. E.; L EITICH , H.: Knowledge Ac-
quisition in the Fuzzy Knowledge Representation Framework of a Medical Consultation System.
Artificial Intelligence in Medicine 30(1) (2004), S. 1–26.
[58] B ONARINI , A.: Evolutionary Learning of General Fuzzy Rules with Biased Evaluation Functions:
Competition and Cooperation. In: Proc., 1st IEEE Conference on Evolutionary Computation, S.
51–56, IEEE Press, 1994.
[59] B ONISSONE , P. P.; D ECKER , K. S.: Selecting Uncertainty Calculi and Granularity: An Experi-
ment in Trading-Off Precision and Complexity. In: Uncertainty in Artificial Intelligence (K ANAL ,
L. N.; L EMMER , J. F., Hg.), S. 217–247, Amsterdam: North-Holland, 1986.
[60] B OOTH , V.; R INZEL , J.; K IEHN , O.: Compartmental Model of Vertebrate Motoneurons for Ca+2-
Dependent Spiking and Plateau Potentials under Pharmacological Treatment. Journal of Neu-
rophysiology 78 (1997), S. 3371 – 3385.
[61] B ORGELT, C.: Data Mining with Graphical Models. Dissertation, O.-v.-Guericke Universität Mag-
deburg, 2000.
[62] B ORGELT, C.; T IMM , H.; K RUSE , R.: Unsicheres und Vages Wissen. In: Handbuch der Künst-
lichen Intelligenz (G ÖRZ , G.; R OLLINGER , C.-R.; S CHNEEBERGER , J., Hg.), München: Olden-
bourg, 2000.
[63] B OSMAN , R. J. C.; VAN L EEUWEN , W. A.; W EMMENHOVE , B.: Combining Hebbian and Rein-
forcement Learning in a Minibrain Model. Neural Networks 17(1) (2004), S. 29–36.
[64] B OTHNER , U.; M EISSNER , F.: Data Mining und Data Warehouse: Wissen aus medizinischen
Datenbanken nutzen. Deutsches Ärzteblatt 95(20) (1999), S. A1336–A1338.
[65] B OUCHON -M EUNIER , B.: Uncertainty Management in Medical Applications. In: Nonlinear Bio-
medical Signal Processing, Vol. 1, Fuzzy Logic, Neural Networks, and New Algorithms (A KAY,
M., Hg.), S. 1–26, New York: John Wiley, 2000.
[66] B OYEN , X.; W EHENKEL , L.: Automatic Induction of Fuzzy Decision Trees and its Application to
Power System Security Assessment. Fuzzy Sets and Systems 102 (1999), S. 3–19.
[67] B REAULT, J. L.; G OODALL , C. R.; F OS , P. J.: Data Mining a Diabetic Data Warehouse. Artificial
Intelligence in Medicine 26(1-2) (2002), S. 37–54.
[68] B REIMAN , L.: Bagging Predictors. Machine Learning 24 (1996), S. 123–140.
[69] B REIMAN , L.: Technical Note: Some Properties of Splitting Criteria. Machine Learning 24
(1996), S. 41–47.
[70] B REIMAN , L.; F RIEDMAN , J. H.; O LSHEN , R. A.; S TONE , C. J.: Classification and Regression
Trees. Belmont, CA: Wadsworth, 1984.
[71] B REM , R. F.; S CHOONJANS , J. M.: Radiologist Detection of Microcalcifications with and without
Computer-Aided Detection: A Comparative Study. Clinical Radiology 56(2) (2001), S. 150–154.

326
[72] B RETTHAUER , G.: Identifikation rückgekoppelter Mehrgrößensysteme im Frequenzbereich. Dis-
sertation B, Technische Universität Dresden, 1983.
[73] B RETTHAUER , G.: Automatisierungstechnik - Quo vadis? Neun Thesen zur zukünftigen Ent-
wicklung. at - Automatisierungstechnik 53 (2005), S. 155–157.
[74] B RISS , P. A.; Z AZA , S.; PAPPAIOANOU, M.; F IELDING , J.; AGÜERO, L. W.-D.; T RUMAN , B. I.;
H OPKINS , D. P.; M ULLEN , P. D.; T HOMPSON , R. S.; W OOLF, S. H.; C ARANDE -K ULIS , V. G.:
Developing an Evidence-Based Guide to Community Preventive Services - Methods. American
Journal of Preventive Medicine 18 (1, E1) (2000), S. 35–43.
[75] B RONSTEIN , I.; S EMENDJAJEW, K.: Taschenbuch der Mathematik. Moskau, Leipzig: Verlag
Nauka, BSB. B. G. Teubner Verlagsgesellschaft, 1989.
[76] DE B RUIJN , B.; M ARTIN , J.: Getting to the (C)Ore of Knowledge: Mining Biomedical Literature.
International Journal of Medical Informatics 67(1-3) (2002), S. 7–18.
[77] B URGES , C.: A Tutorial on Support Vector Machines for Pattern Recognition. Knowledge Dis-
covery and Data Mining 2(2) (1998), S. 121–167.
[78] B URHENNE , L. J. W.; W OOD, S. A.; D’O RSI , C. J.; F EIG , S. A.; KOPANS , D. B.;
O’S HAUGHNESSY, K. F.; S ICKLES , E. A.; TABAR , L.; V YBORNY, C. J.; C ASTELLINO, R. A.:
Potential Contribution of Computer-Aided Detection to the Sensitivity of Screening Mammogra-
phy. Radiology 215 (2000), S. 554–562.
[79] B URKE , H. B.; G OODMAN , P. H.; R OSEN , D. B.; H ENSON , D. E.; W EINSTEIN , J. N.; H ARRELL ,
F. E.; M ARKS , J. R.; W INCHESTER , D. P.; B OSTWICK , D. G.: Artificial Neural Networks Improve
the Accuracy of Cancer Survival Prediction. Cancer 79(4) (1997), S. 857–862.
[80] B URMEISTER , O.: Analyse von Zeitreihen in der Medizin: Informationsgehalt, Klassifikation und
Unsicherheit. In: Proc., 16. Workshop Computational Intelligence, S. 234–247, Universitätsver-
lag Karlsruhe, 2006.
[81] B URMEISTER , O.: Zeitvariante Klassifikatoren zur Analyse und Interpretation multimodaler Bio-
signale und deren Anwendung in der Prothetik und Rehabilitation. Dissertation, Universität
Karlsruhe (TH), Universitätsverlag Karlsruhe, in Vorbereitung, 2008.
[82] B URMEISTER , O.; M IKUT, R.; W OLF, S.: Towards a Data Mining Based Decision Support Sys-
tem for Treatment Planning in Instrumented Gait Analysis. Biomedizinische Technik, Proc.
DGBMT (2006).
[83] B URMEISTER , O.; R EISCHL , M.; G RÖLL , L.; M IKUT, R.: Zeitvariante Klassifikatoren zur Steue-
rung von Brain Machine Interfaces und Neuroprothesen. at - Automatisierungstechnik 54(11)
(2006), S. 537–545.
[84] B URMEISTER , O.; R EISCHL , R.; B RETTHAUER , G.; M IKUT, R.: Data-Mining-Analysen mit der
MATLAB-Toolbox Gait-CAD. at - Automatisierungstechnik 56(7) (2008), S. 381–389.
[85] B URNS , A.: Scheduling Hard Real-Time Systems: A Review. Software Engineering Journal 6(3)
(1991), S. 116–128.
[86] B UTUROVIC, L.: Toward Bayes-Optimal Linear Dimension Reduction. IEEE Transactions on
Pattern Analysis and Machine Intelligence 16(4) (1994), S. 420 – 424.
[87] C ALHOUN , V.; A DALI , T.; P EARLSON , G.; P EKAR , J.: A Method for Making Group Inferences
from Functional MRI Data using Independent Component Analysis. Human Brain Mapping
14(3) (2001), S. 140–151.
[88] C ALHOUN , V.; A DALI , T.; P EARLSON , G.; P EKAR , J.: Spatial and Temporal Independent Com-
ponent Analysis of Functional MRI Data Containing a Pair of Task-Related Waveforms. Human
Brain Mapping 13 (2001), S. 43–53.

327
[89] C ANU, S.; G RANDVALET, Y.; R AKOTOMAMONJY, A.: SVM and Kernel Methods Matlab Toolbox.
Perception Systèmes et Information, INSA de Rouen, Rouen, France, 2003.
[90] C ARANO, R. A. D.; LYNCH , J. A.; R EDEI , J.; O STROWITZKI , S.; M IAUX , Y.; Z AIM , S.; W HITE ,
D. L.; P ETERFY, C. G.; G ENANT, H. K.: Multispectral Analysis of Bone Lesions in the Hands of
Patients with Rheumatoid Arthritis. Magnetic Resonance Imaging 22(4) (2004), S. 505–514.
[91] C ASILLAS , J.; C ORDÓN , O.; H ERRERA , F.; M AGDALENA , L.: Finding a Balance between Inter-
pretability and Accuracy in Fuzzy Rule-Based Modeling: An Overview. In: Trade-off between
Accuracy and Interpretability in Fuzzy Rule-Based Modelling, Studies in Fuzziness and Soft
Computing, Heidelberg: Physica, 2002.
[92] C HAN , F.; YANG , Y.; L AM , F.; Z HANG , Y.; PARKER , P.: Fuzzy EMG Classification for Prosthesis
Control. IEEE Transactions on Rehabilitation Engineering 8(3) (2000), S. 305–311.
[93] C HAU, T.: A Review of Analytical Techniques for Gait Data. Gait & Posture 13 (2001), S. 49–66
(Part 1); 102–120 (Part 2).
[94] C HEN , D.; C HANG , R.; H UANG , Y.: Computer-Aided Diagnosis Applied to US of Solid Breast
Nodules by using Neural Networks. Radiology 213 (2) (1999), S. 407–412.
[95] C HEN , Y.: A Concept for the Application of Neural Oscillators and Spinal Reflexes to Humanoid
Robots and Neuroprostheses. Master thesis, Universität Karlsruhe (TH), Institut für Regelungs-
und Steuerungstechnik, Forschungszentrum Karlsruhe GmbH, 2008.
[96] C HEN , Y.; B AUER , C.; B URMEISTER , O.; RUPP, R.; M IKUT, R.: First Steps to Future Applicati-
ons of Spinal Neural Circuit Models in Neuroprostheses and Humanoid Robots. In: Proc., 17.
Workshop Computational Intelligence, S. 186–199, Universitätsverlag Karlsruhe, 2007.
[97] C HENG , H. D.; WANG , J.; S HI , X.: Microcalcification Detection using Fuzzy Logic and Scale
Space Approaches. Pattern Recognition 37(2) (2004), S. 363–375.
[98] C IOS , K. (Hg.): Medical Data Mining and Knowledge Discovery, Bd. 60 von Studies in Fuzzi-
ness and Soft Computing. Heidelberg: Physica, 2001.
[99] C IOS , K.; M OORE , G.: Medical Data Mining and Knowledge Discovery: Overview of Key Issu-
es. In: Medical Data Mining and Knowledge Discovery (C IOS , K., Hg.), Bd. 60 von Studies in
Fuzziness and Soft Computing, S. 1–20, Heidelberg: Physica, 2001.
[100] C IOS , K. J.; M OORE , G. W.: Uniqueness of Medical Data Mining. Artificial Intelligence in Medi-
cine 26(1-2) (2002), S. 1–24.
[101] C IOS , K. J.; P EDRYCZ , W.; S WINIARSKI , R. W.: Data Mining Methods for Knowledge Discovery.
Boston: Kluwer Academic, 1998.
[102] C ORDON , O.; G OMIDE , F.; H ERRERA , F.; H OFFMANN , F.; M AGDALENA , L.: Ten Years of Genetic
Fuzzy Systems: Current Framework and New Trends. Fuzzy Sets and Systems 141(1) (2004),
S. 5–31.
[103] C ORTES , C.; VAPNIK , V.: Support-Vector Networks. Machine Learning 20(3) (1995), S. 273–
297.
[104] C OVER , T.; H ART, P.: Nearest Neighbor Pattern Classification. IEEE Transactions on Informati-
on Theory 13(1) (1967), S. 21–27.
[105] DAELEMANS , W.; Z AVREL , J.; VAN DER S LOOT , K.; VAN DEN B OSCH , A.: TiMBL: Tilburg Me-
mory Based Learner, version 4.0, Reference Guide. Techn. Ber. ILK Technical Report 01-04,
Tilburg University, 2001.
[106] DAFFERTSHOFER , A.; L AMOTH , C.; M EIJER , O.; B EEK , P.: PCA in Studying Coordination and
Variability: A Tutorial. Clinical Biomechanics 19 (2004), S. 415–428.

328
[107] DAMMANN , V.; D ÖSSEL , O.; M ORGENSTERN , U.; N IPPA , J.; T RAMPISCH , W.: DGBMT Emp-
fehlung: Akkreditierung von Studiengängen. Biomedizinische Technik. Klinik-Ingenieurwesen.
Deutsche Gesellschaft für Biomedizinische Technik, 2005.
[108] DASEY, T.; M ICHELI -T ZANAKOU, E.: Detection of Multiple Sclerosis with Visual Evoked Poten-
tials - An Unsupervised Computational Intelligence System. IEEE Transactions on Information
Technology in Biomedicine 4(3) (2000), S. 216–224.
[109] D EHMESHKI , J.; RUTO, A.; A RRIDGE , S.; S ILVER , N.; M ILLER , D.; TOFTS , P.: Analysis of MTR
Histograms in Multiple Sclerosis using Principal Components and Multiple Discriminant Analy-
sis. Magnetic Resonance in Medicine 46(3) (2001), S. 600–609.
[110] D ELORME , S.: Mammakarzinom Sonographie und Magnetresonanzmammographie. Der Ra-
diologe 44(6) (2004), S. 621–640.
[111] D ELUZIO, K.; W YSS , U.; C OSTIGAN , P.; S ORBIE , C.; Z EE , B.: Gait Assessment in Unicom-
partmental Knee Arthroplasty Patients: Principal Component Modelling of Gait Waveforms and
Clinical Status. Human Movement Science 18 (1999), S. 701–711.
[112] D ELUZIO, K.; W YSS , U. P.; Z EE , B.; C OSTIGAN , P. A.; S ORBIE , C.: Principal Component Mo-
dels of Knee Kinematics and Kinetics: Normal vs. Pathological Gait Patterns. Human Movement
Science 16 (1997), S. 201–218.
[113] D ENOEUX , T.: A k-nearest Neighbor Classification Rule Based on Dempster-Shafer Theory.
IEEE Transactions on Systems, Man and Cybernetics 25(5) (1995), S. 804–813.
[114] D HILLON , G. S.; K RÜGER , T. B.; S ANDHU, J. S.; H ORCH , K. W.: Effects of Short-Term Training
on Sensory and Motor Function in Severed Nerves of Long-Term Human Amputees. Journal of
Neurophysiology 93 (2005), S. 2625–2633.
[115] D IETERLE , J.; L OOSE , T.; S CHABLOWSKI , M.; M IKUT, R.; RUPP, R.; A BEL , R.: A New Measure
for Assessing Gait Quality in SCI Patients with 3-D Gait Analysis. Gait & Posture 16(S1) (2002),
S. 138.
[116] D IETRICH , C.: Temporal Sensorfusion for the Classification of Bioacustic Time Series. Disser-
tation, Universität Ulm, 2004.
[117] D IETTERICH , T. G.: An Experimental Comparison of Three Methods for Constructing Ensem-
bles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning 40(2) (2000),
S. 139–157.
[118] DIN 19226: Leittechnik, Regelungstechnik und Steuerungstechnik. Deutsches Institut für Nor-
mung e.V., 1994.
[119] D JAVAN , B.; R EMZI , M.; Z LOTTA , A.; S EITZ , C.; S NOW, P.; M ARBERGER , M.: Novel Artifici-
al Neural Network for Early Detection of Prostate Cancer. Journal of Clinical Oncology 20(4)
(2002), S. 921–929.
[120] D ONCHIN , O.; G RIBOVA , A.; S TEINBERG , O.; B ERGMAN , H.; VAADIA , E.: Primary Motor Cortex
is Involved in Bimanual Coordination. Nature 395 (1998), S. 274–278.
[121] D ONOGHUE , J. P.: Connecting Cortex to Machines: Recent Advances in Brain Interfaces. Na-
ture Neuroscience 5 (2002), S. 1085 – 1088.
[122] D ÖRNER , D.: Bauplan für eine Seele. Rowohlt, 2002.
[123] D ÖSSEL , O.: Bildgebende Verfahren in der Medizin. Von der Technik zur medizinischen Anwen-
dung. Springer, 1999.
[124] D UANN , J.; J UNG , T.; K UO, W.; Y EH , T.; M AKEIG , S.; H SIEH , J.; S EJNOWSKI , T.: Measuring the
Variability of Event-Related Bold Signal. In: Proc., 3rd International Conference on Independent
Component Analysis and Blind Signal Separation, S. 528–533, 2001.

329
[125] D UNCAN , J.; AYACHE , N.: Medical Image Analysis: Progress over Two Decades and the Chal-
lenges Ahead. IEEE Transactions on Pattern Analysis and Machine Intelligence 22(1) (2000),
S. 85–105.
[126] D UNG , L. T.; OTTO, P.: FuzzyOpt – ein Werkzeug zum Entwurf optimaler Fuzzy-Systeme. at -
Automatisierungstechnik 45(11) (1997), S. 555–556.
[127] E FRON , B.; T IBSHIRANI , R.: Cross-Validation and the Bootstrap: Estimating the Error Rate of a
Prediction Rule. Techn. Ber. TR-477, Dept. of Statistics, Stanford University, 1995.
[128] E L -N AQA , I.; YANG , Y.; W ERNICK , M.; G ALATSANOS , N.; N ISHIKAWA , R.: A Support Vector
Machine Approach for Detection of Microcalcifications. IEEE Transactions on Medical Imaging
21(12) (2002), S. 1552–1563.
[129] E LLENIUS , J.; G ROTH , T.: Methods for Selection of Adequate Neural Network Structures with
Application to Early Assessment of Chest Pain Patients by Biochemical Monitoring. International
Journal of Medical Informatics 57 (2-3) (2000), S. 18–202.
[130] E NGLEHART, K.; H UDGINS , B.; C HAN , A.: Continuous Multifunction Myoelectric Control using
Pattern Recognition. Technology and Disability 15 (2003), S. 95–103.
[131] E NGLEHART, K.; H UDGINS , B.; PARKER , P.: A Wavelet-Based Continuous Classification Sche-
me for Multifunctional Myoelectric Control. IEEE Transactions on Biomedical Engineering 48(3)
(2001), S. 302–311.
[132] E RIKSSON , L.; S EBELIUS , F.; B ALKENIUS , C.: Neural Control of a Virtual Prosthesis. In: Proc.,
International Conference on Artificial Neural Networks, S. 905–910, Berlin: Springer, 1998.
[133] FAYYAD, U.; P IATETSKY-S HAPIRO, G.; S MYTH , P.: From Data Mining to Knowledge Discovery
in Databases. AI Magazine 17 (1996), S. 37–54.
[134] F ERREZ , P. W.; M ILLÁN , J.: You are Wrong!—Automatic Detection of Interaction Errors from
Brain Waves. In: Proc., 19th Joint International Conference on Artificial Intelligence, Edinburgh,
UK, 2005.
[135] F INK , E.; KOKKU, P.; N IKIFOROU, S.; H ALL , L.; G OLDGOF, D.; K RISCHER , J.: Selection of
Patients for Clinical Trials: An Interactive Web-Based System. Artificial Intelligence in Medicine
31(3) (2004), S. 241–254.
[136] F LETCHER , R.: Practical Methods of Optimization. Chichester: John Wiley, 1987.
[137] F REER , T.; U LISSEY, M.: Screening Mammography with Computer-Aided Detection: Prospecti-
ve Study of 12860 Patients in a Community Breast Center. Radiology 220 (2001), S. 781–786.
[138] F REUND, Y.; S CHAPIRE , R. E.: Experiments with a New Boosting Algorithm. In: Proc., Interna-
tional Conference on Machine Learning, S. 148–156, 1996.
[139] F RIEDMAN , J.: Regularized Discriminant Analysis. Journal of the American Statistical Associa-
tion 84 (1989), S. 165–175.
[140] F RITSCH , M.: Baumorientierte Regel-Induktionsstrategie für das ROSA-Verfahren zur Model-
lierung komplexer dynamischer Systeme. Dissertation, Universität Dortmund, VDI-Verlag, Düs-
seldorf, 1996.
[141] F ÜRNKRANZ , J.: Separate-and-Conquer Rule Learning. Artificial Intelligence Review 13 (1)
(1999), S. 1–46.
[142] G ERNER , H. J.: Die Querschnittlähmung. Erstversorgung. Behandlungsstrategie. Rehabilitati-
on. Blackwell Wissenschafts-Verlag, 1992.
[143] G LASS , J. O.; R EDDICK , W. E.: Hybrid Artificial Neural Network Segmentation and Classifica-
tion of Dynamic Contrast-Enhanced MR Imaging (DEMRI) of Osteosarcoma. Magnetic Reso-
nance Imaging 16 (9) (1998), S. 1075–1083.

330
[144] G ÖRTZ , P.: Implementierung und Spezifizierung von Mensch-Maschine-Schnittstellen für den
Einsatz in Handprothesen. Diplomarbeit, Universität Karlsruhe, 2006.
[145] G RÖLL , L.: Parameterrestriktionen bei der Identifikation am Beispiel des LSQ-Problems (Least
Squares with a Single Quadratic Constraint). at - Automatisierungstechnik 52(1) (2004), S. 46–
53.
[146] G RUBE , M.; M IKUT, R.; A LBER , T.; J AGIELLA , M.; B RETTHAUER , G.: A Self-Tuning and
Process-Specific Approach in Sensor Lifetime Prediction. In: Proc., Eurosens, Dresden, 2008.
[147] G UGGENMOOS , I.; W ERNECKE , K. D.: Medizinische Statistik. Blackwell, 1996.
[148] G UYON , I.; W ESTON , J.; B ARNHILL , S.; VAPNIK , V.: Gene Selection for Cancer Classification
using Support Vector Machines. Machine Learning 46 (2002), S. 389–422.
[149] H AGBERG , G.: From Magnetic Resonance Spectroscopy to Classification of Tumors. A Review
of Pattern Recognition Methods. NMR in Biomedicine 11 (4-5) (1997), S. 148–156.
[150] H AMMER , B.; V ILLMANN , T.: Generalized Relevance Learning Vector Quantization. Neural Net-
works 15(8-9) (2002), S. 1059–1068.
[151] H ANSEN , M. H.; Y U, B.: Model Selection and the Principle of Minimum Description Length.
Journal of the American Statistical Association 96(454) (2001), S. 746–774.
[152] H ARTUNG , J.; E LPELT, B.; K LÖSENER , K.-H.: Lehr- und Handbuch der Angewandten Statistik.
München: Oldenbourg, 11. Aufl., 1998.
[153] H ASTIE , T.; T IBSHIRANI , R.: Discriminant Adaptive Nearest Neighbor Classification and Re-
gression. In: Advances in Neural Information Processing Systems (TOURETZKY, D. S.; M OZER ,
M. C.; H ASSELMO, M. E., Hg.), S. 409–415, The MIT Press, 1996.
[154] H ASTIE , T.; T IBSHIRANI , R.: Classification by Pairwise Coupling. Annals of Statistics 26(2)
(1998), S. 451–471.
[155] H AUX , R.; A MMENWERTH , E.; H ERZOG , W.; K NAUP, P.: Health Care in the Information Society.
A Prognosis for the Year 2013. International Journal of Medical Informatics 66(1-3) (2002),
S. 3–21.
[156] H AYASHI , I.; M AEDA , T.; B ASTIAN , A.; J AIN , L. C.: Generation of Fuzzy Decision Trees by Fuzzy
ID3 with Adjusting Mechanism of AND/OR Operators. In: Proc., IEEE International Conference
on Fuzzy Systems, S. 681–685, Piscataway, NJ, 1998.
[157] H AYASHI , Y.; S ETIONO, R.; YOSHIDA , K.: A Comparison between Two Neural Network Rule
Extraction Techniques for the Diagnosis of Hepatobiliary Disorders. Artificial Intelligence in Me-
dicine 20(3) (2000), S. 205–216.
[158] H AYKIN , S.: Neural Networks: A Comprehensive Foundation. Upper Saddle River, NJ: Prentice
Hall, 1994.
[159] H EATH , M.; B OWYER , K.; KOPANS , D.; M OORE , R.; K EGELMEYER , P.: The Digital Database
for Screening Mammography. In: Proc., 5th International Workshop on Digital Mammography,
Toronto, Canada: Medical Physics Publishing, 2000.
[160] H EINECKE , A.; H ULTSCH , E.; R EPGES , R.: Medizinische Biometrie. Springer, 1992.
[161] H ERBERTS , P.; A LMSTROEM , C.; C AINE , K.: Clinical Application Study of Multifunctional Pros-
thetic Hands. Journal of Bone and Joint Surgery 60-B (4) (1978), S. 552–560.
[162] H ERBST, M.: Entwicklung und Evaluierung von Trainingsparadigmen für den Entwurf von
Mensch-Maschine-Schnittstellen. Studienarbeit, Universität Karlsruhe, 2006.
[163] H ERRERA , F.; L OZANO, M.; V ERDEGAY, J. L.: A Learning Process for Fuzzy Control Rules
using Genetic Algorithms. Fuzzy Sets and Systems 100 (1998), S. 143–158.

331
[164] H ILL , A. B.: Statistical Methods in Clinical and Preventive Medicine. Edinburgh: Churchill Li-
vingstone, 1962.
[165] H ILLMAN , G. R.; C HANG , C.-W.; Y ING , H. Y.; Y EN , J.; K ETONEN , L.; K ENT, T. A.: A Fuz-
zy Logic Approach to Identifying Brain Structures in MRI using Expert Anatomic Knowledge.
Computers and Biomedical Research 32(6) (1999), S. 503–516.
[166] H ILTNER , J.: Ein CI-unterstütztes Rahmenmodell für die medizinische Bildanalyse. Dissertation,
Universität Dortmund, 2001.
[167] H INTERBERGER , T.; W ILHELM , B.; M ELLINGER , J.; KOTCHOUBEY, B.; B IRBAUMER , N.: A De-
vice for the Detection of Cognitive Brain Functions in Completely Paralyzed or Unresponsive
Patients. IEEE Transactions on Biomedical Engineering 52(2) (2005), S. 211 – 220.
[168] H IRSCH , D. E.: An Expert System for Diagnosing Gait for Cerebral Palsy Patients. Techn. Ber.
LCS/TR-388, MIT, 1987.
[169] H OCHBERG , L. R.; S ERRUYA , M. D.; F RIEHS , G. M.; M UKAND, J. A.; S ALEH , M.; C APLAN ,
A. H.; B RANNER , A.; C HEN , D.; P ENN , R. D.; D ONOGHUE , J. P.: Neuronal Ensemble Control
of Prosthetic Devices by a Human with Tetraplegia. Nature 442 (2006), S. 164–171.
[170] H ODGKIN , A.; H UXLEY, A.: A Quantitative Description of Membrane Current and its Application
to Conduction and Excitation in Nerve. The Journal of Physiology 117(4) (1952), S. 500–544.
[171] H OFFMANN , F.: Combining Boosting and Evolutionary Algorithms for Learning of Fuzzy Classi-
fication Rules. Fuzzy Sets and Systems 141 (2004), S. 47–58.
[172] H OFFMANN , F.; N ELLES , O.: Genetic Programming for Model Selection of TSK-Fuzzy Systems.
Information Sciences 136 (1-4) (2001), S. 7–28.
[173] H OFFMANN , F.; P FISTER , G.: Optimierung hierarchischer Fuzzy-Regler mit Genetischen Al-
gorithmen. In: Fuzzy Logik: Theorie und Praxis, Proc., 4. Dortmunder Fuzzy-Tage, S. 97–89,
Berlin: Springer, 1994.
[174] H OLLAND, H. J.: Adaptation in Natural and Artificial Systems. Ann Arbor: The University of
Michigan Press, 1975.
[175] H OLLAND, J. H.; H OLYOAK , K. J.; N ISBETT, K. J.; T HAGARD, P. R.: Induction: Processes of
Inference. Cambridge, MA: MIT Press, 1986.
[176] H OLVE , R.: “The curse of Dimensionality” – und was man dagegen tun kann . . . Hierarchische
Fuzzy Systeme zur Musterklassifikation. In: Proc., 8. Workshop Fuzzy Control des GMA-FA
5.22, S. 195–208, 1998.
[177] H OLZREITER , S.; KOHLE , M.: Assessment of Gait Patterns using Neural Networks. Journal of
Biomechanics 26 (1993) 6, S. 645–651.
[178] H ONG , T. P.; T SENG , S. S.: A Generalised Version Space Learning Algorithm for Noisy and
Uncertain Data. IEEE Transactions on Knowledge and Data Engineering 9 (1997), S. 336–340.
[179] H ONG , X.; H ARRIS , C.; C HEN , S.; S HARKEY, P.: Robust Nonlinear Model Identification Methods
using Forward Regression. IEEE Transactions on Systems, Man, and Cybernetics, Part A, 33(4)
(2003), S. 514–523.
[180] H ÖPPNER , F.; K LAWONN , F.; K RUSE , R.: Fuzzy Cluster Analysis. New York: John Wiley, 1999.
[181] H ORVATH , A. R.; P EWSNER , D.: Systematic Reviews in Laboratory Medicine: Principles, Pro-
cesses and Practical Considerations. Clinica Chimica Acta 342 (1-2) (2004), S. 23–39.
[182] H OWE , H. D.; C UTKOSKY, M. R.: Sensing Skin Acceleration for Slip and Texture Perception. In:
Proc., IEEE International Conference on Robotics and Automation, Scottsdale, Arizona, USA,
S. 145–150, 1989.

332
[183] H UDGINS , B.; PARKER , P.; S COTT, R.: A New Strategy for Multifunction Myoelectric Control.
IEEE Transactions on Biomedical Engineering 40 (1993), S. 82–94.
[184] H YVÄRINEN , A.: Survey on Independent Component Analysis. Neural Computing Surveys 2
(1999), S. 94–128.
[185] I DEKER , T.; L AUFFENBURGER , D.: Building with a Scaffold: Emerging Strategies for High- to
Low-Level Cellular Modeling. Trends in Biotechnology 21(6) (2003), S. 255–262.
[186] I KEDA , S.; TOYAMA , K.: Independent Component Analysis for Noisy Data - MEG Data Analysis.
Neural Networks 13(10) (2000), S. 1063–1074.
[187] I NMANN , A.; H AUGLAND, M.; H AASE , J.; B IERING -S ORENSEN , F.; S INKJAER , T.: Signals from
Skin Mechanoreceptors Used in Control of a Hand Grasp Neuroprosthesis. Neuroreport 12(13)
(2001), S. 2817–2820.
[188] J ÄKEL , J.: Linguistische Fuzzy-Systeme mit verallgemeinerten Konklusionen und ihre Anwen-
dung zur Modellbildung und Regelung. Dissertation, Universität Karlsruhe, VDI-Verlag, Düssel-
dorf, 1999.
[189] J ÄKEL , J.; G RÖLL , L.: Schätzung der bedingten Wahrscheinlichkeit unscharfer Ereignisse. In:
Proc., 11. Workshop Fuzzy Control des GMA-FA 5.22, Dortmund, S. 172–188, Forschungszen-
trum Karlsruhe (FZKA 6660), 2001.
[190] J ÄKEL , J.; G RÖLL , L.; M IKUT, R.: Bewertungsmaße zum Generieren von Fuzzy-Regeln un-
ter Beachtung linguistisch motivierter Restriktionen. In: Proc., 8. Workshop Fuzzy Control des
GMA-FA 5.22, S. 15–28, 1998.
[191] J ÄKEL , J.; G RÖLL , L.; M IKUT, R.: Tree-Oriented Hypothesis Generation for Interpretable Fuzzy
Rules. In: Proc., 7th European Congress on Intelligent Techniques and Soft Computing EU-
FIT’99, S. 279–280, Aachen, CD-ROM, 1999.
[192] J ÄKEL , J.; M IKUT, R.; B RETTHAUER , G.: Fuzzy Control Systems. In: Controls Systems, Ro-
botics, and Automation, edited by H. Unbehauen, in Encyclopedia of Life Support Systems
(EOLSS), Developed under the Auspices of the UNESCO, Eolss Publishers, Oxford, UK, 2003.
[193] J AKOB , W.: Eine neue Methodik zur Erhöhung der Leistungsfähigkeit Evolutionärer Algorithmen
durch die Integration lokaler Suchverfahren. Dissertation, Universität Karlsruhe, Forschungs-
zentrum Karlsruhe (FZKA 6965), 2004.
[194] J ANG , J.-S. R.: ANFIS: Adaptive-Network-Based Fuzzy Inference Systems. IEEE Transactions
on Systems, Man, and Cybernetics 23 (1993) 3, S. 665–685.
[195] J ANG , J.-S. R.: Structure Determination in Fuzzy Modeling: A Fuzzy CART Approach. In: Proc.,
IEEE International Conference on Fuzzy Systems, S. 480–485, Orlando, Florida, 1994.
[196] J ANIKOW, C. Z.: Fuzzy Processing in Decision Trees. In: Proc., International Symposium on
Artificial Intelligence, S. 360–367, Monterrey, 1993.
[197] J ANIKOW, C. Z.: Fuzzy Decision Trees: Issues and Methods. IEEE Transactions on Systems,
Man, and Cybernetics 28(1) (1998), S. 1–14.
[198] J ELLINGER , K.: Neurodegenerative Erkrankungen (ZNS) - Eine aktuelle Übersicht. Journal für
Neurologie, Neurochirurgie und Psychiatrie 6(1) (2005), S. 9–18.
[199] J ENSEN , E.; N EBOT, A.; C AMINAL , P.; H ENNEBERG , S.: Identification of Causal Relations bet-
ween Haemodynamic Variables, Auditory Evoked Potentials and Isoflurane by Means of Fuzzy
Logic. British Journal of Anaesthesia 82(1) (1999), S. 25–32.
[200] J IN , Y.; VON S EELEN , W.; S ENDHOFF , B.: An Approach to Rule-Based Knowledge Extraction.
In: Proc., IEEE Conference on Fuzzy Systems, S. 1188–1193, Anchorage, Alaska, 1998.
[201] K AELBLING , L. P.; L ITTMAN , M. L.; M OORE , A. W.: Reinforcement Learning: A Survey. Journal
of Artificial Intelligence Research 4 (1996), S. 237–285.

333
[202] K ALATZIS , I.; P ILIOURAS , N.; V ENTOURAS , E.; PAPAGEORGIOU, C. C.; R ABAVILAS , A. D.; C A -
VOURAS , D.: Design and Implementation of an SVM-Based Computer Classification System for
Discriminating Depressive Patients from Healthy Controls using the P600 Component of ERP
Signals. Computer Methods and Programs in Biomedicine 75(1) (2004), S. 11–22.
[203] K ALRA , L.; E VANS , A.; P EREZ , I.; K NAPP, M.; D ONALDSON , N.; S WIFT, C.: Alternative Stra-
tegies for Stroke Care: A Prospective Randomised Controlled Trial. The Lancet 356 (2000),
S. 894–899.
[204] K ÄLVIÄINEN , H.; H IRVONEN , P.; X U, L.; O JA , E.: Probabilistic and Non-Probabilistic Hough
Transforms: Overview and Comparisons. Image and Vision Computing 13(4) (1995), S. 239–
252.
[205] K AMPAS , P.: Myoelektroden - optimal eingesetzt. Medizinisch Orthopädische Technik 1 (2001),
S. 21–27.
[206] K ANDASWAMY, A.; K UMAR , C. S.; R AMANATHAN , R.; J AYARAMAN , S.; M ALMURUGAN , N.:
Neural Classification of Lung Sounds using Wavelet Coefficients. Computers in Biology and
Medicine 34 (2004), S. 523–537.
[207] K ARR , C. L.: Design of an Adaptive Fuzzy Logic Controller using a Genetic Algorithm. In: Proc.,
International Conference on Genetic Algorithms, S. 450–457, San Mateo, 1991.
[208] K ARSSEMEIJER , N.: Adaptive Noise Equalization and Recognition of Microcalcification Clus-
ters in Mammograms. International Journal of Pattern Recognition and Artificial Intelligence
(IJPRAI) 7(6) (1993), S. 1357–1376.
[209] K ARSSEMEIJER , N.; H ENDRIKS , J. H. C. L.: Computer-Assisted Reading of Mammograms.
European Radiology 7(5) (1997), S. 743–748.
[210] K ELLER , H. B.: Learning Rules for Modelling Dynamic Systems Behaviour. In: Proc., EURO-
SIM’95, S. 1205–1210, Amsterdam: Elsevier Science, 1995.
[211] K ENNEDY, P.; K IRBY, M.; M OORE , M.; K ING , B.; M ALLORY, A.: Computer Control using Human
Intracortical Local Field Potentials. IEEE Transactions on Neural Systems and Rehabilitation
Engineering 12(3) (2004), S. 339–344.
[212] K IENDL , H.: Fuzzy Control methodenorientiert. München: Oldenbourg, 1997.
[213] K IM , J.; PARK , H.: Statistical Textural Features for Detection of Microcalcifications in Digitized
Mammograms. IEEE Transactions on Medical Imaging 18(3) (1999), S. 231–238.
[214] K IVINIEMI , V.; K ANTOLA , J.-H.; J AUHIAINEN , J.; H YVÄRINEN , A.; T ERVONEN , O.: Indepen-
dent Component Analysis of Nondeterministic fMRI Signal Sources. Neuroimage 19 (2) (2003),
S. 253–260.
[215] K LAWONN , F.; H ÖPPNER , F.: An Alternative Approach to the Fuzzifier in Fuzzy Clustering to
Obtain Better Clustering Results. In: Proc., 3rd Eusflat Conference, S. 730–734, Hochschule
Zittau, 2003.
[216] K LIR , G. J.: Generalized Information Theory: Aims, Results, and Open Problems. Reliability
Engineering & System Safety 85 (1-3) (2004), S. 21–38.
[217] K LOSE , A.: Partially Supervised Learning of Fuzzy Classification Rules. Dissertation, Universi-
tät Magdeburg, 2004.
[218] K LOSE , A.; N ÜRNBERGER , A.: Applying Boolean Transformations to Fuzzy Rule Bases. In:
Proc., 7th European Congress on Intelligent Techniques and Soft Computing EUFIT’99, S. 215–
217, Aachen, 1999.
[219] K NOTT, V.; M AHONEY, C.; K ENNEDY, S.; E VANS , K.: EEG Power, Frequency, Asymmetry and
Coherence in Male Depression. Psychiatry Research: Neuroimaging 106(2) (2001), S. 123–
140.

334
[220] KOCH , M.; K UHN , T.; W ERNSTEDT, J.: Fuzzy Control: Optimale Nachbildung und Entwurf opti-
maler Entscheidungen. München: Oldenbourg, 1996.
[221] KOHONEN , T.: Self-Organizing Maps. Berlin: Springer, 1995.
[222] KOHONEN , T.: Learning Vector Quantization. MIT Press Cambridge, MA, USA, 1998.
[223] KOHONEN , T.: The Self-Organizing Map. Neurocomputing 21(1-3) (1998), S. 1–6.
[224] KOSTOFF , R. N.; B LOCK , J. A.; S TUMP, J. A.; P FEIL , K. M.: Information Content in Medline
Record Fields. International Journal of Medical Informatics 73(6) (2004), S. 515–527.
[225] K RABS , M.; K IENDL , H.: Automatische Generierung von Fuzzy-Regeln mit dem ROSA-
Verfahren. In: Proc., Fuzzy-Control, GMA-Aussprachetag, Langen, VDI-Bericht 1113, S. 29–40,
Düsseldorf: VDI-Verlag, 1994.
[226] K RAUT, D.: Entwicklung einer Testumgebung für mikrocontroller-basierte Steuerungen von
myoelektrischen Handprothesen. Diplomarbeit, Berufsakademie Karlsruhe, Forschungszen-
trum Karlsruhe, 2003.
[227] K REMLING , A.; J AHREIS , K.; L ENGELER , J. W.; G ILLES , E. D.: The Organization of Metabolic
Reaction Networks: A Signal-Oriented Approach to Cellular Models. Metabolic Engineering 2(3)
(2000), S. 190–200.
[228] K RONE , A.: Datenbasierte Generierung von relevanten Fuzzy-Regeln zur Modellierung von
Prozesszusammenhängen und Bedienstrategien. Dissertation, Universität Dortmund, VDI-
Verlag, Düsseldorf, 1999.
[229] K RONE , A.; B ÄCK , T.; T EUBER , P.: Evolutionäres Suchkonzept zum Aufstellen signifikanter
Fuzzy-Regeln. at - Automatisierungstechnik 44(8) (1996), S. 405–411.
[230] K RONE , A.; K IENDL , H.: Automatic Generation of Positive and Negative Rules for Two-Way Fuz-
zy Controllers. In: Proc., 2nd European Congress on Intelligent Techniques and Soft Computing
EUFIT’94, S. 438–442, Aachen, 1994.
[231] K RONE , A.; K IENDL , H.: An Evolutionary Concept for Generating Relevant Fuzzy Rules from
Data. International Journal of Knowledge-based Intelligent Engineering Systems 1(4) (1997),
S. 207–213.
[232] K RONE , A.; TAEGER , H.: Data-Based Fuzzy Rule Test for Fuzzy Modelling. Fuzzy Sets and
Systems 123(3) (2001), S. 343–358.
[233] K RÜGER , T.; R EISCHL , M.; L AGO, N.; B URMEISTER , O.; M IKUT, R.; RUFF , R.; H OFFMANN , K.-
P.; N AVARRO, X.; S TIEGLITZ , T.: Analysis of Microelectrode-Signals in the Peripheral Nervous
System, In-Vivo and Post-Processing. In: Proc., Mikrosystemtechnik Kongress Deutschland, S.
69–72, Freiburg: VDE-Verlag, 2005.
[234] K RUSE , R.; G EBHARDT, J.; K LAWONN , F.: Fuzzy-Systeme. Stuttgart: B. G. Teubner, 1993.
[235] K ULLBACK , S.; L EIBLER , R. A.: Information and Sufficiency. Annals of Mathematics and Stati-
stics 22 (1951), S. 79–86.
[236] K UMAR , N.; A NDREOU, A. G.: Heteroscedastic Discriminant Analysis and Reduced Rank
HMMs for Improved Speech Recognition. Speech Communication 26(4) (1998), S. 283–297.
[237] K UNCHEVA , L. I.: Switching between Selection and Fusion in Combining Classifiers: An Ex-
periment. IEEE Transactions on Systems, Man, and Cybernetics – Part B: Cybernetics 32(2)
(2002), S. 146–156.
[238] K UNZ , H.; D ERZ , C.; TOLXDORFF , T.; B ERNARDING , J.: Feature Extraction and Supervised
Classification of MR Images to Support Proton Radiation Therapy of Eye Tumors. Computer
Methods and Programs in Biomedicine 73(3) (2004), S. 173–260.

335
[239] K VASNICKA , H. M.; T HIELE , J.; W ERDEN , C.; Z ANKOVICH , R.; D IEHL , V.; F ISCHER , R.: Pro-
gnostic Factors in Idiopathic (Primary) Osteomyelofibrosis. Cancer 80 (4) (1997), S. 708–719.
[240] K YBERD, P. J.; C HAPPELL , P. H.: Characterization of an Optical and Acoustic Touch and Slip
Sensor for Autonomous Manipulation. Measuring Science & Technology 3 (1992), S. 969–975.
[241] L AL , T.; S CHRÖDER , M.; H INTERBERGER , T.; W ESTON , J.; B OGDAN , M.; B IRBAUMER , N.;
S CHÖLKOPF, B.: Support Vector Channel Selection in BCI. IEEE Transactions on Biomedical
Engineering 51(6) (2004), S. 1003–1010.
[242] L AMPERT, U.; B UNGART, B.; A RNDT, S.; T HOMECZEK , C.; O LLENSCHLÄGER , G.: Der Online-
Informationsdienst ”LEITLINIEN-IN-FO” – ein Beitrag zum Qualitätsmanagement im Gesund-
heitswesen. Zeitschrift für ärztliche Fortbildung und Qualitätssicherung 99 (1999), S. 39–44.
[243] L AUER , R. T.; P ECKHAM , P.; K ILGORE , K. L.: EEG-Based Control of a Hand Grasp Neuropros-
thesis. Neuroreport 10(8) (1999), S. 1767–1771.
[244] L AUER , R. T.; P ECKHAM , P. H.; K ILGORE , K. L.; H EETDERKS , W. J.: Applications of Corti-
cal Signals to Neuroprosthetic Control: A Critical Review. IEEE Transactions on Rehabilitation
Engineering 8(2) (2000), S. 205–208.
[245] L AVRAC, N.: Selected Techniques for Data Mining in Medicine. Artificial Intelligence in Medicine
16 (1999), S. 3–23.
[246] L EHMANN , T.; M EYER ZU B EXTEN , E.: Handbuch der Medizinischen Informatik. München:
Hanser-Verlag, 2002.
[247] L EITICH , H.; K IENER , P.; KOLARZ , G.; S CHUH , C.; G RANINGER , W.; A DLASSNIG , K.-P.: A
Prospective Evaluation of the Medical Consultation System CADIAG-II/RHEUMA in a Rheuma-
tological Outpatient Clinic. Methods of Information in Medicine 20 (2001), S. 213–220.
[248] L EMM , S.; S CHÄFER , C.; C URIO, G.: BCI Competition 2003 – Data Set III: Probabilistic Mode-
ling of Sensorimotor µ Rhythms for Classification of Imaginary Hand Movements. IEEE Trans-
actions on Biomedical Engineering 51(6) (2004), S. 1077–1080.
[249] L EMM , S.; S CHÄFER , C.; C URIO, G.: Aggregating Classification Accuracy across Time: App-
lication to Single Trial EEG. Advances In Neural Information Processing Systems 19 (2007),
S. 825.
[250] L IGHT, C.; C HAPPELL , P.; H UDGINS , B.; E NGLEHART, K.: Intelligent Multifunction Myoelectric
Control of Hand Prostheses. Journal of Medical Engineering & Technology, UK: Taylor & Francis
26(4) (2002), S. 139–146.
[251] L IN , C.; W EN , U.: A Labeling Algorithm for the Fuzzy Assignment Problem. Fuzzy Sets and
Systems 142(3) (2004), S. 373–391.
[252] L INES , G. T.; K AVLI , T.: The Equivalence of Spline Models and Fuzzy Logic Applied to Model
Construction and Interpretation, Kap. 11. Singapore: World Scientific, 1996.
[253] L IPOVEI , M.: Evaluation of Biometric Signal Characteristics for Movement Classification. Di-
plomarbeit, Universität Bukarest, Forschungszentrum Karlsruhe, 2004.
[254] L ISBOA , P. J. G.: A Review of Evidence of Health Benefit from Artificial Neural Networks in
Medical Intervention. Neural Networks 15(1) (2002), S. 11–39.
[255] L IU, J.; S HIFFMAN , R.: Operationalization of Clinical Practice Guidelines using Fuzzy Logic. In:
Proc., AMIA Annual Fall Symposium, S. 283–287, 1997.
[256] L JUNG , L.: System Identification - Theory for the User. Prentice Hall, 1999.
[257] L OEB , G. E.; DAVOODI , R.: The Functional Reanimation of Paralyzed Limbs. IEEE Engineering
in Medicine and Biology 24(5) (2005), S. 45–51.

336
[258] L OOSE , T.: Konzept für eine modellgestützte Diagnostik mittels Data Mining am Beispiel der
Bewegungsanalyse. Dissertation, Universität Karlsruhe, Universitätsverlag Karlsruhe, 2004.
[259] L OOSE , T.; D IETERLE , J.; M IKUT, R.; RUPP, R.; A BEL , R.; S CHABLOWSKI , M.; B RETTHAUER ,
G.; G ERNER , H. J.: Automatisierte Interpretation von Zeitreihen am Beispiel von klinischen
Bewegungsanalysen. at - Automatisierungstechnik 52 (2004), S. 359–369.
[260] L OOSE , T.; J ÄKEL , J.; M IKUT, R.: Datenbasierte Generierung natürlichsprachlicher Erklärungs-
texte am Beispiel der Instrumentellen Ganganalyse. In: Proc., 12. Workshop Fuzzy Systeme,
S. 43–57, Forschungszentrum Karlsruhe (FZKA 6767), 2002.
[261] L OOSE , T.; M ALBERG , H.; M IKUT, R.; D IETERLE , J.; S CHABLOWSKI , M.; W OLF, S.; A BEL , R.;
D ÖDERLEIN , L.; RUPP, R.: Ein modulares Verfahren zur automatisierten Auswertung von Gang-
analysedaten. Biomedizinische Technik 47(E1) (2002), S. 700–703.
[262] L OOSE , T.; M IKUT, R.; B RETTHAUER , G.: Fuzzy-Clustering über simultan aufgezeichnete
Ganganalyse-Zeitreihen. In: Proc., 13. Workshop Fuzzy Systeme, S. 5–22, Forschungszentrum
Karlsruhe (FZKA 6900), 2003.
[263] L OOSE , T.; M IKUT, R.; RUPP, R.; S CHABLOWSKI , M.: Gait-CAD - A Matlab Toolbox for Applica-
tion of Data Mining Methods in Gait Analysis. Gait & Posture 18(E2) (2003), S. 114–115.
[264] L OSLEVER , P.; L AASSEK , E.; A NGUE , J.-C.: Combined Statistical Study of Joint Angles and
Ground Reaction Forces using Component and Multiple Correspondence Analysis. IEEE Trans-
actions on Biomedical Engineering 41 (1994), S. 1160–1167.
[265] L UCAS , P. J. F.: Model-Based Diagnosis in Medicine. Artificial Intelligence in Medicine 10(3)
(1997), S. 201–208.
[266] L UCHT, R.; D ELORME , S.; B RIX , G.: Neural Network-Based Segmentation of Dynamic MR
Mammographic Images. Magnetic Resonance Imaging 20(2) (2002), S. 147–154.
[267] M ACHADO, A.; G EE , J.; C AMPOS , M.: Structural Shape Characterization Via Exploratory Factor
Analysis. Artificial Intelligence in Medicine 30(2) (2004), S. 97–118.
[268] M AHFOUF, M.; A BBOD, M. F.; L INKENS , D. A.: A Survey of Fuzzy Logic Monitoring and Control
Utilisation in Medicine. Artificial Intelligence in Medicine 21(1-3) (2001), S. 27–42.
[269] M AHFOUF, M.; A SBURY, J.; L INKENS , D. A.: Unconstrained and Constrained Generalised Pre-
dictive Control of Depth of Anaesthesia during Surgery. Control Engineering Practice 11(12)
(2003), S. 1501–1515.
[270] M AINTZ , J. B. A.; V IERGEVER , M. A.: A Survey of Medical Image Registration. Medical Image
Analysis 2(1) (1998), S. 1–36.
[271] M AIR , J.; S MIDT, J.; L ECHLEITNER , P.; D IENSTL , F.; P USCHENDORF, B.: A Decision Tree for the
Early Diagnosis of Acute Myocardial Infarction in Nontraumatic Chest Pain Patients at Hospital
Admission. Chest 108 (1995), S. 1502 – 1509.
[272] M AKEIG , S.; J UNG , T.; B ELL , A.; G HAHREMANI , D.; S EJNOWSKI , T.: Blind Separation of Audito-
ry Event-Related Brain Responses Into Independent Components. In: Proc., National Academy
of Sciences of the United States of America, 94(20), S. 10979–10984, 1997.
[273] M ALBERG , H.: Modellierung, Analyse und Klassifikation von autonomen Regulationsprozessen
des Herz-Kreislauf-Systems. Dissertation, TU Ilmenau, VDI-Verlag, Düsseldorf, 2000.
[274] M ALBERG , H.; W ESSEL , N.; H ASART, A.; O STERZIEL , K.; VOSS , A.: Advanced Analysis of
Spontaneous Baroreflex Sensitivity, Blood Pressure and Heart Rate Variability in Patients with
Dilated Cardiomyopathy. Clinical Science 102(4) (2002), S. 465–473.
[275] M ARTIN , J.: Ein Beitrag zur Integration von Sensoren in eine anthropomorphe künstliche Hand
mit flexiblen Fluidaktoren. Dissertation, Universität Karlsruhe, Universitätsverlag Karlsruhe,
2004.

337
[276] M ARTIN , J.; B ECK , S.; L EHMANN , A.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.; B RETTHAUER ,
G.: Sensors, Identification and Low Level Control of a Flexible Anthropomorphic Robot Hand.
International Journal of Humanoid Robotics 1(3) (2004), S. 517–532.
[277] M ASON , S. G.; B IRCH , G. E.: A General Framework for Brain-Computer Interface Design. IEEE
Transactions on Neural Systems and Rehabilitation Engineering 11(1) (2003), S. 70–85.
[278] M ASULLI , F.; VALENTINI , G.: Comparing Decomposition Methods for Classification. In: Proc.,
4th International Conference on Knowledge-Based Intelligent Engineering Systems and Allied
Technologies, S. 788–791, Piscataway, NJ, 2000.
[279] M AYORAZ , E.; M OREIRA , M.: On the Decomposition of Polychotomies into Dichotomies. In:
Proc., 14th International Conference on Machine Learning, S. 291–226, Nashville, TN: Morgan-
Kaufmann, 1997.
[280] M C I NERNEY, T.; T ERZOPOULOS , D.: Deformable Models in Medical Image Analysis: A Survey.
Medical Image Analysis 1(2) (1996), S. 91–108.
[281] M EGALOOIKONOMOU, V.; F ORD, J.; S HEN , L.; M AKEDON , F.; S AYKIN , A.: Data Mining in Brain
Imaging. Statistical Methods in Medical Research 9(4) (2000), S. 359–394.
[282] M EGALOOIKONOMOU, V.; H ERSKOVITS , E.: Mining Structure-Function Associations in a Brain
Image Database, Bd. 60 von Studies in Fuzziness and Soft Computing, S. 153–180. Heidelberg:
Physica, 2001.
[283] M EHRING , C.; R ICKERT, J.; VAADIA , E.; C ARDOSA DE O LIVEIRA , S.; A ERTSEN , A.; R OTTER ,
S.: Inference of Hand Movements from Local Field Potentials in Monkey Motor Cortex. Nature
Neuroscience 6(12) (2003), S. 1253–1254.
[284] M EYER -B ÄSE , A.: Pattern Recognition for Medical Imaging. Elsevier Academic Press, 2004.
[285] M EYER -G RAMANN , K. D.; J ÜNGST, E.-W.: Fuzzy Control – schnell und kostengünstig imple-
mentiert mit Standard-Hardware. at - Automatisierungstechnik 41 (1993) 5, S. 166–172.
[286] M ICERA , S.; S ABATINI , A.; DARIO, P.; R OSSI , B.: A Hybrid Approach to EMG Pattern Analysis
for Classification of Arm Movements using Statistical and Fuzzy Techniques. Medical Enginee-
ring and Physics 21 (1999), S. 303–311.
[287] M ICHIE , D.; S PIEGELHALTER , D.; TAYLOR , C.: Machine Learning, Neural and Statistical Classi-
fication. Ellis Horwood, 1994.
[288] M IKUT, R.: Fuzzy-Modellbildung für den Benchmarkdatensatz Kfz-Aggregate. In: Proc.,
12. Workshop Fuzzy Systeme, S. 127–134, Forschungszentrum Karlsruhe (FZKA 6767), 2002.
[289] M IKUT, R.: Automatisierte Datenanalyse in der Medizin und Medizintechnik. Habilitation, Uni-
versität Karlsruhe (TH), 2007.
[290] M IKUT, R.; B URMEISTER , O.; G RÖLL , L.; R EISCHL , M.: Takagi-Sugeno-Kang Fuzzy Classifiers
for a Special Class of Time-Varying Systems. IEEE Transactions on Fuzzy Systems (2008),
accepted paper.
[291] M IKUT, R.; B URMEISTER , O.; G RUBE , M.; R EISCHL , M.; B RETTHAUER , G.: Interaktive Auswer-
tung von aufgezeichneten Zeitreihen für Fehlerdiagnosen und Mensch-Maschine-Interfaces.
atp - Automatisierungstechnische Praxis 49(8) (2007), S. 30–34.
[292] M IKUT, R.; B URMEISTER , O.; R EISCHL , M.; L OOSE , T.: Die MATLAB-Toolbox Gait-CAD. In:
Proc., 16. Workshop Computational Intelligence, S. 114–124, Universitätsverlag Karlsruhe,
2006.
[293] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Automatic Design of Interpretable Membership Functions. In:
Proc., 8th Zittau Fuzzy Colloquium, S. 103–111, Hochschule Zittau/Görlitz, 2000.

338
[294] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Inference Methods for Partially Redundant Rule Bases. In:
Fuzzy Control: Theory and Practice (H AMPEL , R.; WAGENKNECHT, M.; C HAKER , N., Hg.), Ad-
vances in Soft Computing, S. 177–185, Heidelberg: Physica, 2000.
[295] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Boolesche Algebra und Fuzzy-Operatoren. In: Proc., 11.
Workshop Fuzzy Control des GMA-FA 5.22, S. 58–72, 2001.
[296] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Interpretability Issues in Data-Based Learning of Fuzzy Sys-
tems. Fuzzy Sets and Systems 150(2) (2005), S. 179–197.
[297] M IKUT, R.; J ÄKEL , J.; M ALBERG , H.; B RETTHAUER , G.: Datenbasierter Entwurf von Fuzzy-
Systemen für medizinische Diagnoseaufgaben. at - Automatisierungstechnik 48(7) (2000),
S. 317–326.
[298] M IKUT, R.; KÖNIG , S.; D UMITRIU, B.; B RETTHAUER , G.; G ARBE , J.: Ein Konzept für den Ein-
satz von Fuzzy-Logik zur Regelung und Qualitätssicherung in Stranggießanlagen. In: Proc.,
6. Workshop Fuzzy Control des GMA-UA 1.4.2, S. 113–126, 1996.
[299] M IKUT, R.; K RÜGER , T.; R EISCHL , M.; B URMEISTER , O.; RUPP, R.; S TIEGLITZ , T.: Regelungs-
und Steuerungskonzepte für Neuroprothesen am Beispiel der oberen Extremitäten. at - Auto-
matisierungstechnik 54(11) (2006), S. 523–536.
[300] M IKUT, R.; L OOSE , T.; B URMEISTER , O.; B RAUN , S.; R EISCHL , M.: Dokumentation der
MATLAB-Toolbox Gait-CAD. Techn. Ber., Forschungszentrum Karlsruhe GmbH, 2006.
[301] M IKUT, R.; L OOSE , T.; J ÄKEL , J.: Rule-oriented Information Acquisition from Biological Time
Series in Clinical Decision Making. In: Proc., 10th Fuzzy Colloquium, S. 300–307, 2002.
[302] M IKUT, R.; P ETER , N.; M ALBERG , H.; J ÄKEL , J.; G RÖLL , L.; B RETTHAUER , G.; A BEL , R.;
D ÖDERLEIN , L.; RUPP, R.; S CHABLOWSKI , M.; G ERNER , H.: Diagnoseunterstützung für die in-
strumentelle Ganganalyse (Projekt GANDI). Forschungszentrum Karlsruhe (FZKA 6613), 2001.
[303] M IKUT, R.; R EISCHL , M.; B URMEISTER , O.; L OOSE , T.: Data Mining in Medical Time Series.
Biomedizinische Technik 51(5/6) (2006), S. 288–293.
[304] M ILLAN , J. R.; M OURINO, J.: Asynchronous BCI and Local Neural Classifiers: An Overview of
the Adaptive Brain Interface Project. IEEE Transactions on Neural Systems and Rehabilitation
Engineering 11(2) (2003), S. 159 – 161.
[305] M ILLER , G. A.: Note on the Bias of Information Estimates. In: Information Theory in Psychology
(Q UASTLER , H., Hg.), S. 95–100, Glencoe, Illinois: Free Press, 1955.
[306] M INDER , C.; B EDNARSKI , T.: A Robust Method for Proportional Hazards Regression. Statistics
in Medicine 15 (1996), S. 1033–1047.
[307] M ITRA , S.; H AYASHI , Y.: Neuro-Fuzzy Rule Generation: Survey in Soft Computing Framework.
IEEE Transactions on Neural Networks 11(3) (2000), S. 748–768.
[308] M ITTERMAYER , V.; M ÜLLER , V.; R ASPE , H.: Evidenzbasierte und konsentierte Leitlinie Dia-
gnostik, Prävention und Therapie der glukokortikoidinduzierten Osteoporose. Der Klinikarzt 32
(2003), S. 168–173.
[309] M ORIK , K.; I MBOFF , M.; B ROCKHAUSEN , P.; J OACHIMS , T.; G ATHER , U.: Knowledge Discovery
and Knowledge Validation in Intensive Care. Artificial Intelligence in Medicine 19(3) (2000),
S. 225–249.
[310] M ORIK , K.; P IGEOT, I.; R OBERS , U.: CORA-A Knowledge-Based System for the Analysis of
Case-Control Studies. Computer Methods and Programs in Biomedicine 58 (1) (1999), S. 35–
50.
[311] M OUNIER , S.: Entwicklung einer realitätsnahen Kraftrückkopplung bei fluidisch betriebenen
Handprothesen. Dissertation, Universität Karlsruhe, Forschungszentrum Karlsruhe (FZKA
7004), 2004.

339
[312] M OUNT, D. W.: Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Labora-
tory Press, 2001.
[313] M ÜLLER , G. R.; N EUPER , C.; RUPP, R.; K EINRATH , C.; G ERNER , H. J.; P FURTSCHELLER , G.:
Event-Related Beta EEG Changes during Wrist Movements Induced by Functional Electrical
Stimulation of Forearm Muscles in Man. Neuroscience Letters 340(2) (2003), S. 143–147.
[314] M ÜLLER , H.; M ICHOUX , N.; B ANDON , D.; G EISSBUHLER , A.: A Review of Content-Based Image
Retrieval Systems in Medical Applications - Clinical Benefits and Future Directions. International
Journal of Medical Informatics 73(1) (2004), S. 1–23.
[315] M ÜLLER , K.; TANGERMANN , M.; D ORNHEGE , G.; K RAULEDAT, M.; C URIO, G.; B LANKERTZ , B.:
Machine Learning for Real-Time Single-Trial EEG-Analysis: From Brain–Computer Interfacing
to Mental State Monitoring. Journal of Neuroscience Methods 167(1) (2008), S. 82–90.
[316] M ÜLLER , P. H. (Hg.): Lexikon der Stochastik. Berlin: Akademie-Verlag, 1991.
[317] M ÜLLER , T.; S TOTZKA , R.; N EIBER , H.-J.; E PPLER , W.; G EMMEKE , H.: Bildgebende Verfahren
in der Diagnose des Mammakarzinoms. Nachrichten - Forschungszentrum Karlsruhe 32 (1-2)
(2000), S. 19–26.
[318] M ÜLLER -P UTZ , G. R.; S CHERER , R.; P FURTSCHELLER , G.; RUPP, R.: EEG-Based Neuropros-
thesis Control: A Step Towards Clinical Practice. Neuroscience Letters 382 (2005), S. 169–174.
[319] M URTHY, S. K.; K ASIF, S.; S ALZBERG , S.: A System for Induction of Oblique Decision Trees.
Journal of Artificial Intelligence Research 2 (1994), S. 1–32.
[320] N AKHAEIZADEH , G. (Hg.): Data Mining: theoretische Aspekte und Anwendungen, Bd. 27 von
Beiträge zur Wirtschaftsinformatik. Heidelberg: Physica, 1998.
[321] N AUCK , D.: Fuzzy Data Analysis with NEFCLASS. International Journal of Approximate Rea-
soning 32(2-3) (2003), S. 103–130.
[322] N AUCK , D.; K RUSE , R.: NEFCLASS – a Neuro-Fuzzy Approach for the Classification of Data.
In: Proc., ACM Symposium on Applied Computing, Nashville, S. 461–465, New York: ACM
Press, 1995.
[323] N AVARRO, X.; K RÜGER , T. B.; L AGO, N.; M ICERA , S.; S TIEGLITZ , T.; DARIO, P.: A Critical
Review of Interfaces with the Peripheral Nervous System for the Control of Neuroprostheses
and Hybrid Bionic Systems. Journal of the Peripheral Nervous System 10(3) (2005), S. 229–
258.
[324] N ELLES , O.; F ISCHER , M.: Local Linear Model Trees (LOLIMOT) for Nonlinear System Identifi-
cation of a Cooling Blast. In: Proc., 4th European Congress on Intelligent Techniques and Soft
Computing EUFIT’96, S. 1187–1191, Aachen, 1996.
[325] N ELLES , O.; H ECKER , O.; I SERMANN , R.: Automatische Strukturselektion für Fuzzy-Modelle
zur Identifikation nichtlinearer, dynamischer Prozesse. at - Automatisierungstechnik 46(6)
(1998), S. 302–311.
[326] N EUMANN , A.; H OLSTEIN , J.; G ALL , J.-R. L.; L EPAGE , E.: Measuring Performance in Health
Care: Case-Mix Adjustment by Boosted Decision Trees. Artificial Intelligence in Medicine 32(2)
(2004), S. 97–113.
[327] N EUMANN , J.; M ORGENSTERN , O.: Theory of Games and Economic Behavior. Princeton Uni-
versity Press, 1953.
[328] N EUPER , C.; M ÜLLER , G. R.; K ÜBLER , A.; B IRBAUMER , N.; P FURTSCHELLER , G.: Clinical
Application of an EEG-Based Brain Computer Interface: A Case Study in a Patient with Severe
Motor Impairment. Clinical Neurophysiology 114(3) (2003), S. 399–409.
[329] N EWMAN , D.; H ETTICH , S.; B LAKE , C.; M ERZ , C.: UCI Repository of Machine Learning Data-
bases. University of California, Dept. of Information and Computer Sciences, 1998.

340
[330] N IEDERLAG , W.; R IENHOFF , O.; L EMKE , H. U. (Hg.): Smart Cards in Telemedizinischen Netz-
werken. Health Academy, Dresden, 2004.
[331] N IEDERSTADT, C. J.; D OERING , T. J.; F ISCHER , G. C.: Allgemeinmedizinische Leitlinien-
Entwicklung: Problematik der Dichotomisierenden Algorithmenbildung. Zeitschrift für ärztliche
Fortbildung und Qualität im Gesundheitswesen 95 (2000), S. 561–566.
[332] N IELSEN , F.: Bibliographies on Independent Component Analysis in Functional Neuroimaging.
Techn. Ber., Technical University of Denmark, 2005.
[333] N ISHIKAWA , D.: Studies on Electromyogram to Motion Classifier. Dissertation, Graduate School
of Engineering, Hokkaido University, Sapporo, Japan, 2001.
[334] N.N.: Das Leitlinien-Manual von AWMF und ÄZQ. Zeitschrift für ärztliche Fortbildung und Qua-
litätssicherung E1 (2001), S. 1–84.
[335] N.N.: Computer-Aided Detection (CAD) in Mammography. Techn. Ber. 17, Technology Evalua-
tion Center (TEC), Blue Cross and Blue Shield Association, 2002.
[336] N.N.: Informationsgesellschaft Deutschland 2006 - Aktionsprogramm der Bundesregierung.
Bundesministerium für Wirtschaft und Arbeit, Bundesministerium für Bildung und Forschung,
2003.
[337] N ORRIS , S. L.; N ICHOLS , P. J.; C ASPERSEN , C. J.; G LASGOW, R. E.; E NGELGAU, M. M.;
J ACK , L.; I SHAM , G.; S NYDER , S. R.; C ARANDE -K ULIS , V. G.: The Effectiveness of Disease
and Case Management for People with Diabetes: A Systematic Review. American Journal of
Preventive Medicine 22(4, Suppl.1) (2002), S. 39–66.
[338] N UNES , C.; M AHFOUF, M.; L INKENS , D.: Fuzzy Modelling for Controlled Anaesthesia in Hospital
Operating Theatres. Control Engineering Practice 14(5) (2006), S. 563–572.
[339] N UTT, C.; M ANI , D.; B ETENSKY, R.; ET AL .: Gene Expression-Based Classification of Malignant
Gliomas Correlates Better with Survival than Histological Classification. Cancer Research 63(7)
(2003), S. 1602–1607.
[340] O HLSSON , M.: WeAidU-a Decision Support System for Myocardial Perfusion Images using
Artificial Neural Networks. Artificial Intelligence in Medicine 30(1) (2003), S. 49–60.
[341] O LLENSCHLÄGER , G.; K IRCHNER , H.; F IENE , M.: Leitlinien in der Medizin - scheitern sie an
der praktischen Umsetzung? Der Internist 42 (2001), S. 473–483.
[342] O LNEY, S.; G RIFFIN , M.; M C B RIDE , I.: Multivariate Examination of Data From Gait Analysis of
Persons with Stroke. Physical Therapy 78 (1998), S. 814–828.
[343] O’M ALLEY, M.: Normalization of Temporal-Distance Parameters in Pediatric Gait. Journal of
Biomechanics 25(5) (1996), S. 619–625.
[344] O NIDA , F.; K ANTARJIAN , H. M.; S MITH , T. L.; B ALL , G.; K EATING , M. J.; E STEY, E. H.; G LASS -
MAN , A. B.; A LBITAR , M.; K WARI , M. I.; B ERAN , M.: Prognostic Factors and Scoring Systems
in Chronic Myelomonocytic Leukemia: A Retrospective Analysis of 213 Patients. Blood 99(3)
(2002), S. 840–849.
[345] PANDIT, M.; H ENGEN , H.; H EGER , T.: Bildverarbeitung für Klassifikationsaufgaben in der Medi-
zin und Qualitätssicherung. at - Automatisierungstechnik 50(10) (2002), S. 481–489.
[346] PARSCH , D.; M IKUT, R.; A BEL , R.: Postacute Management of Patients with Spinal Cord Injury
due to Metastatic Tumour Disease: Survival and Efficacy of Rehabilitation. Spinal Cord (Eng-
land) 41(4) (2003), S. 205–10.
[347] P ECKHAM , P. H.; K NUTSON , J. S.: Functional Electrical Stimulation for Neuromuscular Appli-
cations. Annual Review of Biomedical Engineering 7 (2005), S. 327–360.
[348] P ELTONEN , L.; M C K USICK , V. A.: Dissecting Human Disease in the Postgenomic Era. Science
291 (2001), S. 1224–1229.

341
[349] P ERRY, J.: Gait Analysis. Normal and Pathological Function. Thorofare: Slack Inc, 1992.
[350] P ETERSEN , K.; H ANSEN , L.; KOLENDA , T.; R OSTRUP, E.; S TROTHER , S.: On the Independent
Components of Functional Neuroimages. In: Proc., 3rd International Conference on Indepen-
dent Component Analysis and Blind Source Separation (ICA2000), S. 615–620, 2000.
[351] P ETRIDIS , S.; P ERANTONIS , S.: On the Relation between Discriminant Analysis and Mutual
Information for Supervised Linear Feature Extraction. Pattern Recognition 37(5) (2004), S. 857–
874.
[352] P FURTSCHELLER , G.; L OPES DA S ILVA , F. H.: Event-Related EEG/MEG Synchronization and
Desynchronization: Basic Principles. Clinical Neurophysiology 110 (1999), S. 1842–1857.
[353] P FURTSCHELLER , G.; M ÜLLER , G. R.; P FURTSCHELLER , J.; G ERNER , H. J.; RUPP, R.:
’Thought’ - Control of Functional Electrical Stimulation to Restore Hand Grasp in a Patient with
Tetraplegia. Neuroscience Letters 351(1) (2003), S. 33–36.
[354] P FURTSCHELLER , G.; N EUPER , C.; M ÜLLER , G. R.; O BERMAIER , B.; K RAUSZ , G.; S CHLÖGL ,
A.; S CHERER , R.; G RAIMANN , B.; K EINRATH , C.; S KLIRIS , D.; W ÖRTZ , M.; S UPP, G.;
S CHRANK , C.: Graz-BCI: State of the Art and Clinical Applications. IEEE Transactions on Neural
Systems and Rehabilitation Engineering 11(2) (2003), S. 177–180.
[355] P OHLE , R.: Computerunterstützte Bildanalyse zur Auswertung medizinischer Bilddaten. Habili-
tationsschrift, Universität Magdeburg, 2004.
[356] P RIBER , U.; K RETZSCHMAR , W.: Inspection and Supervision by Means of Hierarchical Fuzzy
Classifiers. Fuzzy Sets and Systems 85 (1997), S. 263–274.
[357] P UCHHAMMER , G.: Der taktile Rutschsensor: Integration miniaturisierter Sensorik in einer Myo-
Hand. Orthopädie-Technik 7 (1999), S. 564–569.
[358] P YLATIUK , C.; R EISCHL , M.; M IKUT, R.; K ARGOV, A.; B RETTHAUER , G.: Determination of Sta-
bility in Multi-Contact Grasping. Biomedizinische Technik, Proc. DGBMT (2006).
[359] Q UINLAN , J. R.: Induction of Decision Trees. Machine Learning 1 (1986), S. 81–106.
[360] Q UINLAN , J. R.: Learning with Continuous Classes. In: Proc., 5th Australian Joint Conference
on Artificial Intelligence, S. 343–348, 1992.
[361] Q UINLAN , J. R.: C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann,
1993.
[362] R EISCHL , M.: Steuerungskonzept - Prothese. Techn. Ber., Forschungszentrum Karlsruhe,
2002.
[363] R EISCHL , M.: Ein Verfahren zum automatischen Entwurf von Mensch-Maschine-Schnittstellen
am Beispiel myoelektrischer Handprothesen. Dissertation, Universität Karlsruhe, Universitäts-
verlag Karlsruhe, 2006.
[364] R EISCHL , M.; B URMEISTER , O.; M IKUT, R.: Robust Design of Man Machine Interfaces for Time-
Variant Biosignals. Biomedizinische Technik 50(E1) (2005), S. 774–775.
[365] R EISCHL , M.; G RÖLL , L.; M IKUT, R.: Optimierte Klassifikation für Mehrklassenprobleme am
Beispiel der Bewegungssteuerung von Handprothesen. In: Proc., 13. Workshop Fuzzy Syste-
me, S. 124–143, Forschungszentrum Karlsruhe, 2003.
[366] R EISCHL , M.; G RÖLL , L.; M IKUT, R.: EMG-Control of Prostheses by Switch Signals: Extraction
and Classification of Features. In: Proc., IEEE International Conference on Systems, Man and
Cybernetics, S. 94–96, The Hague, 2004.
[367] R EISCHL , M.; G RÖLL , L.; M IKUT, R.: Optimized Classification of Multiclass Problems Applied
to EMG-Control of Hand Prostheses. In: Proc., IEEE International Joint Conference on Neural
Networks, S. 1473–1478, Budapest, 2004.

342
[368] R EISCHL , M.; M IKUT, R.: Validierung hierarchischer Klassifikatoren für Mehrklassenprobleme.
In: Proc., 14. Workshop Fuzzy-Systeme und Computational Intelligence, S. 175–188, Universi-
tätsverlag Karlsruhe, 2004.
[369] R EISCHL , M.; M IKUT, R.: Computational Intelligence in den Lebenswissenschaften: Ro-
bustheitsprobleme bei Mensch-Maschine-Schnittstellen. In: Proc., GMA-Kongress 2007, VDI-
Verlag, 2007.
[370] R EISCHL , M.; M IKUT, R.; B RETTHAUER , G.: Robust Training and Control Strategies for the
Grasp Type Selection of Hand Prostheses. In: Proc., 4th IFAC Symposium on Mechatronic
Systems, Heidelberg, S. 478–483, 2006.
[371] R EISCHL , M.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.: Control Strategies for Hand Prostheses
using Myoelectric Patterns. In: Proc., 9th Zittau Fuzzy Colloquium, S. 168–174, 2001.
[372] R EISCHL , M.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.: Erkennung von Bewegungsabsichten für
myoelektrisch angesteuerte Handprothesen. In: Proc., 11. Workshop Fuzzy Control des GMA-
FA 5.22, S. 106–119, Forschungszentrum Karlsruhe (FZKA 6660), 2001.
[373] R EISCHL , M.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.; B ECK , S.; B RETTHAUER , G.: Steuerungs-
und Signalverarbeitungskonzepte für eine multifunktionale Handprothese. at - Automatisie-
rungstechnik 50(6) (2002), S. 279–286.
[374] R EISCHL , M.; M IKUT, R.; S CHLÖGL , A.: Comparison of Fuzzy and Statistical Classifiers for
Brain-Computer Interfaces. Biomedizinische Technik 49(E1) (2004), S. 762–763.
[375] R ENOOIJ, S.; W ITTEMAN , C. L. M.: Talking Probabilities: Communicating Probabilistic Infor-
mation with Words and Numbers. International Journal of Approximate Reasoning 22 (1999),
S. 169–194.
[376] R EUTER , H.: Zur Identifikation nichtlinearer Systemmodelle mit wenig A-priori-Informationen.
Dissertation, Universität-GH Duisburg, 1995.
[377] R IES , L.; E ISNER , M.; KOSARY, C.; H ANKEY, B.; M ILLER , B.; C LEGG , L.; M ARIOTTO, A.; EJ,
E. F.; E DWARDS , B.: SEER Cancer Statistics Review, 1975-2001. National Cancer Institute.
Bethesda, MD, [Link] 2004.
[378] R ISO, R. R.; M OSALLAIE , F. K.; J ENSEN , W.; S INKJAER , T.: Nerve Cuff Recordings of Muscle
Afferent Activity from Tibial and Peroneal Nerves in Rabbit during Passive Ankle Motion. IEEE
Transactions on Rehabilitation Engineering 8(2) (2000), S. 244–258.
[379] R ISSANEN , J.: Modeling by Shortest Data Description. Automatica 14 (1978), S. 465–471.
[380] R ISSANEN , J.: Stochastic Complexity in Statistical Inquiry. Singapore: World Scientific, 1989.
[381] R IVES , J.: FID3: Fuzzy Induction Decision Tree. In: Proc., 1st International Symposium Un-
certainty, Modelling and Analysis, S. 457–462, Los Alamitos: IEEE Computer Society Press,
1990.
[382] R OBB , R. A.: The Biomedical Imaging Resource at Mayo Clinic. IEEE Transactions on Medical
Imaging 20(9) (2001), S. 854 – 867.
[383] R ODRIGUES , R.: Information Systems: The Key to Evidence-Based Health Practice. Bulletin of
the World Health Organization 78(11) (2000), S. 1344–1351.
[384] R ODRIGUEZ , J.; G ONI , A.; I LLARRAMENDI , A.: Real-time Classification of ECGs on a PDA.
IEEE Transactions on Information Technology in Biomedicine 9(1) (2005), S. 23–34.
[385] R OETMAN , B.; Z UMTOBEL , V.: Klinische Informationssysteme: Strategien zur Einführung. Deut-
sches Ärzteblatt 98 (14) (2001), S. A892–A894.
[386] R OJAS , R.: Theorie der neuronalen Netze: Eine systematische Einführung. Berlin: Springer,
1996.

343
[387] R OSS , J.; M ASON , D.; L INKENS , D.; E DWARDS , N.: Self-Learning Fuzzy Logic Control of Neu-
romuscular Block. British Journal of Anaesthesia 78(4) (1997), S. 412–415.
[388] R OSSDEUTSCHER , W.: Steuerungsmöglichkeiten in der Armprothetik. Orthopädie-Technik
10(51) (2000), S. 865–868.
[389] R ÜGHEIMER , F.; K RUSE , R.: Datenanalyse-Plattform InformationMiner. In: Proc., 15. Workshop
Computational Intelligence, S. 117–128, Universitätsverlag Karlsruhe, 2005.
[390] RUITER , N.: Registration of X-Ray Mammograms and MR Volumes of the Female Breast Based
on Simulated Mammographic Deformation. Dissertation, Universität Mannheim, 2003.
[391] RUNKLER , T.; R OYCHOWDHURY, S.: Generating Decision Trees and Membership Functions by
Fuzzy Clustering. In: Proc., 7th European Congress on Intelligent Techniques and Soft Compu-
ting EUFIT’99, S. 128–129, Aachen, 1999.
[392] RUPP, R.; A BEL , R.: Funktionelle Rehabilitation von Querschnittgelähmten durch Neuroprothe-
tik. Orthopädie 34 (2005), S. 144–151.
[393] RUPP, R.; M ÜLLER , G.; P FURTSCHELLER , G.; G ERNER , H.: Gedankensteuerung der Greif-
funktion eines Tetraplegikers: I. Funktionelle Elektrostimulation (FES). Biomedizinische Technik
48(E1) (2003), S. 300–301.
[394] RYBAK , I.; S TECINA , K.; S HEVTSOVA , N.; M C C REA , D.: Modelling Spinal Circuitry Involved
in Locomotor Pattern Generation: Insights from the Effects of Afferent Stimulation. Journal of
Physiology 577 (2006), S. 641–658.
[395] S CHABLOWSKI -T RAUTMANN , M.: Konzept zur Analyse der Lokomotion auf dem Laufband bei
inkompletter Querschnittlähmung mit Verfahren der nichtlinearen Dynamik. Dissertation, Uni-
versität Karlsruhe, Universitätsverlag Karlsruhe, 2006.
[396] S CHABLOWSKI -T RAUTMANN , M.; KÖGEL , M.; RUPP, R.; M IKUT, R.; G ERNER , H.: From Dia-
gnostics to Therapy - Conceptional Basis for Realtime Movement Feedback in Rehabilitation
Medicine. Biomedizinische Technik 51(5/6) (2006), S. 299–304.
[397] S CHERER , R.; M ÜLLER , G. R.; N EUPER , C.; G RAIMANN , B.; P FURTSCHELLER , G.: An Asyn-
chronously Controlled EEG-Based Virtual Keyboard: Improvement of the Spelling Rate. IEEE
Transactions on Biomedical Engineering 51(6) (2004), S. 979–984.
[398] S CHLÖGL , A.: Outcome of the BCI-Competition 2003 on the Graz Data Set. In:
[Link] 2003.
[399] S CHLÖGL , A.: The BIOSIG project. [Link] 2003 - 2004.
[400] S CHLÖGL , A.: Tentative Report on the Results of the BCI Competition 2005 for Data Set IIIa
and IIIb. TU Graz, 2005.
[401] S CHLÖGL , A.; N EUPER , C.; P FURTSCHELLER , G.: Estimating the Mutual Information of an
EEG-Based Brain-Computer-Interface. Biomedizinische Technik 47 (1-2) (2002), S. 3–8.
[402] S CHMIDT, F.; S CHAIBLE , H.: Neuro- und Sinnesphysiologie. Berlin: Springer, 2001.
[403] S CHMIDT, R. F.; T HEWS , G.; L ANG , F. (Hg.): Physiologie des Menschen. Springer, 2005.
[404] S CHÖLKOPF, B.; M ÜLLER , K.-R.; S MOLA , A.: Lernen mit Kernen - Support-Vektor-Methoden
zur Analyse hochdimensionaler Daten. Informatik Forschung und Entwicklung 14(3) (1999),
S. 154–163.
[405] S CHÖLLHORN , W. I.: Applications of Artificial Neural Nets in Clinical Biomechanics. Clinical
Biomechanics 19(9) (2004), S. 876–898.
[406] S CHUH , C.; H IESMAYR , M.; K AIPEL , M.; A DLASSNIG , K.-P.: Towards an Intuitive Expert System
for Weaning from Artificial Ventilation. In: Proc., IEEE Annual Meeting NAFIPS, S. 1008–1012,
2004.

344
[407] S CHULZ , K.-D.; A LBERT, U. (Hg.): Stufe-3-Leitlinie Brustkrebsfrüherkennung in Deutschland.
München: W. Zuschwerdt Verlag, 2003.
[408] S CHULZ , S.: Eine neue Adaptiv-Hand-Prothese auf der Basis flexibler Fluidaktoren. Dissertati-
on, Universität Karlsruhe, Shaker-Verlag, 2004.
[409] S CHULZE -W ENDTLAND, R.; S INN , H.-P.: Radiologische Diagnostik des Mammakarzinoms Teil
1: Pathologie und Röntgenmammographie. Der Radiologe 44(5) (2004), S. 517–540.
[410] S CHÜRMANN , J.: Pattern Classification. New York: John Wiley, 1996.
[411] S CHÜRMANN , T.: Bias Analysis in Entropy Estimation. Journal of Physics: Mathematical and
General 37 (2004), S. L295–L301.
[412] S CHUTTE , L.; N ARAYANAN , U.; S TOUT, J.; S ELBER , P.; G AGE , J.; S CHWARTZ , M.: An Index for
Quantifying Deviations from Normal Gait. Gait & Posture 11 (2000), S. 25–31.
[413] S CHÜTTLER , M.; R ISO, R.; DALMOSE , A.; S TEFANIA , D.; S TIEGLITZ , T.: Selective Stimulation
of Pig Radial Nerve: Comparison of 12-Polar and 18-Polar Cuff Electrodes. Biomedizinische
Technik 47(E1) (2002), S. 696–699.
[414] S CHWARTZ , A.; TAYLOR , D.; T ILLERY, S.: Extraction algorithms for cortical control of arm pros-
thetics. Current Opinion in Neurobiology 11(6) (2001), S. 701–708.
[415] S CHWEFEL , H.-P.: Evolution and Optimum Seeking. New York: John Wiley, 1995.
[416] S EBER , G.: Multivariate Observations. New York: John Wiley, 1984.
[417] S EILER , C.; K NAEBEL , H.-P.; W ENTE , M.; R OTHMUND, M.; B ÜCHLER , M.: Plädoyer für mehr
evidenzbasierte Chirurgie. Deutsches Ärzteblatt 101 (2004), S. A338 – A344.
[418] S EISING , R.: Eine kleine Geschichte der Fuzzy-Systeme in der Medizin. In: Proc., 12. Workshop
Fuzzy-Systeme, S. 27–42, Forschungszentrum Karlsruhe (FZKA 6767), 2002.
[419] S ERMESANT, M.; F OREST, C.; P ENNEC, X.; D ELINGETTE , H.; AYACHE , N.: Deformable Bio-
mechanical Models: Application to 4D Cardiac Image Analysis. Medical Image Analysis 7(4)
(2003), S. 475–488.
[420] S ETNES , M.; R OUBOS , J.: GA-Fuzzy Modeling and Classification: Complexity and Performan-
ce. IEEE Transactions on Fuzzy Systems 8(5) (2000), S. 509–522.
[421] S HALALA , D. E.; H ENNEY, J. E.; W OODCOCK , J.; T RENTER , M. L.: From Test Tube to Patient:
Improving Health Through Human Drug. Food and Drug Administration (USA), 1999.
[422] S HANNON , C. E.: A Mathematical Theory of Communication. The Bell System Technical Jour-
nal 27 (1948), S. 379–423.
[423] S HEARER , C.: The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data
Warehousing 5(4) (2000), S. 13–22.
[424] S HIEH , J. S.; L INKENS , D. A.; P EACOCK , J. E.: Hierarchical Rule-Based and Self-Organizing
Fuzzy Logic Control for Depth of Anaesthesia. IEEE Transactions on Systems, Man, and Cy-
bernetics, Part C: Applications and Reviews 29(1) (1999), S. 98–109.
[425] S INKJAER , T.; H AUGLAND, M.; I NMANN , A.; H ANSEN , M.; N IELSEN , K.: Biopotentials as Com-
mand and Feedback Signals in Functional Electrical Stimulation Systems. Medical Engineering
and Physics 25 (2003), S. 29–40.
[426] S LAWINSKI , T.: Analyse und effiziente Generierung von relevanten Fuzzy-Regeln in hochdi-
mensionalen Suchräumen. Dissertation, Universität Dortmund, VDI-Verlag, Düsseldorf, 2001.
[427] S MITH , B.; S IEBERT, D.: Ontologie und Medizin: Warum benutzen Ärzte keine Computer? Deut-
sches Ärzteblatt 101(11) (2004), S. 18–20.
[428] S MITH , S. F.: A Learning System Based on Genetic Adaptive Systems. Dissertation, University
of Pittsburgh, 1980.

345
[429] S PROULE , B. A.; N ARANJO, C. A.; T ÜRKSEN , I. B.: Fuzzy Pharmacology: Theory and Applica-
tions. Trends in Pharmacological Sciences 23(9) (2002), S. 412–417.
[430] S TADLER , A.: Ein Beitrag zur Ableitung regelbasierter Modelle aus Zeitreihen. Dissertation,
Universität Karlsruhe, Universitätsverlag Karlsruhe, 2005.
[431] S TAPFF , M.: Die Arzneimittelforschung in Deutschland. Deutsche Zeitschrift für Klinische For-
schung 1-2 (2001), S. 24–32.
[432] S TEINMANN , F.: Diagnostic Monitoring of Clinical Time Series. Dissertation, Technische Univer-
sität Wien, 1995.
[433] S TELTZER , H.; T RUMMER , B.; H ÖLTERMANN , W.; KOLOUSEK , G.; F RIDRICH , P.; L EWANDOW-
SKI , K.; A DLASSNIG , K.; H AMMERLE , A.: Wissensbasierte Diagnostik und Therapieempfehlung
mit Methoden der Fuzzy-Set-Theorie bei Patienten mit akutem Lungenversagen (ARDS). An-
ästhesiologie - Intensivmedizin - Notfallmedizin - Schmerztherapie 34 (1999), S. 218 – 223.
[434] S TEPHAN , C.; J UNG , K.; C AMMANN , H.; VOGEL , B.; B RUX , B.; K RISTIANSEN , G.; RUDOLPH ,
B.; H AUPTMANN , S.; L EIN , M.; S CHNORR , D.: An Artificial Neural Network Considerably Impro-
ves the Diagnostic Power of Percent Free Prostate-Specific Antigen in Prostate Cancer Diagno-
sis: Results of a 5-Year Investigation. International Journal of Cancer 99(3) (2002), S. 466–473.
[435] S TEYERBERG , E. W.; E IJKEMANS , M. J.; H ARRELL , F. E.; H ABBEMA , J. D.: Prognostic Mo-
deling with Logistic Regression Analysis: In Search of a Sensible Strategy in Small Data Sets.
Medical Decision Making 21(1) (2001), S. 45–56.
[436] S TIEGLITZ , T.; M EYER , J.-U.: Neural Implants in Clinical Practice. In: BioMEMS (U RBAN , G. A.,
Hg.), S. 41–70, Dordrecht, Springer, 2006.
[437] S TONE , J.: Independent Component Analysis: An Introduction. Trends in Cognitive Sciences
6(2) (2002), S. 59–64.
[438] S TRIETZEL , R.: Fuzzy-Regelung. München: Oldenbourg, 1996.
[439] S UTHERLAND, D.; K AUFMAN , K.; W YATT, M.; C HAMBERS , H.; M UBARAK , S.: Double-Blind Stu-
dy of Botulinum A Toxin Injections Into the Gastrocnemius Muscle in Patients with Cerebral
Palsy. Gait & Posture 10 (1999), S. 1–9.
[440] S ZCZEPANIAK , P.; L ISBOA , P.; K ACPRZYK , J. (Hg.): Fuzzy Systems in Medicine, Bd. 41 von
Studies in Fuzziness and Soft Computing. Heidelberg: Physica, 2000.
[441] TANAKA , K.; M ATSUNAGA , K.; WANG , H. O.: Electroencephalogram-Based Control of an Elec-
tric Wheelchair. IEEE Transactions on Robotics 21(4) (2005), S. 762–766.
[442] TATSUOKA , M. M.: Multivariate Analysis. New York: Macmillan, 1988.
[443] T ENNER , H.: Data Mining in der medizinischen Literaturdatenbank MEDLINE. Dissertation, TU
München, Klinikum Rechts der Isar, 2004.
[444] T IMM , H.: Fuzzy-Clusteranalyse: Methoden zur Exploration von Daten mit fehlenden Werten
sowie klassifizierten Daten. Dissertation, Otto-von-Guericke-Universität Magdeburg, 2002.
[445] T INGLEY, M.; W ILSON , C.; B IDEN , E.; K NIGHT, W.: An Index to Quantify Normality of Gait in
Young Children. Gait & Posture 16 (2002), S. 149–158.
[446] TORGO, L.: Inductive Learning of Tree-Based Regression Models. Dissertation, University of
Porto, 1999.
[447] T RAMPISCH , H. J.; W INDELER , J.: Medizinische Statistik. Springer, 2000.
[448] T URNEY, P.: Types of Cost in Inductive Concept Learning. In: Proc., Workshop on Cost-
Sensitive Learning at the 17th International Conference on Machine Learning (WCSL at ICML-
2000), S. 15–21, Stanford University, California., 2000.

346
[449] U TGOFF , P. E.; B RODLEY, C. E.: Linear Machine Decision Trees. Techn. Ber. COINS 91-10,
University of Massachusetts, 1991.
[450] VAIDYANATHAN , M.; C LARKE , L. P.; H ALL , L. O.; H EIDTMAN , C.; V ELTHUIZEN , R.; G OSCHE , K.;
P HUPHANICH , S.; WAGNER , H.; G REENBERG , H.; S ILBIGER , M. L.: Monitoring Brain Tumor
Response to Therapy using MRI Segmentation. Magnetic Resonance Imaging 15(3) (1997),
S. 323–334.
[451] VAN ’ T V EER , L. J.; DAI , H.; DE V IJVER , M. J. V.; ET AL .: Gene Expression Profiling Predicts
Clinical Outcome of Breast Cancer. Nature 415 (2002), S. 530–536.
[452] VAPNIK , V.: The Nature of Statistical Learning Theory. Springer New York Berlin Heidelberg,
1995.
[453] VAPNIK , V.; L EVIN , E.; C UN , Y. L.: Measuring the VC-Dimension of a Learning Machine. Neural
Computation 6(5) (1994), S. 851–876.
[454] V ELDKAMP, W. J. H.; K ARSSEMEIJER , N.; H ENDRIKS , J. H. C. L.: Experiments with Radiolo-
gists and a Fully Automated Method for Characterization of Microcalcification Clusters. Interna-
tional Congress Series 1230 (2001), S. 586–592.
[455] V ELDKAMP, W. J. H.; K ARSSEMEIJER , N.; OTTEN , J. D. M.; H ENDRIKS , J. H. C. L.: Automa-
ted Classification of Clustered Microcalcifications Into Malignant and Benign Types. Medical
Physics 27(11) (2000), S. 2600–2608.
[456] V ELLISTE , M.; P EREL , S.; S PALDING , M. C.; W HITFORD, A. S.; S CHWARTZ , A. B.: Cortical
Control of a Prosthetic Arm for Self-Feeding. Nature (2008), in press.
[457] V ENTER , J. C.; ET AL .: The Sequence of the Human Genome. Science 291 (5507) (2001),
S. 1304–1351.
[458] V ERMA , B.; Z AKOS , J.: A Computer-Aided Diagnosis System for Digital Mammograms Based
on Fuzzy-Neural and Feature Extraction Techniques. IEEE Transactions on Information Tech-
nology in Biomedicine 5(1) (2001), S. 46 – 54.
[459] V ESANTO, J.; H IMBERG , J.; A LHONIEMI , E.; PARHANKANGAS , J.: SOM Toolbox for MATLAB.
Techn. Ber., Helsinki University of Technology, 2000.
[460] VOELKEL , B.: Auswertung von Patientendaten zur Evaluierung von EMG-Steuerungsstrategien.
Diplomarbeit, Forschungszentrum Karlsruhe, FH Stralsund, 2004.
[461] WALLACE , C. S.; B OULTON , D. M.: An Information Measure for Classification. Computer Jour-
nal 11 (1968) 2, S. 185–194.
[462] WANG , C.-H.; H ONG , T.-P.; T SENG , S.-S.: Inductive Learning from Fuzzy Examples. In: Proc.,
the 5th IEEE International Conference on Fuzzy Systems, S. 13–18, New Orleans, LA, USA,
1996.
[463] WARDA , F.; N OELLE , G.: Telematik und eHealth in Deutschland: Materialien und Empfehlungen
für eine nationale Telematikplattform. DIMDI - Deutsches Institut für medizinische Dokumenta-
tion und Information, 2002.
[464] WARWICK , K.; G ASSON , M.; H UTT, B.; G OODHEW, I.; K YBERD, P.; A NDREWS , B.; T EDDY, P.;
S HAD, A.: The Application of Implant Technology for Cybernetic Systems. Archives in Neurology
60 (2003), S. 1369–1373.
[465] W EHRENS , R.; P UTTER , H.; B UYDENS , L.: The Bootstrap: A Tutorial. Chemometrics and Intel-
ligent Laboratory Systems 54 (2000), S. 35–52.
[466] W ESSBERG , J.; S TAMBAUGH , C. R.; K RALIK , J. D.; B ECK , P. D.; L AUBACH , M.; C HAPIN , J. K.;
K IM , J.; B IGGS , S. J.; S RINIVASAN , M. A.; N ICOLELIS , M. A. L.: Real-Time Prediction of Hand
Trajectory by Ensembles of Cortical Neurons in Primates. Nature 408 (2000), S. 361–365.

347
[467] W EST, D.; W EST, V.: Model Selection for a Medical Diagnostic Decision Support System: A
Breast Cancer Detection Case. Artificial Intelligence in Medicine 20 (3) (2000), S. 183–204.
[468] W ILSON , D.; M ARTINEZ , T.: Improved Heterogeneous Distance Functions. Journal of Artificial
Intelligence Research 6 (1997), S. 1–34.
[469] W INDISCHBERGER , C.; B ARTH , M.; L AMM , C.; S CHROEDER , L.; B AUER , H.; G UR , R.; M OSER ,
E.: Fuzzy Cluster Analysis of High-Field Functional MRI Data. Artificial Intelligence in Medicine
29(3) (2003), S. 203–223.
[470] W ISCHNEWSKY, M. B.; S CHMID, P.; P OSSINGER , K.: Intelligente Systeme in der Onkologie
zur Unterstützung von Diagnose, Therapie und Dokumentation. Innovartis (Novartis Pharma
GmbH; Nürnberg) (2000), S. 25–31.
[471] W ISMÜLLER , A.; L ANGE , O.; D ERSCH , D.; L EISINGER , G.; H AHN , K.; P ÜTZ , B.; AUER , D.:
Cluster Analysis of Biomedical Image Time-Series. International Journal of Computer Vision 46
(2) (2002), S. 103–128.
[472] W OLF, S.; L OOSE , T.; S CHABLOWSKI , M.; D ÖDERLEIN , L.; RUPP, R.; G ERNER , H. J.; B RETT-
HAUER , G.; M IKUT, R.: Automated Feature Assessment in Instrumented Gait Analysis. Gait &
Posture 23(3) (2006), S. 331–338.
[473] W OLPAW, J. R.; B IRBAUMER , N.; M C FARLAND, D. J.; P FURTSCHELLER , G.; VAUGHAN , T. M.:
Brain-Computer Interfaces for Communication and Control. Clinical Neurophysiology 113
(2002), S. 767–791.
[474] W OODS , K. S.: Automated Image Analysis Techniques for Digital Mammography. Dissertation,
University of South Florida, 1994.
[475] W ORMANNS , D.; F IEBICH , M.; S AIDI , M.; D IEDERICH , S.; H EINDEL , W.: Automatic Detection of
Pulmonary Nodules at Spiral CT: Clinical Application of a Computer-Aided Diagnosis System.
European Radiology 12(5) (2002) 5, S. 1052–1057.
[476] YOSHIDA , H.; N ÄPPI , J.: Three Dimensional Computer Aided Diagnosis Scheme for Detection
of Colonic Polyps. IEEE Transactions on Medical Imaging 20(12) (2001), S. 1261–1274.
[477] YOU, L.: Toward Computational Systems Biology. Cell Biochemistry and Biophysics 40(2)
(2004), S. 167–184.
[478] Y U, S.; G UAN , L.: A CAD System for the Automatic Detection of Clustered Microcalcifications in
Digitized Mammogram Films. IEEE Transactions on Medical Imaging 19(2) (2000), S. 115–126.
[479] Y UAN , Y.; S HAW, M. J.: Induction of Fuzzy Decision Trees. Fuzzy Sets and Systems 69 (1995)
2, S. 125–139.
[480] Z ADEH , L.: Fuzzy Sets. Information and Control 8 (1965), S. 338–353.

348
E Index

Az -Wert, 57 ARIMA, 224


U -Test von Mann-Whitney, 110 ARIMAX, 224
α -Fehler, 108 ARMA, 223
α -Schnitt, 155 ARMAX, 92, 93, 223
α -cut, 155 ARX, 223
β -Fehler, 108 Arzneimittelgesetz, 19
k-NN-Verfahren, 131 Arzneimittelzulassung, 20
k-Nearest-Neighbor-Verfahren, 71, 131, ASIA, 258
218 AUC, 57, 289, 290
p-Wert, 251 Ausgabeschicht, 194
s-dimensionale Normalverteilung, 105 Ausgangsentropie, 52, 64, 147, 149
t -Test, 13, 109, 115, 229, 233 Ausreißer, 59, 86, 110, 111, 213, 233
Äquivokation, 53, 149 Auswahl von Steuerstrategien, 78, 83, 193,
Überanpassung, 140, 150, 184, 198, 226, 237, 261, 285, 293
227 Autokorrelationsfunktion, 291
Überlebensraten, 80, 81, 218–220 autoregressive Modelle, 62, 223, 277
überwachtes Lernen, 34, 94, 113, 201, 288
Backpropagation-Verfahren, 198, 204, 205
632-Bootstrap-Methode, 71
Bagging, 38
A-priori-Wahrscheinlichkeit, 35, 48, 50, Batch-Training, 202
124–130 Bayes-Klassifikator, 124–131, 264, 282
abhängige Variable, 58 Bayes-Theorem, 124
Abstandsklassifikator, 125, 276 BCI, 271
Abtastzeit, 222 Bedienelemente, 233
Afferenzen, 23 Behandlungsgleichheit, 17
akausales Modell, 44 Beobachtbarkeit, 33, 94
Akkumulation, 162, 178, 189 Beobachtungsgleichheit, 17
Aktivierung, 162 Bereitschaftspotenziale, 272, 275
Aktivierungsfunktion, 194 Beschränkte Differenz, 162
Aktivitätssignale, 95, 262, 263, 276 Beschränkte Summe, 162, 163, 164, 190
Algebraische Summe, 162 Bestimmtheitsmaß, 59, 60, 217
Alternativhypothese, 108 Beurteilung unterschiedlicher Versuchsbe-
Amyotrophe Lateralsklerose (ALS), 271, dingungen, 78, 83
274, 275 Bewertung, 46, 233
Anästhesie, 224 Bewertungsmaße, 27, 45, 46, 67, 73, 89,
Anamnesedaten, 9 95, 99, 146, 147, 167, 169, 174,
ANFIS, 197 177–180, 197, 233, 264, 267, 284,
ANOVA, 115, 233, 280 302, 304
Approgression, 39 Bildbearbeitung, 89
Approximation, 39 Bildbereich, 93
AR, 223 Bildvorverarbeitung, 89

349
BioSig, 232 Determinationskoeffizient, 59
BJ, 223 Diagnose, 258, 259
Blind Source Separation, 120 Diagnose Patient – Proband, 78, 79, 235,
BMI, 271 249, 251, 256, 285, 292, 293
Bonferroni-Holm-Korrektur, 111 Dichotomie, 37
Bonferroni-Tests, 68 Dichte, 105
Boosting, 38 DICOM-Standard, 10
Bootstrap, 38, 70, 100, 147, 234 Differentialdiagnose, 78, 79, 191, 205, 256,
Boxplot, 97, 126 285
Brain Computer Interfaces, 271 Digitale Signalprozessoren, 101, 270
Brain Machine Interfaces, 142, 271–286 Diplegie, 241
direkter Zugang, 173, 174, 175
C4.5-Verfahren, 147 Diskretisierung, 30, 43, 54, 93, 146–148
case-control studies, 15 Diskretisierungsvorschrift, 147, 213
cased-based reasoning, 132 Diskriminanzanalyse, 112–123, 225, 233,
Center of Area, 166 246, 262, 264, 275, 276, 289, 290
Chance, 221 Distanz, 35, 50–52, 123
City-Block-Distanz, 51 Divide-and-Conquer, 38
Cluster, 206 doppelt-blind, 14
Clustering, 35, 39, 50, 197, 206 doppelte Verblindung, 17
Clusterverfahren, 80, 148, 204, 206, 225, Drehmomentenmethode, 167
234, 299 Dreiecksnorm, 159
Clusterzentrum, 206 DSP, 101, 270
COA, 166 DSS, 79
coefficient of determination, 59
cohort studies, 15 Echtzeitfähigkeit, 96, 100, 101, 239
Computational Intelligence, 4 ECoG, 273
Computertomographie (CT), 9 EEG, 3, 9, 94, 131, 142, 215, 239, 272,
Confounding, 14, 15, 24, 83 273, 277
Cox-Modell, 219 Efferenzen, 23
CRISP-DM, 73 EG-Richtlinie für Medizinprodukte, 102
Crossvalidierung, 69, 100, 113, 147, 218, Eingabeschicht, 194
234, 236 Eingangsentropie, 52, 149, 169
CT, 9, 215 eingebettete Systeme, 74, 101
Eins-Prämisse, 159, 177, 178
Datenpunkt-basiertes Training, 202 einseitiger Test, 108
Datensatz-basiertes Training, 202 EKG, 3, 94, 153
Datentupel, 28, 31 Elektroencephalogramm, 3, 273
Datentupel-basiertes Training, 202 Elektrokardiogramm, 3
Datentupelmodifikation, 42, 44 Elektrokortikographie, 273
Datentupelselektion, 42, 44, 100, 233, 235, elektromagnetische Störungen, 261, 273
236 Elektromyogramm, 3
Datenvorverarbeitung, 44 elektronische Patientenakte, 10
decision support systems, 79 Elektrostimulation, 276
Defuzzifizierung, 30, 146, 154, 165–166, embedded systems, 74, 101
178, 189 EMG, 3, 260, 261, 263, 285
Dekomposition, 37, 275 Endknoten, 144, 145, 173
Dendrogramm, 213 Entropie, 53

350
Entscheidungsbaum, 144–153, 166, 173– Fuzzy-Entscheidungsbäume, 145
175, 181, 221, 234, 289 Fuzzy-Inferenz, 158–163
Entscheidungskosten, 55, 57, 60, 104, Fuzzy-Klassifikation, 35, 36, 46, 206, 225,
125, 127, 128, 176 234, 266
Entscheidungsproblem, 35 Fuzzy-Klassifikationsproblem, 58, 177,
Entscheidungstheorie, 55 196
entscheidungsunterstützende Systeme, 79 Fuzzy-Kovarianzmatrix, 210
Epidemiologie, 49 Fuzzy-Logik, 47, 154, 161, 229
ERD, 272, 277 Fuzzy-Menge, 47, 48, 154, 159, 164
erklärende Variable, 58, 215 Fuzzy-Negation, 160
erklärte Streuung, 217 Fuzzy-Regel, 145, 167, 197, 252, 281, 282,
Erklärungstexte, 187, 252 289
ERS, 272 Fuzzy-Regelbasis, 145, 158, 192, 262
ESS, 59, 217 Fuzzy-Systeme, 4
Euklidische Distanz, 51 Fuzzy-Systeme vom Mamdani-Typ, 158
Evidenz-basierte Medizin, 18, 153 Fuzzy-Systeme vom Takagi-Sugeno-Kang-
Evidenztheorie, 47 Typ, 158
Evolutionäre Algorithmen, 4, 66, 175 Fuzzy-Systeme vom Takagi-Sugeno-Typ,
Evolutionäre Strategien, 66 158, 217
explanatory variable, 215
Extrapolation, 87 Gait-CAD, 232, 233
Gath-Geva-Algorithmus, 210
Faktorenanalyse, 112 Gefahrenstufen, 102
Fall-Kontroll-Studien, 15 Genetische Algorithmen, 65, 66, 205, 275
fallbasiertes Schließen, 132 Genetische Programmierung, 66
False Negative, 56 Genexpressionsprofile, 10, 135, 143, 215,
False Positive, 56 230
FCM, 208, 255 gepaarter t -Test, 110, 251
FDA, 19, 101, 290 Gesamtentropie, 52, 149
Feedforward-Netze, 194 Gesamtpräferenz, 63, 249, 251, 267
fehlende Werte, 11, 44, 47, 85, 145 Gesamtstreuung, 217
Fehler 1. Art, 108 Gesamtvariationsmatrix, 107
Fehler 2. Art, 108 Geschwindigkeitszeitreihen, 244
FFT, 233, 276 gewichteter Klassifikationsfehler, 54
FIR, 223 Gini-Index, 56, 147
Flächenmedianmethode, 166 Goldstandard, 82
fMRT, 215 Gustafson-Kessel-Algorithmus, 210
Fourier-Transformation, 93
Früherkennung von Lungentumoren, 292 Häufigkeit, relative, 48
Freehand-System, 276 Handprothese, 22, 260, 274
Fremdkraftprothesen, 260 Hauptkomponentenanalyse, 99, 112–123,
Frobenius-Norm, 49, 178, 180 225, 233, 255
funktionelle Elektrostimulation, 23 Hebbsches Lernen, 204
Fuzzifier, 208 Hemiplegie, 241
Fuzzifizierung, 30, 43, 146, 154–157 Hesse-Matrix, 198
Fuzzy-C-Means-Algorithmus, 208, 255 heteroskedastische Diskriminanzanalyse,
Fuzzy-Clustering, 35, 39, 197, 206 117
Fuzzy-Clusterverfahren, 134, 207 hierarchisches Clustering, 213

351
Hodgkin-Huxley-Modell, 194 Klassen, 29
homogener Polynom-Kern, 138 Klassifikation, 35, 197, 234
Hough-Transformation, 93 Klassifikationsfehler, 54, 126, 127, 133,
Hyperinferenz, 165 137, 181, 185, 199, 267
Hypothesengenerierung, 3, 14, 24–26, 34, Klassifikationsgüte, 52, 55
153, 172, 174, 217, 239, 240, 297 Klassifikatorfusion, 35, 36, 139, 283
Hypothesentest, 5, 18, 108, 111, 171, 301 klinische Entscheidungsfindung, 74, 75,
297
i-LIMB, 270 klinische Studien, 13
ICA, 120, 121, 122 Knime, 232
Idempotenz, 161 KNN, 193
Implikation, 161 Knoten, 144
Importieren, 234 KO-Verfahren, 38
Impräzision, 47, 109, 181 Kohonen-Karte, 99, 196, 200, 203, 206,
Independent Component Analysis (ICA), 225, 262, 290
120 Kohorten-Studien, 15
indirekter Zugang, 173, 175 Kokontraktion, 267
Infantile Zerebralparesen, 241 Komplexitätsmaße, 63
Inferenz, 162 Konfidenzintervall, 68, 109, 182
Informationstheoretische Maße, 52–54, Kontrollgruppe, 14, 15, 81
169, 233 kontrollierte Studien, 14, 17, 82, 88, 221
Innerklassenvariationsmatrix, 107
konvexe Zugehörigkeitsfunktion, 155
Interpretierbarkeit, 26, 62–64, 88, 90, 95,
Korrelationskoeffizient, 59, 64, 99, 217,
115, 153, 156, 167–170, 172, 197,
256, 258
205, 249, 259, 285
Kovarianzmatrix, 105
Intervallskala, 29
Krankenhausinformationssystem, 10
intervallskalierte Merkmale, 29
Kullback-Leibler-Divergenz, 51
Invarianz gegen Drehung, 226
Invarianz gegen Skalierung, 106, 226
Längsschnitt-Studien, 14
Investigational New Drug, 19
least square method, 216
Inzidenz, 50
Leitlinien, 18, 153, 193, 291
Irrelevanz, 53, 147, 149
Lerndatensatz, 28, 41, 56, 67, 68, 84, 144,
Irrtumswahrscheinlichkeit, 108
145, 235, 294
Jackknife-Methode, 71 Lernende Vektorquantisierung, 201
Letalität, 50
K-means-Algorithmus, 207 Levenberg-Marquardt-Verfahren, 198
Künstliche Neuronale Netze, 4, 193, 234 Likelihood-Quotienten-Kriterium, 277
Kanten, 88 linearer Kern, 138
Kaplan-Meier-Verfahren, 219 linguistischer Term, 154, 158
Karhunen-Loeve-Transformation, 112 logistische Regression, 205, 221, 225
kategorische Merkmale, 29 Logit-Funktionen, 221
kausales Modell, 44 look-up table, 190
KDD, 27 Look-up-Tabelle, 190
Kennfeld, 190 LVQ, 201
Kernfunktionen, 138
Kernoperationen, 138 MA, 223
Klarheit, 179, 180, 183 Magnetresonanztomographie (MRT), 9

352
Mahalanobis-Distanz, 51, 123, 125, 127, MLP-Netz, 196, 205, 217, 218, 225, 234,
130, 210 262, 266, 289
Manhattan-Distanz, 51 Modellkosten, 60, 61
Mann-Whitney-Wilcoxon-Test, 110 modus ponens, 161, 191
MANOVA, 114, 119, 129, 133, 152, 233, modus tollens, 161
246, 264, 277, 279 Mortalität, 50
Maximum, 162, 164 MRI, 9
Maximum-Defuzzifizierung, 165, 190, 192 MRT, 9, 130, 134, 193, 206, 215, 228, 274,
Medizinproduktegesetz, 101 286, 291
MEDLINE, 10, 220, 229, 231 Multi-Center-Studien, 14
Mehrdeutigkeit, 47 Multi-Layer-Perceptron, 196
mehrdimensionale Varianzanalyse, 114 multikriterielle Optimierungsprobleme, 66,
mehrkriterielle Optimierung, 66 181
Menüpunkte, 233 multimodale Optimierungsprobleme, 66
Mengenlehre, 47 multiples Testen, 111, 297
Merkmal, 27 Muster, 27
Merkmalsaggregation, 41 mutual information, 53
Merkmalsbewertung, 45, 46, 68, 111, 233,
naive Bayes-Klassifikatoren, 125
278
NARMAX, 224
Merkmalsextraktion, 41, 42, 89, 95, 233,
Nearest-Neighbor-Klassifikator, 195, 275,
236
289
Merkmalskarten, 98, 99, 280
Nearest-Neighbor-Verfahren, 131, 225,
Merkmalskategorien, 30, 61, 94, 131, 285
234
Merkmalskosten, 61
NEFCLASS, 197
Merkmalslisten, 45, 64, 90, 98, 234, 247,
negative Regeln, 153, 165, 180
251
Neuro-Fuzzy-Systeme, 197, 264
Merkmalspräferenzen, 62, 63, 88, 235,
Neuron, 194
248, 249, 259, 269, 295
Neuroprothesen, 21, 271, 276
Merkmalsrelevanz, 152
nicht erklärte Streuung, 217
Merkmalsselektion, 41, 42, 90, 95, 100,
nichtparametrische Tests, 110
117, 199, 264
nominale Merkmale, 29
Merkmalstransformation, 41, 42, 80, 90,
Nominalskala, 29
99, 118, 120, 121, 129, 130, 195,
Normalcy-Index, 246, 259
203, 217, 233, 246, 264
normale Zugehörigkeitsfunktionen, 154
Metaanalyse, 14, 18, 290
Normalverteilung, 59, 105
Methode der kleinsten Fehler-Quadrate, Nullhypothese, 108
198, 204, 215–216
metrische Skala, 29 Objekte, 88
Michigan-Ansatz, 173, 175 odds, 221
Mikrocontroller, 101, 102, 190, 267, 270 Odds Ratio (OR), 221
MIMO-System, 223 ODER-Verknüpfung, 159–160
Minimum, 162, 164 OE, 223
Minimum Description Length, 63 one-against-all, 37, 139, 152
Minimum Message Length, 63 one-against-one, 37, 139, 140, 265, 275
Minkowski-Distanz, 51 Optimierungsverfahren, 65
MISO-System, 224 ordinale Merkmale, 29
MKQ, 216 Ordinalskala, 29

353
OSG, 240 Radon-Transformation, 93, 289
Overfitting, 64, 67, 221 randomisierte kontrollierte Studien, 17
randomisierte Studien, 14, 17
p-Wert, 68 Randomized Controlled Trials, 17
P300, 272 Rapid Miner, 231
paired t -test, 109 Ratioskala, 29
parameterlineare Funktionen, 198, 215, Raum-Zeit-Parameter, 241, 246, 248, 255
216, 220, 222, 224 Rauschcluster, 213
parameternichtlineare Funktionen, 198, RBF-Kern, 141
215, 222 RBF-Netz, 196, 225, 234, 290
Parameterschätzung, 69, 224 RCT, 17
parametrische Tests, 110 Redundanzmaß, 64
Paraplegie, 242 Referenzabweichungszeitreihen, 93, 244,
Pareto-Grenze, 57 248, 254, 256
Pareto-optimale Lösungen, 66, 181 Regelplausibilität, 159
PET, 9 Regelung, 12, 21, 217, 224
Phantomhand, 262, 264 Regionen, 88
Pittsburgh-Ansatz, 172, 174, 175 Registrierung, 89
Pixel, 32, 88, 121 Regression, 35, 197, 233
Placebo-Effekt, 17
Regressionsfehler, 58
Plugins, 236
Regularisierungstechniken, 113, 198
Polychotomie, 37
Reinforcement-Lernen, 45, 205
Polynom-Modell, 218
rekurrente Netze, 194, 205
Polyoptimierung, 66
relative Regressionsgüte, 60, 180, 183
Positronenemissionstomographie (PET), 9
Residual Sum of Squares, 59
possibilistische Interpretation, 37
Residualgröße, 59
Prämissenauswertung, 162
Residuum, 59
Prävalenz, 49, 271
response variable, 215
Principal Component Analysis, 112
Robustheit gegen Überanpassung, 142,
probabilistische Interpretation, 37
226, 227, 297
Problemformulierungen, medizinische, 74–
Robustheit gegen Ausreißer, 111
84
Robustheit gegen verletzte Verteilungsan-
Produkt, 162, 163, 164, 190
nahmen, 110, 298
prospektive Studien, 14
Robustheit gegen Zeitvarianz, 87, 261, 297
Pruning, 147, 173
ROC-Kurve, 57, 98, 205, 234, 289
qualitative Skala, 29 RSS, 59, 217
quantitative Patientenbewertung, 78, 81,
217, 253, 256, 297 Satz vom ausgeschlossenen Dritten, 160
Querschnitt-Studien, 14 Satz vom ausgeschlossenen Widerspruch,
Querschnittlähmung, 243, 276 160
Scatterplot, 97, 128, 251
Rückschlussentropie, 53 Schlaganfall, 220
Rückstufung korrelierter Merkmale, 64, Schrittphasen, 245, 246
250 Schwerpunktmethode, 166, 190
Rückstufung redundanter Merkmale, 64 Schwerpunktmethode für Singletons, 166
Rückweisung, 39, 132, 176, 183, 213 SCP, 272
Radiale Basisfunktion, 195 Segmentbeschreibung, 89

354
Segmentierung, 89, 90, 96, 97, 134, 193, Suche nach unbekannten Patientengrup-
215, 241, 245, 246, 262 pen, 78, 80, 255, 285
Sensitivität, 56 Sum of Squares Error, 59
Separate-and-Conquer, 38 Support-Vektor, 137, 138
separation, 211 Support-Vektor-Maschinen, 135–143, 234,
SICA, 122 266, 275, 276, 289
sign test, 110 System, 2, 19, 22, 33, 222
Signifikanzniveau, 108, 109, 111, 179, 180,
T-Konorm, 159–160
182
T-Norm, 159–160
Signifikanzwert, 108
Taxonomie der Merkmale, 30
Single-Photon-Emission-
teilüberwachtes Lernen, 34, 131, 215
Computertomographie (SPECT),
Teile-und-Herrsche-Algorithmen, 38, 145
9
Teilprämisse, 159, 173, 174, 190, 191
Singleton-Fuzzy-Systeme, 158 Temporal Independent Component Analy-
SISO-System, 223 sis, 122
SNNS, 231 Testdatensatz, 31
SOFM, 196 Tetraplegie, 242
SOM, 196 Textmining-Verfahren, 25
Sonst-Regel, 158, 176, 177, 179 Texturmerkmale, 94, 130, 289
Spannweite, 106, 169 Therapieauswahl, 78, 82, 191, 258, 259
Spatial Independent Component Analysis, Therapieevaluierung, 78, 81, 220, 235,
122 250, 251, 254, 256, 258, 259
Spearman-Korrelationskoeffizient, 59 Therapieprognose, 78, 80, 81, 220, 254,
SPECT, 9, 205 259, 285
Spektrogramm, 263, 277 TICA, 122
Spezifität, 56 topologieerhaltende Abbildungen, 201
SSCP, 107 Trainingsdatensatz, 84
SSE, 59 Transinformation, 53, 64, 147, 149, 168
Standardabweichung, 106 Transversal-Studien, 14
Standardabweichungszeitreihen, 244 Trennungsgrad, 211
Standardpartition, 156, 159, 178, 190 triangular norm, 159
statistische Absicherungsgüte, 179 Triggerereignis, 96
statistisches Entscheidungsproblem, 35, Triviale Distanz, 51
36 Trivialmodell, 59, 60, 178, 180
True Negative, 56
Steuerung, 12, 21, 217
True Positive, 56
Stichprobe, 108
TSK-Systeme, 158
Stratifizierung, 69
TSS, 217
Streuung, 106
Twoing-Index, 147
Streuungszerlegungssatz, 107, 112, 113,
217 unüberwachtes Lernen, 34, 41, 46, 80, 94,
Strukturgleichheit, 17 113, 211, 215
Struktursuche, 34, 66 unabhängige Variable, 58
Subgruppen, 13, 26, 103, 122, 211, 252, Unabhängigkeitsanalyse, 120
299 unbekannte Datentupel, 67
Suche nach alternativen Messverfahren, UND-Verknüpfung, 159–160
78, 82, 217, 285, 292 Underfitting, 129

355
Ungenauigkeit, 47 zensierte Daten, 86
unimodale Optimierungsprobleme, 66 Zensierung, 87
unpaired t -test, 110 Zentriermatrix, 106
Unschärfe, 47 Zielvariable, 58, 215
unscharfe Merkmale, 29, 48 Zugehörigkeitsfunktion, 42, 154–166, 171,
unscharfe Zeiten, 165 213
Unsicherheit, 45, 109 Zustandsautomaten, 83
Unterarmprothese, 260 Zustandsbeobachter, 94
Zustandsgrößen, 33
Vagheit, 47 Zustandsreduktion, 94
Validierungstechniken, 67, 234 Zweig, 144
Vapnik-Chervonensky (VC) Dimension, 69 zweiseitiger Test, 108
Varianz, 106 Zwischenklassenvariationsmatrix, 107
Varianznormierung, 106, 118, 133, 210,
212, 217
VAS, 256
Vektoroptimierung, 66
Vektorquantisierung, 201
Verblindung, 17
verborgene Schicht, 194
verdeckte Schicht, 194
Verhältnisskala, 29
versteckte Schicht, 194
Versuchsplanung, 26, 88, 216
Verteilungsdichtefunktion, 35, 37, 52, 68,
105, 106, 109, 115, 124, 129, 132,
217
Verteilungsfunktion, 48
Vertrauensintervalle, 109
Vierfeldertafel, 56
Vorgängerknoten, 144
Vorzeichenrangtest von Wilcoxon, 110
Vorzeichentest, 110
Voxel, 32, 121

Wahrscheinlichkeit, 35, 48–50, 54, 68, 108,


124, 126, 130, 187, 221
Wavelet-Koeffizienten, 262, 280
wertediskrete Merkmale, 29, 48
wertekontinuierliche Merkmale, 29, 48
Wilcoxon rank sum test, 110
Wilcoxon signed rank test, 110
Wilcoxon-Rangsummentest, 110
WISCI, 258
Wurzelknoten, 144, 145

Zeichentest, 110
zeitvariante Systeme, 26, 87, 224

356

Das könnte Ihnen auch gefallen