Mikut Ralf
Mikut Ralf
Data Mining
in der Medizin und Medizintechnik
Schriftenreihe des
Instituts für Angewandte Informatik / Automatisierungstechnik
an der Universität Karlsruhe (TH)
Band 22
Data Mining
von
Ralf Mikut
Impressum
Universitätsverlag Karlsruhe
c/o Universitätsbibliothek
Straße am Forum 2
D-76131 Karlsruhe
[Link]
ISSN: 1614-5267
ISBN: 978-3-86644-253-5
Kurzfassung
i
ii
Danksagung
Das vorliegende Buch entstand während meiner Tätigkeit am Institut für Angewandte
Informatik (IAI) der Forschungszentrum Karlsruhe GmbH, einem Mitglied der Helm-
holtz-Gemeinschaft. Es basiert im Wesentlichen auf einer Erweiterung meiner Habili-
tationsschrift ”Automatisierte Datenanalyse in der Medizin und Medizintechnik” [289],
die ich bei der Fakultät für Maschinenbau an der Universität Karlsruhe (TH) einreich-
te. Das Habilitationsverfahren für das Fachgebiet ”Wissensverarbeitung im Ingenieur-
wesen” wurde am 12. Dezember 2007 erfolgreich abgeschlossen.
Mein besonderer Dank gilt Herrn Prof. Dr.-Ing. habil. Georg Bretthauer, der mich zu
diesem Weg ermutigte und ihn stets mit konstruktiven Diskussionen sowie seiner Be-
geisterung für alle interdisziplinären Projekte zwischen Medizinern und Informatikern
begleitete.
Wesentliche Teile des Buches beruhen auf den bearbeiteten Projekten der Ar-
beitsgruppe Biosignalanalyse in unserem Institut. Hier danke ich insbesondere Dr.
Tobias Loose, Dr. Markus Reischl, Ole Burmeister und Dr. Sebastian Beck, deren
Dissertationen ich mit betreute, für viele gemeinsame Diskussionen. Aus der stets
fruchtbaren methodischen Kooperation mit Dr. Lutz Gröll und Prof. Dr. Jens Jäkel
resultierten unter anderem die neuen Algorithmen zum datenbasierten Entwurf von
Fuzzy-Systemen. Die von der Fluidgruppe unseres Instituts unter Leitung von Dr.
Stefan Schulz entwickelte Handprothese war stets eine spannende Herausforderung
für die Entwicklung von Steuerungsalgorithmen.
Nicht minder wichtig waren externe Projektpartner, insbesondere an der Orthopä-
dischen Universitätsklinik in Heidelberg und an der Universität Freiburg. Hier danke
ich Prof. Dr. Hans Jürgen Gerner, Dr. Rüdiger Rupp, Dr. Sebastian Wolf, Dr. Matthias
Schablowski, PD Dr. Rainer Abel, Dr. Leonhard Döderlein und Dr. Joachim Dieterle
(Heidelberg) sowie Prof. Dr. Thomas Stieglitz und Thilo Krüger (Freiburg).
Aus einer Vielzahl von ehemaligen und gegenwärtigen Kollegen, Projekt- und Dis-
kussionspartnern sowie Korrekturlesern möchte ich stellvertretend Christian Bauer,
Sebastian Braun, PD Dr. Catherina Burghart, Sebastian Gollmer, Andreas Gomm-
lich, Paul Görtz, Markus Grube, Melanie Herbst, Dr. Elmar Holler, Dr. Wilfried Jakob,
Dr. Hubert Keller, Prof. Dr. Harro Kiendl, Dr. Ulrich Knapp, Ivan Kovynyov, Daniel
Kraut, Prof. Dr. Andreas Kroll, Dr. Arne Lehmann, Dr. Urban Liebel, Mihai Lipovei, Dr.
iii
Thomas Lotz, PD Dr. Hagen Malberg, Dr. Jan Martin, Dr. Jörg Matthes, Dr. Ingeborg
Mikut, Dr. Reinhard Mikut, Dr. Séverine Mounier, Dr. Norbert Peter, Sebastian Pfeif-
fer, Dr. Christian Pylatiuk, Oliver Schill, Dr. Alois Schlögl, Dr. Rainer Stotzka, Bernd
Voelkel und Prof. Jürgen Wernstedt hervorheben.
Allen Genannten, den Mitarbeitern und Studenten des Instituts für Angewandte
Informatik am Forschungszentrum Karlsruhe gilt ebenfalls mein herzlichster Dank für
die konstruktive und anregende Atmosphäre im Institut.
Die finanzielle Unterstützung durch die Deutsche Forschungsgemeinschaft (DFG)
im Rahmen des Projektes ”Diagnoseunterstützung in der Ganganalyse” und des SFB
588 ”Humanoide Roboter - Lernende und kooperierende multimodale Roboter” trug
ebenfalls wesentlich zum Erfolg der Arbeiten bei.
iv
Inhaltsverzeichnis
Kurzfassung i
Danksagung iii
1 Einführung 1
1.1 Bedeutung und Einordnung . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Entwicklungsstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Ziele und Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
v
Inhaltsverzeichnis
vi
Inhaltsverzeichnis
7 Anwendungen 239
7.1 Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
7.2 Entscheidungsunterstützung bei Bewegungsanalysen . . . . . . . . . . 240
7.2.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 240
7.2.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 243
7.2.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen . . . 260
7.3.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 260
7.3.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 261
7.3.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
7.4 Brain Machine Interfaces . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.4.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 271
7.4.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 274
7.4.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
7.5 Bildgestützte Diagnose bei Mammakarzinomen . . . . . . . . . . . . . 286
7.5.1 Aufgabenstellung . . . . . . . . . . . . . . . . . . . . . . . . . 286
7.5.2 Methoden und Ergebnisse . . . . . . . . . . . . . . . . . . . . . 288
7.5.3 Diskussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
vii
Inhaltsverzeichnis
B Abbildungsverzeichnis 319
C Tabellenverzeichnis 321
D Literaturverzeichnis 323
E Index 349
viii
1 Einführung
In den letzten Jahren hat bei der elektronischen Erfassung und Auswertung medizi-
nischer Daten eine nahezu revolutionäre Entwicklung stattgefunden. Bisher war ein
Arzt bei der Diagnose oder Therapieplanung ausschließlich auf eigene Patienten-
beobachtungen oder die manuelle Auswertung von Daten aus Medizingeräten (wie
Röntgenbildern) angewiesen. Heute besteht zunehmend die Möglichkeit, diese Auf-
gaben stärker durch computerbasierte medizintechnische Systeme zu unterstützen,
die teilautomatisch aus medizinischen Daten entworfen werden.
Ähnlich ist die Situation bei der individuellen Anpassung von Medizingeräten an die
speziellen Bedürfnisse und Besonderheiten einzelner Patienten (wie z. B. Funktions-
prothesen oder Überwachungsgeräte in Intensivstationen), die bisher nur von Ärzten
und Medizintechnikern mit langjähriger Erfahrung durchgeführt werden konnte. Ak-
tuelle Studien sehen in der zunehmenden Erhebung und Auswertung dieser Daten
sowie der zunehmenden Computerunterstützung aller medizinischen Abläufe eines
der größten Innovationspotenziale in der Medizin (siehe z. B. [14, 16]).
In Deutschland wird der Einsatz von Medizingeräten durch das Medizinprodukte-
gesetz (MPG) geregelt, das Medizinprodukte wie folgt definiert [8]:
Medizinprodukte sind alle einzeln oder miteinander verbunden verwendeten Instru-
mente, Apparate, Vorrichtungen, Stoffe und Zubereitungen aus Stoffen oder andere
Gegenstände einschließlich der für ein einwandfreies Funktionieren des Medizinpro-
duktes eingesetzten Software, die vom Hersteller zur Anwendung für Menschen mit-
tels ihrer Funktionen zum Zwecke
a. der Erkennung, Verhütung, Überwachung, Behandlung oder Linderung von Krank-
heiten,
b. der Erkennung, Überwachung, Behandlung, Linderung oder Kompensierung von
Verletzungen oder Behinderungen,
c. der Untersuchung, der Ersetzung oder der Veränderung des anatomischen Auf-
baus oder eines physiologischen Vorgangs oder
d. der Empfängnisregelung
zu dienen bestimmt sind und deren bestimmungsgemäße Hauptwirkung im oder am
menschlichen Körper weder durch pharmakologisch oder immunologisch wirkende
1
1 Einführung
Mittel noch durch Metabolismus erreicht wird, deren Wirkungsweise aber durch sol-
che Mittel unterstützt werden kann.
Die Medizintechnik beschäftigt sich einerseits mit einer Teilmenge der Medizinpro-
dukte in Form von Instrumenten, Apparaten und Vorrichtungen inkl. der jeweiligen
Software. Andererseits bezieht sie explizit die Forschung und Entwicklung mit ein,
die im strengeren Sinne im Vorfeld des Medizinproduktegesetzes agieren [14, 16].
Die Deutsche Gesellschaft für Biomedizinische Technik (DGBMT) schlägt folgende
Definition vor [107]:
Unter Biomedizinischer Technik BMT (Biomedical Engineering) versteht man die
Bereitstellung und Anwendung ingenieur- und naturwissenschaftlicher Mittel und Me-
thoden auf lebende Systeme in Biologie und Medizin in
• Forschung und Entwicklung,
• im medizinischen Betreuungsprozess: Prophylaxe, Diagnose, Therapie, Rehabili-
tation, Nachsorge,
• im biomedizinischen Geräte- und Systembau,
• in der pharmazeutischen Industrie und in der Biotechnologie.
Die vorliegende Arbeit behandelt die Auswertung von medizinischen Daten mit
ingenieur- und naturwissenschaftlichen Methoden. In der Forschung zielt die Aus-
wertung dieser Messdaten hauptsächlich auf die Modellierung bestimmter Teilsys-
teme des Menschen. Die daraus generierten Ergebnisse sollen in die Software von
Medizingeräten integriert werden, um die Diagnose, Therapie und Rehabilitation im
medizinischen Betreuungsprozess zu verbessern. Ein Hauptfokus ist dabei die mög-
lichst weitgehende Standardisierung und Automatisierung aller Auswerteprozesse,
um diese erfolgreich und effizient zu gestalten. Die Begriffe Standardisierung und
Automatisierung beziehen sich auf die Bestimmung geeigneter Auswerteabläufe und
-methoden, die Umsetzung aller qualitativen Auswerteziele in quantitative Bewer-
tungsmaße und die Unterstützung des kompletten Auswerteprozesses durch geeig-
nete Computerprogramme. Die Arbeit deckt damit entsprechend der obigen Defini-
tionen einen Teilbereich der biomedizinischen Technik ab.
1.2 Entwicklungsstand
Der Trend zur elektronischen Datenerfassung und der Nutzung dieser Daten wird von
mehreren Entwicklungsrichtungen getrieben [64, 383]. Zum einen sind heute viele
medizinische Messverfahren rechnergestützt und damit in der Lage, die gewonnenen
Daten zu archivieren und zu exportieren. Besonders zu nennen sind dabei bildgeben-
de Verfahren (z. B. CT: Computertomographie, MRT: Magnetresonanztomographie,
2
1.2 Entwicklungsstand
3
1 Einführung
4
1.3 Ziele und Aufgaben
setzt, sind aber in ihrer Leistungsfähigkeit beschränkt, wenn es darum geht, bisher
unbekannte komplexe Zusammenhänge zu entdecken. Viele Ingenieure und Infor-
matiker konzentrieren sich wiederum auf einfache medizinische Problemstellungen,
die gut zu bekannten Data-Mining-Verfahren passen (z. B. Klassifikationsprobleme,
Regressionsprobleme, Verknüpfung von Entscheidungsregeln usw.). Letzteres führt
regelmäßig zu einer beiderseitigen Frustration, weil der Ingenieur stolz eine Lösung
präsentiert, die allerdings nicht zu den wirklichen Problemen des Mediziners passt.
Ein Beispiel für dieses Dilemma sind computerbasierte medizinische Expertensys-
teme (siehe z. B. [18, 418] für einen Überblick), bei denen anfänglicher Optimismus
auf beiden Seiten heute in eine Stagnation auf niedrigem Niveau mündete. Die Ent-
wickler dieser Systeme versuchten, durch Befragung von Medizinern Entscheidungs-
regeln zu erheben und dann in eine Wissensdatenbank aufzunehmen. Ein Mediziner
fragt nun dieses Wissen im Zusammenhang mit einem neuen Patienten ab. Die kli-
nische Akzeptanz ist allerdings gering, weil die wichtigen unbewussten Regeln bei
dieser Technik des Wissenserwerbs fehlen und somit eher triviale Zusammenhän-
ge erkannt werden. Zudem ist die Abfrage zu aufwändig und die Verarbeitung der
Regeln für den Mediziner nicht hinreichend transparent.
Ähnliche Schwierigkeiten gibt es bei einer Vielzahl von Diagnoseproblemen. De-
ren Lösung mit Data-Mining-Verfahren bringt dem Patienten erst dann einen direkten
Nutzen, wenn eine geeignete Therapieoption zur Versorgung bereitsteht oder wenn
eine Aussage zu erwarteten individuellen Chancen oder Risiken bei der Therapie
gegeben werden kann. Zudem ist die Transparenz und somit die Interpretierbarkeit
solcher Systeme oft unbefriedigend.
Zusammenfassend kommt es darauf an, für einen Patienten oder eine Patienten-
gruppe nützliche Erkenntnisse so aus ohnehin existierenden Daten zu extrahieren,
dass der behandelnde Mediziner oder Medizintechniker diese Erkenntnisse durch
ein medizintechnisches Gerät ohne zusätzlichen Aufwand präsentiert bekommt, ver-
steht und in seine eigenen Entscheidungen einbauen kann, ohne sich dabei ent-
mündigt oder bevormundet vorzukommen. Gelingt das nicht, wird die Data-Mining-
Anwendung klinisch nicht akzeptiert werden, auch wenn sie aus Sicht des Ingenieurs
einen vollen Erfolg darstellt.
Die vorliegende Arbeit liefert einen Beitrag zu dem übergreifenden Ziel, Problem-
stellungen, Methoden und Anwendungsfelder so darzustellen, zu systematisieren
und zu erweitern, dass einem interdisziplinären Team aus Medizinern, Medizintech-
5
1 Einführung
6
1.3 Ziele und Aufgaben
Die Gliederung dieser Arbeit, die Inhalte der jeweiligen Kapitel und deren gegenseiti-
ge Bezüge werden in Bild 1.1 nochmals verdeutlicht. Dabei finden sich auf der linken
Seite eher medizinisch, auf der rechten Seite eher datenanalytisch orientierte Kapitel.
Die in der Mitte aufgeführten Kapitel widmen sich einer Fusion beider Gebiete. Die
Pfeile erläutern wesentliche Informationsflüsse zwischen den betrachteten Kapiteln.
Im Rahmen der Arbeit werden mehrere neue Systematisierungen, Bewertungsma-
ße, Verfahren und Anwendungen vorgestellt, die den gegenwärtigen Entwicklungs-
stand erweitern:
• standardisierte Formalisierung einer Vielzahl medizinischer Fragestellungen als
Klassifikations- bzw. Regressionsprobleme,
• konsequente Integration weicher Anforderungen wie Interpretierbarkeit und Imple-
mentierbarkeit in Bewertungsmaße,
• einheitliche automatisierte Vorgehensweise zur Klassifikation von Einzelmerk-
malen und Zeitreihen durch Extraktion einer Vielzahl von potenziell relevanten
Merkmalen und einer nachfolgenden bewertungsbasierten Merkmalsselektion,
-transformation und Klassifikation inkl. einer Erweiterung ausgewählter Entwurfs-
verfahren (z. B. Fuzzy-Systeme),
• Implementierung des Konzepts in ein frei verfügbares Programmpaket und
• exemplarische Umsetzung dieser Vorgehensweise für drei komplexe medizinische
Anwendungsbeispiele (Bewegungsanalyse, Unterarmprothesen und Brain Machi-
ne Interfaces).
Die genannten neuen Beiträge basieren auf Arbeiten des Autors bzw. auf umfang-
reichen Diskussionen mit Mitarbeitern aus der Arbeitsgruppe des Autors und mit wei-
teren Fachkollegen, die zu gemeinsamen Publikationen führten. Die vorliegende Ar-
beit stellt die neuen Erkenntnisse erstmals zusammenfassend und systematisch dar.
7
1 Einführung
Kapitel 2: Kapitel 3:
Klinische Data-Mining:
Problemstellungen und Begriffe,
Klinische Datenbasis Problemformulierung,
Bewertungsmaße
Kapitel 4: Kapitel 5:
Problemformulierung Spezielle
(formal) und Data-Mining-Verfahren
Einsatzszenario mit Kommentaren zum
Einsatzszenario
Kapitel 6:
Softwarelösung für das
Einsatzszenario mit
speziellen Data-Mining-
Verfahren
Kapitel 7:
Exemplarische
Anwendungen
Kapitel 8:
Empfehlungen für
Vorgehensweise
Bild 1.1: Gliederung der Arbeit, Inhalt der Kapitel und Bezüge zwischen den Kapiteln
8
2 Medizinische Problemstellungen und Rahmenbedingungen
2.1.1 Datenquellen
Für einen Patienten fällt bei jeder medizinischen Behandlung eine große Menge an
verbalen und formalisierten Daten an. Nach der enthaltenen Information können Pa-
tientendaten in
• Stammdaten (z. B. Name, Patienten-ID, Geburtsdatum, Geschlecht, Größe, Ge-
wicht, Adresse, Versicherungsstatus),
• Anamnesedaten zu bisherigen Erkrankungen (verbal),
• Daten von Einzeluntersuchungen (z. B. Blutdruck, Herzfrequenz, Laborwerte),
• Zeitreihen von kontinuierlichen Aufzeichnungen (z. B. Blutdruck, Herzfrequenz,
EKG – Elektrokardiogramm, EMG – Elektromyogramm, EEG – Elektroencepha-
logramm, ENG – Elektroneurogramm, Bewegungstrajektorien),
• zwei- oder mehrdimensionale Daten von bildgebenden Verfahren (z. B. Rönt-
genbilder, CT – Computertomographie, MRT – Magnetresonanztomographie
(engl. MRI magnet resonance imaging), PET – Positronenemissionstomogra-
phie, SPECT – Single-Photon-Emission-Computertomographie, Ultraschallunter-
suchungen, Videoaufzeichnungen, Übersicht siehe [123]1 ) und
• Daten zu diagnostischen Einschätzungen und therapeutischen Eingriffen durch
den behandelnden Arzt sowie Pflegeprotokolle (oft verbal)
eingeteilt werden (nach [246]). Die generierten Datenmengen sind in der Regel ex-
trem groß – so entstanden im Jahr 2002 allein in der Universitätsklinik Genf 1 Terra-
Byte kardiologische Daten und täglich 12000 radiologische Einzelbilder [314].
Eine weitere – aber weniger naheliegende – Informationsquelle sind wissenschaft-
liche Publikationen, die ihrerseits Erkenntnisse anderer klinischer Studien oder bio-
logischer Modellbildungen verbal zusammenfassen. Deren Abstracts und teilweise
auch entsprechende Langfassungen sind über internetbasierte medizinische Daten-
banken (z. B. [Link]) oder entsprechende Verlage frei zugänglich. Sie ord-
1
Andere Einteilungen und Bezeichnungen beziehen sich nicht auf die Art der Daten und der Bild-
gebung, sondern auf die Zielregion der Untersuchung (z. B. Kardiographie – Herz, Angiographie –
Gefäße, Mammographie – Darstellung der weiblichen Brust).
9
2 Medizinische Problemstellungen und Rahmenbedingungen
nen sich als Spezialfall von diagnostischen Einschätzungen und therapeutischen Ein-
griffen in das oben aufgeführte Schema ein (siehe z. B. [224]). Einige Beispiele zur
Aufbereitung teilweise strukturierter Informationen aus der medizinischen Datenbank
MEDLINE mit einem internetbasierten Zugang namens MEVA zeigt [443].
Weitere Datenquellen aus der Bioinformatik (siehe [312] für eine Übersicht) sind
noch im Grundlagenbereich anzusiedeln: Genexpressionsprofile werden klinisch bis-
her nur bei einigen konkreten Verdachtsfällen (z. B. bei prognostischen Aussagen für
Brusttumore [451]) überprüft. Eine flächendeckende umfassende Erhebung von ge-
netischen Daten für einzelne Patienten findet im klinischen Routinealltag bisher nicht
statt. Anders ist die Situation bei Grundlagenprojekten (z. B. im Human Genome Pro-
ject [348, 457]). Hier handelt es sich meist um Einzelaufnahmen oder kurze Zeitreihen
von Mikroarraydaten. In der Grundlagenforschung existieren außerdem Studien, in
denen im Vergleich zur klinischen Routine umfangreichere Daten (z. B. Zeitreihen mit
kontinuierlichen Aufzeichnungen von Stoffwechselvorgängen) mittels Tierversuchen
gewonnen wurden.
Bei allen Daten kann es sich sowohl um die selbst erhobenen Daten einer Kli-
nik oder Forschungseinrichtung, um Auszüge aus einer verfügbaren Datenbank mit
gesammelten Daten aus verschiedenen Einrichtungen oder um eine Mischung aus
beiden Quellen handeln.
10
2.1 Datenquellen und -archivierung
Digital Imaging and Communications in Medicine) [6, 10], der auf dem in der Infor-
matik weit verbreiteten OSI (Open Systems Interconnect)-Modell aufbaut und sich
inzwischen weltweit herstellerübergreifend durchgesetzt hat.
So standardisierte Bilder enthalten neben den eigentlichen Bilddaten auch spe-
zielle medizinische Informationen über den Patienten, das Aufnahmegerät und die
aufnehmende Einrichtung sowie über die weiteren Verarbeitungsschritte im Umgang
mit dem Bild. Dennoch existieren noch herstellerspezifische Differenzen (nicht im-
plementierte Teilfunktionen, unterschiedliche Implementierungen usw.), die eine hun-
dertprozentige Kompatibilität verhindern [246].
Im Gegensatz zu technischen Diagnoseproblemen, bei denen in der Regel für je-
des zu untersuchende Objekt die gleichen Messdaten zur Verfügung stehen, werden
in der Medizin die meisten zu erfassenden Daten von den behandelnden Ärzten pati-
entenindividuell festgelegt. Somit liegt von vornherein eine heterogene Datenstruktur
mit fehlenden Werten vor, wobei sich aber innerhalb einer Patientengruppe diese Da-
tenstrukturen zumindest ähneln.
Die Messsysteme zur Aufzeichnung der Zeitreihen und Bilddaten gewährleisten
in der Regel eine zuverlässige Aufzeichnung, komfortable Visualisierung und Wei-
terverarbeitung der Daten innerhalb des Messsystems. Allerdings geben sie dem
behandelnden Arzt kaum Unterstützung bei der Interpretation der Daten.
Neben der Standardisierung der einzelnen Datenquellen kommt es darauf an, auf
bereits archivierte Daten komfortabel zugreifen zu können. Wichtig ist dabei, dass die
Datenbank mit großen Datenmengen umgehen kann und einen unproblematischen
Zugriff durch mehrere Applikationen ermöglicht – möglichst ohne aufwändige Kon-
versionsroutinen. Sinnvoll sind hier fileorientierte Zugriffe auf XML- (engl. Extended
Markup Language) oder Textdateien.
Allerdings dominieren bisher einrichtungsspezifische Lösungen unterschiedlicher
Qualität. Besonders problematisch für eine spätere Suche und Auswertung sind ver-
bale Freitexteingaben, die sich in nahezu allen Systemen finden [427]. Wünschens-
wert sind inhaltsbasierte Zugänge, die auf klar definierten Klassifikationen und Ta-
xonomien beruhen. Einen Überblick über Ansätze in dieser Richtung gibt [314] für
inhaltsbasierte Zugänge bei Bilddaten in radiologischen Archiven.
Zusammenfassend ist festzustellen, dass aus den genannten Gründen eine um-
fassende einrichtungsübergreifende Standardisierung bei der Erfassung und Archi-
vierung aller Patientendaten derzeit nicht gegeben und auch mittelfristig illusorisch
ist. Allerdings existieren innerhalb der Einrichtungen und bei bestimmten Datenarten
zunehmend verwendbare Insellösungen für nachfolgende Datenanalysen.
11
2 Medizinische Problemstellungen und Rahmenbedingungen
2.2 Problemstellungen
2.2.1 Übersicht
12
2.2 Problemstellungen
2
Während der Auswertung einer solchen Studie kann die Zuordnung einer Größe als Ein- oder Aus-
gangsgröße wechseln.
3
Anstelle von Aussagen für einzelne Patienten (z. B. Überlebenszeit) können auch Ausgangsgrößen
für Patientengruppen (z. B. 5-Jahre Überlebensrate) untersucht werden.
13
2 Medizinische Problemstellungen und Rahmenbedingungen
14
2.2 Problemstellungen
15
2 Medizinische Problemstellungen und Rahmenbedingungen
die Therapie B, sondern stets durch eine Vielzahl weiterer Einflussfaktoren (zusätz-
liche Erkrankungen, Ernährungs- und Lebensgewohnheiten, parallel angewendete
Therapien, Alterung,...) gekennzeichnet ist. Diese Einflussfaktoren sind nur zum klei-
nen Teil erfassbar und eröffnen weiten Interpretationsspielraum bei der Analyse der
Zusammenhänge.
Auch bei miteinander korrelierten bekannten Eingangsgrößen, die auf Zusammen-
hänge mit der Ausgangsgröße hindeuten, ist eine Annahme von Ursache-Wirkungs-
Mechanismen nicht ausschließlich aus Daten begründbar. Zudem gibt es eventuell
Untersucherabhängigkeiten bei der Diagnose und der Therapiedurchführung. Be-
sonders wichtig ist deshalb die klare Definition der Ein- und Ausschlusskriterien in
Diagnose A. Ausführliche Diskussionen zu Fehlerquellen und Möglichkeiten zu de-
ren Vermeidung durch ein geeignetes Studiendesign finden sich beispielsweise in
[147, 447].
Im Folgenden sollen nur einige wenige drastische Beispiele kurz umrissen werden,
um Strategieelemente im Studiendesign zu motivieren (Tabelle 2.1): Einige Erkran-
kungen klingen auch ohne Behandlung irgendwann ab oder verschlimmern sich (zeit-
liche Effekte). Folglich ist bei einer Erkältung eines 70-jährigen Patienten (Diagnose
A) die Vergabe von Traubenzucker (Therapie B) nicht unbedingt ursächlich für das
Abklingen der Erkältung (Diagnose C) nach sechs Wochen. Andererseits ist auch
die eventuelle Verschlechterung des Allgemeinzustands des Patienten nach einigen
Jahren (Diagnose C) kaum eine Wirkung der Traubenzuckertherapie.
Auch örtliche Effekte spielen u. U. eine Rolle: Eine besonders qualifizierte Klinik
bekommt tendenziell auch schwerere Fälle mit geringeren Behandlungsaussichten –
deshalb sind geringere Überlebensraten im Vergleich zu einem Kreiskrankenhaus
weder kausal auf die Klinikzuweisung zurückzuführen noch repräsentativ für die Er-
folgsaussichten einer Therapie.
Falsche Interpretationen können durch den Vergleich mit einer möglichst ähnlichen
Kontrollgruppe vermieden werden, die der Therapie nicht unterzogen wird. Ein gene-
relles Problem bei kontrollierten Studien sind allerdings ethische Bedenken: Jedem
Patienten soll die bestmögliche Behandlung zukommen. Es ist also nicht zu verant-
worten, einem Patienten aus Gründen des Studiendesigns eine aussichtsreichere
Behandlung zu verweigern (Zuweisung zur Kontrollgruppe) oder eine risikoreichere
Behandlung zuzumuten (Zuweisung zur Therapiegruppe). Kontrollierte Studien sind
also hauptsächlich in den Phasen interessant, in denen es erste unbestätigte Hinwei-
se für die Überlegenheit einer neuen Therapie gibt.
Um verbindliche Aussagen zu gewinnen und systematische Auswahlfehler zu ver-
meiden, sollte diese Zuordnung allerdings weder vom Patienten noch vom Arzt ab-
16
2.2 Problemstellungen
hängen. In beiden Fällen besteht das Risiko, dass die Auswahl von einem weiteren
Merkmal abhängt, das wiederum das Ergebnis beeinflusst. Selbst eine wirkungslose,
aufwändigere Therapieform (x2 ) kann positiv evaluiert werden, wenn sich ein Arzt nur
bei Patienten mit einem stabilen sozialen Umfeld (x3 ) für diese Therapie entscheidet,
aber allein das bessere soziale Umfeld die Erfolgsaussichten der Therapie positiv be-
einflusst (y1 ) (Beispiel: Tuberkuloseimpfungen in New York [164]). Somit dürfen sich
die Gruppen idealerweise nur in einem Merkmal (z. B. der eingesetzten Therapie)
signifikant unterscheiden. Bei allen anderen Merkmalen (weitere nicht untersuchte
Therapien: Behandlungsgleichheit; charakteristische Merkmale wie Alter, Diagnosen:
Strukturgleichheit; Erfassung der Ergebnisse: Beobachtungsgleichheit) sollen keine
relevanten Unterschiede auftreten (Kapitel 6 in [246]).
Ein wichtiges Strategieelement zum Erreichen dieses Ziels ist die zufällige Auswahl
der Gruppenzuordnung (Randomisierung), um solche Auswahleffekte zu vermeiden,
wodurch randomisierte kontrollierte Studien entstehen (engl. RCT – Randomized
Controlled Trials). Dabei wird zunächst mit Einschlusskriterien eine möglichst homo-
gene Patientengruppe ausgewählt und die Therapieentscheidung zufällig getroffen.
Bei einer hinreichend großen Anzahl von Patienten kann dann von Strukturgleich-
heit ausgegangen werden, bei kleineren Patientenkollektiven ist das durch geeigne-
te Maßnahmen sicherzustellen (eingeschränkte Randomisierungen, Stratifizierungen
usw. [246]). Patienten haben aber u. a. aus ethischen Gründen jederzeit das Recht,
eine Therapie abzubrechen, eine andere Therapie zu verlangen oder Kontrollunter-
suchungen nicht wahrzunehmen. Sie scheiden dann zwar aus der Studie aus und
sind entsprechend zu dokumentieren, dennoch sind hier je nach Abbruchursache
(z. B. Nebenwirkungen, schnelle Erfolge) systematische Fehler in der Studie kaum
auszuschließen.
Zudem können subjektive positive oder negative Erwartungen des Patienten oder
des Arztes die Ergebnisse verfälschen. Allein die positive Einstellung eines Patien-
ten ist ein wesentlicher Erfolgsfaktor für eine Therapie. So ist der Effekt zu erklä-
ren, dass auch objektiv wirkungslose Therapien erfolgreich sein können (”Placebo-
Effekt”), was u. U. eine Fehlinterpretation von Studien nach sich zieht. Ein Strategie-
element zur Vermeidung von Placebo-Effekten ist die Verblindung, bei der der Patient
(einfache Verblindung) und eventuell zusätzlich der Arzt (doppelte Verblindung) kei-
ne Informationen über die ausgewählte Therapie erhalten. Bei Medikamenten kann
die Verblindung durch äußerlich gleiche Placebo-Medikamente erfolgen. Ein ähnli-
ches Vorgehen ist auch bei der Evaluierung von chirurgischen Eingriffen mit Placebo-
Operationen möglich [417], aber ethisch stärker umstritten.
Bei retrospektiven Studien besteht beim Testen einer Vielzahl von Hypothesen ei-
ne erhöhte Gefahr, dass ein gefundener Zusammenhang nur zufällig ist. Prospektive
17
2 Medizinische Problemstellungen und Rahmenbedingungen
Studien sind aufwändiger und langwieriger, weil erst geraume Zeit nach der Planung
der Studie mit Ergebnissen zu rechnen ist. Da aufgrund des Studiendesigns nur eine
Hypothese bereits vor der Studie zu formulieren ist, ist das Risiko zufälliger, irrefüh-
render Zusammenhänge reduziert.
Ein Strategieelement zur Verringerung des Einflusses von lokalen Besonderheiten
sind Multi-Center-Studien, wodurch in der Regel ein repräsentativeres Patientenkol-
lektiv erreicht wird.
In einer weiteren Hierarchiestufe kann eine Vielzahl klinischer Studien mit glei-
chen oder zumindest ähnlichen Fragestellungen durch Metaanalysen ausgewertet
werden. Eine Metaanalyse beruht meist auf der teilautomatischen Auswertung von
Zeitschriftenpublikationen der primären Studien, wobei zumindest eine automatisier-
te Auswahl durch Suchprozesse erfolgt. Eine Übersicht über die zugrundeliegende
Methodik, wichtige Ressourcen und mögliche Fehlerquellen gibt [181].
Klinische Studien nehmen eine Schlüsselrolle in der sogenannten Evidenz-
basierten Medizin (engl. Evidence-based Medicine – EBM) ein, die zunehmend an
Bedeutung gewinnt. Die EBM klassifiziert klinische Studien entsprechend ihrer Qua-
lität in Evidenzklassen und -grade (siehe Tabelle 2.2), wobei sich die genauen Defi-
nitionen und Bezeichnungen international etwas unterscheiden [334].
Tabelle 2.2: Evidenzklassen und -grade in Anlehnung an die Definitionen der Ärztlichen Zen-
tralstelle Qualitätssicherung [334]
Eine wichtige Anwendung solcher Methoden ist die Formulierung von qualitativ
hochwertigen Leitlinien (engl. guidelines), in denen fundierte Erfahrungen zur Dia-
gnose und Therapie praxisorientiert und wissenschaftlich begründet zusammenge-
fasst werden. Diese Leitlinien dienen als Entscheidungshilfen für Ärzte und Kran-
kenkassen. Eine Übersicht über die entsprechenden deutschen Projekte der Arbeits-
gemeinschaft der Wissenschaftlichen Medizinischen Fachgesellschaften (AWMF, ei-
18
2.2 Problemstellungen
nem Zusammenschluss von 140 Fachgesellschaften – Stand 2003) und der Ärztli-
chen Zentralstelle Qualitätssicherung (ÄZQ) findet sich in [334, 341] und im Internet
([Link], [Link]). Ähnliche Projekte gibt es auch in den meis-
ten europäischen Ländern, den USA, Kanada und Australien (Übersicht incl. Inter-
netressourcen siehe [242]). Auch im Bereich der öffentlichen Gesundheitsvorsorge
gibt es Bemühungen, wichtige Risikofaktoren für Krankheiten (wie z. B. Ernährungs-
gewohnheiten, ökologische Einflüsse) systematisch zu erfassen sowie die Effizienz
von Therapien und deren wirtschaftliche Auswirkungen zu bewerten (z. B. Diabetes-
Behandlung in [337]). Eine Übersicht über die Methodik der amerikanischen EBM-
Studien auf diesem Gebiet (’Guide to Community Preventive Services’) gibt [74].
Gesonderte Vorschriften gelten für die Zulassung von Arzneimitteln. Die Zulas-
sungsvorschriften sind gesetzlich geregelt (Europäische Union [2], Arzneimittelge-
setz [12]) und werden durch international nahezu einheitliche De-facto-Standards
ergänzt [421, 431]. So schreibt beispielsweise die amerikanische Food and Drug
Association (FDA) einen detaillierten Prüfprozess vor, der aus mehreren Phasen be-
steht (Tabelle 2.3). Nach vorklinischen Tests mit Tierversuchen folgt eine dreipha-
sige Erprobung des neuen Arzneimittels (engl. IND: Investigational New Drug) am
Menschen, die bei Erfolg mit der Zulassung des Arzneimittels abschließt. Nach der
Zulassung gibt es mit der Phase IV eine kontinuierliche Überwachungsphase, die
insbesondere Langzeiteffekte und seltene Nebenwirkungen beobachtet. Zunehmend
findet sich auch die Bezeichnung einer Phase V, die den Einsatz eines bereits zuge-
lassenen Arzneimittels für neue Einsatzgebiete behandelt [431]. Bei den jeweiligen
Wirksamkeitsstudien handelt es sich meist um kontrollierte und randomisierte Studi-
en gegenüber alternativen Behandlungsformen.
19
2 Medizinische Problemstellungen und Rahmenbedingungen
Tabelle 2.3: Arzneimittelzulassung bei der FDA mit durchschnittlichen Erfolgsquoten ab Start
der Phase I (nach [421])
20
2.2 Problemstellungen
Ein Vergleich mit den Problemstellungen für klinische Studien zeigt, dass keine klare
Trennung zwischen klinischen Studien und Aufgaben der biologischen Modellbildung
existiert. Tendenziell geht es bei Modellbildungsproblemen allerdings eher um de-
tailliertere Modelle auf der Basis von algebraischen Gleichungen, Differential- und
Differenzengleichungen sowie ereignisdiskreter Beschreibungsmittel (Zustandsgra-
phen, Petri-Netze), während sich klinische Studien auf die qualitative Beschreibung
von Unterschieden zwischen verschiedenen ”biologischen Systemen” (wie Patienten-
gruppen) konzentrieren.
Aus systemtheoretischer Sicht besonders interessant sind dabei Zusammenschal-
tungen einer Vielzahl vergleichsweise einfacher Modelle (z. B. für Stoffwechselvor-
gänge in Zellen [227]), um komplexe Systeme transparent und gut interpretierbar
zu beschreiben. Ebenso wichtig ist der Versuch, Modelle von einer hohen Abstrakti-
onsebene kommend zu verfeinern und so tiefere Einsichten in grundlegende Mecha-
nismen zu gewinnen und umgekehrt (siehe [185, 477] am Beispiel von molekularen
Interaktionen und regulatorischen Netzwerken in Zellen).
Jedes entstehende Modell eignet sich für eine nähere simulative Untersuchung, mit
der unterschiedliche Experimente (z. B. zur Wirkungsweise äußerer Einflussgrößen,
Robustheitsuntersuchung bei veränderlichen Parametern usw.) auf einem Computer
(”in silico”) durchgeführt werden können. Somit werden patientenbelastende Unter-
suchungen bzw. Tierversuche vermieden oder zumindest reduziert und zusätzliche
Informationen über die untersuchten Systeme generiert.
Der hier verwendete Begriff der Regelung und Steuerung fasst unterschiedliche
Problemstellungen zusammen. Bei Geräten in der Intensivmedizin oder bei Prothe-
sen entstehen meist ”klassische” Regelkreise. Bei einigen Problemstellungen (z. B.
Prothesen) geht es hauptsächlich um den patientenindividuellen Entwurf von unter-
lagerten Steuerungen, weil keine oder nur eingeschränkte sensorische Möglichkeiten
zur Verfügung stehen. Der Mensch übernimmt dann überlagerte Regelungen selbst.
Beispiel: Menschliche Bewegungen entstehen aus dem Zusammenwirken von reflex-,
programmgesteuerten und geplanten Bewegungskomponenten [402], wobei der motorische
Kortex, der Hirnstamm und das Rückenmark beteiligt sind. Alle Bewegungen sind durch ei-
ne Vielzahl sich gegenseitig beeinflussender neuronaler ”Regelkreise” und ereignisdiskreter
Aktionen gekennzeichnet. Obwohl einige Prinzipien der Abläufe bei der Bewegungsplanung
und -ausführung bekannt sind, liegt bisher kein detailliertes Modell des Zusammenwirkens
der verschiedenen Komponenten vor.
Beim Einsatz von Neuroprothesen [15] werden gestörte und verloren gegangene neuro-
nale Strukturen und Funktionen moduliert, überbrückt bzw. ersetzt. Bei Neuroprothesen für
Bewegungen werden Muskel-, Nerven- oder Hirnsignale durch geeignete Sensoren erfasst
(Bild 2.1). Dabei zwei Anwendungsfälle zu unterscheiden [299]:
21
2 Medizinische Problemstellungen und Rahmenbedingungen
EEG-Elektrode
ECoG-Elektroden,
invasive Elektroden
kortikospinale
Bahn
Rücken-
mark
Moto-
neuron
ENG-Elektrode efferente
(Cuff) Signale
afferente
subkutane Oberflächen- Signale
EMG-Elektrode EMG-Elektrode
periphere
Nervenfasern,
a-Motoaxone
Muskel- motorische
fasern Endplatten
Bild 2.1: Möglichkeiten zur Erfassung bioelektrischer Signale [299], EMG: Elektromyographie,
ENG: Elektroneurographie, EEG: oberflächliche Elektroencephalographie, ECoG:
invasive Elektrokortikographie
1. Eine technische Prothese agiert als Aktor (z. B. Handprothese, Exoskelett, Bild 2.2a).
2. Die Neuroprothese überbrückt eine nicht funktionsfähige Strecke im Nervensystem, der
eigentliche Aktor ist wieder ein biologisches System (z. B. die gelähmte Hand bei Quer-
schnittgelähmten, siehe Bild 2.2b).
Bei anderen Neuroprothesen agiert eine technische Prothese lediglich als Sensor und lei-
tet Informationen in das Zentrale Nervensystem weiter (z. B. Retina-Implantat, Cochlea-
Implantat). Umfassende Übersichten über den Entwicklungsstand von Neuroprothesen ge-
ben z. B. [257, 323, 347, 436].
Eine Neuroprothese weist bis zu vier verschiedene Schnittstellen zum Nervensystem
auf:
• Ableitung von Efferenzen (AE, vom Zentralnervensystem in Richtung Peripherie) zum
Erfassen von Bewegungsabsichten (Sensor, unbedingt notwendig für Anwendungsfall 1
und 2),
• Stimulation von Efferenzen (SE) zum Stimulieren peripherer Nerven und der durch sie
enervierten Muskeln (Aktor, unbedingt notwendig für Anwendungsfall 2),
22
2.2 Problemstellungen
Bild 2.2: Strukturen beim Einsatz von Neuroprothesen: a. mit einer technischen Prothese,
b. als Überbrückung neuronaler Strukturen, Abkürzungen: zentrales und peripheres
Nervensystem (ZNS, PNS), Ableitung von Efferenzen (AE) oder Afferenzen (AA),
Stimulation von Efferenzen (SE) oder Afferenzen (SA)
• Ableitung von Afferenzen (AA, von der Peripherie in Richtung Zentralnervensystem) zur
Erfassung peripherer sensorischer Rückmeldungen (Sensor, wünschenswert für Anwen-
dungsfall 2) und
• Stimulation von Afferenzen (SA) zum Einkoppeln von Informationen über den Prothesen-
oder Umweltzustand in das zentrale Nervensystem (Aktor, wünschenswert für Anwen-
dungsfall 1 und 2).
Ein Modell muss aus den abgeleiteten Efferenzen (Hirn-, Nerven- oder Muskelsignalen) Be-
wegungsabsichten erkennen und für eine Regelung oder Steuerung aufbereiten. Auf deren
Anwendung für Muskel- und Hirnsignale wird später in Kapitel 7 eingegangen. Ein Beispiel
für Nervensignale findet sich in [464] für erste Ergebnisse im Humanversuch mit Nadelelek-
troden. Ebenso wichtig ist eine Modellbildung bei der Ableitung von Afferenzen, um noch
funktionsfähige körpereigene Sensoren einzubinden (erste Ergebnisse im Humanversuch
in [27, 425] zur Erkennung des Bodenkontaktes des Fußes oder beim Greifen [187], Tierver-
suche zur selektiven Ableitung z. B. in [233, 299, 378]). Durch Nerven laufen viele parallele
Informationen in beiden Richtungen, deren Erfassbarkeit und Zuordnung in jedem Fall stark
vom Patienten und dem genauen Einbauort des Sensors abhängt. Ähnliche Probleme stellen
sich für die modellbasierte Einstellung von Stimulationsmustern für die funktionelle Elektrosti-
mulation. Hier sind Modelle zum Zuordnen von Stimulation und Bewegung (efferente Stimula-
tion, experimentelle Ergebnisse beim Schwein in [413]) bzw. von Stimulation und kognitivem
Feedback (afferente Stimulation, Akutversuche beim Menschen in [114]) aufzubauen. ¥
23
2 Medizinische Problemstellungen und Rahmenbedingungen
Offene Fragen bei der Planung klinischer Studien ergeben sich insbesondere bei
• der Festlegung geeigneter Hypothesen für prospektive Studien und
• der Suche nach möglichen Confounding-Effekten.
Bei der Analyse des Studiendesigns fällt auf, dass alle prospektiven Studien eine fi-
xierte Hypothese zu Studienbeginn voraussetzen. Dabei wird an einer kleinen Menge
von vorher definierten Merkmalen mit statistischen Methoden geprüft, ob die erwarte-
te Wirkung eintritt. Die Formulierung dieser Hypothesen bleibt bisher meist der klini-
schen Erfahrung des planenden Arztes überlassen. Hier eröffnet sich ein großes Po-
tenzial für Data-Mining-Verfahren, um für komplexe Problemstellungen bei klinischen
Studien relevante Hypothesen automatisiert zu generieren. So gefundene Hypothe-
sen sind dann durch einen Arzt zu verifizieren, um Anregungen für ein nachfolgendes
Studiendesign bei prospektiven Studien zu erzeugen.
Viele Studien beruhen auf einfachen Hypothesen. Ein weiteres Einsatzpotenzial
von Data-Mining-Verfahren besteht darin, bisher unbekannte multivariate Hypothesen
zu formulieren und so einen tieferen Einblick in Wirkungsmechanismen zu eröffnen.
24
2.3 Einsatzpotenziale und Anforderungen für Data-Mining-Verfahren
Eine ähnliche Chance bietet die Analyse der Studienergebnisse zur Auffindung von
Confounding-Effekten: Beim routinemäßigen univariaten und multivariaten Analysie-
ren4 aller verfügbaren Merkmale ergeben sich häufig Hinweise auf unerwartete Zu-
sammenhänge. Wenn alle verfügbaren Informationen enthalten sind (auch scheinbar
irrelevante wie Identifikationsnummern des behandelnden Arztes, Untersuchungs-
monat und -jahr), kann das Auffinden und Interpretieren gefundener Zusammenhän-
ge Hinweise auf zeitliche Abhängigkeiten, Untersucherabhängigkeiten und weitere
Einflussgrößen geben. Diese Hinweise sind zwar statistisch kaum belastbar, können
aber wiederum bei der Interpretation von Studienergebnissen mit in Betracht gezo-
gen werden.
Bei der biologischen Modellbildung steht die Hypothesensuche nach bislang un-
bekannten Modellstrukturen für biologische Wirkungsmechanismen im Vordergrund.
Data-Mining-Verfahren dienen hier hauptsächlich der Auswertung von Experimenten,
wenn bisher keine fundierten biologischen, chemischen und physikalischen Ursache-
Wirkungs-Mechanismen bekannt sind. Bei einem modellbasierten patientenindividu-
ellen Entwurf von Regelungen und Steuerungen steht aus Effektivitätsgründen eine
möglichst vollständige Automatisierung des Entwurfsprozesses von Modell und Re-
gelung bzw. Steuerung im Vordergrund.
Eine langfristige Perspektive ist die Auswertung medizinischer und biologischer Li-
teraturdatenbanken mit Textmining-Verfahren [64, 76]. Ein erfolgreicher Einsatz hängt
von einem geeigneten Umgang mit unterschiedlichen Begriffen und Taxonomien und
einer zumindest ansatzweise vorhandenen semantischen Analyse ab.
Zusammenfassend bietet die Entdeckung bisher unbekannter Zusammenhänge
aus unterschiedlichen Datenquellen und dessen Formulierung als (durch statistische
Verfahren) nachprüfbare Hypothese das vielversprechendste Einsatzpotenzial von
Data-Mining-Verfahren in medizinischen und medizintechnischen Anwendungen.
Prinzipiell eignen sich Data-Mining-Verfahren für beliebige Problemstellungen.
Dennoch treten bei vielen medizinischen Problemstellungen einige Besonderheiten
auf, mit denen sie sich von den meisten technischen oder betriebswirtschaftlichen
Problemen unterscheiden (siehe z. B. [18, 99, 100, 245]):
4
univariat: jede Eingangsgröße separat, multivariat: Kombinationen mehrerer Eingangsgrößen
25
2 Medizinische Problemstellungen und Rahmenbedingungen
gesichert sind und die Gefahr besteht, zufällige Gemeinsamkeiten als kausalen
Zusammenhang zu deuten.
• Die aufzufindenden Zusammenhänge sind oft nichtlinear, zeitvariant und durch un-
bekannte, aber relevante Eingangsgrößen gekennzeichnet. Beispielsweise spielen
kaum erfassbare subjektive Einflüsse (z. B. Motivation, Angst, Tagesform bei Pati-
enten) oft eine wesentliche Rolle.
• Wichtige Ausgangsgrößen (z. B. Patientenzufriedenheit, Lebensqualität) sind
schwer zu quantifizieren.
• Scheinbar homogene Patientengruppen bestehen oft aus heterogenen Subgrup-
pen mit signifikant unterschiedlichen Wirkungsmechanismen. Der Versuch, ein all-
gemeingültiges Modell für eine solche Patientengruppe zu ermitteln, führt stets zu
unbefriedigenden Ergebnissen. Die Ursache dafür ist das Ermitteln eines ”mittle-
ren” Modells für alle Subgruppen, was aber in der Regel keine Subgruppe hinrei-
chend beschreibt. Darüber hinaus können einzelne Patienten graduelle Zuordnun-
gen zu mehreren Subgruppen ausweisen.
• Datensätze sind häufig unvollständig, weil bestimmte Merkmale für einige Patien-
ten nicht erhoben wurden.
• Die Möglichkeiten für die aktive Beeinflussung der Versuchsplanung sind gering,
weil die Zahl der beeinflussbaren Merkmale vergleichsweise gering ist und weite-
re Merkmale aus ethischen Gründen nicht beeinflusst werden sollen (z. B. beste
Therapieoptionen oder selbst gewählte Lebensumstände für einen Patienten).
• Vorhandenes Expertenwissen ist häufig in verbaler Form gegeben, aber wegen
einer stark unterschiedlichen Terminologie und Synonymen schwer auswertbar.
• Die Akzeptanz der Lösung hängt entscheidend von ihrer Interpretierbarkeit ab.
• Die Erhebung und Verwendung von Daten wird durch rechtliche und ethische Vor-
schriften eingeschränkt. Klinische Daten sind erst nach einer Anonymisierung, der
Zustimmung der Ethik-Kommission und der Patienten verfügbar.
Diese Besonderheiten stellen hohe Anforderungen an Auswerteverfahren, insbeson-
dere an die Validierung der Ergebnisse. Ein kritikloses Anwenden von Statistiken führt
oftmals zu irreführenden Ergebnissen, weil systematische Fehler (z. B. durch sich
ändernde Rahmenbedingungen und Patientengruppen) und zufällige Fehler kaum
vermeidbar sind. Eine rein datengetriebene Validierung reicht hier nicht aus. Besser
geeignet ist hingegen eine Vorgehensweise, bei der ein Data-Mining-Verfahren zu-
nächst interpretierbare Lösungen und Lösungsverfahren erzeugt. Anschließend er-
folgt unter Hinzuziehung von Experten eine umfassende Diskussion zur Hypothesen-
bildung, was eine Analyse möglicher Fehlerquellen einschließt.
26
3 Data Mining: Verfahrensübergreifende Begriffe
3.1 Übersicht
27
3 Data Mining: Verfahrensübergreifende Begriffe
28
3.2 Daten und Datenstrukturen
29
3 Data Mining: Verfahrensübergreifende Begriffe
und m = ∑sl=1 ml für die Merkmale bzw. eine (N, my )-dimensionale Matrix
µB1 (y[1]) · · · µBmy (y[1])
.. ... ..
µ y = µ B (y) = . . (3.4)
µB1 (y[N]) · · · µBmy (y[N])
30
3.3 Problemstellungen
ist, mit Hilfe dieser Kategorien eine Merkmalsbewertung nach Kriterien wie Mess-
aufwand, -kosten, -zuverlässigkeit, Interpretierbarkeit usw. vorzunehmen (siehe z. B.
[258, 260]).
Die Merkmale selbst können wiederum aus sRoh Rohmerkmalen (Matrix XRoh der
Dimension (N, sRoh )) hervorgegangen sein. Rohdaten sind u. U. in sich strukturiert
(siehe Tabelle 3.2), weil sie aufgrund ihrer Aufzeichnung als Zeitreihe, Bild oder Video
interne Zusammenhänge enthalten (vgl. Abschnitt 2.1).
Oftmals gehören mehrere Einzelmerkmale (Anzahl s), Zeitreihen (sz ), Bilder (sb )
oder Videos (sv ) zusammen, weil sie bei einer Messung simultan oder zumindest kurz
hintereinander aufgezeichnet werden, so dass sich in dieser Zeit das untersuchte Ob-
jekt oder Subjekt nicht signifikant ändert. Beispiele für Zeitreihen sind die Aufzeich-
nungen mehrerer Sensoren sowie daraus durch Filterung entstehende zusätzliche
Zeitreihen. Bei Bildern und Videos sind hier zusätzlich unterschiedliche Farbkanä-
le (z. B. RGB – Rot, Grün, Blau) zu nennen. Weitere Quellen sind kurz hinterein-
ander folgende Aufzeichnungen mit unterschiedlichen Messparametern (Verstärkun-
gen, Beleuchtung usw.).
Alle geschätzten Größen werden durch ˆ gekennzeichnet. Beispielsweise bezeich-
net ŷ eine Schätzung für den Vektor der Ausgangsgröße y.
3.3 Problemstellungen
3.3.1 Systembegriff
31
3 Data Mining: Verfahrensübergreifende Begriffe
Tabelle 3.2: Datensätze für verschiedene Arten von Rohmerkmalen, die niedrigeren Dimen-
sionszahlen der Datensätze gelten für s = 1 bzw. sz = 1, sb = 1, sv = 1 (nur ein
Einzelmerkmal, eine Zeitreihe, ein Bild, ein Video) sowie ein Datentupel (N=1)
32
3.3 Problemstellungen
Vor- Hypothesen-
wissen generierung
Parameter- x[n]
Lern- schätzung
daten-
Anwendung
satz f(?)
von f(?)
X, y
Bewertung [n]
Bild 3.3: Überblick über den prinzipiellen Ablauf beim Entwurfsprozess von Data-Mining-
Problemen und der Anwendung der gefundenen Lösungen
33
3 Data Mining: Verfahrensübergreifende Begriffe
tion zum Schätzen der Ausgangsgröße y, dc (·): Distanzfunktion zur Klasse Bc usw.).
Außerdem wird die Dimension von Eingangs- und Ausgangsgrößen durch Tiefstel-
lung gekennzeichnet: ŷ (·) kennzeichnet beispielsweise eine Funktion zur Abbildung
s→1
von s Eingangsgrößen auf eine Ausgangsgröße.
Der Entwurf erfolgt meist in drei Schritten durch
• eine Hypothesengenerierung zum Erzeugen einer möglicherweise geeigneten
Struktur für den Zusammenhang f (·),
• eine Parameterschätzung zum Bestimmen geeigneter Parameter für f (·) und
• die Bewertung des gefundenen Zusammenhangs durch ein Bewertungsmaß Q,
das entweder zu maximieren oder zu minimieren ist.
Einen strukturellen Überblick gibt Bild 3.3. Alle Teilaufgaben sind zunächst getrennt
voneinander zu betrachten. In bestimmten Sonderfällen lassen sich die optimalen Pa-
rameter direkt aus der geschlossenen lösbaren Minimierung oder Maximierung des
Bewertungsmaßes ermitteln. Strukturen werden in der Regel indirekt durch das Be-
wertungsmaß mit dem besten gefundenen Parametersatz bewertet. In allen Schritten
des Entwurfs kann eventuell vorhandenes Vorwissen einbezogen werden.
Je nach Problemstellung ist zwischen prognoseorientierten Problemen (Ab-
schnitt 3.3.2), Merkmalstransformationen als Hilfsverfahren (Abschnitt 3.3.3) und ver-
schiedenen Bewertungsverfahren als Hilfsverfahren (Abschnitt 3.3.4) zu unterschei-
den. Bei den korrespondierenden Anwendungen DiA sind die beim Entwurf ermittel-
ten funktionellen Abbildungen dann gegeben. Diese Unterschiede sollen im Folgen-
den näher erläutert werden.
Je nach der Art von Eingangs- und Ausgangsgrößen ergeben sich unterschiedliche
Problemstellungen, zu deren Bearbeitung häufig auch unterschiedliche Algorithmen
verwendet werden. Die Tabelle 3.3 erläutert den Entwurf für die Problemstellungen
Di , die korrespondierenden Anwendungen DiA finden sich in Tabelle 3.4.
Bei der Prognose von Ausgangsgrößen wird im gegebenen Lerndatensatz nach ei-
nem Zusammenhang ŷ = f (x) gesucht. Eine wichtige Unterscheidung besteht darin,
ob für die jeweilige Aufgabe Datentupel mit bekannten Ausgangsgrößen zur Verfü-
gung stehen (überwachtes Lernen, engl. supervised learning) oder nicht (unüber-
wachtes Lernen, engl. unsupervised learning). Problemstellungen, bei denen nur für
einen Teil der Datentupel die Ausgangsgröße bekannt ist, werden als teilüberwach-
tes Lernen (engl. semi-supervised learning) bezeichnet. Beim überwachten Lernen
besteht der Lerndatensatz folglich aus Daten für Ein- und Ausgangsgrößen (z. B. den
34
3.3 Problemstellungen
Tabelle 3.3: Einteilung der Problemstellungen für den Entwurf von Data-Mining-Verfahren
(Prognose von Ausgangsgrößen)
35
3 Data Mining: Verfahrensübergreifende Begriffe
Tabelle 3.4: Einteilung der Problemstellungen für die Anwendung von bereits entworfenen
Data-Mining-Verfahren aus Tabelle 3.3 sowie von Distanzberechnungen
³ ´T
P̂(y|x) = P̂(y = B1 |x) . . . P̂(y = Bmy |x) (3.5)
36
3.3 Problemstellungen
geschätzt werden.
Die unscharfen Klassenzugehörigkeiten µ̂Bc können oftmals als Wahrscheinlichkei-
ten interpretiert werden, dass ein Datentupel zu einer Klasse gehört (probabilistische
Interpretation, z. B. Patient mit Krankheit ja oder nein). Wenn hingegen eine gradu-
elle Zugehörigkeit eines Datentupels zu mehreren Klassen vorliegt (z. B. Patient mit
graduellen Symptomen einer Krankheit), handelt es sich um eine possibilistische In-
terpretation.
Die Schätzung erfolgt meist indirekt über die separate Schätzung der Verteilungs-
dichtefunktion der Merkmale p̂c (x) = p̂(x|y = Bc ) für jede Klasse der Ausgangsgröße
im Eingangsraum.
Verschiedene Dekompositionstechniken beruhen darauf, mehrere Klassifikatoren
(nCl = 1, . . . , NCl ) zu berechnen sowie deren Ergebnisse durch eine Klassifikatorfu-
sion zusammenzuführen (engl. voting). Das kann durch
• eine Dekomposition in mehrere 2-Klassen-Probleme,
• das Abspalten von Datentupeln,
• strukturell unterschiedliche Lösungsansätze und bzw. oder
• modifizierte Lerndatensätze (Verfahrensvergleich in [117])
erfolgen.
Bei Problemen mit mehr als zwei Klassen kommt es vor, dass die Lösung des
Klassifikationsproblems in einem Verarbeitungsschritt (Polychotomie) nicht möglich
ist oder zu unbefriedigenden Resultaten führt. Mögliche Ursachen sind u. a. Klassifi-
katoren, die nur 2-Klassen-Probleme unterstützen (z. B. Support-Vektor-Maschine),
oder bestimmte Verteilungsfunktionen der Klassen, bei denen sich verschiedene
Klassenpaare in unterschiedlichen Merkmalen unterscheiden. Eine Dekomposition in
mehrere 2-Klassen-Probleme (Dichotomie) ergibt oft bessere Resultate (siehe z. B.
Übersichten in [154, 278, 279, 368]).
Die 2-Klassen-Probleme entstehen durch
• einen paarweisen Vergleich von Klassen Bc gegen B j (engl. one-against-one) oder
• durch einen Vergleich einer Klasse Bc gegen die ODER-Verknüpfung aller Klassen
B̄c (engl. one-against-all).
Eine elegante Technik zur Untersuchung solcher speziellen Teilprobleme (z. B. Tren-
nen zweier Ausgangsklassen in einem Mehrklassenproblem) oder zum Aufbau von
37
3 Data Mining: Verfahrensübergreifende Begriffe
1 NCl
NCl n ∑=1 c
ŷ[n] = Bc mit Bc = argmaxBc µ̂B [n, nCl ]. (3.7)
Cl
Bei scharfen Werten für µ̂Bc [n, nCl ] ∈ {0, 1} entspricht dieses Vorgehen einer Mehr-
heitsentscheidung (engl. majority voting). Andere Verfahren verwenden ein endgülti-
ges Auswählen oder Verwerfen (KO-Verfahren) einzelner Klassen pro Teillösung.
Zusätzlich können die Eingangsgrößen in die Entscheidung einbezogen werden,
z. B. indem derjenige Klassifikator ausgewählt oder durch eine Wichtung besonders
bevorzugt wird, der sich in einem bestimmten Einzugsgebiet der Eingangsgrößen
durch eine hohe Zuverlässigkeit auszeichnet. Eine umfangreiche Übersicht über ver-
schiedene Methoden findet sich in [237]. Bei bestimmten zeitvarianten Problemen
38
3.3 Problemstellungen
?y[n,1]
Klassifikator 1
x[n] y[n]
... Klassifikatorfusion
Klassifikator NCl
?y[n,Ncl]
39
3 Data Mining: Verfahrensübergreifende Begriffe
35
Bereich mit guter
B1
30 Datenabdeckung
B2
25
20
Merkmal x2
Ausreißer
15
für alle
Datentupel
10
Bereich mit Überlappungen
5
0 Ausreißer Ausreißer
Klasse B2 Klasse B2(?)
-5
-4 -2 0 2 4 6
Merkmal x1
Bild 3.5: Mögliche Ursachen für Rückweisungen in einem 2-Klassen-Problem: Ausreißer und
Überlappungen
nicht oder nur anteilig berücksichtigt werden. In der Anwendungsphase wird somit
eine Information wie ”Keine Entscheidung möglich” ausgegeben, wonach beispiels-
weise eine manuelle Entscheidung getroffen werden kann. Rückweisungen lassen
sich als Datentupelselektion interpretieren. Die Hauptursache für eine Rückweisung
sind Ausreißer, die sowohl beim Entwurf als auch bei der Anwendung ausgeschlos-
sen werden müssen. Bei Klassifikationsproblemen ist noch zu unterscheiden, ob es
sich lediglich um Ausreißer in Bezug auf eine bestimmte Klasse oder in Bezug auf alle
Datentupel handelt (Bild 3.5). Entsprechende Algorithmen zur Rückweisung werten
in der Regel die minimalen Abstände zu anderen Datentupeln oder repräsentativen
Kenngrößen von Klassen im Lerndatensatz aus. Bei der Anwendung von Klassifika-
tionsproblemen ist es häufig noch sinnvoll, die Datentupel zurückzuweisen, die we-
gen einer Überlappung der Klassen im Merkmalsraum zu mehreren Klassen gehören
können und so keine sichere Entscheidung ermöglichen (Bild 3.5).
Verfahren zur Schätzung der Distanz, der bedingten Verteilungsdichtefunktion
für Merkmale, der bedingten Wahrscheinlichkeit für die Ausgangsgröße und der
A-priori-Wahrscheinlichkeit der Ausgangsgröße dienen als Hilfsverfahren.
Bei der Anwendung DiA der so entworfenen Verfahren ist in der Regel ein Daten-
tupel n mit bekannten Eingangsgrößen x[n] und unbekannter Ausgangsgröße y[n]
sowie die aus dem Entwurfsprozess stammende funktionelle Abbildung f (·) als Mo-
dell gegeben. Die Auswertung von Testdatensätzen mit mehreren Datentupeln erfolgt
40
3.3 Problemstellungen
durch sukzessives Abarbeiten dieser Datentupel, ohne dass diese sich untereinan-
der beeinflussen. Einen Sonderfall stellt das k-Nearest-Neighbor-Problem dar, bei
dem kein expliziter Entwurfsprozess stattfindet. Stattdessen wird der komplette Lern-
datensatz mit N Datentupeln gespeichert und ein Datentupel mit bekanntem x[N + 1]
der gesuchten Ausgangsgröße ŷN+1 zugeordnet. Weitere Sonderfälle sind Distan-
zen zwischen zwei Datentupeln, bei denen die Distanzfunktion d (·) nicht entworfen,
sondern a priori festgelegt wird.
wobei die Matrix A wie die beiden anderen Matrizen nur reellwertige Elemente
enthält.
• Merkmalsselektion: Aus einem hochdimensionalen Merkmalsraum mit s Merk-
malen wird durch Auswahl von sm Merkmalen ein niederdimensionaler Merk-
malsraum gebildet. Formal lässt sich die Merkmalsselektion als Spezialfall der
linearen Merkmalstransformation auffassen, wobei die Matrix A eine Nullmatrix
mit Ausnahme der auszuwählenden Merkmale in einer Indexmenge I (Elemente:
Il , l = 1, . . . , sm ) darstellt:
Auch hier sind die Grenzen fließend: Merkmalsextraktion und -transformation sind
strukturell identisch, unterscheiden sich aber häufig in den eingesetzten Methoden
und Intentionen. Zudem ist die Merkmalsextraktion häufig zunächst unüberwacht.
Die Merkmalsselektion ist ein Sonderfall der linearen Merkmalstransformation, die
wiederum einen Sonderfall der Merkmalstransformation darstellt.
41
3 Data Mining: Verfahrensübergreifende Begriffe
Tabelle 3.5: Einteilung der Problemstellungen für den Entwurf von Data-Mining-Verfahren
(Merkmals- und Datentupeltransformationen)
Anmerkungen: Bei allen Verfahren können anstelle der Ausgangsgröße y alter-
nativ auch die fuzzifizierten Werte µ B gegeben sein. Wenn nur die Merkmals-
matrix X ohne eine Information über die Ausgangsgröße gegeben ist, handelt es
sich um die jeweilige unüberwachte Variante.
42
3.3 Problemstellungen
Tabelle 3.6: Einteilung der Problemstellungen für die Anwendung von bereits entworfenen
Data-Mining-Verfahren zur Merkmalstransformation aus Tabelle 3.5
ŷZR [k] = f (xZR [k − 1], . . . , xZR [k − nx ], yZR [k − 1], . . . , yZR [k − ny ]), (3.10)
³ ´T ³ ´T
nx , ny ≥ 1,xZR [k] = xZR,1 [k] · · · xZR,sz [k] , yZR [k] = yZR,1 [k] · · · yZR,sy [k] .
43
3 Data Mining: Verfahrensübergreifende Begriffe
s = nx · sz + ny · sy . (3.12)
| {z } | {z }
sdx sdy
Durch die Zeitverschiebungen in den neuen Merkmalen verringert sich die Zahl der
Datentupel gemäß N := K − max(nx , ny ), falls vergangene Werte mit k < 1 nicht zur
Verfügung stehen. Eine Alternative zu diesem Datenverlust bietet eine Schätzung
der vergangenen Werte. Die Konstanten sdx und sdy bezeichnen die Anzahl von
Werten für die Eingangs- bzw. Ausgangsgrößen, die in die Berechnung eingehen.
Da nur vergangene Werte Berücksichtigung finden, handelt es sich um ein kausa-
les Modell3 . Beim Einbeziehen zukünftiger Werte in x resultiert hingegen ein akau-
sales Modell, weil hierbei zukünftige Werte den gegenwärtigen Wert beeinflussen.
Das Finden solcher Beziehungen deutet meist auf einen falschen Strukturansatz hin
(z. B. vertauschte Ursache und Wirkung; Existenz einer dritten Größe, die sowohl die
Eingangs- als auch die Ausgangsgröße beeinflusst).
Bei allen Datensätzen ist darauf zu achten, ob alle Merkmale und Ausgangsgrößen
für alle Datentupel vorhanden und glaubwürdig sind. Wichtige Ursachen für fehlen-
de Werte (engl. missing values) sind zufällig (Messfehler, Übertragungsfehler beim
Eintrag in Datenbanken usw.) oder systematisch (fehlende klinische Notwendigkeit
usw.) auftretende unvollständige Datenerhebungen. Besonders unangenehm für alle
folgenden Verfahren ist das Ersetzen solcher fehlender Werte durch Standardeinga-
bewerte wie Null, weil solche Datentupel wie Ausreißer wirken und die nachfolgen-
den Analyseergebnisse verfälschen. In großen Lerndatensätzen ist deren Erkennung
nicht trivial und kann durch die gezielte Suche nach Standardeingabewerten oder
durch Ausreißertests erfolgen (vgl. Abschnitt 4.3). Fehlende oder nicht plausible Wer-
te sind durch eine Datentupelselektion D22 (Streichen der betroffenen Datentupel)
oder eine Datentupelmodifikation D21 (Eintragen der wahrscheinlichsten Werte) mit
einer entsprechenden Vorschrift fmod (·) zu behandeln. Eine weitere Anwendung liegt
im Reduzieren großer Lerndatensätze durch Streichen oder Fusionieren ähnlicher
Datentupel, um den Rechenaufwand zu reduzieren.
2
Strukturell ähnliche Merkmalsextraktionen sind auch für Videodaten denkbar, allerdings existieren
kaum Problemstellungen für die Prognose zukünftiger Werte in Videos.
3
Strenggenommen kann die Kausalität als eine Beziehung von Ursache und Wirkung aus den Daten
nicht bewiesen werden. Der Strukturansatz in (3.10) geht aber von einem kausalen Zusammenhang
aus.
44
3.4 Informationsdefizite und Ungewissheit
Die bekannteste Bedeutung der Bewertungsmaße (Tabelle 3.7) ist ihre Rolle als
”Hilfsfunktion” beim Finden der am besten geeigneten Strukturen und Parameter so-
wie bei der Einschätzung der Qualität gefundener Lösungen. Weniger offensichtlich
ist ihre eigenständige Bedeutung bei der detaillierten Analyse von Lösungswegen
und Substrukturen innerhalb eines Zusammenhangs f (·) sowie beim Aufzeigen al-
ternativer Substrukturen. So können Fragestellungen zur Wichtigkeit verschiedener
Merkmale D23 und Merkmalskombinationen D24 für die jeweilige Problemstellung be-
antwortet werden (Merkmalslisten).
Bewertungen können u. U. neben den eigentlichen Prognosezielen auch die da-
zu notwendigen funktionellen Abbildungen mit einbeziehen. Somit können beispiels-
weise besonders aufwändige Algorithmen bestraft oder Interpretierbarkeitsaspekte
integriert werden (siehe Abschnitt 3.5.6).
Beim sogenannten Reinforcement-Lernen (engl. reinforcement learning) [201] wird
zwar jede (geschätzte) Ausgangsgröße ŷ durch eine nur als Blackbox gegebene und
von weiteren Größen abhängige Funktion Q(·) bewertet (meist im Sinne einer Belobi-
gung oder Bestrafung), allerdings wird die richtige Ausgangsgröße y nicht mitgeteilt.
Zudem treten u. U. zeitliche Verzögerungen zwischen der Ausgabe der geschätzten
Ausgangsgröße und der Bewertung Q(·) auf.
Alle genannten Aufgaben werden bei realen Problemstellungen auf komplexe Art
und Weise miteinander kombiniert. So entstehen Abbildungsreihenfolgen wie z. B.
D D18 mit D23 D
xRoh [n] →
14
x[n] −→ xI [n] →2 ŷ[n], (3.13)
(sRoh ,1) (s,1) (sm ,1) (1,1)
die eine Merkmalsextraktion, eine Merkmalsselektion auf der Basis einer univariaten
Merkmalsbewertung und eine nachfolgende Klassifikation enthalten.
45
3 Data Mining: Verfahrensübergreifende Begriffe
Tabelle 3.7: Einteilung der Problemstellungen für die Bewertungsmaße beim Entwurf von
Data-Mining-Verfahren, die beim Entwurf der Verfahren in den Tabellen 3.3, 3.5
verwendet werden
Anmerkung: Bei allen Verfahren der Merkmalsbewertung können anstelle der
Ausgangsgröße y alternativ auch die fuzzifizierten Werte µ B gegeben sein.
46
3.4 Informationsdefizite und Ungewissheit
47
3 Data Mining: Verfahrensübergreifende Begriffe
3.5 Bewertungsmaße
1 N
P̂(xl = Al,i ) = ∑ µAl,i (xl [n]), (3.19)
N n=1
1 N
P̂(y = Bc ) = ∑ µBc (y[n]). (3.20)
N n=1
48
3.5 Bewertungsmaße
Die Schätzung der Verbundverteilung erfolgt entweder über einen geeigneten Ver-
knüpfungsoperator ∩ (vgl. Abschnitt 5.5.3) mit
1 N
P̂(xl = Al,i ∩ y = Bc ) = ∑ µAl,i (xl [n]) ∩ µBc (y[n]) (3.21)
N n=1
oder indirekt über das Schätzen der Matrix der bedingten Verteilungen [189]. Mit den
Matrizen der fuzzifizierten Werte für alle N Datentupel von xl in µ Al mit der Dimension
(N, ml ) und y mit der Dimension (N, my ) folgt ein restringiertes Optimierungsproblem
wobei 0my ×ml eine (my ×ml )-dimensionale Matrix mit Nullelementen und 1ml einen ml -
dimensionalen Vektor mit Eins-Elementen bezeichnen. In Analogie zu Wahrschein-
lichkeiten können damit keine negativen Häufigkeiten auftreten und es wird garan-
tiert, dass die Summe aller (relativen) Häufigkeiten Eins ist – es tritt garantiert eine
der möglichen Ausgangsklassen auf. Die Verbundverteilung lässt sich dann unter
Verwendung der Ergebnisse aus (3.19) und (3.20) gemäß
ermitteln.
Einige Wahrscheinlichkeiten werden in der medizinischen Literatur (insbesondere
in der Epidemiologie, der Wissenschaft zur Beschreibung der Ursachen und der Ver-
breitung von Krankheiten in Populationen) mit speziellen Bezeichnungen versehen:
Die Wahrscheinlichkeit einer Aussage P̂(y = Bc ) = NDiagnose c /NPopulation wird in der
medizinischen Statistik häufig als Prävalenz der Krankheit mit Diagnose c in einer
49
3 Data Mining: Verfahrensübergreifende Begriffe
Distanzen quantifizieren den Abstand zweier Objekte (z. B. Datentupel, Vektoren von
Ausgangsgrößen und deren Prognose usw.). Sie werden als Bewertungsmaße in ei-
ner Vielzahl von Verfahren (Klassifikation, k-Nearest-Neighbor, Clustering usw.) ver-
wendet. Für Distanzen zwischen zwei Objekten (z. B. für D29 mit vektorwertigen Ob-
jekten Oi = xi , O j = x j , Ok = xk , Elemente xil , x jl , xkl ∈ R) gilt stets
> 0 für Oi 6= O j
d(Oi , O j ) (Definitheit), (3.28)
= 0 für Oi = O j
50
3.5 Bewertungsmaße
Tabelle 3.8: Zahlenbeispiele für ausgewählte Di- Bild 3.6: Visualisierung für ausge-
stanzen zwischen den Vektoren x1 = wählte Distanzen zwischen
(1 1)T , x2 = (2 2)T , x3 = (1.5 2)T x1 , x2 , x3
51
3 Data Mining: Verfahrensübergreifende Begriffe
Z Z
pi (x) p j (x)
dKL (pi (x), p j (x)) = pi (x) ln + p j (x) ln (3.39)
x p j (x) x pi (x)
52
3.5 Bewertungsmaße
b. Eingangsentropie
a. Entropiebilanz 0.8
H(xl | y) H( y | xl ) 0.6
H(x )
1
0.4
Bild 3.7: a. Entropiebilanz (links), b. Beispiel für Eingangsentropie für eine Eingangsgröße x1
mit zwei Termen A11 und A12 mit der Beziehung P(x1 = A12 ) = 1 − P(x1 = A11 )
Gesamtentropie beschreibt die Kombination von xl und y, die dann wie ein Merkmal
mit ml ·my linguistischen Termen behandelt wird. Die maximale Entropie tritt auf, wenn
die jeweiligen wertediskreten Merkmale gleichverteilt sind (Beispiel in Bild 3.7b). Die
Entropie ist hingegen Null, wenn genau ein wertediskreter Wert die Wahrscheinlich-
keit Eins und alle anderen die Wahrscheinlichkeit Null aufweisen.
Den Informationsfluss zwischen Ein- und Ausgangsgröße beschreibt die Transin-
formation H(xl ; y) (engl. mutual information). Die Irrelevanz H(y|xl ) und die Äquivo-
kation H(xl |y) (Synonym: Rückschlussentropie) sind Maße für die Anteile der Aus-
bzw. Eingangsgröße, die nicht aus der jeweils anderen Größe resultieren.
Es gelten folgende Rechenregeln, die auf (3.42-3.44) basieren:
Die Schätzungen für die Entropie Ĥ(·) mit P̂(·) anstelle von P(·) sind nur asympto-
tisch erwartungstreu. Der entstehende systematische Schätzfehler (Bias) kann im
einfachsten Fall für Ein- und Ausgangsentropie mit
ml − 1
∆Ĥ(xl ) = H(xl ) − E(Ĥ(xl )) = , (3.48)
2N ln(2)
my − 1
∆Ĥ(y) = H(y) − E(Ĥ(y)) = (3.49)
2N ln(2)
und für die Transinformation mit
(ml − 1)(my − 1)
∆Ĥ(xl ; y) = H(xl ; y) − E(Ĥ(xl , y)) = (3.50)
2N ln(2)
abgeschätzt werden [305, 376]4 . Es existiert jedoch noch eine Reihe weiterführender
und genauerer Abschätzungen (siehe z. B. [411]).
4
Der ln(2)-Term resultiert aus der Verwendung des dualen und des natürlichen Logarithmus.
53
3 Data Mining: Verfahrensübergreifende Begriffe
insbesondere zur univariaten Merkmalsbewertung D23 an, wenn ein Verdacht auf
nichtlineare Zusammenhänge besteht. Ein Wert von Eins gibt ein besonders geeig-
netes, ein Wert von Null ein besonders ungeeignetes Merkmal an. Die Anwendung
der vorgestellten wertediskreten Variante setzt bei wertekontinuierlichen Merkmalen
und Ausgangsgrößen eine vorherige Diskretisierung D20A oder Fuzzifizierung D19A
zur Berechnung der geschätzten Wahrscheinlichkeiten in (3.42)-(3.44) voraus. Diese
Diskretisierung bzw. Fuzzifizierung kann die Ergebnisse deutlich beeinflussen (vgl.
Beispiel in Abschnitt 5.4).
der letztlich einen mittleren Fehler über alle betrachteten Klassen darstellt und
der durchschnittlichen trivialen Distanz der Elemente der Ausgangsgröße und ihrer
Schätzung (3.31) entspricht. Das Symbol Bc kennzeichnet die Negation der Klasse
Bc bzw. die ODER-Verknüpfung aller anderen Klassen.
Neben dem Zählen der wertediskreten Klassifikationsfehler bietet sich als Verall-
gemeinerung auch die geschätzte Wahrscheinlichkeit für Fehlklassifikationen
my
1 N
QK p = ∑ P̂(ŷ = Bc ∩ y = Bc ) = ∑ µBc (ŷ[n]) ∩ (1 − µBc (y[n])) (3.54)
c=1 N n=1
54
3.5 Bewertungsmaße
my
¡ ¢ 1 N
QKw = ∑ f P̂(ŷ = B c ∩ y = Bc =
) ∑ f (µBc (ŷ[n]) ∩ (1 − µBc (y[n])))
N n=1
(3.55)
c=1
3P − 1 für P > 0.5
mit beispielsweise f (P) = (3.56)
P für P ≤ 0.5
1 N
QD = ∑ L(ŷ[n] | y[n])
N n=1
m m
1 y y
= ∑ ∑ L(ŷ = Bc |y = Bi ) · N(ŷ = Bc ∩ y = Bi ), (3.59)
N i=1 c=1
die zu minimieren sind. Gl. (3.59) verallgemeinert somit (3.53), die einen Sonderfall
mit
0 für c = i
L(ŷ = Bc |y = Bi ) = (3.60)
1 für c 6= i
55
3 Data Mining: Verfahrensübergreifende Begriffe
darstellt. Daran zeigt sich, dass ein z. B. ethisch motivierter Verzicht auf Entschei-
dungskosten L(ŷ = Bc |y = Bi ) fragwürdig ist, weil er zu einer Gleichbewertung aller
Fehlentscheidungen führt.
Ein klassifikationsorientiertes Maß für die Inhomogenität eines Lerndatensatzes ist
der Gini-Index [69]
my my my
QGini = ∑ ∑ P̂(y = Bc) · P̂(y = B j ) = 1 − ∑ P̂2(y = Bc). (3.61)
j=1 c=1 c=1
c6= j
Er ist immer dann Null (optimaler Wert), wenn in einem Lerndatensatz nur noch ei-
ne Klasse vorkommt, und hat im ungünstigsten Fall einer Gleichverteilung den Wert
QGini = 1 − m1y .
In der medizinischen Statistik finden sich verbreitet die (zu maximierende) Sensiti-
vität
TP
QSens,c = P̂(ŷ = Bc |y = Bc ) =
T P + FN
N(ŷ = Bc ∩ y = Bc )
=
N(ŷ = Bc ∩ y = Bc ) + N(ŷ = Bc ∩ y = Bc )
N(ŷ = Bc ∩ y = Bc )
= (3.62)
N(y = Bc )
und die (ebenfalls zu maximierende) Spezifität
TN
QSpez,c = P̂(ŷ = Bc |y = Bc ) =
T N + FP
N(ŷ = Bc ∩ y = Bc )
=
N(ŷ = Bc ∩ y = Bc ) + N(ŷ = Bc ∩ y = Bc )
N(ŷ = Bc ∩ y = Bc )
= (3.63)
N(y = Bc )
für eine Klasse Bc und ihre Negation Bc . Die englischen Abkürzungen bedeuten da-
bei TP: True Positive, TN: True Negative, FP: False Positive, FN: False Negative.
Diese vier Werte bilden die sogenannte Vierfeldertafel. Sie kennzeichnen jeweils die
Fallzahlen bzw. Datentupelzahlen N(·) für Kombinationen aus einer Klasse und ei-
ner Entscheidung in einem 2-Klassen-Fall. Dabei steht Positive für die Entscheidung
ŷ = Bc bzw. Negative für die Entscheidung ŷ = Bc sowie True und False für die Kor-
rektheit der jeweiligen Entscheidung. Im 2-Klassen-Fall werden Sensitivität und Spe-
zifität meist für die erste Klasse angegeben. Damit ergeben sich:
56
3.5 Bewertungsmaße
Durch eine unterschiedliche Wichtung von Spezifität und Sensitivität kann sich neben
einer indirekten Bewertung unterschiedlicher A-priori-Wahrscheinlichkeiten verschie-
dener Klassen Bc implizit auch eine kostenorientierte Bewertung analog (3.59) erge-
ben. Die Sensitivität bewertet ausschließlich die Vermeidung von FN (z. B. bei hohen
Entscheidungskosten L(ŷ = Bc ∩ y = Bc )), die Spezifität die Vermeidung von FP (z. B.
bei hohen L(ŷ = Bc |y = Bc )).
Sensitivität und Spezifität hängen oft von weiteren Parametern θ ab, z. B. einem
frei wählbaren Schwellwert eines Klassifikators. Das Auftragen von Wertepaaren
© ª
QSens (θ ), QSpez (θ ) als funktioneller Zusammenhang QSens = f (1 − QSpez ) wird als
ROC-Kurve (Receiver Operating Characteristic)5 bezeichnet (Bild 3.8). Sie ermög-
licht die Bewertung von Verfahren, die mit Hilfe variabler Parameter θ unterschiedli-
che Kompromisse zwischen beiden z. T. widersprüchlichen Forderungen liefern. So-
mit stellt diese Funktion eine Pareto-Grenze des zweikriteriellen Optimierungspro-
blems
QSens → max, QSpez → max (3.66)
mit freiem Parametervektor θ dar. Ein typisches Bewertungsmaß für das zweikrite-
rielle Optimierungsproblem ist die Fläche unter der ROC-Kurve (engl. AUC – Area
under curve, Synonym Az -Wert)
Z 0
Q= f (1 − QSpez ) dQSpez , (3.67)
1 | {z }
QSens
das den Vergleich unterschiedlicher Klassifikatoren mit jeweils freien Parametern er-
möglicht.
Alle genannten Maße eignen sich zur Beurteilung verschiedener Klassifikatoren Cr
Die Schätzungen im N -dimensionalen Vektor ŷ hängen dann von den jeweiligen va-
riablen Größen ab.
5 FP
Äquivalente Formulierung: QSens = f ( T N+FP ). In einigen Arbeiten wird aber auch QSpez = f ∗ (1 −
QSens ) als ROC-Kurve eingeführt, was bei asymmetrischen Kurven auf andere Ergebnisse führt.
57
3 Data Mining: Verfahrensübergreifende Begriffe
ROC Kurve
1
0.8
Sensitivität QSens
Verbesserung
0.6
0.4
0.2
0
1 0.8 0.6 0.4 0.2 0
Spezifität QSpez
Q =k Y − Ŷ k2 (3.71)
Q =k µ y − µ̂ y k2 (3.72)
auf, wobei µ y der Matrix mit den Zugehörigkeitswerten der Ausgangsgröße und µ̂ y
dem zugehörigen Schätzwert entspricht.
Bei eindimensionalen Ausgangsgrößen vereinfacht sich (3.71) für N -dimensionale
Vektoren y, ŷ in D1 zu
Q =k y − ŷ k2 . (3.73)
Hier ist es auch möglich, den Wert noch auf die Anzahl der Datentupel zu bezie-
hen und auf das Quadrieren zu verzichten, um eine besser interpretierbare mittlere
58
3.5 Bewertungsmaße
Distanz zu erhalten:
1
Q= k y − ŷ k . (3.74)
N
Beispielsweise ergibt die Manhattan-Distanz in (3.74) den mittleren absoluten Fehler.
Meist wird in (3.73) die quadratische Euklidische Distanz (3.34)
N
Q = (dEuk (y, ŷ))2 = ∑ (y[n] − ŷ[n])2 = (y − ŷ)T · (y − ŷ) (3.75)
n=1
verwendet. Q von (3.75) wird als die Summe der Fehler-Quadrate (engl. RSS: Resi-
dual Sum of Squares6 oder SSE: Sum of Squares Error) bezeichnet. Die Differenz
y[n] − ŷ[n] heißt Residuum (Synonym: Residualgröße).
Das Bestimmtheitsmaß (engl. coefficient of determination, Synonym: Determinati-
onskoeffizient) mit Q aus (3.75)
2 (y − ŷ)T · (y − ŷ) Q
R (y, ŷ) = 1 − = 1 − (3.76)
(y − ȳ)T · (y − ȳ) (y − ȳ)T · (y − ȳ)
beschreibt die Verbesserung der Regressionsschätzung im Vergleich zum Trivial-
modell ”Mittelwert der Ausgangsgröße”: ȳ = N1 ∑N
n=1 y[n]. Die Werte liegen für sinnvolle
Schätzungen zwischen Null (kein Zusammenhang) und Eins (deterministischer Zu-
sammenhang). Wichtig ist hierbei die Berücksichtigung des Mittelwertes ȳ, die eine
Offset-Kompensation vornimmt. Für lineare Modelle heißt
¯
(y − ȳ)T · (ŷ − ŷ)
ry,ŷ = p q (3.77)
(y − ȳ)T · (y − ȳ) · (ŷ − ŷ)¯ T · (ŷ − ŷ)
¯
(empirischer) Korrelationskoeffizient mit Werten zwischen minus Eins und Eins und
beschreibt eine lineare Regression zwischen y und ŷ (vgl. Abschnitt 5.8). Nur wenn ŷ
aus einer linearen Regression mit gleichen Mittelwerten für y und ŷ hervorgeht, gilt
q
ry,ŷ = ± R2 (y, ŷ). (3.78)
59
3 Data Mining: Verfahrensübergreifende Begriffe
Die gleiche Philosophie wie beim Bestimmtheitsmaß lässt sich auf beliebige Nor-
men anwenden. Damit entsteht ein Bewertungsmaß, das eine relative Regressions-
güte im Vergleich zu einem Trivialmodell angibt:
ky − ŷk2Norm
QR2 ,Norm (y, ŷ) = 1 − . (3.79)
ky − ȳk2Norm
Das Bestimmtheitsmaß ist ein Sonderfall von (3.79) mit der Euklidischen Norm:
Teilweise finden sich auch gewichtete Ansätze mit einer Diagonalmatrix WQF , deren
Diagonalelemente wQF,n eine Wichtigkeit der richtigen Prognose des n-ten Wertes
bewerten:
N
Q = dQF,WQF (y, ŷ)2 = ∑ wQF,n · (y[n] − ŷ[n])2 = (y − ŷ)T · WQF · (y − ŷ). (3.81)
n=1
Diese Ansätze können auch mit einer frei wählbaren Kostenfunktion L(·, ·) in eine
kostenorientierte Betrachtung in Analogie zu (3.59) überführt werden:
N
QD = ∑ L(y[n], ŷ[n]). (3.82)
n=1
Bei vielen Problemen kommt es nicht nur darauf an, ein optimales Modell ŷ = f (x)
im Sinne eines regressions- oder klassifikationsorientierten Maßes als Lösung zu er-
zeugen, sondern dazu auch vorzugsweise bestimmte Merkmale und Merkmalskom-
binationen zu verwenden oder deren Anzahl zu reduzieren. Hierbei spielen Kosten-,
Interpretierbarkeits- und Robustheitsaspekte die dominierende Rolle. Eine detaillierte
Übersicht über verschiedene Kostenarten findet sich beispielsweise in [38, 39, 448].
Bei Kostenaspekten geht es darum, auf Informationen aus teuren Merkmalen zu
verzichten und einen Kompromiss zur Minimierung der totalen Kosten
QT = QD + QF → min (3.83)
mit QF = QF0 + ∑ QF,l (3.84)
l∈I
60
3.5 Bewertungsmaße
Die Merkmalskosten setzen sich aus fixen Kosten L f ix,l und variablen Kosten Lvar,l
für das Merkmal xl pro Messung zusammen:
L f ix,l
QF,l (NAnw ) = + Lvar,l . (3.85)
NAnw
7
Kostenzuweisungen zu Kombinationen von Kategorien erfolgen in der Weise, dass diese Kategori-
enkombinationen als neue Kategorie eingeführt werden.
61
3 Data Mining: Verfahrensübergreifende Begriffe
gilt. In einigen Fällen vervielfachen sich die Kosten aber auch entsprechend der An-
zahl der verwendeten Merkmale pro Kategorie (z. B. bei Berechnungsalgorithmen
oder Verbrauchsmitteln).
Falls eine genaue Berechnung der Merkmalskosten nicht möglich ist, reicht oftmals
auch eine qualitative Abschätzung mit einer heuristischen Kostenzuweisung aus. Die-
se Abschätzung ermöglicht immerhin noch eine Bevorzugung günstigerer Merkmale.
Eine Feinjustierung der Ergebnisse kann interaktiv durch ein schrittweises Erhöhen
oder Senken von Modellkosten durch einen Wichtungsfaktor erfolgen.
Bei einer Bewertung gemäß (3.83) nimmt der Nutzer für eine Reduktion der Mo-
dellkosten höhere Entscheidungskosten und somit eine geringere regressions- oder
klassifikationsorientierte Güte in Kauf. Diese in der Technik weitgehend akzeptier-
te Vorgehensweise ist allerdings bei medizinischen Data-Mining-Problemen insofern
ethisch kritisch, weil sie eine kostenorientierte Abwägung von Entscheidungen in
QD und des dazu notwendigen Modellaufwands erfordert (vgl. Diskussion in Ab-
schnitt 3.5.4 zur Einführung von unterschiedlichen Entscheidungskosten).
Ein wichtiges Kriterium für die Interpretierbarkeit einer gefundenen Lösung ist die
Anzahl und Art der verwendeten Merkmale. Besonders günstig sind dabei Lösun-
gen mit einem oder zwei Merkmalen, die eine besonders einfache Visualisierung
ermöglichen. Zuweilen existieren Merkmalspräferenzen zugunsten besonders gut in-
terpretierbarer Merkmale. Beispiele hierfür sind z. B. Extrem- oder Durchschnittswer-
te in Zeitreihen bzw. Amplituden von Leistungsdichtespektren gegenüber Koeffizien-
ten von autoregressiven Modellen oder grauwert- bzw. geometriebasierte Merkmale
in Bildern gegenüber Textur- oder Frequenzbereichsmerkmalen. Diese Präferenzen
hängen stark von der Anwendung ab: Der Anwender bevorzugt stets jene Merkmale
als Lösung eines Data-Mining-Problems, die er bei einer subjektiven Lösung selbst
verwendet oder die wenigstens mit einer Visualisierung plausibel zu überprüfen sind.
Auch hier ist eine geringere regressions- oder klassifikationsorientierte Güte zuguns-
ten einer höheren Interpretierbarkeit akzeptabel. Interpretierbarkeitsaspekte können
als Kosten kodiert werden, um so einen einheitlichen Bewertungsrahmen zu erzielen.
62
3.5 Bewertungsmaße
mit
QPF = QPF,0 · ∏ QPF,l bzw. QPF = QPF,0 · ∏ QPFK,lk . (3.89)
l∈I lk ∈Ik
QPD ist eine problembezogene Bewertung (hier eine Präferenz der Lösung eines
Klassifikations- oder Regressionsproblems bzw. eine univariate oder multivariate
Merkmalsrelevanz, meist zwischen Null: ungeeignet und Eins: optimal geeignet) und
QPF eine Bewertung im Sinne kostengünstiger oder gut interpretierbarer Merkmale
bzw. Merkmalskombinationen (hier meist zwischen Null: ungeeignet und Eins: opti-
mal geeignet). Entsprechende Maße müssen dann auch in Analogie zu (3.84) für die
Präferenz von Funktionen QPF,0 und Merkmalspräferenzen QPF,l bzw. in Analogie zu
(3.87) für die Präferenz von Kategorien QPFK,lk bereit gestellt werden. Dieser Ansatz
bietet sich insbesondere zur Berücksichtigung von Interpretierbarkeitsaspekten oder
bekannten messtechnischen Zuverlässigkeiten an (siehe Beispiele in Kapitel 7).
Verschiedene und unter Umständen gegenläufige Teil-Bewertungsmaße für die
Präferenz können durch eine exponentielle Wichtung berücksichtigt werden [303]. Ein
Beispiel hierfür ist eine Wichtung von Interpretierbarkeitsaspekten (gegeben durch
eine Präferenz QPF,Int ) und von Implementierbarkeitsaspekten (gegeben durch eine
Präferenz QPF,Imp ). Mit den jeweiligen Wichtungsfaktoren αInt bzw. αImp ergibt sich
die Gesamtpräferenz aus
α
QPT = QPD · QαPF,Int
Int Imp
· QPF,Imp → max (3.90)
| {z }
QPF
63
3 Data Mining: Verfahrensübergreifende Begriffe
für wertediskrete Ausgangsgrößen definiert wurden. Sie betrachten ein fiktives Kom-
munikationsproblem, bei dem ein Modell und bzw. oder Werte der Ausgangsgröße y
(”Ausnahmen”) übertragen werden und minimieren hier die zu übertragende Informa-
tionsmenge. Die Betrachtungsweise ähnelt somit informationstheoretischen Maßen
(vgl. Abschnitt 3.5.3). Für jede Modellklasse ist diese Berechnungsvorschrift geeig-
net zu konkretisieren. Eine gut lesbare und detaillierte Übersicht findet sich in [151].
Eine ähnliche Argumentation verwenden verschiedene statistische Abschätzungen,
die die Wahrscheinlichkeit einer lediglich zufälligen Verbesserung durch ein kompli-
zierteres Modell prüfen (vgl. Abschnitt 5.2.2).
Sortierte Merkmalslisten mit den relevantesten Merkmalen für eine Problemstel-
lung sind ein wichtiges Werkzeug, um ein Problem zu verstehen. Allerdings haben
univariate Bewertungsmaße bei Problemen mit vielen Merkmalen den Nachteil, u. U.
viele ähnliche und hoch redundante Merkmale auf die vorderen Plätze zu stellen, was
die Interpretierbarkeit der Liste einschränkt. Multivariate Bewertungsmaße verzich-
ten hingegen auf Merkmale, die zwar keine zusätzlichen Aspekte zur Problemlösung
beitragen, aber alternative Lösungswege aufzeigen. Solche Lösungswege zeichnen
sich möglicherweise durch reduzierte Merkmalskosten oder eine bessere Interpre-
tierbarkeit aus bzw. erhöhen den Einblick in die Struktur des Problems. Ein Beispiel
dafür sind nahezu unkorrelierte Merkmale, die nach einer Merkmalsselektion auf ein
Merkmal in etwa gleiche Klassifikationsfehler erreichen. Hier eignet sich ein Kompro-
miss aus einem univariaten und einem multivariaten Bewertungsmaß. Dieser sortiert
die Merkmale und Merkmalsrelevanzen Ql absteigend und stuft alle nachfolgenden
Merkmale durch ein geeignetes Redundanzmaß Qred (xl , xi ) zwischen den Merkma-
len xl und xi zurück. Somit entsteht ein Bewertungsmaß QRS , das eine Rückstufung
redundanter Merkmale vornimmt:
l−1
QRS,l = Ql · ∏(1 − Qred (xl , xi )) (3.91)
i=1
mit QRS,1 ≥ . . . ≥ QRS,l−1 , Qi ≥ Ql ≥ Ql+1 ≥ . . . ≥ Qs , Qred (xl , xi ) ∈ [0, 1].
Geeignete Redundanzmaße basieren beispielsweise auf dem linearen Korrelations-
koeffizienten oder der Transinformation pro Ausgangsentropie zwischen zwei Merk-
malen. Oftmals nehmen die Redundanzmaße lediglich eine scharfe Rückstufung vor,
z. B. wenn der Korrelationskoeffizient R eine kritische Schwelle αkrit überschreitet:
0 wenn |R(x1 , x j )| ≤ αkrit
Qred (xi , x j ) = (3.92)
1 wenn |R(x1 , x j )| > αkrit .
Hierbei handelt es sich bei der Rückstufung redundanter Merkmale dann konkret um
eine Rückstufung korrelierter Merkmale.
64
3.6 Optimierungsprobleme und -verfahren
65
3 Data Mining: Verfahrensübergreifende Begriffe
• Anzahl der Lösungen: Wenn für ein Problem genau eine Lösung für θ = θ opt
existiert (Synonym: unimodales Problem), verbessert das die Aussichten auf das
Finden dieser Lösung erheblich. Anderenfalls ist das Problem multimodal mit zu-
sätzlichen lokalen Optima, für die ebenfalls (3.94) gilt und die bei einer numeri-
schen Optimierung von der besten Lösung (”globales Optimum”) nur schwer un-
terscheidbar sind (Bild 3.9a). Bei multimodalen Aufgaben empfehlen sich heuris-
tische Suchverfahren, wie z. B. Evolutionäre Strategien [415] oder Kombinationen
aus Evolutionären Strategien und gradientenbasierten Suchverfahren [193].
m
Q = ∑ αi Qi (θ ) → min . (3.95)
i=1 θ
Damit handelt es sich aber im engeren Sinne nicht mehr um ein multikriterielles
Optimierungsproblem, wie in der Literatur gelegentlich fälschlich dargestellt wird,
sondern um eine spezielle Pareto-optimale Lösung.
66
3.7 Validierungstechniken
10
15
8
Q1,Q2
Q2
10
6
5
4
0 2
0 2 4 6 θ 6 7 8 9 10 Q1
Bild 3.9: a. (links) Unimodales (Q1 , gestrichelte Linie) und multimodales (Q2 , durchgezoge-
ne Linie) Optimierungsproblem mit lokalen (*) und globalen (¤) Lösungen bei Pa-
rameterrestriktion Θ : θ ∈ R, 0 ≤ θ ≤ 6, fett auf Nulllinie durchgezogen: Pareto-
optimale Parameter bei Auffassung als zweikriterielles Optimierungsproblem mit
Q = (Q1 Q2 ) → minθ , b. (rechts) Pareto-optimale Bewertungsmaße für zweikri-
terielles Optimierungsproblem aus Teilbild a.
3.7 Validierungstechniken
Data-Mining-Verfahren gehen davon aus, dass sowohl der Lerndatensatz als auch
alle unbekannten Datentupel der gleichen statistischen Verteilung entstammen. Der
Begriff unbekannte Datentupel umfasst hierbei alle Datentupel, die nicht im Lern-
datensatz vorkommen, deren zugehörigen Ausgangsgrößen folglich unbekannt sind
und die aber möglicherweise in der Anwendungsphase des Data-Mining-Verfahrens
vorkommen können. Die Gültigkeit dieser Annahme ist in jedem Fall kritisch zu prüfen
(Gegenbeispiel z. B. in [364]). Wenn sie erfüllt ist, gibt es zwar zufällige, aber keine
systematischen Abweichungen zwischen den gelernten Zusammenhängen und der
Realität. Das Verfahren steht dann aber noch vor der nicht trivialen Aufgabe, auch
komplizierte relevante Zusammenhänge, aber keine zufälligen Störeinflüsse zu ler-
nen. Ein wichtiges Strategieelement zum Ermitteln der Auswirkungen zufälliger Stö-
reinflüsse sind Validierungstechniken, um die Güte über unbekannten Datentupeln
abzuschätzen.
Viele Data-Mining-Verfahren tendieren zum Auswendiglernen der zufälligen Stör-
einflüsse eines Lerndatensatzes (engl. overfitting), wenn die Anzahl der Datentupel
im Lerndatensatz N im Vergleich zur Anzahl freier Parameter eines Algorithmus zu
klein ist. Bei der eigentlichen Anwendung mit unbekannten Datentupeln resultiert
67
3 Data Mining: Verfahrensübergreifende Begriffe
68
3.7 Validierungstechniken
69
3 Data Mining: Verfahrensübergreifende Begriffe
T1 1. Durchlauf
T2 2. Durchlauf
T3 3. Durchlauf
T4 4. Durchlauf
T5
5. Durchlauf
T5 T4 T3 T2 T1
„Testdatensatz“
Bild 3.10: Zuordnung zu neuen Lern- (grau) und Testdatensätzen (weiß) am Beispiel einer
5-fachen Crossvalidierung
in der Regel mehrfach mit anderen zufälligen Einteilungen wiederholt. Das ermög-
licht zusätzlich eine Auswertung der Varianzen bei diesen Einteilungen als Maß für
die erwarteten Varianzen bei unbekannten Daten. Mit abnehmendem n tendiert die
Crossvalidierung zu einer pessimistischen Abschätzung, weil sie nur jeweils kleinere
Lerndatensätze und nicht die vollständige enthaltene Information verwendet (Bias).
Mit n → N reduziert sich der Bias, allerdings steigt auch der Rechenaufwand an, was
besonders bei aufwändigen Verfahren zu unakzeptablen Rechenzeiten führen kann.
Der Vorteil besteht in einer sehr guten Ausbeutung des vorhandenen Datenmaterials.
Die Bootstrap-Methode [127, 465] ermittelt aus dem Lerndatensatz neue
Lerndatensätze, indem sie zufällig N Datentupel mit Zurücklegen zieht. Damit entste-
hen Lerndatensätze der gleichen Größe wie der ursprüngliche Lerndatensatz, wobei
diese Lerndatensätze aber einige Datentupel mehrfach enthalten. Die entsprechen-
den Testdatensätze beinhalten die für den jeweiligen Lerndatensatz nicht gezogenen
70
3.7 Validierungstechniken
71
3 Data Mining: Verfahrensübergreifende Begriffe
Methode liegen bisher nicht vor, Diskussionen über Vor- und Nachteile finden sich
z. B. in [32, 127].
Aufgrund dieser Eigenschaften bieten sich für Data-Mining-Probleme in der Medi-
zin hauptsächlich die Crossvalidierung und die Bootstrap-Methode an. In einigen klar
definierten Problemstellungen mit bekannten Verteilungen sind aber auch statistische
Fehlerabschätzungen im Lerndatensatz mit Verteilungsannahmen sinnvoll.
72
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
4.1 Ablauf
In den vorigen Kapiteln der Arbeit wurden medizinische Problemstellungen und Data-
Mining-Verfahren zunächst isoliert behandelt. Dieses Kapitel schlägt die Brücke zwi-
schen beiden Gebieten und erläutert ein Einsatzszenario, das als Basis für die sys-
tematische Problemlösung bei neuen Anwendungen dienen soll. Dieses Szenario
spezifiziert allgemeinere Data-Mining-Szenarien aus den ursprünglichen Arbeiten
von Fayyad [133] oder den sogenannten ”Cross-Industry-Standard for Data Mining”
(CRISP-DM) [423] für die speziellen Anforderungen bei medizinischen Data-Mining-
Verfahren.
Der Schlüssel für die erfolgreiche Lösung einer medizinischen Data-Mining-
Aufgabe besteht darin, eine geeignete Formulierung für das medizinische Problem zu
finden, passende Data-Mining-Verfahren und Bewertungsmaße aus der Menge aller
möglichen Verfahren und Bewertungsmaße auszuwählen sowie diese geschickt mit-
einander zu verknüpfen. Bei allen Schritten kommt es darauf an, einen Kompromiss
zwischen einer guten Lösung im Sinne des Data-Mining-Verfahrens (z. B. geringer
Klassifikations- oder Regressionsfehler) und im Sinne des medizinischen Anwenders
(z. B. interpretierbarer Lösungsweg) anzustreben. Im Folgenden sollen einige grund-
legende Entwurfsprinzipien diskutiert werden, die sich in einer Vielzahl von Proble-
men bewährt haben.
Die Entwurfsphase einer Lösung für ein Problem geschieht selten vollkommen
schematisch, sondern ist eher ein iterativer Prozess (siehe Bild 4.1). In den Pro-
zess wird häufig interaktiv eingegriffen, indem anhand der bisherigen Ergebnisse Pro-
blemformulierungen (Abschnitt 4.2), Lerndatensätze (Abschnitt 4.3), Merkmale (Ab-
schnitt 4.4) sowie Verfahren und Bewertungsmaße (Abschnitt 4.5) modifiziert werden.
Die Bewertungsmaße basieren auf den Zwischen- und Endergebnissen der einzel-
nen Blöcke Datentupelselektion, Merkmalsextraktion, -selektion, -transformation und
Klassifikation/Regression. Andererseits verändern sie wiederum die Ergebnisse in
den Blöcken und bewirken somit eine modifizierte Ausgangsgröße.
Der Prozess bezieht zu unterschiedlichen Zeitpunkten sowohl Spezialisten für
Data-Mining-Verfahren als auch klinische Experten ein. Hierzu ist insbesondere ei-
ne Visualisierung aller Ergebnisse und Zwischenergebnisse von entscheidender Be-
73
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Zusammenstellung Problemformulierung
Lerndatensatz (formalisiert)
XRoh,u.U. y
Bewertungsmaße Visualisierung
Bild 4.1: Typische Struktur der Signalflüsse in der Entwurfsphase eines medizinischen Data-
Mining-Verfahrens (vereinfacht)
Eine bewährte Technik besteht in der Lösung bekannter Probleme mit einem Data-
Mining-Verfahren und dem nachfolgenden Vergleich der automatisch gefundenen mit
der empirisch bekannten Lösung. Die so gefundene Lösung kann dann auf ungelöste,
aber strukturell verwandte Aufgaben übertragen werden.
74
4.1 Ablauf
Entscheidungsfindung
(klinisch)
Bewertungsmaße Visualisierung
Ein-
Merkmals- Merkmals- Klassifikation/
gangs-
extraktion transformation Regression
größe Aus-
xRoh f(?) gangs-
?
größe y
Anwendung Data-Mining-Verfahren
Bild 4.2: Typische Struktur der Signalflüsse in der Anwendungsphase eines medizinischen
Data-Mining-Verfahrens (vereinfacht)
dern. Auch in der Entwurfsphase können zu lange Rechenzeiten die Akzeptanz eines
Verfahrens beeinträchtigen.
In der Anwendungsphase wird das entworfene Modell (dunkel hervorgehobener
Bereich mit Funktion f (·) in Bild 4.2) für unbekannte Datentupel abgearbeitet (vgl.
auch Bild 3.3). Hierbei vereinfacht sich oftmals die Merkmalsextraktion, weil jetzt nur
noch selektierte Merkmale zu berechnen sind. Zudem entfällt dadurch die Merkmals-
selektion als separater Schritt.
Die in der Entwurfsphase benötigten Bewertungsmaße sind in der Anwendungs-
phase meist nur noch zur Visualisierung notwendig, weil Struktur und Parameter der
Verfahren nach dem Entwurf in der Regel feststehen. Sie stellen somit, wie die Vi-
sualisierung selbst, nur noch ergänzende Informationen bereit, beeinflussen aber
das Ergebnis nicht mehr. Adaptive Verfahren, bei denen die Bewertungsmaße auch
in der Anwendungsphase die Parameter und Strukturen von Merkmalsextraktion,
-transformation und Klassifikation bzw. Regression beeinflussen, haben sich bislang
nicht durchgesetzt. Sie weisen zwar ein hohes Potenzial für eine Verbesserung der
Lösung bei zeitvarianten Problemen auf, sind aber auch durch schwer beherrschbare
Risiken gekennzeichnet (z. B. Vergessen bisheriger Lösungen, Konvergenzprobleme,
schwer prognostizierbares Verhalten).
Anhand der visualisierten Ergebnisse erfolgt dann in der Anwendungsphase die
klinische Entscheidungsfindung (z. B. Diagnose und Therapieplanung). Die Entschei-
dung trifft in der überwiegenden Zahl der Fälle ein Mediziner. Nur auf der Basis der
umfangreichen Erfahrungen des Mediziners ist eine sichere Entscheidung unter Ein-
75
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
beziehung des kompletten Expertenwissens möglich. Zudem können nur so alle In-
formationen einbezogen werden, die nicht als explizite Daten vorliegen (z. B. visueller
Eindruck des Patienten). In einigen Medizingeräten (z. B. Prothesen) ist aber auch die
Entscheidungsfindung automatisiert, wobei hier im Vorfeld eine umfassende Evaluie-
rung durch Mediziner erforderlich ist. Die Verantwortung für alle Entscheidungen liegt
somit stets beim Mediziner.
Für das beschriebene Einsatzszenario findet sich nicht bei allen in der Literatur
beschriebenen Lösungen eine explizite Einordnung der Schritte. Oftmals ist es aber
hilfreich, das dort beschriebene Verfahren unter dem Blickwinkel dieser Schritte zu
analysieren. Eine Softwarelösung für dieses Einsatzszenario wird später in Kapitel 6
vorgestellt, konkrete Anwendungsbeispiele diskutiert Kapitel 7.
4.2 Problemformulierungen
76
4.2 Problemformulierungen
Problemstellung
Bild 4.3: Einteilung der Problemstellungen für Data-Mining-Verfahren in der Medizin und
Medizintechnik
• technische Aspekte
• Suche nach alternativen Messverfahren,
• Beurteilung unterschiedlicher Versuchsbedingungen und
• Auswahl von Steuerstrategien (für Medizingeräte)
einteilen und formalisieren (vgl. auch Abschnitt 2.2.2, Bild 4.3). Diese Unterteilung
vernachlässigt zwar eine Reihe von Spezialfällen und lässt bei einigen Problemstel-
lungen unterschiedliche Interpretationen zu, deckt aber eine Vielzahl praxisrelevanter
Fälle ab. Sie erweitert Einteilungen, die in [29, 303] vorgeschlagen wurden.
Im Folgenden werden alle Problemstellungen verbal erläutert. Eine begleitende
Darstellung findet sich in Tabelle 4.1. Diese enthält in der Spalte ”gegebene Daten
(Merkmale)” Rohmerkmale XRoh , die prätherapeutisch zum Zeitpunkt tPRE , postthe-
rapeutisch zum Zeitpunkt tPOST oder zu einem beliebigen Zeitpunkt t von Patienten
(PAT) oder Probanden (PROB) erfasst wurden. Die Therapieentscheidung fällt zum
Zeitpunkt tT HER und wird durch skalare oder vektorielle Merkmale xT her (tT HER ) ko-
diert. Dabei gilt tPRE < tT HER < tPOST .
Die Zeitpunkte sind eine Idealisierung, weil in der Praxis die Zeitpunkte tl verschie-
dener Messungen xl (tl ) zwar z. T. erheblich differieren, aber zu einem einheitlichen
Zeitpunkt wie z. B. tPRE zusammengefasst werden. Die Idealisierung verfälscht das
Ergebnis, wenn sich die wirklichen Werte des Patienten innerhalb dieses Zeitraums
wesentlich verändern.
77
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Tabelle 4.1: Formalisierung ausgewählter klinischer Problemstellungen für den Entwurf von
Data-Mining-Verfahren, Abkürzungen für Datensätze: PAT – Patienten, PROB –
gesunde Probanden, PRE – prätherapeutisch, POST – posttherapeutisch,
THER – Therapie; Abkürzungen für Problemstellungen: Regression D1 , Klassifi-
kation D2 , Clustering D7 , Fuzzy-Klassifikation D3 , Fuzzy-Clustering D8 , univaria-
te D23 oder multivariate D24 Merkmalsbewertung
78
4.2 Problemformulierungen
79
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
80
4.2 Problemformulierungen
den mit einbezogen werden, um die Plausibilität des gefundenen Maßes zu prüfen.
Die quantitative Patientenbewertung kann als Sonderfall der Suche nach alternativen
Messverfahren interpretiert werden, wenn eine subjektive Bewertung durch Kliniker
vorliegt und aus anderen Merkmalen nachzubilden ist.
Bei einer Therapieprognose sollen aus dem prätherapeutischen Zustand von Pa-
tienten Hinweise auf den zu erwartenden posttherapeutischen Zustand bei Anwen-
dung einheitlicher oder verschiedener Therapien gezogen werden. Im einfachsten
Fall ist das lediglich eine Aussage, ob eine Therapie bei einem Patienten voraussicht-
lich erfolgreich sein wird oder nicht. Dazu ist durch Auswertung der posttherapeuti-
schen Daten und deren Vergleich mit den prätherapeutischen Daten zunächst ein
Erfolgskriterium abzuleiten, entweder durch eine subjektive Beurteilung oder durch
eine quantitative Patientenbewertung. Die Problemstellung kann bei einer Klassifika-
tion im Sinne einer Therapieauswahl oder im Sinne einer gezielten Suche nach mög-
lichen Ursachen von Misserfolgen betrachtet werden. Eine Erweiterung in Richtung
von Mehrklassenproblemen (unterschiedliche Arten von Teilerfolgen oder Misserfol-
gen) ist möglich und in einigen Fällen sinnvoll, aber selten anzutreffen. Eine wichtige
spezielle Art der Regressionsvariante bei Therapieprognosen sind Schätzungen von
Überlebensraten, bei denen die Auswirkungen unterschiedlicher Therapien analysiert
werden.
81
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
mit der untersuchten Therapie und der Kontrollgruppe. Auch für die Kontrollgruppe
ist dazu eine ”posttherapeutische” Untersuchung erforderlich, wobei die Zeitdifferenz
tPOST − tPRE für beide Gruppen etwa gleich sein muss. Damit besteht im Gegensatz
zur obengenannten Formulierung der ersten Variante die Chance, therapieunabhän-
gige Änderungen zumindest zu reduzieren.
Bei der Therapieauswahl sind anhand gegebener Patientendaten individuelle The-
rapieempfehlungen zu geben. Dazu steht ein Lerndatensatz mit Patienten zur Verfü-
gung, der neben verschiedenen Merkmalen auch Therapieempfehlungen eines er-
fahrenen Arztes beinhaltet. Das Ziel bei der Anwendung besteht darin, für einen
unbekannten Patienten nur aus den prätherapeutisch gegebenen Merkmalen eine
Therapie vorzuschlagen. Ein genauer Blick zeigt, dass das Problem strukturell einer
Differentialdiagnose entspricht – nur dass hier die gegebenen Patientengruppen nicht
durch eine diagnostische, sondern durch eine therapeutische Klassifikation charak-
terisiert sind. Bei solchen Aufgaben ist sorgsam darauf zu achten, dass die Merkma-
le im Lerndatensatz keine versteckten Informationen über die Therapieempfehlung
des erfahrenen Arztes enthalten. Beispiele für solche versteckten Informationen sind
bestimmte Merkmale, die nur bei Verdacht auf eine bestimmte Diagnose erhoben
werden (z. B. bestimmte Bluttests), oder patientenindividuelle Einstellungen bei der
Erhebung von Merkmalen (z. B. Geschwindigkeiten am Fahrradergometer, Gewicht-
sentlastungen bei Laufbandmessungen für inkomplett Querschnittgelähmte, vgl. Ab-
schnitt 7.2.2). Solche Merkmale lassen sich ohne eine expertenbasierte Festlegung
in der Anwendungsphase nicht reproduzieren.
Die Suche nach alternativen Messverfahren strebt an, ein oder mehrere Merkma-
le (der bisherige ”Goldstandard” als das bisher beste Beurteilungskriterium) durch
andere Merkmale zu substituieren. Wesentliche Motivationen sind
• die Ablösung patientenbelastender Messungen (z. B. wegen einer Strahlenexposi-
tion, einer schmerzhaften oder langwierigen Untersuchung) durch patientenscho-
nendere Verfahren,
• die Ablösung subjektiver Merkmale durch objektiv messbare bzw. berechenbare
Merkmale oder
• die Ablösung teurer Messungen gegen kostengünstigere Messungen.
In allen Fällen ist zu zeigen, dass das bisherige Merkmal aus anderen rekonstru-
ierbar ist. Die Problemstellung ist in der Regel ein Regressionsproblem, wobei auch
die Bewertung infrage kommender Merkmale selbst von Interesse ist. Vergleichbare
Ergebnisse liefert u. U. auch eine Formulierung als Diagnose, wenn dort eine ent-
sprechende Merkmalsbewertung alternative Messverfahren gegenüber dem Gold-
standard bevorzugt. Der Ansatz ist aber nicht unbedingt in der Lage, den bisherigen
82
4.2 Problemformulierungen
Goldstandard auf anderem Wege zu rekonstruieren, sondern sucht nur andere Lö-
sungswege.
Die Beurteilung unterschiedlicher Versuchsbedingungen setzt sich zum Ziel, die
Auswirkungen unvermeidbarer Einflussgrößen auf Merkmale und so mittelbar auf
Ausgangsgrößen wie Diagnoseergebnisse abzuschätzen. Somit sollen Kokorrelatio-
nen und ähnliche Effekte analysiert werden. Beispiele sind patientenindividuelle Ein-
stellungen bei der Erhebung von Merkmalen, aber auch Kenngrößen von Patienten
wie Alter, Größe usw. Mit einer solchen Technik kann nach unerwarteten Zusammen-
hängen zwischen Merkmalen gesucht werden, die u. U. auch Hinweise auf poten-
zielle Fehlerquellen, Confounding und Inkonsistenzen im Datensatz (z. B. markante
Korrelationen von zeitbehafteten Größen wie dem Einlieferungsdatum in die Klinik zu
anderen Merkmalen) geben.
Probleme zur Auswahl von Steuerstrategien wirken nicht mittelbar über einen Kli-
niker, sondern unmittelbar über ein medizintechnisches Gerät auf den Patienten. Ty-
pische Anwendungsfelder sind Geräte in der Intensivmedizin und Prothesen (z. B.
Griffartenumschaltung siehe Abschnitt 7.3). Strukturell geschieht das Gleiche wie bei
einer Diagnose – in der Anwendungsphase findet anhand charakteristischer Merk-
male eine Situationseinschätzung in Form einer Klassifikation oder Regression statt,
mit der eine Steuerstrategie verbunden ist. Diese Steuerstrategie kann entweder ei-
ne wertediskrete Klasse (z. B. eine Parameterumschaltung für einen adaptiven Reg-
ler oder eine geschaltete Transition in einem Zustandsautomaten) oder eine reelle
Ausgangsgröße sein. Allerdings sind hier intensivere Risikoanalysen als bei den bis-
her diskutierten Diagnoseproblemen erforderlich, weil ein Eingreifen des Klinikers zur
Korrektur einer falschen Auswahl zumindest erschwert ist.
Aus systematischer Sicht ist dabei interessant, dass sich viele unterschiedliche
Problemstellungen als Datentupelselektionen D22 und Auswahl einer Ausgangsgrö-
ße aus mehreren Ausgangsgrößen darstellen lassen. Ein Datentupel enthält zu-
nächst charakteristische Merkmale x[n] und einen zugehörigen Vektor y[n] mit sy Aus-
gangsgrößen (vgl. Bild 3.1). Beispiele für die Ausgangsgrößen sind die Patienten-ID,
die Patientengruppe, der Untersuchungszeitpunkt (prä- oder posttherapeutisch), evtl.
charakteristische Versuchsbedingungen, die Therapieauswahl eines erfahrenen Arz-
tes und die Bewertung des posttherapeutischen Therapieerfolges. Nicht vorhande-
ne Werte sind geeignet zu ergänzen (z. B. Therapieauswahl ”entfällt” bei gesunden
Probanden). Je nach Problemstellungen und Werten der Ausgangsgröße wird das
Datentupel entweder einbezogen oder ausgeblendet. Zudem wird genau eine Aus-
gangsgröße aktiviert, die der Problemstellung entspricht (z. B. Patientengruppe bei
Diagnose, siehe Beispiel in Abschnitt 6.2.3). Auch hier ist sorgfältig zu beachten, wel-
83
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
che Konsequenzen die jeweilige Einstellung nach sich zieht. Wenn z. B. bei der Dia-
gnose posttherapeutische Datentupel eines vollständig geheilten Patienten mit der
Klasse BPAT mit einbezogen werden, verfälscht das die Ergebnisse der Klasse BPAT
in Richtung der Probandengruppe. Korrekt ist hier das Weglassen des Datentupels.
Bei einem nicht vollständig geheilten Patienten ist die Einstufung als BPAT allerdings
vertretbar (entsprechend dem Grundsatz einiger behandelnder Ärzte: ”nach der The-
rapie ist vor der Therapie...”). Diese Diskussionen zeigen, dass solche Einteilungen
keineswegs immer offensichtlich sind.
Alle genannten Problemformulierungen untersuchen primär Patientengruppen.
Problemstellungen, die sich auf die Beurteilung eines einzelnen Patienten beziehen,
können aus Sicht der Data-Mining-Verfahren nur in der Anwendungsphase bearbeitet
werden. Neben der Anwendung der verschiedenen entworfenen Klassifikatoren oder
Regressoren spielen hier Distanzmaße eine besondere Rolle, um atypische Werte
eines Patienten in Bezug auf eine komplette Patientengruppe zu bewerten. Auch hier
ist nicht nur die reine Zuordnung, sondern auch die Begründung der Zuordnung wich-
tig.
Die wichtigste Frage nach der Problemformulierung lautet, ob der gegebene Lernda-
tensatz (Synonym: Trainingsdatensatz) die zur Lösung des Problems notwendigen In-
formationen strukturell überhaupt enthalten kann. Data-Mining-Verfahren weisen ein
großes Risiko von irreführenden Ergebnissen auf, wenn wesentliche Informationen im
Lerndatensatz fehlen oder die Realität nur mit erheblichen Verzerrungen widerspie-
geln. Das liegt darin begründet, dass fast alle statistisch motivierten Lernverfahren
den Lerndatensatz als eine hinreichend große Stichprobe aus einer für das Problem
repräsentativen und zeitlich unveränderlichen Verteilung betrachten.
Zudem sind alle zu untersuchenden Fälle der Problemstellung (siehe auch Tabel-
le 4.1) mit einer hinreichenden Anzahl von Datentupeln abzudecken, um die Größe
der Stichprobe abzusichern. Die oft gestellte Frage, wieviele Datentupel erforderlich
sind, ist nicht pauschal zu beantworten. Die Anzahl wird durch die gesuchten unbe-
kannten deterministischen und statistischen Eigenschaften (z. B. ”Nutzsignale” wie
Unterschiede zwischen Gruppen, ”Störsignale” wie Varianzen innerhalb von Grup-
pen, die Heterogenität von Gruppen, die Anzahl der Merkmale und der Grad ihrer ge-
genseitigen Zusammenhänge, die erforderliche Genauigkeit der Aussagen, das Aus-
maß zusätzlicher unbekannter Einflussgrößen usw.) bestimmt. Damit schließt sich
leider ein Teufelskreis: Um Rückschlüsse auf den notwendigen Lerndatensatz zie-
84
4.3 Lerndatensätze und Datenvorverarbeitung
hen zu können, muss das Problem bereits gelöst sein. Ohne Lerndatensatz ist es
aber nicht lösbar. In vielen Anwendungen sind 10 bis 50 Datentupel einer Gruppe
eine sinnvolle Mindestanzahl, die aber anhand verschiedener Validierungsverfahren
zu überprüfen ist. Mehr Datentupel sind in der Regel auch nicht verfügbar, um den
Aufwand der klinischen Studie zu begrenzen.
Bislang erfolgt die Zusammenstellung des Lerndatensatzes hauptsächlich über
manuell generierte Abfragen an die klinische Datenbank oder gar durch das Sich-
ten von Patientenkarteien. Hier ist mittelfristig ein Effizienzgewinn durch eine Auto-
matisierung zu erwarten, wobei die Abfragen direkt aus den Einschluss- und Aus-
schlusskriterien der geplanten Studie generiert werden. Erste Ansätze dazu zeigt
beispielsweise [135].
Viele medizinische Datensätze sind durch fehlende Werte (genauer: fehlende
Merkmale bei einigen Datentupeln) gekennzeichnet. Typische Ursachen für fehlen-
de Werte sind erkannte Messfehler, Übertragungsfehler beim Eintrag in Datenban-
ken oder zufällige Unterschiede bei der Festlegung notwendiger Messungen durch
verschiedene Mediziner.
In einigen Fällen treten fehlende Werte in einem Datentupel aber auch systema-
tisch auf. Beispiele hierfür sind die fehlende klinische Notwendigkeit einer Messung
aufgrund der Arbeitshypothese des Untersuchers, zeitliche Veränderungen (z. B. An-
schaffung neuer Messgeräte während der Entstehung eines Lerndatensatzes), nicht
abgeschlossene Studien (z. B. bei der Bestimmung der Lebenserwartung für am Stu-
dienende lebende Patienten) oder Entscheidungen eines Patienten (z. B. Abbruch ei-
ner Behandlung wegen Erfolgs oder gravierenden Misserfolges). Somit kann die Tat-
sache eines fehlenden Wertes auch wertvolle Informationen enthalten und ist durch
einen speziellen Wert (z. B. eine zusätzliche Klasse) zu kennzeichnen.
Beispiel: Ein Datensatz enthält 50 Datentupel und 10 Merkmale. Im 2. Datentupel fehlen
Werte des 1. und 7. Merkmals, die Werte des 10. Merkmals sind nur in den Datentupeln 1 bis
10 vorhanden. ¥
Da viele Verfahren damit nicht umgehen können, müssen fehlende Werte entspre-
chend behandelt werden. Dazu bieten sich während der Entwurfsphase verschiedene
Strategien an:
• Löschen der betroffenen Datentupel im Lerndatensatz (Datentupelselektion D22 )
(Beispiel: Löschen der Datentupel 2 und 11-50, Ergebnis: Datensatz mit 9 Daten-
tupeln und 10 Merkmalen),
• Löschen der betroffenen Merkmale im Lerndatensatz (Merkmalsselektion D18 )
(Beispiel: Löschen der Merkmale 1, 7 und 10, Ergebnis: Datensatz mit 50 Da-
tentupeln und 7 Merkmalen),
85
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
86
4.3 Lerndatensätze und Datenvorverarbeitung
87
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Das Ziel dieses Abschnittes besteht darin, typische Arten von extrahierten und trans-
formierten Merkmalen in medizinischen und medizintechnischen Applikationen zu
systematisieren und auf wichtige Auswahlkriterien hinzuweisen. Eine umfassende Er-
läuterung aller gebräuchlichen Merkmalsarten überschreitet den hier zur Verfügung
stehenden Rahmen.
Die Merkmalsextraktion ist insbesondere bei Zeitreihen, Bildern und Videos von
entscheidender Bedeutung, weil eine direkte Analyse der Rohdaten keine Problem-
lösung erlaubt. Viele dazu verwendete Merkmalsarten kommen sowohl bei Zeitrei-
hen als auch bei verschiedenen Bilddaten zum Einsatz. Sie können sich sowohl auf
die kompletten Rohmerkmale (komplette Zeitreihe, komplettes Bild, komplettes Vi-
deo) als auch auf speziell ausgewählte Teilbereiche beziehen. Bei Bildern sind das
Pixel (Rohdaten), Kanten (eindimensionale Strukturen), Texturen (zweidimensionale
Strukturen), Regionen (zwei- oder mehrdimensionale Strukturen mit definierter Um-
randung), Objekte (klassifizierte Regionen oder Gruppen von Regionen) und Szenen
(Objekte im zeitlichen und räumlichen Bezug), vgl. [246]. Bei Zeitreihen handelt es
88
4.4 Merkmalsextraktion, -selektion und -transformation
89
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Bewertungen
(z.B. Klassifikation),
Bewertungsmaße
Problemformu-
lierungen usw.
Segment-
Bild- Segmen-
Rohbild beschrei- Segmentmerkmale
bearbeitung tierung
bung
Bild 4.4: Merkmalsextraktion aus Bildern in Anlehnung an [166, 246, 345] – Einbindung Be-
wertungsmaße siehe Bild 4.1
Ein ähnlicher Ablauf findet sich bei der Merkmalsextraktion aus Zeitreihen, aller-
dings mit modifizierten Schwerpunktsetzungen. Die Berechnung zusätzlicher Zeitrei-
hen dient zwar auch der Stör- und Rauschunterdrückung wie bei einer Bildbearbei-
tung, allerdings dominiert die gezielte Extraktion zusätzlicher Informationen. Die Auf-
gabe der Segmentierung ist in der Regel einfacher als bei Bildern, weil einerseits oft
die gesamte Zeitreihe von Interesse ist und andererseits bei einer Segmentierung
in i Abschnitte nur i − 1 Abtastzeitpunkte als Segmentgrenzen zu ermitteln sind. Bei
periodischen Zeitreihen (z. B. EKG, periodische Bewegungen) geht es hauptsächlich
um die Erkennung eines neuen Zyklus. Die Berechnung von Einzelmerkmalen für
einzelne Zyklen entspricht der Segmentbeschreibung.
Die Merkmalsextraktion aus Videos entspricht grundsätzlich den Algorithmen von
Bildern und Zeitreihen, ist aber aufwändiger.
Alle gegebenen oder aus Zeitreihen, Bildern und Videos extrahierten Einzelmerk-
male werden einer Merkmalsselektion unterzogen, aus der dann eine sortierte Merk-
malsliste mit geeigneten Merkmalen für die Problemstellung hervorgeht. Danach
schließt sich optional eine Merkmalstransformation an, die auf einen ähnlichen Me-
thodenapparat wie die Merkmalsextraktion zurückgreift und nur selektierte Merkma-
le einbezieht. Ein Vorteil der mehrstufigen Vorgehensweise ist ein reduzierter Re-
chenaufwand und eine bessere Interpretierbarkeit, weil nur wenige selektierte Merk-
male zu berechnen und zu analysieren sind. Bei Bildern sind diese nachfolgenden
Merkmalstransformationen selten anzutreffen, weil die entsprechenden Operationen
gleich in die Merkmalsextraktionen integriert werden.
Ein wichtiges Ziel der Merkmalsextraktion und -transformation ist die Berechnung
niederdimensionaler und informationstragender Merkmale aus hochdimensionalen
90
4.4 Merkmalsextraktion, -selektion und -transformation
Merkmalsextraktion
Bild 4.5: Merkmalsextraktion aus Zeitreihen – Einbindung Bewertungsmaße siehe Bild 4.1
Datensätzen. Das betrifft bei Zeitreihen insbesondere den Schritt der Berechnung
von Einzelmerkmalen und bei Bildern und Videodaten die Segmentbeschreibung.
Dabei kommt es neben der enthaltenen Information in den Merkmalen auch auf de-
ren Interpretierbarkeit an. Ein weiteres Ziel ist die Hervorhebung schwer erkennba-
rer Informationen (z. B. Unterschiede im maximalen Anstieg einer Zeitreihe in einem
Zeitreihensegment) aus den Rohmerkmalen. Beide Ziele überlappen sich oft, aber
nicht immer. So gibt es dimensionserhaltende oder gar -erhöhende Transformatio-
nen, um enthaltene Informationen in nachfolgenden Verarbeitungsschritten besser
extrahieren zu können.
Eine Übersicht über ausgewählte Merkmalsarten gibt Tabelle 4.2. Hier wird in Ver-
fahren unterschieden, die aufgrund ihrer Wirkungsweise
• fast immer eine Dimensionsreduktion bewirken (”ja”),
• die bei geeigneter Verwendung (z. B. durch ein Komprimieren der Information in ei-
nigen neuen Merkmalen und durch das Weglassen weiterer erzeugter Merkmale)
eine Dimensionsreduktion unterstützen können (”möglich”) bzw.
• die die Dimension in der Regel nicht reduzieren (”nein”).
Linearkombinationen von Merkmalen werden oft zur Dimensionsreduktion einge-
setzt, dienen aber auch der Orthogonalisierung. Wichtige Techniken hierfür sind die
Hauptkomponenten- oder Diskriminanzanalyse (vgl. Abschnitt 5.2.3). Mittel-, Median-
oder Extremwerte sind insofern Sonderfälle einer Linearkombination, weil entweder
eine Gleichgewichtung stattfindet bzw. ein Wert im Datentupel herausgesucht wird
(Wichtung Eins) und alle anderen gelöscht werden (Wichtung Null). Die zeitliche oder
örtliche Lage von Minimal- oder Maximalwerten in einer Bildregion, einem Zeitreihen-
abschnitt oder einer Zeitreihe geben ebenfalls interessante Informationen. Geometri-
91
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Verfahren Dimensionsreduktion
ja möglich nein
Linearkombinationen von Merkmalen x
Mittel-, Median- oder Extremwerte x
(Minimum, Maximum)
zeitliche oder örtliche Lage von Extremwerten x
geometrische Informationen x
Histogramme über Merkmalswerte oder Kombinationen x
von Merkmalswerten in Bildern oder Zeitreihen
statische nichtlineare Transformationen x
Ausgänge von linearen oder nichtlinearen x
digitalen Filtern
ARMAX-Parameter
- Zeitreihe, Zeitreihenabschnitt, Bild, Bildregion x
- rekursive Schätzung Zeitreihe x
Parameter von ein- oder mehrdimensionalen x
Transformationen in einen Bildbereich
Distanzen oder Ähnlichkeiten zu x
Vergleichs-Rohmerkmalen
beobachtbare Zustände bei bekannten Modellstruktu- x
ren
Clusterzugehörigkeiten x
Klassifikationsergebnisse x
Tabelle 4.2: Ausgewählte Verfahren zur Merkmalsextraktion und -transformation sowie deren
Eignung zur Dimensionsreduktion
Eine weitere Gruppe von Merkmalen beruht auf den Ausgängen oder ermittelten
Parametern von digitalen Filtern. Einerseits können die Ausgangsgrößen von im Vor-
feld entworfenen linearen oder nichtlinearen Filtern (z. B. frequenzselektive lineare
Filter: Hoch-, Tief-, Bandpässe, Bandsperren, Wavelet-Koeffizienten als Ausgänge
speziell strukturierter Filterbänke; Schwellwertdetektoren mit oder ohne Hysterese)
92
4.4 Merkmalsextraktion, -selektion und -transformation
als Merkmale verwendet werden. Die Dimension wird dadurch zunächst nicht redu-
ziert, weil die Dimensionen der Zeitreihe bzw. des Bildes erhalten bleiben.
Andererseits existieren Verfahren, um dominierende Signaleigenschaften von
Zeitreihen oder Bildern durch die geschätzten Parameter von speziell strukturierten
Differenzengleichungen zu beschreiben. Diese werden oftmals durch Parameter von
ARMAX-Modellen (engl. für AutoRegressive Moving Average with eXternal input, vgl.
Abschnitt 5.8.4) oder ihren Spezialfällen ausgedrückt. Sie beziehen sich entweder auf
die zusammenfassende Beschreibung eines Bildes, einer Bildregion, einer Zeitreihe,
eines Zeitreihenabschnitts oder auf die rekursiven Schätzungen zur Erfassung zeit-
lich bzw. örtlich veränderlicher Eigenschaften. Nur im erstgenannten Fall kommt es
meist zu einer Dimensionsreduktion. Der letztgenannte Fall erzeugt z. B. aus einer
Zeitreihe eine oder mehrere zusätzliche Zeitreihen, die zeitvariante Parameter von
ARMAX-Modellen enthalten.
Eng verwandt zu Ausgängen oder Parametern von digitalen Filtern sind Merkmale,
die aus eindeutigen Transformationen der Rohmerkmale in einen Bildbereich entste-
hen. Wichtige Vertreter sind die ein- oder mehrdimensionale Fourier-Transformation
in den Frequenzbereich (Zeitreihen) bzw. Ortsfrequenzbereich (Bilder) zur Erken-
nung von Amplituden, Phasenverschiebungen oder spektralen Leistungsdichten für
bestimmte Frequenzanteile, verschiedene Arten von Wavelet-Transformationen, die
Radon-Transformation [47] (mit dem Spezialfall der Hough-Transformation [47, 204]
als spezielle Approximationstechnik) oder ihre Erweiterungen zur Erkennung geome-
trischer Muster wie Linien oder Kurven. Eine optionale Dimensionsreduktion entsteht
durch das Weglassen der Teile im Bildbereich mit vernachlässigbaren Signalantei-
len oder durch eine Diskretisierung im Bildbereich. Eine Rücktransformation in den
Bereich der ursprünglichen Rohmerkmale unterdrückt dann Rauschanteile und re-
konstruiert Merkmale nach einer Kompression.
Distanzen oder Ähnlichkeiten zu Vergleichs-Rohmerkmalen kommen insbesonde-
re dann zum Einsatz, wenn aus dem unmittelbaren Vergleich eines Datentupels
zu gegebenen Rohmerkmalen eines Vergleichskollektivs (z. B. gesunde Probanden,
bereits erfasste Patienten) nützliche Informationen extrahierbar sind. Solche Ma-
ße charakterisieren z. B. einzelne Patienten und kleine Patientenkollektive. Ein Bei-
spiel gibt [281, 282] zum Auffinden vergleichbarer Aufnahmen für individuelle MRT-
Patientenbilder des Hirns in Datenbanken. Ein weiteres Beispiel sind Referenzabwei-
chungszeitreihen (siehe Abschnitt 7.2).
Beobachtbare Zustände bei bekannten Modellstrukturen eignen sich insbesondere
zur Verarbeitung von Zeitreihen. Wenn die Modellstruktur und -parameter eines Sys-
tems mit gemessenen Zeitreihen am Ein- und Ausgang des Systems bekannt sind, ist
93
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
94
4.5 Klassifikation und Regression
Eine adäquate Problemformulierung (vgl. Abschnitt 4.2) und die Bereitstellung eines
informationstragenden Merkmalssatzes sind die entscheidenden Schritte zu einer
erfolgreichen Lösung von Klassifikations- und Regressionsproblemen für medizini-
sche und medizintechnische Anwendungen. Generell ist ein Kompromiss zwischen
einem geringen Klassifikations- oder Regressionsfehler, einer hohen Interpretierbar-
keit und einem geringen Aufwand (wenige Merkmale, einfache Abbildungen, geringer
Rechenaufwand) anzustreben, der mit geeigneten Maßen zu formalisieren ist. Zur
Lösung stehen dann viele leistungsfähige Verfahren bereit, die später im Kapitel 5
umfassender diskutiert werden.
Bei der Formulierung eines Klassifikationsproblems ist besonders darauf zu ach-
ten, auf welche Merkmale sind eine Klassifikationsentscheidung bezieht. Typische
Fälle sind
95
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
• eine oder mehrere komplette Zeitreihen (z. B. eine vollständige Untersuchung mit
einem EKG oder alle aufgezeichneten Gelenkwinkel einer Bewegungsanalyse),
• ein spezielles Segment aus einer oder mehreren Zeitreihen (z. B. ein spezieller
Herzschlag oder ein einzelner Schritt aus einer Bewegungsanalyse),
• ein komplettes Bild (z. B. Anzeichen für mindestens einen Tumor in einem CT-Bild),
• ein Segment eines Bildes (z. B. spezielle Region mit Anzeichen für einen Tumor in
einem CT-Bild) sowie
• ein Pixel eines Bildes (z. B. Zugehörigkeit eines Pixels zu einem speziellen Seg-
ment mit einer semantischen Bedeutung wie Tumorgewebe – gesundes Gewebe,
unterschiedliche Organe usw.).
Probleme zur Klassifikation eines Abtastzeitpunkts oder eines Pixels üben meist eine
Hilfsfunktion im Data-Mining-Verfahren aus. Die bereits in Abschnitt 4.4 thematisierte
Segmentierung ist ein unterlagertes Klassifikationsproblem, das wiederum auf den
genannten Merkmalsarten aufbaut. Bei der Klassifikation von Zeitreihensegmenten
muss unter Umständen zunächst der Beginn des Segments (ein sogenanntes Trig-
gerereignis) durch eine Klassifikation ermittelt werden (vgl. Diskussion in [83, 84]).
Insbesondere bei klinischen Studien ist zu beachten, dass die Entdeckung neuen
Wissens in der Entwurfsphase für Klassifikatoren oder Regressionsmodelle im Vor-
dergrund steht und eher die Analyse des Lösungsweges als die Lösung selbst von
Interesse ist. Die eigentliche Anwendungsphase (z. B. automatische Klassifikation
Patient – Proband) für unbekannte Datensätze findet u. U. nur zu Validierungszwe-
cken statt und ist von untergeordneter klinischer Bedeutung. Das erworbene Wissen
wird dann indirekt in Form erworbener Erfahrungen oder über wissenschaftliche Pu-
blikationen angewendet.
Für medizintechnische Geräte steht hingegen die Anwendungsphase im Vorder-
grund, wobei besonders auf die Zuverlässigkeit der Ergebnisse und die Echtzeitfä-
higkeit der Algorithmen zu achten ist. Unter dem Aspekt der Zuverlässigkeit ist es
von entscheidender Bedeutung, dass ein Mediziner oder Medizintechniker die gene-
rierte Lösung inspizieren und modifizieren kann. Die Rolle eines automatischen Ent-
wurfsverfahrens ist lediglich die einer Einstellhilfe, die medizinische und juristische
Verantwortung bleibt hier beim Mediziner oder Medizintechniker.
96
4.6 Visualisierung
4.6 Visualisierung
97
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Darzustellendes Darstellungsform
Objekt
mehrdimensionale wenn möglich grafisch im Format der Rohmerkmale
Merkmale (z. B. Bilder, Zeitreihen) (Bild 7.9a)
Merkmalsbewertung wenn möglich grafisch im Format der Rohmerkmale
mehrdimensionaler (z. B. Bilder, Zeitreihen), Bewertung als Amplitude (Bild 7.18) oder
Merkmale als Merkmalskarten mit Farbe bzw. Grauwert (Bild 7.19)
Merkmale 1. Histogramm (Bild 5.17),
(univariat) 2. Boxplot (Bild 5.6a),
3. Konfidenzintervall (Bild 5.2),
4. Tabelle mit charakteristischen Werten (Extrema usw.,
Tabelle 7.1)
Merkmale 1. Scatterplot (Bild 5.1),
(multivariat) 2. Bild mit Korrelationskoeffizienten (Bild 5.35a),
3. Tabelle mit betragsgrößten Korrelationskoeffizienten
(Tabelle 7.4),
4. Scatterplot nach Dimensionsreduktion (Bild 5.3a-c)
Merkmalsselektion, 1. Merkmalslisten (Tabelle mit Merkmalsbewertungen,
Merkmalsbewertung Tabelle 7.1),
(transformierte und 2. separate Boxplots (Bild 5.6a) oder Histogramme (Bild 7.7a) für
extrahierte jede Klasse bei transformierten Merkmalen, evtl. mit Mittelwerten
(Einzel-) Merkmale) und Konfidenzintervallen
Lineartransformation wenn möglich grafisch im Format der Rohmerkmale
Klassifikations- und 1. Scatterplot der besten verwendeten (u. U. transformierten)
Clusterergebnisse Merkmale mit Klasse als Farbe oder Symbol, evtl. mit Trennflä-
chen (Bild 7.8),
2. Mittelwerte grafisch im Format der Rohmerkmale (Bild 7.9e-f),
3. separate Histogramme oder Boxplots für jede Klasse
(Bild 7.7a),
4. Scatterplot mit geschätzten Klassenzugehörigkeiten
(Bild 5.6b),
5. ROC-Kurve (Bild 3.8),
6. Tabellen mit Bewertungsmaßen (Tabelle 7.5),
7. Erklärungstexte (S. 189)
Regressions- 1. Scatterplot Ausgangsgröße y gegen Schätzung ŷ (Bild 5.35b),
ergebnisse 2. Scatterplot relevantes Merkmal gegen Ausgangsgröße
(Bild 5.35c),
3. Tabellen mit Bewertungsmaßen (Tabelle 5.23)
98
4.6 Visualisierung
99
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
100
4.7 Implementierungsaspekte für Medizingeräte
Eine besonders problematische Situation stellen Systeme dar, bei denen sich die
Soft- und Hardwareplattform der Entwurfsphase gravierend von jener der Anwen-
dungsphase unterscheidet (z. B. PC-basierte Systeme in der Entwurfsphase und mi-
krocontrollerbasierte Systeme in der Anwendungsphase). Solche Fälle erfordern be-
sonders recheneffiziente Reimplementierungen der gefundenen Lösungen, z. B. die
Erzeugung und den Export von mikrocontrollertauglichem C-Quellcode in der Ent-
wurfsphase (siehe Beispiel in Bild 4.6). Zwar bieten einige Entwicklungsplattformen
solche Exportfunktionen an, allerdings erzeugen sie schwer interpretierbaren und
wenig implementierungseffizienten Quellcode. Bei der patientenindividuellen Anpas-
sung von Medizingeräten ist jeweils zu untersuchen, ob ein Export von Parametern
ausreichend ist oder ob Teile des individualisierten Steueralgorithmus als Quellco-
de exportiert werden müssen. Die letztgenannte Lösung ist leistungsstärker, aber
aufwändiger. In allen Fällen ist ein automatischer Export anzustreben, um die Fehler-
quote zu minimieren und einen aufwändigen manuellen Arbeitsschritt zu vermeiden.
In der Anwendungsphase ist bei vielen Anwendungen die Zertifizierung der gefun-
denen Lösung entsprechend den gesetzlichen Richtlinien (Medizinproduktegesetz,
FDA-Richtlinien usw.) sicherzustellen. Eine erfolgversprechende Strategie ist die Aus-
legung der neuen Lösung als abschaltbare Zusatzfunktion (Add-on), deren Ausfall
die Betriebsfähigkeit des (idealerweise bereits zertifizierten) Gerätes nicht gefährdet.
101
4 Einsatzszenario für Data-Mining-Verfahren in der Medizin
Anwendung Ablauf-
Data-Mining-Verfahren steuerung Merkmals-
transformation
Mikrocontroller-
Compiler
Mikrocontrollerbasierte
Plattform in der
Anwendungsphase
Patient
Mikrocontroller
Simulation
Medizingerät
Bild 4.6: Beispiel für eine Implementierungsstrategie zum patientenindividuellen Entwurf ei-
nes Medizingerätes mit einer PC-basierten Plattform in der Entwurfsphase und einer
mikrocontrollerbasierten Plattform in der Anwendungsphase (nach [363])
Diese Vorgehensweise ist aber nicht in jedem Fall möglich. Insbesondere mobile Me-
dizingeräte und stationäre Geräte im Online-Betrieb stellen hier hohe Sicherheitsan-
forderungen und erfordern eine Risikoanalyse. Diese hohen Anforderungen schrän-
ken bisher den Einsatz von Data-Mining-Lösungen ein, weil hier Zertifizierungsstrate-
gien (z. B. Nachweis der Fehlerfreiheit des erzeugten Codes) insbesondere für kom-
plexe Lösungen fehlen.
Die EG-Richtlinie für Medizinprodukte [3, 9] und das deutsche Medizinprodukte-
gesetz als deren Umsetzung [8] teilen Medizinprodukte (und damit auch -geräte) mit
zunehmenden Gefahrenstufen in vier Klassen I (z. B. Brillen), IIa (z. B. Hörgeräte),
IIb (z. B. Beatmungsgeräte, Infusionspumpen) und III (z. B. Implantate) ein. Wichtige
Kriterien sind dabei die Invasivität und die Dauer der Anwendung. Je nach Klasse
ergeben sich unterschiedliche Zulassungs- und Überwachungsprozeduren.
102
5 Data Mining: Spezielle Verfahren
5.1 Übersicht
Das Ziel dieses Kapitels besteht darin, spezielle Data-Mining-Verfahren anhand ihrer
Vorgehensweisen, Entwurfsverfahren und Einsatzgebiete vorzustellen und dabei auf
wichtige Vor- und Nachteile einzugehen. Die vorgestellten Verfahren umfassen
• statistische Verfahren (Abschnitt 5.2),
• Support-Vektor-Maschinen (Abschnitt 5.3),
• Entscheidungsbäume als typische Vertreter von Verfahren des maschinellen Ler-
nens (Abschnitt 5.4),
• Fuzzy-Systeme (Abschnitt 5.5),
• Künstliche Neuronale Netze (Abschnitt 5.6),
• Clusterverfahren (Abschnitt 5.7) und
• Regressionsverfahren (Abschnitt 5.8).
Um die Vergleichbarkeit zu erhöhen, werden alle nachfolgenden Verfahren anhand
eines einfachen künstlich erzeugten illustrativen Datensatzes erläutert. Dieser Da-
tensatz wurde so entworfen, dass er in möglichst übersichtlicher Form viele typische
Eigenschaften unterschiedlicher klinischer Datensätze enthält, die in der Praxis zu
erwarten sind:
Beispiel: Der Lerndatensatz besteht aus N = 230 Datentupeln mit s = 4 normalverteil-
ten Merkmalen und zwei Ausgangsklassen Proband (B1 , N1 = 200 Datentupel) und Patient
(B2 , N2 = 30 Datentupel). Patienten sind durch zwei unterschiedliche Subgruppen A und B
(20 bzw. 10 Datentupel) charakterisiert, wobei deren Aufteilung zunächst als unbekannt an-
genommen wird. Wenn sie bekannt ist, entsteht ein 3-Klassen-Problem mit den veränderten
Klassen Subgruppe A (B2 ) und B (B3 ). Drei Merkmale (Laborwert x1 und x2 sowie Messwert
x4 ) enthalten nützliche Informationen zum Lösen des Problems, der Messwert x3 ist eine rei-
ne Zufallsgröße (Bild 5.1). Die geringen Datentupelzahlen für die Patienten sind eine typische
Eigenschaft bei klinischen Studien. Die wahren Klassenkovarianzmatrizen lauten jeweils
0.64 0 0 −0.64
0 0
16 0
Sc = . (5.1)
0 0 64 0
−0.64 0 0 0.6464
103
5 Data Mining: Spezielle Verfahren
B1: Proband
30 2
B2: Patient A
B3: Patient B 1
25
Laborwert x2
Messwert x4
20 0
−1
15
−2
10
−3
5
−4
−2 0 2 4 0 10 20 30
Laborwert x1 Messwert x3
Bild 5.1: Illustratives Beispiel mit vier Merkmalen bei Verwendung der Ausgangsterme für das
3-Klassen-Problem
Die Merkmale x1 und x4 korrelieren sowohl innerhalb der Klassen als auch für alle Datentupel
negativ und sind somit teilweise redundant. Zu beachten ist außerdem die unterschiedliche
Skalierung (große Wertebereiche für x2 , x3 , kleine Wertebereiche für x1 , x4 ).
Im Zweifelsfall sollte eher zu Patient als zu Proband entschieden werden, um eine rechtzei-
tige Behandlung zu ermöglichen. Dazu wurden empirisch die fünffachen Entscheidungskos-
ten für eine fälschliche Zuordnung von Patienten als Probanden im Vergleich zum entgegen-
gesetzten Fehler angesetzt. Bei richtigen Entscheidungen treten keine Entscheidungskosten
auf. Die resultierenden Entscheidungskosten in (3.59) betragen somit
L(ŷ = B1 |y = B1 ) L(ŷ = B1 |y = B2 ) L(ŷ = B1 |y = B3 ) 0 5 5
L = L(ŷ = B2 |y = B1 ) L(ŷ = B2 |y = B2 ) L(ŷ = B2 |y = B3 ) = 1 0 1 . (5.2)
L(ŷ = B3 |y = B1 ) L(ŷ = B3 |y = B2 ) L(ŷ = B3 |y = B3 ) 1 1 0
104
5.2 Statistische Verfahren
Tabelle 5.1: Illustratives Beispiel mit Klassenzuordnungen für das 2-Klassen-Problem (un-
bekannter Patiententyp) und das 3-Klassen-Problem (bekannter Patiententyp),
Merkmalen, Datentupeln und Mittelwerten der Merkmale pro Klasse (unterer Teil
der Tabelle)
5.2.1 Verteilungsannahmen
105
5 Data Mining: Spezielle Verfahren
1
S= · (X − 1N,1 · x̄T )T · (X − 1N,1 · x̄T ) (5.5)
N
1 1 1
= · (X − 1N,N · X)T · (X − 1N,N · X)
N N N
1 T 1
= · X · ZN,N · X mit ZN,N = IN,N − 1N,N .
N N
Dabei bezeichnet X die Matrix der Merkmale entsprechend (3.1), I die Einheitsmatrix,
1 eine Matrix, die aus Eins-Elementen besteht, und Z die Zentriermatrix. Die Indizes
geben die entsprechenden Matrixdimensionen an. Im l -ten Element der Hauptdia-
gonale von S steht die geschätzte Varianz (engl. variance) σl2 des l -ten Merkmals.
σ̂l ist die geschätzte Standardabweichung (engl. standard deviation). Beide sind Ma-
ße für die Streuung eines Merkmals. Ein weiteres Maß für die Streuung ist z. B. die
Spannweite (SpW) (engl. range) als Differenz zwischen dem minimalen und dem ma-
ximalen Wert eines Merkmals im Lerndatensatz: RSpW,l = maxn xl [n] − minn xl [n] . Der
Begriff der Streuung wird aber z. T. auch als Synonym für die Standardabweichung
verwendet, was nicht korrekt ist.
Auf diesen Werten basiert die Varianznormierung (VN) von Merkmalen, bei der
jedes Merkmal durch
1 1
xl,V N [n] = (xl [n] − x̄l ) bzw. XV N = ZN,N · X · diag(S)− 2 (5.6)
σ̂l
auf einen Mittelwert von Null sowie eine Varianz und Standardabweichung von Eins
im Lerndatensatz normiert wird. Der Operator diag(·) bedeutet, dass nur die Diago-
nalelemente verwendet werden. Die Normierung verbessert oftmals die Ergebnisse
bei skalierungsvarianten Verfahren.
Für jede der my Klassen der Ausgangsgröße werden jetzt alle Nc = N(y = Bc )
my
Datentupel herausgesucht (N = ∑c=1 Nc ), die zur c-ten Klasse gehören, und in der
Matrix Xc zusammengefasst. Deren Mittelwertvektor berechnet sich aus
1
x̄Tc = 11,Nc · Xc (5.7)
Nc
1
Sc = · XTc · ZNc ,Nc · Xc . (5.8)
Nc
1
· e− 2 ((x−x̄c ) Sc (x−x̄c )) .
1 T −1
p̂(x|y = Bc ) = p s (5.9)
(2π ) det(Sc )
2
106
5.2 Statistische Verfahren
T = B + W. (5.12)
Beispiel: Die Schätzungen für die Kovarianzmatrizen und die Mittelwerte der drei Klassen
lauten:
1.00 0.59 −0.09 −0.69 −0.58
9.78 −0.09 17.37 −2.20 0.11
x̄1 = , S1 = , (5.13)
9.32 −0.69 −2.20 70.99 0.71
−1.01 −0.58 0.11 0.71 0.59
3.11 0.57 1.76 0.19 −0.57
20.79 1.76 24.95 0.74 −1.73
x̄2 = , S2 = , (5.14)
11.18 0.19 0.74 77.29 −0.41
−3.09 −0.57 −1.73 −0.41 0.57
−1.87 0.53 −0.45 −0.17 −0.53
10.37 −0.45 20.22 −7.36 0.47
x̄3 = , S3 = . (5.15)
12.20 −0.17 −7.36 43.13 0.00
1.85 −0.53 0.47 0.00 0.52
Dabei zeigt sich, dass aufgrund der kleinen Datentupelzahlen bei den Patientenklassen ins-
besondere bei den Kovarianzmatrizen deutliche Schätzfehler auftreten. ¥
Ein statistischer Test (detaillierte Übersichten z. B. in [152, 160]) liefert anhand von
Messdaten eine Entscheidung, ob eine bestimmte Hypothese mit einer bestimmten
107
5 Data Mining: Spezielle Verfahren
Wahrscheinlichkeit verworfen werden kann oder nicht verworfen werden darf. Dazu
werden üblicherweise zwei sich logisch ausschließende Hypothesen H0 (Nullhypo-
these) und H1 (Alternativhypothese als Gegenteil bzw. Verneinung der Nullhypothe-
se) eingeführt. Das Akzeptieren von H1 erfolgt durch Verwerfen von H0 , wenn die
Irrtumswahrscheinlichkeit p kleiner als das Signifikanzniveau (Synonym: Signifikanz-
wert) α (mit den typischen Werten α = 0.05, α = 0.01) ist, z. B.:
• H0 : Die Mittelwerte eines Merkmals xl für zwei Klassen sind gleich.
H1 : Die Mittelwerte eines Merkmals xl für zwei Klassen sind ungleich.
• H0 : Der Mittelwert eines Merkmals xl für eine Klasse ist gleich Null.
H1 : Der Mittelwert eines Merkmals xl für eine Klasse ist ungleich Null.
Ein einseitiger Test prüft einseitige Hypothesen der Form H1 : xl > xl,krit (zugehöriges
H0 : xl ≤ xl,krit mit xl,krit : Konstante), H1 : xl < xl,krit (zugehöriges H0 : xl ≥ xl,krit ). Ein
zweiseitiger Test beschränkt die Werte des Merkmals xl nach beiden Seiten (zwei-
seitige Hypothese), z. B. H1 : xl 6= xl,krit (zugehöriges H0 : xl = xl,krit ).
Statistische Tests unterscheiden sich außerdem, ob die untersuchten Datentu-
pel
• aus einer Stichprobe (Synonym: Messreihe, z. B. ein Patientenkollektiv mit Dia-
gnose A),
• mehreren voneinander unabhängigen Stichproben (z. B. ein Patientenkollektiv mit
Diagnose A und ein Patientenkollektiv mit Diagnose B) oder
• mehreren voneinander abhängigen Stichproben (z. B. ein Patientenkollektiv mit
Diagnose A vor einer Therapie und das gleiche Patientenkollektiv nach der Thera-
pie)
entstammen. Die unterschiedlichen Stichproben entsprechen hier separaten Lernda-
tensätzen für verschiedene Klassen. Der Begriff abhängige Stichprobe bedeutet in
diesem Zusammenhang, dass eine Zuordnung zwischen einzelnen Datentupeln aus
unterschiedlichen Stichproben besteht (hier: Patient vor der Therapie – der gleiche
Patient nach der Therapie). Der zu untersuchende Merkmalsraum kann ein- oder
mehrdimensional sein. Ein weiteres Unterscheidungskriterium ist das Ziel des Tests.
So können Parameter einer Verteilung (Signifikanztest) oder die Art der Verteilung
(Anpassungstest) überprüft werden. Alle genannten Unterscheidungen beeinflussen
die auszuwählenden Tests.
Ein irrtümliches Verwerfen von H0 (Zustand: H0 , Entscheidung: H1 ) wird als Fehler
1. Art (Synonym: α -Fehler), ein irrtümliches Verwerfen von H1 hingegen als Fehler
2. Art (Synonym: β -Fehler) bezeichnet. Der p-Wert für den α -Fehler sagt aber nichts
über die klinische Relevanz eines Unterschieds aus, sondern nur über die statistische
Absicherung eines (u. U. aber extrem kleinen) Unterschieds.
108
5.2 Statistische Verfahren
Konfidenzintervalle
B1 ↔ B2 B1 ↔ B3 B2 ↔ B3
B_3: Patient B ( )
x1 0* 0* 4.4e-016*
B_2: Patient A ( ) x2 0* 0.66 1e-005*
B_1: Proband ( ) x3 0.35 0.29 0.76
x4 0* 0* 4.4e-016*
10 15 20
Laborwert x2
Bild 5.2: Konfidenzintervalle der geschätzten Tabelle 5.2: p-Werte für t -Tests zur Dia-
Mittelwerte für Merkmal x2 (Laborwert gnose für alle paarweisen 2-
x2 ) für das 3-Klassen-Problem und Klassen-Probleme, *: relevante
ein Signifikanzniveau α = 0.05 Unterschiede bei α = 0.05
109
5 Data Mining: Spezielle Verfahren
N1 + N2
Die Anzahl der Datentupel in den Stichproben 1 (N1 ) und 2 (N2 ) darf hier voneinander
abweichen.
Beispiel: Die Vergleiche aller paarweisen Klassenkombinationen im 3-Klassen-Problem
zeigen, dass die Merkmale x1 und x4 für alle Klassenkombinationen Bc , B j relevante Unter-
schiede mit einem Signifikanzniveau von α = 0.05 für die Mittelwerte aufweisen (Tabelle 5.2,
Werte für H1 : x̄c,l 6= x̄c,l , H0 : x̄c,l = x̄ j,l , unabhängige Stichproben, gleiche unbekannte Stan-
dardabweichungen). Beim Merkmal x2 sind nur die Unterschiede zwischen den Klassenpaa-
ren Proband – Patient A sowie Patient A – Patient B signifikant. Für die Zufallsgröße x3 erge-
ben sich richtigerweise keine signifikanten Unterschiede. ¥
Für jede Variante existieren einfachere Tests, die von bekannten und bzw. oder
gleichen Standardabweichungen innerhalb der Stichproben ausgehen. Alle auf der
Normalverteilung beruhenden Tests sind bei kleinen Stichproben empfindlich auf
Ausreißer. Hingegen ist die Robustheit gegenüber der Verletzung von Verteilungs-
annahmen meist relativ groß, solange es sich um kompakte Verteilungen handelt.
Eine erhebliche praktische Bedeutung haben Tests für Binomialverteilungen, weil
sie die Überprüfung wertediskreter Verteilungen zulassen. Deren Parameter ist die
Wahrscheinlichkeit, mit der ein binäres Ereignis auftritt (z. B. kategorisches Merkmal
”Geschlecht weiblich” in einer Stichprobe).
Weitere Tests treffen keine parametrische Verteilungsannahme. Sie werden als
nichtparametrische Tests (Gegenteil: parametrische Tests für Tests auf der Basis
parametrischer Verteilungsfunktionen) bezeichnet. Ein typischer Vertreter ist der
Wilcoxon-Rangsummentest (Synonyme: U -Test von Mann-Whitney, Mann-Whitney-
Wilcoxon-Test, engl. Wilcoxon rank sum test), bei dem die Datentupel bei nomina-
len oder ordinalen Werteskalen entsprechend ihrer Rangfolge sortiert und die Unter-
schiede der summierten Rangordnungen bei Datentupeln aus verschiedenen Stich-
proben ausgewertet werden. Der Vorzeichenrangtest von Wilcoxon (engl. Wilcoxon
signed rank test) testet ebenfalls die Symmetrie einer Verteilung um einen Wert. Alter-
nativ können Merkmale diskretisiert werden, wonach Tests für diskrete Verteilungen
zum Einsatz kommen. Hier ist insbesondere der Vorzeichentest (Synonym: Zeichen-
test, engl. sign test) von Bedeutung, der die Binomialverteilungen für die Häufigkeit
110
5.2 Statistische Verfahren
der Vorzeichen auswertet. Nichtparametrische Tests zeichnen sich durch eine hohe
Robustheit gegenüber Ausreißern aus.
Eine problematische Tatsache bei Data-Mining-Verfahren besteht darin, dass in der
Regel eine Vielzahl von Hypothesen getestet werden muss. Die Vorgehensweise,
dann nur die besten Testergebnisse ungeprüft zu übernehmen, führt zu einer zu op-
timistischen Einschätzung. Die Ursache liegt darin, dass die Testerfüllung wiederum
eine Zufallsgröße ist und eben bei einer Vielzahl getesteter Hypothesen das Risiko
der Fehlinterpretation zufälliger Zusammenhänge steigt. Für den als multiples Testen
bezeichneten Fall gibt es eine Reihe von Korrekturen, die auch die Zahl der überprüf-
ten Hypothesen berücksichtigen [44]. Das bekannteste Verfahren ist die Bonferroni-
Holm-Korrektur. Dabei muss die beste der NHyp getesteten Hypothesen eine Ab-
lehnung der jeweils korrespondierenden Nullhypothese mit P1 < N α erreichen. Die
Hyp
Anforderungen an das Signifikanzniveau α werden also strenger. Analog gilt für die
zweitbeste P2 < N α −1 usw. Insgesamt werden i Hypothesen akzeptiert, wobei der
Hyp
Abbruch erfolgt, wenn die i + 1. Hypothese ein Signifikanzniveau Pi+1 < N α −i ver-
Hyp
fehlt. Allerdings neigen solche Tests zu stark konservativen Resultaten, wenn die
Merkmale untereinander starke Abhängigkeiten aufweisen, was für medizinische Pro-
blemstellungen typisch ist.
Signifikanztests eignen sich hauptsächlich zur univariaten Merkmalsbewer-
tung D23 . In der medizinischen Fachliteratur finden sich extrem viele Arbeiten, bei
denen Signifikanztests für mehrere Stichproben als dominierendes Werkzeug in der
Merkmalsbewertung bei Problemen zur Diagnose oder Therapieevaluierung einge-
setzt werden. Allerdings ist dabei zu berücksichtigen, dass solche Tests nur in be-
grenztem Umfang Aussagen über die qualitativen Unterschiede zwischen den un-
tersuchten Klassen zulassen. Sie nehmen deshalb bei Data-Mining-Aufgaben ei-
ne ergänzende Rolle ein, indem sie mit anderen Bewertungsmaßen gefundene
Zusammenhänge evaluieren oder Bewertungen innerhalb bestimmter Data-Mining-
Verfahren übernehmen.
111
5 Data Mining: Spezielle Verfahren
(M−1
2 M1 − λi I)ãi = 0, (5.19)
resultiert. Für Q aus (5.18) gilt der alternative Berechnungsweg (Spurkriterium, Spur-
Statistik)
sd
Q = ∑ λi mit Q = sp(M−1 T
2 M1 ) = sp(A M1 A) für sd = s. (5.21)
i=1
Dabei finden jeweils Matrizen aus dem Streuungszerlegungssatz Verwendung.
Das Ziel der Hauptkomponentenanalyse als eine Technik der Faktorenanalyse ist
es, eine möglichst große Variation im niederdimensionalen transformierten Merk-
malsraum mit sd Merkmalen zu erzielen.
Die Faktorenanalyse bzw. Faktoranalyse analysiert einen höherdimensionalen
Merkmalsraum mit Merkmalen x, indem sie diesen durch einen niederdimensiona-
len Merkmalsraum mit unkorrelierten Merkmalen xTrans (sogenannte ”Faktoren”) er-
klärt. Dabei wird eine Beziehung x = AFaktor · xTrans + ε mit einem Vektor der nicht
erklärbaren Reste ε angenommen [316]. Für Matrizen mit der Nebenbedingung
112
5.2 Statistische Verfahren
ATFaktor · AFaktor = I gilt nach Multiplikation mit ATFaktor von links die Beziehung für
die lineare Merkmalstransformation xTrans = ATFaktor · x − ATFaktor · ε . Die Hauptkom-
ponentenanalyse ist eine von mehreren möglichen Techniken der Faktorenanalyse,
indem sie die Eigenwertzerlegung in (5.22) zur Ermittlung der unbekannten Faktoren
und der Matrix ATFaktor = A verwendet.
Dieses Ziel darf allerdings nicht über betragsmäßig große Elemente der Transfor-
mationsmatrix A erreicht werden. Deswegen sind die Elemente geeignet zu normie-
ren. Dazu gilt M1 = T, M2 = I: Hier wird die Gesamtvariationsmatrix im transformier-
ten Merkmalsraum maximiert, wobei die Transformationsmatrix aus orthonormalen
Vektoren bestehen muss. Für die Transformationsmatrix gilt à = A (wegen AT IA = I
nach Einsetzen in (5.20)) mit
(T − λi I)ai = 0. (5.22)
was noch eine Modifikation mit (5.20) erfordert. Da sich allerdings die Vektoren nur
durch einen konstanten Skalierungsfaktor α mit ai = α ãi unterscheiden, kann auf die
Modifikation auch verzichtet werden.
Numerische Probleme durch einen Rangabfall bei der Inversion von W sind durch
verschiedene Regularisierungstechniken wie Sc,Reg = (1 − δc )Sc + δc S oder Sc,Reg =
Sc + δc I und das Einsetzen in (5.10) zu behandeln [139, 287]. Der Faktor δc ist ent-
weder heuristisch zu wählen oder über eine Crossvalidierung zu optimieren.
Für die Eigenwerte in (5.23) gilt bei einem Problem mit my Klassen
≥ 0 für i = 1, . . . , min(m − 1, s)
y
λi (5.24)
= 0 für i > my − 1.
113
5 Data Mining: Spezielle Verfahren
λi
(T−1 B − µi I)ai = 0, µi = (5.25)
1 + λi
abweichende Eigenwerte, aber identische Eigenvektoren wie (5.23) auf. Das in der
Literatur häufig verwendete Problem (BW−1 − λ I)ai = 0 hat reziproke Eigenwerte zu
(5.23), aber andere Eigenvektoren.
Ein Vergleich der Diskriminanzanalyse mit weiteren Verfahren der linearen Merk-
malstransformation findet sich beispielsweise in [351].
Bei allen genannten Eigenwertproblemen ist
λi
Qi = (5.26)
∑i=1 λi
s
ein univariates Maß für die relative Bedeutung des i-ten lineartransformierten Merk-
mals.
Oftmals interessiert sich der Auswerter aber weniger für die Bewertung der linear-
transformierten Merkmale, sondern eher für die der ursprünglichen s Merkmale. Auch
hierfür eignen sich die genannten Verfahren. Ein wichtiges Ziel der Bewertung ist die
Merkmalsselektion D18 , die eine möglichst kleine Anzahl von sm Merkmalen aus den
potenziellen s Merkmalen auswählt. Die Nummern der so ausgewählten Merkma-
le sollen in eine Indexmenge I geschrieben werden. Dazu wird nach einer Gruppe
von sm Merkmalen gesucht, die in ihrem Zusammenwirken besonders wichtig sind.
Dieses Vorgehen liefert bessere Ergebnisse als das Heraussuchen der wichtigsten
Merkmale ohne die Analyse ihres Zusammenwirkens, weil Redundanzen (korrelierte
Merkmale) berücksichtigt werden. Die Gleichungen (5.5-5.12) sind nur für die aus-
gewählten Merkmale aus I anzuwenden. Die Matrizen S, Sc , T, B, W haben somit je-
weils die Dimension (sm , sm ). Zum Durchführen einer Merkmalsselektion sind somit
zunächst für alle Hypothesen über geeignete Merkmale oder Merkmalskombinatio-
nen entsprechende Matrizen zu generieren und mit den nachfolgenden Maßen zu
bewerten. Das Verfahren zielt somit nicht direkt auf die lineartransformierten Merk-
male, sondern nutzt die darauf aufbauenden Bewertungsmaße zur Beurteilung der
untersuchten Merkmale. Die aus den Problemen (5.23) oder (5.25) resultierenden
Maße dienen zur Bewertung der gesamten Gruppe aller sm Merkmale in der multiva-
riaten Varianzanalyse [26] (Multivariate ANalysis Of VAriance – MANOVA, Synonym:
mehrdimensionale Varianzanalyse). Alternativ zu (5.18) bzw. (5.21) sind aufbauend
auf den Eigenwerten auch andere Gütemaße wie der maximale Eigenwert (Synonym:
größte charakteristische Wurzel)
114
5.2 Statistische Verfahren
Q = λ1 , (5.27)
das Produktkriterium (insbesondere für M1 = B, M2 = T üblich)
sm
Q = ∏ λi , (5.28)
i=1
115
5 Data Mining: Spezielle Verfahren
schlech-
bester
Verfahren Merkmalsbewertung Q tester
Wert
Wert
sm
Spur-Statistik T 2 sp(W−1 B) = ∑ λi ∞ 0
i=1
Likelihood-Quotienten- |W| sm 1
=∏ 0 1
Kriterium Λ (Wilk’s-Lambda) |T| i=1 1 + λi
größte charakteristische
max λi ∞ 0
Wurzel λmax
sm
Spur-Statistik T 2∗ mit (5.25) sp(T−1 B) = ∑ µi sm 0
i=1
größte charakteristische
max µi 1 0
Wurzel µmax mit (5.25)
Produktkriterium U ? sm
det(T−1 B) = ∏ µi 1 0
mit (5.25) i=1
Tabelle 5.3: Merkmalsbewertungen für D23 (sm = 1) oder D24 (sm > 1) auf der Basis der Ei-
genwerte in (5.23) und (5.25)
116
5.2 Statistische Verfahren
117
5 Data Mining: Spezielle Verfahren
118
5.2 Statistische Verfahren
−10 3
2. Merkmal
2. Merkmal
−15 2
−20
1
−25
0
−30
0 10 20 30 B1: Proband −6 −4 −2 0 2
1. Merkmal B2: Patient A 1. Merkmal
B3: Patient B
c. DA3 (3 Klassen) 4−>2 d. MANOVA (3 Klassen)
2
30
0
25
−2
2. Merkmal
Laborwert x2
20
−4
15
−6
10
−8
5
−10
−2 0 2 4 6 8 −2 0 2 4
1. Merkmal Laborwert x1
Bild 5.3: Transformierte Merkmale für das Beispiel nach a. Hauptkomponentenanalyse ohne
Varianznormierung (oben links), b. Hauptkomponentenanalyse mit Varianznormie-
rung (oben rechts), c. Diskriminanzanalyse im 3-Klassen-Problem (unten links) und
d. Merkmalsselektion der beiden besten Merkmale mit MANOVA I = {1, 2} im 3-
Klassen-Problem (unten rechts)
119
5 Data Mining: Spezielle Verfahren
(DA2 2−Klassen−Problem)
Merkmal Q Q 1
B2: Patient
(2-Kl-Pr.) (3-Kl-Pr.)
Laborwert x1 0.017 0.559 0.5
B1: Proband
I = {1, 2} 0.241 0.678
I = {1, 4} 0.233 0.559 0.5
I = {1, 2, 3} 0.241 0.683
I = {1, 2, 3, 4} 0.241 0.683 0
−30 −20 −10 0
Transformiertes Merkmal
Tabelle 5.4: Univariate und ausgewählte multi- Bild 5.4: Transformierte Merkmale für
variate Merkmalsrelevanzen gemäß das Beispiel nach Diskrimi-
(5.30) für das 2- und 3-Klassen- nanzanalyse im 2-Klassen-
Problem Fall
on allerdings keinen Zugewinn. Eine bessere Merkmalskombination ist x1 , x2 (Bild 5.3d), bei
der alle drei Klassen nach einer Merkmalsselektion gut unterscheidbar sind. Die Auswahl von
drei bzw. vier Merkmalen bringt keine signifikante Verbesserung. Für das 2-Klassen-Problem
gibt es weder ein gutes Merkmal noch eine gute Merkmalskombination. Merkmal x2 liefert
noch den größten Beitrag, weitere Merkmale sind im Prinzip irrelevant. ¥
Ein alternatives Verfahren zur unüberwachten Merkmalstransformation ist die Un-
abhängigkeitsanalyse (engl. Independent Component Analysis, ICA), wo neben der
Unkorreliertheit der transformierten Merkmale auch deren statistische Unabhängig-
keit gefordert wird. Das zugrundeliegende Modell geht davon aus, dass sich die
Merkmale xl durch eine Linearkombination von unbekannten Quellensignalen xTrans,i
ergeben (engl. Blind Source Separation). Damit erfolgt in der Anwendungspha-
se wie bei der Hauptkomponentenanalyse eine Merkmalstransformation mit (3.8).
Allerdings unterscheiden sich die Berechnungsansätze zur Ermittlung der (s, sd )-
dimensionalen Transformationsmatrix A. Die ICA maximiert dabei die geschätzte
Entropie für die transformierten Merkmale durch Modifikation der Transformations-
matrix A (siehe [184, 437] für eine umfangreiche mathematische Herleitung) und ist
deshalb nur durch ein numerisches Optimierungsverfahren lösbar.
Alle genannten Verfahren werden in der Medizin insbesondere zur Transforma-
tion extrem hochdimensionaler Merkmalsräume auf niederdimensionale Merkmals-
räume – insbesondere als Verfahren zur Merkmalsextraktion eingesetzt. So gelingt
120
5.2 Statistische Verfahren
121
5 Data Mining: Spezielle Verfahren
zeitpunkte, Typ II: Bilder) als auch die Transformationsmatrix A bzw. deren Pseudoin-
verse1 A−1 (Typ I: Bilder, Typ II: Abtastzeitpunkte) zur Visualisierung. ICA-Verfahren
für Typ I werden als TICA (Temporal Independent Component Analysis) und für Typ II
als SICA (Spatial Independent Component Analysis) bezeichnet, wobei sich die Na-
mensgebung an den transformierten Merkmalen orientiert [88, 332, 350]. Wegen
der alternierenden Visualisierung der transformierten Merkmale und der zugehöri-
gen Transformationsvektoren sind beide Methoden kaum unterscheidbar, allerdings
liefern sie in der Regel abweichende Ergebnisse.
Eine Vielzahl von Anwendungen verwendet die Hauptkomponentenanalyse zum
Auffinden informationstragender Unterschiede bei bildgebenden Verfahren. Der Vor-
teil ist dabei, dass die Werte der Transformationsvektoren (hier: Eigenvektoren) eben-
falls wieder als Bild visualisiert werden können und so eine Interpretation erlauben.
So werden z. B. in [267] MRT-Daten von 84 Patienten ausgewertet (42 weiblich, 42
männlich), um festzustellen, in welchen Hirnregionen anatomische Unterschiede auf-
treten (Typ Ia).
Ein wichtiges Einsatzgebiet für Typ I ist die Extraktion von Merkmalen aus Zeitrei-
hen. So findet sich beispielsweise in [106] ein umfassender Überblick zum Einsatz
der Hauptkomponentenanalyse bei der Einschätzung der Variabilität von Bewegun-
gen. Die Rohdaten sind dabei Markertrajektorien von Bewegungen, Zeitreihen von
Gelenkwinkeln und EMG-Signale, die Transformation ist vom Typ Ib. Eine Extrakti-
on unabhängiger Signalquellen aus Zeitreihen für MEG-Daten diskutiert [186] am
Beispiel der Analyse visuell evozierter Potenziale (ebenfalls Typ Ib). [87] identifiziert
mit einer ICA fünf unabhängige Komponenten aus dem Zeitverlauf von MRT-Bildern
(Typ Ib). Eine Anwendung für EEG-Zeitreihen zeigt [272] (Typ Ib).
[111] reduziert die 101 Abtastzeitpunkte von 8 verschiedenen Zeitreihen bei Be-
wegungen (3 Kräfte, 3 Momente und 2 Winkel) auf 8 × 3 neue Merkmale (Typ IIa),
um im transformierten Raum die Normalisierung von Patienten mit Kniearthroplasti-
ken anhand einer prä- und einer postoperativen Messung im Vergleich mit Proban-
den aufzuzeigen. Die Darstellung räumlich unabhängiger Regionen der Aktivitäten in
fMRT-Bildern bei gesunden Probanden mit Hilfe einer ICA stellt [124] vor, eine ähnli-
che Anwendung für anästhesierte Kinder zeigt [214] (jeweils Typ IIc).
Eine weitere trickreiche Anwendung der Hauptkomponentenanalyse zeigt [109]
anhand der Klassifikation verschiedener Patientengruppen (einer Kontroll- und fünf
Patienten-Subgruppen mit unterschiedlicher Ausprägung von Multipler Sklerose) mit
der sogenannten Magnetisierungs-Transfer-Kontrast-Technik. Hier werden zunächst
Grauwerthistogramme von Bildern als Einzelmerkmale berechnet, die dann wahlwei-
1
A−1 = (AT · A)−1 AT , in einigen Sonderfällen gilt A−1 = AT .
122
5.2 Statistische Verfahren
1 1 2
p(x|y = Bc ) = p
s · e− 2 dMah,S=ΣΣc (x,x̄c ) , (5.39)
(2π ) 2 Σc )
det(Σ
−1
S−1
c +Sj 1
T
dKL (pc (x), p j (x)) =(x̄c − x̄ j ) (x̄c − x̄ j ) + sp(Sc S−1 −1
j + Sc S j − 2Is )
2 2
(5.40)
³1 1
dKL,min (pc (x), p j (x)) = min (x̄c − x̄ j )T S−1 −1
c (x̄c − x̄ j ) + sp(Sc S j − Is ),
2 2
123
5 Data Mining: Spezielle Verfahren
1 1 ´
T −1 −1
(x̄c − x̄ j ) S j (x̄c − x̄ j ) + sp(S j Sc − Is ) (5.41)
2 2
³ ´−1 S +S
det c 2 j
1 T Sc + S j 1
dBat (pc (x), p j (x)) = (x̄c − x̄ j ) (x̄c − x̄ j ) + ln p . (5.42)
8 2 2 det(Sc S j )
Die Aufgabe bei der Anwendung eines Klassifikators lautet, aus einem gegebenen
reellwertigen Merkmalsvektor eine wertediskrete Entscheidung zu treffen. Beim Ent-
wurf ist der entsprechende funktionelle Zusammenhang festzulegen. Er besteht ent-
weder
• explizit aus einer Entscheidungsfunktion im Merkmalsraum (D2 : ŷ(x)) bzw.
• implizit aus Distanzen zu einer Klasse (D9 : dc (x)) oder aus Verteilungsdichtefunk-
tionen (D10 : pc (x)) sowie A-priori-Wahrscheinlichkeiten D12 für jede einzelne Klas-
se, die in einem nachfolgenden Schritt ausgewertet werden.
Die Trennebenen mit unterschiedlichen Entscheidungen werden oft als Diskrimi-
nanzfunktionen bezeichnet und dürfen nicht mit der Diskriminanzanalyse aus Ab-
schnitt 5.2.3 verwechselt werden.
Der wichtigste statistische Klassifikator ist der Bayes-Klassifikator, der A-posteriori-
Wahrscheinlichkeiten entsprechend D11 (D10 ,D12 ) für eine Klassifikation
124
5.2 Statistische Verfahren
1 T S−1 (x−x̄ ))
P̂(y = Bc ) det(Sc )−1/2 · e(− 2 (x−x̄c ) c c
ŷ = argmaxc my 1 T −1
(5.45)
∑k=1 P̂(y = Bk ) det(Sk )−1/2 · e(− 2 (x−x̄k ) Sk (x−x̄k ))
1 T −1
= argmaxc P̂(y = Bc ) det(Sc )−1/2 · e(− 2 (x−x̄c ) Sc (x−x̄c )) . (5.46)
Vereinfachung Kriterium
in (5.46)
- ŷ = argminc (ln(det(Sc )) − 2 ln(P̂(y = Bc )) + (x − x̄c )T S−1
c (x − x̄c ))
P̂(y = Bc ) = 1 T −1
ŷ = argminc (ln(det(Sc )) + (x − x̄c ) Sc (x − x̄c ))
my
Maximum-Likelihood-Klassifikator
und Sc = S ŷ = argminc ((x − x̄c )T S−1 (x − x̄c ))
c = 1, . . . , my Mahalanobis-Distanz entsprechend (3.36)
und Sc = σ 2 · I ŷ = argminc ((x − x̄c )T (x − x̄c ))
c = 1, . . . , my Euklidische Distanz (Abstandsklassifikator) gemäß (3.34)
125
5 Data Mining: Spezielle Verfahren
Das ist immer dann von Bedeutung, wenn es asymmetrische Präferenzen für Fehl-
entscheidungen gibt (siehe Diskussion in Abschnitt 3.5.4).
Prinzipiell kann dieses Klassifikationskonzept bereits auf die Originaldaten mit s
Merkmalen angewendet werden. Allerdings erfordert die Klassifikation dann die Be-
stimmung extrem vieler Parameter in den geschätzten Mittelwerten und Kovarianz-
matrizen, so dass die erforderliche Menge an Lerndaten zu groß ist (siehe folgendes
Beispiel mit Tabelle 5.6).
Eine bessere Strategie ist eine drastische Reduzierung des Merkmalsraums für
die Klassifikation durch verschiedene Vorverarbeitungsschritte (Merkmalsextraktion,
-selektion, -transformation usw.). Danach wird die bedingte Wahrscheinlichkeit aus
(5.43) berechnet, die von der nachfolgenden Entscheidung D5A wie ein Merkmals-
vektor behandelt wird. Dieser letzte Schritt ist beispielsweise durch (5.44) oder (5.48)
realisiert. Somit entstehen bei der Anwendung Abbildungsreihenfolgen wie
à !
D 18A D D D10A ,D12A 5A D
xRoh [n] →
14A
x[n] → x[n] −→
17A
xTrans [n] −→ P̂[n] → ŷ[n]. (5.49)
(sRoh ,1) (s,1) (sm ,1) (sd ,1) (my ,1) (1,1)
Die verschiedenen Operatoren sind in den Tabellen 3.4 und 3.6 beschrieben. Durch
die Merkmalsselektion und -transformation entsteht ein reduzierter Merkmalsraum.
Somit erhöht sich die statistische Zuverlässigkeit der in diesem Raum geschätzten
Mittelwerte und Kovarianzmatrizen. Das reduziert tendenziell den Klassifikationsfeh-
ler über Testdaten.
Beispiel: Die Ergebnisse unterschiedlicher Klassifikatoren für das 3-Klassen-Problem des
Beispiels verdeutlichen Tabelle 5.6 und Bild 5.5. Im Allgemeinen gelingt es mit transformierten
Merkmalsräumen (wie nach einer Diskriminanzanalyse DA oder einer Merkmalsselektion mit
einer Multivariaten Varianzanalyse MA), gute Ergebnisse zu erzielen.
Eine Reduktion auf ein Merkmal ist allerdings zu einfach, um gute Ergebnisse zu erzie-
len. Das verdeutlicht auch der Boxplot für das ausgewählte Merkmal x1 , der noch deutliche
Überlappungen aufweist (Bild 5.6a).
Besonders einfache und stückweise lineare Trennflächen ergeben sich bei der Verwendung
Euklidischer Distanzen mit Sc = I in (5.46). Allerdings kann es so zu einer zu stark vereinfach-
ten Klassentrennung kommen (Bild 5.5a), bei der einige Datentupel auf der falschen Seite der
Trennflächen liegen. Mahalanobis-Distanzen (Bild 5.5b) und klassenspezifische Kovarianz-
matrizen (Bild 5.5c) verbessern in der Regel die Ergebnisse, weil hier gebogene Trennflächen
entstehen können.
Die Konsequenzen einer wahrscheinlichkeitsorientierten Entscheidung gemäß (5.44) (Ab-
kürzung W) und einer kostenorientierten Entscheidung gemäß (5.48) (Abkürzung K) jeweils
mit und ohne Berücksichtigung von A-priori-Wahrscheinlichkeiten (mit: AW, AK, ohne: W,
K) zeigt Bild 5.5d. A-priori-Wahrscheinlichkeiten vergrößern stets die Entscheidungsgebie-
te häufigerer Klassen, indem sich die Klassengrenzen in Richtung der selteneren Klassen
126
5.2 Statistische Verfahren
0 0
−2 −2
2. Merkmal
2. Merkmal
−4 −4
−6 −6
−8 −8
−10 −10
B1: Proband
−2 0 2 4 6 8 −2 0 2 4 6 8
1. Merkmal B2: Patient A 1. Merkmal
c. Sc (AK) B3: Patient B d. Sc (K,W,AK,AW)
2 2 AW AW
AK AK
0 0 W W
−2 −2 K K
2. Merkmal
2. Merkmal
−4 −4
−6 −6
−8 −8
−10 −10
−2 0 2 4 6 8 −2 0 2 4 6 8
1. Merkmal 1. Merkmal
127
5 Data Mining: Spezielle Verfahren
B2: Patient A
2 60
1
0 40
−1
20
−2
−3 0
B1 B2 B3 0 50 100
Diagnose (3 Klassen) B1: Proband
128
5.2 Statistische Verfahren
Tabelle 5.6: Auswirkungen verschiedener Klassifikatoren und Merkmale für das 3-Klassen-
Problem, Abkürzungen AN: Merkmalsselektion mit univariater Varianzanaly-
se, MA: Merkmalsselektion mit multivariater Varianzanalyse (Bild 5.3d), je-
weils zwei transformierte Merkmale, Parameter der Verteilungsdichtefunkti-
on (VDF) Sc : klassenspezifische Kovarianzmatrizen, Euk: Euklidische Distanz,
Mah: Mahalanobis-Distanz, DA: Diskriminanzanalyse (Bild 5.3c), A: mit A-priori-
Wahrscheinlichkeiten, K: Kosten, W: ohne Kosten, LD: Lerndatensatz, 5CV: 10
Versuche 5-fache Crossvalidierung, 2CV: 10 Versuche 2-fache Crossvalidierung,
∗a−d siehe Teilbild a − d von Bild 5.5
129
5 Data Mining: Spezielle Verfahren
Reduzierung um Eins entstammt der Nebenbedingung, dass die Summe aller Wahrschein-
lichkeiten Eins ist.
Somit ergeben sich z. B. für eine Variante mit DA (4 → 2): (4 − 1) · 2 = 6 Parameter, Mah:
(3 · 2 · 1/2 = 3 Parameter), AK: 3 − 1 = 2 Parameter, Klassenmittelwerte: 3 · 2 = 6 Parameter
folglich insgesamt 17 Parameter.
Die Auswirkungen zu vieler freier Parameter zeigen sich besonders bei kleineren Daten-
mengen. Bei einer 2-fachen Crossvalidierung stehen z. B. im 3-Klassen-Fall für die drei Klas-
sen nur noch 100/10/5 Lerndatentupel zur Verfügung. Bei Verwendung aller Merkmale steigen
die Klassifikationsfehler gegenüber einer 5-fachen Crossvalidierung (160/16/8 Lerndatentu-
pel) zwar moderat von 5.6 auf 6.8 % an, allerdings steigen die Kosten von 0.12 auf 0.27
auf mehr als das Doppelte. Die Ursache dafür liegt in der schlechten Schätzung der Kovari-
anzmatrix für Klasse B3 (sd = 4 : (sd + 1) · sd /2 = 5 · 2 = 10) aufgrund der kleineren Anzahl
an Datentupeln (5). Weniger ausgeprägt ist dieser Anstieg bei DA mit Mahalanobis-Distanz:
2.2 % → 3.7 % (Klassifikationsfehler), 0.08 → 0.12 (Kosten), weil hier weniger Parameter zu
schätzen sind (sd = 2 : ((sd + 1) · sd /2 = 3 · 1 = 3)).
Insgesamt sind aber hier die meisten Parameterzahlen noch unproblematisch. In einigen
Fällen kommt es sogar zufällig zu geringeren Kosten über Testdaten. ¥
Die geschätzten Klassifikationsgüten bieten auch einen Zugang zur Merkmals-
transformation. Der Zugang ist u. U. besser als der über die Diskriminanzanalyse, weil
das Kriterium (5.18) für die Klassifikationsgüte oder Kosten nur suboptimal ist. Mit Be-
wertungsmaßen wie (3.56) lassen sich Rückkopplungen aufbauen, die zunächst ei-
ne Transformationsvorschrift A ansetzen (Startwerte z. B. aus Diskriminanzanalyse).
Daraus sind transformierte Merkmale zu berechnen (D17 ), mit (5.46) bedingte Wahr-
scheinlichkeiten (D11 ) zu ermitteln, woraus sich der Gütewert in (3.56) ergibt. Die
Wahrscheinlichkeit P̂(ŷ = Bc ∩ y = Bc ) hängt dann von der Transformationsvorschrift
A ab. Darauf aufbauend kann nun eine numerische Optimierung von A vorgenom-
men werden:
?
D17 mit A D (3.56)
X −→ X −→
11
P̂ −→ Q.
(N,s) (N,sd ) (N,my ) (1,1)
Die grundsätzliche Philosophie ist auf andere Gütemaße (z. B. unter Berücksichti-
gung von Klassifikationskosten) übertragbar.
Klassifikationsprobleme spielen in der klinischen Praxis insbesondere bei hoch-
dimensionalen Merkmalsräumen eine wesentliche Rolle. So beschreibt beispielswei-
se [238] die Detektion von Augentumoren aus MRT-Bildern. Dabei werden Form- und
Texturmerkmale extrahiert und mit Hilfe von klassenspezifischen Kovarianzmatrizen
fünf Klassen und einer Rückweisungsklasse (unähnlich zu allen anderen Klassen)
130
5.2 Statistische Verfahren
5.2.6 Nearest-Neighbor-Verfahren
Die Indexmenge Ik−NN (x) enthält die Indices der k nächstgelegenen Datentupel In ,
die in (5.51) nach aufsteigenden Distanzen zum unbekannten Datentupel sortiert
werden. Oftmals findet die Euklidische Distanz (3.34) Verwendung.
• Die Berechnung der Ausgangsgröße erfolgt durch Übernahme der häufigsten zu-
gehörigen Ausgangsgröße innerhalb dieser k Datentupel:
131
5 Data Mining: Spezielle Verfahren
132
5.2 Statistische Verfahren
dem Lerndatensatz sind diese Klassifikatoren stets fehlerfrei, solange keine Datentupel mit
identischen Merkmalswerten, aber abweichenden Ausgangsgrößen existieren.
Eine Erhöhung von k lässt Fehler im Lerndatensatz zu, bewirkt aber tendenziell glattere
Trennflächen. Allerdings begünstigt sie nahe der Klassengrenzen die Klassen mit einer grö-
ßeren Dichte von Datentupeln. Das führt hier wegen der geringeren Dichte der beiden Patien-
tenklassen zu einer unerwünschten Verschiebung der Trennflächen zugunsten der Proban-
denklasse. Sehr große k wie k = 10 sind darum insbesondere unter Kostenaspekten negativ
zu bewerten.
Besonders niedrige Klassifikationsfehler ergeben sich mit einer vorherigen Diskriminanz-
analyse (DA) mit zwei transformierten Merkmalen. Auch eine Merkmalsselektion mit MANO-
VA zugunsten der besten beiden Merkmale x1 , x2 ist besser als eine Verwendung des kom-
pletten Merkmalssatzes, der durch das nicht informationstragende Merkmal x3 beeinflusst
wird.
Metrikeffekte spielen eine wichtige Rolle, weil Merkmale mit größeren Streuungen die Er-
gebnisse stärker beeinflussen als Merkmale mit geringeren Streuungen. Dieser Effekt kann
durch eine vorherige Varianznormierung aller Merkmale oder eine veränderte Metrik (z. B.
Mahalanobis-Distanz) berücksichtigt werden. Eine Varianznormierung ist hier vorteilhaft, weil
sie insbesondere das nicht informationstragende Merkmal x3 in seiner Wirkung reduziert und
133
5 Data Mining: Spezielle Verfahren
a. k−NN mit k=1 (ohne Varianznormierung) b. k−NN mit k=3 (ohne Varianznormierung)
30 30
25 25
Laborwert x2
Laborwert x2
20 20
15 15
10 10
5 5 B1: Proband
B2: Patient A
−2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1 B3: Patient B
c. k−NN mit k=1 (mit Varianznormierung) d. k−NN mit k=3 (mit Varianznormierung)
4 4
3
Laborwert x2 (normiert)
Laborwert x2 (normiert)
2 2
1 1
0 0
−1 −1
−2 0 2 −2 0 2
Laborwert x1 (normiert) Laborwert x1 (normiert)
zudem das Merkmal x2 mit seiner geringen Spannweite genauso stark berücksichtigt wie das
Merkmal x1 mit seiner großen Spannweite (Bild 5.7c, d).
Die Ergebnisse zeigen, dass eine vorherige Merkmalsselektion oder -transformation ent-
scheidenden Einfluss ausübt. Unterschiedliche Entscheidungskosten beeinflussen die Ergeb-
nisse hingegen nicht, weil das verwendete Kriterium (5.52) die Kosten nicht einbezieht. ¥
Ein wichtiges Anwendungsgebiet für Nearest-Neighbor-Verfahren ist die Segmen-
tierung von Bildern. In [450] wird aus multispektralen MRT-Bildern eine quantitative
Bestimmung von Tumorgrößen von Hirntumoren vor, während und nach einer Che-
motherapie vorgenommen. Hier wird ein k-NN-Klassifikator mit einem Klassifikator
auf der Basis einfacher Grauwertschwellwerte, einem Fuzzy-Clusterverfahren und ei-
nem manuellen Klassifikator verglichen. Sowohl der k-NN-Klassifikator als auch das
Fuzzy-Clusterverfahren zeigen plausible Ergebnisse in angemessener Rechenzeit im
134
5.3 Support-Vektor-Maschinen
5.3 Support-Vektor-Maschinen
Die Idee bei der Nutzung von Support-Vektor-Maschinen (SVM, engl. Support Vec-
tor Machines) besteht darin, zunächst eine optimale Trennebene zur Separation von
Datentupeln zweier Klassen zu finden. Dabei werden zwei Ziele verfolgt: Die Trenn-
ebene soll einen möglichst großen (Sicherheits-) Abstand zu den nächstgelegenen
Datentupeln aufweisen und dabei keine oder zumindest möglichst wenige Klassifi-
kationsfehler verursachen. Die nächstgelegenen Datentupel und eventuelle Klassifi-
kationsfehler werden als Support-Vektoren bezeichnet und bestimmen die Lage der
Trennebene.
In der mathematischen Formulierung (für eine ausführliche Herleitung siehe
[77, 103, 404]) werden die zwei Klassen stets durch die Werte y = 1 und y = −1
kodiert. Anschließend erzeugt eine Lineartransformation mit dem Vektor a und einem
Absolutterm a0 ein skalares transformiertes Merkmal3
xTrans = xT · a + a0 . (5.53)
Die Bedingung einer fehlerfreien Klassifikation im Lerndatensatz wird durch die Ne-
benbedingungen
135
5 Data Mining: Spezielle Verfahren
formuliert. Die nächstgelegenen Punkte für die beiden Klassen zur Trennebene
xTrans = 0 erfüllen genau die Gleichungsrestriktion in (5.55)4 und legen somit den
letzten verbliebenen Freiheitsgrad in (5.53) fest (Normierung von a).
Die Summe ihrer Abstände zur Trennebene ist zu maximieren:
|1 − a0 | |1 + a0 | |2|
Q= + = → max . (5.56)
kak kak kak a
136
5.3 Support-Vektor-Maschinen
N
1 N N
QNR = ∑ λn − ∑ ∑ λiλ j y[i]y[ j]x[i]T x[ j] → λ1max
2 i=1 ,...,λN
(5.63)
n=1 j=1
mit den Restriktionen (5.62) und (5.57). Eine weitere interessante Eigenschaft zeigt
sich, wenn (5.61) in die Transformationsvorschrift (5.53) eingesetzt wird. Dabei be-
einflussen nur die Datentupel mit nicht verschwindenden Lagrange-Faktoren λsup :
λn > 0 das Ergebnis, die als Support-Vektoren bezeichnet werden:
N
xTrans (x) = xT · a + a0 = ∑ λny[n]xT x[n] + a0 = ∑ λn y[n]xT x[n] + a0 . (5.64)
n=1 n mit λn ∈λ sup
erlaubt. In Erweiterung von (5.58) sind nun zusätzlich die Anzahl und das Ausmaß der
Fehlklassifikationen mit einem frei wählbaren Wichtungsfaktor C ≥ 0 zu minimieren
und die Ungleichungsrestriktion ξn ≥ 0 durch zusätzliche Lagrange-Multiplikatoren µn
zu berücksichtigen:
N N N
1
QL = kak2 +C ∑ ξn − ∑ λn (y[n](x[n]T · a + a0 ) − 1 + ξn ) − ∑ µn ξn . (5.68)
2 n=1 n=1 n=1
Je größer C ist, desto stärker versucht die SVM, Fehlklassifikationen im Lerndaten-
satz zu vermeiden. Ein Auflösen der scheinbar deutlich komplizierteren Gleichungen
zeigt nur eine geringfügige Änderung im Vergleich zur bisherigen Lösung. Durch Ab-
leiten nach ξn ergeben sich die zusätzlichen Bedingungen C − λn − µn = 0, die wegen
der hier nichtnegativen µn nur durch modifizierte Nebenbedingungen
0 ≤ λn ≤ C, n = 1, . . . , N (5.69)
lösbar sind. Damit bleibt auch hier das Problem (5.63) zu lösen, nur dass sich zur
Nebenbedingung (5.62) nun (5.69) anstelle von (5.57) gesellt.
137
5 Data Mining: Spezielle Verfahren
138
5.3 Support-Vektor-Maschinen
Der Wert für xTrans,H [i]T · xTrans,H [ j] lässt sich jetzt sowohl über das Ausmultiplizieren der
transformierten Merkmale aus (5.81)
xTrans,H [i]T · xTrans,H [ j] = x1 [i]2 x1 [ j]2 + x2 [i]2 x2 [ j]2 + 2x1 [i]x1 [ j]x2 [i]x2 [ j] (5.82)
als auch über einen homogenen Polynom-Kern mit p = 2 aus (5.77) mit
µ³ ´ ³ ´T ¶2
K(x[i], x[ j]) = x1 [i] x2 [i] · x1 [ j] x2 [ j] (5.83)
ermitteln. Mit (5.83)-(5.85) können Skalarprodukte für die transformierten Merkmale wie in
(5.74) direkt berechnet werden. Die höherdimensionalen transformierten Merkmale in (5.81)
müssen niemals explizit ermittelt werden (und können im Extremfall sogar unbekannt sein),
sie sind lediglich durch den Kern implizit gegeben. ¥
Lineare Trennfunktionen in einem höherdimensionalen Merkmalsraum ergeben
dann nichtlineare Trennfunktionen im ursprünglichen niederdimensionalen Merkmals-
raum. Auch hier garantiert die Vorgehensweise das Finden der global optimalen Lö-
sung für die nun nichtlineare Trennfunktion.
Mehrklassenprobleme werden durch den Entwurf mehrerer SVMs behandelt, ent-
weder für einen paarweisen Vergleich zwischen allen Klassen oder für einen Ver-
gleich jeder Klasse gegen die ODER-Verknüpfung aller anderen Klassen.
Bei einem paarweisen Vergleich für alle C Klassen (engl. one-against-one) werden
zunächst separate Support-Vektor-Maschinen für alle Klassenpaare entworfen (1 ge-
gen 2, 1 gegen 3, . . ., 1 gegen C, . . ., C − 1 gegen C). Die benötigte SVM-Anzahl
lautet 12 ·C · (C − 1).
Bei einem Vergleich gegen die ODER-Verknüpfung aller anderen Klassen (engl.
one-against-all) werden nur C SVMs benötigt (1 gegen 2 ODER ... ODER C, 2 gegen
1 ODER 3 ODER . . . ODER C, . . ., C gegen 1 ODER 2 ODER . . . ODER C − 1). Auf-
grund der meist komplizierteren Geometrie der ODER-verknüpften Restklassen ist in
der Regel der Einsatz nichtlinearer SVMs sinnvoll. Dennoch sind die Klassifikations-
fehler oftmals größer als bei einer Dekomposition nach dem Schema one-against-
one.
Das Fusionieren der Teilergebnisse durch eine Klassifikatorfusion erfolgt beispiels-
weise zugunsten der am häufigsten gewählten Ausgangsklasse für alle 2-Klassen-
139
5 Data Mining: Spezielle Verfahren
140
5.3 Support-Vektor-Maschinen
30 30
25 25
Laborwert x2
Laborwert x2
20
20
15
15
10
10
5
5
−2 0 2 4 B1: Proband −2 0 2 4
Laborwert x1 B2: Patient A Laborwert x1
c. SVM mit Polynom−Kern (p=3) B3: Patient B d. SVM mit RBF−Kern (p=1)
30 30
25 25
Laborwert x2
Laborwert x2
20 20
15 15
10 10
5 5
−2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1
141
5 Data Mining: Spezielle Verfahren
142
5.3 Support-Vektor-Maschinen
30 30
25 25
Laborwert x2
Laborwert x2
20 20
15 15
10 10
5 5
0 0
−1 0 1 2 3 4 5 −1 0 1 2 3 4 5
Laborwert x1 Laborwert x1
B1: Proband
c. SVM mit C=10000 B2: Patient A d. SVM mit C=1000000
35 35
30 30
25 25
Laborwert x2
Laborwert x2
20 20
15 15
10 10
5 5
0 0
−1 0 1 2 3 4 5 −1 0 1 2 3 4 5
Laborwert x1 Laborwert x1
143
5 Data Mining: Spezielle Verfahren
?=B1
x1
5.4 Entscheidungsbäume
Ein Entscheidungsbaum ist ein Modell für einen mehrstufigen Auswerteprozess zur
Berechnung einer Ausgangsgröße für ein Datentupel anhand der Werte seiner Merk-
male. Die Idee besteht darin, die Auswertung durch schrittweise hintereinander aus-
zuführende Entscheidungen vorzunehmen. Übersichten über Entscheidungsbäume
finden sich beispielsweise in [70, 287, 359].
In einer formalen Darstellung ist ein Entscheidungsbaum ein Graph, der aus Kno-
ten und Zweigen besteht (vgl. Beispiel in Bild 5.10). Jeder Knoten enthält eine Funk-
tion zur Bestimmung der geschätzten Ausgangsgröße ŷ(·) und optional ein Merkmal
xl zur weiteren Auftrennung. In der obersten Hierarchieebene befindet sich der Wur-
zelknoten. Jeder Knoten einer niedrigeren Hierarchieebene ist durch einen Zweig mit
genau einem Knoten der nächsthöheren Hierarchieebene verbunden (Vorgängerkno-
ten). Zu jedem Zweig gehört ein wertediskreter Wert des Merkmals xl des Knotens
der nächsthöheren Hierarchieebene (z. B. in Bild 5.10 x1 = A1,1 für den linken Zweig,
der vom Wurzelknoten abgeht). Vom Knoten der höheren Hierarchieebene aus gese-
hen entspricht die Anzahl der abgehenden Zweige somit stets der Anzahl der mögli-
chen Werte ml , z. B. ml = 5 für alle Knoten im Bild 5.10. Ein Knoten heißt Endknoten,
wenn von ihm keine Zweige zur nächstniedrigeren Hierarchieebene abgehen.
In der Entwurfsphase gehört zu jedem Knoten ein eigener Lerndatensatz. Der
Lerndatensatz wählt die Datentupel aus dem Lerndatensatz des Knotens der nächst-
höheren Hierarchieebene aus, die den Werten des beide verbindenden Zweiges ent-
144
5.4 Entscheidungsbäume
sprechen. Der komplette Lerndatensatz wird nur im Wurzelknoten verwendet. Für je-
den Knoten wird anhand eines Bewertungsmaßes eine Funktion zur Bestimmung der
geschätzten Ausgangsgröße ŷ(·) festgelegt. Wenn die Datentupel in einem Knoten
homogen bezüglich des Bewertungsmaßes sind, ist
ihre weitere Auftrennung nicht notwendig. Der Knoten wird somit zu einem End-
knoten. Wenn die Datentupel noch Inhomogenitäten aufweisen, werden sie in Ab-
hängigkeit vom Wert eines Merkmals xl aufgespalten (im Bild 5.10 unterer Eintrag im
Knoten, z. B. x1 im Wurzelknoten). Wenn ein bestimmter Wert im Lerndatensatz nicht
vorkommt, wird für diesen Zweig ein Endknoten generiert, der die Ausgangsgröße
des übergeordneten Knotens übernimmt.
Die Auswahl des optimalen Merkmals xl erfolgt über eine univariate Merkmalsbe-
wertung D23 für den zum Knoten gehörenden Lerndatensatz. Jeder Zweig nimmt eine
Datentupelselektion D22 vor, die für den Knoten der niedrigeren Hierarchieebene gilt.
Wertekontinuierliche Merkmale müssen zunächst geeignet diskretisiert werden.
Das Aufspalten wird für jeden Knoten durchgeführt, bis in der jeweils unters-
ten Hierarchieebene nur noch Endknoten entstehen. Jedes Datentupel lässt sich
genau einem Endknoten zuordnen. Es handelt sich somit um Teile-und-Herrsche-
Algorithmen zum Dekomponieren von Lerndatensätzen. Eventuell auftretende feh-
lende Werte in einem Lerndatensatz können optional als zusätzliche Werte betrachtet
werden. Damit erhöht sich die Zahl der zulässigen Werte und der abgehenden Zwei-
ge ml := ml +1. Fuzzy-Entscheidungsbäume [197, 479] lassen fuzzifizierte Merkmale
zu. Damit werden die Datentupelselektionen, Lerndatensätze und Zuordnungen von
Datentupeln zu Endknoten unscharf.
Ein Entscheidungsbaum lässt sich auch als Regelbasis mit scharfen oder unschar-
fen (Fuzzy-) Regeln darstellen. Hierbei entsteht aus jedem Endknoten eine Regel
(Algorithmus siehe S. 173 in Abschnitt 5.5). Solche Regelbasen decken prinzipiell
den gesamten Merkmalsraum ab.
In der Anwendungsphase beginnt die Auswertung eines gegebenen Entschei-
dungsbaums für ein Datentupel mit unbekannter Ausgangsgröße im Wurzelknoten.
Dort wird derjenige Zweig ausgewählt, der zum Wert des Merkmals im Wurzelknoten
gehört. Im Nachfolgeknoten, den der Zweig mit dem Wurzelknoten verbindet, wird
wiederum das dortige Merkmal untersucht und der zum Wert des Merkmals pas-
sende Zweig sowie der nächste Knoten ausgewählt. Das wird iterativ solange wie-
derholt, bis ein Endknoten erreicht wird. Der Endknoten liefert dann die geschätzte
Ausgangsgröße des Datentupels. Die geschätzten Ausgangsgrößen in den vorher
durchlaufenen Knoten werden ignoriert. Entscheidungsbäume erfordern nur einen
geringen Rechenaufwand in der Anwendungsphase. Ihre Auswertung besteht ledig-
145
5 Data Mining: Spezielle Verfahren
Alle Bewertungsmaße beziehen sich prinzipiell nur auf den selektierten Lerndaten-
satz im i-ten Knoten.
Entscheidungsbäume eignen sich für Entscheidungs-, Klassifikations- und Regres-
sionsprobleme. Bei Entscheidungs- oder Klassifikationsproblemen wird mit Hilfe ei-
nes geeigneten Maßes für D25 eine Funktion ŷ = Bc ermittelt. Meist ist Bc die häu-
figste Ausgangsklasse im Knoten, was der Klasse mit dem geringsten Klassifikations-
fehler (3.53) entspricht. Alternativ kann aber auch die kostengünstigste Entscheidung
entsprechend (3.59) gewählt werden. Die gewählte Ausgangsklasse wird im Bild 5.10
als oberer Wert in jedem Knoten eingetragen, z. B. ŷ = B1 im Wurzelknoten. Im Falle
eines Regressionsproblems ist die Funktion ŷ(·) ein Regressionsansatz, der nur für
diesen Knoten gilt. Oftmals handelt es sich lediglich um Konstanten ŷ = a0,i für den i-
ten Knoten (z. B. Classification and Regression Trees CART [70]). Es existieren aber
auch lineare Modelle mit ŷ(x) = aTi x + a0,i mit separaten Transformationsvektoren ai
und Absoluttermen a0,i für jeden Knoten (siehe z. B. lineare Modelle [360, 446], LO-
LIMOT [172, 325]). Alternativ dazu sind auch nichtlineare Funktionen möglich. Als
Bewertungsmaß kommt ein regressionsorientiertes Maß D27 wie z. B. (3.73) zum
Einsatz.
146
5.4 Entscheidungsbäume
QTwoing (xl ) =
P̂(xl = Al,1 )P̂(xl = Al,2 ) ³ y ¯¯ ¯´2
m
147
5 Data Mining: Spezielle Verfahren
für jedes Merkmal jede mögliche Diskretisierung für die Ni Datentupel im i-ten Kno-
ten. Das führt zwar oftmals zu guten Lösungen, erfordert aber einen hohen Rechen-
aufwand und ist bei größeren Entscheidungsbäumen u. U. schwer interpretierbar.
Beispiel: Einen Entscheidungsbaum für das Beispiel zeigt Bild 5.10. Es handelt sich hier-
bei um einen Baum für ein Klassifikationsproblem, der mit der Transinformation pro Aus-
gangsentropie (3.52) mit den statistischen Korrekturen entsprechend (3.49) und (3.50) ermit-
telt wurde.
Die Diskretisierung erfolgt vor dem Entwurf des Entscheidungsbaums durch ein Cluster-
verfahren. Der diskretisierte Wert xDis,l basiert auf der Nummer des Clusters für jedes Daten-
tupel:
xDis,l [n] = argmini dEuk (xl [n], al,i ). (5.87)
Das eingesetzte Clusterverfahren arbeitet separat für jedes Merkmal mit ml = 5 Cluster-
zentren al,i und Euklidischen Distanzen (Ergebnis siehe Tabelle 5.9, Verfahren siehe Ab-
schnitt 5.7).
Tabelle 5.9: Clusterzentren als Basis für die Diskretisierung mit jeweils eindimensionalen
Clusterverfahren und ml = 5
mit den Elementen P̂(y = Bc ∩ x1 = A1,i ). Für die Variante B mit gerundeten Werten
³ ´
a1 = −2 0 1 2 3 (5.90)
folgt
0.000 0.230 0.417 0.196 0.026
P̂(y ∩ xl ) = 0.000 0.000 0.000 0.013 0.074 . (5.91)
0.039 0.004 0.000 0.000 0.000
148
5.4 Entscheidungsbäume
Die entsprechenden Entropieberechnungen zeigt Tabelle 5.10. Der relativ hohe Wert der
Transinformation pro Ausgangsentropie zeigt ein informationstragendes Merkmal an. Ein
ideales Merkmal hat den Wert Eins, ein komplett informationsloses den Wert Null. Hingegen
weist der relativ niedrige Wert der Transinformation pro Eingangsentropie darauf hin, dass
eine Diskretisierung mit fünf Werten für das Beispiel etwas zu fein ist. Die Werte der Fehler-
terme in den Klammern belegen, dass die gefundenen Zusammenhänge relevant sind. Die
Fehlerfortpflanzungen für (3.51) und (3.52) werden dadurch approximiert, dass die Transin-
formation im Zähler um den Korrekturwert der Gesamtentropie (3.50) mit einem Sicherheits-
faktor Kstat reduziert und die Ein- bzw. Ausgangsentropie um ihre jeweiligen Korrekturwerte
(3.49) mit einem Sicherheitsfaktor erhöht werden:
Mit Variante A, allen anderen Diskretisierungen aus Tabelle 5.9 und Kstat = 2.5 wird nun ein
Entscheidungsbaum berechnet. Die Details über die einzelnen Knoten, wie Nummer, Vorgän-
gerknoten in der höheren Hierarchieebene, zugehöriger Wert des Merkmals für den Zweig zur
höheren Hierarchieebene, Entscheidung ŷ im Knoten, Merkmal zur Auftrennung, Merkmals-
bewertung, Anzahl Fehler und Anzahl Datentupel im Knoten können Tabelle 5.11 entnommen
werden.
Im Wurzelknoten gibt es mit x1 und x4 zwei nahezu gleichwertige Merkmale mit einer Merk-
malsbewertung von Q1 = 0.60 und Q4 = 0.57.
149
5 Data Mining: Spezielle Verfahren
Der Baum entscheidet sich für das etwas bessere Merkmal x1 zum Auftrennen. Allerdings
kann eine leichte Modifikation des Lerndatensatzes bzw. der Diskretisierung eine andere Auf-
trennung mit x4 und somit einen vollständig anders entwickelten Baum bewirken. Die zugehö-
rige Entscheidung ist im Wurzelknoten B1 (Proband). Eine Auftrennung in die fünf Nachfolge-
knoten bringt eine deutliche Verbesserung. Die Knoten 2 und 4 sind fehlerfrei. Die Knoten 3
und 6 verursachen nur je einen Fehler, wobei kein weiteres Merkmal eine statistisch rele-
vante Verbesserung erreicht. Ein zu niedriger Sicherheitsfaktor (z. B. 1) sorgt hingegen für
eine Aufspaltung. Knoten 5 mit 8 Fehlern kann durch Aufspalten mit Merkmal x2 (Q2 = 0.60)
weiterentwickelt werden. Die daraus entstehenden Knoten 7-11 lösen das Problem bereits
mit wenigen Restfehlern. Die Auftrennung in Knoten 10 nutzt das eigentlich informationslose
Merkmal x3 . Eine solche Überanpassung kann durch geeignete Pruningverfahren, durch eine
schärfere statistische Abschätzung mit einem vergrößerten Strafterm (z. B. mit Kstat = 5 in
(5.92) und einem entsprechenden Wert von Q3 = 0 in Knoten 10) unterdrückt werden. Der
Knoten 10 wird dann zu einem Endknoten.
Die so entstehenden Trennflächen ohne die Knoten 11-16 zeigt Bild 5.11. Aufgrund
der wertediskreten Merkmale und der schrittweisen Entscheidungen in den Hierarchieebe-
nen des Entscheidungsbaums sind die Trennflächen stets stückweise achsenparallel und
150
5.4 Entscheidungsbäume
B1: Proband
B2: Patient A
B3: Patient B
22.18
Laborwert x2
15.64
11.50
7.99
4.02
Bild 5.11: Klassengrenzen des Entscheidungsbaums aus Bild 5.10 und Tabelle 5.11 (ohne
Knoten 11-16)
verlaufen nur an den Grenzen zwischen den Einzugsgebieten von zwei Clusterzentren
(0.5 · (al,i+1 − al,i ), i = 1, . . . , ml − 1). Die Grenzen befinden sich immer in der Mitte zwischen
zwei dünn gepunkteten Linien, welche die Lage der Clusterzentren kennzeichnen. ¥
Im Idealfall eines ungestörten und durch die diskreten Werte eindeutig lösbaren
Lerndatensatzes garantiert der Entscheidungsbaum ein fehlerfreies Lernen. Bei ge-
störten und nicht eindeutigen Daten wird ein an den Lerndatensatz angepasster Ent-
scheidungsbaum generiert, der auch die Störungen modelliert. Deswegen ist er nicht
zwangsläufig in der Lage, befriedigend zu generalisieren, d. h. Ausgangsgrößen für
nicht im Lerndatensatz enthaltene Datentupel richtig zu schätzen.
Der Effizienz des Baum-Induktionsverfahrens stehen allerdings verschiedene
Nachteile gegenüber:
• Die Reihenfolge der Spezialisierungen, die von den Lerndaten abhängt, entschei-
det darüber, welcher Entscheidungsbaum entsteht. Zwei unterschiedliche Daten-
sätze desselben Prozesses können so zu unterschiedlichen Entscheidungsbäu-
men führen.
• Einige Zusammenhänge werden unnötig kompliziert ausgedrückt, z. B. durch meh-
rere identische Teilbäume in tieferen Hierarchieebenen.
• Bei den dargestellten Entscheidungsbäumen liegen die Klassengrenzen zwischen
verschiedenen Entscheidungen immer achsenparallel.
151
5 Data Mining: Spezielle Verfahren
• Bei gestörten und nicht eindeutigen Daten lernt der Entscheidungsbaum auch die
Störung auswendig und ist nicht in der Lage, befriedigend zu generalisieren.
• Viele Entscheidungen in Endknoten sind statistisch schlecht abgesichert, u. a. we-
gen zu komplizierter Ausdrücke des Entscheidungsbaums.
Neben den dargestellten Bäumen gibt es auch eine Reihe von Erweiterungen. Bei-
spielsweise können anstelle einer Merkmalsselektion nichtachsenparallele Klassen-
grenzen [319, 449] (engl. oblique trees) oder gemeinsame Nachfolgeknoten zugelas-
sen werden.
Aus Entscheidungsbäumen lassen sich auch multivariate Merkmalsbewertungen
ableiten, indem die ohnehin vorhandenen univariaten Merkmalsbewertungen aller
Knoten zusammengefasst werden. Die Bewertung im Wurzelknoten ist rein univa-
riat. Die Knoten tieferer Hierarchieebenen berücksichtigen hingegen Redundanzen
zwischen mehreren Merkmalen. Die Ursache liegt darin, dass durch die bereits ge-
troffenen Entscheidungen in höheren Hierarchieebenen nur die Merkmale in tieferen
Hierarchieebenen noch Vorteile für die Separierung widersprüchlicher Ausgangsklas-
sen bringen, die nicht zu stark mit den bereits ausgewählten Merkmalen zusammen-
hängen. Eine gewichtete Summe von Merkmalsrelevanzen aller Knoten eines Ent-
scheidungsbaums ist somit ein Maß für die multivariaten Relevanzen verschiedener
Merkmale. Jeder Knoten vi geht dabei um so stärker ein, je größer Ni ist. Die Forma-
lisierung dieser Idee liefert die Merkmalsrelevanz für das l -te Merkmal:
NKnoten Hi (xl ; y)
∑ Ni
i=1 Hi (y)
Ql = NKnoten
. (5.93)
∑ Ni
i=1
Im Unterschied zu MANOVA beziehen sich die Relevanzen nicht auf eine Gruppe
von Merkmalen, sondern auf eine durchschnittliche Relevanz des Merkmals unter
Berücksichtigung der Auswahlentscheidungen in höheren Hierarchieebenen des Ent-
scheidungsbaums.
Eine wichtige Erweiterung ist die Erzeugung mehrerer Entscheidungsbäume, um
alternative Regelbasen zu erhalten. Das können einerseits Entscheidungsbäume mit
den nächstbesten Merkmalen im Wurzelknoten oder klassenspezifische Entschei-
dungsbäume sein, die immer die Unterschiede zwischen einer Ausgangsklasse und
deren Negation auswerten. Klassenspezifische Entscheidungsbäume finden insbe-
sondere Zusammenhänge, die eine spezielle Ausgangsklasse Bc von allen anderen
unterscheiden (Bc ), was genau der Philosophie einer Regel mit der Konklusion Bc ent-
spricht (Dekomposition durch one-against-all). Zudem bieten sie geeignete Ansatz-
152
5.5 Fuzzy-Systeme
punkte zur Suche nach negativen Regeln (· · · DANN NICHT Bc ) entsprechend [212]
(vgl. Abschnitt 5.5).
Ein Beispiel für Entscheidungsbäume gibt [470] für die Untersuchung der progno-
stischen Relevanz verschiedener Laborwerte auf die Rezidivwahrscheinlichkeit bei
Mammakarzinomen (4 Merkmale, 280 Patienten). Interessant ist hier, dass der au-
tomatisch entworfene Entscheidungsbaum direkt zum Aufstellen von Hypothesen für
ein Studiendesign verwendet wird. Ähnliche Arbeiten finden sich in [271] für die Dia-
gnose bei Herzinfarkten, in [67] für die Diabetes-Diagnose und in [239] für progno-
stische Faktoren bei Osteomyelofibrosis. Stärker in Richtung einer Online-Nutzung
für die Telemedizin geht die Klassifikation von Herzschlägen aus einem Elektrokar-
diogramm (EKG) in [384]. Hier ergab ein umfangreicher Methodenvergleich (z. B. mit
Künstlichen Neuronalen Netzen und Nearest-Neighbor-Verfahren) eine Überlegen-
heit von Entscheidungsbäumen.
Bei der Aufstellung von Leitlinien für die Evidenz-basierte Medizin erfreuen sich
Entscheidungsbäume wegen ihrer systematischen Vorgehensweise und ihrer ver-
gleichsweise guten Interpretierbarkeit einer großen Beliebtheit (siehe z. B. [308]). Sie
bieten eine systematische Darstellung für den diagnostischen Teil in klinischen Algo-
rithmen, wie er in [4] empfohlen wird. Deren Aufstellung erfolgt bisher mehr oder we-
niger manuell, die Parameter (z. B. Schwellwerte in Binärbäumen) werden aber durch
klinische Studien gestützt. Allerdings gibt es auch kritische Stimmen (z. B. [331]), weil
die Baumstruktur komplexere Entscheidungsprozesse (z. B. Unschärfen von Merk-
malen, weitere entscheidungsrelevante Merkmale in parallelen Schlussfolgerungswe-
gen, z. T. keine explizite Einbeziehung von Patientenbedürfnissen) nur eingeschränkt
widerspiegelt.
5.5 Fuzzy-Systeme
5.5.1 Prinzip
153
5 Data Mining: Spezielle Verfahren
154
5.5 Fuzzy-Systeme
Regelbasis
x1
WENN
.... Bedingung y
DANN
xs Aktion
1 für µ (x) ≥ α
A
µA,α (x) = mit 0 < α ≤ 1. (5.94)
0 sonst
gilt. Somit darf eine konvexe Zugehörigkeitsfunktion kein lokales Minimum aufweisen.
Einige typische Arten von Zugehörigkeitsfunktionen zeigt Bild 5.13. Besonders
häufig kommen trapezförmige Zugehörigkeitsfunktionen (Bild 5.13a) zum Einsatz, die
mit vier Parametern m1 , m2 , b1 , b2 vollständig charakterisiert sind:
155
5 Data Mining: Spezielle Verfahren
0 für x ≤ m1 − b1
1
1 + (x − m1 ) für m1 − b1 < x ≤ m1
b1
µA (x) = 1 für m1 < x ≤ m2 (5.96)
1
1 − (x − m2 ) für m2 < x ≤ m2 + b2
b2
0 für x > m2 + b2 .
156
5.5 Fuzzy-Systeme
1 1 1
µ(x)
µ(x)
µ(x)
0 0 0
m1−b1 m1 m2 m2+b2 m1 m2 m−b1 m m+b2
d. Singleton e. Gaußförmig x
1 1
µ(x)
µ(x)
0 0
m m−b1m m+b2
x x
Bild 5.13: Arten von unscharfen (a, c, e, f) und scharfen (b, d) Zugehörigkeitsfunktionen:
a. Trapezförmig, b. Rechteckförmig, c. Dreieckförmig, d. Singleton, e. Gaußförmig,
Bezeichnungen für linguistische Terme NEG – Negativ, ZE – Null, PK – Positiv
Klein, PM – Positiv Mittel, PG – Positiv Groß
eine unscharfe Standardpartition mit den genannten Eigenschaften ist hingegen nur
in Spezialfällen möglich. Die stets mögliche Transformation von rechteck- in trapez-
förmige Zugehörigkeitsfunktionen ist hingegen nicht eindeutig.
Die Aufgabe bei der Fuzzifizierung besteht darin, jeder Eingangsgröße eine gradu-
elle Zuordnung zu jedem linguistischen Term zuzuweisen.
´ Zugehörigkeitsfunktionen in Bild 5.14a und ihrem Parametervektor a1 =
³ Beispiel: Mit den
−3 0 1 2 5 kann beispielsweise ein Messwert x1 = 1.2 den linguistischen Termen
PK (Positiv Klein) mit einem Zugehörigkeitsgrad von 0.8 und PM (Positiv Mittel) mit einem
Zugehörigkeitsgrad von 0.2 zugeordnet werden. Alle anderen linguistischen Terme erhalten
einen Zugehörigkeitsgrad von Null. ¥
Werden nun alle Merkmale (N Datentupel mit s Merkmalen) fuzzifiziert, resultiert für
jedes Datentupel eines Merkmals und jeden Term ein Zugehörigkeitswert µAl,i (xl [n]).
Aus mathematischer Sicht ist diese Darstellung allerdings redundant: Für jeden der
N Datensätze werden aus einem Merkmalswert xl [n] mehrere (ml ) Werte erzeugt –
wobei die Berechnung zwar eindeutig, aber meist nicht eineindeutig ist. Allerdings
stellt dieser Rechenschritt die Verbindung zur nachfolgenden Auswertung dar.
157
5 Data Mining: Spezielle Verfahren
µ(x1)
µ(x1)
1
0 0 0
−4 −2 0 2 4 6 −4 −2 0 2 4 6 −4 −2 0 2 4 6
Laborwert x Laborwert x Laborwert x
1 1 1
Bild 5.14: Standardpartition mit fünf Termen für den Laborwert x1 im Beispiel, a. Dreieckför-
mig, b. Trapezförmig, c. Rechteckförmig, Bezeichnungen für linguistische Terme
NEG – Negativ, ZE – Null, PK – Positiv Klein, PM – Positiv Mittel, PG – Positiv
Groß
5.5.3 Fuzzy-Inferenz
Eine Fuzzy-Regelbasis ist durch r = 1, . . . , rmax Regeln vom Typ WENN Bedingung
(Voraussetzung, Prämisse) DANN Aktion (Schlussfolgerung, Konklusion) mit
Die Regelbasis kann optional eine Sonst-Regel mit SONST y = CrSonst enthalten, die
häufig an die letzte Position gestellt wird.
Für die Konklusion Cr einer Regel werden entweder
• linguistische Terme als Ausgangsklassen Cr = Bc mit c = 1, · · · , my (Fuzzy-
Systeme vom Mamdani-Typ),
• Funktionen der Eingangsgrößen Cr = fr (x) (Fuzzy-Systeme vom Takagi-Sugeno-
Typ, Synonyme: Fuzzy-Systeme vom Takagi-Sugeno-Kang-Typ, TSK-Systeme)
oder
• konstante Werte Cr = yr (Singleton-Fuzzy-Systeme, Sonderfall eines Takagi-
Sugeno-Systems)
eingeführt. Dabei gibt es zunehmend einen Trend, Fuzzy-Systeme vom Mamdani-Typ
aus Gründen der Rechenvereinfachung in Singleton-Fuzzy-Systeme umzuwandeln,
indem die Werte für yr aus den Zugehörigkeitsfunktionen mittels yr = argmaxy µBc (y)
mit Cr = Bc bestimmt werden.
158
5.5 Fuzzy-Systeme
Die Prämisse Vr ist eine UND-Verknüpfung (∩)6 von Teilprämissen xl = Al,Rr . Der
Term in einer Teilprämisse Al,Rr bezeichnet entweder
• einen einzelnen Term: Al,Rr = Al,i ,
• eine ODER-Verknüpfung (∪) von mehreren benachbarten linguistischen Termen
mit
Al,Rr = Al,rs ∪ · · · ∪ Al,re , 1 ≤ r s < r e ≤ ml , (5.98)
6
Die Operatoren ∩ (UND, T-Norm, Schnitt von Mengen) und ∪ (ODER, T-Konorm, Vereinigung von
Mengen) werden im Folgenden sowohl für die Verknüpfung von logischen Aussagen, linguistischen
Termen, Mengen, Fuzzy-Mengen und Zugehörigkeitsgraden verwendet, wobei jeweils unterschied-
liche Berechnungsvorschriften zugrunde liegen.
159
5 Data Mining: Spezielle Verfahren
µ1 = µ1 . (5.111)
160
5.5 Fuzzy-Systeme
a. Minimum b. Maximum
1 1
max(µ1,µ2)
min(µ1,µ2)
0.5 0.5
0 0
1 1
1 1
0.5 0.5 0.5 0.5
µ 0 0 µ µ 0 0 µ
2 1 2 1
c. Produkt d. Algebraische Summe
µ1 + µ2 − µ1 * µ2
1 1
µ1 * µ2
0.5 0.5
0 0
1 1
1 1
0.5 0.5 0.5 0.5
µ2 0 0 µ1 µ2 0 0 µ1
e. Beschränkte Differenz f. Beschränkte Summe
max(0,µ1 + µ2 −1)
min(1,µ1 + µ2)
1 1
0.5 0.5
0 0
1 1
1 1
0.5 0.5 0.5 0.5
µ2 0 0 µ1 µ2 0 0 µ1
Bild 5.15: Kennfelder der zusammengehörigen Operatorenpaare für UND- sowie ODER-
Verknüpfungen: a. Minimum, b. Maximum, c. Produkt, d. Algebraische Summe, e.
Beschränkte Differenz, f. Beschränkte Summe. µ1−2 ∈ [0, 1] Zugehörigkeitswerte
gelten nicht für alle Operatoren bzw. deren Kombinationen für µ1 ∈ [0, 1]. So halten
von den Operatoren aus Tabelle 5.12 nur Minimum und Maximum die Idempotenz
ein. Bei Verwendung von (5.110) gilt der Satz vom ausgeschlossenen Widerspruch
nur für die Beschränkte Differenz, der Satz vom ausgeschlossenen Dritten nur für die
Beschränkte Summe.
In der klassischen (binären) Logik kann eine Regel mit der logischen Operation
der Implikation ausgewertet werden. Hierbei ist eine Regel nur dann falsch, wenn
die Prämisse erfüllt und die Konklusion nicht erfüllt ist. Daraus ergeben sich wichtige
Schlussfolgerungsweisen der klassischen Logik und auch der Fuzzy-Logik: der mo-
dus ponens (Vorwärtsschließen) und der modus tollens (Rückwärtsschließen). Der
161
5 Data Mining: Spezielle Verfahren
modus ponens schließt bei erfüllter Prämisse und wahrer Regel auf die Erfüllung der
Konklusion. Der modus tollens zieht aus einer wahren Regel und einer nicht erfüllten
Konklusion die Konsequenz, dass die Prämisse nicht erfüllt ist.
In der praktischen Anwendung dominiert der modus ponens, dessen Mechanismen
bei der Auswertung im Folgenden beschrieben werden. Hier sind bei der Inferenz
(engl. inference) die Teilaufgaben
• Prämissenauswertung (engl. aggregation) zur Verknüpfung der Teilprämissen
s
\ [
µVr (x) = µVrl (xl ) mit µVrl (xl ) = µAl,i (xl ), (5.116)
l=1 i mit Al,i ∈Vlr
• Aktivierung7 (engl. activation) zur Verknüpfung der Prämisse mit der Regelplausi-
bilität
µCr (x) = µVr (x) ∩ µr (5.117)
• sowie Akkumulation (engl. accumulation, nur bei Mamdani-Systemen) mit den Teil-
schritten
[
µBc , AkI (x) = µCr (x) (Akkumulation I) (5.118)
r mit Cr =Bc
µBc , AkII (y, x) = µBc (y) ∩ µBc , AkI (x) (Akkumulation II) (5.119)
my
[
µy (y, x) = µBc , AkII (y, x) (Akkumulation III) (5.120)
c=1
162
5.5 Fuzzy-Systeme
für jeden Term der Ausgangsgröße an. Die Akkumulation II verknüpft mit einem UND-
Operator den empfohlenen Zugehörigkeitsgrad und die Zugehörigkeitsfunktion. Sie
berechnet somit für jeden einzelnen Term der Ausgangsgröße eine modifizierte Zu-
gehörigkeitsfunktion. Daraus bildet die Akkumulation III mit einer ODER-Verknüpfung
eine Gesamt-Zugehörigkeitsfunktion der Empfehlungen für die Ausgangsgröße. Da-
bei bezeichnen die µBc (y) in (5.118)-(5.120) die gegebene Zugehörigkeitsfunktion
(Ausgangsterm Bc ), µBc , AkI (x) den aus den Merkmalen berechneten (empfohlenen)
Zugehörigkeitsgrad (Ausgangsterm Bc ), µBc ,AkII (y, x) die Verknüpfung beider Funk-
tionen und die Funktion µy (y, x) den (empfohlenen) Zugehörigkeitsgrad für alle Werte
von y bei gegebenen Merkmalen x.
In der Literatur findet sich die recheneffiziente Aufsplittung der Akkumulation selten,
hier dominiert die Einschrittlösung
r[
max
µy (y, x) = µBc (y) ∩ µCr (x) (Akkumulation). (5.121)
r=1
163
5 Data Mining: Spezielle Verfahren
und -spalte eingetragen sind. Eine Prämissenauswertung mit dem Produkt als Operator für
die UND-Verknüpfung ergibt die Werte µVr (x), die unter den Regelkonklusionen eingetragen
sind. Hierbei haben nur vier Regeln Werte größer Null. Eine Verknüpfung mit dem Minimum
als Operator ergibt abweichende Werte (0.6 statt 0.36, 0.4 statt 0.16 bzw. 0.24). Eine Akku-
mulation I mit der Beschränkten Summe liefert
µB1 ,AkI = 0.36, µB2 ,AkI = 0.64, µB3 ,AkI = 0 (Prämissenauswertung: Produkt) (5.123)
µB1 ,AkI = 0.6, µB2 ,AkI = 1, µB3 ,AkI = 0 (Prämissenauswertung: Minimum) (5.124)
µB1 ,AkI = 0.36, µB2 ,AkI = 0.24, µB3 ,AkI = 0 (Prämissenauswertung: Produkt) (5.125)
µB1 ,AkI = 0.6, µB2 ,AkI = 0.4, µB3 ,AkI = 0 (Prämissenauswertung: Minimum). (5.126)
164
5.5 Fuzzy-Systeme
B1 B2 B3
x1 NEG PK PM PG PSG
ZGF
1
0.0 0.0 0.0 0.6 0.4
x2 0.64
PSG B3 B1 B1 B2 B2 0.36
0.4 0.0 0.0 0.0 0.24 0.16
PG B3 B1 B1 B1 B2 0
1 2 3 y
B1: Proband
0.6 0.0 0.0 0.0 0.36 0.24
B : Patient A b. Klassengrenzen
2
PM B3 B1 B1 B1 B2 B : Patient B
3
0.0 0.0 0.0 0.0 0.0 0.0
PK B3 B1 B1 B1 B2 22.18
Laborwert x2
0.0 0.0 0.0 0.0 0.0 0.0 15.64
PSK B3 B1 B1 B1 B2 11.5
7.99
0.0 0.0 0.0 0.0 0.0 0.0 4.02
−2.06 0.17 1.09 2.03 3.46
Laborwert x1
Tabelle 5.13: Konklusionen y = Bc für eine Bild 5.16: a. Ergebnisse der Inferenz für die Re-
Regelbasis mit 25 Regeln, gelbasis aus Tabelle 5.13 bei Verwen-
Merkmale x1 , x2 des Bei- dung der Operatoren Produkt und Be-
spiels, Ergebnisse der Fuz- schränkte Summe für x1 = 2.60, x2 =
zifizierung (unter den Ter- 18.26, b. Klassengrenzen nach ei-
men) und der Prämissen- ner Maximum-Defuzzifizierung, Drei-
auswertung mit dem Pro- eck: im Beispiel genauer untersuchtes
dukt (Mittelteil Tabelle) Datentupel
Regeln treten Konklusionen vom Typ NICHT Cr auf. Das gleichzeitige Auftreten von
normalen (positiven) und negativen Regeln erfordert eine spezielle Inferenz (Hyperin-
ferenz [212]). Eine andere Erweiterung verarbeitet unscharfe Zeiten in der Prämisse
und bzw. oder in der Konklusion [430].
5.5.4 Defuzzifizierung
Die Inferenz gibt lediglich ”Empfehlungsgrade” für unterschiedliche Werte der Aus-
gangsgröße. Die Defuzzifizierung löst die Aufgabe, die Empfehlungsgrade zu einem
besten numerischen Wert zusammenzufassen. Auch hier existieren unterschiedliche
Methoden (siehe z. B. [212] für eine umfassende Übersicht).
Die Maximum-Defuzzifizierung wählt denjenigen Wert der Ausgangsgröße mit
165
5 Data Mining: Spezielle Verfahren
aus. Wenn mehrere Maxima existieren, löst eine Menge {ŷmin , . . . , ŷi , . . . , ŷmax } mit
ŷmin < ŷi < ŷmax die Gleichungen (5.127) bzw. (5.128). Hier wird entweder das kleinste
Maximum ŷmin (Methode Linkes Maximum – LM, engl. left maximum), das größte
Maximum ŷmax (Methode Rechtes Maximum – RM, engl. right maximum) oder der
Mittelwert aller Maxima einer endlichen Menge (Methode Mittleres Maximum – engl.
Mean of Maxima – MOM) ausgewählt.
Beispiel: Das Ergebnis der Maximum-Defuzzifizierung für das Beispiel aus Abschnitt 5.5.3
mit den Operatoren Produkt und Beschränkte Summe zeigt Bild 5.16. Für das betrachtete
Datentupel resultiert ŷ = 2. Obwohl die Regeln denen des Entscheidungsbaums in Bild 5.11
entsprechen, ergeben sich im Grenzbereich zwischen den Regeln wegen der kompensato-
rischen Effekte der Operatoren weichere Übergänge. Allerdings verlaufen nach wie vor die
meisten Klassengrenzen achsenparallel. Die Verwendung der Schwerpunktmethode ist hier
nicht sinnvoll, weil eine formale Verrechnung der kategorischen Merkmale in den Singletons
zu irreführenden Ergebnissen führt. ¥
Bei Mamdani-Systemen berechnet die Schwerpunktmethode (engl. Center of Gra-
vity – COG) R
y · µy (y, x) · dy
ŷ = R (5.129)
µy (y, x) · dy
eine numerische Ausgangsgröße. Fuzzy-Systeme vom Takagi-Sugeno-Typ oder
Singleton-Fuzzy-Systeme verwenden mit den Ergebnissen von (5.116)
rmax
∑r=1 fr (x) · µCr (x)
ŷ = (Takagi-Sugeno-Systeme) (5.130)
∑r=1 µCr (x)
rmax
∑ yr · µCr (x)
rmax
ŷ = r=1 (Singleton-Fuzzy-Systeme). (5.131)
rmax
∑r=1 µCr (x)
Die Schwerpunktmethode für Singletons (COGS) kann aber auch auf den Ergeb-
nissen der Akkumulation I aufbauen. Sie eignet sich dann sowohl für Singletons als
Ausgangszugehörigkeitsfunktionen als auch für dreieckförmige Zugehörigkeitsfunk-
tionen. Mit den Parametern bc (Stützpunkte der Singletons bzw. Maxima der dreieck-
förmigen Zugehörigkeitsfunktionen) gilt analog zu (5.131)
m
∑c=1 bc · µBc ,AkI (x)
y
ŷ = my . (5.132)
∑c=1 µBc ,AkI (x)
Als relativ selten verwendete Alternative zur Schwerpunktmethode existiert noch die
Flächenmedianmethode (engl. Center of Area – COA), die den Punkt auswählt, für
166
5.5 Fuzzy-Systeme
den die Flächeninhalte der beiden Teilflächen mit größeren und kleineren Werten
jeweils gleich sind:
Z ŷ Z ∞
ŷ mit µy (y, x) · dy = µy (y, x) · dy. (5.133)
−∞ ŷ
Prinzip
167
5 Data Mining: Spezielle Verfahren
Strukturansätzen und Heuristiken, die implizit für das Erreichen eines Kompromisses
sorgen.
Zugehörigkeitsfunktionen
Der Entwurf der Zugehörigkeitsfunktionen erfordert die Festlegung der Form, der An-
zahl ml und der Parameter. Oftmals werden Form und Anzahl heuristisch für alle
Merkmale einheitlich gewählt und nur die Parameter für jedes Merkmal individuell
festgelegt.
Die Ziele beim Entwurf von Zugehörigkeitsfunktionen bestehen darin,
• für das komplette Fuzzy-System ein gutes klassifikations- oder regressionsorien-
tiertes Bewertungsmaß zu erzielen (z. B. durch Separierung der Ausgangsklas-
sen),
• für zusammengehörige Datentupel (im Sinne gleicher oder ähnlicher Werte der
Eingangs- und Ausgangsgröße) möglichst repräsentative Stützpunkte auszuwäh-
len,
• eine möglichst gleichmäßige Datentupelzahl für alle Terme zu bewirken und
• eine gute Interpretierbarkeit der Parameter und Termbezeichnungen zu sichern
(z. B. Parameter 0 und nicht 0.02 für den Term Null).
Die erste Forderung lässt sich realisieren, wenn die Güte für ein komplettes Fuzzy-
System überprüft wird. Die Ansätze berücksichtigen zwar indirekt auch die zweite
und dritte Forderung, benötigen allerdings einen hohen Rechenaufwand.
Recheneffizienter sind informationstheoretische Maße wie (3.52), die dann von den
Parametern der Zugehörigkeitsfunktionen eines Merkmals abhängen. Die Transin-
formation bewertet den (durchschnittlichen) Zusammenhang zwischen den linguisti-
schen Termen des Merkmals und der Ausgangsgröße, was eine günstige Ausgangs-
position für die spätere Regelsuche darstellt. Allerdings bevorzugt sie bei gestörten
Daten dicht zusammenliegende Parameter, die kleine homogene Gebiete mit gerin-
gen Datentupelzahlen, aber ähnlicher Zusammensetzung der Ausgangsklassen er-
zeugen. Solche Gebiete widersprechen der dritten Forderung, erschweren die Re-
gelsuche und beeinträchtigen die Interpretierbarkeit der Zugehörigkeitsfunktionen.
Die Forderung nach zusammengehörigen Datentupeln ähnelt unterlagerten ein-
oder höherdimensionalen Fuzzy-Clustering-Problemen (vgl. Abschnitt 5.7). Ein Be-
wertungsmaß wie (5.178) auf Seite 208 bevorzugt eine relativ gleichmäßige Datentu-
pelzahl für alle Terme, wenn das nicht den in den Daten enthaltenen Strukturinforma-
tionen widerspricht. Der eindimensionale Ansatz wird separat für jede Eingangsgröße
xl durchgeführt und entspricht einem unüberwachten Lernen [296].
168
5.5 Fuzzy-Systeme
gebräuchlich. Diese Heuristik kann aber u. U. Parameter al,i in dünn besetzten Be-
reichen des Merkmals platzieren. Dieser Effekt tritt bei der Heuristik in (5.134) kaum
auf, weil sie nur im Lerndatensatz existierende Werte verwendet.
Keines der bisher genannten Bewertungsmaße oder Heuristiken beurteilt die In-
terpretierbarkeit der Zugehörigkeitsfunktionen. Besonders gut interpretierbar sind bei
vielen Anwendungen runde Werte mit der Zehnerpotenz der Spannweite als Expo-
nent. Die Null ist besonders hervorzuheben, sofern sie im Bereich enthalten ist. Je
stärker die Werte verfeinert sind, desto geringer ist die Akzeptanz. Ein Weg ist die
Einführung expliziter Bewertungsmaße, die bestimmte Parameter bevorzugen (siehe
z. B. [293]). Das erfordert allerdings einen hohen Rechenaufwand und ist durch die
nicht stetigen Bewertungsfunktionen numerisch nur durch trickreiche Verfahren [293]
praktikabel lösbar (z. B. Einschränkung Suchraum, geeignete Starthypothesen).
Eine Alternative bietet ein heuristisches Verfahren, das bereits vorhandene Para-
meter von Zugehörigkeitsfunktionen aStart
l,i geeignet rundet und somit die Interpretier-
169
5 Data Mining: Spezielle Verfahren
barkeit nachträglich erhöht. Ein erster Schritt berechnet die Spannweite, bildet den
Zehnerlogarithmus und rundet das Ergebnis (Operation rd). Dadurch entsteht eine
Zahl βl,i , die die Ausdehnung des Wertebereichs charakterisiert:
³ ³ ´ ´
βl,i = − rd log10 al,my − al,1 − 0.5 .
Start Start
(5.136)
rd(10βl,i · aStart
l,i )
al,i = . (5.137)
10βl,i
Solange für benachbarte Werte im Ergebnis von (5.137) noch al,i = al,i+1 gilt, werden
die korrespondierenden β -Werte hochgezählt: βl,i = βl,i + 1, βl,i+1 = βl,i+1 + 1.
Die linguistischen Terme heißen entsprechend ihrer Parameter Null (ZE für al,i = 0),
Positiv (POS), Positiv Sehr Klein (PSK), Positiv Klein (PK), Positiv Mittel (PM), Positiv
Groß (PG) und Positiv Sehr Groß (PSG) (für al,i > 0). Für al,i < 0 erhalten sie die
korrespondierenden negativen Bezeichnungen. Die Auswahl der Bezeichner erfolgt
entsprechend der Anzahl der positiven bzw. negativen Terme (Tabelle 5.14).
Beispiel: Tabelle 5.15 zeigt einen Vergleich unterschiedlicher Verfahren für den Entwurf
der Zugehörigkeitsfunktionen für das Merkmal x1 . Hierbei kommen die äquifrequente (5.134)
und die äquidistante (5.135) Heuristik, ein Clusterverfahren und eine numerische Nachopti-
mierung der Zugehörigkeitsfunktionen mit einer gegebenen Regelbasis zum Minimieren des
Fuzzy-Klassifikationsfehlers (3.54) zum Einsatz. Die Interpretierbarkeit aller Varianten kann
nachträglich durch (5.137) verbessert werden. Die Ergebnisse ähneln einander, der wesent-
liche Unterschied liegt in den gerundeten Parametern. Beim Auftreten von Ausreißern oder
Extrema in dünn besetzten Gebieten verwenden beide Heuristiken diese Werte (siehe z. B.
Wert a1,5 = 4.74). Durch das Rundungsverfahren kommen teilweise noch extremere Werte zu
Stande (z. B. a1,5 = 5). Bei ungünstigen Verteilungen kann das zu dünn besetzten äußeren
Termen und nachfolgenden Problemen bei der statistischen Absicherung der entsprechenden
Regeln führen. Das Clusterverfahren vermeidet solche Extrema.
170
5.5 Fuzzy-Systeme
Die Regelsuche umfasst das Aufstellen und Bewerten von Hypothesen für Einzelre-
geln und Regelbasen. Die Ziele sind
• ein gutes klassifikations- oder regressionsorientiertes Bewertungsmaß für die Re-
gelbasis und alle Einzelregeln,
• die statistische Absicherung der Einzelregeln und Regelbasen,
• die Verständlichkeit der Einzelregeln,
171
5 Data Mining: Spezielle Verfahren
NEG ZE PK PM PG ZE PK PM PG PSG
1 1
0.8 0.8
ZGF
ZGF
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−2 0 2 4 0 10 20 30
Laborwert x1 Laborwert x2
ZE PK PM PG PSG NG NM NK ZE POS
1 1
0.8 0.8
ZGF
ZGF
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 10 20 30 −4 −2 0 2
Messwert x3 Messwert x4
Bild 5.17: Zugehörigkeitsfunktionen mit gerundeten Parametern (vgl. Tabelle 5.16) und Histo-
gramme für das Beispiel
172
5.5 Fuzzy-Systeme
Regeln reduziert. Außerdem ist der Suchraum wegen der großen Anzahl möglicher
Hypothesen sehr groß.
Im Unterschied dazu stellt der indirekte Zugang (Michigan-Ansatz [175]) Einzelre-
geln als Hypothesen auf und fasst sie später zu Regelbasen zusammen. Der Such-
raum ist deutlich kleiner. Die Bewertung beurteilt die Relevanz einzelner Regeln, aber
nicht ihr Zusammenwirken in der Regelbasis (Redundanzen, nicht abgedeckte Ge-
biete usw.). Somit bestehen Risiken wegen einer unbefriedigenden Güte für die ge-
samte Regelbasis und schwer interpretierbaren Regelbasen.
Die meisten Strategien für Einzelregeln gehen von vorhandenen Regeln aus und
modifizieren sie durch Generalisierungen oder Spezialisierungen. Eine Spezialisie-
rung verfeinert eine Prämisse durch das Hinzufügen einer neuen Teilprämisse oder
das Weglassen einzelner linguistischer Terme in einer Teilprämisse.
Der allgemeinste Ausgangspunkt ist eine Regel mit Prämisse Eins. Ein Beispiel
ist die Vorgehensweise bei Entscheidungsbäumen, die ausgehend von der Eins-
Prämisse im Wurzelknoten Regeln durch schrittweises Hinzufügen von Teilprämis-
sen spezialisiert. Jeder Endknoten liefert eine Regel, die zusammen eine vollständi-
ge Regelbasis bilden. Die Entscheidung im Endknoten legt die Regelkonklusion fest.
Die Prämisse besteht aus der UND-Verknüpfung (Bezeichnung: ∩) aller spezifizierten
Merkmale xl auf dem Rückweg zum Wurzelknoten. Jeder durchlaufene Knoten ergibt
somit eine neue Teilprämisse. Allerdings schränkt die Strategie die Lösungsmenge
der möglichen Regeln ein, z. B. weil das im Wurzelknoten ausgewählte Merkmal in
allen Regeln vorkommt.
Die am stärksten spezialisierte Form ist eine separate Regel für jedes Datentu-
pel im Lerndatensatz. Hier kommt jedes Merkmal in jeder Regel mit genau einem
linguistischen Term vor. Solche Regeln sind normalerweise zu speziell und decken
genau ein Datentupel im Lerndatensatz ab, falls keine Datentupel mit identischen lin-
guistischen Termen existieren. Oft werden unbekannte Datentupel durch keine Regel
erfasst, die Regelbasis ist folglich unvollständig.
Eine Generalisierung erweitert den Einzugsbereich einer Regelprämisse durch das
Hinzufügen linguistischer Terme zu Teilprämissen, das Weglassen von Teilprämissen
oder das Fusionieren mit einer anderen Regelprämisse (Bild 5.18).
Letzteres ist aber problematisch, weil die Prämissen u. U. unübersichtlich und
schwer interpretierbar werden. Das Wegschneiden von weiteren Verzweigungen in
Bäumen (Pruning) lässt nur das Streichen der jeweils zuletzt hinzugefügten Teilprä-
misse zu und reduziert somit den Suchraum.
Hypothesen für Regelbasen entstehen durch Hinzufügen, Löschen oder Austau-
schen von Einzelregeln. Eine Alternative sind Modifikationen (z. B. durch Generalisie-
173
5 Data Mining: Spezielle Verfahren
Bild 5.18: Beispiele für Möglichkeiten zur Generalisierung von Einzelregeln (schwarzes
Rechteck: Gebiet mit α = 0.5 bei Verwendung des Minimums, grau: Gebiet mit
Zugehörigkeitswerten größer Null):
a. originale Regel mit Prämisse x1 = A1,2 ∩ x2 = A2,2 ,
b. Weglassen einer Teilprämisse: x1 = A1,2 ,
c. Hinzufügen eines linguistischen Terms x1 = (A1,1 ∪ A1,2 ) ∩ x2 = A2,2
ren oder Spezifizieren) von in der Regelbasis enthaltenen Einzelregeln beim direkten
Zugang.
Modifikationen von Zugehörigkeitsfunktionen wirken für einzelne Regeln wie Ge-
neralisierungen oder Spezialisierungen, weil sie die Einzugsbereiche der betroffenen
Regelprämissen vergrößern bzw. verkleinern.
Übersichten über unterschiedliche Verfahren finden sich in [101, 102, 297]. Tabel-
le 5.17 zeigt eine Einteilung ausgewählter Verfahren zur Regelgenerierung für Fuzzy-
Systeme entsprechend der beiden Zugänge.
Oftmals werden verschiedene Verfahren miteinander kombiniert. So erzeugt das
Verfahren in Bild 5.19 zunächst spezielle Regeln durch Entscheidungsbäume, um sie
nachher zu generalisieren und daraus kooperierende Regelbasen zusammenzustel-
len.
Die Bewertung von Einzelregeln und Regelbasen ist nicht trivial, weil alle Bewer-
tungsmaße vollständige Lösungen unterstellen. Eine vollständige Lösung bedeutet,
dass alle Datentupel in einem Lerndatensatz einbezogen werden. Hier bieten sich
verschiedene Strategien an:
174
5.5 Fuzzy-Systeme
Zugang Verfahren
direkter - ASMOD [252]
Zugang - Fuzzy CART [195]
(Pittsburgh- - LOLIMOT [324]
Ansatz) - Entscheidungsbäume [23]
- Fuzzy-Entscheidungsbäume [66, 171, 196, 381, 391]
- Evolutionäre Algorithmen [38, 102, 173, 188, 207, 217]
- Clustering [420]
indirekter Zu- - Fuzzy-ROSA (explorative Standardstrategie) [140, 426]
gang - Entscheidungsbäume [38, 126, 140, 156, 191, 210, 296]
(Michigan- - Fuzzy Version Space Learning [178, 462]
Ansatz) - induktives Lernen modularer Fuzzy-Regeln [178, 218]
- Induktion hierarchischer Fuzzy-Systeme [176]
- Evolutionäre Algorithmen [38, 58, 102, 163, 228, 229, 426]
Merkmale
Auswahl der
bewerten und
Regelbasis
auswählen
175
5 Data Mining: Spezielle Verfahren
hende Regelbasen bestehen aus unnötig vielen Regeln. Bei Regelbasen besteht
das Risiko, dass große Gebiete nicht abgedeckt werden.
• Eine Regel oder Regelbasis wird durch eine Sonst-Regel ergänzt, die das nicht
durch die Regelprämisse(n) erfasste Gebiet behandelt. Somit entsteht stets eine
vollständige Regelbasis.
Diese Strategie begünstigt große Einzugsgebiete der Prämisse und nimmt mode-
rat fehlerbehaftete Regeln in Kauf. So erzeugte Regelbasen bestehen aus weni-
gen Regeln, weisen aber teilweise schlechtere klassifikations- oder regressions-
orientierte Bewertungsmaße auf. Zudem ist hier festzulegen, welche Konklusion
diese ergänzende Regel aufweisen soll. Dazu bieten sich hauptsächlich vier Un-
tervarianten an:
• I: optimale scharfe oder unscharfe Konklusion über der Prämisse der Sonst-
Regel für den Lerndatensatz,
• II: Konklusion NICHT y = Cr (nur bei Einzelregeln für Klassifikationsprobleme),
• III: a priori festgesetzte Konklusion ”Rückweisung” (nur für Klassifikationspro-
bleme) und
• IV: beliebige a priori festgesetzte Konklusion.
Alle Untervarianten haben Vor- und Nachteile.
Untervariante I hat insbesondere bei scharfen Konklusionen Probleme beim Fin-
den von Regeln mit der häufigsten Klasse. Außerdem neigt sie bei Mehrklassen-
problemen dazu, fehlerhafte Datentupel in der Regelprämisse zu akzeptieren, die
weder zur Regelkonklusion noch zur Konklusion der Sonst-Regel gehören. Die
Ursache für diesen Effekt liegt darin, dass diese Datentupel in beiden Gebieten
Fehler erzeugen und somit eine in späteren Schritten störende Zuordnung zur Re-
gelprämisse nicht bestraft wird.
Die Untervarianten II und III erzeugen tendenziell zu große Prämissen. Sie ver-
suchen, alle Datentupel zur jeweiligen Konklusion in die Prämisse zu integrieren,
auch wenn dadurch relativ viele Fehler im Einzugsgebiet der Prämisse entstehen.
Die Untervariante IV findet keine Regeln mit der festgesetzten Konklusion und hat
ansonsten ähnliche Probleme wie Untervariante I. Andererseits ist sie sehr gut
geeignet, relative kleine Gebiete mit abweichenden Klassen zu finden, die in ein
großes und nicht kompaktes Gebiet mit der festgesetzten Konklusion eingebettet
sind.
Die Komplexität solcher Effekte steigt insbesondere bei Problemen mit unter-
schiedlichen Entscheidungskosten stark an [38, 39, 40]. Eine Ursache ist die ge-
eignete Festlegung von Entscheidungskosten für die Untervarianten II und III, die
nicht aus dem Problem resultieren. Außerdem werden ”billige” Fehlentscheidun-
176
5.5 Fuzzy-Systeme
R1 R1
a21 a21 a21 R4 R1
Bild 5.20: Einzugsgebiete von Regeln und der Sonst-Regel bei a. einer Einzelregel, b. einer
unvollständigen Regelbasis mit zwei Regeln, c. einer vollständigen Regelbasis mit
vier Regeln; dunkelgrau: nur Regel(n), hellgrau: anteilig Regel und Sonst-Regel,
weiß: nur Sonst-Regel, fette Linien: α = 0.5-Schnitt der Regeln, gepunktete Linien:
Parameter Zugehörigkeitsfunktionen, Regelprämissen V1 : x1 = (A1,2 ∪ A1,3 ) ∩ x2 =
A2,1 , V2 : x1 = A1,3 ∩ x2 = (A2,2 ∪ A2,3 ), V3 : x1 = (A1,1 ∪ A1,2 ) ∩ x2 = (A2,2 ∪ A2,3 ),
V4 : x1 = A1,1 ∩ x2 = A2,1
177
5 Data Mining: Spezielle Verfahren
was einer Akkumulation I mit der gewöhnlichen Summe als Operator entspricht. Im
Falle nicht überlappender Regeln und bei der Verwendung einer Standardpartition ist
die Summe aller Regelaktivierungen nie größer Eins. Somit ist dieser Operator der
Beschränkten Summe äquivalent. Die Matrix µ V (x) ergibt sich mit
µVr1 (x[1]) · · · µVrmax (x[1])
.. ...
..
µ V (x) = .
. (5.142)
µVr1 (x[N]) · · · µVrmax (x[N])
Q(P̂(y|x = V ))
QR2 ,F (µ y , µ̂ y ) = 1 − . (5.143)
Q(P̂(y))
Das Trivialmodell P̂(y) entspricht der optimalen Konklusion einer Regel mit Eins-
Prämisse.
Weitere Bewertungsaspekte für Regeln wie Kosten für verwendete Merkmale bzw.
eine möglichst eindeutige Verteilung zugunsten der Klasse in der Konklusion können
178
5.5 Fuzzy-Systeme
bei Bedarf gesondert einbezogen werden. Ein Maß für Letzteres ist die sogenannte
Klarheit einer Regel [190, 296] mit
Ein Wert von Eins bedeutet eine eindeutige Zuordnung der Konklusion zur Prämisse,
ein Wert von Null schließt die Konklusion komplett aus.
Die bisher diskutierten Maße enthalten nur indirekte Informationen über die sta-
tistische Absicherung einer Regel. Zwar ist es naheliegend, dass Regeln mit einem
geringen Klassifikationsfehler statistisch relevant sind. Allerdings existieren dafür Ge-
genbeispiele, z. B. kann die Erklärung seltener Klassen Bc mit wenigen Datentupeln
zu sehr guten Gütewerten bezüglich eines Klassifikationsproblems Bc gegen B̄c , aber
auch zu einer geringen statistischen Sicherheit führen.
Ein statistischer Test kann bei Klassifikationsproblemen im einfachsten Fall durch
das Testen zweier Binomialverteilungen erfolgen, welche die Häufigkeiten der Kon-
klusion im Gebiet der Prämisse gegen das Gebiet der Eins-Regel [212, 232]
bzw. das Gebiet der Sonst-Regel [302] vergleichen. Dabei entstehen für jedes
Signifikanzniveau jeweils Konfidenzintervalle mit oberen und unteren Schranken
[P̂Cr ,un (·), P̂Cr ,ob (·)] mit der abkürzenden Schreibweise
P̂Cr (x = Vr ) − P̂Cr (x = Vr )
K pos = , (5.147)
P̂Cr ,ob (x = Vr ) − P̂Cr (x = Vr ) + P̂Cr (x = Vr ) − P̂Cr ,un (x = Vr )
P̂Cr (x = Vr ) − P̂Cr (x = Vr )
Kneg = . (5.148)
P̂Cr ,ob (x = Vr ) − P̂Cr (x = Vr ) + P̂Cr (x = Vr ) − P̂Cr ,un (x = Vr )
179
5 Data Mining: Spezielle Verfahren
Bild 5.21: Konfidenzintervalle der geschätzten Wahrscheinlichkeiten zur Berechnung der sta-
tistischen Absicherungsgüte [212, 302]
Bei einer geometrischen Deutung ist K pos bzw. Kneg der multiplikative Faktor, mit dem
die jeweiligen Konfidenzintervalle gestreckt werden können, um noch relevant zu blei-
ben. Bewertungsmaße wie QStat oder ähnliche Maße eignen sich auch als Regelre-
levanz [212].
Die statistische Absicherungsgüte darf aber nicht mit einem Signifikanzniveau α
verwechselt werden. Bei einer Einzelregel bedeutet zwar jeder Wert QStat > 0, dass
die Regel über dem vorgegebenen Signifikanzniveau liegt. Je näher dieser Wert
in Richtung Eins geht, desto sicherer ist die Regel. Dennoch lässt er keine direkte
Schlussfolgerung über das Signifikanzniveau zu.
Mit den modularen Maßen relative Regressionsgüte QR2 ,F entsprechend (5.143)
und Klarheit QKlar sowie der statistischen Absicherungsgüte QStat können nun Ein-
zelregeln auf ihre Relevanz geprüft werden. Dazu dient hier das Kriterium [297]
Q 2 (µ , µ̂ ) · QβKlar (βKlar > 0) für QStat > 0
R ,F y y Klar
Qges = (5.149)
0 sonst.
Die relative Regressionsgüte bewertet die Verbesserung der Schätzung der Zugehö-
rigkeiten der Ausgangsgröße im Vergleich zum Trivialmodell auf Basis der Frobenius-
Norm. Der Exponent βKlar erlaubt eine Gewichtung zwischen relativer Regressions-
güte und Klarheit. Größere Werte von βKlar führen zu einer Bevorzugung speziellerer
Regeln mit wenigen Fehlern, weniger Datentupeln und einer geringeren statistischen
Absicherung (niedrigeres Abstraktionsniveau) gegenüber allgemeineren Regeln mit
180
5.5 Fuzzy-Systeme
einigen Fehlern, vielen Datentupeln und einer höheren statistischen Absicherung (hö-
heres Abstraktionsniveau). Während der Regelgeneralisierung ist es vorteilhaft, die
statistische Absicherungsgüte erst nach dem letzten Generalisierungsschritt einzu-
beziehen, weil sonst vielversprechende spezielle Regeln nicht weiterverfolgt werden.
Bei einer Bewertung von Einzelregeln mit entscheidungstheoretischen Maßen wie
(3.83) treten multikriterielle Optimierungsprobleme auf (z. B. geringer Klassifikations-
fehler und somit niedrige Entscheidungskosten, geringe Merkmalskosten).
Eine gute Lösung für die Regelbasis erfordert das Abspeichern jeder möglichen
Pareto-optimalen Lösung für die Einzelregeln.
Selbst wenn in der finalen Regelbasis nur die Gesamtkosten zu minimieren sind, ist
zum Zeitpunkt der Generierung der Einzelregeln nicht abzusehen, welche Merkmale
in der Regelbasis verwendet werden. Deshalb liegt der zusätzliche Beitrag einer Ein-
zelregel zu den Merkmalskosten der Regelbasis zwischen Null (die Merkmale werden
bereits durch andere Regeln in der Regelbasis verwendet) und den vollen Merkmals-
kosten für alle verwendeten Merkmale. Deswegen ist es sinnvoll, eine zweikriterielle
Minimierung bezüglich der Gesamtkosten QT (3.83) (inkl. der vollen Merkmalskosten)
und der Entscheidungskosten QD (3.59) für Einzelregeln und deren Generalisierun-
gen durchzuführen (Beispiel in Bild 5.22).
Nur das Weglassen von Teilprämissen kann die Merkmalskosten in der finalen Re-
gelbasis reduzieren, das Hinzufügen linguistischer Terme ändert die Merkmalskosten
nicht. Deswegen sind alle Regeln aus dem Indifferenzgebiet
QD,r + γ QF,r < QD,ropt + QF,ropt mit ropt = argminr QD,r , γ ∈ [0, 1] (5.150)
Vergleich
181
5 Data Mining: Spezielle Verfahren
Dominanzgebiet Indifferenzgebiet
QD,ropt QD
Bild 5.22: Kandidaten für Pareto-optimale Einzelregeln beim Generalisieren einer Regel
durch Hinzufügen von linguistischen Termen zu Teilprämissen sowie Weglassen
von Teilprämissen (nach [38])
belle 5.11 auf S. 150).8 Die Regel ist mit drei zugehörigen Datentupeln statistisch kaum
abgesichert und nur deswegen relevant, weil die Klasse B2 extrem selten ist (Prämisse:
P̂(Cr |Vr ) = 1 mit Konfidenzintervall [0.29,1.00] für ein Signifikanzniveau α = 0.05, negierte
Prämisse P̂(Cr |Vr ) = 0.07 mit Konfidenzintervall [0.04,0.12]).
Hypothesen für generalisierte Regelprämissen entstehen durch Weglassen einer Teilprä-
misse (R17 , R5 ) oder durch das Ergänzen benachbarter Terme (R18 , R19 , R20 ). Alle Regeln
übernehmen die Konklusion der ursprünglichen Regel, um Regeln mit einer seltenen Konklu-
sion zu schützen.
Die fehlerfreie Regel R19 (Ergänzen des Terms A1,5 ) zeichnet sich durch eine Prämisse
aus, die weitaus mehr Datentupel als R11 abdeckt. Alle anderen Optionen weisen zu große
Klassifikationsfehler und damit schlechtere Bewertungen auf. Regel R19 bildet somit den Aus-
gangspunkt für den nächsten Generalisierungsschritt. Durch Weglassen der Teilprämissen
entstehen nochmals die Regel R17 und die neue Regel R21 . Ein Ergänzen benachbarter Ter-
me erzeugt die Regeln R22 und R23 . Die relative Regressionsgüte bevorzugt Regel R23 wegen
8
Die Nummerierung der Regeln bis R16 stimmt mit den Knotennummern des Entscheidungsbaums
überein. Neu entstehende Regelhypothesen werden fortlaufend nummeriert. Die unterschiedliche
Anzahl der zugehörigen Datentupel resultiert aus unterschiedlichen Inferenzverfahren beim Aus-
werten von (scharfen) Entscheidungsbäumen und (unscharfen) Fuzzy-Regeln.
182
5.5 Fuzzy-Systeme
der hohen Anzahl von Datentupeln. Das finale Bewertungsmaß Qges entscheidet sich wegen
der deutlich größeren Klarheit wieder zugunsten von R19 . Damit ist das Generalisieren der
ursprünglichen Regel R11 abgeschlossen.
Mit dieser Methode entstehen aus den ursprünglichen 13 Regeln aus den Endknoten des
Entscheidungsbaums die sieben generalisierten und statistisch abgesicherten Regeln in Ta-
belle 5.19.
Anschließend werden Hypothesen für eine Regelbasis aufgestellt und mit (5.143) bewer-
tet. In einem ersten Schritt werden sieben Regelbasen überprüft, die jeweils eine der Regeln
in Kombination mit einer Sonst-Regel mit Rückweisung enthalten. Die beste Regelbasis ent-
hält R2 . Der nächste Schritt testet Regelbasen mit Regel R2 , einer weiteren Kandidatenregel
und der Sonst-Regel usw. Auf diese Weise werden schrittweise die Regeln R19 , R24 und R6
ergänzt. Alle weiteren Regeln verbessern das Ergebnis nicht und werden verworfen. Somit
entsteht eine Regelbasis mit vier Regeln und einer Sonst-Regel (mit ∗ markierte Regeln in
Tabelle 5.19).
R19 überdeckt sich mit Teilgebieten von Regel R24 (widersprüchliche Konklusionen B1 ↔
B2 ) und R6 (gleiche Konklusion B2 ). Die Inferenz löst die Widersprüche auf und sorgt letztlich
für plausible Klassengrenzen (Bild 5.23). Eine Lösung mit optimalen Einzelregeln entsteht so
allerdings nicht, weil R24 unnötig fehlerbehaftet ist.
183
5 Data Mining: Spezielle Verfahren
Tabelle 5.19: Regeln nach Generalisierung und daraus zusammengestellte Regelbasis (al-
le Regeln mit ∗ ) incl. Bewertung für das 3-Klassen-Problem, Abkürzungen für
Bewertungsmaße siehe Tabelle 5.18, Visualisierung siehe Bild 5.23
Da die Regeln der Regelbasis im Beispiel alle möglichen Eingangsgrößen abdecken, wird
strenggenommen keine Sonst-Regel benötigt. Solche Eigenschaften sind allerdings bei einer
Vielzahl verwendeter Merkmale kaum noch prüfbar. Folglich ist es sinnvoll, die Vollständigkeit
der Regelbasis immer durch eine Sonst-Regel abzusichern.
Die entstehenden Regelbasen hängen hauptsächlich von den ausgewählten Zugehörig-
keitsfunktionen, den verwendeten Verfahren zur Hypothesengenerierung und den Bewer-
tungsmaßen ab. Eine Auswahl von Ergebnissen für das Beispiel zeigt Tabelle 5.20. Alle
Verfahren lösen sowohl das 3-Klassen- als auch das 2-Klassen-Problem ohne merkliche
Unterschiede. Die Erzeugung klassenspezifischer Entscheidungsbäume generiert beim 3-
Klassen-Problem nEB = 3 unterschiedliche Bäume (jede Klasse gegen die beiden anderen),
während beim 2-Klassen-Problem nur ein Baum entsteht (Klasse Proband gegen Klasse Pa-
tient). Allerdings reicht für das Beispiel ein Entscheidungsbaum auch aus, um hinreichend
viele Regelhypothesen zu generieren.
Die mit einem Clusterverfahren bestimmten Parameter der Zugehörigkeitsfunktionen in Ta-
belle 5.9 bieten eine gute Ausgangsbasis für den Entwurf von Regelbasen. Ein äquifrequenter
Ansatz ist für das Beispiel etwas schlechter, weil er Randterme mit zu wenigen Datentupeln in
den Regeln erzeugt und außerdem eher zufällig zu ungünstigeren Klassengrenzen neigt. Ein
Optimieren der ZGF-Parameter nach dem Entwurf der Regelbasis9 lohnt sich nur über dem
Lerndatensatz und mit Einschränkungen bei Testdaten einer 5-fachen Crossvalidierung. Die
Ursache liegt in einer erhöhten Empfindlichkeit gegenüber einer Überanpassung über kleinen
9
zu maximierendes Gütemaß: (5.143), freie Parameter für Optimierung: Parameter der Zugehörig-
keitsfunktionen der in der Regelbasis verwendeten Merkmale
184
5.5 Fuzzy-Systeme
B1: Proband
B2: Patient A
B3: Patient B
22.18
R19
Laborwert x2
R2 R24
15.64
11.5
R
6
7.99
4.02
Bild 5.23: Einzugsgebiete der ausgewählten Regeln (alle Regeln mit ∗ in Tabelle 5.19) und
Klassengrenzen der resultierenden Regelbasis
185
5 Data Mining: Spezielle Verfahren
spiel nur einige ausgewählte Aspekte. Eine Verallgemeinerung der Ergebnisse auf
andere Anwendungen ist nur eingeschränkt möglich. Deswegen ist es sinnvoll, ver-
schiedene Einstellungen automatisiert auszuprobieren und diejenigen mit den besten
Ergebnissen über Testdaten zu verwenden. Allerdings ist die Kombination mit Clus-
terverfahren zum Entwurf von Zugehörigkeitsfunktionen, my klassenspezifischen Ent-
scheidungsbäumen zur Extraktion von Regelhypothesen, Generalisieren und nach-
folgendem Suchen nach einer Regelbasis relativ robust und erzielt in vielen Anwen-
dungen gute Ergebnisse [258, 288, 296].
Bei der Bewertung von Regeln fallen viele Zusatzinformationen an, die zu einem bes-
seren Verständnis der Regeln beitragen können. Dabei handelt es sich insbesondere
um Aussagen, inwieweit eine Regel fehlerfrei ist, wie speziell sie ist und wie die ein-
zelnen Teilprämissen zu den Ergebnissen beitragen.
186
5.5 Fuzzy-Systeme
Kennzahlen für solche Aussagen finden sich in den ohnehin berechneten beding-
ten Wahrscheinlichkeiten P̂(·). Eine Idee zur Vermittlung dieser Zusatzinformationen
und zur Annäherung an den menschlichen Sprachgebrauch besteht darin, Erklä-
rungstexte automatisch zu erzeugen [260, 301] und relevante Regelbewertungen in
die Beschreibung zu integrieren.
Die entstehenden Erklärungstexte setzen sich dann aus mehreren Bestandteilen
zusammen:
• feststehende Textrahmen zur Struktur der Regeln und der Erklärungstexte,
• textuelle Übersetzungen für verschiedene Wahrscheinlichkeitsaussagen TWahr (·),
bzw. der relativen Anzahl von Datentupeln TAnz (·) aus der Regelbewertung (Tabel-
le 5.21),
• textuelle Langfassungen für linguistische Terme TTerm (·) inkl. numerischer Zusatz-
informationen wie deren Einzugsbereiche,
• relative Aussagen für die Lage der Regelprämisse im Verhältnis zu ihrer jeweiligen
Sonst-Regel TRelsonst (·) sowie
• aufgabenspezifische natürlichsprachliche Namen von Merkmalen und Ausgangs-
größen TName (·).
Das Konzept lässt sich auch erweitern, um bei komplexeren entscheidungstheoreti-
schen Maßen Gründe für die Annahme und Ablehnung alternativer Hypothesen für
Einzelregeln und Regelbasen anzugeben [38].
Die textuelle Übersetzung der Zahlenwerte der bedingten Wahrscheinlichkeiten in
linguistische Terme (Tabelle 5.21) stützt sich auf [24, 59, 375]. Aus sprachlichen Grün-
den wird zwischen der geschätzten Wahrscheinlichkeit und der relativen Anzahl der
Datentupel unterschieden.
Ein erster Textrahmen erklärt alle relevanten Merkmale der Regel Rr . Die sind da-
durch gekennzeichnet, dass die l -te Teilprämisse der Regel nicht aus einer ODER-
187
5 Data Mining: Spezielle Verfahren
Verknüpfung aller Terme besteht. Für das erste Merkmal entsteht der folgende Text-
rahmen:
Die Beispiele für TTerm (Cr ) sind dadurch charakterisiert, dass TName (xl )
TWahr (∆P(Hrl )) TRelsonst (Vr ) als sonst ist: TAnz (P̂(xl = Al,L1 |Cr )) TTerm (Al,L1 ) und . . .
und TAnz (P̂(xl = Al,Lv |Cr )) TTerm (Al,Lv ).
Mögliche relative Aussagen TRelsonst (Vr ) sind die drei zu testenden Hypothesen Hrl
”größer”, ”kleiner” und ”anders” für jedes Merkmal, das in der Prämisse vorkommt.
Dabei wird z. B. bei der Hypothese größer geprüft, ob die in der Teilprämisse ausge-
wählten Terme und alle größeren Terme für die Regelkonklusion häufiger auftreten
als für die negierte Regelkonklusion. Für die Berechnung der Häufigkeit wird die Diffe-
renz der Häufigkeiten gebildet. Kommt beispielsweise der Term Al,4 als Teilprämisse
vor, werden Differenzen der Häufigkeiten als Maße für die beiden Hypothesen größer
und kleiner berechnet:
ml ml
∆P(Hrl = größer) = ∑ P̂(xl = Al,i |Cr ) − ∑ P̂(xl = Al,i |Cr ) (5.151)
i=4 i=4
4 4
∆P(Hrl = kleiner) = ∑ P̂(xl = Al,i |Cr ) − ∑ P̂(xl = Al,i |Cr ). (5.152)
i=1 i=1
Ist keines der beiden Maße relevant positiv (z. B. ∆P(Hrl ) > 0.2), wird noch das Maß
anders getestet:
Für das so gefundene größte Maß ∆P(Hrl ) wird die entsprechende Bezeichnung
für Häufigkeiten aus Tabelle 5.21 eingesetzt. Die Vergleichsinformation wird nur für
∆P(Hrl ) > 0.2 angezeigt. Ansonsten wird diese Information ersatzlos weggelassen
und ein leicht modifizierter Textbaustein verwendet:
Die Beispiele für TTerm (Cr ) sind durch TName (xl ) charakterisiert: TAnz (P̂(xl =
Al,L1 |Cr )) TTerm (Al,L1 ) und . . . und TAnz (P̂(xl = Al,Lv |Cr )) TTerm (Al,Lv ).
Die Bezeichnungen der Merkmale TName (xl ) werden stets als Langtext ausge-
schrieben.
Zur Verbesserung der Lesbarkeit werden die relevanten Terme nach absteigender
relativer Häufigkeit h = P̂(xl = Ali |Cr ) sortiert (L1 , . . . , Lv ) und Terme mit einer relativen
Häufigkeit kleiner h < 0.2 weggelassen.
188
5.5 Fuzzy-Systeme
Eine verbesserte Erklärung der Bedeutung der Terme bewirkt die zusätzliche An-
gabe des Abdeckungsbereiches anhand des α -Schnitts (α = 0.5) der Zugehörig-
keitsfunktionen. Für Randterme werden die Bausteine kleiner als und größer als, für
Mittelterme zwischen . . . und . . . genutzt. Eventuell anhand der Merkmale und der
Kategorien ermittelte physikalische Einheiten werden optional als weitere Textbau-
steine angehängt.
Ab dem zweiten Merkmal einer Teilprämisse wird ein leicht veränderter Textbau-
stein verwendet, der den ersten Teilsatz durch ”Weiterhin gilt für diese Beispiele, ...”
ersetzt.
Der zweite Textrahmen beschreibt die eigentliche Regel:
Aus diesen Aussagen lässt sich eine Regel aufbauen, die TAnz (P̂(Vr |Cr )) Fälle
von TTerm (Cr ) beschreibt. Wenn TTerm (Vr1 ) ist und · · · TTerm (Vrs ) ist, folgt daraus
TWahr (P̂(Cr |Vr )) TTerm (Cr ).
Die Beispiele für Patient A sind dadurch charakterisiert, dass Laborwert x1 häufig größer
als sonst ist: häufig sehr groß (größer als 2.75) und gelegentlich groß (zwischen 1.56 und
2.75). Weiterhin gilt für diese Beispiele, dass Laborwert x2 häufig größer als sonst ist:
häufig sehr groß (größer als 18.9) und gelegentlich groß (zwischen 13.6 und 18.9). Aus
diesen Aussagen lässt sich eine Regel aufbauen, die viele Fälle von Patient A beschreibt:
Wenn Laborwert x1 groß bis sehr groß (größer als 1.56) ist und Laborwert x2 sehr groß
(größer als 18.9) ist, folgt daraus immer Patient A.
Obwohl dieser Text einer menschlichen Beschreibung noch wenig ähnelt, ist er dennoch
für einen Nichtspezialisten verständlicher als eine formale Regelbeschreibung. Dieser Vorteil
kommt insbesondere bei komplexeren Regeln zum tragen, die nicht mehr zweidimensional
darstellbar sind. ¥
5.5.7 Implementierungsaspekte
Ein hemmender Faktor beim Einsatz von Fuzzy-Systemen in Geräten ohne leistungs-
fähige integrierte Computer ist die intransparente und rechenaufwändige Implemen-
tierung, um Mamdani-Systeme mit einer aufwändigen Fuzzifizierung bei vielen Merk-
malen, einer einschrittigen Akkumulation und einer Defuzzifizierung mit der Schwer-
189
5 Data Mining: Spezielle Verfahren
fT P (xl ) < 0
0, für
µVrl (xl ) = 1, für fT P (xl ) > 1 mit fT P (xl ) = min( f (xl ), g(xl )). (5.154)
fT P sonst
Die Prämissenauswertung erfordert zur Umsetzung von (5.116) nun noch eine Multi-
plikation der Ergebnisse von (5.154) für alle Teilprämissen. Die Akkumulation I erfolgt
gemäß (5.118) durch eine Addition aller Zugehörigkeitswerte gleicher Konklusionen.
Zur Defuzzifizierung wird die Maximum-Defuzzifizierung (5.128) oder die Schwer-
punktmethode für Singletons verwendet. Der verwendete Algorithmus generiert einen
kompakten recheneffizienten Quellcode, der sich problemlos in Medizingeräte inte-
grieren lässt und sich auch für Mikrocontrollerimplementierungen eignet.
Den Quellcode für das Beispiel zeigt Bild 5.25.
10
Verwendung einer Standardpartition für alle Zugehörigkeitsfunktionen, Produkt als Operator für die
UND-Verknüpfung, Beschränkte Summe als Operator für die ODER-Verknüpfung, vollständige und
nicht überlappende Regelbasis
190
5.5 Fuzzy-Systeme
1.5
NEG ZE PK PM PG
1
ZGF
0.5
0
f(x) g(x)
−0.5
−2 −1 0 1 2 3 4
Laborwert x1
Bild 5.24: Implementierungsstrategie für die Fuzzifizierung und die Auswertung von Teilprä-
+2.06
missen am Beispiel der Teilprämisse V24,1 mit f (x1 ) = x12.29 , g(x1 ) = 3.46−x1
1.43 (ge-
strichelt) und der resultierenden Funktion fT P (fett) an der Stelle x1 = 1: Ergebnis
µV24,1 (1) = 1
Fuzzy-Systeme sind in der Medizin und Medizintechnik wegen ihrer guten Interpre-
tierbarkeit und des (scheinbar) geringeren mathematischen Aufwands sehr beliebt.
Umfassende Übersichten geben [17, 18, 98, 268, 297, 418, 424, 429, 440]. Fuzzy-
Systeme finden sich sowohl bei Klassifikationsproblemen (z. B. Diagnose, Therapie-
auswahl usw.) als auch bei Regressionsproblemen (z. B. Modellbildung biologischer
Systeme, Regelung in Medizingeräten).
Bereits die Pionierarbeit in [24] nutzt die Fähigkeit von Fuzzy-Systemen zur Fu-
sion verschiedener Arten von Unsicherheiten in Merkmalen, Häufigkeitsaussagen,
zeitlichen Abläufen und Regeln aus. Basierend auf jener Arbeit begann die Entwick-
lung medizinischer Diagnose- und Beratungssysteme für die innere Medizin (z. B.
CADIAG-II, Medframe/CADIAG-IV), die auf eine Differentialdiagnose und eine Thera-
pieauswahl zielen (siehe z. B. [25, 57] für neuere Übersichten). Das CADIAG-System
ist in das klinische Informationssystem des Allgemeinen Krankenhauses der Stadt
Wien (AKH) eingebunden und in verschiedenen klinischen Studien erprobt (siehe
z. B. [247]). Die hier verwendeten Regeln und Logiken gehen deutlich über einen mo-
dus ponens hinaus und lassen verschiedene Arten logischer Operatoren zu. Ähnlich
geartet sind erste Überlegungen [255], Fuzzy-Logik zur Auswertung von textuell ge-
191
5 Data Mining: Spezielle Verfahren
//Accumulation I
mu_y[1]=pr[3];
mu_y[2]=pr[2]+pr[4];
mu_y[3]=pr[1];
//Defuzzification
y=1;max_mu_y=0;
for (i=1;i<4;i++)
{
if (mu_y[i]>max_mu_y) {y=i;max_mu_y=mu_y[i];};
if (mu_y[i]>1) {mu_y[i]=1;};
return y;
};
192
5.6 Künstliche Neuronale Netze
Künstliche Neuronale Netze (KNN) bestehen aus einer Vielzahl miteinander ver-
knüpfter relativ einfacher Verarbeitungseinheiten, den sogenannten Neuronen (typi-
193
5 Data Mining: Spezielle Verfahren
sche Struktur in Bild 5.26a). Sie unterscheiden sich in der Art ihrer Verschaltung und
in der Art ihrer Neuronen. Umfassende Übersichten zu Künstlichen Neuronalen Net-
zen finden sich beispielsweise in [158, 386, 410]. Eine Zusammenstellung wichtiger
Begriffe steht in [5].
Im Vergleich zu ihren biologischen Vorbildern sind Künstliche Neuronale Netze ex-
trem vereinfacht. Biologische Neuronen kommunizieren durch Spikes als Ein- und
Ausgangsgrößen und sind durch komplizierte Vernetzungsstrukturen mit gegenseiti-
gen Erregungen und Hemmungen gekennzeichnet. Gegenwärtig verwendete Model-
le des Übertragungsverhaltens solcher Neuronen basieren auf dem Hodgkin-Huxley-
Modell [170]. Inzwischen wurden zahlreiche Erweiterungen vorgeschlagen (siehe
z. B. [60, 394]), eine Übersicht findet sich in [95, 96]. Alle genannten Modelle sind
deutlich komplizierter als die im Folgenden vorgestellten Modelle und werden wegen
dieser Kompliziertheit nur selten für Künstliche Neuronale Netze verwendet.
Besonders einfache Eigenschaften und Lernverfahren ergeben sich bei einer Ver-
schaltung als sogenanntes Feedforward-Netz. Jedes Neuron gehört zu einer Schicht.
Die Eingänge eines Neurons einer Schicht sind nur mit den Neuronen der vorher-
gehenden Schicht und der Ausgang eines Neurons mit Neuronen der nachfolgen-
den Schicht verbunden (Bild 5.26b). Die erste Schicht (Eingabeschicht) verbindet
das Netz mit den Eingangsgrößen, die letzte Schicht (Ausgabeschicht) mit den Aus-
gangsgrößen des Systems. Die dazwischen liegenden Schichten werden auch als
verdeckte Schichten (Synonym: verborgene Schicht, versteckte Schicht, engl. hidden
layer) bezeichnet.
Netze mit Rückkopplungen über mehrere Schichten, innerhalb einer Schicht oder
innerhalb eines Neurons eignen sich in Kombination mit dynamischen Übertragungs-
gliedern (z. B. Zeitverzögerungen um einen Abtastzeitpunkt oder speziellen Filter-
bänken) besonders zur Repräsentation dynamischer Systeme und werden als rekur-
rente Netze bezeichnet. Aufgrund von Problemen beim Entwurf rekurrenter Netze,
ihres komplexen Verhaltens und der reduzierten Analysefähigkeit haben sich solche
Netze bislang nicht in breitem Umfang durchgesetzt. Deshalb werden im Folgenden
Feedforward-Netze betrachtet.
Jedes einzelne Neuron ist durch sogenannte Kanten (zugehöriger Parametervek-
tor: w) mit seinem Eingangsvektor x verbunden und verfügt über einen skalaren in-
neren Zustand z, eine Aktivierungsfunktion f (z) und eine skalare Ausgangsgröße y.
Diese Ausgangsgröße berechnet sich mittels
194
5.6 Künstliche Neuronale Netze
w1
x1 ... z y
...
z(x,w) f(z)
ws ...
xs
Neuron
Eingabe- Verdeckte Ausgabe-
schicht Schicht schicht
Der Parametervektor spielt somit eine unterschiedliche Rolle: als Wichtigkeit der Kan-
te in (5.159) (bei einem Wert Null hat die Kante keinen Einfluss auf das Neuron) oder
als Referenzwert für die Eingangsgröße in (5.160) und (5.161). Beim Wettbewerbs-
lernen benötigt ein Neuron keinen Parametervektor am Eingang.
Neuronen mit (5.159) wirken global im gesamten Merkmalsraum. Zudem nehmen
sie eine lineare Merkmalstransformation D17 mit einem zusätzlichen Eingang (Wert
Eins) vor. Neuronen mit (5.160), (5.161) haben hingegen nur einen lokalen Einfluss
in der Nähe von w. Die lokale Wirkung ähnelt Vorgehensweisen bei einem Nearest-
Neighbor-Klassifikator: Ein Neuron wird umso stärker aktiviert, je näher sich der Ein-
gangsvektor x am Parametervektor w befindet. Der Parameter w0 in (5.160) bestimmt
195
5 Data Mining: Spezielle Verfahren
Wegen den verwendeten Funktionen zur Berechnung des internen Zustands wirken
die Neuronen der verdeckten Schicht bei MLP-Netzen global, aber bei RBF-Netzen
und Kohonen-Karten lokal. Alle drei Netztypen sind noch in engem Maße mit spezi-
ellen Entwurfs- bzw. Lernverfahren verbunden, die im folgenden Abschnitt erläutert
werden.
Klassifikationsprobleme können über ein Ausgangsneuron (D2 mit der Nummer
der Klasse als Ausgangsgröße ŷ) oder über my Ausgangsneuronen (Kodierung als
Fuzzy-Klassifikationsproblem D3 mit der geschätzten Zugehörigkeit der Klasse µBc
als Ausgangsgröße) umgesetzt werden. In der Praxis dominiert die zweite Variante,
weil sie bessere Konvergenzeigenschaften in der Entwurfsphase aufweist. Bei schar-
fen Klassifikationsproblemen kommen dann im Lerndatensatz nur Zugehörigkeiten
von Null oder Eins vor.
Mit speziellen Netzstrukturen (Eingabeschicht mit linearen Aktivierungsfunktionen;
eine verdeckte Schicht mit RBF-Neuronen, deren Eingänge nur mit einem Neuron der
196
5.6 Künstliche Neuronale Netze
Eingabeschicht verbunden sind usw.) lassen sich Künstliche Neuronale Netze erzeu-
gen, die zu Fuzzy-Systemen äquivalent sind (siehe z. B. ANFIS – Adaptive Network
based Fuzzy Inference System [194], NEFCLASS – Neuro Fuzzy Approach for the
Classification of Data [321, 322]). Der Vorteil solcher Strukturen besteht darin, Fuzzy-
und Neuro-Systeme ineinander umwandeln zu können. Somit sind Lernverfahren für
beide Verfahren einsetzbar, Vorwissen ist in Form von Fuzzy-Regeln integrierbar und
die bessere Interpretierbarkeit von Fuzzy-Systemen kann ausgenutzt werden. Zu-
dem finden sich bei einigen Fuzzy-Systemen Strukturen, die sich auch als Künstliche
Neuronale Netze darstellen lassen (siehe z. B. RBF-ähnliche Strukturen in [356]). Au-
ßerdem existiert eine Vielzahl weiterer Netztypen mit entsprechenden Lernverfahren.
Künstliche Neuronale Netze sind bei richtigem Einsatz (insbesondere mit einer ge-
eigneten Struktur) ein leistungsfähiges Verfahren für verschiedene Problemstellun-
gen:
• Regression D1 (meist Multi-Layer-Perceptrons oder RBF-Netze),
• Klassifikation, die über die Schätzung von bedingten Wahrscheinlichkeiten D11
der Ausgangsgröße für den aktuellen Wert der Eingangsgrößen erfolgt (meist
Multi-Layer-Perceptrons oder RBF-Netze, jeweils mit my Neuronen in der Ausga-
beschicht) sowie
• Clustering D7 bzw. Fuzzy-Clustering D8 (meist mit Kohonen-Karten).
Künstliche Neuronale Netze orientierten sich ursprünglich an Verarbeitungsmecha-
nismen im menschlichen und tierischen Gehirn. Diese Ähnlichkeit dient häufig als
Marketing-Instrument für ihre Überlegenheit gegenüber anderen Verfahren. Aller-
dings stellen sie nur ein stark vereinfachtes Modell dar, was die Argumentation frag-
würdig erscheinen lässt.
5.6.2 Entwurfsverfahren
Auch bei Künstlichen Neuronalen Netzen müssen beim Entwurf die Struktur und die
Parameter festgelegt werden. Zur Festlegung der Struktur gehört die Anzahl der Neu-
ronen in der i-ten Schicht sNeuron,i , die Anzahl der Schichten sSchicht (inkl. Ein- und
Ausgabeschicht) und die Art der Neuronen pro Schicht (Festlegung der Funktionsty-
pen für f , z). Ebenso wichtig ist die Verknüpfung des Künstlichen Neuronalen Netzes
mit den Merkmalen und Ausgangsgrößen in der Ein- bzw. Ausgabeschicht.
Auch hier erfolgt die Strukturbestimmung in der Regel indirekt durch Bewertung
verschiedener Strukturen, deren Parameter jeweils geschätzt werden müssen. Die
Bewertungsmaße entsprechen den üblichen Maßen aus Abschnitt 3.5. Bei MLP-
und RBF-Netzen dominiert der Regressionsfehler über den Neuronen der Ausga-
197
5 Data Mining: Spezielle Verfahren
∂Q
wMLP [k + 1] = wMLP [k] − ρ [k]Wrek [k] | , ρ ∈ [0, 1], (5.166)
∂ wMLP wMLP [k]
wobei ρ [k] ein Lernfaktor, Wrek [k] eine Wichtungsmatrix und wMLP [k] der k-te Itera-
tionsschritt für den Parametervektor ist. Durch geschicktes Ausnutzen der Schich-
tenstruktur und geschlossene Berechnung der partiellen Ableitungen ergibt sich
ein erheblich vereinfachtes Verfahren, das als Backpropagation-Verfahren bezeich-
net wird und die Einheitsmatrix als Wichtungsmatrix verwendet: Wrek [k] = I. Mo-
difikationen des Verfahrens mit verbesserten Konvergenzeigenschaften berücksich-
tigen zusätzlich die Schätzung der inversen Hesse-Matrix11 als Wichtungsmatrix
sowie zusätzliche Regularisierungstechniken (z. B. Levenberg-Marquardt-Verfahren:
Wrek [k] = (Ĥ + α [k] · I)−1 , α [k] – Wichtungsfaktor).
Beispiel: Die Ergebnisse des Anlernens von MLP-Netzen für das Beispiel zeigen Bild 5.27
und Tabelle 5.22. MLP-Netze lösen bei annähernd passender Anzahl der Neuronen in der
verdeckten Schicht sowohl das 2-Klassen- als auch das 3-Klassen-Problem mit guten Er-
gebnissen (Klassifikationsfehler über Testdaten ≤ 4 % bei 5-facher Crossvalidierung). Dabei
11
Hesse-Matrix H: Matrix der partiellen zweiten Ableitungen des Bewertungsmaßes nach den Para-
metern mit Elementen Hi j = ∂ 2 Q/(∂ wMLP,i · ∂ wMLP, j ).
198
5.6 Künstliche Neuronale Netze
30 B1: Proband
30 30
B2: Patient A
25 B3: Patient B
25 25
Laborwert x2
Laborwert x2
Laborwert x2
20 20 20
15 15 15
10 10 10
5 5 5
−2 0 2 4 −2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1 Laborwert x1
Bild 5.27: Trennebenen dreier angelernter MLP-Netze für das 3-Klassen-Problem des Bei-
spiels mit unterschiedlicher Anzahl von Neuronen in der verdeckten Schicht:
a. 1 Neuron, b. 5 Neuronen, c. 30 Neuronen
ist ein Neuron auf jeden Fall zu wenig: Es reicht nicht aus, um angepasste Trennebenen zu
generieren (Bild 5.27a) und produziert hohe Fehlerquoten über Lern- und Testdaten. Geeig-
nete Strukturen weisen etwa 5-10 Neuronen auf (Bild 5.27b). Bei Strukturen mit mehr Neu-
ronen kommt es zu überangepassten Lösungen (Bild 5.27c), wobei der Klassifikationsfehler
über Testdaten wieder ansteigt. Im Beispiel ist das Künstliche Neuronale Netz nicht auf ei-
ne Merkmalsselektion angewiesen und liefert mit und ohne Merkmalsselektion vergleichbare
Ergebnisse.
Eine typische Netztopologie für ein MLP-Netz mit den Eingangsgrößen x1 , x2 , einer ver-
deckten Schicht mit fünf Neuronen und drei Ausgangsneuronen zeigt Bild 5.28a. Die drei
Ausgangsneuronen wurden mit den geschätzten Zugehörigkeiten der Ausgangsgröße zu den
Termen B1 , B2 und B3 angelernt. Durchgezogene Linien geben negative, gestrichelte Linien
positive Werte der verbindenden Wichtungsfaktoren an. Die Linienstärke nimmt mit der Stärke
der Verbindung zu.
Einen Ausschnitt aus dem Ein-Ausgangs-Verhalten des Netzes visualisiert Bild 5.28b. Da-
bei wurde ein fester Wert für x2 = 10 gesetzt und der Wert von x1 schrittweise verändert. Die
Verläufe erinnern prinzipiell an gaußförmige Zugehörigkeitsfunktionen bei Fuzzy-Systemen.
Die Grenze zur Entscheidung zwischen Klasse B1 und B3 liegt bei x1 ≈ −0.7, die für die Ent-
scheidung zwischen B2 und B3 bei x1 ≈ 3.5 (vgl. Bild 5.27). In den dünn besetzten Gebieten
um etwa x1 = 5 steigt die Gefahr einer fehlerhaften Extrapolation. Hier kommt es im Beispiel
sogar zu negativen Werten für µB1 (x1 ), was durch eine spätere Begrenzung auf das Intervall
[0, 1] korrigiert werden kann.
199
5 Data Mining: Spezielle Verfahren
Tabelle 5.22: Auswirkungen verschiedener Merkmale und der Anzahl von Neuronen für das
2- und das 3-Klassen-Problem des Beispiels, LD: Lerndatensatz, 5CV: 10 Ver-
suche 5-fache Crossvalidierung, 2CV: 10 Versuche 2-fache Crossvalidierung
200
5.6 Künstliche Neuronale Netze
A 0.5
2
0
A1
Laborwert x1
−0.5
Input Hidden Output −2 0 2 4 6
Layer Laborwert x1
Bild 5.28: a. Topologie eines angelernten MLP-Netzes mit zwei Eingangsneuronen für x1 , x2
(E1-E2), einer verdeckten Schicht mit fünf Neuronen (V1-V5) und drei Neuronen in
der Ausgabeschicht (A1-A3) für die drei Terme der Ausgangsgröße (links)
b. Ein-Ausgangs-Verhalten des Netzes µBc (x1 , x2 ), c = 1, 2, 3, für variable Werte von
x1 und einem festen Wert von x2 = 10 (rechts)
201
5 Data Mining: Spezielle Verfahren
Ausgang Neuron A1
1
1
0.5
0.5
0
0
−0.5
−0.5 −1
−2 0 2 4 6 −2 0 2 4 6
Laborwert x1 Laborwert x1
c. Wichtung V1 −> A1 d. Absolutterm A1
1 1.5
Ausgang Neuron A1
0.5
0
0
−0.5
−0.5
−1 −1
−2 0 2 4 6 −2 0 2 4 6
Laborwert x1 Laborwert x1
für i 6= iG [k]
0
ρi [k] = ρ0 [k] für i = iG [k] und yi = y[k] (5.171)
−ρ0 [k] für i = iG [k] und yi 6= y[k].
Für alle Netze kann die Aktualisierung der Parameter in (5.166) bzw. (5.167) separat
für jedes Datentupel (Datentupel-basiertes Training, Synonym: Datenpunkt-basiertes
Training) oder gemittelt für den vollständigen Lerndatensatz erfolgen (Datensatz-
basiertes Training, Synonym: Batch-Training). Die Unterschiede beider Varianten lie-
gen hauptsächlich in den Konvergenzeigenschaften, die Vor- und Nachteile sind aber
202
5.6 Künstliche Neuronale Netze
a. Zuordnungen (links: B1, Mitte: B2, rechts: B3) b. Projektion auf x1, x2
B1: Proband
30 B2: Patient A
1
B3: Patient B
25
Neuronen 1. Ebene
2
20
Laborwert x2
3
15
4 10
5 5
1 2 3 4 5 −2 0 2 4
Neuronen 2. Ebene Laborwert x1
Bild 5.30: Ergebnisse einer Kohonen-Karte für das Beispiel, a. Neuronen mit Klassenzuord-
nung (Histogramme für jedes Neuron von links nach rechts: Klasse B1 bis B3 ), b. La-
ge der Neuronen für x1 , x2 (Projektion der vierdimensional angelernten Kohonen-
Karte)
203
5 Data Mining: Spezielle Verfahren
(Lernfaktor ρ > 0).12 Dieses Lerngesetz erhöht immer dann die Werte einer Wich-
tung in besonders starkem Maß, wenn die Ausgangsgrößen der durch sie verbunde-
nen Neuronen für die gleichen Datentupel groß sind. Im Gegensatz dazu reduziert
Anti-Hebbsches-Lernen den verbindenden Parameter (ρ < 0). Oftmals wird ein Ver-
gessensfaktor α ergänzt, um ein unbeschränktes Wachstum von ∆wi, j zu verhindern:
204
5.6 Künstliche Neuronale Netze
Eine umfangreiche Übersicht über den Einsatz von Künstlichen Neuronalen Netzen
in klinischen Studien gibt [254] inklusive einer Auflistung des Anwendungsfeldes, des
Studientyps und der Validierungstechniken.
Die wichtigste Problemstellung für Künstliche Neuronale Netze ist die Differenti-
aldiagnose. [157] klassifiziert mit einem MLP-Netz vier verschiedene Leberschäden
auf der Basis von zehn Merkmalen (z. B. Laborwerte für Blut und Urin) anhand ei-
ner Datenbasis von 536 Patienten. Außerdem werden aus dem angelernten Netz-
werk Regeln extrahiert. Die Ergebnisse werden mit einer linearen Diskriminanzana-
lyse und einem Neuro-Fuzzy-System verglichen und zeigen die Überlegenheit des
MLP-Netzes. [119] vergleicht ein MLP-Netz mit verschiedenen statistischen Ansät-
zen (logistische Regression über alle Merkmale, Schwellwerte über einzelnen Merk-
malen) bei der Früherkennung von Prostatakrebs (Differentialdiagnose gegen nor-
males Gewebe und verschiedene gutartige Veränderungen). Die Studie basiert auf
Laborwerten von 1246 Patienten. Die Netzstruktur wird über Genetische Algorithmen
bestimmt. Auch hier zeigt sich bei einer Analyse der ROC-Kurve die Überlegenheit
des Künstlichen Neuronalen Netzes. Eine weitere große klinische Studie (928 Patien-
ten) zu dieser Thematik beschreibt [434] (Merkmale z. B. Laborwerte, Stammdaten).
Anwendungen zur Prognose stellt beispielsweise [79] zur Schätzung der Überlebens-
zeiten bei Tumoren vor.
Neben Einzelmerkmalen finden sich auch bild- und zeitreihengestützte Analy-
sen. [340] analysiert je eine Ruhe- und Belastungsmessung des Blutflusses im
Herz mit SPECT-Aufnahmen (Single-Photon-Emission-Computertomographie). Da-
bei werden dreidimensionale Aufnahmen ortsdiskretisiert und in Form einer soge-
nannten Bulls-eye-Darstellung zweidimensional visualisiert, um die Interpretierbar-
keit zu verbessern. Als Lerndatensatz standen 1320 Bilder zur Verfügung. Mit einem
MLP-Netz werden fünf wertediskrete Aussagen (nein, wahrscheinlich nein, schwer
entscheidbar, wahrscheinlich ja, ja) für die Wahrscheinlichkeit eines Herzinfarktes
berechnet. Das Netz ist besser als eine logistische Regression und ein Nearest-
Neighbor-Verfahren. Das MLP-Netz wurde in das Expertensystem WeAidU integriert,
das 17 Kliniken in Schweden zur Verfügung gestellt wurde. Eine nachfolgende Stu-
die zu Entscheidungen mit und ohne Expertensystemunterstützung ist geplant. Ei-
205
5 Data Mining: Spezielle Verfahren
5.7 Clusterverfahren
206
5.7 Clusterverfahren
die zu minimieren ist. Die Anpassung³ erfolgt durch´ die Festlegung der Lage der Clus-
terzentren, die in einer Matrix X̄ = x̄1 · · · x̄my mit der Dimension s × my (s Anzahl
Merkmale, my Anzahl Cluster) angeordnet sind. Die Variante mit der Euklidischen
Distanz dc = dEuk wird als K-means-Algorithmus bezeichnet.
Das Kriterium ist äquivalent zu einer Formulierung
my
QCluster (ŷ, X̄) = ∑ ∑ dc2 (x[n], x̄c ) → min
ŷ,X̄,
(5.176)
c=1 n mit ŷ[n]=Bc
207
5 Data Mining: Spezielle Verfahren
my
∑ µBc [n] = 1, für alle n = 1, . . . , N, mit µBc [n] ≥ 0, (5.179)
c=1
N
∑ µBc [n] > 0, für alle c = 1, . . . , my. (5.180)
n=1
208
5.7 Clusterverfahren
Datensätze mit einer großen Zugehörigkeit ziehen das Clusterzentrum stärker in ihre
Richtung als Datensätze mit kleinen Zugehörigkeiten. Der nachfolgende 4. Schritt hält
die Clusterzentren fest und bestimmt nach Einsetzen der Nebenbedingung (5.179),
Nullsetzen der Ableitung von (5.178) nach µ y für q > 1 und Umstellen die Zugehörig-
keit
¡ 2 ¢ 1
dc (x[n], x̄c ) 1−q
µBc [n] = ¢ 1 . (5.182)
my ¡ 2
∑i=1 di (x[n], x̄i ) 1−q
Eine Bewertung (5. Schritt) beurteilt die Güte der Ergebnisse und koppelt u. U. durch
Löschen zu unbedeutender oder zu ähnlicher Cluster bzw. Ergänzen neuer Clus-
ter auf die Berechnung der Parameter zurück. Zudem beurteilt sie, wie stark sich
die Clusterparameter im letzten Iterationsschritt verändert haben. Die Iteration wird
beendet, wenn sich die Clusterzuordnung der Datentupel nicht mehr oder nur noch
geringfügig ändert. Anderenfalls wiederholt sich der Ablauf durch Berechnen der Di-
stanzen zu den aktualisierten Clustern (2. Schritt). Die Konvergenz ist nicht a priori
gesichert, allerdings sind insbesondere bei Fuzzy-Clusterverfahren mit nicht cluster-
spezifischen Distanzen die Konvergenzeigenschaften gutmütig. Der Algorithmus kon-
vergiert oft gegen das globale Optimum oder zumindest gegen ein lokales Optimum,
das nur eine geringe Gütedifferenz zum globalen Optimum aufweist. Bei clusterspezi-
fischen Kovarianzmatrizen neigt der Algorithmus bei ungünstigen Startwerten dazu,
Cluster mit sehr geringen Datentupelzahlen und mit betragsmäßig kleinen Werten
der Kovarianzmatrizen zu generieren.
In der Anwendungsphase sind meist nur noch die Schritte 2 und 3 mit gegebe-
nen Clusterparametern für jedes neue Datentupel auszuführen. Es existieren aber
auch adaptive Varianten, die die Clusterparameter entsprechend dem vierten Schritt
ständig nachführen.
Die Freiheitsgrade beim Clustering bestehen in der Wahl der Clusteranzahl, des
Distanzmaßes und der Art der Berechnung der Clusterzugehörigkeiten. Zusätzlich
können Bewertungsmaße auf die extrahierten Merkmale zurückkoppeln, so dass ein
geschlossener Kreis aus Merkmalsextraktion und Clustering entsteht.
Die Clusteranzahl wird entweder manuell gesetzt oder durch mehrfaches Cluste-
ring mit unterschiedlicher Clusteranzahl und Auswahl der besten Lösung gemäß ei-
nem Bewertungsmaß ermittelt. Sie kann sich auch während eines iterativen Algorith-
mus ändern, wenn dicht beieinander liegende Cluster verschmolzen oder heterogene
Cluster aufgespalten werden.
Die Festlegung eines Distanzmaßes bedeutet implizit auch eine Annahme über die
Clustergeometrie. Die Euklidische Distanz (3.34) (Sonderfall der quadratischen Form
(3.35) mit WQF = I) unterstellt (hyper-)kugelförmige Cluster mit Volumen Eins. Ei-
209
5 Data Mining: Spezielle Verfahren
verwendet, wobei SF,c wegen der Ähnlichkeit zu einer Kovarianzmatrix als Fuzzy-
Kovarianzmatrix bezeichnet wird. Die Cluster haben wegen des Normierungsterms
ps
det(SF,c ) das gleiche Volumen, sind aber Ellipsoide mit clusterindividuellen Seiten-
verhältnissen und Orientierungen. Der Gath-Geva-Algorithmus arbeitet in Anlehnung
an einen statistischen Zugang auf der Basis einer Normalverteilung (5.3) mit cluster-
spezifischen Maßen14
p µ ¶
2 det(SF,c ) 1 T −1
dc (x[n], x̄c ) = exp (x[n] − x̄c ) SF,c (x[n] − x̄c ) (5.185)
P̂(ŷ = Bc ) 2
∑Nn=1 µBc [n]
mit P̂(ŷ = Bc ) = N my , (5.186)
∑n=1 ∑i=1 µBi [n]
die sowohl unterschiedliche Clustervolumina als auch unterschiedliche Orientierun-
gen zulassen.
Andere Clusterprototypen (z. B. Konturen in Form von Linien, Kreisen, Ellipsen und
Rechtecken) können durch entsprechend modifizierte Clusterparameter und Distanz-
maße oder durch geeignete extrahierte Merkmale nachgebildet werden. Solche Pro-
totypen sind insbesondere bei der Suche nach Objekten mit einer bestimmten Geo-
metrie in Bildern und Videos bedeutsam.
Clusterbewertungsmaße beurteilen die Güte eines Clusterings und sind somit
wertvolle Hilfsmittel zur Merkmalsselektion und zur Auswahl der Clusteranzahl (Über-
sicht siehe z. B. [180, 444]). Obwohl eine Vielzahl von Bewertungsmaßen vorgeschla-
13
Alternativ dazu können auch alle Merkmale gemäß (5.6) auf Seite 106 normiert werden, damit gilt
dann die Euklidische Distanz mit WQF = I.
14
Das Maß ist allerdings keine Distanz: dc (x, x) 6= 0, damit Widerspruch zu (3.28).
210
5.7 Clusterverfahren
gen wurde, existiert bisher kein hundertprozentig befriedigendes Maß. Ein wichtiger
Vertreter ist der Trennungsgrad (engl. separation)
QCluster (ŷ, X̄)
QTrenn (my ) = , (5.187)
my · min (dc2 (x̄i , x̄ j ))
i, j=1,...,my ,i6= j
der analog auch für QFuzzy−Cluster (µ y , X̄) einsetzbar ist. Er bestraft eine zu kleine
Distanz zwischen den beiden am nächsten benachbarten Clustern. Die beste Clus-
teranzahl wird durch das erste lokale Minimum für my ermittelt. Mit steigender Clus-
teranzahl sinken die Werte allerdings weiter.
Beispiel: Aufgrund der eng aneinander grenzenden Klassen ist ein Clusterverfahren im
Beispieldatensatz nicht in der Lage, die drei Klassen mit einem unüberwachten Lernverfahren
im originalen Lerndatensatz befriedigend aufzufinden (Bild 5.32a). Das ist daran zu erkennen,
dass die Clusterzugehörigkeiten nicht mit den Klassenzuordnungen in Bild 5.23 übereinstim-
men. Allerdings findet es nach einer Datentupelselektion zur alleinigen Auswahl der Pati-
entendaten bei geeigneter Parametrierung die beiden Patienten-Subgruppen (Bild 5.32c,f).
Hier gelingt sogar die automatische Bestimmung der Clusteranzahl my = 2 (Bild 5.32c),
weil die Lösung mit drei Clustern (Bild 5.32b) einen höheren Wert der Separation aufweist
(QTrenn (my = 2) = 2.17, QTrenn (my = 3) = 2.25) und somit das erste lokale Minimum gewählt
wird. Damit ist das Clusterverfahren in der Lage, ein 2-Klassen-Problem durch Auffinden der
Patientensubklassen in ein leichter lösbares 3-Klassen-Problem umzuwandeln. Außerdem
gibt es einen gut interpretierbaren Hinweis auf die Existenz der zwei Subklassen, die anhand
der Zuweisungen der Patienten zu den Clustern bzw. Subklassen und einer Visualisierung
klinisch auswertbar ist.
Die Auswirkungen von Merkmalsselektionen und von unterschiedlichen Distanzmaßen
erfordern eine sorgfältige Analyse: Der verstärkte Einfluss durch die große Streuung des
informationslosen Merkmals x3 beeinträchtigt die Ergebnisse der Euklidischen Distanz.
Hier kommt es zu zahlreichen falschen Zuordnungen (Bild 5.32d). Der Gustafson-Kessel-
Algorithmus ohne Merkmalsselektion (Bild 5.32e) scheitert, weil er die Redundanzen von x1
und x4 nicht ausnutzt, aber die Reststörung auf beiden Merkmalen verstärkt.15 Auch hier
steigt die Zahl der falschen Zuordnungen deutlich an. Das Problem lässt sich beispielsweise
durch eine Merkmalsselektion (nur noch x1 und x2 , siehe Bild 5.32f) lösen, wonach auch der
Gustafson-Kessel-Algorithmus die Datentupel richtig zuordnet16 . ¥
In der Literatur existiert eine Vielzahl modifizierter Verfahren. Die Entwick-
lung wurde und wird hauptsächlich von Problemstellungen getrieben, für die
Standard-Clusterverfahren unbefriedigende Ergebnisse liefern (Ausreißer im Lern-
datensatz, Cluster mit stark unterschiedlichen Verteilungsdichtefunktionen und A-
priori-Wahrscheinlichkeiten, Merkmalsräume mit fehlenden Werten, Integration von
15
Ähnliche Wirkungen verursacht die Mahalanobis-Distanz.
16
Genauso wirkungsvoll sind Merkmalsselektionen x1 , x2 , x3 oder x2 , x3 , x4 usw.
211
5 Data Mining: Spezielle Verfahren
30 30
25 25
20
Laborwert x2
Laborwert x2
20
15
15
10
10
5
5
−2 0 2 4 −2 0 2 4
c. nur Patienten, my=2, VN d. nur Patienten, my=2, EU
30 30
25 25
Laborwert x2
20 Laborwert x2 20
15 15
10 10
5 5
−2 0 2 4 −2 0 2 4
e. nur Patienten, my=2, GK f. nur Patienten, nur x1 und x2, my=2, GK
30 30
25 25
Laborwert x2
Laborwert x2
20 20
15 15
10 10
5 5
−2 0 2 4 −2 0 2 4
Laborwert x1 Laborwert x1
Bild 5.32: Clusterergebnisse für den Beispieldatensatz (alleinige Darstellung der Merkmale
x1 , x2 für alle Teilbilder, siehe auch Klasseneinteilung in Bild 5.3d auf Seite 119):
a. alle Datentupel, alle Merkmale, 3 Cluster, Distanzmaß: Varianznormierung
b. nur Patienten, alle Merkmale, 3 Cluster, Distanzmaß: Varianznormierung
c. nur Patienten, alle Merkmale, 2 Cluster, Distanzmaß: Varianznormierung
d. nur Patienten, alle Merkmale, 2 Cluster, Distanzmaß: Euklidische Distanz
e. nur Patienten, alle Merkmale, 2 Cluster, Distanzmaß: Gustafson-Kessel-
Algorithmus
f. nur Patienten, nur Merkmale x1 und x2 , 2 Cluster, Distanzmaß: Gustafson-Kessel-
Algorithmus
212
5.7 Clusterverfahren
213
5 Data Mining: Spezielle Verfahren
5
Hierarchieebenen für Cluster
11 19 17 1 14 10 16 5 2 3 4 8 12 7 9 6 18 15 20 13 21 23 24 30 27 26 25 29 28 22
Datentupel
Bild 5.33: Dendrogramm für ein hierarchisches Clustering mit den Merkmalen x1 und x2 für
alle Datentupel der beiden Patientenklassen
a. Merkmale b. Distanzen
15 8
30 B2: Patient A
B3: Patient B 20 5 7
25 5 11 6
19 6 10
14 16
Laborwert x2
Datentupel
1 10 17 18 5
20 22
48 2 15 4
12
7 3
15 29 9 3
20
25 30 2
10 24
21
23
27 13 25
1
5 26
28 30 0
−2 0 2 4 5 10 15 20 25 30
Laborwert x1 Datentupel
Bild 5.34: a. Merkmale x1 und x2 für alle Datentupel der beiden Patientenklassen als Basis
für das Dendrogramm in Bild 5.33, die Nummern der Datentupel stehen neben den
jeweiligen Symbolen,
b. Paarweise Distanzen der ausgewählten Datentupel nach einer Varianznormie-
rung und der Verwendung der Euklidischen Distanz, dunklere Farben bedeuten
größere Distanzen
214
5.8 Regressionsverfahren
5.8 Regressionsverfahren
5.8.1 Übersicht
215
5 Data Mining: Spezielle Verfahren
die Parameter âi gehen nur linear in das Ergebnis ein. Sie lassen sich somit bei
einigen wichtigen Bewertungsmaßen wie z. B. beim Minimieren von (3.75) über die
Methode der kleinsten Fehler-Quadrate (MKQ, engl. LS – least square method) ge-
schlossen bestimmen. Anderenfalls wird das Problem als parameternichtlinear be-
zeichnet.
Die Strukturfindung besteht in der Festlegung geeigneter Funktionen f(x), wozu
eine umfangreiche theoretische Literatur über Suchstrategien existiert (siehe z. B.
[179]). Ein Beispiel für einen solchen Ansatz sind Polynome mit f1 = 1 (zur Einbe-
ziehung eines konstanten Absolutterms), f2 = x1 , f3 = x2 , f4 = (x1 )2 , f5 = x1 · x2 , f6 =
(x2 )2 usw. Deren Werte werden dann in eine Matrix F der Dimension (N, s f ) mit Ele-
menten fi geschrieben:
1 x1 [1] x2 [1] (x1 [1])2 x1 [1] · x2 [1] (x2 [1])2
F = ... ..
.
..
.
..
.
..
.
..
. . (5.190)
2
1 x1 [N] x2 [N] (x1 [N]) x1 [N] · x2 [N] (x2 [N]) 2
Die Parameter stehen im s f -dimensionalen Vektor â, der entsprechend dem Bewer-
tungsmaß
1
F · â )T · (y − |{z}
Q = (y − |{z} F · â ) → min (5.191)
2 â
ŷ ŷ
als Spezialfall von (3.71) geschätzt wird. Die Lösung des Problems lautet
Das Ergebnis ist eindeutig, wenn FT · F den Rang s f hat. Das erfordert mindestens
s f linear unabhängige Zeilen (Datentupel) und Spalten (Merkmale) in F, was durch
einen geeigneten Datensatz zu sichern ist18 . Wegen dieser Rechenvorteile ist anzu-
streben, entweder von vornherein parameterlineare Funktionen anzusetzen oder zu
versuchen, parameternichtlineare Strukturen durch geeignete identische Transforma-
tionen (z. B. Logarithmieren beider Seiten in (5.188)) in parameterlineare Funktionen
umzuwandeln.
Auch das Problem in (3.81) (Diagonalmatrix WQF mit Wichtungskoeffizienten) kann
geschlossen mit der MKQ gelöst werden:
216
5.8 Regressionsverfahren
(5.193) und die schrittweise Auswahl der besten Funktionen suboptimal gelöst. Die
so ausgewählten Funktionen erlauben eine Deutung als zusätzliche transformierte
Merkmale, die aus den bisher gegebenen Merkmalen xl resultieren.
Im Spezialfall einer univariaten linearen Regression mit ŷ = a1 · x ist a1 nach einer
Varianznormierung von x und y auf jeweils Mittelwert Null und Standardabweichung
Eins der lineare Korrelationskoeffizient R. Der hängt wiederum über a21 = R2 mit dem
Bestimmtheitsmaß aus (3.76) zusammen.
Für parameterlineare Regressionsmodelle in (5.192), die mindestens einen
Mittelwert-Schätzer mit f1 = 1 enthalten19 , gilt der Streuungszerlegungssatz, der ei-
ne Gesamtstreuung (TSS: Total Sum of Squares), eine erklärte Streuung (ESS: Ex-
plained Sum of Squares) und eine nicht erklärte Streuung (RSS: Residual Sum of
Squares) enthält (vgl. auch (3.76) auf S. 59):
217
5 Data Mining: Spezielle Verfahren
Tabelle 5.23: Auswirkungen verschiedener Regressionsmodelle auf die Suche nach alternati-
ven Messverfahren zum Ersetzen von Laborwert x1 , LD: Lerndatensatz, 5CV: 10
Versuche 5-fache Crossvalidierung, 2CV: 10 Versuche 2-fache Crossvalidierung
218
5.8 Regressionsverfahren
Laborwert x1 (Schätzung)
0.5
0.4
0.3 2 2
Laborwert x1
2 0.2
Merkmale
0.1
0 1 1
−0.1
3 −0.2
−0.3 0 0
−0.4
−0.5 −1 −1
4 −0.6
−0.7
−0.8 −2 −2
−0.9
−1
1 2 3 4 −2 0 2 4 −4 −2 0 2
Merkmale Laborwert x1 Messwert x4
Bild 5.35: Ergebnisse der Regression für die Suche nach alternativen Messverfahren zum
Ersetzen von Laborwert x1 für das Beispiel: a. Korrelationsvisualisierung, b. Schät-
zung des Polynom-Modells gemäß (5.196) als Funktion der wirklichen Werte von
x1 , c. Schätzung des Polynom-Modells gemäß (5.196) mit Regressionsgerade und
wirklichen Werten von x1 als Funktion des Messwertes x4
k k
NS [k]
S[k] = (1 − h[k]) · S[k − 1] = ∏(1 − h[i]) = ∏ mit S[0] = 1, k ≥ 1 (5.200)
i=1 i=1 NS [k − 1]
zum Einsatz. h[k] ist das Sterberisiko für den Zeitraum zwischen den Zeitpunkten
k − 1 und k mit
NT [k] NS [k − 1] − NS [k]
h[k] = = (5.201)
NS [k − 1] NS [k − 1]
(NT [k]: Anzahl der im Zeitraum zwischen k − 1 und k verstorbenen Personen und
NS [k]: Anzahl der zum Zeitpunkt k lebenden Personen).
Der Einfluss der Merkmale xl in (5.199) kann durch das parameternichtlineare Cox-
Modell mittels
219
5 Data Mining: Spezielle Verfahren
s ³ ´T
h(t) = h0 (t) · ∏ e βl ·xl
(t) · e∑l=1 βl ·xl
s xT ·a
= h0 = h0 (t) · e , a = β1 . . . βs , (5.202)
l=1
mit einer gegebenen Referenzkurve h0 (t) approximiert werden. Alle Merkmale ohne
Einfluss haben zugehörige Parameter βl = 0 bzw. eβl = 1, βl > 0 ist lebenszeitver-
kürzend und βl < 0 ist lebenszeitverlängernd. Bei der Interpretation der βl sind die
auftretenden Wertebereiche von xl zu berücksichtigen, da eβl das erhöhte Risiko für
die Erhöhung eines (einheitslosen) Merkmalswertes von xl um ∆xl = 1 beschreibt.
Alle wertediskreten Merkmale xl sind geeignet wertekontinuierlich zu kodieren.
Das Problem ist nach Logarithmieren von (5.202)
µ ¶ s µ ¶
h(t) h(t)
ln = ∑ βl · xl = x · a mit ŷ := ln
T
(5.203)
h0 (t) l=1 h0 (t)
zwar parameterlinear, allerdings sind bei praktischen Anwendungen nicht die Ha-
sards h(t), sondern die Überlebenszeiten für N Patienten gegeben. Deswegen muss
das Problem iterativ gelöst werden, ein Lösungsalgorithmus findet sich z. B. in [306].
Die Struktur ist somit prinzipiell gegeben, dennoch können als Data-Mining-
Aufgabe Struktursuche-Probleme für die Auswahl weniger Merkmale mit βl 6= 0 auf-
treten. Da es sich um ein mehrfaktorielles Problem handelt (alle xl mit βl 6= 0 be-
einflussen S(t)), sind sorgfältige Interpretationen und statistische Abschätzungen er-
forderlich. Besondere Vorsicht sollte bei der Analyse verschiedener einfaktorieller
und mehrfaktorieller Ansätze gelten, wenn Vermutungen über Ursache-Wirkungs-
Mechanismen abgeleitet werden sollen.
Das Modell in (5.199) ist auch auf andere Studien übertragbar, bei denen es um
die Eintrittswahrscheinlichkeit eines binären Ereignisses zu bestimmten Zeitpunkten
geht (z. B. zeitliche Funktion der Rückfallquote einer Erkrankung).
Die Schätzung von Überlebenszeiten ist eine dominierende Anwendung von Re-
gressionsansätzen in der Medizin.20 Sie ist eine spezielle Anwendung zur Therapie-
prognose und Therapieevaluierung. Ein Beispiel zeigt [203] im Rahmen einer ran-
domisierten klinischen Studie mit 457 Patienten zur Behandlung nach Schlaganfäl-
len. Nach dem Prüfen von Einschlusskriterien wird für einen Patienten zufällig eine
von drei Behandlungsstrategien gewählt (A: stationäre Behandlung in einer spezia-
lisierten Schlaganfall-Einrichtung, B: in einer normalen Station unter Einbeziehung
von Schlaganfall-Spezialisten oder C: häusliche Behandlung unter Einbeziehung von
Schlaganfall-Spezialisten und Weiterführung mit A beim Eintreten von Komplikatio-
nen). Die Ergebnisse (Überlebenszeiten, Wiedergewinnen funktioneller Fähigkeiten)
20
Stand 2005: 3811 Publikationen unter MEDLINE ([Link]) mit den Schlagwörtern ”survival
analysis” und ”prognostic factors”.
220
5.8 Regressionsverfahren
Der Term P(·)/(1 − P(·)) wird dabei als Chance (engl. odds) bezeichnet. Der aus
dem geschätzten Vektor â berechenbare Term exp(âi ) ist das sogenannte adjustierte
Odds Ratio (OR) für das transformierte Merkmal fi (x[k]). Somit eignet sich die logisti-
sche Regression hauptsächlich für Klassifikationsprobleme D2 mit zwei Klassen und
die Schätzung von bedingten Verteilungsdichtefunktionen D11 .
Insbesondere bei medizinischen Datensätzen mit wenigen Datentupeln und (re-
lativ) vielen Merkmalen ist bei der Struktursuche darauf zu achten, einerseits alle
informationstragenden Merkmalskombinationen zu erfassen, aber ein Overfitting zu
vermeiden. Hinweise zu geeigneten Strategien finden sich in [435].
Ein Beispiel für eine logistische Regression gibt [326], wo anhand großer Daten-
sätze mit über 87000 Patienten aus 106 Intensivstationen von französischen Kliniken
221
5 Data Mining: Spezielle Verfahren
B(z) C(z)
A(z)Y (z) = U(z) + Z(z) (5.207)
F(z) D(z)
A(z)D(z)F(z)Y (z) = B(z)D(z)U(z) +C(z)F(z)Z(z) (5.208)
222
5.8 Regressionsverfahren
Die Polynome in (5.207) sind für ein SISO-System (ein Eingang und ein Ausgang,
engl. single input single output, damit s = sy = 1) durch
Tabelle 5.24: Vereinfachte Sonderfälle des Modells in (5.207) (Die Schreibweise Polynome=
0, 1 bedeutet, dass alle Koeffizienten für vergangene Werte Null sind: a1 = . . . =
ana = 0, b1 = . . . = nnb = 0 usw., der Wert Null (b0 = 0) bzw. Eins (alle anderen
Polynome) beschreibt dann den Wert ohne Zeitverschiebung), nach [256]
na nb
y[k] = − ∑ ai y[k − i] + ∑ b j u[k − j] + z[k] (5.210)
i=1 j=0
223
5 Data Mining: Spezielle Verfahren
224
5.9 Wertung
5.9 Wertung
Die vergangenen Abschnitte verdeutlichen die Breite und Vielfalt der zur Verfügung
stehenden Data-Mining-Verfahren. Die meisten der genannten Verfahren lassen sich
für eine Vielzahl von Problemstellungen aus Abschnitt 3.3 verwenden. Eine subjek-
tive Einschätzung des Autors hinsichtlich der jeweiligen Eignung verdeutlicht Tabel-
le 5.25. Die Einstufung als Hilfsverfahren bedeutet, dass das jeweilige Verfahren bei
einer Dekomposition der Problemstellung in mehrere Teilschritte (insbesondere durch
Merkmalsextraktion, -selektion und -transformation) bedeutsam sein kann.
Verfahren D1 D2 D3 D4 D5 D7 D8
Hauptkomponentenanalyse H H H H H H H
Diskriminanzanalyse - H, + H, + H, + - - -
Klassifikation - + + + 0 H H
SVM
linear + + + + 0 - -
nichtlinear + + + + + - -
Fuzzy-Systeme
Mamdani-Typ 0+ + + + 0+ 0+ 0+
Takagi-Sugeno-Typ + 0+ 0+ 0+ + H H
Künstliche Neuronale Netze
MLP-Netz + + + + + H 0+, H
RBF-Netz + + + + + H 0+, H
Kohonen-Karte 0+ 0+ 0+ 0+ + + +
Nearest-Neighbor-Verfahren + + + + + H H
Clusterverfahren 0, H 0+, H 0+, H 0+, H 0+, H + +
Regression + 0 0 0 0 - -
Logistische Regression + + + + + - -
Ein wichtiger Faktor für die Eigenschaften jedes Verfahrens ist dessen Empfind-
lichkeit gegen verschiedene Merkmalstransformationen und spezielle Eigenschaften
225
5 Data Mining: Spezielle Verfahren
226
5.9 Wertung
227
5 Data Mining: Spezielle Verfahren
228
5.9 Wertung
229
5 Data Mining: Spezielle Verfahren
Auffällig ist die hohe Anzahl von Publikationen bei statistischen Verfahren und
Clusterverfahren. Clusterverfahren profitieren besonders stark von Struktursuchen in
Genexpressionsprofilen (siehe gesonderte Abfrage in Tabelle 5.27). Die vergleichs-
weise niedrigen Zahlen der speziellen Arten bei Künstlichen Neuronalen Netzen
lassen sich hauptsächlich darauf zurückführen, dass die medizinische Fachliteratur
keine detaillierten Informationen über die verwendeten Netze bereitstellt. Hierbei ist
auch zu beachten, dass viele Lösungen durch den routinemäßigen Einsatz von ferti-
gen Programmpaketen für Künstliche Neuronale Netze entstehen und somit ein tief-
greifendes Verständnis (z. B. über Netztypen) nicht erforderlich ist. Generell weisen
alle Verfahren relevante Publikationszahlen auf, wobei sich die Arbeiten in den Jahren
seit 2002 konzentrieren.
Eine große Herausforderung ist die Zulassung von integrierten Data-Mining-
Verfahren im Rahmen der Zertifizierung von Medizingeräten. Hier spielen Aspekte
einer numerischen und algorithmischen Zuverlässigkeit und die Fähigkeit zur Eigen-
diagnose eine Rolle. Das betrifft die Anwendungsphase einer existierenden Data-
Mining-Lösung und mit noch wesentlich größeren Anforderungen die Entwurfsphase,
falls eine ständige Adaption gefordert ist. Während sich zumindest in der medizini-
schen Fachliteratur eine Art Pseudostandard bei der Verwendung von statistischen
Tests (insbesondere t -Tests mit p-Werten als Irrtumswahrscheinlichkeiten) gebildet
hat, fehlen solche Berechnungsvorschriften für andere Data-Mining-Verfahren. Hier
sind zukünftige Entwicklungen unabdingbar.
230
6 Data-Mining-Softwarelösungen in der Medizin
6.1 Ausgangssituation
Alle in den vorherigen Kapiteln vorgestellten Verfahren erfordern aufgrund ihrer Kom-
plexität eine umfangreiche Unterstützung durch Softwarelösungen. Hierbei ist eine
Unterstützung des kompletten Auswerteprozesses aus Kapitel 4 anzustreben, wobei
in den einzelnen Auswerteschritten (wie z. B. Merkmalsextraktion, -selektion, Klas-
sifikation) möglichst viele unterschiedliche Verfahren implementiert sein sollen. Zu-
sätzlich sind die Problemformulierung, die grafische Auswertung, eine komfortable
Bedienung, die Automatisierung von Auswerteabläufen und die anwendungsspezi-
fische Erweiterbarkeit zu unterstützen. Anderenfalls ist ein effektives Arbeiten nicht
oder nur eingeschränkt möglich.
Bei klinischen Datenanalysen dominieren bislang kommerziell verfügbare Pakete
wie z. B. SPSS (1851 Nennungen in MEDLINE und 127 explizite Nennungen bei kli-
nischen Studien1 ), STATISTICA (555/21) und MATLAB (470/31) für statistische Ver-
fahren, Regressionsverfahren und ausgewählte Erweiterungen wie z. B. Künstliche
Neuronale Netze.
Eine zweite große Gruppe von Softwarelösungen setzt ein oder mehrere spezielle
Data-Mining-Verfahren um (wie z. B. Fuzzy-Systeme mit dem Paket WINROSA mit
der Fuzzy-ROSA-Methode [212, 230], DataEngine der Fa. MIT GmbH, Clementine
der Fa. SPSS Inc.). Hierbei existieren sowohl frei verfügbare als auch kommerzielle
Produkte.
Eine Vielzahl von Open-Source-Toolboxen ist frei verfügbar. Der JAVA-basierte
Rapid Miner2 (früher Yale) enthält statistische Algorithmen, Entscheidungsbäume,
Support-Vektor-Maschinen, Künstliche Neuronale Netze, aber keine datenbasierte
Suche nach Fuzzy-Modellen. Nefclass3 der Universität Magdeburg ist auf Neuro-
Fuzzy-Systeme spezialisiert. Der Stuttgart Neural Network Simulator (SNNS4 ) un-
terstützt eine Vielzahl verschiedener Netzstrukturen. Der Konstanz Information Miner
1
Recherche am 1.2.2007, Schlagwörter: ”human?” und zusätzlich ”clinical trial?” für klinische Studien
in Textfeldern. Damit werden allerdings nur die Artikel erfasst, die die verwendeten Softwarepakete
explizit im Abstract erwähnen.
2
[Link]
3
[Link]
4
[Link]
231
6 Data-Mining-Softwarelösungen in der Medizin
(Knime5 ) umfasst viele Verfahren und koppelt an das frei verfügbare Statistik-Paket
R6 an. BioSig7 der TU Graz enthält umfangreiche Importfilter für verschiedene Da-
tenformate, Algorithmen zur Statistik und Zeitreihenanalyse.
Darüber hinaus existieren spezielle anwendungsspezifische Implementierungen,
die in die Auswertesoftware von kommerziell verfügbaren medizinischen Geräten im-
plementiert sind (z. B. bei bildgebenden Verfahren), und einige klinische Experten-
systeme zur Entscheidungsunterstützung (z. B. [247]).
Alle genannten Softwarelösungen decken jeweils nur einen kleinen Teil des Ein-
satzszenarios aus Kapitel 4 sowie der verfügbaren Methoden aus Kapitel 5 ab. Au-
ßerdem unterstützen sie die komfortable Analyse und Visualisierung von Zeitreihen
und Einzelmerkmalen nur in stark reduziertem Umfang. Das Durchführen eines um-
fassenden Vergleichs verschiedener Verfahren erfordert den Einsatz verschiedener
Softwarelösungen und wird oftmals aus Aufwandsgründen nur in reduziertem Um-
fang oder gar nicht durchgeführt.
6.2.1 Motivation
Aus dieser Situation heraus entstanden etwa seit 1998 am Forschungszentrum Karls-
ruhe verschiedene MATLAB-Toolboxen zunächst für die interne Nutzung. Die Ent-
scheidung für eine MATLAB-basierte Lösung fiel, um die umfangreiche mathemati-
sche Funktionalität und modulare Erweiterbarkeit des Programmpakets der Fa. The
Mathworks Inc. zu nutzen. Die weit verbreitete Plattform vermeidet die Entwicklung
von Insellösungen durch das sukzessive Einbinden von Verfahren und Funktionen.
Alle Toolboxen sind als offene Entwicklungsplattformen für methodische Weiterent-
wicklungen von Data-Mining-Verfahren und deren Spezifikation für verschiedene An-
wendungsfelder konzipiert:
Die MATLAB-Toolbox KAFKA (KArlsruher Fuzzy-Modellbildungs-, Klassifikations-
und datengestützte Analyse-Toolbox) zielte hauptsächlich auf die Analyse von Pro-
blemen mit Einzelmerkmalen.
Etwa ab 2001 verschob sich im Rahmen neuer Projekte (insbesondere durch
das DFG-geförderte Projekt ”Diagnoseunterstützung in der Ganganalyse”) der Fo-
kus zunehmend in Richtung Klassifikation aus Zeitreihen [302]. Hierbei entstand die
MATLAB-Toolbox Gait-CAD (Gait = Englisch für Gang, CAD: Computer Aided Dia-
5
[Link]
6
[Link]
7
[Link]
232
6.2 Gait-CAD als Plattform für interaktive Analysen
gnosis) zur Visualisierung und Analyse von Ganganalyse-Zeitreihen [258, 263]. Die
Toolbox DAVE-Design [363] umfasst anwendungsspezifische Funktionen zum Ent-
wurf von Prothesensteuerungen.
Ab 2006 wurden die Funktionalitäten aller Toolboxen in Gait-CAD integriert, woraus
eine universelle Toolbox zur Analyse von Zeitreihen und Einzelmerkmalen entstand
[84, 292, 300]. Das Ziel bestand darin, in MATLAB die Auswertung und Visualisie-
rung hochdimensionaler Datensätze komfortabel zu ermöglichen und so Einblicke in
die strukturellen Eigenschaften von komplizierten Datensätzen zu erhalten. Gait-CAD
ist eine freie Software (open source) und steht in der deutschen Version seit Novem-
ber 2006 im Internet zur Verfügung. 2007 folgten weitere zwei weitere Updates und
eine englische Version. Die Toolbox kann unter den Bedingungen der GNU8 Gene-
ral Public License (GNU-GPL), wie von der Free Software Foundation veröffentlicht,
weitergegeben und/oder modifiziert werden (siehe [Link]
Gait-CAD9 verfügt über eine grafische Oberfläche (GUI - Graphical User Interface)
mit Menüpunkten sowie Bedienelementen wie Auswahllisten, Checkboxen und Edi-
tierfeldern (Bild 6.1). Eine solche Arbeitsweise reduziert den Einarbeitungsaufwand
für neue Nutzer und erleichtert bei Verwendung der später vorgestellten Makros
die Automatisierung und Standardisierung von Auswerteabläufen. Prinzipiell ist aber
auch eine MATLAB-typische Arbeit mit dem Kommandofenster und den Variablen
möglich.
Gait-CAD beruht auf einer konsequenten Umsetzung des Konzepts zum Entwurf
und zur Anwendung von Data-Mining-Verfahren in Bild 4.1 und 4.2. Es ermöglicht die
komfortable Bedienung zahlreicher Algorithmen zur
• Datentupelselektion (z. B. Ausreißerdetektion, Auffinden und Löschen unvollstän-
diger Datentupel bzw. Merkmale, Auswählen von Teildatensätzen),
• Merkmalsextraktion (z. B. Spektrogramme, FFT-Analysen, Korrelationsanalysen,
lineare Filter, Ermittlung von Extrema und Mittelwerten von Zeitreihensegmenten,
Fuzzifizierung usw.),
• Merkmalsbewertung und -selektion mit verschiedenen Bewertungsmaßen (z. B.
ANOVA, MANOVA, t -Test, Informationstheoretische Maße, Regressionsanalyse),
• Merkmalstransformation (z. B. Diskriminanzanalyse, Hauptkomponentenanalyse,
ICA - Independent Component Analysis),
8
Die Abkürzung GNU ist rekursiv und bedeutet GNU is Not Unix. Sie steht für ein freies Betriebssys-
tem, das sich an UNIX orientiert.
9
[Link]
233
6 Data-Mining-Softwarelösungen in der Medizin
10
[Link]
234
6.2 Gait-CAD als Plattform für interaktive Analysen
SVM and Kernel Methods Matlab Toolbox [89]11 , SOM Toolbox [459]12 , lp_solve13 )
und eine Vielzahl eigener Funktionen zu. Einzelne Funktionen erfordern außerdem
MATLAB-Standard-Toolboxen wie die Signal-Toolbox, die Statistik-Toolbox und die
Wavelet-Toolbox.
235
6 Data-Mining-Softwarelösungen in der Medizin
6.2.4 Versuchsautomatisierung
236
6.3 Diskussion
woraus sich beispielsweise mit einem Einzug [kmin = 10, . . . , kmax = 100] für die Zeitrei-
he l = 5
1 100
xMean_[10..100]_5 [n] = ∑ xZR,5[k, n]
91 k=10
(6.2)
6.3 Diskussion
Die Entwicklung von Gait-CAD zielt auf die Bereitstellung einer universellen Tool-
box unter MATLAB, um das Einsatzszenario aus Kapitel 4 mit den speziellen Data-
Mining-Verfahren umzusetzen. Inzwischen wird Gait-CAD u. a. zur Auswertung von
Bewegungsanalysen (Abschnitt 7.2, [472]), Nervensignalen [233] und Handkraftmes-
sungen [358] eingesetzt. Zudem wurden medizintechnische Fragestellungen für die
Auswahl von Steuerstrategien für Unterarmprothesen (Abschnitt 7.3, [363]) und Brain
Machine Interfaces (Abschnitt 7.4, [83]) bearbeitet. Das Einsatzpotenzial für techni-
sche Anwendungen zeigen die Auswertung von Kfz-Benchmark-Daten [288], die Feh-
lerdiagnose von pH-Sensoren in der chemischen Industrie [146] sowie mehrere nicht
publizierte industrielle Vorstudien auf dem Gebiet der thermischen Abfallbehandlung.
237
6 Data-Mining-Softwarelösungen in der Medizin
238
7 Anwendungen
7.1 Übersicht
239
7 Anwendungen
7.2.1 Aufgabenstellung
240
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
Personen
Bild 7.2: Messablauf bei der Instrumentellen Ganganalyse (erweiterte Fassung in Anlehnung
an [258, 302])
241
7 Anwendungen
Stiftung Orthopaedische
Universitaetsklinik Heidelberg
Sagittal Frontal Transversal
Beckenkippung [Grad] Beckenschiefstand [Grad] Becken Rotation [Grad]
35 15 30
Ant 30 Kran 10 IRO
20
Kinematik 25
Becken
20 5 10
15 0 0
10 5 10
5
0 10 20
Post 5
Kaud15 ARO 30
rechte Seite:
Hüfte Flex - Ext [Grad] Hüfte Ad - Abduktion [Grad] Hüfte Rotation [Grad]
linke Seite: 60 30 30
Flex Add IRO
20 20
Referenzwerte: 40
10 10
Hüfte
20 0 0
10 10
0
Name: XXXXXXXXXXXXXX 20 20
ID: 815 Ext 20 Abd 30 ARO 30
U-Datum: 06.04.98 (PRE)
Knie Flex - Ext [Grad]
80
Flex
60
Geschw.: 72,6 +/- 17,9 cm/sec 40
Knie
30 10
40
50 20
ARO
Plant 60 30
0 20 40 60 80 100 0 20 40 60 80 100
Raum-Zeit-Parameter % Gangzyklus % Gangzyklus
Bild 7.3: Rechte und linke Gelenkwinkelverläufe (Becken, Hüfte, Knie, oberes Sprungge-
lenk – OSG) aus den drei körperbezogenen Ebenen (sagittal, frontal, transversal)
(rechts) [258], Daten aus der Orthopädischen Universitätsklinik Heidelberg
242
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
243
7 Anwendungen
244
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
1 2 3 4 5 6 7
Bild 7.4: Visualisierung der sieben Schrittphasen gemäß [349] am Beispiel des rechten Beins,
Standphase: Schrittphase 1-4, Schwungphase: Schrittphase 5-7
Zeitpunkten oder mit verschiedenen Versuchsbedingungen (z. B. eine prä- und eine
posttherapeutische) in einem Datensatz befinden, müssen (7.3) und (7.4) separat für
jede Messung berechnet werden.
Zur weiteren Verarbeitung werden die neuen Zeitreihen an die Datensätze ange-
hängt, die Zahl der Zeitreihen sz vergrößert sich entsprechend.
Die leider unvermeidliche Komplexität des Bezeichnungsapparats für die zusätz-
lichen Zeitreihen weist bereits darauf hin, dass äußerste Sorgfalt bei der Analyse,
Berechnung und Implementierung angebracht ist. Die Segmentierung erfolgt meist
dreistufig. In der obersten Hierarchieebene wird nur auf ganze Doppelschritte (engl.
stride) segmentiert, in der darunter liegenden zusätzlich auf die sogenannte Stand-
(St) und Schwungphase (Sw) sowie in der untersten auf eine achtstufige Feineintei-
lung des Doppelschrittes durch sieben Schrittphasen und den Zeitpunkt des Fußauf-
setzens Initial Contact (IC). Die Schrittphasen heißen 1. Loading Response (LR), 2.
Midstance (MSt), 3. Terminal Stance (TSt), 4. Preswing (PSw), 5. Initial Swing (ISw),
6. Midswing (MSw) und 7. Terminal Swing (TSw) (Bild 7.4). Die Segmentierung er-
folgt teils über separat zu erkennende Ereignisse (z. B. gemessene Kraftspitzen beim
Aufsetzen des Fußes, Extrema von Markertrajektorien [395]), teils über relative Zeit-
dauern [349].
Als Einzelmerkmale werden beispielsweise Minima (MIN), Maxima (MAX), Spann-
weiten (SpW, engl. Range of Motion), Mittelwerte (MW) und die Positionen der
Extremwerte (MIPO: Minimumposition, MAPO: Maximumposition) für jede Zeitrei-
he und jedes Segment extrahiert. In einigen Publikationen finden sich aber auch
stärker auf die Bewegungsanalyse zugeschnittene Merkmale wie die Volumina von
3D-Markertrajektorien über mehrere Schritte als Maß für die Reproduzierbarkeit
des Gangbildes [19, 20]. Hinzu kommen die bereits angesprochenen Raum-Zeit-
245
7 Anwendungen
Bereits die Segmentierung in Form der Ermittlung der Schrittphasen kann neben
heuristischen Verfahren (z. B. auf der Basis von Markertrajektorien [395]) durch Data-
Mining-Verfahren unterstützt werden [302]. So zeigt Bild 7.5 einen Merkmalsraum,
der durch eine Merkmalsselektion auf sm = 6 Merkmale mit dem MANOVA-Verfahren
und einer nachfolgenden Diskriminanzanalyse auf sd = 2 transformierte Merkmale
aus ursprünglich s = 174 Merkmalen hervorgeht. Die Merkmale beinhalten die aktu-
ellen Abtastzeitpunkte verschiedener Kinematik- und Kinetikzeitreihen inkl. des Ober-
körpers beider Körperseiten (siehe Anhang A1 in [302]). Als Klassen wurden die sie-
ben Schrittphasen der rechten Körperseite verwendet. Der Schrittzyklus ist deutlich
durch die Kreisform der Datenprojektion erkennbar, beginnt unten rechts mit dem
Zustand LR und wird im Uhrzeigersinn durchlaufen. Die benachbarten Phasen sind
qualitativ voneinander trennbar. Allerdings überlagern Geschwindigkeitseffekte die
Klassifikationsergebnisse deutlich, was die Klassifikationsfehler erhöht.
Solche Bilder eignen sich aber gerade wegen der deutlich sichtbaren Geschwin-
digkeitseffekte für weitergehende Visualisierungen. So verdeutlicht Bild 7.6 für einen
Probanden die Auswirkung unterschiedlicher Gehgeschwindigkeiten, die bei geringe-
ren Geschwindigkeiten zu engeren Kreisen führen. Die Unterschiede treten insbeson-
dere in der Schwungphase (linker oberer Teil des Zyklus) in Erscheinung. Ebenso gut
sichtbar sind Unterschiede zwischen der linken und der rechten Körperseite. Jedoch
ist anzumerken, dass die Akzeptanz solcher durchaus interessanten Ergebnisse bei
Medizinern wegen der abstrakten transformierten Merkmale gering ist.
Klinische Problemstellungen
Eine große klinische Bedeutung kommen der Diagnose und Therapieevaluierung zu.
Bei der Diagnose geht es allerdings weniger um die Anwendung eines Klassifika-
246
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
5 7
2
1
0 4
2
−2 3
−20 −10 0 10 20
1. Transformiertes Merkmal (Diskriminanzanalyse)
247
7 Anwendungen
−5
−30 −20 −10 0 10 20 30
1. Transformiertes Merkmal (Diskriminanzanalyse)
Bild 7.6: Visualisierung von Geschwindigkeitseffekten im Merkmalsraum aus Bild 7.5, Abkür-
zungen R: rechte Körperseite, L: linke Körperseite
248
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
Ein erstes Beispiel für eine Merkmalsliste zeigt Tabelle 7.1 zur Diagnose Patient –
Proband. Die Formulierung erfolgt entsprechend Tabelle 4.1 als Klassifikationspro-
blem eines Patientenkollektivs vor einer Therapie (Bezeichnung: ICP-PRE, 42 Pati-
enten, Alter 6.1 ± 2.2 Jahre) gegen ein Kollektiv von gesunden Probanden (Bezeich-
nung: PROB, 22 Probanden, Alter 8.3 ± 1.8 Jahre). Bei allen folgenden Untersuchun-
gen werden die linke und rechte Körperseite als separate Datentupel behandelt.
Tabelle 7.1: Beste zehn Einzelmerkmale für eine Diagnose Patient – Proband, QPD = Ql pro-
blembezogene Bewertung durch Transinformation pro Ausgangsentropie (3.52),
QPF,l problemunabhängige Merkmalspräferenzen zur Berücksichtigung der In-
terpretierbarkeit und der Messgenauigkeit, QPT Gesamtpräferenz entsprechend
(3.88) mit zusätzlicher Rückstufung korrelierter Merkmale, Mittelwerte und Stan-
dardabweichungen für das prätherapeutische (ICP-PRE) und posttherapeutische
(ICP-POST) Patientenkollektiv sowie das Probandenkollektiv (PROB) [472]
Tabelle 7.1 enthält eine sortierte Liste gut geeigneter Merkmale mit charakteristi-
schen Eigenschaften des ICP-Kollektivs. Die Bewertung orientiert sich an einer mög-
lichst eindeutigen Klassifikation und bevorzugt folglich solche Merkmale, die sich bei
möglichst allen Datentupeln der Patienten im Lerndatensatz von den Werten der
Probanden unterscheiden. Das Löschen von Merkmalen, die mit besser platzierten
Merkmalen stark korrelieren, verhindert eine unübersichtliche Häufung vieler ähn-
licher Merkmale. In der Liste finden sich sowohl alle klinisch bekannten Merkmale
(z. B. MW Stri OSG sag, SpW Stri Becken sag) als auch weniger bekannte (z. B. MW
Stri Becken tra SZR). Eine klinische Diskussion in [472] bestätigt, dass die Merkmals-
liste sinnvoll ist und zudem bisher unbekannte, aber plausible Informationen enthält.
249
7 Anwendungen
Die zusätzliche Angabe von Mittelwerten und Standardabweichungen für die unter-
suchten Kollektive verbessert die Interpretierbarkeit, weil sie näher an der klinischen
Denkweise ist. Sie dient einer weiteren Plausibilitätsprüfung, indem sie das Ausmaß
der Unterschiede verdeutlicht. Bei gravierenden Abweichungen der Merkmale von ei-
ner Normalverteilung sind Mittelwerte und Standardabweichungen aber eher irrefüh-
rend. Generell sinnvoll ist eine visuelle Analyse der Histogramme, um Abweichungen
von Normalverteilungen, Ausreißer sowie eventuelle Überkompensationen zu erken-
nen (siehe Bild 7.7).
Ein erster Schritt in Richtung einer Therapieevaluierung ist die zusätzliche Angabe
der Mittelwerte und Standardabweichungen für das posttherapeutische Patientenkol-
lektiv (ICP-POST). Das Kollektiv enthält die gleichen Patienten wie ICP-PRE, aber
bei einer späteren Ganganalyse ca. sechs Wochen nach einer Therapie mit Botu-
linum Toxin. Auffällig ist, dass sich nur für das viertbeste Merkmal ”MW Stri OSG
sag” aus Tabelle 7.1 eine markante Änderung ergibt, alle anderen Merkmale bleiben
nahezu gleich. Der Effekt ist dadurch zu erklären, dass die Botulinum Toxin Therapie
hauptsächlich eine Spastikreduktion und somit eine Entspannung der Unterschenkel-
muskulatur bewirkt. Allerdings widerspricht er der weit verbreiteten Annahme, dass
ein geringeres Ausmaß einer Hauptpathologie eine Normalisierung anderer Gelenk-
winkel (z. B. wegen nicht mehr notwendiger Kompensationsmechanismen) nach sich
zieht.
250
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
Ergebnis der Therapie, dass durch die Therapie keine relevanten Verschlechterungen
bei anderen Merkmalen auftreten. Das Fehlen solcher Merkmale wie die Spannweite
des Beckens (SpW Stri Becken sag) zeigt aber auch, dass die Therapie lediglich lokal
wirkt und das Gangbild nicht bezüglich aller Merkmale verbessert.
251
7 Anwendungen
Histogramm
1
Korr−Koef: 0.64 Spearman Korr Koef: 0.66
PROB
0.5 20
0.5 −10
−20
0
−60 −40 −20 0 20
−30
1
ICP−PRE
−40
0.5
−50
0
−60 −40 −20 0 20 −40 −20 0 20
MW St OSG sag MW St OSG sag (ICP−PRE)
Bild 7.7: a. Histogramme (links) und b. prä- und posttherapeutische Scatterplots (rechts) für
das Merkmal ”MW St OSG sag” für die Kollektive PROB, ICP-PRE und ICP-POST
Deutlich zu erkennen sind die großen Unterschiede in den prä- und posttherapeu-
tischen Verteilungen in Bild 7.7a. Das posttherapeutische Kollektiv ähnelt dem Pro-
bandenkollektiv wesentlich stärker als das prätherapeutische Kollektiv, was auf eine
erfolgreiche Therapie hinweist. Bild 7.7b verdeutlicht die Veränderung der Patienten
durch die Therapie. Die durchgezogene Linie kennzeichnet Werte ohne Veränderun-
gen. Einige Patienten mit großen prätherapeutischen Abweichungen (< -20◦ ) ändern
sich durch die Therapie kaum. Eine große Anzahl von Patienten weist nach der The-
rapie nahezu normale Werte auf (mit gepunkteten Linien eingezeichneter Bereich).
Patienten mit vergleichsweise hohen prätherapeutischen Werten (>-5◦ ) neigen zu ei-
ner Überkompensation mit zu hohen posttherapeutischen Werten (>10◦ ).
Für beide Problemstellungen können auch multivariate Merkmalsrelevanzen oder
Klassifikatoren entworfen werden. Der Vorteil besteht darin, Merkmalskombinationen
zu finden, die eine Trennung von Patienten und Probanden gestatten. Eine zweite
Motivation ist eine zielgerichtete Visualisierung der Patientengruppe, um eventuelle
Heterogenitäten (z. B. in Form von Subgruppen oder Ausreißern) zu detektieren. Ein
Beispiel zeigt Bild 7.8 für eine Fuzzy-Regel.
Aus dieser Regel lässt sich zudem automatisch ein Erklärungstext generieren, der
mit seinen Zusatzinformationen das Verständnis der Regel erleichtert:
Die Datentupel für Proband (PROB) sind dadurch charakterisiert, dass die Schritt-
länge meistens größer als sonst ist: gelegentlich groß (zwischen 0.45 m und 0.6 m)
252
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
ICP−PRE
20
PROB
6
4
2
Bild 7.8: Visualisierung der Regel „WENN (Schrittlänge=PG oder PSG) UND (SpW Stri Be-
cken sag =PSK oder PK) DANN Klasse=PROB“
und gelegentlich sehr groß (größer als 0.6 m). Weiterhin gilt für die Beispiele, dass
die Spannweite der Beckenkippung während des Schrittes (SpW Stri Becken sag)
meistens kleiner als sonst ist: gelegentlich sehr klein (kleiner als 3◦ ) und gelegent-
lich klein (zwischen 3◦ und 5◦ ). Aus den Aussagen lässt sich eine Regel aufbauen,
die alle Fälle für Proband (PROB) beschreibt: WENN die Schrittlänge groß bis sehr
groß (größer als 0.45 m) ist UND die Spannweite der Beckenkippung während des
Schrittes (SpW Stri Becken sag) sehr klein bis klein (kleiner als 5◦ ) ist, DANN FOLGT
DARAUS immer Proband (PROB).
Mit der Kombination aus beiden Merkmalen ist im Lerndatensatz eine fehlerfreie
Klassentrennung möglich. Ein Blick auf die Patienten zeigt (Bild 7.8), dass sie deutlich
heterogener sind als die Probandengruppe. Patienten, die eine größere Schrittlänge
erreichen, weisen immer auch eine größere Spannweite in der sagittalen Becken-
zeitreihe auf. Umgekehrt gibt es keine Patienten, die bei normähnlichen geringen
Spannweiten im Becken mit normalen Geschwindigkeiten gehen.
Eine den Merkmalslisten der Diagnose verwandte Aufgabe ist die quantitative
Patientenbewertung für einzelne Patienten und ganze Patientenkollektive, um indi-
viduelle Besonderheiten einzelner Patienten zu lokalisieren und Gemeinsamkeiten
herauszufinden. Ein mögliches Einsatzgebiet ist eine echtzeitfähige Visualisierung
quantitativer Ergebnisse während der Therapie [396]. Solche Informationen vermit-
253
7 Anwendungen
teln aber ebenfalls wertvolle Hinweise für die nachfolgende Therapieauswahl. Dazu
eignen sich insbesondere Mittelwerte über Referenzabweichungszeitreihen gemäß
(7.2). Die Mittelwerte können sowohl über einzelne Zeitreihen bzw. deren Segmen-
te gebildet werden, aber auch über alle beteiligten Zeitreihen einer körperbezogenen
Ebene, eines Gelenks bzw. Körpersegments, einer Körperseite oder über alle Zeitrei-
hen gemittelt werden. Werte zwischen Null und Eins bedeuten annähernd norma-
les, größere Werte zunehmend anormales Verhalten. Ein Beispiel zeigt Tabelle 7.3
für das Patientenkollektiv ICP-PRE und beispielhaft für einen einzelnen Patienten.
Hierbei ist deutlich zu erkennen, dass insbesondere die sagittale Ebene des Fußge-
lenks deutlich von den Werten der Probandengruppe abweicht. Interessant sind die
unterschiedlichen Hervorhebungen: Während das relevanteste Einzelmerkmal in Ta-
belle 7.3 zur sagittalen Ebene des Beckens gehört, ist die Referenzabweichung der
zugehörigen Zeitreihe moderat. Das Merkmal ”Spannweite Becken sag” erkennt al-
lerdings die abweichende Kurvenform, die sich auch in der Geschwindigkeitszeitreihe
des Beckens widerspiegelt. Somit ergänzen sich beide Problemstellungen und beto-
nen andere Aspekte. Der Patient ID 50504 zeigt im Wesentlichen ein durchschnittli-
ches Verhalten für das Patientenkollektiv. Auffällig sind lediglich die vergleichsweise
geringen Referenzabweichungen in der sagittalen Ebene des Beckens. Auch mit sol-
chen Merkmalen können Fragen der Therapieevaluierung beantwortet werden, indem
nach markanten Verbesserungen der Referenzabweichungen in den verschiedenen
Zeitreihen gesucht wird [258].
254
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
255
7 Anwendungen
zugehörigkeiten bei der Variante mit 101 Merkmalen nahezu gleichverteilt sind
(Bild 7.9c), ergibt sich bei den zwei Merkmalen die erwünschte deutliche Unterschei-
dung (Bild 7.9d). Der Effekt äußert sich insbesondere bei der Verwendung der un-
scharfen Zugehörigkeiten mit einem Fuzzifier q = 2 in (5.181) zur Berechnung der
Clusterzentren. Selbst nach einer Diskretisierung mit q → 1 ergeben sich bei zwei
Merkmalen noch deutlich besser unterscheidbare Clusterzentren als bei der Variante
mit 101 Merkmalen (Bild 7.9e, f). Clusterzugehörigkeiten dienen dann wiederum als
neue Merkmale oder als Klassen in der Differentialdiagnose oder bei der Therapie-
evaluierung. Weitergehende Diskussionen finden sich in [258, 259, 262].
Die bisher für das ICP-Kollektiv beschriebene Methodik wird in [258] für die Pro-
blemstellungen Diagnose Patient – Proband und Therapieevaluierung bei inkomplett
gelähmten Querschnittpatienten vor und nach einer Laufbandtherapie angewendet.
Hierbei zeigt sich, dass erwartungsgemäß andere Merkmalslisten im Vergleich zu
ICP-Patienten entstehen. Insgesamt ist das Patientenkollektiv bei inkompletten Quer-
schnittlähmungen weniger klar von gesunden Probanden zu trennen. Die Ähnlichkeit
verstärkt sich, wenn die langsamere Gehgeschwindigkeit der Patienten dadurch be-
rücksichtigt wird, indem sie mit Probanden ähnlich langsamer Gehgeschwindigkeiten
verglichen werden. Eine umfassende Untersuchung solcher Geschwindigkeitseinflüs-
se bei gesunden Probanden und Querschnittpatienten auf eine Vielzahl von Merkma-
len findet sich in [395].
256
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
Cluster 1
Cluster 2
a. Zeitreihen Cluster 3 b. Transformierte Merkmale (HKA)
4
0
5
−2
−4 0
−6
0 20 40 60 80 100 −8 −6 −4 −2 0 2 4
% Gangzyklus xTrans,HKA,1 (OSG sag GZR)
c. Clusterzugehörigkeiten (ZR) d. Clusterzugehörigkeiten (HKA)
1
3
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
20 40 60 80 20 40 60 80
2 2
OSG sag GZR
1 1
0 0
−1 −1
−2 −2
−3 −3
0 20 40 60 80 100 0 20 40 60 80 100
% Gangzyklus % Gangzyklus
Bild 7.9: Clustering der Zeitreihe OSG sag GZR für die prätherapeutischen Patientendaten
(ICP-PRE) mit drei Clustern: a. originale Zeitreihen, b. zwei daraus durch Haupt-
komponentenanalyse transformierte Merkmale (HKA), c. unscharfe Clusterzugehö-
rigkeiten mit den 101 Abtastzeitpunkten der Zeitreihe als Merkmale, d. unscharfe
Clusterzugehörigkeiten mit den zwei Merkmalen aus b., e. Clusterzentren der dis-
kretisierten Cluster aus c. (q → 1), f. Clusterzentren der diskretisierten Cluster aus d.
(q → 1 )
257
7 Anwendungen
VAS Merkmal(e) R
VAS A Gehgeschwindigkeit 0.56
Gehgeschwindigkeit und Entlastung [kg] 0.70
mittlere RZR sagittal 0.62
VAS B Gehgeschwindigkeit 0.52
Gehgeschwindigkeit und Lähmungshöhe 0.68
mittlere RZR sagittal 0.55
VAS C Gehgeschwindigkeit 0.77
Gehgeschwindigkeit und Lähmungshöhe 0.81
mittlere RZR sagittal 0.64
VAS M Gehgeschwindigkeit 0.70
Gehgeschwindigkeit und Lähmungshöhe 0.76
mittlere RZR sagittal 0.64
Tabelle 7.4: Lineare Regression mit erreichten Korrelationskoeffizienten R zur Erklärung der
VAS mit den klinischen Parametern: Gewichtsentlastung, erreichte Gehdau-
er, Gehgeschwindigkeit, Halten am Barren links bzw. rechts, Lähmungshöhe,
Gehstrecke, Variabilität, Körpergewicht, Hilfsmittel rechter bzw. linker Fuß und
Kinematik-Einzelmerkmale, angegeben sind die beste univariate (ein Merkmal)
und bivariate Regression (zwei Merkmale) sowie die beste univariate Regression
mit einem Kinematik-Merkmal
Fragen einer Therapieauswahl sind anhand der hier vorliegenden Daten nicht zu
beantworten, weil keine Daten für andere Therapieoptionen vorliegen.
Ein Beispiel für ein entscheidungsunterstützendes System zur Operationsplanung
bei Multi-Level- und Multi-Joint-Operationen wird in [80, 81, 82] mit einem anderen
Datensatz vorgestellt. Data-Mining-Verfahren finden Regeln und Merkmalsregionen,
bei denen sich bestimmte Klassen von Operationen in ihrer Häufigkeit deutlich un-
terscheiden. Allerdings reicht die Güte nicht für eine automatisch generierte und de-
taillierte Empfehlung einer Operation für einen unbekannten Patienten aus. Solche
Probleme weisen oftmals eine sehr hohe Komplexität auf, weil sie durch viele Merk-
male beeinflusst werden, die nicht alle im Lerndatensatz enthalten sein müssen.
258
7.2 Entscheidungsunterstützung bei Bewegungsanalysen
7.2.3 Diskussion
259
7 Anwendungen
her noch erheblich. Eine Hürde liegt im Fehlen prospektiver kontrollierter klinischer
Studien, die Vor- und Nachteile entscheidungsunterstützender Systeme im Vergleich
zu einer rein manuellen Auswertung untersuchen. Eine weitere Ursache ist, dass
Data-Mining-Verfahren bislang noch nicht in die Softwarepakete der Hersteller von
Messsystemen eingebunden sind.
7.3.1 Aufgabenstellung
260
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen
Das anspruchsvollste der genannten Teilziele ist die Erkennung der gewünschten
Griffart aus den EMG-Signalen als ein spezielles Klassifikationsproblem zur Auswahl
von Steuerstrategien.
Üblicherweise werden die Muskelsignale in einer bipolaren Messanordnung auf-
genommen (Bild 7.11a), verstärkt und im Frequenzbereich gefiltert (z. B. durch eine
Bandsperre bei 50 Hz zum Unterdrücken von Netzstörungen). EMG-Signale erstre-
cken sich über einen Frequenzbereich von 10-1000 Hz, wobei sich ein Großteil in
einem breiten Bereich zwischen 30 und 300 Hz findet (Bild 7.11b). Oftmals schließt
261
7 Anwendungen
sich eine Gleichrichtung (Bild 7.11c) und eine weitere Tiefpassfilterung und Verstär-
kung an, um Aktivitätssignale zu erzeugen (Bild 7.11d). Bei Prothesen erfolgen jene
Arbeitsschritte wegen des großen Rechenaufwands stets hardwareseitig im EMG-
Sensor [205]. Aufgrund der geringen Amplituden und der hohen Anfälligkeit gegen
elektromagnetische Störungen haben sich Sensoren durchgesetzt, die nur ein Akti-
vitätssignal messen und keine weiteren Differenzierungen (z. B. im Frequenzbereich)
zulassen. Solche Sensoren werden von erfahrenen Orthopädietechnikern eingestellt,
was die Platzierung der Sensoren auf dem Unterarmstumpf (und damit die Festle-
gung des Einbauortes im Prothesenschaft) und das Einstellen der Verstärkung jedes
Sensors umfasst. Bei Forschungsprojekten finden sich aber auch Lösungen, die un-
terschiedliche Frequenzen auswerten.
Zur Erkennung von Griffarten kristallisieren sich zwei Konzepte heraus (vgl. auch
Bild 4.5 auf Seite 91):
Das erste Konzept versucht, direkt aus originalen oder zusätzlichen gefilterten
EMG-Zeitreihen zu jedem Zeitpunkt eine Entscheidung über die Griffart und die je-
weils anzusteuernden Freiheitsgrade zu treffen [161, 333, 371]. Die Merkmalsextrak-
tion besteht folglich daraus, den aktuellen Abtastzeitpunkt der Zeitreihe als Merkmal
zu verwenden.
Das zweite Konzept wertet hingegen die Zeitreihen über einen bestimmten Zeit-
raum aus, erkennt Segmente und extrahiert daraus Einzelmerkmale [130, 183, 250,
365]. Der Zeitraum und die Segmentlängen werden entweder fest vorgegeben (z. B.
200 ms in [183] mit 50 ms Segmenten, 240 ms mit 40 ms Segmenten in [250]) oder
aus detektierten Ereignissen wie Schwellwertüberschreitungen und erkannten loka-
len Extrema ermittelt [373]. Typische extrahierte Merkmale sind Mittelwerte, mittle-
re Absolutwerte, die Anzahl von Nulldurchgängen bei nichtvorverarbeiteten EMG-
Signalen, Trends, geschätzte Standardabweichungen, Parameter von autoregressi-
ven Modellen, Wavelet-Koeffizienten usw.
Die Klassifikation erfolgt in einem nachfolgenden Schritt auf Basis der so extra-
hierten Merkmale mit Künstlichen Neuronalen Netzen (MLP-Netz: [183, 250, 333],
Kohonen-Karte: [132]), einer Diskriminanzanalyse [130, 131, 161] oder Fuzzy-
Regelbasen [92, 286, 371].
Einige Arbeiten werden im Folgenden detaillierter dargestellt. [161] zeichnet mit
sechs EMG-Sensoren über nahezu unabhängig aktivierbaren Muskelgruppen Phan-
tomhandbewegungen von vier Patienten auf und versucht, sechs verschiedene Griff-
arten zu unterscheiden. Der Begriff der Phantomhand bedeutet, dass ein Patient
noch über eine kognitive Repräsentation einer amputierten Hand verfügt und sich ih-
re Bewegungen vorstellen kann. In der Regel bewirken die Bewegungsvorstellungen
262
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen
auch auswertbare Signale an den zugehörigen Muskeln, soweit die noch vorhanden
und durch EMG-Sensoren erfassbar sind. Die EMG-Zeitreihen werden in Aktivitäts-
signale umgewandelt und für jeden Abtastzeitpunkt durch eine lineare Diskriminanz-
analyse ausgewertet (Konzept 1). Bei der Klassifikation sind simultane Erkennungen
von Klassen möglich, was auf eine Formulierung als sechs parallel auszuwertende
2-Klassen-Probleme (i-te Griffart ja – nein) hindeutet. Trainierte Patienten erreichen
Klassifikationsgüten von 77-100 %, allerdings z. T. mit unerwünschten simultan er-
263
7 Anwendungen
kannten weiteren Griffarten. Das Konzept ist nicht bei allen Patienten sinnvoll ein-
setzbar, weil die Operationstechnik bei der Amputation eine separate Aktivierung so
vieler Muskelgruppen erschwert, Phantomhandbewegungen nicht immer existieren
und ein hoher Trainingsaufwand erforderlich ist.
[183] arbeitet mit dem zweiten Konzept und demonstriert anhand der Daten von
zwölf Probanden und sechs Patienten mit einer Unterarmamputation dessen Funktio-
nalität. Der Ansatz verwendet mit 1 kHz abgetastete, vorverstärkte EMG-Signale ent-
sprechend Bild 7.11a. Das Überschreiten eines Amplitudenschwellwertes zu einem
Zeitpunkt t triggert die Auswertung eines Zeitfensters in einem Intervall [t − 50 ms,
t + 150 ms]. Das Zeitfenster wird in Segmente von 50 ms unterteilt. Die Merkmals-
extraktion berechnet für jedes Segment den mittleren Absolutwert, dessen Differenz
zum vorhergehenden Segment, durchschnittliche mittlere Änderungen sowie die An-
zahl von Nulldurchgängen und Richtungsänderungen. Somit werden 40 Merkmale
(2 EMG-Sensoren, 4 Segmente mit jeweils 5 Merkmalen) extrahiert. Die Klassifi-
kation der Griffart übernimmt ein MLP-Netz, das vier Griffarten unterscheidet. Für
vier Probanden und Patienten aus dem gleichen Datensatz gelingt es [92] mit einem
Neuro-Fuzzy-System, den Klassifikationsfehler über Testdaten von 11 % auf 9 % zu
reduzieren.
Das Konzept in [363, 367, 373] basiert auf einem Zustandsautomaten (Bild 7.12)
mit einem neutralen Zustand und my Bewegungszuständen, die Griffarten repräsen-
tieren.
Bild 7.13 zeigt einen typischen Bedienablauf. Die Auswahl von Griffarten erfolgt nur
im neutralen Zustand. Hier startet wie bei [183] die Auswertung beim Überschreiten
eines Schwellwertes im Aktivitätssignal eines EMG-Sensors. Das nachfolgende Zeit-
fenster hat eine variable Länge und wird anhand der Detektion lokaler Maxima und
Minima in bis zu vier variable Segmente unterteilt. Mit Segmentbeschreibungen wie
Zeitdauer des Segments, Mittelwert, Anzahl Durchgänge durch gefilterte Verläufe,
mittlere geschätzte Standardabweichung, Amplitude und Zeitpunkt lokaler Extrema
sowie verschiedener Verhältnisse entstehen insgesamt 108 Merkmale [366].
Für die nachfolgende Klassifikation zur Erkennung der Griffart werden verschie-
dene Methoden miteinander verglichen. Hierbei kommen sechs verschiedene Klas-
sifikatoren zum Einsatz, die sich bezüglich der Techniken und Bewertungsmaße zur
Merkmalsselektion (3.8), (3.69) und Merkmalstransformation (3.8), (3.70) sowie des
eigentlichen Klassifikators (3.68) unterscheiden:
• MAN/DA: Merkmalsselektion mit einer multivariaten Varianzanalyse (MANOVA)
von 108 auf acht Merkmale (5.23), (5.30), lineare Diskriminanzanalyse (DA) auf
zwei transformierte Merkmale mit (5.23) und Bayes-Klassifikator (5.46),
264
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen
2c Cc
Schließen Schließen
Schalt- Schalt-
E11 signal 2 0a signal C E11
Preshape
Neu-
tral 0b
Warten
Schalt-
signal 1
E11 E12
1a
Preshape
Griff-
art 1 1b
Warten
E11
E12
1d E21 1c
Öffnen
E22
Schließen
Bild 7.12: Zustandsautomat zur Umsetzung von my = C Griffarten [367] unter Verwendung
von zwei EMG-Sensoren. Erkannte Ereignisse: E11 : Kontraktion von Muskel 1, E12 :
Kontraktion von Muskel 2, E21 : Relaxation von Muskel 1, E22 : Relaxation von Mus-
kel 2, E11 ∧ E12 : Kokontraktion
• MM/MD: modifizierte Merkmalsselektion (MM) von 108 auf sechs Merkmale mit
(3.56), modifizierte Merkmalstransformation (MD) auf zwei transformierte Merk-
male mit (3.56) und Bayes-Klassifikator (5.46),
• KO: Merkmalsselektion mit einer multivariaten Varianzanalyse von 108 auf sechs
Merkmale (5.23), (5.30), danach Berechnung separater Klassifikatoren für alle
möglichen 2-Klassen-Probleme (one-against-one), dazu jeweils eine Merkmalsse-
lektion von sechs auf drei Merkmale mit einer multivariaten Varianzanalyse, einer
linearen Diskriminanzanalyse auf ein transformiertes Merkmal mit (5.23) und ei-
nem Bayes-Klassifikator (5.46), in der Anwendungsphase schrittweises Ausschlie-
ßen von Klassen (KO: Knock-out) durch Auswerten der 2-Klassen-Probleme Sie-
gerklasse der vorherigen Auswertung – noch nicht getestete Klasse,
265
7 Anwendungen
0
2
Sensor
1 2
1a
1b
1c
1d
2a
2b
2c Zeit
Pumpenspannung
V1
Ventil- und
V2
V3
V4
V5
V6
P
Zylindergriff Hakengriff Lateralgriff
Bild 7.13: Myoelektrisches Signal zur Umsetzung von Bewegungsmustern unter Verwendung
von zwei EMG-Sensoren [363]
266
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen
267
7 Anwendungen
Tabelle 7.5: Klassifikationsfehler der Klassifikatoren bei Verwendung von Patientendaten mit
Training (50 Wiederholungen einer 10-fachen Crossvalidierung) (Daten aus [363],
ohne Probanden)
Kokontraktion und ein Schaltsignal zu generieren. Das Konzept eignet sich für belie-
bige Schaltsignale, wenn sie vom Patienten reproduzierbar sind und die extrahierten
Merkmale zu ihrer Beschreibung ausreichen.
Die erzeugten Muskelsignale hängen von verschiedenen zeitvarianten technischen
(z. B. Schweißfilm unter den Sensoren, Akku-Versorgungsspannungen) und persön-
lichen (z. B. Motivation, Tagesform, Konzentration, Muskelermüdung, Trainingszu-
stand) Einflussfaktoren von Prothese und Prothesenträger ab. Die einmalige Auf-
zeichnung von Schaltsignalen in einer Aufnahmesitzung erfasst folglich nur einen
nicht repräsentativen Ausschnitt der auftretenden Signale.
Das führt in der Regel zu schlechten Klassifikationsergebnissen bei der Erkennung
von Schaltsignalen bei einer nachfolgenden Anwendung an anderen Tagen (z. B. An-
stieg der Klassifikationsfehler von etwa 5 % in der Crossvalidierung der Aufnahme-
sitzung auf 20-30 % in einer nachfolgenden Sitzung [162]). Diese Situation kann nur
268
7.3 Individuelle Anpassung von myoelektrischen Unterarmprothesen
V2
Griff Preshape Bewegung
V1 V6 Zylindergriff V5, P+ V1-4, V6, P±
V4 Zeigefingerstellung V1, V6, P+ keine
V3 Lateralgriff V1-3, V6, P+ V4-5, P±
Pinzettengriff V5, P+ V3, P±
V5 Hand neutraler Zustand V1-6, P− keine
Bild 7.14: Gekoppelte Freiheitsgrade der Prothese: Ventile V1, V4, V6 bedienen mehrere
Fluidaktoren gleichzeitig, das Öffnen zusammengehöriger Ventile führt zur Aus-
führung von Griffarten, die Förderrichtung der Pumpe (P+: in Richtung Aktor, P−:
aus Aktor heraus) bewirkt ein Öffnen oder Schließen, Hakengriff: Preshape des
Lateralgriffs [362]
269
7 Anwendungen
niaturisierten taktilen Rutschsensor zur Messung der Kraft und der Kraftrichtung im
Daumen sowie einen weiteren Kraftsensor zur Messung der Handkraft zwischen Fin-
ger und Daumen verfügt [357, 388]. Ein Mikrocontroller übernimmt die Auswertung
der Sensorsignale sowie die unterlagerte Steuerung und Regelung. [250] integriert
einen akustischen Rutschsensor in die Prothese und unterscheidet sensorbasiert
die Zustände Positionieren, Berühren, Halten, Zudrücken und Freilassen (SAMS:
Southampton Adaptive Manipulation Scheme). Die Implementierung erfolgt auf ei-
nem Digitalen Signalprozessor (DSP).
Einen Prototyp für eine Rückkopplung der Greifkräfte einer Prothese zum Patien-
ten stellt [311] vor. Das Ziel besteht darin, feinfühligere Prothesenbewegungen zu er-
möglichen, die sich näher am biologischen Vorbild einer eher taktilen Wahrnehmung
beim Greifen orientieren. Das Konzept beruht auf vibrotaktilen Aktoren im Prothesen-
schaft und einer Kraftmessung an den Fingern der Prothese mit den bereits oben
erwähnten Kraftsensoren. Eine gute Patientenakzeptanz setzt schmerzlose, aber zu-
verlässig wahrnehmbare vibrotaktile Reize sowie eine sichere Kontakterkennung zur
Vermeidung fehlerhafte Reize voraus. Das erfordert wiederum eine umfassende Mo-
dellierung des Übertragungsverhaltens der vibrotaktilen Aktoren, der Haut sowie der
entsprechenden menschlichen Wahrnehmung (z. B. Unterscheidbarkeit von Reizen)
mit Regressionsansätzen auf der Basis von Patienten- und Probandendaten. Eine
Mikrocontrollerimplementierung des Konzepts [226, 363] ermöglicht den Prothesen-
einsatz.
7.3.3 Diskussion
270
7.4 Brain Machine Interfaces
blierung solcher Konzepte dar, weil sich die anatomischen Voraussetzungen und die
Steuersignale für die Prothese von Patient zu Patient stark unterscheiden.
Eine Vielzahl von Laborversuchen führte in technologische Sackgassen, weil zu
komplizierte Lösungen angestrebt und Patienten überhaupt nicht oder in zu geringem
Umfang in die Entwicklungen einbezogen wurden. Die Erfolgschancen laufender Pro-
jekte sind um so höher einzustufen, je realitätsnäher das entwickelte Gesamtszenario
unter Beachtung der Hardwarerestriktionen bei einer Mikrocontrollerimplementierung
sowie der Trainings- und Einstellstrategien ist. Die bisher durchgeführten klinischen
Vorversuche lassen eine gute Erfolgschance erwarten. Sie zeigen aber auch, dass zu
stark vereinfache Lösungen die vom Patienten erwartete Funktionalität nicht leisten
können. Allerdings ist immer das Medizingerät als Gesamtsystem am Markt erfolg-
reich oder nicht. Es kann sowohl an der Einsatzreife der mechanischen und elek-
trischen Komponenten, am Steuerungskonzept, an Zertifizierungsfragen und nicht
zuletzt auch an ökonomischen Fragen wie dem erzielbaren Preis und dem Misserfolg
des Marketing-Konzepts scheitern.
7.4.1 Aufgabenstellung
271
7 Anwendungen
Tabelle 7.6: Typische EEG-Signale bei Erwachsenen (nach [246, 403, 473])
272
7.4 Brain Machine Interfaces
rechts links
Abkürzungen und Symbole
O2 O1
A: aurikulär
(auf das Ohr bezogen)
T6 P4 Pz P3 T5 F: frontal
Fp: fronto-polar
A2 A1 T: temporal (Schläfe)
T4 C4 Cz C3 T3
C: central
P: parietal (Scheitelbein)
O: occipital (Hinterkopf)
F8 F4 Fz F3 F7
Z: zero (Mitte)
gerade Nummern: rechts
Fp2 Fp1
ungerade Nummern: links
Nase
Bild 7.15: International standardisiertes Schema zur Anbringung von 21 EEG-Sensoren bei
Draufsicht auf den Kopf mit Bezeichnung der Sensorpositionen. Erweiterungen be-
halten diese Bezeichnungen bei.
273
7 Anwendungen
Bei Kommunikationsgeräten für Locked-in-Patienten mit einem BMI ist das wichtigs-
te Erfolgskriterium zum Schreiben von Texten die erreichbare Anzahl von richtig er-
kannten Zeichen pro Minute. Dabei auftretende Klassifikationsfehler muss der Pati-
ent durch geeignete Maßnahmen korrigieren. Ein gutes System wählt somit einen
geeigneten Kompromiss aus einer schnellen Klassifikation und geringen Klassifikati-
onsfehlern aus. Da die Zahl unterscheidbarer Klassen stets kleiner als die Zahl der
Buchstaben ist, muss der Auswerteprozess in eine geeignete Sequenz von Klassifi-
kationsproblemen gegliedert werden.
Viele Arbeiten stützen sich auf die willkürliche Beeinflussung von langsamen
Potenzialänderungen (SCP) [50]. Solche Systeme verwenden die EEG-Sensoren C3,
C4, Cz, F3, F4, Pz (vgl. Bild 7.15) und erfordern Auswahlzeiten von ca. 4-6 Sekunden
pro Klassifikation. Die EEG-Signale werden gefiltert und durch Schwellwerte ausge-
wertet. Wichtig ist hier die automatische Korrektur von störenden Augenbewegungen.
Das System erreicht je nach Patient Klassifikationsgüten zwischen 75 und 90 %, was
etwa zwei Buchstaben pro Minute ermöglicht. [51] stellt die klinische Erprobung für
11 Patienten (darunter 9 ALS-Patienten) vor.
3
Die Messungen entstanden als zusätzlicher Versuch bei einer Kurzzeitimplantation, die auf die Su-
che nach Zentren für epileptische Anfälle zielte.
274
7.4 Brain Machine Interfaces
[52] beschreibt ein System, das aus den Signalen von 27 EEG-Sensoren eines
gesunden Probanden drei Klassen (links, rechts, keine Aktivität) erkennt und so
Prognosen zu Fingerbewegungen beim realen Betätigen von zwei Tasten einer her-
kömmlichen Computertastatur abgibt (N = 516 Tastaturbetätigungen). Die Merkma-
le entstehen aus einer Abtastung mit 100 Hz, einer Tiefpassfilterung mit 5 Hz und
einem Downsampling auf 20 Hz durch Mittelung von fünf gefilterten Werten. Als
Klassifikatoren kommen eine lineare Diskriminanzanalyse (z. T. optional mit einer zu-
sätzlichen Regularisierung und Merkmalsselektion), Support-Vektor-Maschinen und
ein Nearest-Neighbor-Klassifikator zum Einsatz. Das System ist in der Lage, Be-
wegungsabsichten (Bereitschaftspotenziale) etwa 120 ms vor der Bewegungsaus-
führung zu erkennen. Alle Klassifikatoren außer den deutlich abfallenden Nearest-
Neighbor-Klassifikatoren liefern etwa gleichwertige Ergebnisse (Klassifikationsfehler
ca. 3-4 %). Für einen zukünftigen Patienteneinsatz (z. B. ALS-Patienten) ist allerdings
die Tatsache zu hinterfragen, ob mit einer reinen Vorstellung der Bewegung die glei-
chen Resultate zu erzielen sind.
275
7 Anwendungen
finden sich keine Angaben über die erreichte Güte beim Schreiben von Wörtern. Die
gleiche Gruppe berichtet in späteren Arbeiten [315] über ein System mit 118 EEG-
Elektroden, das bei zwei Probanden 2.3 bis 7.3 Zeichen pro Minute erreicht.
[241] erprobt BCIs mit Support-Vektor-Maschinen und 39 EEG-Sensoren anhand
acht gesunder Probanden. Die EEG-Sensoren mit den besten Positionen werden
anhand der Klassifikationsergebnisse probandenspezifisch ausgewählt.
Erste Erfolge zum Extrahieren von Bewegungsabsichten für die Elektrostimulati-
on einer Neuroprothese für einfache Greiffunktionen zeigt [354] am Beispiel eines
Patienten mit einer hohen Querschnittlähmung (vollständige Lähmung ab Halswirbel-
segment C5, inkomplette Lähmung ab Halswirbelsegment C4). Mit Hilfe von zwei bi-
polaren EEG-Sensoren (modifizierte Positionen nahe den Sensorpositionen C3 und
Cz) gelingt die Ansteuerung einer Neuroprothese mit vier oberflächlich angebrachten
Stimulationselektroden am Unterarm.
Das System verfügt über fünf stets aufeinander folgende Griffphasen. Jeder Pha-
senübergang wird durch ein EEG-Aktivitätssignal ausgelöst, wobei ein Mindestzeitab-
stand von 5 s erforderlich ist, um unerwünschte Phasenübergänge zu vermeiden.
Somit reicht eine Erkennung von zwei Klassen (Aktivitätssignal – kein Aktivitätssi-
gnal) aus. Als Merkmale kommen aktuelle Werte von Zeitreihen (jeweils spektrale
Leistungsdichten in Frequenzbereichen 15-19 Hz und 20-60 Hz) zum Einsatz, die
durch eine Diskriminanzanalyse ausgewertet werden. Bei der Auswahl der Merkma-
le ist hier insbesondere auf eine geringe Beeinflussung durch die hohen Störsignale
durch die Elektrostimulation zu achten. Mittelfristig ist die routinemäßige Kopplung
mit implantierten Neuroprothesen wie dem Freehand-System anzustreben.
Einen ersten Patientenversuch mit einem ähnlichen Steuerungskonzept (drei auf-
einander folgende Griffphasen) zeigt [318, 392]. Entsprechende Grundlagenuntersu-
chungen stellt [313] dar, die sich mit den Feedback-Reaktionen von neun gesunden
Probanden auf eigene Handbewegungen und durch eine Elektrostimulation ausge-
löste Handbewegungen befassen. Relevante Bewegungsunterschiede im Zeit- und
Frequenzbereich werden dabei durch eine Bootstrap-Methode angezeigt.
Eine weitergehende Zielstellung ist das Bedienen eines Rollstuhls, das wegen
der Vermeidung von Kollisionen und der Notwendigkeit einer quantitativen Bewe-
gungsplanung hohe Anforderungen an die Güte des BMIs stellt. Simulative Unter-
suchungen stellt [304] vor. Erste praktische Versuche mit gesunden Probanden in
einer stark vereinfachten Umgebung zeigt [441] (15 EEG-Sensoren, FFT-Merkmale,
Bayes-Klassifikator als Abstandsklassifikator mit Euklidischer Distanz). Eine praxis-
taugliche Lösung ist allerdings nur zu erwarten, wenn die EEG-Steuerung durch eine
teilautonome Bahnplanung und Kollisionsvermeidung des Rollstuhls ergänzt wird.
276
7.4 Brain Machine Interfaces
277
7 Anwendungen
60 60
50 50
Frequenz [Hz]
Frequenz [Hz]
40 40
30 30
20 20
10 10
0 0
0 2 4 6 8 0 2 4 6 8
60 60
50 50
Frequenz [Hz]
Frequenz [Hz]
40 40
30 30
20 20
10 10
0 0
0 2 4 6 8 0 2 4 6 8
Zeit [s] Zeit [s]
Bild 7.16: Klassenspezifische Spektrogramme für die Sensoren C3 und C4 für den Daten-
satz III der BCI Competition 2003. Werte mit größeren Leistungsdichten werden
dunkler dargestellt.
bei Q(t) zunächst um eine Zeitreihe, bei der immer Merkmale für einen Zeitpunkt
gemeinsam auszuwerten sind. Dabei erfolgt zunächst eine Auswahl des besten Ein-
zelmerkmals für den jeweiligen Merkmalssatz. Anschließend ergänzt der Algorithmus
jeweils das Merkmal, das das multivariate Bewertungsmaß maximiert.
Die Tabelle enthält zusätzlich den ersten Zeitpunkt tmin mit einer Merkmalsbewer-
tung Q > 0.4 als Indikator für die Schnelligkeit des Klassifikators. Je kleiner tmin ist,
desto geringer ist auch die Zeitverzögerung nach Beginn der Ansteuerung. Der opti-
male Zeitpunkt bei sofortiger Erkennung der Bewegungsvorstellung ist t = 3s, Bewe-
gungsintentionen in Form von Bereitschaftspotenzialen können theoretisch ab dem
Stimulus bei t = 2s erkannt werden. Die deutlich spätere Erkennung gegenüber dem
278
7.4 Brain Machine Interfaces
Tabelle 7.7: Maximale Merkmalsbewertung Qopt mit dem MANOVA-Verfahren und dem inver-
sen Likelihood-Quotienten-Kriterium für die gewählten Merkmalssätze mit einer
schrittweisen Auswahlstrategie im Lerndatensatz, fett: ausgewählte Merkmale für
die Diskriminanzanalyse in Tabelle 7.8
0.7 100
1. Merkmal
0.6 2. Merkmal 90
3. Merkmal
Klassifikationsgüte in %
Merkmalsbewertung Q
0.5 4. Merkmal
5. Merkmal 80
0.4
70
0.3
60
0.2
0.1 50
0 40
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8
Zeit in s Zeit in s
Bild 7.17: Zeitreihe der multivariaten Merk- Bild 7.18: Zeitreihe der Klassifikationsgüte
malsbewertung Q mit dem QK,G bei Verwendung der drei bes-
MANOVA-Verfahren (beste fünf ten Merkmale über Testdaten in
Merkmale) Prozent
279
7 Anwendungen
Spektrogramm in Bild 7.16 resultiert aus den Filtereigenschaften bei der Erzeugung
der AR- und BP-Merkmale, die auf eine gute Störunterdrückung optimiert sind.
Die Ergebnisse zeigen, dass unabhängig vom Merkmalstyp AR oder BP mindes-
tens zwei Sensoren für die Ausschöpfung des Informationsgehalts notwendig sind.
Die besten Ergebnisse gibt jeweils die Kombination C3 und C4. Autoregressive Merk-
male erfordern mindestens vier Merkmale, weisen aber eine schnellere Reaktion auf
(kleineres tmin als bei alleiniger Verwendung der spektralen Leistungsdichten). Spek-
trale Leistungsdichten kommen hingegen mit zwei Merkmalen aus, die beide den µ -
Wellen (hier: 10-12 Hz) entstammen. Das bestätigt den Eindruck der visuellen Analy-
se aus Bild 7.16. Die gemeinsame Verwendung beider Merkmalstypen bringt weitere
Güteverbesserungen, erfordert aber einen höheren Rechenaufwand. Die Merkmals-
sätze sind somit etwa gleichwertig, die Präferenz hängt von der konkreten Anwen-
dung ab.
Eine vergleichende Untersuchung mit Wavelet-Koeffizienten (Daubechies-
Wavelets, Symlet-Wavelets und Coiflet-Wavelets, jeweils mit verschiedenen Ordnun-
gen) ergibt mit Q = 0.51...0.56 ähnliche Merkmalsrelevanzen bei Auswahl von jeweils
vier Merkmalen, Verwendung aller drei Sensoren und Bewertung mit dem gleichen
Bewertungsmaß [253].
Eine schnelle Übersicht über die enthaltenen Informationen in Zeitreihen bieten
Merkmalskarten. Zwei Beispiele für einen erweiterten Merkmalssatz mit 48 Zeitreihen
für die Kanäle C3 und C4 zeigt Bild 7.19. Die ANOVA-Werte in Bild 7.19a verdeutli-
chen, dass es eine Vielzahl von informationstragenden Zeitreihen mit QANOVA,l [k] ≈
0.2 insbesondere um k ≈ 500 → t = 5s gibt, die durch eine dunklere Farbe gekenn-
zeichnet sind. Auffällig sind insbesondere die guten Werte für BP10 C3/C4 (Zeitrei-
hen ZR 9 und ZR 10) und bestimmte Daubechies-Wavelets (C3: ZR 40-42, C4: ZR
45-47). Hingegen bringen die Zeitreihen der Rohdaten (ZR 1-2) und einzelner AR-
Werte (ZR 33-38) nur schlechte Ergebnisse. Nach Auswahl der Zeitreihe 9 (I = {9})
und einer nachfolgenden MANOVA (Bild 7.19b) bringen nur noch BP10 C4 (Zeitrei-
he 10) und mit Abstrichen die Daubechies-Wavelets des Kanals C4 (ZR 45-47) eine
relevante Verbesserung. Bei der MANOVA-Merkmalskarte werden Verbesserungen
der Merkmalsbewertung gemäß
angezeigt. Für ein einzelnes Element in I ist der MANOVA-Wert gleich dem ANOVA-
Wert:
QMANOVA,{I} [k] = QANOVA,l [k] wenn I = {l}. (7.7)
280
7.4 Brain Machine Interfaces
281
7 Anwendungen
eine Kombination beider Merkmalstypen überlegen ist. Die deutlich besseren Ergeb-
nisse erreicht hier die Diskriminanzanalyse mit dem Bayes-Klassifikator.
Tabelle 7.8: Vergleich der unterschiedlichen Merkmalssätze und Klassifikatoren über dem
Testdatensatz (Pos.: Position des Klassifikators bei Einordnung in die Ranglis-
te aus [398])
Fuzzy-Regelbasen verfehlen diese Ergebnisse deutlich. Ein Beispiel für eine ge-
fundene Fuzzy-Regel zeigt Bild 7.20
WENN (BP10C3 = NICHT NSK) UND (BP10C4 =NM ODER NK ODER NSK)
DANN y = rechts
mit den linguistischen Termen NSK (negativ sehr klein), NK (negativ klein), NM (ne-
gativ mittel).
Das Bild verdeutlicht, dass eine achsenparallele Aufteilung wegen der deutlichen
Korrelation beider Merkmale hier ungünstig ist. Das erklärt die besseren Ergebnisse
einer Diskriminanzanalyse, die eine nichtachsenparallele Trennung zulässt. Anderer-
seits ist die Regel gut interpretierbar und inspiriert beispielsweise zu der Idee, ein Ver-
hältnis zwischen beiden Merkmalen als neues transformiertes Merkmal einzuführen.
Das transformierte Merkmal BP10C3/BP10C4 ist mit einer univariaten Merkmalsbe-
wertung von Qopt = 0.48 bestes Einzelmerkmal.
Die besten Ergebnisse für den Datensatz im offiziellen Wettbewerb (Zusammen-
fassung in [398]) beschreibt [248] (Tabelle 7.8). Als Merkmale kommen modifizierte
Morlet-Wavelets über die Zeitreihen der Sensoren C3 und C4 zum Einsatz, woraus
vier Zeitreihen entstehen. Die Wavelet-Parameter werden über die Minimierung des
Klassifikationsfehlers ermittelt, die Modifikation sichert die Kausalität. Daraus ermit-
telt ein Bayes-Klassifikator entsprechend (5.43) Wahrscheinlichkeiten für beide Klas-
sen. Dessen Ergebnisse werden nochmals tiefpassgefiltert. Insbesondere der letzt-
282
7.4 Brain Machine Interfaces
−5.6
BP C4 10−12Hz
−6.5
−7.4
−8.5
−9.7
links
rechts
−10 −8.8 −7.6 −6 −4.7
BP C3 10−12Hz
Bild 7.20: Fuzzy-Regel (durchgezogene Linie) und Parameter al,i der Zugehörigkeitsfunktio-
nen (gepunktete Linien für µAl,i (xl ) = µAl,i (al,i ) = 1)
genannte Schritt sichert eine gute Unterdrückung kurzfristiger Störungen und erhöht
die Robustheit des Ansatzes.
Die Kombination von Wavelet-Koeffizienten, einer Diskriminanzanalyse und einem
nachfolgenden Bayes-Klassifikator liegt qualitativ etwa im Bereich der AR- und BP-
Merkmale mit der gleichen Klassifikationsstrategie [253]. Da der Berechnungsauf-
wand für Wavelet-Koeffizienten höher liegt, sind hier die beiden anderen Merkmals-
typen zu bevorzugen.
In der nachfolgenden BCI-Competition III im Jahr 2005 [55] wurden drei ähnliche
Datensätze vorgestellt (Datensatz IIIb mit drei Probanden 03vr, S4b, X11, Tabel-
le 7.9). Die besten Klassifikationsgüten im offiziellen Wettbewerb5 erreichten Klas-
sifikatoren, die zwei Bayes-Klassifikatoren mit verschiedenen Merkmalssätzen (ERD
und Bereitschaftspotenziale) über der Zeit mit variablen Wichtungsfaktoren fusionie-
ren [249].
Auch in [83] werden die Zeitinformationen unter Nutzung eines mehrstufigen Ver-
fahrens explizit in den Klassifikator einbezogen, was zu den bisher besten bekannten
Ergebnissen führt. Das Ergebnis ist allerdings nicht im offiziellen Wettbewerb der
BCI-Competition III 2005 enthalten. Zunächst werden 53 verschiedene bandpass-
gefilterte Zeitreihen (inkl. relativer Anteile für bestimmte Frequenzen und Kanäle)
berechnet, der beste Zeitpunkt für eine Klassifikation ermittelt und die dort besten
Zeitreihen ausgewählt. Darauf folgt unter Nutzung dieser Merkmale für jeden Zeit-
5
Datensätze und Ergebnisse siehe [Link]
283
7 Anwendungen
Tabelle 7.9: Ergebnisse (beste Klassifikationsgüte über Testdaten) der BCI-Competition III
2005
7.4.3 Diskussion
284
7.4 Brain Machine Interfaces
einer guten Interpretierbarkeit (z. B. Positionen C3, C4 oberhalb des motorischen Kor-
tex bei der Vorstellung von Handbewegungen [403]). Zudem ermöglichen sie eine
Einsparung von Sensoren und eine Reduzierung des Rechenaufwands in der An-
wendungsphase. Die Kodierung kann über Merkmalskategorien (Sensor, Frequenz-
bereich, u. U. Zeitdifferenz zu einem bekannten Stimulus) erfolgen.
Die Signale unterliegen aber großen individuellen Variationen. Deswegen ist stets
ein patientenindividueller Entwurf eines BMIs erforderlich. Unterschiedliche Meinun-
gen existieren hingegen zum notwendigen Trainingsumfang der Patienten zum Er-
lernen von BMIs und zur Bedeutung eines Feedbacks der Klassifikationsergebnisse
zum Patienten. Während einige Gruppen [397] hier große Anstrengungen fordern,
gehen andere Gruppen [52] von einer vollständigen Erlernbarkeit beliebiger Hirnpo-
tenziale durch den Computer aus.
Als klinische Problemstellung dominiert die Auswahl von Steuerstrategien und die
Suche nach alternativen Messverfahren. Zum Verständnis der pathologischen Wir-
kungsmechanismen sind aber auch Problemstellungen wie die Diagnose Patient –
Proband, die Differentialdiagnose und die Suche nach unbekannten Patientengrup-
pen von Bedeutung. Mittelfristig besteht auch ein Interesse an einer Therapieprogno-
se, um frühzeitig vor einem aufwändigen Training die Realisierungschancen eines
leistungsfähigen BMIs abzuschätzen (siehe erste Resultate in [167]).
Bei der Auswahl von Steuerstrategien sind Data-Mining-Verfahren geeignet in ein
umfassenderes Steuerungskonzept zum Erreichen der vorgegebenen Ziele einzubet-
ten. Die Aufwandswichtung des Data-Mining-Problems unterscheidet sich dabei von
Fall zu Fall erheblich. Wichtig ist insbesondere ein geschickt komponiertes Gesamt-
konzept, das die geeignete Konstruktion von möglichst fehlerfrei lösbaren Klassifikati-
onsproblemen, die Echtzeitfähigkeit, komfortable Korrekturmöglichkeiten bei Fehlern
und ein optionales Patientenfeedback berücksichtigt.
Die relativ schlechten Erkennungsraten verhindern bislang den Einsatz von BMIs
in Anwendungsfeldern mit höheren Sicherheitsanforderungen, wie z. B. das Bedie-
nen von Rollstühlen. Je schneller die Bewegungsabsichten für eine sinnvolle Ausfüh-
rung erkannt werden müssen, desto höhere Anforderungen stellen sich zudem an
die Echtzeitfähigkeit von Brain Machine Interfaces. Der heutige Entwicklungsstand
lässt wegen der langen Erkennungszeiten und der geringen Klassifikationsgüte nur
den praktischen Einsatz für Keyboards und (mit Einschränkungen) Greiffunktionen
zu. Für solche Anwendungsgebiete sind aber derzeit EMG-basierte Systeme zu be-
vorzugen, wenn der Patient Muskeln willkürlich aktivieren kann.
Brain Machine Interfaces unterliegen aufgrund der kleinen Fallzahlen und der gra-
vierenden Einschränkungen der Patienten einem vergleichsweise geringen ökono-
285
7 Anwendungen
mischen Druck. Da die bisherigen Patientenkollektive ohnehin kaum mobil sind und
im Rollstuhl sitzen, sind stationäre Lösungen meist akzeptabel. Das reduziert die
Anforderungen an die Echtzeitfähigkeit der Lösungen und lässt aufwändigere Algo-
rithmen zu (z. B. spektrale Leistungsdichten, Wavelet-Koeffizienten, Support-Vektor-
Maschinen).
7.5.1 Aufgabenstellung
Brustkrebs (engl. breast cancer) ist in den Industrieländern eine der häufigsten Tu-
morarten. In den USA (Zahlen basieren auf dem nationalen US-amerikanischen
Krebsregister 1975-2001 [377]) werden in einer Hochrechnung 215.990 weibliche
Neuerkrankungen und 40.110 weibliche Todesfälle im Jahr 2004 geschätzt. Die 5-
Jahres-Überlebensraten sind von 60 % im Jahr 1950 auf 89 % im Jahr 2000 ange-
stiegen, was wesentlich auf eine bessere Früherkennung zurückzuführen ist. Dazu
werden Reihenuntersuchungen mit Röntgenaufnahmen eingesetzt, bei denen vier
Bilder auszuwerten sind (pro Brust ein kranio-kaudales Bild von oben und ein medio-
laterales seitliches Bild, siehe Bild 7.21). Zunehmend finden sich bei vertiefenden
Untersuchungen auch MRT- und Ultraschallaufnahmen (Übersicht siehe z. B. [317]).
Alle drei Verfahren liefern Bilder, die heute tendenziell manuell ausgewertet werden.
Bei der parallelen Verwendung mehrerer Messtechniken ergeben sich zusätzliche
anspruchsvolle Registrierungsaufgaben beim Versuch einer Bildfusion oder des Wie-
derauffindens verdächtiger Regionen, weil die Brust bei Röntgenmammographien
verformt wird (siehe z. B. [390] für entsprechende Untersuchungen).
In diesen Bildern sind nun verschiedene Anzeichen für Tumore zu detektieren (für
eine Übersicht siehe z. B. [284, 474]). Ein wichtiges, aber besonders schwer iden-
tifizierbares Indiz für bösartige Brusttumore sind Ansammlungen von Mikroverkal-
kungen, bei denen mindestens drei bis fünf Mikroverkalkungen mit Durchmessern
zwischen 0.1 bis 5 mm in einer Region von einem Kubikzentimeter auftreten. Zur
Entscheidung über Gut- oder Bösartigkeit sind unter anderem Form, Größe und Hel-
ligkeit (Grauwert) auf dem Röntgenbild sowie die Anzahl von Mikroverkalkungen in
einem Gebiet auszuwerten. Solche Mikroverkalkungen können nur von erfahrenen
Klinikern durch eine sorgfältige Analyse gefunden und in Anzeichen für normales Ge-
webe, gutartige oder bösartige Tumore klassifiziert werden. Das Verfahren ist somit
zweistufig – zunächst sind verdächtige Regionen mit Mikroverkalkungen aufzufinden
und zu segmentieren sowie anschließend zu klassifizieren.
286
7.5 Bildgestützte Diagnose bei Mammakarzinomen
Bild 7.21: Röntgenaufnahmen mit Mikroverkalkungen und bösartigen Tumoren (Daten aus
der DDSM-Datenbasis [159]), oben: medio-laterale Aufnahmen, unten: kranio-
kaudale Aufnahmen
287
7 Anwendungen
Deswegen besteht ein Interesse daran, mit Hilfe von Data-Mining-Verfahren aus
den Röntgenbildern verdächtige Regionen automatisiert zu klassifizieren. Die Er-
gebnisse können als entscheidungsunterstützendes System entweder als eine Art
Zweitgutachten (engl. second opinion) nach einer manuellen Beurteilung oder als
Werkzeug einer Bildvorverarbeitung während einer Beurteilung durch einen Exper-
ten eingesetzt werden.
Aufgrund der großen Fallzahlen und der hohen Komplexität hat sich die bildge-
stützte Diagnose bei Mammakarzinomen zu einer Art Benchmarkproblem für das
Data Mining von medizinischen Bildern entwickelt. Inzwischen existiert eine Reihe
frei verfügbarer Datenbanken von digitalisierten (eingescannten) Mammographiebil-
dern inkl. der zugehörigen Klasseneinteilungen für überwachtes Lernen (z. B. Digital
Database for Screening Mammography (DDSM) mit N = 2620 Datentupeln [159]).
Viele Arbeiten nutzen auch eine Datenbasis der Universität Nijmegen mit N = 40
Datentupeln zur Erkennung von Mikroverkalkungen [208, 209]. Zudem enthält das
Benchmarkprojekt UCI Repository of Machine Learning Databases [329] den Wis-
consin Breast Cancer Datensatz mit N = 699 Datentupeln und s = 9 bereits extra-
hierten Merkmalen, auf den sich viele Data-Mining-Projekte beziehen.
Wegen der Bedeutung des Krankheitsbildes ist die Anzahl der Arbeiten sehr groß,
die sich der Detektion von Mammakarzinomen widmen. An dieser Stelle kann folg-
lich nur eine unvollständige Übersicht gegeben werden, um einen Eindruck über die
Vorgehensweisen zu vermitteln. Weitere Informationen finden sich z. B. in den um-
fangreichen Übersichtsarbeiten [209, 467, 474].
Die Algorithmen in [208, 209] filtern zunächst das Bild, um eine adaptive Rausch-
schätzung vorzunehmen. Anschließend folgen eine Merkmalsextraktion und ein sta-
tistischer Klassifikator. Das Verfahren erreicht auf der Nijmegen-Datenbasis mit 40
Mammographien ca. 84 % Sensitivität bei ca. 0.2 False Positive (FP) per Bild oder
ca. 90 % Sensitivität und ca. 1 FP per Bild. [478] nimmt zunächst eine Zerlegung
(Kompression und Rekonstruktion) mit Wavelet-Koeffizienten vor, um niederfrequente
Anteile, hochfrequentes Rauschen und Ortsfrequenzbereiche, in denen Mikroverkal-
kungen liegen, voneinander zu trennen. Aus diesen vorverarbeiteten Bildern werden
für jede Region 31 Merkmale (z. B. Mittelwert, Standardabweichung, Merkmale aus
Histogrammen zweiter Ordnung) generiert. Die nachfolgende Klassifikation erfolgt
mit einem MLP-Netz. Dabei zeigt sich bei einer Analyse der Nijmegen-Datenbasis,
dass 15 Merkmale ausreichen (90 % Sensitivität, 0.5 FP per Bild über Lern- und
Validierungsdaten). [97] schlägt eine Bildvorverarbeitung mit Fuzzy-Methoden und
288
7.5 Bildgestützte Diagnose bei Mammakarzinomen
eine nachfolgende Merkmalsextraktion mit speziell strukturierten Filtern vor. Wie bei
Wavelets werden durch unterschiedliche Parameter mehrere Bilder erzeugt. Auch
hier werden Künstliche Neuronale Netze und die Nijmegen-Datenbasis verwendet
(86 % Sensitivität, 0.35 FP per Bild). [37] vergleicht anhand der Nijmegen-Datenbasis
Support-Vektor-Maschinen, Künstliche Neuronale Netze und lineare Klassifikatoren.
Die Ergebnisse über Testdaten zeigen eine leichte Überlegenheit der Support-Vektor-
Maschinen (91 % Sensitivität bei 0.5 FP per Bild, 96 % Sensitivität bei 1 FP per Bild,
AUC-Wert 0.963) gegenüber Künstlichen Neuronalen Netzen (AUC 0.958) und ei-
ne deutlichere Überlegenheit gegenüber einer linearen Diskriminanzanalyse (AUC
0.930). Die leichte Überlegenheit von Support-Vektor-Maschinen gegenüber Künst-
lichen Neuronalen Netzen bestätigt [128] auf einer anderen Datenbasis mit 140
Mammographien. [458] kombiniert Merkmalsselektionstechniken, Fuzzy-Regeln und
Künstliche Neuronale Netze und erreicht auf der Nijmegen-Datenbasis Klassifikati-
onsgüten von bis zu 89 % auf Testdaten, erlaubt aber keine detailliertere Analyse
der Ergebnisse. Ein direkter Vergleich der Ergebnisse ist für alle genannten Arbei-
ten hochgradig problematisch, weil unterschiedliche Validierungstechniken verwen-
det wurden.
[213] untersucht verschiedene Texturmerkmale mit statistischen Methoden und be-
rechnet dabei jeweils eine ROC-Kurve. Dabei erweist sich bei der Auswertung von
120 Mammographien eine Methode als überlegen, die für jedes Pixel Grauwertdif-
ferenzen in drei verschiedenen benachbarten Regionen vergleicht. Die Ergebnisse
werden anschließend durch ein Künstliches Neuronales Netz (MLP mit einer ver-
deckten Schicht) ausgewertet und einer Crossvalidierung unterzogen.
In [317] werden Hochpassfilter (Laplacefilter als Approximation der örtlichen zwei-
ten Ableitung im Bild) verwendet, Merkmale extrahiert und klassifiziert. Zusätz-
lich findet eine Bildfusion statt, die eine Volumenrekonstruktion (inverse Radon-
Transformation) auf der Basis beider aufgenommener Röntgenbilder vornimmt. Die
Ausführung wird durch spezielle Hardwarechips beschleunigt.
Eine umfangreiche Analyse verschiedener regionenorientierter Merkmale und
Klassifikatoren (Bayes-Klassifikator, Nearest-Neighbor-Klassifikator, MLP-Netz, Ent-
scheidungsbaum) anhand verschiedener Benchmarkdatensätze findet sich in [474].
Besonders hervorzuheben ist hier die explizite Auswahl von sechs bis acht Merkma-
len aus 42 Kandidaten. Diese Maßnahme verbessert die Interpretierbarkeit der Klas-
sifikatoren. Die qualitativen Ergebnisse für eine Crossvalidierung zeigen eine leich-
te Überlegenheit von Nearest-Neighbor-Klassifikatoren gegenüber MLP-Netzen und
Bayes-Klassifikatoren mit Euklidischer und vollständiger Entscheidungsregel. Binäre
Entscheidungsbäume fallen gegenüber den anderen Verfahren deutlich ab.
289
7 Anwendungen
290
7.5 Bildgestützte Diagnose bei Mammakarzinomen
[78] wertet die Ergebnisse einer großen klinischen Multi-Center-Studie mit 427 Pa-
tientinnen und dem System von R2 Technology aus. Dabei werden retrospektiv die
vorhergehenden Mammographien solcher Patientinnen ausgewertet, bei denen zu
einem späteren Untersuchungszeitpunkt (9-24 Monate nach dieser vorhergehenden
Untersuchung) ein Mammakarzinom diagnostiziert wurde. Bei einer retrospektiven
Wiederholung der Auswertung der vorherigen Untersuchung sind bei 286/427 Pati-
entinnen die sich entwickelnden Mammakarzinome bereits erkennbar. Damit ist diese
Aufgabenstellung besonders schwer, weil diese Mammakarzinome während der rou-
tinemäßigen manuellen Erst-Auswertung nicht gefunden wurden. Das CAD-System
ist in der Lage, 171/286 der Mammakarzinome richtig zu markieren, wobei 87/110
Mikroverkalkungen und 84/176 Herdbefunde (engl. masses) detektiert werden. Da-
bei stufte das CAD-System pro Untersuchung durchschnittlich vier Regionen als ver-
dächtig ein. Bemerkenswert ist dabei, dass der Einsatz des CAD-Systems die Zahl
der notwendigen detaillierteren Folgeuntersuchungen bei Verdachtsfällen nicht signi-
fikant änderte, was auf eine gute Selektivität des Gesamtsystems Arzt – CAD-System
hindeutet. Andererseits zeigen die Zahlen, dass eine vollautomatische Diagnose oh-
ne medizinischen Experten keinesfalls ausreicht.
Bei einer prospektiven Studie mit 12860 Patienten finden zwei erfahrene Radio-
logen ohne CAD-Unterstützung 41 histologisch bestätigte Mammakarzinome [137].
Eine nachfolgende CAD-unterstützte Entscheidungsfindung erhöht diese Zahl auf 49
Mammakarzinome. Auch hier ist die Sensitivität des CAD-Systems bei Mikroverkal-
kungen besser als bei Herdbefunden.
Insgesamt entstanden in den letzten Jahren Leitlinien, die den diagnostischen Pro-
zess bei Mammakarzinomen detailliert festschreiben [407]. Sie beinhalten zum der-
zeitigen Zeitpunkt aber keine Aussagen zu einer automatisierten Bildauswertung im
Sinne der Anwendungsphase eines Data-Mining-Verfahrens. Hierbei ist schwer zu
beurteilen, inwieweit die publizierten Ergebnisse aus Data-Mining-Verfahren zur Spe-
zifikation der Diagnoserichtlinien beigetragen haben.
Neben den genannten Analysen von Röntgenmammographien gibt es weitere Ar-
beiten mit anderen Messmethoden. Mit der Auswertung von Ultraschallmammogra-
phien beschäftigt sich [94]. Die Merkmale sind geschätzte Koeffizienten einer zwei-
dimensionalen Autokorrelationsfunktion, die von einem Künstlichen Neuronalen Netz
klassifiziert werden. Mit einer Datenbasis von 140 Bildern wird über Validierungsda-
ten (10-fache Crossvalidierung) eine Sensitivität von 98 %, eine Spezifität von 93 %
und ein AUC-Wert von 0.956 erreicht. [266] zeigt die Auswertung von dynamischen
MRT-Bildern mit Künstlichen Neuronalen Netzen, bei denen die Ausbreitung eines
Kontrastmittels über 12 Minuten mit einer Abtastzeit von 23 s gemessen wird.
291
7 Anwendungen
7.5.3 Diskussion
292
8 Vorgehensweise bei medizinischen Datenanalysen
293
8 Vorgehensweise bei medizinischen Datenanalysen
Problemformulierung
Problemformulierung
Klinische Datenbank
Datentupelselektion
Zusammenstellung
Bewertungsmaße
findung (klinisch)
Entscheidungs-
transformation
Lerndatensatz
Visualisierung
Klassifikation/
(formalisiert)
Regression
Merkmals-
Merkmals-
Merkmals-
extraktion
selektion
(klinisch)
Schritt
1 x x
2 x x
3 x x x
4 x x x
5 x x x x
6 x x
7 x x x x x
8 (x) (x) x (x)
9 x x x x
10 x x (x) x x
11 x x x x
12 x x x x x x
13 x x x x x
14 x x x x x x x
15 x x x x x
Tabelle 8.1: Zuordnung der Schritte für die empfohlene Vorgehensweise zu den Blöcken aus
Bild 4.1. Die mit Kreuzen markierten Felder kennzeichnen die jeweiligen Haupt-
aufgaben, Kreuze in Klammern stehen für unterstützende Elemente.
294
ben sind dabei die Anonymisierung von Patienten durch Nummern, die Kodierung
von sprachlichen Werten (z. B. ja/nein) und fehlenden Einträgen als Klassen, die
Umwandlung von Datumsangaben in Zahlenwerte usw. Im Ergebnis entsteht ein
Datensatz, der von der Auswertesoftware (vgl. Kapitel 6) lesbar ist.
6. Aus den Ergebnissen von 1.-5. sind nun Bewertungsmaße zu generieren. Dieser
Schritt beinhaltet insbesondere die Umwandlung von verbalen Erläuterungen und
qualitativen Bewertungen über die Wichtigkeit ergänzender Forderungen in quan-
titative Maße. Beispiele hierfür sind Merkmalspräferenzen gemäß Abschnitt 3.5.6,
Kosten von Fehlentscheidungen gemäß (3.59) usw. Je nach Problemformulierung
sind Interpretierbarkeitsforderungen (z. B. bei der Bewegungsanalyse) oder An-
forderungen an die Implementierbarkeit (z. B. bei Unterarmprothesen) stärker zu
gewichten.
7. Alle folgenden Schritte setzen eine leistungsfähige Auswertesoftware voraus. Un-
ter deren Nutzung müssen nun die vorhandenen Daten einer intensiven Inspek-
tion mit einer grafischen Visualisierung unterzogen werden. Dieser Schritt um-
fasst die Suche nach möglichen Messfehlern, fehlenden Werten und Ausreißern
(Ausreißertests bzgl. der Messwerte oder der Ausgangsgröße, z. B. Zuordnung
eines Datentupels als Patient inmitten des Referenzkollektivs oder umgekehrt) so-
wie möglichen Fehlklassifikationen (z. B. Verwechseln von Diagnosen). Alle nicht
plausiblen Werte sind mit den Medizinern zu diskutieren und mit einer Datentupel-
selektion oder dem Löschen ganzer Zeitreihen oder Einzelmerkmale aus der wei-
teren Analyse auszuschließen. Nur bei extrem kleinen Datensätzen mit wenigen
Datentupeln lohnt eine (in der Regel sehr aufwändige) Rekonstruktion. Bei allen
nachfolgenden Schritten ist wieder zu Schritt 7 zurückzukehren, wenn dort bisher
übersehene Ausreißer oder ähnliche Probleme detektiert werden.
8. In der folgenden Merkmalsextraktion ergeben sich Kandidaten für relevante Merk-
male aus einer Befragung der Mediziner aus dem ersten Schritt (z. B. Raum-
Zeit-Parameter und Extrema für eine Schrittphase bei der Bewegungsanalyse),
aus einer umfassenden Literaturrecherche mit ähnlichen Problemstellungen (z. B.
Normalcy-Index bei der Bewegungsanalyse) und aus einer Bibliothek mit standar-
disierten Merkmalen (z. B. Mittelwerte und Extrema von Geschwindigkeitszeitrei-
hen, vgl. Abschnitt 4.4). Außerdem ist es oftmals sinnvoll, über Normierungen be-
stimmter Merkmale nachzudenken (z. B. auf Größe, Gewicht, maximale Amplitu-
de von Zeitreihen usw.), um patienten- oder versuchsspezifische Unterschiede zu
kompensieren.
9. Die folgenden Schritte sind für jede formalisierte Problemstellung (z. B. Diagno-
se, Therapieplanung) separat auszuführen. Das setzt u. U. mehrere temporäre
295
8 Vorgehensweise bei medizinischen Datenanalysen
10. Eine Merkmalstransformation ist besonders dann sinnvoll, wenn die Implementier-
barkeit eine wichtige Rolle und die Interpretierbarkeit eine untergeordnete Rolle
spielt (z. B. für Unterarmprothesen und Brain Machine Interfaces). Oftmals reicht
eine Reduzierung auf zwei bis drei transformierte Merkmale aus, um wesentli-
che Informationen in komprimierter Form zu erhalten. Besonders leistungsfähige
Techniken sind die Diskriminanzanalyse oder verwandte Techniken wie modifizier-
te Merkmalstransformationen (z. B. Verfahren MD bei der Steuerung von Unter-
armprothesen).
11. Auch die folgende Klassifikationsaufgabe hängt von der formalisierten Problem-
stellung und den entsprechend gewählten Bewertungsmaßen ab. Bei hohen In-
terpretierbarkeitsforderungen (wie z. B. bei der Bewegungsanalyse) sind Fuzzy-
Klassifikatoren (eher mit einer großen Anzahl ausgewählter Merkmale) oder
Bayes-Klassifikatoren mit zwei oder drei ausgewählten Merkmalen zu empfehlen.
Bei Problemen, die nur auf eine hohe Klassifikationsgüte zielen, sind Support-
Vektor-Maschinen, MLP-Netze und Bayes-Klassifikatoren eine gute Wahl.
296
Die Implementierbarkeit hängt hauptsächlich von der vorherigen Merkmalsselek-
tion und -transformation ab. Hier sind Support-Vektor-Maschinen, Fuzzy-Regeln
und Bayes-Klassifikatoren besonders interessant, weil sich die Entscheidungen
bei entsprechender Darstellung teilweise durch Schwellwerte realisieren lassen.
Künstliche Neuronale Netze erfordern hingegen einen hohen Implementierungs-
aufwand. Regressionsaufgaben treten hauptsächlich bei der Rekonstruktion von
schwer messbaren Größen auf (siehe z. B. die quantitative Patientenbewertung
bei der Bewegungsanalyse).
12. Aufgrund der intensiven Informationsgewinnung aus dem Datenmaterial sind sorg-
fältig geplante Validierungen für die komplette Verarbeitungskette Merkmalsselek-
tion, -transformation und Klassifikation bzw. Regression unbedingt erforderlich. Als
Validierungstechnik eignet sich z. B. eine Crossvalidierung (z. B. mit n = 5...10, vgl.
Abschnitt 3.7).
13. Aus den Schritten 1-12 können nun durch den Mediziner gemeinsam mit den Infor-
matikern und Ingenieuren Hypothesen über allgemeine Zusammenhänge für die
untersuchten Problemstellungen formuliert werden. Diese Hypothesen bilden die
Grundlage für eine zukünftige klinische Entscheidungsfindung. Nach der Formulie-
rung ist mit einem geeigneten Studiendesign für prospektive Studien die Erhebung
zusätzlicher neuer Daten zu planen und auszuführen, um gefundene Zusammen-
hänge bezüglich der Robustheit gegen Überanpassung zu prüfen.
14. Die so durchgeführten prospektiven Studien orientieren sich bezüglich der statis-
tischen Auswertung an klassischen und medizinisch akzeptierten univariaten Vali-
dierungstechniken wie t -Tests. Erst die Validierung aller Ergebnisse mit den Daten
aus Schritt 13 vermeidet das Problem von multiplen Tests, das bei Data-Mining-
Aufgaben sonst unvermeidlich ist. Solche zusätzlichen Daten sind außerdem die
einzige Chance, zeitliche Veränderungen der Zusammenhänge zu erkennen, die
nicht in den Lerndaten enthalten sind (Robustheit gegen Zeitvarianz). Diese Ro-
bustheit ist z. B. bei Unterarmprothesen und Brain Machine Interfaces von großer
Bedeutung.
15. Bei der Implementierung für die Anwendungsphase eines Data-Mining-Verfahrens
müssen nur noch ausgewählte Merkmale berechnet werden, wodurch die Merk-
malsselektion als expliziter Schritt in der Regel entfällt. Die Merkmalstransforma-
tion ist meist als gewichtete Addition zu implementieren. Für Fuzzy-Regeln ist eine
Implementierungsstrategie gemäß Abschnitt 5.5.7 zu empfehlen.
Besonders recheneffizient sind Schwellwertvergleiche bei Support-Vektor-
Maschinen mit linearen Kernen oder Bayes-Klassifikatoren in eindimensionalen
Merkmalsräumen. Zur Realisierung bietet sich in allen betrachteten Fällen eine
297
8 Vorgehensweise bei medizinischen Datenanalysen
298
hingegen bewährt, möglichst viele konkurrierende Verfahren zur Merkmalsselek-
tion, -transformation und Klassifikation zu vergleichen. Ähnliche Ergebnisse deu-
ten hierbei auf einen Datensatz mit offensichtlichen und gut trennbaren Zusam-
menhängen hin. Deutliche Abweichungen geben hingegen wertvolle Auskünfte
über strukturelle Zusammenhänge im Datensatz.
• Bei allen Visualisierungen ist zu kontrollieren, ob es relevante Subgruppen gibt,
die auf Heterogenitäten der Datentupel innerhalb einer Klasse schließen lassen.
Bei deren Auftreten ist es sinnvoll, solche Subgruppen durch Clusterverfahren zu
identifizieren und als separate Klassen in der formalisierten Problemstellung zu
kennzeichnen, weil es sonst wegen der Annahme kompakter Klassen in vielen
Bewertungsmaßen zu ungünstigen Bewertungen kommt. Außerdem ermöglichen
die Subgruppen interessante Rückschlüsse zur medizinischen Interpretation der
Ursachen.
• Gefundene Zusammenhänge in den Daten sind noch lange keine Ursache-
Wirkungs-Beziehung! Solche Zusammenhänge können ebenso aus fehlerhaften
Daten, Ungleichgewichten des Auftretens verschiedener Klassen in den Lern-
datensätzen, Zufällen oder komplexeren Ketten von Zusammenhängen entste-
hen. Der Auswerter muss deshalb immer kritisch prüfen, ob sich unerwartete und
scheinbar widersinnige Zusammenhänge (z. B. Abhängigkeit der Diagnosen vom
Datum der Erstuntersuchung eines Patienten usw.) ergeben.
Die vorgestellten 15 Schritte und die allgemeinen Hinweise resultieren aus den bear-
beiteten praktischen Projekten in Kapitel 7 und haben sich in einer Vielzahl von weite-
ren, hier nicht dokumentierten medizinischen Anwendungen bewährt. Sie bilden den
Rahmen für eine standardisierte Vorgehensweise, die selbstverständlich mit dem je-
weiligen Problemwissen zu vervollständigen ist. Jede neue Problemstellung enthält
spezifische Aspekte, die an den beschriebenen Stellen (z. B. als Bewertungsmaße
oder zu extrahierende Merkmale) einzubringen sind. Große Teile dieser Vorgehens-
weise sind nicht auf medizinische Probleme beschränkt und können nach entspre-
chenden Modifikationen auch Anregungen für technische Fragestellungen wie die
Fehlerdiagnose in technischen Prozessen, die Optimierung des Betriebs technischer
Anlagen auf der Basis von Prozessdaten usw. geben.
299
8 Vorgehensweise bei medizinischen Datenanalysen
300
9 Zusammenfassung und Ausblick
301
9 Zusammenfassung und Ausblick
302
Das vorgestellte Szenario erfordert eine durchgängige Unterstützung durch kom-
fortabel nutzbare und modular erweiterbare Softwarelösungen. In Kapitel 6 werden
Anforderungen an solche Lösungen diskutiert und eine beispielhafte Umsetzung an-
hand der MATLAB-Toolbox Gait-CAD gezeigt.
Kapitel 7 stellt drei repräsentative medizinische und medizintechnische Applikatio-
nen vor und zeigt sowohl die Arbeitstechniken der modularen Vorgehensweise als
auch ihre Potenziale auf. Die Applikationen decken sowohl grundlagenforschungsna-
he Bereiche (Bewegungsanalyse, Brain Machine Interfaces) als auch produktnahe
Themen (Unterarmprothesen, Diagnose bei Mammakarzinomen) ab. Die in den ers-
ten drei Applikationen vorgestellten Ergebnisse entstammen hauptsächlich Projek-
ten, die in der Arbeitsgruppe des Autors in den Jahren 2000-2007 bearbeitet wurden.
Aus dem Einsatzszenario und den Anwendungen werden Empfehlungen für eine
systematische Vorgehensweise bei neuen Projekten abgeleitet (Kapitel 8), um hier
mit möglichst kurzen Bearbeitungszeiten zu qualitativ guten Lösungen zu gelangen.
Medizingeräte, die nur vorprogrammierte und nicht patientenspezifische Abläufe
abarbeiten können, werden immer auf Grenzen bezüglich eines optimalen Betriebs
mit einem Patienten stoßen. Eine detaillierte Erfassung der Intentionen des Patienten
und seines aktuellen Zustands eröffnet hier Perspektiven für eine bessere Anpas-
sung des Medizingerätes. Das beginnt mit einer patientenindividuellen Einstellung
des Medizingerätes und geht bis zu einer ständigen Erfassung und Auswertung des
Zustands während des Gerätebetriebs. Deshalb hängt der zukünftige Erfolg neuer
Medizingeräte maßgeblich von der Integration neuartiger Sensoren und deren Aus-
wertung durch Data-Mining-Verfahren ab.
Beispielsweise werden bei Neuroprothesen mit dem Vorliegen der entsprechenden
Technik die Anforderungen für Data-Mining-Verfahren schnell neue Größenordnun-
gen erreichen. Chancen ergeben sich so bei der Erfassung von Bewegungsabsich-
ten aus Hirn- und Nervensignalen (efferente Ableitung) sowie bei der Ansteuerung
von Gliedmaßen, Retinaimplantaten und Auditory Brainstem Implants (jeweils affe-
rente Stimulationen). Zwar bietet sich hier die Möglichkeit, auf eine Selbstadaption
(neurologische Plastizität) des Gehirns zur Nutzung der Signale zu vertrauen, ei-
ne unterstützende Modellbildung (u. U. unter Einbeziehung evozierter Potenziale und
bildgebender Verfahren) erscheint aber denkbar.
Auch aus methodischer Sicht bleiben offene Fragen. Alle genannten Methoden ori-
entieren sich hauptsächlich an Problemstellungen mit Daten, die sich in eine struk-
turgleiche Form übertragen lassen. Abweichende Problemstellungen (z. B. fehlende
Werte) verursachen sofort erhebliche Probleme. Für verteilte und heterogene Da-
303
tenbanken (z. B. für Public Health) werden andere Algorithmen benötigt, für die es
bislang nur erste Vorschläge gibt (siehe z. B. Distributed Data Mining [320]).
Viel Arbeit verbleibt auch bei Einsatzempfehlungen für Bewertungsmaße und Ver-
fahren sowie bei der Automatisierung von Auswahlprozessen für verschiedene Ver-
fahren. Geeignete Einsatzempfehlungen setzen ein tiefes Verständnis für zugrunde-
liegende Strukturen in Problemstellungen einerseits sowie Bewertungsmaßen und
Verfahren andererseits voraus, die über Erfolg und Misserfolg der jeweiligen Kombi-
nationen entscheiden.
Die meisten genannten Aspekte treffen auch auf nichtmedizinische Problemstellun-
gen zu. Sicherlich unterscheiden sich technische oder ökonomische Systeme in vie-
len Fragestellungen von medizinischen Aufgaben, dennoch weisen sie weitgehende
Übereinstimmungen bezüglich der auftretenden Datenstrukturen sowie der zu ver-
wendenden Bewertungsmaße und Verfahren auf. Auch hier bestehen derzeit noch
gravierende Defizite bei der quantitativen Durchdringung vieler Problemstellungen,
die eine durchgehend gute Qualität aller Lösungen und eine schnelle Übertragbarkeit
behindern. Kommunikationsprobleme treten nicht nur zwischen Medizinern einerseits
sowie Ingenieuren und Informatikern andererseits auf. Sie existieren auch zwischen
Ingenieuren unterschiedlicher Fachrichtungen, zwischen Ökonomen und Ingenieu-
ren usw. Obwohl die vorliegende Arbeit ihre Anregungen und Fallbeispiele aus der
Medizintechnik bezieht, lässt sie sich mit einem überschaubaren Aufwand auch auf
Probleme in der Fehlerdiagnose und Modellbildung technischer Anlagen oder auf die
Analyse soziologischer und ökonomischer Prozesse übertragen.
304
A Wichtige Symbole und Bezeichnungen
Symbol Bezeichnung
0 Matrix oder Vektor mit Null-Elementen
1 Matrix oder Vektor mit Eins-Elementen
2CV zweifache Crossvalidierung
2D zweidimensional
3D dreidimensional
5CV fünffache Crossvalidierung
a, ai Parameter (allgemein)
a 1. Transformationsvektor auf ein transformiertes Merkmal in der linearen
Merkmalstransformation, 2. Parametervektor (allgemein)
A Transformationsmatrix in der linearen Merkmalstransformation
ã Eigenvektor
à Transformationsmatrix aus Eigenvektoren
A(z) Parameterpolynom in einer z-Übertragungsfunktion
a0 Absolutwert
A1 − 3 Neuronen in Ausgabeschicht
AFaktor Transformationsmatrix in der Faktoranalyse
aH Transformationsvektor auf ein transformiertes Merkmal in einem höherdi-
mensionalen Raum bei SVMs
al Vektor der Parameter der Zugehörigkeitsfunktionen aller Terme des Merk-
mals xl
305
Symbol Bezeichnung
al,i Parameter der Zugehörigkeitsfunktion des Terms Al,i (i = 1: rechtes Ma-
ximum Trapez-ZGF, i = ml : linkes Maximum Trapez-ZGF, i = 2, . . . , ml − 1:
Maximum Dreieck-ZGF)
Al,i i-ter linguistischer Term des l -ten Merkmals xl
aStart
l,i Startiteration für Parameter der Zugehörigkeitsfunktion des Terms Al,i
Al,Rr ODER-Verknüpfung linguistischer Terme des l -ten Merkmals xl in der Teil-
prämisse der r-ten Regel
Az AUC-Wert
AK Bewertung mit A-priori-Wahrscheinlichkeiten und Kosten
ALS Amyotrophe Lateralsklerose
ANFIS Adaptive Network based Fuzzy Inference System
ANOVA (univariate) Varianzanalyse (ANalysis Of VAriances)
AR Autoregressives Modell (siehe Tabelle 5.24 auf S. 223)
AR1-3 Koeffizienten eines autoregressiven Modells
argmax Argument mit dem maximalen Wert
argmin Argument mit dem minimalen Wert
ARIMA AutoRegressive Integrated Moving Average model
ARIMAX AutoRegressive Integrated Moving Average model with eXternal input
ARMA AutoRegressive Moving Average model (siehe Tabelle 5.24 auf S. 223)
ARMAX AutoRegressive Moving Average model with eXternal input
(siehe Tabelle 5.24 auf S. 223)
ASIA American Spinal Cord Injury Association
AUC Fläche unter der ROC-Kurve (Area under Curve)
AW Bewertung mit A-priori-Wahrscheinlichkeiten und wahrscheinlichster Ent-
scheidung
b, bi Parameter
B Zwischenklassenvariationsmatrix der Merkmale – Dimension (s, s)
B(z) Parameterpolynom einer z-Übertragungsfunktion
bc 1. Parameter (allgemein),
2. Parameter der Zugehörigkeitsfunktion des Terms Bc
Bc c-ter linguistischer Term der Ausgangsgröße y
BRausch Rauschcluster
BCI Brain Computer Interface
BJ Box-Jenkins model (siehe Tabelle 5.24 auf S. 223)
BMI Brain Machine Interface
BP Bandpower (spektrale Leistungsdichte)
BP10 Bandpower 10-12 Hz (spektrale Leistungsdichte)
BP16 Bandpower 16-24 Hz (spektrale Leistungsdichte)
c Laufindex für Klassen
C 1. Anzahl Cluster,
2. Wichtungsfaktor zur Bestrafung von Klassifikationsfehlern bei SVMs
C(z) Parameterpolynom einer z-Übertragungsfunktion
ci Parameter von C(z)
Cr 1. Konklusion der r-ten Regel, 2. r-ter Klassifikator
C3 EEG-Sensor (Lage siehe Bild 7.15)
C4 EEG-Sensor (Lage siehe Bild 7.15)
C4.5 spezieller Algorithmus für Entscheidungsbäume
306
Symbol Bezeichnung
CAD Computer Aided Detection
card Kardinalität (Anzahl von Elementen einer Menge)
CART Classification and Regression Tree
CCD Charge Coupled Device (elektronisches Bauelement, das u. a. bei Kame-
ras verwendet wird)
COG Schwerpunktmethode (Center of Gravity)
COGS Schwerpunktmethode für Singletons (Center of Gravity for Singletons)
CT Computertomographie
CV Crossvalidierung
Cz EEG-Sensor (Lage siehe Bild 7.15)
d Distanz
D(z) Parameterpolynom einer z-Übertragungsfunktion
dBat Ähnlichkeitsmaß nach Bhattacharyya
dc 1. Distanz zur c-ten Klasse der Ausgangsgröße,
2. Parameter in einer z-Übertragungsfunktion
dEuk Euklidische Distanz
Di Aufgaben und Bewertungsmaße im Data Mining (Entwurf),
siehe Tabellen 3.3, 3.5 und 3.7
DiA Aufgaben und Bewertungsmaße im Data Mining (Anwendung),
siehe Tabellen 3.4, 3.6
dKL Divergenz nach Kullback-Leibler
dKL,min untere Abschätzung der Divergenz nach Kullback-Leibler
dMah Mahalanobis-Distanz
dMan Manhattan-Distanz
dMink Minkowski-Distanz
dQF,WQF Distanz mit quadratischer Form
dRausch Konstante, die Distanz zum Rauschcluster angibt
dTr Triviale Distanz
DA Diskriminanzanalyse
det Determinante einer Matrix
diag Diagonalmatrix
DNA Desoxyribonukleinsäure
DS Datensatz
DSP Digitaler Signalprozessor
DSS Entscheidungsunterstützendes System (Decision Support System)
E(·) Erwartungswert
E1-E3 Neuronen in Eingangsschicht
Ei Ereignis (allgemein)
EBM Evidenz-basierte Medizin
ECoG Elektrokortikographie
EEG Elektroencephalogramm
EK Entscheidungskosten
EKG Elektrokardiogramm
EMG Elektromyogramm
ENG Elektroneurogramm
ERD Event-related Desynchronization
307
Symbol Bezeichnung
ERS Event-related Synchronization
ESS erklärte Streuung (Explained Sum of Squares)
EU Euklidische Distanz
exp Exponentialfunktion
F Matrix mit transformierten Merkmalen bei Regressionsproblemen,
Dimension (N, s f )
f (·) allgemeine Funktion
F(z) Parameterpolynom einer z-Übertragungsfunktion
fi Parameter
Fp (x) Verteilungsfunktion
fr (·) r-te Funktion
Fr Anzahl fehlerhaft klassifizierter Datentupel der r-ten Regel
fT P (·) Hilfsfunktion bei der Implementierung von Fuzzy-Systemen
FCM Fuzzy-C-Means
FDA Food and Drug Association
FFT Fast Fourier Transformation
FIR Finite Input Response
fMRT funktionelle Magnetresonanztomographie
FN False Negative (Anzahl der falsch klassifizierten Datentupel mit y = Bc
und Entscheidung ŷ = Bc )
FP False Positive (Anzahl der falsch klassifizierten Datentupel mit y = Bc und
Entscheidung ŷ = Bc )
fro frontale Ebene (von vorn)
g(·) allgemeine Funktion
GK Gustafson-Kessel-Algorithmus
GZR Geschwindigkeitszeitreihe
H Hesse-Matrix
H(·) 1. Entropie,
2. kumuliertes Sterberisiko bei der Schätzung von Überlebenszeiten
h(t) Sterberisiko (Hasard)
H(x) Eingangsentropie
H(x, y) Gesamtentropie der Größen x, y
H(x; y) Transinformation
H(x|y) Äquivokation (Rückschlussentropie)
H(y) Ausgangsentropie
H(y|x) Irrelevanz
H0 Nullhypothese bei statistischen Tests
h0 (t) Referenzkurve für das Sterberisiko (Hasard)
H1 Alternativhypothese bei statistischen Tests (Gegenteil der Nullhypothese)
Hi (·) Entropie in einem Teil des Datensatzes
(z. B. in einem Knoten eines Entscheidungsbaums)
HK Hauptkomponentenanalyse ohne Varianznormierung
HKA Hauptkomponentenanalyse (allgemein)
HKS Hauptkomponentenanalyse mit Varianznormierung
i Laufindex
I Einheitsmatrix
308
Symbol Bezeichnung
I Indexmenge für Merkmale
iG Nummer des Gewinnerneurons
Ik Indexmenge für Kategorien
Ik−NN Indexmenge mit den k nächsten Nachbarn
ix Laufindex für Spalten in einem Bild
Ix Anzahl Spalten in einem Bild
iy Laufindex für Zeilen in einem Bild
Iy Anzahl Zeilen in einem Bild
iz Laufindex für Schichten in einem dreidimensionalen Bild
Iz Anzahl Schichten in einem dreidimensionalen Bild
ICA Unabhängigkeitsanalyse (Independent Component Analysis)
ICP Infantile Zerebralparese
ID Identifikationsnummer
ID3 spezieller Algorithmus für Entscheidungsbäume
IIR Infinite Input Response
ISw Initial Swing (5. Schrittphase)
j Laufindex
k 1. Abtastzeitpunkt (in eckigen Klammern),
2. Anzahl Nachbarn bei k-Nearest-Neighbor-Klassifikatoren
K Anzahl Abtastzeitpunkte
K(·, ·) Kernoperation
Kneg Faktor bei der Berechnung von Konfidenzintervallen für Regeln
K pos Faktor bei der Berechnung von Konfidenzintervallen für Regeln
Kstat Sicherheitsfaktor für Fehlerabschätzungen der Entropie
kTot diskrete Totzeit
Kx Matrix der Merkmalskategorien
KDD Knowledge Discovery in Databases
k-NN k-Nearest Neighbor
KNN Künstliches Neuronales Netz
KO Knock Out
l Laufindex
L 1. Kosten (allgemein), 2. linke Körperseite (Bewegungsanalyse)
L(ŷ = Bc | Kosten für eine (Fehl-) Entscheidung zu Gunsten von Klasse Bc für ein
y = Bi ) Datentupel der Klasse Bi
L f ix,l fixe Kosten für die Berechnung eines Merkmals xl
lk Laufindex für Kategorien
Lvar,l variable Kosten für die Berechnung eines Datentupels des Merkmals xl
LD Lerndatensatz
LM Linkes Maximum
ln natürlicher Logarithmus
log2 Logarithmus zur Basis 2
logit Logit-Funktion
LOLIMOT Local linear model trees
LR Loading Response (1. Schrittphase)
LS Least Square
LVQ Lernende Vektorquantisierung
309
Symbol Bezeichnung
m 1. Parameter (Mittelwert),
2. Anzahl der linguistischen Terme aller Merkmale
Mi Matrix (allgemein)
ml Anzahl der linguistischen Terme des l -ten Merkmals xl
my Anzahl der linguistischen Terme (Klassen) der Ausgangsgröße
MA Moving Average model (siehe Tabelle 5.24 auf S. 223)
MAN, multivariate Varianzanalyse (Multivariate ANalysis Of VAriances)
MANOVA
MAPO Maximumposition: zugehöriger Abtastzeitpunkt zum Maximum
max, MAX Maximum
MD Modifizierte Diskriminanzanalyse
MDL Minimum Description Length
MEG Magnetoencephalographie
MIMO System mit mehreren Ein- und Ausgängen
(Multiple Input Multiple Output)
min, MIN Minimum
MIPO Minimumposition: zugehöriger Abtastzeitpunkt zum Minimum
MISO System mit mehreren Eingängen und einem Ausgang
(Multiple Input Single Output)
MKQ Methode der kleinsten Fehler-Quadrate
MLP Multi-Layer Perceptron
MM Modifizierte Merkmalsselektion
MML Minimum Message Length
MOM Mean of Maximum
MRI Magnetresonanztomographie (Magnetic Resonance Imaging)
MRT Magnetresonanztomographie
MSt Mid Stance (2. Schrittphase)
MSw Mid Swing (6. Schrittphase)
MW Mittelwert
n 1. Laufindex Datentupel, 2. allgemeine Bezeichnung für eine Anzahl
N Anzahl Datentupel
N Menge der natürlichen Zahlen
N(xl = Al,i ) Anzahl des Auftretens der Klasse Al,i für das Merkmal xl
N(xl = Al,i ∩ Anzahl des Auftretens der UND-Verknüpfung von xl = Al,i und y = Bc
y = Bc )
N(y = Bc ) Anzahl des Auftretens der Ausgangsklasse Bc
N300 negativer Peak in einem EEG-Signal 300 ms nach einem Ereignis
na Ordnung eines Polynoms A(z)
NAnw Anzahl auszuwertender Datentupel in der Anwendungsphase
nb Ordnung eines Polynoms B(z)
nc Ordnung eines Polynoms C(z)
Nc Anzahl Datentupel der c-ten Ausgangsklasse
nCl Laufindex Klassifikatoren bei Klassifikatorfusion
NCl Anzahl Klassifikatoren bei Klassifikatorfusion
nd Ordnung eines Polynoms D(z)
NDiagnose c Anzahl Patienten mit einer Diagnose c
nEB Anzahl generierter Entscheidungsbäume
310
Symbol Bezeichnung
nf Ordnung eines Polynoms F(z)
NF Anzahl an Freiheitsgraden einer Verteilung
NHyp Anzahl getesteter Hypothesen
Ni Anzahl Datentupel im Knoten vi eines Entscheidungsbaums
NKnoten Anzahl Knoten in einem Entscheidungsbaum
NLern Anzahl Datentupel im Lerndatensatz
Nmod Anzahl ausgewählter Datentupel nach einer Datentupelselektion
NPopulation Anzahl Personen in einem untersuchten Kollektiv
Nr Anzahl abgedeckter Datentupel durch die Prämisse der r-ten Regel
NS [k] Anzahl der zum Zeitpunkt k lebenden Personen
NSchritt,Pati Anzahl aller aufgenommenen Schritte des i-ten Patienten
NT [k] Anzahl der im Zeitraum zwischen k − 1 und k verstorbenen Personen
NTest Anzahl Datentupel im Testdatensatz
nx Anzahl einbezogener vergangener Abtastzeitpunkte für die Merkmale
ny Anzahl einbezogener vergangener Abtastzeitpunkte für die Ausgangsgrö-
ße
NARMAX Nonlinear AutoRegressive Moving Average model with eXternal input
NEFCLASS Neuro Fuzzy Approach for the Classification of Data
NEG linguistischer Term Negativ
NG linguistischer Term Negativ Groß
NK linguistischer Term Negativ Klein
NM linguistischer Term Negativ Mittel
NSG linguistischer Term Negativ Sehr Groß
NSK linguistischer Term Negativ Sehr Klein
Oi , O j , OK Objekte, Elemente einer Menge
OE Output error model (siehe Tabelle 5.24 auf S. 223)
OR Odds ratio
OSG Oberes Sprunggelenk
p 1. Parameter, 2. Irrtumswahrscheinlichkeit bei einem statistischen Test
p(·) Verteilungsdichtefunktion
P(·) Wahrscheinlichkeit
P̂ Vektor oder Matrix der Wahrscheinlichkeiten für Klassen einer skalaren
Ausgangsgröße
P+ Förderrichtung Pumpe in Richtung Aktor
P− Förderrichtung Pumpe aus Aktor heraus
P± Förderrichtung Pumpe in Richtung Aktor bzw. aus Aktor heraus
p(x|y = Bc ) bedingte Wahrscheinlichkeit von x für die Ausgangsklasse y = Bc
(x mehrdimensional und reell)
P(xl = Al,i ) Wahrscheinlichkeit des Auftretens der Klasse Al,i für das Merkmal xl
P(xl = Al,i ∩ Wahrscheinlichkeit der UND-Verknüpfung von xl = Al,i und y = Bc
y = Bc )
P(y = Bc ) Wahrscheinlichkeit der Ausgangsklasse y = Bc
P(y = Bc |x) bedingte Wahrscheinlichkeit der Ausgangsklasse y = Bc für x
(x mehrdimensional und reell)
P̂(y|xl ) Matrix der geschätzten bedingten Wahrscheinlichkeiten für die Ausgangs-
klassen von y für die ml Klassen des Merkmals xl für einen Datensatz
311
Symbol Bezeichnung
pc (·) Verteilungsdichtefunktion der Merkmale für die Ausgangsklasse y = Bc
pi i-ter Positionsvektor bei Kohonen-Karten
Pob (·) obere Schranke einer Wahrscheinlichkeit
Pun (·) untere Schranke einer Wahrscheinlichkeit
P300 positiver Peak in einem EEG-Signal 300 ms nach einem Ereignis
PAT Patientenkollektiv
PATi i-ter Patient
PC Personalcomputer
PCA Hauptkomponentenanalyse (Principal Component Analysis)
PET Positronenemissionstomographie
PG linguistischer Term Positiv Groß
PK linguistischer Term Positiv Klein
PM linguistischer Term Positiv Mittel
POS linguistischer Term Positiv
POST posttherapeutisches Patientenkollektiv
PRE prätherapeutisches Patientenkollektiv
PROB Probandenkollektiv
PSG linguistischer Term Positiv Sehr Groß
PSK linguistischer Term Positiv Sehr Klein
PSw Pre Swing (4. Schrittphase)
q Fuzzifier bei Clusterverfahren
Q Bewertungsmaß (allgemein)
QCluster Bewertungsmaß beim (scharfen) Clustering
QD Entscheidungskosten
QD,r Entscheidungskosten für die r-te Regel
QD,ropt geringste Entscheidungskosten einer Regel aus mehreren Alternativen
QF Kosten zur Auswertung eines Modells f (·)
QF0 Kosten zur Auswertung eines Modells f (·) ohne Merkmalskosten
QF,l Kosten zur Berechnung des Merkmals xl
QF,r Kosten zur Auswertung eines Modells f (·) für die r-te Regel
QFuzzy−Cluster Bewertungsmaß Fuzzy-Clustering
QGini Gini-Index
QK Klassifikationsfehler
QK,0 Klassifikationsfehler eines Trivialmodells
QK,G Klassifikationsgüte
QK,GV Verbesserung der Klassifikationsgüte im Vergleich zu einem Trivialmodell
QKlar Klarheit
QKlar,r Klarheit einer Regel
QK p Klassifikationsfehler über geschätzte Wahrscheinlichkeiten von
Fehlklassifikationen
QK p,0 Klassifikationsfehler über geschätzte Wahrscheinlichkeiten von
Fehlklassifikationen eines Trivialmodells
QK p,G Klassifikationsgüte über geschätzte Wahrscheinlichkeiten von
Fehlklassifikationen
QK p,GV Verbesserung der Klassifikationsgüte über geschätzte Wahrscheinlichkei-
ten von Fehlklassifikationen im Vergleich zu einem Trivialmodell
312
Symbol Bezeichnung
QKw gewichteter Klassifikationsfehler
Ql Merkmalsbewertung (allgemein)
QL Bewertungsmaß in Lagrange-Formulierung bei SVMs
QLern beliebiges Bewertungsmaß für den Lerndatensatz
QNR nichtrestringiertes Bewertungsmaß bei SVMs
QPD Präferenz einer Entscheidung
QPF Präferenz zur Auswertung eines Modells f (·)
QPF,0 Präferenz zur Auswertung eines Modells f (·) ohne Präferenzen
von Merkmalen
QPF,Imp Präferenz bezüglich der Implementierbarkeit
QPF,Int Präferenz bezüglich der Interpretierbarkeit
QPF,l Merkmalspräferenz xl
QPFK,lk Präferenz der lk -ten Merkmalskategorie
QPT Gesamtpräferenz (Entscheidung und Modell)
QR2 ,F Bestimmtheitsmaß mit Frobenius-Norm
QR2 ,Norm Bestimmtheitsmaß mit einer beliebigen Norm
Qred (·, ·) Redundanzmaß
QRS Bewertungsmaß nach einer Rückstufung redundanter Merkmale
QSens,c Sensitivität für Klasse Bc (ohne c: für nur eine Klasse und ihre Negation)
QSpez,c Spezifität für Klasse Bc (ohne c: für nur eine Klasse und ihre Negation)
QStat statistische Absicherungsgüte
QT Gesamtkosten (Entscheidungs- und Modellkosten)
QTest beliebiges Bewertungsmaß für den Testdatensatz
QTrenn Trennungsgrad
QTwoing Twoing-Index
r Laufindex Regel
R rechte Körperseite (Bewegungsanalyse)
R Menge der reellen Zahlen
R2 Bestimmtheitsmaß
re letzter linguistischer Term in der ODER-Verknüpfung einer Teilprämisse
rmax Anzahl Regeln in Regelbasis
Rr r-te Regel
rs erster linguistischer Term in der ODER-Verknüpfung einer Teilprämisse
Rs Spearman-Korrelationskoeffizient
rsonst Nummer der Sonst-Regel
RSpW,l Spannweite eines Merkmals xl
ry,ŷ empirischer Korrelationskoeffizient zwischen y und ŷ
RB Regelbasis
RCT Randomized Controlled Trials
rd Rundungsoperator
RM Rechtes Maximum
ROC Receiver Operator Characteristic
ROSA Regelorientierte Statistische Analyse
RRG Relative Regressionsgüte
RSS nicht erklärte Streuung (Residual Sum of Squares)
313
Symbol Bezeichnung
RU Runden
RZR Referenzabweichungszeitreihe
s Anzahl der Merkmale
S Schätzung der Kovarianzmatrix der Merkmale
S(t) erwartete Überlebensrate
sb Anzahl der Bilder, die zu einem Datentupel gehören
Sc Schätzung der Kovarianzmatrix der Merkmale für die c-te Ausgangsklasse
Sc,Reg wie Sc , aber mit zusätzlicher Regularisierung
sd Anzahl der transformierten Merkmale
sdx Anzahl einbezogener Rohmerkmale (Abtastzeitpunkte und Merkmale) bei
der Merkmalsextraktion für dynamische Systeme
sdy Anzahl einbezogener Rohmerkmale (Abtastzeitpunkte und Ausgangsgrö-
ßen) bei der Merkmalsextraktion für dynamische Systeme
sEbene Anzahl Neuronen in einer Ebene einer Kohonen-Karte
sf Anzahl der Merkmale bei Regressionsansätzen
SF,c Fuzzy-Kovarianzmatrix
SG Nummer Generalisierungsschritt beim Generalisieren von Einzelregeln
sk Anzahl der Kategorien
sKNN Parameteranzahl eines Künstlichen Neuronalen Netzes
sm Anzahl der ausgewählten Merkmale
sNeuron,i Anzahl der Neuronen in der i-ten Schicht eines Künstlichen
Neuronalen Netzes
sRoh Anzahl der Rohmerkmale
sSchicht Anzahl der Schichten eines Künstlichen Neuronalen Netzes
sv Anzahl der Videos, die zu einem Datentupel gehören
sy Anzahl der Ausgangsgrößen
sz Anzahl der Zeitreihen, die zu einem Datentupel gehören
sag sagittale Ebene (seitlich)
SAMS Southampton Adaptive Manipulation Scheme
SCP Slow Cortical Potentials
SICA räumliche Unabhängigkeitsanalyse
(Spatial Independent Component Analysis)
SISO System mit einem Ein- und einem Ausgang (Single Input Single Output)
SOFM Kohonen-Karte (Self Organizing Feature Map)
SOM Kohonen-Karte (Self Organizing Map)
sp Spur einer Matrix
SPECT Single-Photon-Emission-Computertomographie
SpW Spannweite
SSCP Gesamtstreuung (Sum of Square and Cross Products)
SSE nicht erklärte Streuung (Sum of Squares Error)
St Standphase (Stand phase)
STD Standardabweichung
Stri Stride (Doppelschritt)
SVM Support-Vektor-Maschine
Sw Schwungphase (Swing phase)
SZR Standardabweichungszeitreihe
314
Symbol Bezeichnung
t Zeit (wertekontinuierlich)
T Gesamtvariationsmatrix der Merkmale – Dimension (s, s)
T2 Spur-Statistik
TA Abtastzeit
ti bestimmter Zeitpunkt
Tname Textrahmen für Erklärungstexte
tPOST Zeitpunkt einer Messung nach einer Therapie
tPRE Zeitpunkt einer Messung vor einer Therapie
tT HER Zeitpunkt einer Therapie
THER Therapie
TICA zeitliche Unabhängigkeitsanalyse
(Temporal Independent Component Analysis)
TP True Positive (Anzahl richtig klassifizierter Datentupel einer Klasse Bc )
TN True Negative (Anzahl richtig klassifizierter Datentupel einer Klasse Bc )
tra transversale Ebene (von oben)
TSS Gesamtstreuung (Total Sum of Squares)
TSt Terminal Stance (3. Schrittphase)
TSw Terminal Swing (7. Schrittphase)
u(t), u(t) skalare bzw. vektorielle Eingangsgröße eines dynamischen Systems
U(z) z-Transformierte der Eingangsgröße u
U? Produktkriterium
V1-6 1. Ventile 1-6
315
Symbol Bezeichnung
x(t), x(t) skalare bzw. vektorielle Zustandsgröße eines dynamischen Systems
xBild,l Pixel bzw. Voxel eines 2D- oder 3D-Bildes (siehe Tabelle 3.2)
Xc Matrix der Merkmale: nur Datentupel für Klasse c (Nc Zeilen, s Spalten)
xc Mittelwert der Merkmale für Klasse c
xD,l Differenzmerkmal
xDis,l wertediskretes Merkmal xl
xGZR,l [k, n] k-ter Abtastzeitpunkt der l -ten Geschwindigkeitszeitreihe
(n-tes Datentupel)
XI Matrix der selektierten Merkmale (N Zeilen, sm Spalten)
xl l -tes Merkmal
xl [n] n-tes Datentupel für das l -te Merkmal im Datensatz
xl,krit kritischer Wert für das l -te Merkmal (Konstante)
x̄l,Re f [k] k-ter Abtastzeitpunkt des Mittelwertes der l -ten Zeitreihe für ein
Referenzkollektiv
xlsort [n] aufsteigend sortierte Werte für das Merkmal xl in einem Datensatz
XRoh Matrix der Rohmerkmale (N Zeilen, sRoh Spalten)
xRZR,l [k, n] k-ter Abtastzeitpunkt der l -ten Referenzabweichungszeitreihe
(n-tes Datentupel)
xSZR,l,Pati [k] k-ter Abtastzeitpunkt der l -ten Standardabweichungszeitreihe des i-ten
Patienten (n-tes Datentupel)
xT her Vektor der Therapieentscheidungen
xTrans skalares transformiertes Merkmal
xTrans Vektor der transformierten Merkmale (sd Spalten)
XTrans Matrix der transformierten Merkmale (N Zeilen, sd Spalten)
xTrans,H Vektor der transformierten Merkmale in einem höherdimensionalen
Merkmalsraum
xVideo,l Pixel bzw. Voxel eines 2D- oder 3D-Videobildes (siehe Tabelle 3.2)
XV N Vektor varianznormierter Merkmale
xZR,l [k, n] k-ter Abtastzeitpunkt der l -ten Zeitreihe (n-tes Datentupel)
y skalare Ausgangsgröße
y Vektor der skalaren Ausgangsgröße (N Zeilen)
Y Matrix der Ausgangsgröße (N Zeilen, sy Spalten)
y(t), y(t) skalare bzw. vektorielle Ausgangsgröße eines dynamischen Systems
Y (z) z-Transformierte der Ausgangsgröße y
yj j-te Ausgangsgröße
y j [n] n-tes Datentupel für die j-te Ausgangsgröße im Datensatz
yPatID [n] zugehörige Patienten-ID des n-ten Datentupels
yr Parameter für die Ausgangsgröße für die Konklusion der r-ten Regel
yZR, j [k] k-ter Abtastzeitpunkt der j-ten Zeitreihe der Ausgangsgröße
z 1. interner Zustand eines Neurons, 2. Verschiebungsoperator um einen
Abtastzeitpunkt in einer Differenzengleichung
Z Zentriermatrix
z(t), z(t) skalare bzw. vektorielle Störgröße eines dynamischen Systems
Z(z) z-Transformierte der Störgröße z
ZE linguistischer Term Null
ZGF Zugehörigkeitsfunktion
316
Symbol Bezeichnung
ZR Zeitreihe
α 1. statistisches Signifikanzniveau für das irrtümliche Verwerfen der Null-
hypothese,
2. Wichtungsfaktor bzw. Parameter,
3. Frequenzband bei EEG-Daten,
4. Parameter der Diskretisierung von Fuzzy-Mengen (α -Schnitt)
αi Wichtungsfaktor für das i-te Modell
αkrit Schwellwert
αImp Wichtungsfaktor bezüglich der Implementierbarkeit
αInt Wichtungsfaktor bezüglich der Interpretierbarkeit
β 1. statistisches Signifikanzniveau für das irrtümliche Verwerfen der Alter-
nativhypothese,
2. Wichtungsfaktor,
3. Frequenzband bei EEG-Daten
βKlar Wichtungsfaktor für Klarheit
βl Parameter eines Cox-Modells
βl,i Parameter beim Runden von Parametern für Zugehörigkeitsfunktionen
γ 1. Wichtungsfaktor, 2. Frequenzband bei EEG-Daten
δ Frequenzband bei EEG-Daten
δc Wichtungsfaktor bei der Regularisierung für Klasse c
∆Ĥ Fehlerabschätzungen für Entropie
ε Vektor der nicht erklärbaren Reste
θ 1. Parameter bei ROC-Kurven, 2. Frequenzband bei EEG-Daten
θ Parametervektor
Θ Menge zulässiger Parameter
λ 1. Eigenwert, 2. Lagrange-Multiplikator
Λ Likelihood-Quotienten-Kriterium
λsup Lagrange-Multiplikator eines Support-Vektors
µ 1. Zugehörigkeitswert zu einer Fuzzy-Menge,
2. Frequenzband bei EEG-Daten
µA (·) Zugehörigkeitsfunktion zu einer Fuzzy-Menge A
µ A (·) Vektor der Zugehörigkeitsfunktionen zu allen linguistischen Termen aller
Merkmale
µ Al (·) Vektor der Zugehörigkeitsfunktionen zu allen linguistischen Termen des
Merkmals xl
µAl,i (·) Zugehörigkeitsfunktion zum i-ten linguistischen Term des Merkmals xl
µA,α diskretisierte Zugehörigkeitsfunktion bei einem α -Schnitt
µ B (·) Vektor der Zugehörigkeitsfunktionen zu allen linguistischen Termen der
Ausgangsgröße y
µBc (·) Zugehörigkeitsfunktion zum c-ten linguistischen Term der Ausgangsgröße
y
µBc ,AkI (·) Zugehörigkeitsfunktion zum c-ten linguistischen Term der Ausgangsgröße
y nach der Akkumulation I
µBc ,AkII (·) Zugehörigkeitsfunktion zum c-ten linguistischen Term der Ausgangsgröße
y nach der Akkumulation II (Funktion höherer Ordnung, Ergebnis ist eine
Funktion)
317
Symbol Bezeichnung
µc Vektor der Erwartungswerte der Merkmale, in den nur Datentupel der c-
ten Ausgangsklasse eingehen (im Abschnitt Statistische Verfahren)
µn Lagrange-Multiplikator bei SVMs
µr Regelplausibilität
µVr (·) Zugehörigkeitsfunktion der Prämisse der r-ten Regel
µVrl (·) Zugehörigkeitsfunktion der l -ten Teilprämisse der r-ten Regel
µX Matrix der fuzzifizierten Merkmale (N Zeilen, ∑sl=1 ml Spalten)
µ xl Matrix der Zugehörigkeitsgrade zu allen linguistischen Termen des Merk-
mals xl für alle N Datentupel
µy Matrix der fuzzifizierten Ausgangsgröße (N Zeilen, my Spalten)
µ y [n, nCl ] Vektor der fuzzifizierten Ausgangsgröße für den Klassifikator nCl und das
n-te Datentupel
µy (y, x) Zugehörigkeitsfunktion nach der Inferenz (Grad der Empfehlung für ver-
schiedene Werte von y)
ρ , ρ0 , ρi, j Lernfaktoren
ξ Laufvariable für Integrale
ξn Korrekturwert bei SVMs
σ Standardabweichung
Σ Kovarianzmatrix der Merkmale
σ2 Varianz
Σc Kovarianzmatrix der Merkmale, in die nur Datentupel der c-ten Ausgangs-
klasse eingehen
σl Standardabweichung des Merkmals xl
σl,Re f [k] k-ter Abtastzeitpunkt der Standardabweichung der l -ten Zeitreihe für ein
Referenzkollektiv
τ Laufvariable für die Zeit in einem Integral
∪ ODER-Verknüpfung
∩ UND-Verknüpfung
k·k Norm (allgemein)
k · kF Frobenius-Norm
318
B Abbildungsverzeichnis
319
5.20 Einzugsgebiete von Regeln und der Sonst-Regel . . . . . . . . . . . . . . . . 177
5.21 Konfidenzintervalle für die statistische Absicherungsgüte . . . . . . . . . . . . 180
5.22 Kandidaten für Pareto-optimale Einzelregeln . . . . . . . . . . . . . . . . . . 182
5.23 Einzugsgebiete der ausgewählten Regeln . . . . . . . . . . . . . . . . . . . . 185
5.24 Implementierungsstrategie für die Fuzzifizierung . . . . . . . . . . . . . . . . 191
5.25 Generierter Quellcode zum Implementieren einer Fuzzy-Regelbasis . . . . . . 192
5.26 Typische Struktur eines Neurons und Feedforward-Netz . . . . . . . . . . . . 195
5.27 Trennebenen dreier angelernter MLP-Netze . . . . . . . . . . . . . . . . . . . 199
5.28 Netztopologie und Ein-Ausgangs-Verhalten . . . . . . . . . . . . . . . . . . . 201
5.29 Parametervariation für ein MLP-Netz . . . . . . . . . . . . . . . . . . . . . . . 202
5.30 Ergebnisse einer Kohonen-Karte für das Beispiel . . . . . . . . . . . . . . . . 203
5.31 Arbeitsschritte in der Entwurfs- und Anwendungsphase bei Clusterverfahren . 207
5.32 Clusterergebnisse für den Beispieldatensatz . . . . . . . . . . . . . . . . . . 212
5.33 Beispiel: Dendrogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
5.34 Beispiel: Merkmale für das Dendrogramm . . . . . . . . . . . . . . . . . . . . 214
5.35 Ergebnisse der Regression für das Beispiel . . . . . . . . . . . . . . . . . . . 219
320
C Tabellenverzeichnis
321
5.20 Klassifikationsfehler und Kosten für unterschiedliche Fuzzy-Systeme . . . . . 186
5.21 Linguistische Terme zur Beschreibung der relativen Häufigkeiten . . . . . . . 187
5.22 Auswirkungen verschiedener Merkmale und der Anzahl von Neuronen . . . . 200
5.23 Auswirkungen verschiedener Klassifikatoren und Merkmale . . . . . . . . . . 218
5.24 Vereinfachte Sonderfälle des Modells in (5.207) . . . . . . . . . . . . . . . . . 223
5.25 Einsatzgebiete für verschiedene Data-Mining-Verfahren . . . . . . . . . . . . 225
5.26 Ausgewählte Eigenschaften einiger Verfahren . . . . . . . . . . . . . . . . . . 227
5.27 Rechercheergebnisse der Anzahl an Publikationen für ausgewählte Verfahren 229
7.1 Beste zehn Einzelmerkmale für eine Diagnose Patient – Proband . . . . . . . 249
7.2 Beste Einzelmerkmale für eine Therapieevaluierung . . . . . . . . . . . . . . 251
7.3 Gemittelte Referenzabweichungen . . . . . . . . . . . . . . . . . . . . . . . . 255
7.4 Lineare Regression mit erreichten Korrelationskoeffizienten . . . . . . . . . . 258
7.5 Klassifikationsfehler über Patientendaten . . . . . . . . . . . . . . . . . . . . 268
7.6 Typische EEG-Signale bei Erwachsenen . . . . . . . . . . . . . . . . . . . . 272
7.7 Maximale Merkmalsbewertung Qopt . . . . . . . . . . . . . . . . . . . . . . . 279
7.8 Vergleich der unterschiedlichen Merkmalssätze und Klassifikatoren . . . . . . 282
7.9 Ergebnisse der BCI-Competition III 2005 . . . . . . . . . . . . . . . . . . . . 284
322
D Literaturverzeichnis
[1] Discriminant Analysis and Clustering - Panel on Discriminant Analysis, Classification and Clus-
tering, Committee on Applied and Theoretical Statistics, Board on Mathematical Sciences, Na-
tional Research Council. National Academic Press, 1988.
[2] Pharmaceuticals: The Rules Governing Medical Products in the European Union. Part 3c: Gui-
delines. Medical Products for Human Use. European Commission. Directorate General III -
Industry, Pharmaceuticals and Cosmetics, 1998.
[3] Richtlinie 93/42/EWG. Amtsblatt der Europäischen Gemeinschaften (L 669, S.1 (1993); L331,
S.1 (1998); L 313, S. 22-24 (2000)), 2000.
[4] Das Leitlinienmanual von AWMF und ÄZQ. Zeitschrift für ärztliche Fortbildung und Qualitätssi-
cherung, 2001.
[5] VDI/VDE-Richtlinie 3550, Blatt 1: Künstliche Neuronale Netze in der Automatisierungstechnik -
Begriffe und Definitionen. 2001.
[6] Entwurf Europanorm prEN 12052: Health Informatics - Digital Imaging - Communication, Work-
flow and Data Management. 2002.
[7] VDI/VDE-Richtlinie 3550, Blatt 2: Fuzzy-Logik und Fuzzy Control - Begriffe und Definitionen.
2002.
[8] Gesetz über Medizinprodukte (Medizinproduktegesetz). Bundesministerium für Gesundheit und
Soziale Sicherung, 2003.
[9] Medizinprodukte - Merkblatt zur EU-Richtlinie 93/42/EWG. Bayerisches Staatsministerium für
Wirtschaft, Verkehr und Technologie, 2003.
[10] PS 3.1-2003: Digital Imaging in Medicine (DICOM), Part 1: Introduction and Overview. National
Electrical Manufacturers Association, 2003.
[11] VDI/VDE-Richtlinie 3550, Blatt 3: Evolutionäre Algorithmen - Begriffe und Definitionen. 2003.
[12] Gesetz über den Verkehr mit Arzneimitteln (Arzneimittelgesetz). Bundesministerium für Ge-
sundheit und Soziale Sicherung, 2004.
[13] Leitlinie Unterarmprothesen. Bundesinnungsverband für Orthopädie-Technik, Bundesfachschu-
le für Orthopädie-Technik (BUFA), 2004.
[14] Situation der Medizintechnik in Deutschland im internationalen Vergleich. Studie im Auftrag des
BMBF. Aachener Kompetenzzentrum Medizintechnik, Deutsche Gesellschaft für Biomedizini-
sche Technik im VDE, 2005.
[15] VDE-Studie zum Anwendungsfeld Neuroprothetik. VDE-Initiative Mikromedizin, 2005.
[16] Das Einsparpotenzial innovativer Medizintechnik im Gesundheitswesen. Spectaris - Deutscher
Industrieverband für optische, medizinische und mechatronische Technologien e.V., Berlin; TU
Berlin, FG Medizintechnik; Droege & Comp. GmbH, Düsseldorf, 2006.
[17] A BBOD, M. F.; L INKENS , D. A.; M AHFOUF, M.; D OUNIAS , G.: Survey on the Use of Smart
and Adaptive Engineering Systems in Medicine. Artificial Intelligence in Medicine 26(3) (2002),
S. 179–209.
[18] A BBOD, M. F.; VON K EYSERLINGK , D. G.; L INKENS , D. A.; M AHFOUF, M.: Survey of Utilisati-
on of Fuzzy Technology in Medicine and Healthcare. Fuzzy Sets and Systems 120(2) (2001),
S. 331–349.
323
[19] A BEL , R.: Quantifizierung von Bewegungsvarianz. Habilitationsschrift, Medizinische Fakultät
Heidelberg der Ruprecht-Karls-Universität, 2004.
[20] A BEL , R.; PARSCH , D.; M IKUT, R.; G ERNER , H. J.: Welche Chancen haben Patienten mit Quer-
schnittlähmungen auf Grund von Wirbelsäulenmetastasen? In: Nichttraumatische Querschnitt-
lähmungen (G RÜNINGER , W.; P OTT, M., Hg.), S. 249–254, Darmstadt: Steinkopf-Verlag, 2003.
[21] A BEL , R.; RUPP, R.; S UTHERLAND, D.: Quantifying the Variability of a Complex Motor Task
Specifically Studying the Gait of Dyskinetic CP Children. Gait & Posture 17 (2003), S. 50–58.
[22] A BEL , R.; S CHABLOWSKI , M.; RUPP, R.; G ERNER , H.: Gait Analysis on the Treadmill - Monito-
ring Exercise in the Treatment of Paraplegia. Spinal Cord 40 (2002), S. 17–22.
[23] A BONYI , J.; R OUBOS , J. A.; S ZEIFERT, F.: Data-Driven Generation of Compact, Accurate,
and Linguistically Sound Fuzzy Classifiers Based on a Decision-Tree Initialization. International
Journal of Approximate Reasoning 32(1) (2003), S. 1–21.
[24] A DLASSNIG , K.-P.: A Fuzzy Logical Model of Computer-Assisted Medical Diagnosis. Methods
of Information in Medicine 19 (1980), S. 141–148.
[25] A DLASSNIG , K.-P.: Fuzzy Set Theory and Fuzzy Logic in Medicine. In: Proc., 7th European
Congress on Intelligent Techniques and Soft Computing EUFIT’99, Aachen, 1999.
[26] A HRENS , H.; L ÄUTER , J.: Mehrdimensionale Varianzanalyse: Hypothesenprüfung, Dimensi-
onserniedrigung, Diskrimination bei multivariaten Beobachtungen. Berlin: Akademie-Verlag,
1974.
[27] A NDREASEN , L.; S TRUIJK , J.: Skin Contact Forces Extracted from Human Nerve Signals - a
Possible Feedback Signal for FES-Aided Control of Standing. IEEE Transactions on Biomedical
Engineering 50(12) (2003), S. 1320–1325.
[28] A STLEY, S. M.; G ILBERT, F. J.: Computer-Aided Detection in Mammography. Clinical Radiology
59(5) (2004), S. 390–399.
[29] AUGUSTO, J. C.: Temporal Reasoning for Decision Support in Medicine. Artificial Intelligence in
Medicine 33(1) (2005), S. 1–24.
[30] A XER , H.; J ANTZEN , J.; V. K EYSERLINGK , D.; B ERKS , G.: The Application of Fuzzy-Based
Methods to Central Nerve Fiber Imaging. Artificial Intelligence in Medicine 29(3) (2003), S. 225–
239.
[31] B ACKHAUS , K.; E RICHSON , B.; P LINKE , W.; W EIBER , R.: Multivariate Analysemethoden: Eine
anwendungsorientierte Einführung. Berlin u.a.: Springer, 2000.
[32] B AILEY, T.; E LKAN , C.: Estimating the Accuracy of Learned Concepts. In: Proc., 13th Interna-
tional Joint Conference on Artificial Intelligence, S. 895–890, Morgan Kaufmann, 1993.
[33] B ALL , M. J.: Hospital Information Systems: Perspectives on Problems and Prospects, 1979 and
2002. International Journal of Medical Informatics 69 (2003), S. 83–89.
[34] B ALL , T.; N AWROT, M.; P ISTOHL , T.; A ERTSEN , A.; S CHULZE -B ONHAGE , A.; M EHRING , C.:
Towards an Implantable Brain-Machine Interface Based on Epicortical Field Potentials. Biome-
dizinische Technik 49(2) (2004), S. 756–759.
[35] B ANDEMER , H.; G OTTWALD, S.: Einführung in Fuzzy Methoden. Akademie-Verlag, Berlin,
1993.
[36] B ARTON , J.; L EES , A.: An Application of Neural Networks for Distinguishing Gait Patterns on
the Basis of Hip-Knee Joint Angle Diagrams. Gait & Posture 5 (1997), S. 28–33.
[37] B AZZANI , A.; B EVILACQUA , A.; B OLLINI , D.; B RANCACCIO, R.; C AMPANINI , R.; L ANCONELLI ,
N.; R ICCARDI , A.; R OMANI , D.: An SVM Classifier to Separate False Signals from Microcalcifi-
cations in Digital Mammograms. Physics in Medicine and Biology 46(6) (2001), S. 1651–1664.
324
[38] B ECK , S.: Ein Beitrag zum automatischen Entwurf von Fuzzy-Entscheidungssystemen bei
unvollständiger Information. Dissertation, Universität Karlsruhe, Universitätsverlag Karlsruhe,
2005.
[39] B ECK , S.; M IKUT, R.; J ÄKEL , J.: A Cost-Sensitive Learning Algorithm for Fuzzy Rule-Based
Classifiers. Mathware and Soft Computing 11(2-3) (2004), S. 175–195.
[40] B ECK , S.; M IKUT, R.; J ÄKEL , J.; B RETTHAUER , G.: Decision-Theoretic Approaches in Fuzzy
Rule Generation for Diagnosis and Fault Detection Problems. In: Proc., Eusflat 2003, S. 558–
563, 2003.
[41] B ECK , S.; M IKUT, R.; L EHMANN , A.; B RETTHAUER , G.: Model-Based Control and Object Con-
tact Detection for a Fluidic Actuated Robotic Hand. In: Proc., 42nd IEEE Conference on Decisi-
on and Control, S. 6369–6374, 2003.
[42] B ELLER , M.; S TOTZKA , R.; G EMMEKE , H.: Merkmalsgesteuerte Segmentierung in der Medizi-
nischen Mustererkennung. In: Proc., Bildverarbeitung für die Medizin 2004, Informatik Aktuell,
S. 184–188, Springer, 2004.
[43] B ELLER , M.; S TOTZKA , R.; M ÜLLER , T.: Application of an Interactive Feature-Driven Segmen-
tation. Biomedizinische Technik 49 (E2) (2004), S. 210–211.
[44] B ENDER , R.; L ANGE , S.; Z IEGLER , A.: Multiples Testen. Deutsche Medizinische Wochenzeit-
schrift 127 (2002), S. T4–T7.
[45] B ENDER , R.; Z IEGLER , A.; L ANGE , S.: Logistische Regression. Deutsche Medizinische Wo-
chenschrift 127 (2002), S. T11–T13.
[46] B EYER , F.; Z IEROTT, L.; FALLENBERG , E.; J UERGENS , K.; S TOECKEL , J.; H EINDEL , W.; W OR -
MANNS , D.: Comparison of Sensitivity and Reading Time for the Use of Computer-Aided De-
tection (CAD) of Pulmonary Nodules at MDCT as Concurrent or Second Reader. European
Radiology 17(11) (2007) 11, S. 2941–2947.
[47] B EYERER , J.; L EON , F. P.: Die Radontransformierte in der digitalen Bildverarbeitung. at - Auto-
matisierungstechnik 50(10) (2002), S. 472–480.
[48] B EZDEK , J. C.: Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Ple-
num Press, 1981.
[49] B HATTACHARYYA , A.: On a Measure of Divergence between Two Statistical Populations Defined
by their Probability Distributions. Bulletin of Calcutta Maths Society 35 (1943), S. 99–110.
[50] B IRBAUMER , N.; G HANAYIM , N.; H INTERBERGER , T.; I VERSEN , I.; KOTCHOUBEY, B.; K ÜBLER ,
A.; P ERELMOUTER , J.; TAUB , E.; F LOR , H.: A Spelling Device for the Paralysed. Nature 398
(1999), S. 297–298.
[51] B IRBAUMER , N.; H INTERBERGER , T.; K UBLER , A.; N EUMANN , N.: The Thought-Translation De-
vice (TTD): Neurobehavioral Mechanisms and Clinical Outcome. IEEE Transactions on Neural
Systems and Rehabilitation Engineering 11(2) (2003), S. 120–123.
[52] B LANKERTZ , B.; C URIO, G.; M ÜLLER , K.-R.: Classifying Single Trial EEG: Towards Brain Com-
puter Interfacing. In: Proc., Advances in Neural Information Processing Systems, S. 157–164,
2001.
[53] B LANKERTZ , B.; D ORNHEGE , G.; S CHÄFER , C.; K REPKI , R.; KOHLMORGEN , J.; M ÜLLER , K.-
R.; K UNZMANN , V.; L OSCH , F.; C URIO, G.: Boosting Bit Rates and Error Detection for the Clas-
sification of Fast-Paced Motor Commands Based on Single-Trial EEG Analysis. IEEE Trans-
actions on Neural Systems and Rehabilitation Engineering 11(2) (2003), S. 127–131.
[54] B LANKERTZ , B.; M ÜLLER , K.-R.; C URIO, G.; VAUGHAN , T. M.; S CHALK , G.; W OLPAW, J. R.;
S CHLÖGL , A.; N EUPER , C.; P FURTSCHELLER , G.; H INTERBERGER , T.; S CHRÖDER , M.; B IR -
BAUMER , N.: The BCI Competition 2003: Progress and Perspectives in Detection and Discri-
325
mination of EEG Single Trials. IEEE Transactions on Biomedical Engineering 51(6) (2004),
S. 1044–1051.
[55] B LANKERTZ , B.; M ÜLLER , K.-R.; K RUSIENSKI , D. J.; S CHALK , G.; W OLPAW, J. R.; S CHLÖGL ,
A.; P FURTSCHELLER , G.; M ILLÁN , J. D. R.; S CHRÖDER , M.; B IRBAUMER , N.: The BCI Com-
petition III: Validating Alternative Approaches to Actual BCI Problems. IEEE Transactions on
Neural Systems and Rehabilitation Engineering 14(2) (2006), S. 153–159.
[56] B ODENHOFER , U.; B AUER , P.: A Formal Model of Interpretability of Linguistic Variables. In:
Trade-off between Accuracy and Interpretability in Fuzzy Rule-Based Modelling (C ASILLAS , J.;
C ORDÓN , O.; H ERRERA , F.; M AGDALENA , L., Hg.), Studies in Fuzziness and Soft Computing,
Heidelberg: Physica, 2002.
[57] B OEGL , K.; A DLASSNIG , K.-P.; H AYASHI , Y.; R OTHENFLUH , T. E.; L EITICH , H.: Knowledge Ac-
quisition in the Fuzzy Knowledge Representation Framework of a Medical Consultation System.
Artificial Intelligence in Medicine 30(1) (2004), S. 1–26.
[58] B ONARINI , A.: Evolutionary Learning of General Fuzzy Rules with Biased Evaluation Functions:
Competition and Cooperation. In: Proc., 1st IEEE Conference on Evolutionary Computation, S.
51–56, IEEE Press, 1994.
[59] B ONISSONE , P. P.; D ECKER , K. S.: Selecting Uncertainty Calculi and Granularity: An Experi-
ment in Trading-Off Precision and Complexity. In: Uncertainty in Artificial Intelligence (K ANAL ,
L. N.; L EMMER , J. F., Hg.), S. 217–247, Amsterdam: North-Holland, 1986.
[60] B OOTH , V.; R INZEL , J.; K IEHN , O.: Compartmental Model of Vertebrate Motoneurons for Ca+2-
Dependent Spiking and Plateau Potentials under Pharmacological Treatment. Journal of Neu-
rophysiology 78 (1997), S. 3371 – 3385.
[61] B ORGELT, C.: Data Mining with Graphical Models. Dissertation, O.-v.-Guericke Universität Mag-
deburg, 2000.
[62] B ORGELT, C.; T IMM , H.; K RUSE , R.: Unsicheres und Vages Wissen. In: Handbuch der Künst-
lichen Intelligenz (G ÖRZ , G.; R OLLINGER , C.-R.; S CHNEEBERGER , J., Hg.), München: Olden-
bourg, 2000.
[63] B OSMAN , R. J. C.; VAN L EEUWEN , W. A.; W EMMENHOVE , B.: Combining Hebbian and Rein-
forcement Learning in a Minibrain Model. Neural Networks 17(1) (2004), S. 29–36.
[64] B OTHNER , U.; M EISSNER , F.: Data Mining und Data Warehouse: Wissen aus medizinischen
Datenbanken nutzen. Deutsches Ärzteblatt 95(20) (1999), S. A1336–A1338.
[65] B OUCHON -M EUNIER , B.: Uncertainty Management in Medical Applications. In: Nonlinear Bio-
medical Signal Processing, Vol. 1, Fuzzy Logic, Neural Networks, and New Algorithms (A KAY,
M., Hg.), S. 1–26, New York: John Wiley, 2000.
[66] B OYEN , X.; W EHENKEL , L.: Automatic Induction of Fuzzy Decision Trees and its Application to
Power System Security Assessment. Fuzzy Sets and Systems 102 (1999), S. 3–19.
[67] B REAULT, J. L.; G OODALL , C. R.; F OS , P. J.: Data Mining a Diabetic Data Warehouse. Artificial
Intelligence in Medicine 26(1-2) (2002), S. 37–54.
[68] B REIMAN , L.: Bagging Predictors. Machine Learning 24 (1996), S. 123–140.
[69] B REIMAN , L.: Technical Note: Some Properties of Splitting Criteria. Machine Learning 24
(1996), S. 41–47.
[70] B REIMAN , L.; F RIEDMAN , J. H.; O LSHEN , R. A.; S TONE , C. J.: Classification and Regression
Trees. Belmont, CA: Wadsworth, 1984.
[71] B REM , R. F.; S CHOONJANS , J. M.: Radiologist Detection of Microcalcifications with and without
Computer-Aided Detection: A Comparative Study. Clinical Radiology 56(2) (2001), S. 150–154.
326
[72] B RETTHAUER , G.: Identifikation rückgekoppelter Mehrgrößensysteme im Frequenzbereich. Dis-
sertation B, Technische Universität Dresden, 1983.
[73] B RETTHAUER , G.: Automatisierungstechnik - Quo vadis? Neun Thesen zur zukünftigen Ent-
wicklung. at - Automatisierungstechnik 53 (2005), S. 155–157.
[74] B RISS , P. A.; Z AZA , S.; PAPPAIOANOU, M.; F IELDING , J.; AGÜERO, L. W.-D.; T RUMAN , B. I.;
H OPKINS , D. P.; M ULLEN , P. D.; T HOMPSON , R. S.; W OOLF, S. H.; C ARANDE -K ULIS , V. G.:
Developing an Evidence-Based Guide to Community Preventive Services - Methods. American
Journal of Preventive Medicine 18 (1, E1) (2000), S. 35–43.
[75] B RONSTEIN , I.; S EMENDJAJEW, K.: Taschenbuch der Mathematik. Moskau, Leipzig: Verlag
Nauka, BSB. B. G. Teubner Verlagsgesellschaft, 1989.
[76] DE B RUIJN , B.; M ARTIN , J.: Getting to the (C)Ore of Knowledge: Mining Biomedical Literature.
International Journal of Medical Informatics 67(1-3) (2002), S. 7–18.
[77] B URGES , C.: A Tutorial on Support Vector Machines for Pattern Recognition. Knowledge Dis-
covery and Data Mining 2(2) (1998), S. 121–167.
[78] B URHENNE , L. J. W.; W OOD, S. A.; D’O RSI , C. J.; F EIG , S. A.; KOPANS , D. B.;
O’S HAUGHNESSY, K. F.; S ICKLES , E. A.; TABAR , L.; V YBORNY, C. J.; C ASTELLINO, R. A.:
Potential Contribution of Computer-Aided Detection to the Sensitivity of Screening Mammogra-
phy. Radiology 215 (2000), S. 554–562.
[79] B URKE , H. B.; G OODMAN , P. H.; R OSEN , D. B.; H ENSON , D. E.; W EINSTEIN , J. N.; H ARRELL ,
F. E.; M ARKS , J. R.; W INCHESTER , D. P.; B OSTWICK , D. G.: Artificial Neural Networks Improve
the Accuracy of Cancer Survival Prediction. Cancer 79(4) (1997), S. 857–862.
[80] B URMEISTER , O.: Analyse von Zeitreihen in der Medizin: Informationsgehalt, Klassifikation und
Unsicherheit. In: Proc., 16. Workshop Computational Intelligence, S. 234–247, Universitätsver-
lag Karlsruhe, 2006.
[81] B URMEISTER , O.: Zeitvariante Klassifikatoren zur Analyse und Interpretation multimodaler Bio-
signale und deren Anwendung in der Prothetik und Rehabilitation. Dissertation, Universität
Karlsruhe (TH), Universitätsverlag Karlsruhe, in Vorbereitung, 2008.
[82] B URMEISTER , O.; M IKUT, R.; W OLF, S.: Towards a Data Mining Based Decision Support Sys-
tem for Treatment Planning in Instrumented Gait Analysis. Biomedizinische Technik, Proc.
DGBMT (2006).
[83] B URMEISTER , O.; R EISCHL , M.; G RÖLL , L.; M IKUT, R.: Zeitvariante Klassifikatoren zur Steue-
rung von Brain Machine Interfaces und Neuroprothesen. at - Automatisierungstechnik 54(11)
(2006), S. 537–545.
[84] B URMEISTER , O.; R EISCHL , R.; B RETTHAUER , G.; M IKUT, R.: Data-Mining-Analysen mit der
MATLAB-Toolbox Gait-CAD. at - Automatisierungstechnik 56(7) (2008), S. 381–389.
[85] B URNS , A.: Scheduling Hard Real-Time Systems: A Review. Software Engineering Journal 6(3)
(1991), S. 116–128.
[86] B UTUROVIC, L.: Toward Bayes-Optimal Linear Dimension Reduction. IEEE Transactions on
Pattern Analysis and Machine Intelligence 16(4) (1994), S. 420 – 424.
[87] C ALHOUN , V.; A DALI , T.; P EARLSON , G.; P EKAR , J.: A Method for Making Group Inferences
from Functional MRI Data using Independent Component Analysis. Human Brain Mapping
14(3) (2001), S. 140–151.
[88] C ALHOUN , V.; A DALI , T.; P EARLSON , G.; P EKAR , J.: Spatial and Temporal Independent Com-
ponent Analysis of Functional MRI Data Containing a Pair of Task-Related Waveforms. Human
Brain Mapping 13 (2001), S. 43–53.
327
[89] C ANU, S.; G RANDVALET, Y.; R AKOTOMAMONJY, A.: SVM and Kernel Methods Matlab Toolbox.
Perception Systèmes et Information, INSA de Rouen, Rouen, France, 2003.
[90] C ARANO, R. A. D.; LYNCH , J. A.; R EDEI , J.; O STROWITZKI , S.; M IAUX , Y.; Z AIM , S.; W HITE ,
D. L.; P ETERFY, C. G.; G ENANT, H. K.: Multispectral Analysis of Bone Lesions in the Hands of
Patients with Rheumatoid Arthritis. Magnetic Resonance Imaging 22(4) (2004), S. 505–514.
[91] C ASILLAS , J.; C ORDÓN , O.; H ERRERA , F.; M AGDALENA , L.: Finding a Balance between Inter-
pretability and Accuracy in Fuzzy Rule-Based Modeling: An Overview. In: Trade-off between
Accuracy and Interpretability in Fuzzy Rule-Based Modelling, Studies in Fuzziness and Soft
Computing, Heidelberg: Physica, 2002.
[92] C HAN , F.; YANG , Y.; L AM , F.; Z HANG , Y.; PARKER , P.: Fuzzy EMG Classification for Prosthesis
Control. IEEE Transactions on Rehabilitation Engineering 8(3) (2000), S. 305–311.
[93] C HAU, T.: A Review of Analytical Techniques for Gait Data. Gait & Posture 13 (2001), S. 49–66
(Part 1); 102–120 (Part 2).
[94] C HEN , D.; C HANG , R.; H UANG , Y.: Computer-Aided Diagnosis Applied to US of Solid Breast
Nodules by using Neural Networks. Radiology 213 (2) (1999), S. 407–412.
[95] C HEN , Y.: A Concept for the Application of Neural Oscillators and Spinal Reflexes to Humanoid
Robots and Neuroprostheses. Master thesis, Universität Karlsruhe (TH), Institut für Regelungs-
und Steuerungstechnik, Forschungszentrum Karlsruhe GmbH, 2008.
[96] C HEN , Y.; B AUER , C.; B URMEISTER , O.; RUPP, R.; M IKUT, R.: First Steps to Future Applicati-
ons of Spinal Neural Circuit Models in Neuroprostheses and Humanoid Robots. In: Proc., 17.
Workshop Computational Intelligence, S. 186–199, Universitätsverlag Karlsruhe, 2007.
[97] C HENG , H. D.; WANG , J.; S HI , X.: Microcalcification Detection using Fuzzy Logic and Scale
Space Approaches. Pattern Recognition 37(2) (2004), S. 363–375.
[98] C IOS , K. (Hg.): Medical Data Mining and Knowledge Discovery, Bd. 60 von Studies in Fuzzi-
ness and Soft Computing. Heidelberg: Physica, 2001.
[99] C IOS , K.; M OORE , G.: Medical Data Mining and Knowledge Discovery: Overview of Key Issu-
es. In: Medical Data Mining and Knowledge Discovery (C IOS , K., Hg.), Bd. 60 von Studies in
Fuzziness and Soft Computing, S. 1–20, Heidelberg: Physica, 2001.
[100] C IOS , K. J.; M OORE , G. W.: Uniqueness of Medical Data Mining. Artificial Intelligence in Medi-
cine 26(1-2) (2002), S. 1–24.
[101] C IOS , K. J.; P EDRYCZ , W.; S WINIARSKI , R. W.: Data Mining Methods for Knowledge Discovery.
Boston: Kluwer Academic, 1998.
[102] C ORDON , O.; G OMIDE , F.; H ERRERA , F.; H OFFMANN , F.; M AGDALENA , L.: Ten Years of Genetic
Fuzzy Systems: Current Framework and New Trends. Fuzzy Sets and Systems 141(1) (2004),
S. 5–31.
[103] C ORTES , C.; VAPNIK , V.: Support-Vector Networks. Machine Learning 20(3) (1995), S. 273–
297.
[104] C OVER , T.; H ART, P.: Nearest Neighbor Pattern Classification. IEEE Transactions on Informati-
on Theory 13(1) (1967), S. 21–27.
[105] DAELEMANS , W.; Z AVREL , J.; VAN DER S LOOT , K.; VAN DEN B OSCH , A.: TiMBL: Tilburg Me-
mory Based Learner, version 4.0, Reference Guide. Techn. Ber. ILK Technical Report 01-04,
Tilburg University, 2001.
[106] DAFFERTSHOFER , A.; L AMOTH , C.; M EIJER , O.; B EEK , P.: PCA in Studying Coordination and
Variability: A Tutorial. Clinical Biomechanics 19 (2004), S. 415–428.
328
[107] DAMMANN , V.; D ÖSSEL , O.; M ORGENSTERN , U.; N IPPA , J.; T RAMPISCH , W.: DGBMT Emp-
fehlung: Akkreditierung von Studiengängen. Biomedizinische Technik. Klinik-Ingenieurwesen.
Deutsche Gesellschaft für Biomedizinische Technik, 2005.
[108] DASEY, T.; M ICHELI -T ZANAKOU, E.: Detection of Multiple Sclerosis with Visual Evoked Poten-
tials - An Unsupervised Computational Intelligence System. IEEE Transactions on Information
Technology in Biomedicine 4(3) (2000), S. 216–224.
[109] D EHMESHKI , J.; RUTO, A.; A RRIDGE , S.; S ILVER , N.; M ILLER , D.; TOFTS , P.: Analysis of MTR
Histograms in Multiple Sclerosis using Principal Components and Multiple Discriminant Analy-
sis. Magnetic Resonance in Medicine 46(3) (2001), S. 600–609.
[110] D ELORME , S.: Mammakarzinom Sonographie und Magnetresonanzmammographie. Der Ra-
diologe 44(6) (2004), S. 621–640.
[111] D ELUZIO, K.; W YSS , U.; C OSTIGAN , P.; S ORBIE , C.; Z EE , B.: Gait Assessment in Unicom-
partmental Knee Arthroplasty Patients: Principal Component Modelling of Gait Waveforms and
Clinical Status. Human Movement Science 18 (1999), S. 701–711.
[112] D ELUZIO, K.; W YSS , U. P.; Z EE , B.; C OSTIGAN , P. A.; S ORBIE , C.: Principal Component Mo-
dels of Knee Kinematics and Kinetics: Normal vs. Pathological Gait Patterns. Human Movement
Science 16 (1997), S. 201–218.
[113] D ENOEUX , T.: A k-nearest Neighbor Classification Rule Based on Dempster-Shafer Theory.
IEEE Transactions on Systems, Man and Cybernetics 25(5) (1995), S. 804–813.
[114] D HILLON , G. S.; K RÜGER , T. B.; S ANDHU, J. S.; H ORCH , K. W.: Effects of Short-Term Training
on Sensory and Motor Function in Severed Nerves of Long-Term Human Amputees. Journal of
Neurophysiology 93 (2005), S. 2625–2633.
[115] D IETERLE , J.; L OOSE , T.; S CHABLOWSKI , M.; M IKUT, R.; RUPP, R.; A BEL , R.: A New Measure
for Assessing Gait Quality in SCI Patients with 3-D Gait Analysis. Gait & Posture 16(S1) (2002),
S. 138.
[116] D IETRICH , C.: Temporal Sensorfusion for the Classification of Bioacustic Time Series. Disser-
tation, Universität Ulm, 2004.
[117] D IETTERICH , T. G.: An Experimental Comparison of Three Methods for Constructing Ensem-
bles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning 40(2) (2000),
S. 139–157.
[118] DIN 19226: Leittechnik, Regelungstechnik und Steuerungstechnik. Deutsches Institut für Nor-
mung e.V., 1994.
[119] D JAVAN , B.; R EMZI , M.; Z LOTTA , A.; S EITZ , C.; S NOW, P.; M ARBERGER , M.: Novel Artifici-
al Neural Network for Early Detection of Prostate Cancer. Journal of Clinical Oncology 20(4)
(2002), S. 921–929.
[120] D ONCHIN , O.; G RIBOVA , A.; S TEINBERG , O.; B ERGMAN , H.; VAADIA , E.: Primary Motor Cortex
is Involved in Bimanual Coordination. Nature 395 (1998), S. 274–278.
[121] D ONOGHUE , J. P.: Connecting Cortex to Machines: Recent Advances in Brain Interfaces. Na-
ture Neuroscience 5 (2002), S. 1085 – 1088.
[122] D ÖRNER , D.: Bauplan für eine Seele. Rowohlt, 2002.
[123] D ÖSSEL , O.: Bildgebende Verfahren in der Medizin. Von der Technik zur medizinischen Anwen-
dung. Springer, 1999.
[124] D UANN , J.; J UNG , T.; K UO, W.; Y EH , T.; M AKEIG , S.; H SIEH , J.; S EJNOWSKI , T.: Measuring the
Variability of Event-Related Bold Signal. In: Proc., 3rd International Conference on Independent
Component Analysis and Blind Signal Separation, S. 528–533, 2001.
329
[125] D UNCAN , J.; AYACHE , N.: Medical Image Analysis: Progress over Two Decades and the Chal-
lenges Ahead. IEEE Transactions on Pattern Analysis and Machine Intelligence 22(1) (2000),
S. 85–105.
[126] D UNG , L. T.; OTTO, P.: FuzzyOpt – ein Werkzeug zum Entwurf optimaler Fuzzy-Systeme. at -
Automatisierungstechnik 45(11) (1997), S. 555–556.
[127] E FRON , B.; T IBSHIRANI , R.: Cross-Validation and the Bootstrap: Estimating the Error Rate of a
Prediction Rule. Techn. Ber. TR-477, Dept. of Statistics, Stanford University, 1995.
[128] E L -N AQA , I.; YANG , Y.; W ERNICK , M.; G ALATSANOS , N.; N ISHIKAWA , R.: A Support Vector
Machine Approach for Detection of Microcalcifications. IEEE Transactions on Medical Imaging
21(12) (2002), S. 1552–1563.
[129] E LLENIUS , J.; G ROTH , T.: Methods for Selection of Adequate Neural Network Structures with
Application to Early Assessment of Chest Pain Patients by Biochemical Monitoring. International
Journal of Medical Informatics 57 (2-3) (2000), S. 18–202.
[130] E NGLEHART, K.; H UDGINS , B.; C HAN , A.: Continuous Multifunction Myoelectric Control using
Pattern Recognition. Technology and Disability 15 (2003), S. 95–103.
[131] E NGLEHART, K.; H UDGINS , B.; PARKER , P.: A Wavelet-Based Continuous Classification Sche-
me for Multifunctional Myoelectric Control. IEEE Transactions on Biomedical Engineering 48(3)
(2001), S. 302–311.
[132] E RIKSSON , L.; S EBELIUS , F.; B ALKENIUS , C.: Neural Control of a Virtual Prosthesis. In: Proc.,
International Conference on Artificial Neural Networks, S. 905–910, Berlin: Springer, 1998.
[133] FAYYAD, U.; P IATETSKY-S HAPIRO, G.; S MYTH , P.: From Data Mining to Knowledge Discovery
in Databases. AI Magazine 17 (1996), S. 37–54.
[134] F ERREZ , P. W.; M ILLÁN , J.: You are Wrong!—Automatic Detection of Interaction Errors from
Brain Waves. In: Proc., 19th Joint International Conference on Artificial Intelligence, Edinburgh,
UK, 2005.
[135] F INK , E.; KOKKU, P.; N IKIFOROU, S.; H ALL , L.; G OLDGOF, D.; K RISCHER , J.: Selection of
Patients for Clinical Trials: An Interactive Web-Based System. Artificial Intelligence in Medicine
31(3) (2004), S. 241–254.
[136] F LETCHER , R.: Practical Methods of Optimization. Chichester: John Wiley, 1987.
[137] F REER , T.; U LISSEY, M.: Screening Mammography with Computer-Aided Detection: Prospecti-
ve Study of 12860 Patients in a Community Breast Center. Radiology 220 (2001), S. 781–786.
[138] F REUND, Y.; S CHAPIRE , R. E.: Experiments with a New Boosting Algorithm. In: Proc., Interna-
tional Conference on Machine Learning, S. 148–156, 1996.
[139] F RIEDMAN , J.: Regularized Discriminant Analysis. Journal of the American Statistical Associa-
tion 84 (1989), S. 165–175.
[140] F RITSCH , M.: Baumorientierte Regel-Induktionsstrategie für das ROSA-Verfahren zur Model-
lierung komplexer dynamischer Systeme. Dissertation, Universität Dortmund, VDI-Verlag, Düs-
seldorf, 1996.
[141] F ÜRNKRANZ , J.: Separate-and-Conquer Rule Learning. Artificial Intelligence Review 13 (1)
(1999), S. 1–46.
[142] G ERNER , H. J.: Die Querschnittlähmung. Erstversorgung. Behandlungsstrategie. Rehabilitati-
on. Blackwell Wissenschafts-Verlag, 1992.
[143] G LASS , J. O.; R EDDICK , W. E.: Hybrid Artificial Neural Network Segmentation and Classifica-
tion of Dynamic Contrast-Enhanced MR Imaging (DEMRI) of Osteosarcoma. Magnetic Reso-
nance Imaging 16 (9) (1998), S. 1075–1083.
330
[144] G ÖRTZ , P.: Implementierung und Spezifizierung von Mensch-Maschine-Schnittstellen für den
Einsatz in Handprothesen. Diplomarbeit, Universität Karlsruhe, 2006.
[145] G RÖLL , L.: Parameterrestriktionen bei der Identifikation am Beispiel des LSQ-Problems (Least
Squares with a Single Quadratic Constraint). at - Automatisierungstechnik 52(1) (2004), S. 46–
53.
[146] G RUBE , M.; M IKUT, R.; A LBER , T.; J AGIELLA , M.; B RETTHAUER , G.: A Self-Tuning and
Process-Specific Approach in Sensor Lifetime Prediction. In: Proc., Eurosens, Dresden, 2008.
[147] G UGGENMOOS , I.; W ERNECKE , K. D.: Medizinische Statistik. Blackwell, 1996.
[148] G UYON , I.; W ESTON , J.; B ARNHILL , S.; VAPNIK , V.: Gene Selection for Cancer Classification
using Support Vector Machines. Machine Learning 46 (2002), S. 389–422.
[149] H AGBERG , G.: From Magnetic Resonance Spectroscopy to Classification of Tumors. A Review
of Pattern Recognition Methods. NMR in Biomedicine 11 (4-5) (1997), S. 148–156.
[150] H AMMER , B.; V ILLMANN , T.: Generalized Relevance Learning Vector Quantization. Neural Net-
works 15(8-9) (2002), S. 1059–1068.
[151] H ANSEN , M. H.; Y U, B.: Model Selection and the Principle of Minimum Description Length.
Journal of the American Statistical Association 96(454) (2001), S. 746–774.
[152] H ARTUNG , J.; E LPELT, B.; K LÖSENER , K.-H.: Lehr- und Handbuch der Angewandten Statistik.
München: Oldenbourg, 11. Aufl., 1998.
[153] H ASTIE , T.; T IBSHIRANI , R.: Discriminant Adaptive Nearest Neighbor Classification and Re-
gression. In: Advances in Neural Information Processing Systems (TOURETZKY, D. S.; M OZER ,
M. C.; H ASSELMO, M. E., Hg.), S. 409–415, The MIT Press, 1996.
[154] H ASTIE , T.; T IBSHIRANI , R.: Classification by Pairwise Coupling. Annals of Statistics 26(2)
(1998), S. 451–471.
[155] H AUX , R.; A MMENWERTH , E.; H ERZOG , W.; K NAUP, P.: Health Care in the Information Society.
A Prognosis for the Year 2013. International Journal of Medical Informatics 66(1-3) (2002),
S. 3–21.
[156] H AYASHI , I.; M AEDA , T.; B ASTIAN , A.; J AIN , L. C.: Generation of Fuzzy Decision Trees by Fuzzy
ID3 with Adjusting Mechanism of AND/OR Operators. In: Proc., IEEE International Conference
on Fuzzy Systems, S. 681–685, Piscataway, NJ, 1998.
[157] H AYASHI , Y.; S ETIONO, R.; YOSHIDA , K.: A Comparison between Two Neural Network Rule
Extraction Techniques for the Diagnosis of Hepatobiliary Disorders. Artificial Intelligence in Me-
dicine 20(3) (2000), S. 205–216.
[158] H AYKIN , S.: Neural Networks: A Comprehensive Foundation. Upper Saddle River, NJ: Prentice
Hall, 1994.
[159] H EATH , M.; B OWYER , K.; KOPANS , D.; M OORE , R.; K EGELMEYER , P.: The Digital Database
for Screening Mammography. In: Proc., 5th International Workshop on Digital Mammography,
Toronto, Canada: Medical Physics Publishing, 2000.
[160] H EINECKE , A.; H ULTSCH , E.; R EPGES , R.: Medizinische Biometrie. Springer, 1992.
[161] H ERBERTS , P.; A LMSTROEM , C.; C AINE , K.: Clinical Application Study of Multifunctional Pros-
thetic Hands. Journal of Bone and Joint Surgery 60-B (4) (1978), S. 552–560.
[162] H ERBST, M.: Entwicklung und Evaluierung von Trainingsparadigmen für den Entwurf von
Mensch-Maschine-Schnittstellen. Studienarbeit, Universität Karlsruhe, 2006.
[163] H ERRERA , F.; L OZANO, M.; V ERDEGAY, J. L.: A Learning Process for Fuzzy Control Rules
using Genetic Algorithms. Fuzzy Sets and Systems 100 (1998), S. 143–158.
331
[164] H ILL , A. B.: Statistical Methods in Clinical and Preventive Medicine. Edinburgh: Churchill Li-
vingstone, 1962.
[165] H ILLMAN , G. R.; C HANG , C.-W.; Y ING , H. Y.; Y EN , J.; K ETONEN , L.; K ENT, T. A.: A Fuz-
zy Logic Approach to Identifying Brain Structures in MRI using Expert Anatomic Knowledge.
Computers and Biomedical Research 32(6) (1999), S. 503–516.
[166] H ILTNER , J.: Ein CI-unterstütztes Rahmenmodell für die medizinische Bildanalyse. Dissertation,
Universität Dortmund, 2001.
[167] H INTERBERGER , T.; W ILHELM , B.; M ELLINGER , J.; KOTCHOUBEY, B.; B IRBAUMER , N.: A De-
vice for the Detection of Cognitive Brain Functions in Completely Paralyzed or Unresponsive
Patients. IEEE Transactions on Biomedical Engineering 52(2) (2005), S. 211 – 220.
[168] H IRSCH , D. E.: An Expert System for Diagnosing Gait for Cerebral Palsy Patients. Techn. Ber.
LCS/TR-388, MIT, 1987.
[169] H OCHBERG , L. R.; S ERRUYA , M. D.; F RIEHS , G. M.; M UKAND, J. A.; S ALEH , M.; C APLAN ,
A. H.; B RANNER , A.; C HEN , D.; P ENN , R. D.; D ONOGHUE , J. P.: Neuronal Ensemble Control
of Prosthetic Devices by a Human with Tetraplegia. Nature 442 (2006), S. 164–171.
[170] H ODGKIN , A.; H UXLEY, A.: A Quantitative Description of Membrane Current and its Application
to Conduction and Excitation in Nerve. The Journal of Physiology 117(4) (1952), S. 500–544.
[171] H OFFMANN , F.: Combining Boosting and Evolutionary Algorithms for Learning of Fuzzy Classi-
fication Rules. Fuzzy Sets and Systems 141 (2004), S. 47–58.
[172] H OFFMANN , F.; N ELLES , O.: Genetic Programming for Model Selection of TSK-Fuzzy Systems.
Information Sciences 136 (1-4) (2001), S. 7–28.
[173] H OFFMANN , F.; P FISTER , G.: Optimierung hierarchischer Fuzzy-Regler mit Genetischen Al-
gorithmen. In: Fuzzy Logik: Theorie und Praxis, Proc., 4. Dortmunder Fuzzy-Tage, S. 97–89,
Berlin: Springer, 1994.
[174] H OLLAND, H. J.: Adaptation in Natural and Artificial Systems. Ann Arbor: The University of
Michigan Press, 1975.
[175] H OLLAND, J. H.; H OLYOAK , K. J.; N ISBETT, K. J.; T HAGARD, P. R.: Induction: Processes of
Inference. Cambridge, MA: MIT Press, 1986.
[176] H OLVE , R.: “The curse of Dimensionality” – und was man dagegen tun kann . . . Hierarchische
Fuzzy Systeme zur Musterklassifikation. In: Proc., 8. Workshop Fuzzy Control des GMA-FA
5.22, S. 195–208, 1998.
[177] H OLZREITER , S.; KOHLE , M.: Assessment of Gait Patterns using Neural Networks. Journal of
Biomechanics 26 (1993) 6, S. 645–651.
[178] H ONG , T. P.; T SENG , S. S.: A Generalised Version Space Learning Algorithm for Noisy and
Uncertain Data. IEEE Transactions on Knowledge and Data Engineering 9 (1997), S. 336–340.
[179] H ONG , X.; H ARRIS , C.; C HEN , S.; S HARKEY, P.: Robust Nonlinear Model Identification Methods
using Forward Regression. IEEE Transactions on Systems, Man, and Cybernetics, Part A, 33(4)
(2003), S. 514–523.
[180] H ÖPPNER , F.; K LAWONN , F.; K RUSE , R.: Fuzzy Cluster Analysis. New York: John Wiley, 1999.
[181] H ORVATH , A. R.; P EWSNER , D.: Systematic Reviews in Laboratory Medicine: Principles, Pro-
cesses and Practical Considerations. Clinica Chimica Acta 342 (1-2) (2004), S. 23–39.
[182] H OWE , H. D.; C UTKOSKY, M. R.: Sensing Skin Acceleration for Slip and Texture Perception. In:
Proc., IEEE International Conference on Robotics and Automation, Scottsdale, Arizona, USA,
S. 145–150, 1989.
332
[183] H UDGINS , B.; PARKER , P.; S COTT, R.: A New Strategy for Multifunction Myoelectric Control.
IEEE Transactions on Biomedical Engineering 40 (1993), S. 82–94.
[184] H YVÄRINEN , A.: Survey on Independent Component Analysis. Neural Computing Surveys 2
(1999), S. 94–128.
[185] I DEKER , T.; L AUFFENBURGER , D.: Building with a Scaffold: Emerging Strategies for High- to
Low-Level Cellular Modeling. Trends in Biotechnology 21(6) (2003), S. 255–262.
[186] I KEDA , S.; TOYAMA , K.: Independent Component Analysis for Noisy Data - MEG Data Analysis.
Neural Networks 13(10) (2000), S. 1063–1074.
[187] I NMANN , A.; H AUGLAND, M.; H AASE , J.; B IERING -S ORENSEN , F.; S INKJAER , T.: Signals from
Skin Mechanoreceptors Used in Control of a Hand Grasp Neuroprosthesis. Neuroreport 12(13)
(2001), S. 2817–2820.
[188] J ÄKEL , J.: Linguistische Fuzzy-Systeme mit verallgemeinerten Konklusionen und ihre Anwen-
dung zur Modellbildung und Regelung. Dissertation, Universität Karlsruhe, VDI-Verlag, Düssel-
dorf, 1999.
[189] J ÄKEL , J.; G RÖLL , L.: Schätzung der bedingten Wahrscheinlichkeit unscharfer Ereignisse. In:
Proc., 11. Workshop Fuzzy Control des GMA-FA 5.22, Dortmund, S. 172–188, Forschungszen-
trum Karlsruhe (FZKA 6660), 2001.
[190] J ÄKEL , J.; G RÖLL , L.; M IKUT, R.: Bewertungsmaße zum Generieren von Fuzzy-Regeln un-
ter Beachtung linguistisch motivierter Restriktionen. In: Proc., 8. Workshop Fuzzy Control des
GMA-FA 5.22, S. 15–28, 1998.
[191] J ÄKEL , J.; G RÖLL , L.; M IKUT, R.: Tree-Oriented Hypothesis Generation for Interpretable Fuzzy
Rules. In: Proc., 7th European Congress on Intelligent Techniques and Soft Computing EU-
FIT’99, S. 279–280, Aachen, CD-ROM, 1999.
[192] J ÄKEL , J.; M IKUT, R.; B RETTHAUER , G.: Fuzzy Control Systems. In: Controls Systems, Ro-
botics, and Automation, edited by H. Unbehauen, in Encyclopedia of Life Support Systems
(EOLSS), Developed under the Auspices of the UNESCO, Eolss Publishers, Oxford, UK, 2003.
[193] J AKOB , W.: Eine neue Methodik zur Erhöhung der Leistungsfähigkeit Evolutionärer Algorithmen
durch die Integration lokaler Suchverfahren. Dissertation, Universität Karlsruhe, Forschungs-
zentrum Karlsruhe (FZKA 6965), 2004.
[194] J ANG , J.-S. R.: ANFIS: Adaptive-Network-Based Fuzzy Inference Systems. IEEE Transactions
on Systems, Man, and Cybernetics 23 (1993) 3, S. 665–685.
[195] J ANG , J.-S. R.: Structure Determination in Fuzzy Modeling: A Fuzzy CART Approach. In: Proc.,
IEEE International Conference on Fuzzy Systems, S. 480–485, Orlando, Florida, 1994.
[196] J ANIKOW, C. Z.: Fuzzy Processing in Decision Trees. In: Proc., International Symposium on
Artificial Intelligence, S. 360–367, Monterrey, 1993.
[197] J ANIKOW, C. Z.: Fuzzy Decision Trees: Issues and Methods. IEEE Transactions on Systems,
Man, and Cybernetics 28(1) (1998), S. 1–14.
[198] J ELLINGER , K.: Neurodegenerative Erkrankungen (ZNS) - Eine aktuelle Übersicht. Journal für
Neurologie, Neurochirurgie und Psychiatrie 6(1) (2005), S. 9–18.
[199] J ENSEN , E.; N EBOT, A.; C AMINAL , P.; H ENNEBERG , S.: Identification of Causal Relations bet-
ween Haemodynamic Variables, Auditory Evoked Potentials and Isoflurane by Means of Fuzzy
Logic. British Journal of Anaesthesia 82(1) (1999), S. 25–32.
[200] J IN , Y.; VON S EELEN , W.; S ENDHOFF , B.: An Approach to Rule-Based Knowledge Extraction.
In: Proc., IEEE Conference on Fuzzy Systems, S. 1188–1193, Anchorage, Alaska, 1998.
[201] K AELBLING , L. P.; L ITTMAN , M. L.; M OORE , A. W.: Reinforcement Learning: A Survey. Journal
of Artificial Intelligence Research 4 (1996), S. 237–285.
333
[202] K ALATZIS , I.; P ILIOURAS , N.; V ENTOURAS , E.; PAPAGEORGIOU, C. C.; R ABAVILAS , A. D.; C A -
VOURAS , D.: Design and Implementation of an SVM-Based Computer Classification System for
Discriminating Depressive Patients from Healthy Controls using the P600 Component of ERP
Signals. Computer Methods and Programs in Biomedicine 75(1) (2004), S. 11–22.
[203] K ALRA , L.; E VANS , A.; P EREZ , I.; K NAPP, M.; D ONALDSON , N.; S WIFT, C.: Alternative Stra-
tegies for Stroke Care: A Prospective Randomised Controlled Trial. The Lancet 356 (2000),
S. 894–899.
[204] K ÄLVIÄINEN , H.; H IRVONEN , P.; X U, L.; O JA , E.: Probabilistic and Non-Probabilistic Hough
Transforms: Overview and Comparisons. Image and Vision Computing 13(4) (1995), S. 239–
252.
[205] K AMPAS , P.: Myoelektroden - optimal eingesetzt. Medizinisch Orthopädische Technik 1 (2001),
S. 21–27.
[206] K ANDASWAMY, A.; K UMAR , C. S.; R AMANATHAN , R.; J AYARAMAN , S.; M ALMURUGAN , N.:
Neural Classification of Lung Sounds using Wavelet Coefficients. Computers in Biology and
Medicine 34 (2004), S. 523–537.
[207] K ARR , C. L.: Design of an Adaptive Fuzzy Logic Controller using a Genetic Algorithm. In: Proc.,
International Conference on Genetic Algorithms, S. 450–457, San Mateo, 1991.
[208] K ARSSEMEIJER , N.: Adaptive Noise Equalization and Recognition of Microcalcification Clus-
ters in Mammograms. International Journal of Pattern Recognition and Artificial Intelligence
(IJPRAI) 7(6) (1993), S. 1357–1376.
[209] K ARSSEMEIJER , N.; H ENDRIKS , J. H. C. L.: Computer-Assisted Reading of Mammograms.
European Radiology 7(5) (1997), S. 743–748.
[210] K ELLER , H. B.: Learning Rules for Modelling Dynamic Systems Behaviour. In: Proc., EURO-
SIM’95, S. 1205–1210, Amsterdam: Elsevier Science, 1995.
[211] K ENNEDY, P.; K IRBY, M.; M OORE , M.; K ING , B.; M ALLORY, A.: Computer Control using Human
Intracortical Local Field Potentials. IEEE Transactions on Neural Systems and Rehabilitation
Engineering 12(3) (2004), S. 339–344.
[212] K IENDL , H.: Fuzzy Control methodenorientiert. München: Oldenbourg, 1997.
[213] K IM , J.; PARK , H.: Statistical Textural Features for Detection of Microcalcifications in Digitized
Mammograms. IEEE Transactions on Medical Imaging 18(3) (1999), S. 231–238.
[214] K IVINIEMI , V.; K ANTOLA , J.-H.; J AUHIAINEN , J.; H YVÄRINEN , A.; T ERVONEN , O.: Indepen-
dent Component Analysis of Nondeterministic fMRI Signal Sources. Neuroimage 19 (2) (2003),
S. 253–260.
[215] K LAWONN , F.; H ÖPPNER , F.: An Alternative Approach to the Fuzzifier in Fuzzy Clustering to
Obtain Better Clustering Results. In: Proc., 3rd Eusflat Conference, S. 730–734, Hochschule
Zittau, 2003.
[216] K LIR , G. J.: Generalized Information Theory: Aims, Results, and Open Problems. Reliability
Engineering & System Safety 85 (1-3) (2004), S. 21–38.
[217] K LOSE , A.: Partially Supervised Learning of Fuzzy Classification Rules. Dissertation, Universi-
tät Magdeburg, 2004.
[218] K LOSE , A.; N ÜRNBERGER , A.: Applying Boolean Transformations to Fuzzy Rule Bases. In:
Proc., 7th European Congress on Intelligent Techniques and Soft Computing EUFIT’99, S. 215–
217, Aachen, 1999.
[219] K NOTT, V.; M AHONEY, C.; K ENNEDY, S.; E VANS , K.: EEG Power, Frequency, Asymmetry and
Coherence in Male Depression. Psychiatry Research: Neuroimaging 106(2) (2001), S. 123–
140.
334
[220] KOCH , M.; K UHN , T.; W ERNSTEDT, J.: Fuzzy Control: Optimale Nachbildung und Entwurf opti-
maler Entscheidungen. München: Oldenbourg, 1996.
[221] KOHONEN , T.: Self-Organizing Maps. Berlin: Springer, 1995.
[222] KOHONEN , T.: Learning Vector Quantization. MIT Press Cambridge, MA, USA, 1998.
[223] KOHONEN , T.: The Self-Organizing Map. Neurocomputing 21(1-3) (1998), S. 1–6.
[224] KOSTOFF , R. N.; B LOCK , J. A.; S TUMP, J. A.; P FEIL , K. M.: Information Content in Medline
Record Fields. International Journal of Medical Informatics 73(6) (2004), S. 515–527.
[225] K RABS , M.; K IENDL , H.: Automatische Generierung von Fuzzy-Regeln mit dem ROSA-
Verfahren. In: Proc., Fuzzy-Control, GMA-Aussprachetag, Langen, VDI-Bericht 1113, S. 29–40,
Düsseldorf: VDI-Verlag, 1994.
[226] K RAUT, D.: Entwicklung einer Testumgebung für mikrocontroller-basierte Steuerungen von
myoelektrischen Handprothesen. Diplomarbeit, Berufsakademie Karlsruhe, Forschungszen-
trum Karlsruhe, 2003.
[227] K REMLING , A.; J AHREIS , K.; L ENGELER , J. W.; G ILLES , E. D.: The Organization of Metabolic
Reaction Networks: A Signal-Oriented Approach to Cellular Models. Metabolic Engineering 2(3)
(2000), S. 190–200.
[228] K RONE , A.: Datenbasierte Generierung von relevanten Fuzzy-Regeln zur Modellierung von
Prozesszusammenhängen und Bedienstrategien. Dissertation, Universität Dortmund, VDI-
Verlag, Düsseldorf, 1999.
[229] K RONE , A.; B ÄCK , T.; T EUBER , P.: Evolutionäres Suchkonzept zum Aufstellen signifikanter
Fuzzy-Regeln. at - Automatisierungstechnik 44(8) (1996), S. 405–411.
[230] K RONE , A.; K IENDL , H.: Automatic Generation of Positive and Negative Rules for Two-Way Fuz-
zy Controllers. In: Proc., 2nd European Congress on Intelligent Techniques and Soft Computing
EUFIT’94, S. 438–442, Aachen, 1994.
[231] K RONE , A.; K IENDL , H.: An Evolutionary Concept for Generating Relevant Fuzzy Rules from
Data. International Journal of Knowledge-based Intelligent Engineering Systems 1(4) (1997),
S. 207–213.
[232] K RONE , A.; TAEGER , H.: Data-Based Fuzzy Rule Test for Fuzzy Modelling. Fuzzy Sets and
Systems 123(3) (2001), S. 343–358.
[233] K RÜGER , T.; R EISCHL , M.; L AGO, N.; B URMEISTER , O.; M IKUT, R.; RUFF , R.; H OFFMANN , K.-
P.; N AVARRO, X.; S TIEGLITZ , T.: Analysis of Microelectrode-Signals in the Peripheral Nervous
System, In-Vivo and Post-Processing. In: Proc., Mikrosystemtechnik Kongress Deutschland, S.
69–72, Freiburg: VDE-Verlag, 2005.
[234] K RUSE , R.; G EBHARDT, J.; K LAWONN , F.: Fuzzy-Systeme. Stuttgart: B. G. Teubner, 1993.
[235] K ULLBACK , S.; L EIBLER , R. A.: Information and Sufficiency. Annals of Mathematics and Stati-
stics 22 (1951), S. 79–86.
[236] K UMAR , N.; A NDREOU, A. G.: Heteroscedastic Discriminant Analysis and Reduced Rank
HMMs for Improved Speech Recognition. Speech Communication 26(4) (1998), S. 283–297.
[237] K UNCHEVA , L. I.: Switching between Selection and Fusion in Combining Classifiers: An Ex-
periment. IEEE Transactions on Systems, Man, and Cybernetics – Part B: Cybernetics 32(2)
(2002), S. 146–156.
[238] K UNZ , H.; D ERZ , C.; TOLXDORFF , T.; B ERNARDING , J.: Feature Extraction and Supervised
Classification of MR Images to Support Proton Radiation Therapy of Eye Tumors. Computer
Methods and Programs in Biomedicine 73(3) (2004), S. 173–260.
335
[239] K VASNICKA , H. M.; T HIELE , J.; W ERDEN , C.; Z ANKOVICH , R.; D IEHL , V.; F ISCHER , R.: Pro-
gnostic Factors in Idiopathic (Primary) Osteomyelofibrosis. Cancer 80 (4) (1997), S. 708–719.
[240] K YBERD, P. J.; C HAPPELL , P. H.: Characterization of an Optical and Acoustic Touch and Slip
Sensor for Autonomous Manipulation. Measuring Science & Technology 3 (1992), S. 969–975.
[241] L AL , T.; S CHRÖDER , M.; H INTERBERGER , T.; W ESTON , J.; B OGDAN , M.; B IRBAUMER , N.;
S CHÖLKOPF, B.: Support Vector Channel Selection in BCI. IEEE Transactions on Biomedical
Engineering 51(6) (2004), S. 1003–1010.
[242] L AMPERT, U.; B UNGART, B.; A RNDT, S.; T HOMECZEK , C.; O LLENSCHLÄGER , G.: Der Online-
Informationsdienst ”LEITLINIEN-IN-FO” – ein Beitrag zum Qualitätsmanagement im Gesund-
heitswesen. Zeitschrift für ärztliche Fortbildung und Qualitätssicherung 99 (1999), S. 39–44.
[243] L AUER , R. T.; P ECKHAM , P.; K ILGORE , K. L.: EEG-Based Control of a Hand Grasp Neuropros-
thesis. Neuroreport 10(8) (1999), S. 1767–1771.
[244] L AUER , R. T.; P ECKHAM , P. H.; K ILGORE , K. L.; H EETDERKS , W. J.: Applications of Corti-
cal Signals to Neuroprosthetic Control: A Critical Review. IEEE Transactions on Rehabilitation
Engineering 8(2) (2000), S. 205–208.
[245] L AVRAC, N.: Selected Techniques for Data Mining in Medicine. Artificial Intelligence in Medicine
16 (1999), S. 3–23.
[246] L EHMANN , T.; M EYER ZU B EXTEN , E.: Handbuch der Medizinischen Informatik. München:
Hanser-Verlag, 2002.
[247] L EITICH , H.; K IENER , P.; KOLARZ , G.; S CHUH , C.; G RANINGER , W.; A DLASSNIG , K.-P.: A
Prospective Evaluation of the Medical Consultation System CADIAG-II/RHEUMA in a Rheuma-
tological Outpatient Clinic. Methods of Information in Medicine 20 (2001), S. 213–220.
[248] L EMM , S.; S CHÄFER , C.; C URIO, G.: BCI Competition 2003 – Data Set III: Probabilistic Mode-
ling of Sensorimotor µ Rhythms for Classification of Imaginary Hand Movements. IEEE Trans-
actions on Biomedical Engineering 51(6) (2004), S. 1077–1080.
[249] L EMM , S.; S CHÄFER , C.; C URIO, G.: Aggregating Classification Accuracy across Time: App-
lication to Single Trial EEG. Advances In Neural Information Processing Systems 19 (2007),
S. 825.
[250] L IGHT, C.; C HAPPELL , P.; H UDGINS , B.; E NGLEHART, K.: Intelligent Multifunction Myoelectric
Control of Hand Prostheses. Journal of Medical Engineering & Technology, UK: Taylor & Francis
26(4) (2002), S. 139–146.
[251] L IN , C.; W EN , U.: A Labeling Algorithm for the Fuzzy Assignment Problem. Fuzzy Sets and
Systems 142(3) (2004), S. 373–391.
[252] L INES , G. T.; K AVLI , T.: The Equivalence of Spline Models and Fuzzy Logic Applied to Model
Construction and Interpretation, Kap. 11. Singapore: World Scientific, 1996.
[253] L IPOVEI , M.: Evaluation of Biometric Signal Characteristics for Movement Classification. Di-
plomarbeit, Universität Bukarest, Forschungszentrum Karlsruhe, 2004.
[254] L ISBOA , P. J. G.: A Review of Evidence of Health Benefit from Artificial Neural Networks in
Medical Intervention. Neural Networks 15(1) (2002), S. 11–39.
[255] L IU, J.; S HIFFMAN , R.: Operationalization of Clinical Practice Guidelines using Fuzzy Logic. In:
Proc., AMIA Annual Fall Symposium, S. 283–287, 1997.
[256] L JUNG , L.: System Identification - Theory for the User. Prentice Hall, 1999.
[257] L OEB , G. E.; DAVOODI , R.: The Functional Reanimation of Paralyzed Limbs. IEEE Engineering
in Medicine and Biology 24(5) (2005), S. 45–51.
336
[258] L OOSE , T.: Konzept für eine modellgestützte Diagnostik mittels Data Mining am Beispiel der
Bewegungsanalyse. Dissertation, Universität Karlsruhe, Universitätsverlag Karlsruhe, 2004.
[259] L OOSE , T.; D IETERLE , J.; M IKUT, R.; RUPP, R.; A BEL , R.; S CHABLOWSKI , M.; B RETTHAUER ,
G.; G ERNER , H. J.: Automatisierte Interpretation von Zeitreihen am Beispiel von klinischen
Bewegungsanalysen. at - Automatisierungstechnik 52 (2004), S. 359–369.
[260] L OOSE , T.; J ÄKEL , J.; M IKUT, R.: Datenbasierte Generierung natürlichsprachlicher Erklärungs-
texte am Beispiel der Instrumentellen Ganganalyse. In: Proc., 12. Workshop Fuzzy Systeme,
S. 43–57, Forschungszentrum Karlsruhe (FZKA 6767), 2002.
[261] L OOSE , T.; M ALBERG , H.; M IKUT, R.; D IETERLE , J.; S CHABLOWSKI , M.; W OLF, S.; A BEL , R.;
D ÖDERLEIN , L.; RUPP, R.: Ein modulares Verfahren zur automatisierten Auswertung von Gang-
analysedaten. Biomedizinische Technik 47(E1) (2002), S. 700–703.
[262] L OOSE , T.; M IKUT, R.; B RETTHAUER , G.: Fuzzy-Clustering über simultan aufgezeichnete
Ganganalyse-Zeitreihen. In: Proc., 13. Workshop Fuzzy Systeme, S. 5–22, Forschungszentrum
Karlsruhe (FZKA 6900), 2003.
[263] L OOSE , T.; M IKUT, R.; RUPP, R.; S CHABLOWSKI , M.: Gait-CAD - A Matlab Toolbox for Applica-
tion of Data Mining Methods in Gait Analysis. Gait & Posture 18(E2) (2003), S. 114–115.
[264] L OSLEVER , P.; L AASSEK , E.; A NGUE , J.-C.: Combined Statistical Study of Joint Angles and
Ground Reaction Forces using Component and Multiple Correspondence Analysis. IEEE Trans-
actions on Biomedical Engineering 41 (1994), S. 1160–1167.
[265] L UCAS , P. J. F.: Model-Based Diagnosis in Medicine. Artificial Intelligence in Medicine 10(3)
(1997), S. 201–208.
[266] L UCHT, R.; D ELORME , S.; B RIX , G.: Neural Network-Based Segmentation of Dynamic MR
Mammographic Images. Magnetic Resonance Imaging 20(2) (2002), S. 147–154.
[267] M ACHADO, A.; G EE , J.; C AMPOS , M.: Structural Shape Characterization Via Exploratory Factor
Analysis. Artificial Intelligence in Medicine 30(2) (2004), S. 97–118.
[268] M AHFOUF, M.; A BBOD, M. F.; L INKENS , D. A.: A Survey of Fuzzy Logic Monitoring and Control
Utilisation in Medicine. Artificial Intelligence in Medicine 21(1-3) (2001), S. 27–42.
[269] M AHFOUF, M.; A SBURY, J.; L INKENS , D. A.: Unconstrained and Constrained Generalised Pre-
dictive Control of Depth of Anaesthesia during Surgery. Control Engineering Practice 11(12)
(2003), S. 1501–1515.
[270] M AINTZ , J. B. A.; V IERGEVER , M. A.: A Survey of Medical Image Registration. Medical Image
Analysis 2(1) (1998), S. 1–36.
[271] M AIR , J.; S MIDT, J.; L ECHLEITNER , P.; D IENSTL , F.; P USCHENDORF, B.: A Decision Tree for the
Early Diagnosis of Acute Myocardial Infarction in Nontraumatic Chest Pain Patients at Hospital
Admission. Chest 108 (1995), S. 1502 – 1509.
[272] M AKEIG , S.; J UNG , T.; B ELL , A.; G HAHREMANI , D.; S EJNOWSKI , T.: Blind Separation of Audito-
ry Event-Related Brain Responses Into Independent Components. In: Proc., National Academy
of Sciences of the United States of America, 94(20), S. 10979–10984, 1997.
[273] M ALBERG , H.: Modellierung, Analyse und Klassifikation von autonomen Regulationsprozessen
des Herz-Kreislauf-Systems. Dissertation, TU Ilmenau, VDI-Verlag, Düsseldorf, 2000.
[274] M ALBERG , H.; W ESSEL , N.; H ASART, A.; O STERZIEL , K.; VOSS , A.: Advanced Analysis of
Spontaneous Baroreflex Sensitivity, Blood Pressure and Heart Rate Variability in Patients with
Dilated Cardiomyopathy. Clinical Science 102(4) (2002), S. 465–473.
[275] M ARTIN , J.: Ein Beitrag zur Integration von Sensoren in eine anthropomorphe künstliche Hand
mit flexiblen Fluidaktoren. Dissertation, Universität Karlsruhe, Universitätsverlag Karlsruhe,
2004.
337
[276] M ARTIN , J.; B ECK , S.; L EHMANN , A.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.; B RETTHAUER ,
G.: Sensors, Identification and Low Level Control of a Flexible Anthropomorphic Robot Hand.
International Journal of Humanoid Robotics 1(3) (2004), S. 517–532.
[277] M ASON , S. G.; B IRCH , G. E.: A General Framework for Brain-Computer Interface Design. IEEE
Transactions on Neural Systems and Rehabilitation Engineering 11(1) (2003), S. 70–85.
[278] M ASULLI , F.; VALENTINI , G.: Comparing Decomposition Methods for Classification. In: Proc.,
4th International Conference on Knowledge-Based Intelligent Engineering Systems and Allied
Technologies, S. 788–791, Piscataway, NJ, 2000.
[279] M AYORAZ , E.; M OREIRA , M.: On the Decomposition of Polychotomies into Dichotomies. In:
Proc., 14th International Conference on Machine Learning, S. 291–226, Nashville, TN: Morgan-
Kaufmann, 1997.
[280] M C I NERNEY, T.; T ERZOPOULOS , D.: Deformable Models in Medical Image Analysis: A Survey.
Medical Image Analysis 1(2) (1996), S. 91–108.
[281] M EGALOOIKONOMOU, V.; F ORD, J.; S HEN , L.; M AKEDON , F.; S AYKIN , A.: Data Mining in Brain
Imaging. Statistical Methods in Medical Research 9(4) (2000), S. 359–394.
[282] M EGALOOIKONOMOU, V.; H ERSKOVITS , E.: Mining Structure-Function Associations in a Brain
Image Database, Bd. 60 von Studies in Fuzziness and Soft Computing, S. 153–180. Heidelberg:
Physica, 2001.
[283] M EHRING , C.; R ICKERT, J.; VAADIA , E.; C ARDOSA DE O LIVEIRA , S.; A ERTSEN , A.; R OTTER ,
S.: Inference of Hand Movements from Local Field Potentials in Monkey Motor Cortex. Nature
Neuroscience 6(12) (2003), S. 1253–1254.
[284] M EYER -B ÄSE , A.: Pattern Recognition for Medical Imaging. Elsevier Academic Press, 2004.
[285] M EYER -G RAMANN , K. D.; J ÜNGST, E.-W.: Fuzzy Control – schnell und kostengünstig imple-
mentiert mit Standard-Hardware. at - Automatisierungstechnik 41 (1993) 5, S. 166–172.
[286] M ICERA , S.; S ABATINI , A.; DARIO, P.; R OSSI , B.: A Hybrid Approach to EMG Pattern Analysis
for Classification of Arm Movements using Statistical and Fuzzy Techniques. Medical Enginee-
ring and Physics 21 (1999), S. 303–311.
[287] M ICHIE , D.; S PIEGELHALTER , D.; TAYLOR , C.: Machine Learning, Neural and Statistical Classi-
fication. Ellis Horwood, 1994.
[288] M IKUT, R.: Fuzzy-Modellbildung für den Benchmarkdatensatz Kfz-Aggregate. In: Proc.,
12. Workshop Fuzzy Systeme, S. 127–134, Forschungszentrum Karlsruhe (FZKA 6767), 2002.
[289] M IKUT, R.: Automatisierte Datenanalyse in der Medizin und Medizintechnik. Habilitation, Uni-
versität Karlsruhe (TH), 2007.
[290] M IKUT, R.; B URMEISTER , O.; G RÖLL , L.; R EISCHL , M.: Takagi-Sugeno-Kang Fuzzy Classifiers
for a Special Class of Time-Varying Systems. IEEE Transactions on Fuzzy Systems (2008),
accepted paper.
[291] M IKUT, R.; B URMEISTER , O.; G RUBE , M.; R EISCHL , M.; B RETTHAUER , G.: Interaktive Auswer-
tung von aufgezeichneten Zeitreihen für Fehlerdiagnosen und Mensch-Maschine-Interfaces.
atp - Automatisierungstechnische Praxis 49(8) (2007), S. 30–34.
[292] M IKUT, R.; B URMEISTER , O.; R EISCHL , M.; L OOSE , T.: Die MATLAB-Toolbox Gait-CAD. In:
Proc., 16. Workshop Computational Intelligence, S. 114–124, Universitätsverlag Karlsruhe,
2006.
[293] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Automatic Design of Interpretable Membership Functions. In:
Proc., 8th Zittau Fuzzy Colloquium, S. 103–111, Hochschule Zittau/Görlitz, 2000.
338
[294] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Inference Methods for Partially Redundant Rule Bases. In:
Fuzzy Control: Theory and Practice (H AMPEL , R.; WAGENKNECHT, M.; C HAKER , N., Hg.), Ad-
vances in Soft Computing, S. 177–185, Heidelberg: Physica, 2000.
[295] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Boolesche Algebra und Fuzzy-Operatoren. In: Proc., 11.
Workshop Fuzzy Control des GMA-FA 5.22, S. 58–72, 2001.
[296] M IKUT, R.; J ÄKEL , J.; G RÖLL , L.: Interpretability Issues in Data-Based Learning of Fuzzy Sys-
tems. Fuzzy Sets and Systems 150(2) (2005), S. 179–197.
[297] M IKUT, R.; J ÄKEL , J.; M ALBERG , H.; B RETTHAUER , G.: Datenbasierter Entwurf von Fuzzy-
Systemen für medizinische Diagnoseaufgaben. at - Automatisierungstechnik 48(7) (2000),
S. 317–326.
[298] M IKUT, R.; KÖNIG , S.; D UMITRIU, B.; B RETTHAUER , G.; G ARBE , J.: Ein Konzept für den Ein-
satz von Fuzzy-Logik zur Regelung und Qualitätssicherung in Stranggießanlagen. In: Proc.,
6. Workshop Fuzzy Control des GMA-UA 1.4.2, S. 113–126, 1996.
[299] M IKUT, R.; K RÜGER , T.; R EISCHL , M.; B URMEISTER , O.; RUPP, R.; S TIEGLITZ , T.: Regelungs-
und Steuerungskonzepte für Neuroprothesen am Beispiel der oberen Extremitäten. at - Auto-
matisierungstechnik 54(11) (2006), S. 523–536.
[300] M IKUT, R.; L OOSE , T.; B URMEISTER , O.; B RAUN , S.; R EISCHL , M.: Dokumentation der
MATLAB-Toolbox Gait-CAD. Techn. Ber., Forschungszentrum Karlsruhe GmbH, 2006.
[301] M IKUT, R.; L OOSE , T.; J ÄKEL , J.: Rule-oriented Information Acquisition from Biological Time
Series in Clinical Decision Making. In: Proc., 10th Fuzzy Colloquium, S. 300–307, 2002.
[302] M IKUT, R.; P ETER , N.; M ALBERG , H.; J ÄKEL , J.; G RÖLL , L.; B RETTHAUER , G.; A BEL , R.;
D ÖDERLEIN , L.; RUPP, R.; S CHABLOWSKI , M.; G ERNER , H.: Diagnoseunterstützung für die in-
strumentelle Ganganalyse (Projekt GANDI). Forschungszentrum Karlsruhe (FZKA 6613), 2001.
[303] M IKUT, R.; R EISCHL , M.; B URMEISTER , O.; L OOSE , T.: Data Mining in Medical Time Series.
Biomedizinische Technik 51(5/6) (2006), S. 288–293.
[304] M ILLAN , J. R.; M OURINO, J.: Asynchronous BCI and Local Neural Classifiers: An Overview of
the Adaptive Brain Interface Project. IEEE Transactions on Neural Systems and Rehabilitation
Engineering 11(2) (2003), S. 159 – 161.
[305] M ILLER , G. A.: Note on the Bias of Information Estimates. In: Information Theory in Psychology
(Q UASTLER , H., Hg.), S. 95–100, Glencoe, Illinois: Free Press, 1955.
[306] M INDER , C.; B EDNARSKI , T.: A Robust Method for Proportional Hazards Regression. Statistics
in Medicine 15 (1996), S. 1033–1047.
[307] M ITRA , S.; H AYASHI , Y.: Neuro-Fuzzy Rule Generation: Survey in Soft Computing Framework.
IEEE Transactions on Neural Networks 11(3) (2000), S. 748–768.
[308] M ITTERMAYER , V.; M ÜLLER , V.; R ASPE , H.: Evidenzbasierte und konsentierte Leitlinie Dia-
gnostik, Prävention und Therapie der glukokortikoidinduzierten Osteoporose. Der Klinikarzt 32
(2003), S. 168–173.
[309] M ORIK , K.; I MBOFF , M.; B ROCKHAUSEN , P.; J OACHIMS , T.; G ATHER , U.: Knowledge Discovery
and Knowledge Validation in Intensive Care. Artificial Intelligence in Medicine 19(3) (2000),
S. 225–249.
[310] M ORIK , K.; P IGEOT, I.; R OBERS , U.: CORA-A Knowledge-Based System for the Analysis of
Case-Control Studies. Computer Methods and Programs in Biomedicine 58 (1) (1999), S. 35–
50.
[311] M OUNIER , S.: Entwicklung einer realitätsnahen Kraftrückkopplung bei fluidisch betriebenen
Handprothesen. Dissertation, Universität Karlsruhe, Forschungszentrum Karlsruhe (FZKA
7004), 2004.
339
[312] M OUNT, D. W.: Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Labora-
tory Press, 2001.
[313] M ÜLLER , G. R.; N EUPER , C.; RUPP, R.; K EINRATH , C.; G ERNER , H. J.; P FURTSCHELLER , G.:
Event-Related Beta EEG Changes during Wrist Movements Induced by Functional Electrical
Stimulation of Forearm Muscles in Man. Neuroscience Letters 340(2) (2003), S. 143–147.
[314] M ÜLLER , H.; M ICHOUX , N.; B ANDON , D.; G EISSBUHLER , A.: A Review of Content-Based Image
Retrieval Systems in Medical Applications - Clinical Benefits and Future Directions. International
Journal of Medical Informatics 73(1) (2004), S. 1–23.
[315] M ÜLLER , K.; TANGERMANN , M.; D ORNHEGE , G.; K RAULEDAT, M.; C URIO, G.; B LANKERTZ , B.:
Machine Learning for Real-Time Single-Trial EEG-Analysis: From Brain–Computer Interfacing
to Mental State Monitoring. Journal of Neuroscience Methods 167(1) (2008), S. 82–90.
[316] M ÜLLER , P. H. (Hg.): Lexikon der Stochastik. Berlin: Akademie-Verlag, 1991.
[317] M ÜLLER , T.; S TOTZKA , R.; N EIBER , H.-J.; E PPLER , W.; G EMMEKE , H.: Bildgebende Verfahren
in der Diagnose des Mammakarzinoms. Nachrichten - Forschungszentrum Karlsruhe 32 (1-2)
(2000), S. 19–26.
[318] M ÜLLER -P UTZ , G. R.; S CHERER , R.; P FURTSCHELLER , G.; RUPP, R.: EEG-Based Neuropros-
thesis Control: A Step Towards Clinical Practice. Neuroscience Letters 382 (2005), S. 169–174.
[319] M URTHY, S. K.; K ASIF, S.; S ALZBERG , S.: A System for Induction of Oblique Decision Trees.
Journal of Artificial Intelligence Research 2 (1994), S. 1–32.
[320] N AKHAEIZADEH , G. (Hg.): Data Mining: theoretische Aspekte und Anwendungen, Bd. 27 von
Beiträge zur Wirtschaftsinformatik. Heidelberg: Physica, 1998.
[321] N AUCK , D.: Fuzzy Data Analysis with NEFCLASS. International Journal of Approximate Rea-
soning 32(2-3) (2003), S. 103–130.
[322] N AUCK , D.; K RUSE , R.: NEFCLASS – a Neuro-Fuzzy Approach for the Classification of Data.
In: Proc., ACM Symposium on Applied Computing, Nashville, S. 461–465, New York: ACM
Press, 1995.
[323] N AVARRO, X.; K RÜGER , T. B.; L AGO, N.; M ICERA , S.; S TIEGLITZ , T.; DARIO, P.: A Critical
Review of Interfaces with the Peripheral Nervous System for the Control of Neuroprostheses
and Hybrid Bionic Systems. Journal of the Peripheral Nervous System 10(3) (2005), S. 229–
258.
[324] N ELLES , O.; F ISCHER , M.: Local Linear Model Trees (LOLIMOT) for Nonlinear System Identifi-
cation of a Cooling Blast. In: Proc., 4th European Congress on Intelligent Techniques and Soft
Computing EUFIT’96, S. 1187–1191, Aachen, 1996.
[325] N ELLES , O.; H ECKER , O.; I SERMANN , R.: Automatische Strukturselektion für Fuzzy-Modelle
zur Identifikation nichtlinearer, dynamischer Prozesse. at - Automatisierungstechnik 46(6)
(1998), S. 302–311.
[326] N EUMANN , A.; H OLSTEIN , J.; G ALL , J.-R. L.; L EPAGE , E.: Measuring Performance in Health
Care: Case-Mix Adjustment by Boosted Decision Trees. Artificial Intelligence in Medicine 32(2)
(2004), S. 97–113.
[327] N EUMANN , J.; M ORGENSTERN , O.: Theory of Games and Economic Behavior. Princeton Uni-
versity Press, 1953.
[328] N EUPER , C.; M ÜLLER , G. R.; K ÜBLER , A.; B IRBAUMER , N.; P FURTSCHELLER , G.: Clinical
Application of an EEG-Based Brain Computer Interface: A Case Study in a Patient with Severe
Motor Impairment. Clinical Neurophysiology 114(3) (2003), S. 399–409.
[329] N EWMAN , D.; H ETTICH , S.; B LAKE , C.; M ERZ , C.: UCI Repository of Machine Learning Data-
bases. University of California, Dept. of Information and Computer Sciences, 1998.
340
[330] N IEDERLAG , W.; R IENHOFF , O.; L EMKE , H. U. (Hg.): Smart Cards in Telemedizinischen Netz-
werken. Health Academy, Dresden, 2004.
[331] N IEDERSTADT, C. J.; D OERING , T. J.; F ISCHER , G. C.: Allgemeinmedizinische Leitlinien-
Entwicklung: Problematik der Dichotomisierenden Algorithmenbildung. Zeitschrift für ärztliche
Fortbildung und Qualität im Gesundheitswesen 95 (2000), S. 561–566.
[332] N IELSEN , F.: Bibliographies on Independent Component Analysis in Functional Neuroimaging.
Techn. Ber., Technical University of Denmark, 2005.
[333] N ISHIKAWA , D.: Studies on Electromyogram to Motion Classifier. Dissertation, Graduate School
of Engineering, Hokkaido University, Sapporo, Japan, 2001.
[334] N.N.: Das Leitlinien-Manual von AWMF und ÄZQ. Zeitschrift für ärztliche Fortbildung und Qua-
litätssicherung E1 (2001), S. 1–84.
[335] N.N.: Computer-Aided Detection (CAD) in Mammography. Techn. Ber. 17, Technology Evalua-
tion Center (TEC), Blue Cross and Blue Shield Association, 2002.
[336] N.N.: Informationsgesellschaft Deutschland 2006 - Aktionsprogramm der Bundesregierung.
Bundesministerium für Wirtschaft und Arbeit, Bundesministerium für Bildung und Forschung,
2003.
[337] N ORRIS , S. L.; N ICHOLS , P. J.; C ASPERSEN , C. J.; G LASGOW, R. E.; E NGELGAU, M. M.;
J ACK , L.; I SHAM , G.; S NYDER , S. R.; C ARANDE -K ULIS , V. G.: The Effectiveness of Disease
and Case Management for People with Diabetes: A Systematic Review. American Journal of
Preventive Medicine 22(4, Suppl.1) (2002), S. 39–66.
[338] N UNES , C.; M AHFOUF, M.; L INKENS , D.: Fuzzy Modelling for Controlled Anaesthesia in Hospital
Operating Theatres. Control Engineering Practice 14(5) (2006), S. 563–572.
[339] N UTT, C.; M ANI , D.; B ETENSKY, R.; ET AL .: Gene Expression-Based Classification of Malignant
Gliomas Correlates Better with Survival than Histological Classification. Cancer Research 63(7)
(2003), S. 1602–1607.
[340] O HLSSON , M.: WeAidU-a Decision Support System for Myocardial Perfusion Images using
Artificial Neural Networks. Artificial Intelligence in Medicine 30(1) (2003), S. 49–60.
[341] O LLENSCHLÄGER , G.; K IRCHNER , H.; F IENE , M.: Leitlinien in der Medizin - scheitern sie an
der praktischen Umsetzung? Der Internist 42 (2001), S. 473–483.
[342] O LNEY, S.; G RIFFIN , M.; M C B RIDE , I.: Multivariate Examination of Data From Gait Analysis of
Persons with Stroke. Physical Therapy 78 (1998), S. 814–828.
[343] O’M ALLEY, M.: Normalization of Temporal-Distance Parameters in Pediatric Gait. Journal of
Biomechanics 25(5) (1996), S. 619–625.
[344] O NIDA , F.; K ANTARJIAN , H. M.; S MITH , T. L.; B ALL , G.; K EATING , M. J.; E STEY, E. H.; G LASS -
MAN , A. B.; A LBITAR , M.; K WARI , M. I.; B ERAN , M.: Prognostic Factors and Scoring Systems
in Chronic Myelomonocytic Leukemia: A Retrospective Analysis of 213 Patients. Blood 99(3)
(2002), S. 840–849.
[345] PANDIT, M.; H ENGEN , H.; H EGER , T.: Bildverarbeitung für Klassifikationsaufgaben in der Medi-
zin und Qualitätssicherung. at - Automatisierungstechnik 50(10) (2002), S. 481–489.
[346] PARSCH , D.; M IKUT, R.; A BEL , R.: Postacute Management of Patients with Spinal Cord Injury
due to Metastatic Tumour Disease: Survival and Efficacy of Rehabilitation. Spinal Cord (Eng-
land) 41(4) (2003), S. 205–10.
[347] P ECKHAM , P. H.; K NUTSON , J. S.: Functional Electrical Stimulation for Neuromuscular Appli-
cations. Annual Review of Biomedical Engineering 7 (2005), S. 327–360.
[348] P ELTONEN , L.; M C K USICK , V. A.: Dissecting Human Disease in the Postgenomic Era. Science
291 (2001), S. 1224–1229.
341
[349] P ERRY, J.: Gait Analysis. Normal and Pathological Function. Thorofare: Slack Inc, 1992.
[350] P ETERSEN , K.; H ANSEN , L.; KOLENDA , T.; R OSTRUP, E.; S TROTHER , S.: On the Independent
Components of Functional Neuroimages. In: Proc., 3rd International Conference on Indepen-
dent Component Analysis and Blind Source Separation (ICA2000), S. 615–620, 2000.
[351] P ETRIDIS , S.; P ERANTONIS , S.: On the Relation between Discriminant Analysis and Mutual
Information for Supervised Linear Feature Extraction. Pattern Recognition 37(5) (2004), S. 857–
874.
[352] P FURTSCHELLER , G.; L OPES DA S ILVA , F. H.: Event-Related EEG/MEG Synchronization and
Desynchronization: Basic Principles. Clinical Neurophysiology 110 (1999), S. 1842–1857.
[353] P FURTSCHELLER , G.; M ÜLLER , G. R.; P FURTSCHELLER , J.; G ERNER , H. J.; RUPP, R.:
’Thought’ - Control of Functional Electrical Stimulation to Restore Hand Grasp in a Patient with
Tetraplegia. Neuroscience Letters 351(1) (2003), S. 33–36.
[354] P FURTSCHELLER , G.; N EUPER , C.; M ÜLLER , G. R.; O BERMAIER , B.; K RAUSZ , G.; S CHLÖGL ,
A.; S CHERER , R.; G RAIMANN , B.; K EINRATH , C.; S KLIRIS , D.; W ÖRTZ , M.; S UPP, G.;
S CHRANK , C.: Graz-BCI: State of the Art and Clinical Applications. IEEE Transactions on Neural
Systems and Rehabilitation Engineering 11(2) (2003), S. 177–180.
[355] P OHLE , R.: Computerunterstützte Bildanalyse zur Auswertung medizinischer Bilddaten. Habili-
tationsschrift, Universität Magdeburg, 2004.
[356] P RIBER , U.; K RETZSCHMAR , W.: Inspection and Supervision by Means of Hierarchical Fuzzy
Classifiers. Fuzzy Sets and Systems 85 (1997), S. 263–274.
[357] P UCHHAMMER , G.: Der taktile Rutschsensor: Integration miniaturisierter Sensorik in einer Myo-
Hand. Orthopädie-Technik 7 (1999), S. 564–569.
[358] P YLATIUK , C.; R EISCHL , M.; M IKUT, R.; K ARGOV, A.; B RETTHAUER , G.: Determination of Sta-
bility in Multi-Contact Grasping. Biomedizinische Technik, Proc. DGBMT (2006).
[359] Q UINLAN , J. R.: Induction of Decision Trees. Machine Learning 1 (1986), S. 81–106.
[360] Q UINLAN , J. R.: Learning with Continuous Classes. In: Proc., 5th Australian Joint Conference
on Artificial Intelligence, S. 343–348, 1992.
[361] Q UINLAN , J. R.: C4.5: Programs for Machine Learning. San Mateo, CA: Morgan Kaufmann,
1993.
[362] R EISCHL , M.: Steuerungskonzept - Prothese. Techn. Ber., Forschungszentrum Karlsruhe,
2002.
[363] R EISCHL , M.: Ein Verfahren zum automatischen Entwurf von Mensch-Maschine-Schnittstellen
am Beispiel myoelektrischer Handprothesen. Dissertation, Universität Karlsruhe, Universitäts-
verlag Karlsruhe, 2006.
[364] R EISCHL , M.; B URMEISTER , O.; M IKUT, R.: Robust Design of Man Machine Interfaces for Time-
Variant Biosignals. Biomedizinische Technik 50(E1) (2005), S. 774–775.
[365] R EISCHL , M.; G RÖLL , L.; M IKUT, R.: Optimierte Klassifikation für Mehrklassenprobleme am
Beispiel der Bewegungssteuerung von Handprothesen. In: Proc., 13. Workshop Fuzzy Syste-
me, S. 124–143, Forschungszentrum Karlsruhe, 2003.
[366] R EISCHL , M.; G RÖLL , L.; M IKUT, R.: EMG-Control of Prostheses by Switch Signals: Extraction
and Classification of Features. In: Proc., IEEE International Conference on Systems, Man and
Cybernetics, S. 94–96, The Hague, 2004.
[367] R EISCHL , M.; G RÖLL , L.; M IKUT, R.: Optimized Classification of Multiclass Problems Applied
to EMG-Control of Hand Prostheses. In: Proc., IEEE International Joint Conference on Neural
Networks, S. 1473–1478, Budapest, 2004.
342
[368] R EISCHL , M.; M IKUT, R.: Validierung hierarchischer Klassifikatoren für Mehrklassenprobleme.
In: Proc., 14. Workshop Fuzzy-Systeme und Computational Intelligence, S. 175–188, Universi-
tätsverlag Karlsruhe, 2004.
[369] R EISCHL , M.; M IKUT, R.: Computational Intelligence in den Lebenswissenschaften: Ro-
bustheitsprobleme bei Mensch-Maschine-Schnittstellen. In: Proc., GMA-Kongress 2007, VDI-
Verlag, 2007.
[370] R EISCHL , M.; M IKUT, R.; B RETTHAUER , G.: Robust Training and Control Strategies for the
Grasp Type Selection of Hand Prostheses. In: Proc., 4th IFAC Symposium on Mechatronic
Systems, Heidelberg, S. 478–483, 2006.
[371] R EISCHL , M.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.: Control Strategies for Hand Prostheses
using Myoelectric Patterns. In: Proc., 9th Zittau Fuzzy Colloquium, S. 168–174, 2001.
[372] R EISCHL , M.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.: Erkennung von Bewegungsabsichten für
myoelektrisch angesteuerte Handprothesen. In: Proc., 11. Workshop Fuzzy Control des GMA-
FA 5.22, S. 106–119, Forschungszentrum Karlsruhe (FZKA 6660), 2001.
[373] R EISCHL , M.; M IKUT, R.; P YLATIUK , C.; S CHULZ , S.; B ECK , S.; B RETTHAUER , G.: Steuerungs-
und Signalverarbeitungskonzepte für eine multifunktionale Handprothese. at - Automatisie-
rungstechnik 50(6) (2002), S. 279–286.
[374] R EISCHL , M.; M IKUT, R.; S CHLÖGL , A.: Comparison of Fuzzy and Statistical Classifiers for
Brain-Computer Interfaces. Biomedizinische Technik 49(E1) (2004), S. 762–763.
[375] R ENOOIJ, S.; W ITTEMAN , C. L. M.: Talking Probabilities: Communicating Probabilistic Infor-
mation with Words and Numbers. International Journal of Approximate Reasoning 22 (1999),
S. 169–194.
[376] R EUTER , H.: Zur Identifikation nichtlinearer Systemmodelle mit wenig A-priori-Informationen.
Dissertation, Universität-GH Duisburg, 1995.
[377] R IES , L.; E ISNER , M.; KOSARY, C.; H ANKEY, B.; M ILLER , B.; C LEGG , L.; M ARIOTTO, A.; EJ,
E. F.; E DWARDS , B.: SEER Cancer Statistics Review, 1975-2001. National Cancer Institute.
Bethesda, MD, [Link] 2004.
[378] R ISO, R. R.; M OSALLAIE , F. K.; J ENSEN , W.; S INKJAER , T.: Nerve Cuff Recordings of Muscle
Afferent Activity from Tibial and Peroneal Nerves in Rabbit during Passive Ankle Motion. IEEE
Transactions on Rehabilitation Engineering 8(2) (2000), S. 244–258.
[379] R ISSANEN , J.: Modeling by Shortest Data Description. Automatica 14 (1978), S. 465–471.
[380] R ISSANEN , J.: Stochastic Complexity in Statistical Inquiry. Singapore: World Scientific, 1989.
[381] R IVES , J.: FID3: Fuzzy Induction Decision Tree. In: Proc., 1st International Symposium Un-
certainty, Modelling and Analysis, S. 457–462, Los Alamitos: IEEE Computer Society Press,
1990.
[382] R OBB , R. A.: The Biomedical Imaging Resource at Mayo Clinic. IEEE Transactions on Medical
Imaging 20(9) (2001), S. 854 – 867.
[383] R ODRIGUES , R.: Information Systems: The Key to Evidence-Based Health Practice. Bulletin of
the World Health Organization 78(11) (2000), S. 1344–1351.
[384] R ODRIGUEZ , J.; G ONI , A.; I LLARRAMENDI , A.: Real-time Classification of ECGs on a PDA.
IEEE Transactions on Information Technology in Biomedicine 9(1) (2005), S. 23–34.
[385] R OETMAN , B.; Z UMTOBEL , V.: Klinische Informationssysteme: Strategien zur Einführung. Deut-
sches Ärzteblatt 98 (14) (2001), S. A892–A894.
[386] R OJAS , R.: Theorie der neuronalen Netze: Eine systematische Einführung. Berlin: Springer,
1996.
343
[387] R OSS , J.; M ASON , D.; L INKENS , D.; E DWARDS , N.: Self-Learning Fuzzy Logic Control of Neu-
romuscular Block. British Journal of Anaesthesia 78(4) (1997), S. 412–415.
[388] R OSSDEUTSCHER , W.: Steuerungsmöglichkeiten in der Armprothetik. Orthopädie-Technik
10(51) (2000), S. 865–868.
[389] R ÜGHEIMER , F.; K RUSE , R.: Datenanalyse-Plattform InformationMiner. In: Proc., 15. Workshop
Computational Intelligence, S. 117–128, Universitätsverlag Karlsruhe, 2005.
[390] RUITER , N.: Registration of X-Ray Mammograms and MR Volumes of the Female Breast Based
on Simulated Mammographic Deformation. Dissertation, Universität Mannheim, 2003.
[391] RUNKLER , T.; R OYCHOWDHURY, S.: Generating Decision Trees and Membership Functions by
Fuzzy Clustering. In: Proc., 7th European Congress on Intelligent Techniques and Soft Compu-
ting EUFIT’99, S. 128–129, Aachen, 1999.
[392] RUPP, R.; A BEL , R.: Funktionelle Rehabilitation von Querschnittgelähmten durch Neuroprothe-
tik. Orthopädie 34 (2005), S. 144–151.
[393] RUPP, R.; M ÜLLER , G.; P FURTSCHELLER , G.; G ERNER , H.: Gedankensteuerung der Greif-
funktion eines Tetraplegikers: I. Funktionelle Elektrostimulation (FES). Biomedizinische Technik
48(E1) (2003), S. 300–301.
[394] RYBAK , I.; S TECINA , K.; S HEVTSOVA , N.; M C C REA , D.: Modelling Spinal Circuitry Involved
in Locomotor Pattern Generation: Insights from the Effects of Afferent Stimulation. Journal of
Physiology 577 (2006), S. 641–658.
[395] S CHABLOWSKI -T RAUTMANN , M.: Konzept zur Analyse der Lokomotion auf dem Laufband bei
inkompletter Querschnittlähmung mit Verfahren der nichtlinearen Dynamik. Dissertation, Uni-
versität Karlsruhe, Universitätsverlag Karlsruhe, 2006.
[396] S CHABLOWSKI -T RAUTMANN , M.; KÖGEL , M.; RUPP, R.; M IKUT, R.; G ERNER , H.: From Dia-
gnostics to Therapy - Conceptional Basis for Realtime Movement Feedback in Rehabilitation
Medicine. Biomedizinische Technik 51(5/6) (2006), S. 299–304.
[397] S CHERER , R.; M ÜLLER , G. R.; N EUPER , C.; G RAIMANN , B.; P FURTSCHELLER , G.: An Asyn-
chronously Controlled EEG-Based Virtual Keyboard: Improvement of the Spelling Rate. IEEE
Transactions on Biomedical Engineering 51(6) (2004), S. 979–984.
[398] S CHLÖGL , A.: Outcome of the BCI-Competition 2003 on the Graz Data Set. In:
[Link] 2003.
[399] S CHLÖGL , A.: The BIOSIG project. [Link] 2003 - 2004.
[400] S CHLÖGL , A.: Tentative Report on the Results of the BCI Competition 2005 for Data Set IIIa
and IIIb. TU Graz, 2005.
[401] S CHLÖGL , A.; N EUPER , C.; P FURTSCHELLER , G.: Estimating the Mutual Information of an
EEG-Based Brain-Computer-Interface. Biomedizinische Technik 47 (1-2) (2002), S. 3–8.
[402] S CHMIDT, F.; S CHAIBLE , H.: Neuro- und Sinnesphysiologie. Berlin: Springer, 2001.
[403] S CHMIDT, R. F.; T HEWS , G.; L ANG , F. (Hg.): Physiologie des Menschen. Springer, 2005.
[404] S CHÖLKOPF, B.; M ÜLLER , K.-R.; S MOLA , A.: Lernen mit Kernen - Support-Vektor-Methoden
zur Analyse hochdimensionaler Daten. Informatik Forschung und Entwicklung 14(3) (1999),
S. 154–163.
[405] S CHÖLLHORN , W. I.: Applications of Artificial Neural Nets in Clinical Biomechanics. Clinical
Biomechanics 19(9) (2004), S. 876–898.
[406] S CHUH , C.; H IESMAYR , M.; K AIPEL , M.; A DLASSNIG , K.-P.: Towards an Intuitive Expert System
for Weaning from Artificial Ventilation. In: Proc., IEEE Annual Meeting NAFIPS, S. 1008–1012,
2004.
344
[407] S CHULZ , K.-D.; A LBERT, U. (Hg.): Stufe-3-Leitlinie Brustkrebsfrüherkennung in Deutschland.
München: W. Zuschwerdt Verlag, 2003.
[408] S CHULZ , S.: Eine neue Adaptiv-Hand-Prothese auf der Basis flexibler Fluidaktoren. Dissertati-
on, Universität Karlsruhe, Shaker-Verlag, 2004.
[409] S CHULZE -W ENDTLAND, R.; S INN , H.-P.: Radiologische Diagnostik des Mammakarzinoms Teil
1: Pathologie und Röntgenmammographie. Der Radiologe 44(5) (2004), S. 517–540.
[410] S CHÜRMANN , J.: Pattern Classification. New York: John Wiley, 1996.
[411] S CHÜRMANN , T.: Bias Analysis in Entropy Estimation. Journal of Physics: Mathematical and
General 37 (2004), S. L295–L301.
[412] S CHUTTE , L.; N ARAYANAN , U.; S TOUT, J.; S ELBER , P.; G AGE , J.; S CHWARTZ , M.: An Index for
Quantifying Deviations from Normal Gait. Gait & Posture 11 (2000), S. 25–31.
[413] S CHÜTTLER , M.; R ISO, R.; DALMOSE , A.; S TEFANIA , D.; S TIEGLITZ , T.: Selective Stimulation
of Pig Radial Nerve: Comparison of 12-Polar and 18-Polar Cuff Electrodes. Biomedizinische
Technik 47(E1) (2002), S. 696–699.
[414] S CHWARTZ , A.; TAYLOR , D.; T ILLERY, S.: Extraction algorithms for cortical control of arm pros-
thetics. Current Opinion in Neurobiology 11(6) (2001), S. 701–708.
[415] S CHWEFEL , H.-P.: Evolution and Optimum Seeking. New York: John Wiley, 1995.
[416] S EBER , G.: Multivariate Observations. New York: John Wiley, 1984.
[417] S EILER , C.; K NAEBEL , H.-P.; W ENTE , M.; R OTHMUND, M.; B ÜCHLER , M.: Plädoyer für mehr
evidenzbasierte Chirurgie. Deutsches Ärzteblatt 101 (2004), S. A338 – A344.
[418] S EISING , R.: Eine kleine Geschichte der Fuzzy-Systeme in der Medizin. In: Proc., 12. Workshop
Fuzzy-Systeme, S. 27–42, Forschungszentrum Karlsruhe (FZKA 6767), 2002.
[419] S ERMESANT, M.; F OREST, C.; P ENNEC, X.; D ELINGETTE , H.; AYACHE , N.: Deformable Bio-
mechanical Models: Application to 4D Cardiac Image Analysis. Medical Image Analysis 7(4)
(2003), S. 475–488.
[420] S ETNES , M.; R OUBOS , J.: GA-Fuzzy Modeling and Classification: Complexity and Performan-
ce. IEEE Transactions on Fuzzy Systems 8(5) (2000), S. 509–522.
[421] S HALALA , D. E.; H ENNEY, J. E.; W OODCOCK , J.; T RENTER , M. L.: From Test Tube to Patient:
Improving Health Through Human Drug. Food and Drug Administration (USA), 1999.
[422] S HANNON , C. E.: A Mathematical Theory of Communication. The Bell System Technical Jour-
nal 27 (1948), S. 379–423.
[423] S HEARER , C.: The CRISP-DM Model: The New Blueprint for Data Mining. Journal of Data
Warehousing 5(4) (2000), S. 13–22.
[424] S HIEH , J. S.; L INKENS , D. A.; P EACOCK , J. E.: Hierarchical Rule-Based and Self-Organizing
Fuzzy Logic Control for Depth of Anaesthesia. IEEE Transactions on Systems, Man, and Cy-
bernetics, Part C: Applications and Reviews 29(1) (1999), S. 98–109.
[425] S INKJAER , T.; H AUGLAND, M.; I NMANN , A.; H ANSEN , M.; N IELSEN , K.: Biopotentials as Com-
mand and Feedback Signals in Functional Electrical Stimulation Systems. Medical Engineering
and Physics 25 (2003), S. 29–40.
[426] S LAWINSKI , T.: Analyse und effiziente Generierung von relevanten Fuzzy-Regeln in hochdi-
mensionalen Suchräumen. Dissertation, Universität Dortmund, VDI-Verlag, Düsseldorf, 2001.
[427] S MITH , B.; S IEBERT, D.: Ontologie und Medizin: Warum benutzen Ärzte keine Computer? Deut-
sches Ärzteblatt 101(11) (2004), S. 18–20.
[428] S MITH , S. F.: A Learning System Based on Genetic Adaptive Systems. Dissertation, University
of Pittsburgh, 1980.
345
[429] S PROULE , B. A.; N ARANJO, C. A.; T ÜRKSEN , I. B.: Fuzzy Pharmacology: Theory and Applica-
tions. Trends in Pharmacological Sciences 23(9) (2002), S. 412–417.
[430] S TADLER , A.: Ein Beitrag zur Ableitung regelbasierter Modelle aus Zeitreihen. Dissertation,
Universität Karlsruhe, Universitätsverlag Karlsruhe, 2005.
[431] S TAPFF , M.: Die Arzneimittelforschung in Deutschland. Deutsche Zeitschrift für Klinische For-
schung 1-2 (2001), S. 24–32.
[432] S TEINMANN , F.: Diagnostic Monitoring of Clinical Time Series. Dissertation, Technische Univer-
sität Wien, 1995.
[433] S TELTZER , H.; T RUMMER , B.; H ÖLTERMANN , W.; KOLOUSEK , G.; F RIDRICH , P.; L EWANDOW-
SKI , K.; A DLASSNIG , K.; H AMMERLE , A.: Wissensbasierte Diagnostik und Therapieempfehlung
mit Methoden der Fuzzy-Set-Theorie bei Patienten mit akutem Lungenversagen (ARDS). An-
ästhesiologie - Intensivmedizin - Notfallmedizin - Schmerztherapie 34 (1999), S. 218 – 223.
[434] S TEPHAN , C.; J UNG , K.; C AMMANN , H.; VOGEL , B.; B RUX , B.; K RISTIANSEN , G.; RUDOLPH ,
B.; H AUPTMANN , S.; L EIN , M.; S CHNORR , D.: An Artificial Neural Network Considerably Impro-
ves the Diagnostic Power of Percent Free Prostate-Specific Antigen in Prostate Cancer Diagno-
sis: Results of a 5-Year Investigation. International Journal of Cancer 99(3) (2002), S. 466–473.
[435] S TEYERBERG , E. W.; E IJKEMANS , M. J.; H ARRELL , F. E.; H ABBEMA , J. D.: Prognostic Mo-
deling with Logistic Regression Analysis: In Search of a Sensible Strategy in Small Data Sets.
Medical Decision Making 21(1) (2001), S. 45–56.
[436] S TIEGLITZ , T.; M EYER , J.-U.: Neural Implants in Clinical Practice. In: BioMEMS (U RBAN , G. A.,
Hg.), S. 41–70, Dordrecht, Springer, 2006.
[437] S TONE , J.: Independent Component Analysis: An Introduction. Trends in Cognitive Sciences
6(2) (2002), S. 59–64.
[438] S TRIETZEL , R.: Fuzzy-Regelung. München: Oldenbourg, 1996.
[439] S UTHERLAND, D.; K AUFMAN , K.; W YATT, M.; C HAMBERS , H.; M UBARAK , S.: Double-Blind Stu-
dy of Botulinum A Toxin Injections Into the Gastrocnemius Muscle in Patients with Cerebral
Palsy. Gait & Posture 10 (1999), S. 1–9.
[440] S ZCZEPANIAK , P.; L ISBOA , P.; K ACPRZYK , J. (Hg.): Fuzzy Systems in Medicine, Bd. 41 von
Studies in Fuzziness and Soft Computing. Heidelberg: Physica, 2000.
[441] TANAKA , K.; M ATSUNAGA , K.; WANG , H. O.: Electroencephalogram-Based Control of an Elec-
tric Wheelchair. IEEE Transactions on Robotics 21(4) (2005), S. 762–766.
[442] TATSUOKA , M. M.: Multivariate Analysis. New York: Macmillan, 1988.
[443] T ENNER , H.: Data Mining in der medizinischen Literaturdatenbank MEDLINE. Dissertation, TU
München, Klinikum Rechts der Isar, 2004.
[444] T IMM , H.: Fuzzy-Clusteranalyse: Methoden zur Exploration von Daten mit fehlenden Werten
sowie klassifizierten Daten. Dissertation, Otto-von-Guericke-Universität Magdeburg, 2002.
[445] T INGLEY, M.; W ILSON , C.; B IDEN , E.; K NIGHT, W.: An Index to Quantify Normality of Gait in
Young Children. Gait & Posture 16 (2002), S. 149–158.
[446] TORGO, L.: Inductive Learning of Tree-Based Regression Models. Dissertation, University of
Porto, 1999.
[447] T RAMPISCH , H. J.; W INDELER , J.: Medizinische Statistik. Springer, 2000.
[448] T URNEY, P.: Types of Cost in Inductive Concept Learning. In: Proc., Workshop on Cost-
Sensitive Learning at the 17th International Conference on Machine Learning (WCSL at ICML-
2000), S. 15–21, Stanford University, California., 2000.
346
[449] U TGOFF , P. E.; B RODLEY, C. E.: Linear Machine Decision Trees. Techn. Ber. COINS 91-10,
University of Massachusetts, 1991.
[450] VAIDYANATHAN , M.; C LARKE , L. P.; H ALL , L. O.; H EIDTMAN , C.; V ELTHUIZEN , R.; G OSCHE , K.;
P HUPHANICH , S.; WAGNER , H.; G REENBERG , H.; S ILBIGER , M. L.: Monitoring Brain Tumor
Response to Therapy using MRI Segmentation. Magnetic Resonance Imaging 15(3) (1997),
S. 323–334.
[451] VAN ’ T V EER , L. J.; DAI , H.; DE V IJVER , M. J. V.; ET AL .: Gene Expression Profiling Predicts
Clinical Outcome of Breast Cancer. Nature 415 (2002), S. 530–536.
[452] VAPNIK , V.: The Nature of Statistical Learning Theory. Springer New York Berlin Heidelberg,
1995.
[453] VAPNIK , V.; L EVIN , E.; C UN , Y. L.: Measuring the VC-Dimension of a Learning Machine. Neural
Computation 6(5) (1994), S. 851–876.
[454] V ELDKAMP, W. J. H.; K ARSSEMEIJER , N.; H ENDRIKS , J. H. C. L.: Experiments with Radiolo-
gists and a Fully Automated Method for Characterization of Microcalcification Clusters. Interna-
tional Congress Series 1230 (2001), S. 586–592.
[455] V ELDKAMP, W. J. H.; K ARSSEMEIJER , N.; OTTEN , J. D. M.; H ENDRIKS , J. H. C. L.: Automa-
ted Classification of Clustered Microcalcifications Into Malignant and Benign Types. Medical
Physics 27(11) (2000), S. 2600–2608.
[456] V ELLISTE , M.; P EREL , S.; S PALDING , M. C.; W HITFORD, A. S.; S CHWARTZ , A. B.: Cortical
Control of a Prosthetic Arm for Self-Feeding. Nature (2008), in press.
[457] V ENTER , J. C.; ET AL .: The Sequence of the Human Genome. Science 291 (5507) (2001),
S. 1304–1351.
[458] V ERMA , B.; Z AKOS , J.: A Computer-Aided Diagnosis System for Digital Mammograms Based
on Fuzzy-Neural and Feature Extraction Techniques. IEEE Transactions on Information Tech-
nology in Biomedicine 5(1) (2001), S. 46 – 54.
[459] V ESANTO, J.; H IMBERG , J.; A LHONIEMI , E.; PARHANKANGAS , J.: SOM Toolbox for MATLAB.
Techn. Ber., Helsinki University of Technology, 2000.
[460] VOELKEL , B.: Auswertung von Patientendaten zur Evaluierung von EMG-Steuerungsstrategien.
Diplomarbeit, Forschungszentrum Karlsruhe, FH Stralsund, 2004.
[461] WALLACE , C. S.; B OULTON , D. M.: An Information Measure for Classification. Computer Jour-
nal 11 (1968) 2, S. 185–194.
[462] WANG , C.-H.; H ONG , T.-P.; T SENG , S.-S.: Inductive Learning from Fuzzy Examples. In: Proc.,
the 5th IEEE International Conference on Fuzzy Systems, S. 13–18, New Orleans, LA, USA,
1996.
[463] WARDA , F.; N OELLE , G.: Telematik und eHealth in Deutschland: Materialien und Empfehlungen
für eine nationale Telematikplattform. DIMDI - Deutsches Institut für medizinische Dokumenta-
tion und Information, 2002.
[464] WARWICK , K.; G ASSON , M.; H UTT, B.; G OODHEW, I.; K YBERD, P.; A NDREWS , B.; T EDDY, P.;
S HAD, A.: The Application of Implant Technology for Cybernetic Systems. Archives in Neurology
60 (2003), S. 1369–1373.
[465] W EHRENS , R.; P UTTER , H.; B UYDENS , L.: The Bootstrap: A Tutorial. Chemometrics and Intel-
ligent Laboratory Systems 54 (2000), S. 35–52.
[466] W ESSBERG , J.; S TAMBAUGH , C. R.; K RALIK , J. D.; B ECK , P. D.; L AUBACH , M.; C HAPIN , J. K.;
K IM , J.; B IGGS , S. J.; S RINIVASAN , M. A.; N ICOLELIS , M. A. L.: Real-Time Prediction of Hand
Trajectory by Ensembles of Cortical Neurons in Primates. Nature 408 (2000), S. 361–365.
347
[467] W EST, D.; W EST, V.: Model Selection for a Medical Diagnostic Decision Support System: A
Breast Cancer Detection Case. Artificial Intelligence in Medicine 20 (3) (2000), S. 183–204.
[468] W ILSON , D.; M ARTINEZ , T.: Improved Heterogeneous Distance Functions. Journal of Artificial
Intelligence Research 6 (1997), S. 1–34.
[469] W INDISCHBERGER , C.; B ARTH , M.; L AMM , C.; S CHROEDER , L.; B AUER , H.; G UR , R.; M OSER ,
E.: Fuzzy Cluster Analysis of High-Field Functional MRI Data. Artificial Intelligence in Medicine
29(3) (2003), S. 203–223.
[470] W ISCHNEWSKY, M. B.; S CHMID, P.; P OSSINGER , K.: Intelligente Systeme in der Onkologie
zur Unterstützung von Diagnose, Therapie und Dokumentation. Innovartis (Novartis Pharma
GmbH; Nürnberg) (2000), S. 25–31.
[471] W ISMÜLLER , A.; L ANGE , O.; D ERSCH , D.; L EISINGER , G.; H AHN , K.; P ÜTZ , B.; AUER , D.:
Cluster Analysis of Biomedical Image Time-Series. International Journal of Computer Vision 46
(2) (2002), S. 103–128.
[472] W OLF, S.; L OOSE , T.; S CHABLOWSKI , M.; D ÖDERLEIN , L.; RUPP, R.; G ERNER , H. J.; B RETT-
HAUER , G.; M IKUT, R.: Automated Feature Assessment in Instrumented Gait Analysis. Gait &
Posture 23(3) (2006), S. 331–338.
[473] W OLPAW, J. R.; B IRBAUMER , N.; M C FARLAND, D. J.; P FURTSCHELLER , G.; VAUGHAN , T. M.:
Brain-Computer Interfaces for Communication and Control. Clinical Neurophysiology 113
(2002), S. 767–791.
[474] W OODS , K. S.: Automated Image Analysis Techniques for Digital Mammography. Dissertation,
University of South Florida, 1994.
[475] W ORMANNS , D.; F IEBICH , M.; S AIDI , M.; D IEDERICH , S.; H EINDEL , W.: Automatic Detection of
Pulmonary Nodules at Spiral CT: Clinical Application of a Computer-Aided Diagnosis System.
European Radiology 12(5) (2002) 5, S. 1052–1057.
[476] YOSHIDA , H.; N ÄPPI , J.: Three Dimensional Computer Aided Diagnosis Scheme for Detection
of Colonic Polyps. IEEE Transactions on Medical Imaging 20(12) (2001), S. 1261–1274.
[477] YOU, L.: Toward Computational Systems Biology. Cell Biochemistry and Biophysics 40(2)
(2004), S. 167–184.
[478] Y U, S.; G UAN , L.: A CAD System for the Automatic Detection of Clustered Microcalcifications in
Digitized Mammogram Films. IEEE Transactions on Medical Imaging 19(2) (2000), S. 115–126.
[479] Y UAN , Y.; S HAW, M. J.: Induction of Fuzzy Decision Trees. Fuzzy Sets and Systems 69 (1995)
2, S. 125–139.
[480] Z ADEH , L.: Fuzzy Sets. Information and Control 8 (1965), S. 338–353.
348
E Index
349
BioSig, 232 Determinationskoeffizient, 59
BJ, 223 Diagnose, 258, 259
Blind Source Separation, 120 Diagnose Patient – Proband, 78, 79, 235,
BMI, 271 249, 251, 256, 285, 292, 293
Bonferroni-Holm-Korrektur, 111 Dichotomie, 37
Bonferroni-Tests, 68 Dichte, 105
Boosting, 38 DICOM-Standard, 10
Bootstrap, 38, 70, 100, 147, 234 Differentialdiagnose, 78, 79, 191, 205, 256,
Boxplot, 97, 126 285
Brain Computer Interfaces, 271 Digitale Signalprozessoren, 101, 270
Brain Machine Interfaces, 142, 271–286 Diplegie, 241
direkter Zugang, 173, 174, 175
C4.5-Verfahren, 147 Diskretisierung, 30, 43, 54, 93, 146–148
case-control studies, 15 Diskretisierungsvorschrift, 147, 213
cased-based reasoning, 132 Diskriminanzanalyse, 112–123, 225, 233,
Center of Area, 166 246, 262, 264, 275, 276, 289, 290
Chance, 221 Distanz, 35, 50–52, 123
City-Block-Distanz, 51 Divide-and-Conquer, 38
Cluster, 206 doppelt-blind, 14
Clustering, 35, 39, 50, 197, 206 doppelte Verblindung, 17
Clusterverfahren, 80, 148, 204, 206, 225, Drehmomentenmethode, 167
234, 299 Dreiecksnorm, 159
Clusterzentrum, 206 DSP, 101, 270
COA, 166 DSS, 79
coefficient of determination, 59
cohort studies, 15 Echtzeitfähigkeit, 96, 100, 101, 239
Computational Intelligence, 4 ECoG, 273
Computertomographie (CT), 9 EEG, 3, 9, 94, 131, 142, 215, 239, 272,
Confounding, 14, 15, 24, 83 273, 277
Cox-Modell, 219 Efferenzen, 23
CRISP-DM, 73 EG-Richtlinie für Medizinprodukte, 102
Crossvalidierung, 69, 100, 113, 147, 218, Eingabeschicht, 194
234, 236 Eingangsentropie, 52, 149, 169
CT, 9, 215 eingebettete Systeme, 74, 101
Eins-Prämisse, 159, 177, 178
Datenpunkt-basiertes Training, 202 einseitiger Test, 108
Datensatz-basiertes Training, 202 EKG, 3, 94, 153
Datentupel, 28, 31 Elektroencephalogramm, 3, 273
Datentupel-basiertes Training, 202 Elektrokardiogramm, 3
Datentupelmodifikation, 42, 44 Elektrokortikographie, 273
Datentupelselektion, 42, 44, 100, 233, 235, elektromagnetische Störungen, 261, 273
236 Elektromyogramm, 3
Datenvorverarbeitung, 44 elektronische Patientenakte, 10
decision support systems, 79 Elektrostimulation, 276
Defuzzifizierung, 30, 146, 154, 165–166, embedded systems, 74, 101
178, 189 EMG, 3, 260, 261, 263, 285
Dekomposition, 37, 275 Endknoten, 144, 145, 173
Dendrogramm, 213 Entropie, 53
350
Entscheidungsbaum, 144–153, 166, 173– Fuzzy-Entscheidungsbäume, 145
175, 181, 221, 234, 289 Fuzzy-Inferenz, 158–163
Entscheidungskosten, 55, 57, 60, 104, Fuzzy-Klassifikation, 35, 36, 46, 206, 225,
125, 127, 128, 176 234, 266
Entscheidungsproblem, 35 Fuzzy-Klassifikationsproblem, 58, 177,
Entscheidungstheorie, 55 196
entscheidungsunterstützende Systeme, 79 Fuzzy-Kovarianzmatrix, 210
Epidemiologie, 49 Fuzzy-Logik, 47, 154, 161, 229
ERD, 272, 277 Fuzzy-Menge, 47, 48, 154, 159, 164
erklärende Variable, 58, 215 Fuzzy-Negation, 160
erklärte Streuung, 217 Fuzzy-Regel, 145, 167, 197, 252, 281, 282,
Erklärungstexte, 187, 252 289
ERS, 272 Fuzzy-Regelbasis, 145, 158, 192, 262
ESS, 59, 217 Fuzzy-Systeme, 4
Euklidische Distanz, 51 Fuzzy-Systeme vom Mamdani-Typ, 158
Evidenz-basierte Medizin, 18, 153 Fuzzy-Systeme vom Takagi-Sugeno-Kang-
Evidenztheorie, 47 Typ, 158
Evolutionäre Algorithmen, 4, 66, 175 Fuzzy-Systeme vom Takagi-Sugeno-Typ,
Evolutionäre Strategien, 66 158, 217
explanatory variable, 215
Extrapolation, 87 Gait-CAD, 232, 233
Gath-Geva-Algorithmus, 210
Faktorenanalyse, 112 Gefahrenstufen, 102
Fall-Kontroll-Studien, 15 Genetische Algorithmen, 65, 66, 205, 275
fallbasiertes Schließen, 132 Genetische Programmierung, 66
False Negative, 56 Genexpressionsprofile, 10, 135, 143, 215,
False Positive, 56 230
FCM, 208, 255 gepaarter t -Test, 110, 251
FDA, 19, 101, 290 Gesamtentropie, 52, 149
Feedforward-Netze, 194 Gesamtpräferenz, 63, 249, 251, 267
fehlende Werte, 11, 44, 47, 85, 145 Gesamtstreuung, 217
Fehler 1. Art, 108 Gesamtvariationsmatrix, 107
Fehler 2. Art, 108 Geschwindigkeitszeitreihen, 244
FFT, 233, 276 gewichteter Klassifikationsfehler, 54
FIR, 223 Gini-Index, 56, 147
Flächenmedianmethode, 166 Goldstandard, 82
fMRT, 215 Gustafson-Kessel-Algorithmus, 210
Fourier-Transformation, 93
Früherkennung von Lungentumoren, 292 Häufigkeit, relative, 48
Freehand-System, 276 Handprothese, 22, 260, 274
Fremdkraftprothesen, 260 Hauptkomponentenanalyse, 99, 112–123,
Frobenius-Norm, 49, 178, 180 225, 233, 255
funktionelle Elektrostimulation, 23 Hebbsches Lernen, 204
Fuzzifier, 208 Hemiplegie, 241
Fuzzifizierung, 30, 43, 146, 154–157 Hesse-Matrix, 198
Fuzzy-C-Means-Algorithmus, 208, 255 heteroskedastische Diskriminanzanalyse,
Fuzzy-Clustering, 35, 39, 197, 206 117
Fuzzy-Clusterverfahren, 134, 207 hierarchisches Clustering, 213
351
Hodgkin-Huxley-Modell, 194 Klassen, 29
homogener Polynom-Kern, 138 Klassifikation, 35, 197, 234
Hough-Transformation, 93 Klassifikationsfehler, 54, 126, 127, 133,
Hyperinferenz, 165 137, 181, 185, 199, 267
Hypothesengenerierung, 3, 14, 24–26, 34, Klassifikationsgüte, 52, 55
153, 172, 174, 217, 239, 240, 297 Klassifikatorfusion, 35, 36, 139, 283
Hypothesentest, 5, 18, 108, 111, 171, 301 klinische Entscheidungsfindung, 74, 75,
297
i-LIMB, 270 klinische Studien, 13
ICA, 120, 121, 122 Knime, 232
Idempotenz, 161 KNN, 193
Implikation, 161 Knoten, 144
Importieren, 234 KO-Verfahren, 38
Impräzision, 47, 109, 181 Kohonen-Karte, 99, 196, 200, 203, 206,
Independent Component Analysis (ICA), 225, 262, 290
120 Kohorten-Studien, 15
indirekter Zugang, 173, 175 Kokontraktion, 267
Infantile Zerebralparesen, 241 Komplexitätsmaße, 63
Inferenz, 162 Konfidenzintervall, 68, 109, 182
Informationstheoretische Maße, 52–54, Kontrollgruppe, 14, 15, 81
169, 233 kontrollierte Studien, 14, 17, 82, 88, 221
Innerklassenvariationsmatrix, 107
konvexe Zugehörigkeitsfunktion, 155
Interpretierbarkeit, 26, 62–64, 88, 90, 95,
Korrelationskoeffizient, 59, 64, 99, 217,
115, 153, 156, 167–170, 172, 197,
256, 258
205, 249, 259, 285
Kovarianzmatrix, 105
Intervallskala, 29
Krankenhausinformationssystem, 10
intervallskalierte Merkmale, 29
Kullback-Leibler-Divergenz, 51
Invarianz gegen Drehung, 226
Invarianz gegen Skalierung, 106, 226
Längsschnitt-Studien, 14
Investigational New Drug, 19
least square method, 216
Inzidenz, 50
Leitlinien, 18, 153, 193, 291
Irrelevanz, 53, 147, 149
Lerndatensatz, 28, 41, 56, 67, 68, 84, 144,
Irrtumswahrscheinlichkeit, 108
145, 235, 294
Jackknife-Methode, 71 Lernende Vektorquantisierung, 201
Letalität, 50
K-means-Algorithmus, 207 Levenberg-Marquardt-Verfahren, 198
Künstliche Neuronale Netze, 4, 193, 234 Likelihood-Quotienten-Kriterium, 277
Kanten, 88 linearer Kern, 138
Kaplan-Meier-Verfahren, 219 linguistischer Term, 154, 158
Karhunen-Loeve-Transformation, 112 logistische Regression, 205, 221, 225
kategorische Merkmale, 29 Logit-Funktionen, 221
kausales Modell, 44 look-up table, 190
KDD, 27 Look-up-Tabelle, 190
Kennfeld, 190 LVQ, 201
Kernfunktionen, 138
Kernoperationen, 138 MA, 223
Klarheit, 179, 180, 183 Magnetresonanztomographie (MRT), 9
352
Mahalanobis-Distanz, 51, 123, 125, 127, MLP-Netz, 196, 205, 217, 218, 225, 234,
130, 210 262, 266, 289
Manhattan-Distanz, 51 Modellkosten, 60, 61
Mann-Whitney-Wilcoxon-Test, 110 modus ponens, 161, 191
MANOVA, 114, 119, 129, 133, 152, 233, modus tollens, 161
246, 264, 277, 279 Mortalität, 50
Maximum, 162, 164 MRI, 9
Maximum-Defuzzifizierung, 165, 190, 192 MRT, 9, 130, 134, 193, 206, 215, 228, 274,
Medizinproduktegesetz, 101 286, 291
MEDLINE, 10, 220, 229, 231 Multi-Center-Studien, 14
Mehrdeutigkeit, 47 Multi-Layer-Perceptron, 196
mehrdimensionale Varianzanalyse, 114 multikriterielle Optimierungsprobleme, 66,
mehrkriterielle Optimierung, 66 181
Menüpunkte, 233 multimodale Optimierungsprobleme, 66
Mengenlehre, 47 multiples Testen, 111, 297
Merkmal, 27 Muster, 27
Merkmalsaggregation, 41 mutual information, 53
Merkmalsbewertung, 45, 46, 68, 111, 233,
naive Bayes-Klassifikatoren, 125
278
NARMAX, 224
Merkmalsextraktion, 41, 42, 89, 95, 233,
Nearest-Neighbor-Klassifikator, 195, 275,
236
289
Merkmalskarten, 98, 99, 280
Nearest-Neighbor-Verfahren, 131, 225,
Merkmalskategorien, 30, 61, 94, 131, 285
234
Merkmalskosten, 61
NEFCLASS, 197
Merkmalslisten, 45, 64, 90, 98, 234, 247,
negative Regeln, 153, 165, 180
251
Neuro-Fuzzy-Systeme, 197, 264
Merkmalspräferenzen, 62, 63, 88, 235,
Neuron, 194
248, 249, 259, 269, 295
Neuroprothesen, 21, 271, 276
Merkmalsrelevanz, 152
nicht erklärte Streuung, 217
Merkmalsselektion, 41, 42, 90, 95, 100,
nichtparametrische Tests, 110
117, 199, 264
nominale Merkmale, 29
Merkmalstransformation, 41, 42, 80, 90,
Nominalskala, 29
99, 118, 120, 121, 129, 130, 195,
Normalcy-Index, 246, 259
203, 217, 233, 246, 264
normale Zugehörigkeitsfunktionen, 154
Metaanalyse, 14, 18, 290
Normalverteilung, 59, 105
Methode der kleinsten Fehler-Quadrate, Nullhypothese, 108
198, 204, 215–216
metrische Skala, 29 Objekte, 88
Michigan-Ansatz, 173, 175 odds, 221
Mikrocontroller, 101, 102, 190, 267, 270 Odds Ratio (OR), 221
MIMO-System, 223 ODER-Verknüpfung, 159–160
Minimum, 162, 164 OE, 223
Minimum Description Length, 63 one-against-all, 37, 139, 152
Minimum Message Length, 63 one-against-one, 37, 139, 140, 265, 275
Minkowski-Distanz, 51 Optimierungsverfahren, 65
MISO-System, 224 ordinale Merkmale, 29
MKQ, 216 Ordinalskala, 29
353
OSG, 240 Radon-Transformation, 93, 289
Overfitting, 64, 67, 221 randomisierte kontrollierte Studien, 17
randomisierte Studien, 14, 17
p-Wert, 68 Randomized Controlled Trials, 17
P300, 272 Rapid Miner, 231
paired t -test, 109 Ratioskala, 29
parameterlineare Funktionen, 198, 215, Raum-Zeit-Parameter, 241, 246, 248, 255
216, 220, 222, 224 Rauschcluster, 213
parameternichtlineare Funktionen, 198, RBF-Kern, 141
215, 222 RBF-Netz, 196, 225, 234, 290
Parameterschätzung, 69, 224 RCT, 17
parametrische Tests, 110 Redundanzmaß, 64
Paraplegie, 242 Referenzabweichungszeitreihen, 93, 244,
Pareto-Grenze, 57 248, 254, 256
Pareto-optimale Lösungen, 66, 181 Regelplausibilität, 159
PET, 9 Regelung, 12, 21, 217, 224
Phantomhand, 262, 264 Regionen, 88
Pittsburgh-Ansatz, 172, 174, 175 Registrierung, 89
Pixel, 32, 88, 121 Regression, 35, 197, 233
Placebo-Effekt, 17
Regressionsfehler, 58
Plugins, 236
Regularisierungstechniken, 113, 198
Polychotomie, 37
Reinforcement-Lernen, 45, 205
Polynom-Modell, 218
rekurrente Netze, 194, 205
Polyoptimierung, 66
relative Regressionsgüte, 60, 180, 183
Positronenemissionstomographie (PET), 9
Residual Sum of Squares, 59
possibilistische Interpretation, 37
Residualgröße, 59
Prämissenauswertung, 162
Residuum, 59
Prävalenz, 49, 271
response variable, 215
Principal Component Analysis, 112
Robustheit gegen Überanpassung, 142,
probabilistische Interpretation, 37
226, 227, 297
Problemformulierungen, medizinische, 74–
Robustheit gegen Ausreißer, 111
84
Robustheit gegen verletzte Verteilungsan-
Produkt, 162, 163, 164, 190
nahmen, 110, 298
prospektive Studien, 14
Robustheit gegen Zeitvarianz, 87, 261, 297
Pruning, 147, 173
ROC-Kurve, 57, 98, 205, 234, 289
qualitative Skala, 29 RSS, 59, 217
quantitative Patientenbewertung, 78, 81,
217, 253, 256, 297 Satz vom ausgeschlossenen Dritten, 160
Querschnitt-Studien, 14 Satz vom ausgeschlossenen Widerspruch,
Querschnittlähmung, 243, 276 160
Scatterplot, 97, 128, 251
Rückschlussentropie, 53 Schlaganfall, 220
Rückstufung korrelierter Merkmale, 64, Schrittphasen, 245, 246
250 Schwerpunktmethode, 166, 190
Rückstufung redundanter Merkmale, 64 Schwerpunktmethode für Singletons, 166
Rückweisung, 39, 132, 176, 183, 213 SCP, 272
Radiale Basisfunktion, 195 Segmentbeschreibung, 89
354
Segmentierung, 89, 90, 96, 97, 134, 193, Suche nach unbekannten Patientengrup-
215, 241, 245, 246, 262 pen, 78, 80, 255, 285
Sensitivität, 56 Sum of Squares Error, 59
Separate-and-Conquer, 38 Support-Vektor, 137, 138
separation, 211 Support-Vektor-Maschinen, 135–143, 234,
SICA, 122 266, 275, 276, 289
sign test, 110 System, 2, 19, 22, 33, 222
Signifikanzniveau, 108, 109, 111, 179, 180,
T-Konorm, 159–160
182
T-Norm, 159–160
Signifikanzwert, 108
Taxonomie der Merkmale, 30
Single-Photon-Emission-
teilüberwachtes Lernen, 34, 131, 215
Computertomographie (SPECT),
Teile-und-Herrsche-Algorithmen, 38, 145
9
Teilprämisse, 159, 173, 174, 190, 191
Singleton-Fuzzy-Systeme, 158 Temporal Independent Component Analy-
SISO-System, 223 sis, 122
SNNS, 231 Testdatensatz, 31
SOFM, 196 Tetraplegie, 242
SOM, 196 Textmining-Verfahren, 25
Sonst-Regel, 158, 176, 177, 179 Texturmerkmale, 94, 130, 289
Spannweite, 106, 169 Therapieauswahl, 78, 82, 191, 258, 259
Spatial Independent Component Analysis, Therapieevaluierung, 78, 81, 220, 235,
122 250, 251, 254, 256, 258, 259
Spearman-Korrelationskoeffizient, 59 Therapieprognose, 78, 80, 81, 220, 254,
SPECT, 9, 205 259, 285
Spektrogramm, 263, 277 TICA, 122
Spezifität, 56 topologieerhaltende Abbildungen, 201
SSCP, 107 Trainingsdatensatz, 84
SSE, 59 Transinformation, 53, 64, 147, 149, 168
Standardabweichung, 106 Transversal-Studien, 14
Standardabweichungszeitreihen, 244 Trennungsgrad, 211
Standardpartition, 156, 159, 178, 190 triangular norm, 159
statistische Absicherungsgüte, 179 Triggerereignis, 96
statistisches Entscheidungsproblem, 35, Triviale Distanz, 51
36 Trivialmodell, 59, 60, 178, 180
True Negative, 56
Steuerung, 12, 21, 217
True Positive, 56
Stichprobe, 108
TSK-Systeme, 158
Stratifizierung, 69
TSS, 217
Streuung, 106
Twoing-Index, 147
Streuungszerlegungssatz, 107, 112, 113,
217 unüberwachtes Lernen, 34, 41, 46, 80, 94,
Strukturgleichheit, 17 113, 211, 215
Struktursuche, 34, 66 unabhängige Variable, 58
Subgruppen, 13, 26, 103, 122, 211, 252, Unabhängigkeitsanalyse, 120
299 unbekannte Datentupel, 67
Suche nach alternativen Messverfahren, UND-Verknüpfung, 159–160
78, 82, 217, 285, 292 Underfitting, 129
355
Ungenauigkeit, 47 zensierte Daten, 86
unimodale Optimierungsprobleme, 66 Zensierung, 87
unpaired t -test, 110 Zentriermatrix, 106
Unschärfe, 47 Zielvariable, 58, 215
unscharfe Merkmale, 29, 48 Zugehörigkeitsfunktion, 42, 154–166, 171,
unscharfe Zeiten, 165 213
Unsicherheit, 45, 109 Zustandsautomaten, 83
Unterarmprothese, 260 Zustandsbeobachter, 94
Zustandsgrößen, 33
Vagheit, 47 Zustandsreduktion, 94
Validierungstechniken, 67, 234 Zweig, 144
Vapnik-Chervonensky (VC) Dimension, 69 zweiseitiger Test, 108
Varianz, 106 Zwischenklassenvariationsmatrix, 107
Varianznormierung, 106, 118, 133, 210,
212, 217
VAS, 256
Vektoroptimierung, 66
Vektorquantisierung, 201
Verblindung, 17
verborgene Schicht, 194
verdeckte Schicht, 194
Verhältnisskala, 29
versteckte Schicht, 194
Versuchsplanung, 26, 88, 216
Verteilungsdichtefunktion, 35, 37, 52, 68,
105, 106, 109, 115, 124, 129, 132,
217
Verteilungsfunktion, 48
Vertrauensintervalle, 109
Vierfeldertafel, 56
Vorgängerknoten, 144
Vorzeichenrangtest von Wilcoxon, 110
Vorzeichentest, 110
Voxel, 32, 121
Zeichentest, 110
zeitvariante Systeme, 26, 87, 224
356