Forvirringsmatrise i maskinlæring med EKSEMPEL
Hva er Confusion Matrix?
En forvirringsmatrise er en ytelsesmålingsteknikk for maskinlæringsklassifisering. Det er en slags tabell som hjelper deg å vite ytelsen til klassifiseringsmodellen på et sett med testdata for at de sanne verdiene er kjent. Selve begrepet forvirringsmatrise er veldig enkelt, men den relaterte terminologien kan være litt forvirrende. Her er det gitt en enkel forklaring på denne teknikken.
Fire utfall av forvirringsmatrisen
Forvirringsmatrisen visualiserer nøyaktigheten til en klassifikator ved å sammenligne de faktiske og forutsagte klassene. Den binære forvirringsmatrisen er sammensatt av kvadrater:

- TP: Sant positiv: Forutsagte verdier er korrekt predikert som faktisk positive
- FP: Forutsagte verdier spådde feil en faktisk positiv. dvs. negative verdier spådd som positive
- FN: Falsk Negativ: Positive verdier predikert som negative
- TN: Sann negativ: Forutsagte verdier er korrekt predikert som en faktisk negativ
Du kan beregne nøyaktighetstest fra forvirringsmatrisen:
Eksempel på forvirringsmatrise
Confusion Matrix er en nyttig maskinlæringsmetode som lar deg måle tilbakekalling, presisjon, nøyaktighet og AUC-ROC-kurve. Nedenfor er gitt et eksempel for å kjenne begrepene sann positiv, sann negativ, falsk negativ og sann negativ.
Sant positiv:
Du projiserte positivt, og det viste seg å være sant. Du hadde for eksempel spådd at Frankrike skulle vinne verdensmesterskapet, og det vant.
Ekte negativt:
Når du spådde negativt, og det er sant. Du hadde spådd at England ikke ville vinne, og det tapte.
Falsk positiv:
Din spådom er positiv, og den er falsk.
Du hadde spådd at England ville vinne, men det tapte.
Falsk negativ:
Din spådom er negativ, og resultatet er også falsk.
Du hadde spådd at Frankrike ikke ville vinne, men det vant.
Du bør huske at vi beskriver predikerte verdier som enten Sant eller Usant eller Positivt og Negativt.
Hvordan beregne en forvirringsmatrise
Her er en trinnvis prosess for å beregne en forvirringsmatrise i data mining
- Trinn 1) Først må du teste datasettet med dets forventede utfallsverdier.
- Trinn 2) Forutsi alle radene i testdatasettet.
- Trinn 3) Beregn de forventede spådommene og resultatene:
- Summen av riktige spådommer for hver klasse.
- Summen av feil spådommer for hver klasse.
Etter det er disse tallene organisert i de følgende metodene:
- Hver rad i matrisen kobler til en forutsagt klasse.
- Hver kolonne i matrisen tilsvarer en faktisk klasse.
- Totalt antall korrekt og feil klassifisering er lagt inn i tabellen.
- Summen av riktige spådommer for en klasse går inn i den predikerte kolonnen og forventet rad for den klasseverdien.
- Summen av feil spådommer for en klasse går inn i den forventede raden for den klasseverdien og den predikerte kolonnen for den spesifikke klasseverdien.
Andre viktige vilkår som bruker en forvirringsmatrise
- Positiv prediktiv verdi (PVV): Dette er veldig nær presisjon. En vesentlig forskjell mellom de to termene er at PVV vurderer prevalens. I situasjonen der klassene er perfekt balansert, er den positive prediktive verdien det samme som presisjon.
- Null feilfrekvens: Dette begrepet brukes til å definere hvor mange ganger prediksjonen din ville vært feil hvis du kan forutsi majoritetsklassen. Du kan vurdere det som en grunnlinjeberegning for å sammenligne klassifisereren din.
- F-poengsum: F1-poengsum er en vektet gjennomsnittlig poengsum av sann positiv (gjenkalling) og presisjon.
- Roc Curve: Roc-kurven viser de sanne positive ratene mot den falske positive raten ved forskjellige kuttpunkter. Det viser også en avveining mellom sensitivitet (gjenkalling og spesifisitet eller den sanne negative raten).
- Presisjon: Presisjonsmetrikken viser nøyaktigheten til den positive klassen. Den måler hvor sannsynlig prediksjonen til den positive klassen er riktig.
Maksimal poengsum er 1 når klassifisereren klassifiserer alle de positive verdiene perfekt. Presisjon alene er ikke veldig nyttig fordi den ignorerer den negative klassen. Beregningen er vanligvis sammenkoblet med Recall-beregning. Tilbakekalling kalles også sensitivitet eller sann positiv rate.
- Følsomhet: Sensitivitet beregner forholdet mellom positive klasser som er riktig oppdaget. Denne beregningen viser hvor god modellen er til å gjenkjenne en positiv klasse.
Hvorfor trenger du forvirringsmatrise?
Her er fordeler/fordeler med å bruke en forvirringsmatrise.
- Den viser hvordan enhver klassifiseringsmodell blir forvirret når den gir spådommer.
- Forvirringsmatrise gir deg ikke bare innsikt i feilene som gjøres av klassifisereren din, men også typer feil som blir gjort.
- Denne sammenbruddet hjelper deg å overvinne begrensningen ved å bruke klassifiseringsnøyaktighet alene.
- Hver kolonne i forvirringsmatrisen representerer forekomstene av den forutsagte klassen.
- Hver rad i forvirringsmatrisen representerer forekomstene av den faktiske klassen.
- Det gir innsikt ikke bare feilene som er gjort av en klassifiserer, men også feil som blir gjort.


