Sekaannusmatriisi koneoppimisessa EXAMPLE:n kanssa
Mikรค on Confusion Matrix?
Sekaannusmatriisi on suorituskyvyn mittaustekniikka koneoppimisen luokitteluun. Se on erรครคnlainen taulukko, joka auttaa sinua tietรคmรครคn luokitusmallin suorituskyvyn testidatajoukolla, jotta todelliset arvot tiedetรครคn. Itse termi sekaannusmatriisi on hyvin yksinkertainen, mutta siihen liittyvรค terminologia voi olla hieman hรคmmentรคvรครค. Tรคssรค on yksinkertainen selitys tรคlle tekniikalle.
Sekaannusmatriisin neljรค tulosta
Sekaannusmatriisi visualisoi luokittelijan tarkkuuden vertaamalla todellista ja ennustettua luokkia. Binรครคrisekoitusmatriisi koostuu neliรถistรค:

- TP: True Positive: Ennustetut arvot on ennustettu oikein todellisina positiivisina
- FP: Ennustetut arvot ennustivat vรครคrin todellisen positiivisen. eli negatiiviset arvot ennustetaan positiivisiksi
- FN: Vรครคrรค negatiivinen: Positiiviset arvot ennustetaan negatiivisiksi
- TN: True Negative: Ennustetut arvot on ennustettu oikein todellisina negatiivisina
Voit laskea tarkkuustesti hรคmmennysmatriisista:
Esimerkki hรคmmennysmatriisista
Confusion Matrix on hyรถdyllinen koneoppimismenetelmรค, jonka avulla voit mitata Recall-, Precision-, Accuracy- ja AUC-ROC-kรคyrรครค. Alla on esimerkki termien tosi positiivinen, tosi negatiivinen, vรครคrรค negatiivinen ja tosi negatiivinen tuntemiseen.
Todella positiivinen:
Projisoit positiivista ja se osoittautui todeksi. Olit esimerkiksi ennustanut Ranskan voittavan maailmanmestaruuden, ja se voitti.
Todellinen negatiivinen:
Kun ennustit negatiivista, ja se on totta. Olit ennustanut, ettรค Englanti ei voita ja se hรคvisi.
Vรครคrรค positiivinen:
Ennustuksesi on myรถnteinen ja se on vรครคrรค.
Ennustit Englannin voittavan, mutta se hรคvisi.
Vรครคrรค negatiivinen:
Ennustuksesi on negatiivinen, ja myรถs tulos on vรครคrรค.
Olet ennustanut, ettรค Ranska ei voita, mutta se voitti.
Muista, ettรค kuvaamme ennustettuja arvoja joko tosi tai epรคtosi tai positiivisina ja negatiivisina.
Kuinka laskea sekaannusmatriisi
Tรคssรค on askel askeleelta prosessi sekaannusmatriisin laskemiseksi data mining
- Vaihe 1) Ensin sinun on testattava tietojoukko sen odotettujen tulosarvojen kanssa.
- Vaihe 2) Ennusta kaikki testitietojoukon rivit.
- Vaihe 3) Laske odotetut ennusteet ja tulokset:
- Jokaisen luokan oikeat ennusteet yhteensรค.
- Jokaisen luokan virheellisten ennusteiden kokonaismรครคrรค.
Sen jรคlkeen nรคmรค numerot jรคrjestetรครคn alla olevilla menetelmillรค:
- Jokainen matriisin rivi linkittรครค ennustettuun luokkaan.
- Jokainen matriisin sarake vastaa todellista luokkaa.
- Oikeiden ja virheellisten luokittelujen kokonaismรครคrรคt syรถtetรครคn taulukkoon.
- Luokan oikeiden ennusteiden summa menee kyseisen luokan arvon ennustettuun sarakkeeseen ja odotettuun riviin.
- Luokan virheellisten ennusteiden summa menee kyseisen luokan arvon odotettuun riviin ja kyseisen luokan arvon ennustettuun sarakkeeseen.
Muita tรคrkeitรค termejรค sekaannusmatriisin avulla
- Positiivinen ennakoiva arvo (PVV): Tรคmรค on hyvin lรคhellรค tarkkuutta. Yksi merkittรคvรค ero kahden termin vรคlillรค on se, ettรค PVV ottaa huomioon esiintyvyyden. Tilanteessa, jossa luokat ovat tรคysin tasapainossa, positiivinen ennustearvo on sama kuin tarkkuus.
- Nolla virheprosentti: Tรคtรค termiรค kรคytetรครคn mรครคrittelemรครคn, kuinka monta kertaa ennustuksesi olisi vรครคrรค, jos pystyt ennustamaan enemmistรถluokan. Voit pitรครค sitรค perusmittarina luokittelijasi vertailussa.
- F-pisteet: F1-pisteet on painotettu keskiarvo todellisesta positiivisesta (palauttaminen) ja tarkkuudesta.
- Roc-kรคyrรค: Roc-kรคyrรค nรคyttรครค todelliset positiiviset luvut verrattuna vรครคriin positiivisiin lukuihin eri leikkauspisteissรค. Se osoittaa myรถs kompromissin herkkyyden (muistutuksen ja spesifisyyden tai todellisen negatiivisen mรครคrรคn) vรคlillรค.
- tarkkuus: Tarkkuusmetriikka nรคyttรครค positiivisen luokan tarkkuuden. Se mittaa, kuinka todennรคkรถisesti positiivisen luokan ennuste on oikea.
Maksimipistemรครคrรค on 1, kun luokitin luokittelee tรคydellisesti kaikki positiiviset arvot. Pelkรคstรครคn tarkkuus ei ole kovin hyรถdyllinen, koska se jรคttรครค huomioimatta negatiivisen luokan. Mittari yhdistetรครคn yleensรค pariksi Recall-mittarin kanssa. Palautusta kutsutaan myรถs herkkyydeksi tai todelliseksi positiiviseksi koroksi.
- Herkkyys: Herkkyys laskee oikein havaittujen positiivisten luokkien suhteen. Tรคmรค mittari kertoo, kuinka hyvรค malli tunnistaa positiivisen luokan.
Miksi tarvitset Confusion-matriisin?
Tรคssรค on sekavuusmatriisin kรคytรถn edut/edut.
- Se osoittaa, kuinka mikรค tahansa luokitusmalli on hรคmmentynyt, kun se tekee ennusteita.
- Sekaannusmatriisi ei ainoastaan โโanna kรคsitystรค luokittelijasi tekemistรค virheistรค, vaan myรถs virhetyypeistรค, joita tehdรครคn.
- Tรคmรค erittely auttaa sinua voittamaan rajoitukset, jotka liittyvรคt pelkรคn luokittelutarkkuuden kรคyttรถรถn.
- Jokainen sekaannusmatriisin sarake edustaa kyseisen ennustetun luokan esiintymiรค.
- Kukin sekavuusmatriisin rivi edustaa todellisen luokan esiintymiรค.
- Se tarjoaa kรคsityksen paitsi luokittelijan tekemistรค virheistรค myรถs virheistรค, joita tehdรครคn.


