Segadusmaatriks masinõppes koos EXAMPLE'iga

Mis on segaduse maatriks?

Segadusmaatriks on masinõppe klassifitseerimise jõudluse mõõtmise meetod. See on omamoodi tabel, mis aitab teil teada saada klassifitseerimismudeli toimivust testandmete kogumi põhjal, mille jaoks on teada tegelikud väärtused. Mõiste segadusmaatriks ise on väga lihtne, kuid sellega seotud terminoloogia võib veidi segadust tekitada. Siin on selle tehnika kohta mõned lihtsad selgitused.

Segadusmaatriksi neli tulemust

Segadusmaatriks visualiseerib klassifikaatori täpsust, võrreldes tegelikke ja ennustatud klasse. Binaarne segadusmaatriks koosneb ruutudest:

Segaduste tabel
Segaduste tabel
  • TP: tõene positiivne: prognoositud väärtused on õigesti ennustatud tegelike positiivsetena
  • FP: prognoositud väärtused ennustasid valesti tegelikku positiivset. st negatiivsed väärtused on ennustatud positiivseteks
  • FN: Valenegatiivne: positiivsed väärtused on prognoositud negatiivseteks
  • TN: Tõene negatiivne: ennustatud väärtused on õigesti ennustatud tegeliku negatiivsena

Saate arvutada täpsuse test segadusmaatriksist:

Segadusmaatriksi neli tulemust

Segaduse maatriksi näide

Confusion Matrix on kasulik masinõppemeetod, mis võimaldab mõõta tagasikutsumist, täpsust, täpsust ja AUC-ROC kõverat. Allpool on toodud näide terminite Tõeline positiivne, Tõeline negatiivne, Valenegatiivne ja Tõeline negatiivne tundmiseks.

Tõeline positiivne:

Prognoosid positiivset ja see osutub tõeks. Näiteks ennustasite, et Prantsusmaa võidab maailmameistrivõistlused, ja ta võitis.

Tõeline negatiivne:

Kui ennustasite negatiivset, ja see on tõsi. Te ennustasite, et Inglismaa ei võida ja kaotas.

Valepositiivne:

Teie ennustus on positiivne ja see on vale.

Olete ennustanud, et Inglismaa võidab, kuid ta kaotas.

Valenegatiivne:

Teie ennustus on negatiivne ja tulemus on samuti vale.

Te ennustasite, et Prantsusmaa ei võida, aga ta võitis.

Peaksite meeles pidama, et ennustatud väärtusi kirjeldame kui tõeseid või valesid või positiivseid ja negatiivseid.

Kuidas arvutada segadusmaatriksit

Siin on samm-sammult segadusmaatriksi arvutamise protsess andmete kaevandamine

  • 1. samm) Esiteks peate testima andmestikku selle eeldatavate tulemuste väärtustega.
  • 2. samm) Ennustage kõik testiandmestiku read.
  • 3. samm) Arvutage eeldatavad prognoosid ja tulemused:
  1. Iga klassi õigete ennustuste kogusumma.
  2. Iga klassi valede ennustuste kogusumma.

Pärast seda korraldatakse need numbrid alltoodud meetoditega:

  • Iga maatriksi rida lingib ennustatud klassiga.
  • Iga maatriksi veerg vastab tegelikule klassile.
  • Õige ja vale klassifikatsiooni koguarvud kantakse tabelisse.
  • Klassi õigete ennustuste summa läheb selle klassi väärtuse ennustatud veergu ja oodatavasse ritta.
  • Klassi ebaõigete ennustuste summa läheb selle klassi väärtuse eeldatavale reale ja konkreetse klassi väärtuse ennustatud veergu.

Muud olulised mõisted segadusmaatriksi abil

  • Positiivne ennustav väärtus (PVV): See on täpsusele väga lähedal. Üks oluline erinevus kahe termini vahel on see, et PVV arvestab levimust. Olukorras, kus klassid on ideaalselt tasakaalustatud, on positiivne ennustusväärtus sama, mis täpsus.
  • Null veamäär: Seda terminit kasutatakse selleks, et määratleda, mitu korda teie ennustus on vale, kui suudate ennustada enamusklassi. Võite seda pidada oma klassifikaatori võrdlemiseks lähtemõõdikuks.
  • F skoor: F1 skoor on tegeliku positiivse (tagasikutsumise) ja täpsuse kaalutud keskmine tulemus.
  • Roc Curve: Roc-kõver näitab tõelisi positiivseid määrasid valepositiivse määra suhtes erinevates lõikepunktides. See näitab ka kompromissi tundlikkuse (meenutamine ja spetsiifilisus või tegelik negatiivne määr) vahel.
  • Täpsus: Täpsusmõõdik näitab positiivse klassi täpsust. See mõõdab, kui tõenäoliselt on positiivse klassi ennustus õige.

Muud olulised mõisted segadusmaatriksi kasutamisel

Maksimaalne punktisumma on 1, kui klassifikaator klassifitseerib kõik positiivsed väärtused ideaalselt. Ainuüksi täpsusest pole suurt abi, sest see ignoreerib negatiivset klassi. Mõõdik on tavaliselt seotud tagasikutsumise mõõdikuga. Meenutamist nimetatakse ka tundlikkuseks või tõeliseks positiivseks määraks.

  • Tundlikkus: Tundlikkus arvutab õigesti tuvastatud positiivsete klasside suhte. See mõõdik näitab, kui hea on mudel positiivse klassi tuvastamiseks.

Muud olulised mõisted segadusmaatriksi kasutamisel

Miks vajate segaduse maatriksit?

Siin on segadusmaatriksi kasutamise plussid/kasud.

  • See näitab, kuidas mis tahes klassifitseerimismudel on ennustuste tegemisel segaduses.
  • Segadusmaatriks ei anna teile mitte ainult ülevaate klassifikaatori tehtud vigadest, vaid ka tehtavatest vigadest.
  • See jaotus aitab teil ületada ainult klassifitseerimise täpsuse kasutamise piiranguid.
  • Segadusmaatriksi iga veerg esindab selle ennustatud klassi juhtumeid.
  • Iga segadusmaatriksi rida tähistab tegeliku klassi eksemplare.
  • See annab ülevaate mitte ainult klassifikaatori tehtud vigadest, vaid ka tehtavatest vigadest.

Võta see postitus kokku järgmiselt: