Valvomaton koneoppiminen: Algorithms, Tyypit esimerkillä
Mitä on ohjaamaton oppiminen?
Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjien ei tarvitse valvoa mallia. Sen sijaan se antaa mallin työskennellä itsenäisesti löytääkseen kuvioita ja tietoja, joita ei aiemmin havaittu. Se käsittelee pääasiassa merkitsemättömiä tietoja.
Valvomaton oppiminen Algorithms
Valvomaton oppiminen Algorithms antaa käyttäjille mahdollisuuden suorittaa monimutkaisempia käsittelytehtäviä kuin ohjattu oppiminen. Tosin ohjaamaton oppiminen voi olla arvaamattomampaa kuin muut luonnolliset oppimismenetelmät. Valvomattomia oppimisalgoritmeja ovat klusterointi, poikkeamien havaitseminen, hermoverkot jne.
Esimerkki valvomattomasta koneoppimisesta
Otetaanpa esimerkki vauvan ja hänen perheen koiransa ohjaamattomasta oppimisesta.
Hän tuntee ja tunnistaa tämän koiran. Muutamaa viikkoa myöhemmin perheen ystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.
Vauva ei ole nähnyt tätä koiraa aikaisemmin. Mutta se tunnistaa monet piirteet (2 korvaa, silmät, kävely 4 jalalla) ovat kuin hänen lemmikkikoiraansa. Hän tunnistaa uuden eläimen koiraksi. Tämä on ohjaamatonta oppimista, jossa sinua ei opeteta, mutta opit tiedoista (tässä tapauksessa datasta koirasta.) Olisiko tämä tapahtunut valvottu oppiminen, perheen ystävä olisi kertonut vauvalle, että se on koira, kuten yllä olevassa Valvomatonta oppimista koskevassa esimerkissä näkyy.
Miksi ohjaamaton oppiminen?
Tässä on tärkeimmät syyt käyttää valvomatonta oppimista Koneen oppiminen:
- Valvomaton koneoppiminen löytää tiedosta kaikenlaisia tuntemattomia malleja.
- Valvomattomat menetelmät auttavat sinua löytämään ominaisuuksia, joista voi olla hyötyä luokittelussa.
- Se tapahtuu reaaliajassa, joten kaikki syöttötiedot analysoidaan ja merkitään oppilaiden läsnä ollessa.
- Merkitsemättömiä tietoja on helpompi saada tietokoneelta kuin merkittyä dataa, joka vaatii manuaalista toimenpiteitä.
Clusterohjaamattoman oppimisen tyypit Algorithms
Alla on valvomattomien koneoppimisalgoritmien klusterointityypit:
Ohjaamattomat oppimisongelmat ryhmitellään edelleen klusterointi- ja assosiaatioongelmiin.
Clusterta

ClusterOppiminen on tärkeä käsite, kun on kyse ohjaamattomasta oppimisesta. Se käsittelee pääasiassa rakenteen tai kuvion löytämistä luokittelemattoman tiedon kokoelmasta. Ohjaamaton oppiminen ClusterAlgoritmit käsittelevät tietosi ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on tiedoissa. Voit myös muokata, kuinka monta klusteria algoritmisi tunnistaa. Sen avulla voit säätää näiden ryhmien tarkkuutta.
Voit käyttää erilaisia klusterointityyppejä:
Yksinomainen (osiointi)
Tässä klusterointimenetelmässä tiedot ryhmitellään siten, että yksi data voi kuulua vain yhteen klusteriin.
Esimerkki: K-keino
agglomeratiivinen
Tässä klusterointitekniikassa jokainen data on klusteri. Kahden lähimmän klusterin väliset iteratiiviset liitot vähentävät klusterien määrää.
Esimerkki: Hierarkkinen klusterointi
Päällekkäiset
Tässä tekniikassa datan klusterointiin käytetään sumeita joukkoja. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on erilliset jäsenyysasteet.
Tässä tiedot liitetään sopivaan jäsenarvoon. Esimerkki: Fuzzy C-Means
todennäköisyyspohjainen
Tämä tekniikka käyttää todennäköisyysjakaumaa klusterien luomiseen
Esimerkki: seuraavat avainsanat
- "miehen kenkä."
- "naisten kenkä."
- "naisten hansikas."
- "miehen hansikas."
voidaan ryhmitellä kahteen luokkaan "kenkä" ja "hansikas" tai "mies" ja "naiset".
Clustertyypit
Seuraavat ovat koneoppimisen klusterointityypit:
- Hierarkkinen klusterointi
- K tarkoittaa ryhmittelyä
- K-NN (k lähintä naapuria)
- Pääkomponenttianalyysi
- Yksittäisen arvon hajoaminen
- Itsenäinen komponenttianalyysi
Hierarkkinen Clusterta
Hierarkkinen klusterointi on algoritmi, joka rakentaa klusterihierarkian. Se alkaa kaikista tiedoista, jotka on kohdistettu heidän omaan klusteriinsa. Tässä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun jäljellä on vain yksi klusteri.
K-välineiden Clusterta
K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa sinua löytämään suurimman arvon jokaiselle iteraatiolle. Aluksi valitaan haluttu määrä klustereita. Tässä klusterointimenetelmässä datapisteet on ryhmitettävä k ryhmään. Suurempi k tarkoittaa pienempiä ryhmiä, joilla on enemmän rakeisuutta samalla tavalla. Pienempi k tarkoittaa suurempia ryhmiä, joiden rakeisuus on pienempi.
Algoritmin tulos on ryhmä "tarroja". Se määrittää datapisteen yhdelle k ryhmästä. K-keskiarvojen klusteroinnissa jokainen ryhmä määritellään luomalla sentroidi jokaiselle ryhmälle. Centroidit ovat kuin klusterin sydän, joka vangitsee niitä lähinnä olevat pisteet ja lisää ne klusteriin.
K-keskiarvoklusterointi määrittelee edelleen kaksi alaryhmää:
- Agglomeratiivinen klusterointi
- Dendrogrammi
Agglomeratiivinen klusterointi
Tämän tyyppinen K-keinojen klusterointi alkaa kiinteällä määrällä klustereita. Se allokoi kaikki tiedot tarkkaan määrään klustereita. Tämä klusterointimenetelmä ei vaadi klusterien määrää K syötteenä. Agglomerointiprosessi alkaa muodostamalla jokainen data yhdeksi klusteriksi.
Tämä menetelmä käyttää jonkin verran etäisyysmittausta, vähentää klusterien määrää (yksi kussakin iteraatiossa) yhdistämällä prosessia. Lopuksi meillä on yksi iso klusteri, joka sisältää kaikki objektit.
Dendrogrammi
Dendrogram-klusterointimenetelmässä jokainen taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa samankaltaisuuden tason kahden liittymisklusterin välillä. Mitä lähempänä prosessin pohjaa ne ovat samankaltaisempia klustereita, mikä on ryhmän löytäminen dendrogrammista, joka ei ole luonnollinen ja enimmäkseen subjektiivinen.
K- Lähimmät naapurit
K- lähin naapuri on yksinkertaisin koneoppimisluokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki saatavilla olevat tapaukset ja luokittelee uudet esiintymät samankaltaisuusmitan perusteella.
Se toimii erittäin hyvin, kun esimerkkien välillä on etäisyys. Oppimisnopeus on hidas, kun harjoitussarja on suuri, ja etäisyyslaskenta ei ole triviaalia.
Tärkeimpien komponenttien analyysi
Jos haluat korkeamman ulottuvuuden tilan. Sinun on valittava pohja tälle alueelle ja vain 200 tärkeintä pistettä. Tämä pohja tunnetaan pääkomponenttina. Valitsemasi osajoukko on uusi tila, joka on kooltaan pieni alkuperäiseen tilaan verrattuna. Se säilyttää mahdollisimman suuren osan datan monimutkaisuudesta.
Yhdistys
Assosiaatiosääntöjen avulla voit muodostaa assosiaatioita suurten tietokantojen tietoobjektien välille. Tämän valvomattoman tekniikan tarkoituksena on löytää mielenkiintoisia suhteita muuttujien välillä suurista tietokannoista. Esimerkiksi ihmiset, jotka ostavat uuden kodin, ostavat todennäköisimmin uusia huonekaluja.
Muut esimerkit:
- Syöpäpotilaiden alaryhmä ryhmiteltynä geeniekspressiomittausten perusteella
- Ostajaryhmät selaus- ja ostohistoriansa perusteella
- Elokuvaryhmä elokuvien katsojien antaman luokituksen mukaan
Valvottu vs. valvomaton koneoppiminen
Tässä on tärkein ero Ohjattu vs. ohjaamaton oppiminen:
| parametrit | Valvottu koneoppimistekniikka | Valvomaton koneoppimistekniikka |
|---|---|---|
| Tulotiedot | Algorithms on koulutettu käyttäen merkittyjä tietoja. | Algorithms käytetään sellaisia tietoja vastaan, joita ei ole merkitty |
| Laskennallinen monimutkaisuus | Ohjattu oppiminen on yksinkertaisempi menetelmä. | Ohjaamaton oppiminen on laskennallisesti monimutkaista |
| tarkkuus | Erittäin tarkka ja luotettava menetelmä. | Less tarkka ja luotettava menetelmä. |
Valvomattoman koneoppimisen sovellukset
Jotkut valvomattomien oppimistekniikoiden sovellukset ovat:
- Clusterjakaa tietojoukon automaattisesti ryhmiin niiden samankaltaisuuksien perusteella
- Poikkeamien havaitseminen voi löytää epätavallisia tietopisteitä tietojoukostasi. Siitä on hyötyä vilpillisten liiketoimien löytämisessä
- Yhteyslouhinta tunnistaa joukot kohteet, jotka esiintyvät usein yhdessä tietojoukossasi
- Piileviä muuttujamalleja käytetään laajalti tietojen esikäsittelyyn. Kuten tietojoukon ominaisuuksien määrän vähentäminen tai tietojoukon hajottaminen useiksi komponenteiksi
Valvomattoman oppimisen haitat
- Tietojen lajittelusta ei voi saada tarkkaa tietoa, ja ohjaamattomassa oppimisessa käytettävä tulos on merkitty ja tuntematon
- Less tulosten tarkkuus johtuu siitä, että syötetietoa ei tunneta ja ihmiset eivät ole merkitseneet niitä etukäteen. Tämä tarkoittaa, että koneen on tehtävä tämä itse.
- Spektriluokat eivät aina vastaa informaatioluokkia.
- Käyttäjän täytyy käyttää aikaa tulkitsemaan ja merkitsemään luokkia, jotka seuraavat tätä luokittelua.
- Luokkien spektriominaisuudet voivat myös muuttua ajan myötä, joten sinulla ei voi olla samaa luokkatietoa siirryttäessä kuvasta toiseen.
Yhteenveto
- Ohjaamaton oppiminen on koneoppimistekniikkaa, jossa mallia ei tarvitse valvoa.
- Valvomaton koneoppiminen auttaa sinua löytämään tiedosta kaikenlaisia tuntemattomia kuvioita.
- Clustering ja assosiaatio ovat kaksi ohjaamatonta oppimista.
- Neljä erilaista klusterointimenetelmää ovat 1) Exclusive 2) Agglomerative 3) Overlapping 4) Probabilistic.
- Tärkeitä klusterointityyppejä ovat: 1) Hierarkkinen klusterointi 2) K-keskiarvoklusterointi 3) K-NN 4) Pääkomponenttianalyysi 5) Singulaarisen arvon hajottelu 6) Itsenäinen komponenttianalyysi.
- Assosiaatiosääntöjen avulla voit muodostaa assosiaatioita suurten tietokantojen tietoobjektien välille.
- Ohjatussa oppimisessa, Algorithms koulutetaan käyttämällä merkittyjä tietoja ohjaamattoman oppimisen aikana Algorithms käytetään sellaisia tietoja vastaan, joita ei ole merkitty.
- Poikkeamien havaitseminen voi löytää tärkeitä tietopisteitä tietojoukostasi, mikä on hyödyllistä vilpillisten tapahtumien löytämisessä.
- Ohjaamattoman oppimisen suurin haittapuoli on, että et voi saada tarkkaa tietoa tiedon lajittelusta.


