Valvomaton koneoppiminen: Algorithms, Tyypit esimerkillä

Mitä on ohjaamaton oppiminen?

Valvomaton oppiminen on koneoppimistekniikka, jossa käyttäjien ei tarvitse valvoa mallia. Sen sijaan se antaa mallin työskennellä itsenäisesti löytääkseen kuvioita ja tietoja, joita ei aiemmin havaittu. Se käsittelee pääasiassa merkitsemättömiä tietoja.

Valvomaton oppiminen Algorithms

Valvomaton oppiminen Algorithms antaa käyttäjille mahdollisuuden suorittaa monimutkaisempia käsittelytehtäviä kuin ohjattu oppiminen. Tosin ohjaamaton oppiminen voi olla arvaamattomampaa kuin muut luonnolliset oppimismenetelmät. Valvomattomia oppimisalgoritmeja ovat klusterointi, poikkeamien havaitseminen, hermoverkot jne.

Esimerkki valvomattomasta koneoppimisesta

Otetaanpa esimerkki vauvan ja hänen perheen koiransa ohjaamattomasta oppimisesta.

Esimerkki valvomattomasta koneoppimisesta

Hän tuntee ja tunnistaa tämän koiran. Muutamaa viikkoa myöhemmin perheen ystävä tuo mukanaan koiran ja yrittää leikkiä vauvan kanssa.

Esimerkki valvomattomasta koneoppimisesta

Vauva ei ole nähnyt tätä koiraa aikaisemmin. Mutta se tunnistaa monet piirteet (2 korvaa, silmät, kävely 4 jalalla) ovat kuin hänen lemmikkikoiraansa. Hän tunnistaa uuden eläimen koiraksi. Tämä on ohjaamatonta oppimista, jossa sinua ei opeteta, mutta opit tiedoista (tässä tapauksessa datasta koirasta.) Olisiko tämä tapahtunut valvottu oppiminen, perheen ystävä olisi kertonut vauvalle, että se on koira, kuten yllä olevassa Valvomatonta oppimista koskevassa esimerkissä näkyy.

Miksi ohjaamaton oppiminen?

Tässä on tärkeimmät syyt käyttää valvomatonta oppimista Koneen oppiminen:

  • Valvomaton koneoppiminen löytää tiedosta kaikenlaisia ​​tuntemattomia malleja.
  • Valvomattomat menetelmät auttavat sinua löytämään ominaisuuksia, joista voi olla hyötyä luokittelussa.
  • Se tapahtuu reaaliajassa, joten kaikki syöttötiedot analysoidaan ja merkitään oppilaiden läsnä ollessa.
  • Merkitsemättömiä tietoja on helpompi saada tietokoneelta kuin merkittyä dataa, joka vaatii manuaalista toimenpiteitä.

Clusterohjaamattoman oppimisen tyypit Algorithms

Alla on valvomattomien koneoppimisalgoritmien klusterointityypit:

Ohjaamattomat oppimisongelmat ryhmitellään edelleen klusterointi- ja assosiaatioongelmiin.

Clusterta

Clusterta
Clusterta

ClusterOppiminen on tärkeä käsite, kun on kyse ohjaamattomasta oppimisesta. Se käsittelee pääasiassa rakenteen tai kuvion löytämistä luokittelemattoman tiedon kokoelmasta. Ohjaamaton oppiminen ClusterAlgoritmit käsittelevät tietosi ja löytävät luonnollisia klustereita (ryhmiä), jos niitä on tiedoissa. Voit myös muokata, kuinka monta klusteria algoritmisi tunnistaa. Sen avulla voit säätää näiden ryhmien tarkkuutta.

Voit käyttää erilaisia ​​klusterointityyppejä:

Yksinomainen (osiointi)

Tässä klusterointimenetelmässä tiedot ryhmitellään siten, että yksi data voi kuulua vain yhteen klusteriin.

Esimerkki: K-keino

agglomeratiivinen

Tässä klusterointitekniikassa jokainen data on klusteri. Kahden lähimmän klusterin väliset iteratiiviset liitot vähentävät klusterien määrää.

Esimerkki: Hierarkkinen klusterointi

Päällekkäiset

Tässä tekniikassa datan klusterointiin käytetään sumeita joukkoja. Jokainen piste voi kuulua kahteen tai useampaan klusteriin, joilla on erilliset jäsenyysasteet.

Tässä tiedot liitetään sopivaan jäsenarvoon. Esimerkki: Fuzzy C-Means

todennäköisyyspohjainen

Tämä tekniikka käyttää todennäköisyysjakaumaa klusterien luomiseen

Esimerkki: seuraavat avainsanat

  • "miehen kenkä."
  • "naisten kenkä."
  • "naisten hansikas."
  • "miehen hansikas."

voidaan ryhmitellä kahteen luokkaan "kenkä" ja "hansikas" tai "mies" ja "naiset".

Clustertyypit

Seuraavat ovat koneoppimisen klusterointityypit:

  • Hierarkkinen klusterointi
  • K tarkoittaa ryhmittelyä
  • K-NN (k lähintä naapuria)
  • Pääkomponenttianalyysi
  • Yksittäisen arvon hajoaminen
  • Itsenäinen komponenttianalyysi

Hierarkkinen Clusterta

Hierarkkinen klusterointi on algoritmi, joka rakentaa klusterihierarkian. Se alkaa kaikista tiedoista, jotka on kohdistettu heidän omaan klusteriinsa. Tässä kaksi läheistä klusteria tulee olemaan samassa klusterissa. Tämä algoritmi päättyy, kun jäljellä on vain yksi klusteri.

K-välineiden Clusterta

K tarkoittaa, että se on iteratiivinen klusterointialgoritmi, joka auttaa sinua löytämään suurimman arvon jokaiselle iteraatiolle. Aluksi valitaan haluttu määrä klustereita. Tässä klusterointimenetelmässä datapisteet on ryhmitettävä k ryhmään. Suurempi k tarkoittaa pienempiä ryhmiä, joilla on enemmän rakeisuutta samalla tavalla. Pienempi k tarkoittaa suurempia ryhmiä, joiden rakeisuus on pienempi.

Algoritmin tulos on ryhmä "tarroja". Se määrittää datapisteen yhdelle k ryhmästä. K-keskiarvojen klusteroinnissa jokainen ryhmä määritellään luomalla sentroidi jokaiselle ryhmälle. Centroidit ovat kuin klusterin sydän, joka vangitsee niitä lähinnä olevat pisteet ja lisää ne klusteriin.

K-keskiarvoklusterointi määrittelee edelleen kaksi alaryhmää:

  • Agglomeratiivinen klusterointi
  • Dendrogrammi

Agglomeratiivinen klusterointi

Tämän tyyppinen K-keinojen klusterointi alkaa kiinteällä määrällä klustereita. Se allokoi kaikki tiedot tarkkaan määrään klustereita. Tämä klusterointimenetelmä ei vaadi klusterien määrää K syötteenä. Agglomerointiprosessi alkaa muodostamalla jokainen data yhdeksi klusteriksi.

Tämä menetelmä käyttää jonkin verran etäisyysmittausta, vähentää klusterien määrää (yksi kussakin iteraatiossa) yhdistämällä prosessia. Lopuksi meillä on yksi iso klusteri, joka sisältää kaikki objektit.

Dendrogrammi

Dendrogram-klusterointimenetelmässä jokainen taso edustaa mahdollista klusteria. Dendrogrammin korkeus osoittaa samankaltaisuuden tason kahden liittymisklusterin välillä. Mitä lähempänä prosessin pohjaa ne ovat samankaltaisempia klustereita, mikä on ryhmän löytäminen dendrogrammista, joka ei ole luonnollinen ja enimmäkseen subjektiivinen.

K- Lähimmät naapurit

K- lähin naapuri on yksinkertaisin koneoppimisluokittelijoista. Se eroaa muista koneoppimistekniikoista siinä, että se ei tuota mallia. Se on yksinkertainen algoritmi, joka tallentaa kaikki saatavilla olevat tapaukset ja luokittelee uudet esiintymät samankaltaisuusmitan perusteella.

Se toimii erittäin hyvin, kun esimerkkien välillä on etäisyys. Oppimisnopeus on hidas, kun harjoitussarja on suuri, ja etäisyyslaskenta ei ole triviaalia.

Tärkeimpien komponenttien analyysi

Jos haluat korkeamman ulottuvuuden tilan. Sinun on valittava pohja tälle alueelle ja vain 200 tärkeintä pistettä. Tämä pohja tunnetaan pääkomponenttina. Valitsemasi osajoukko on uusi tila, joka on kooltaan pieni alkuperäiseen tilaan verrattuna. Se säilyttää mahdollisimman suuren osan datan monimutkaisuudesta.

Yhdistys

Assosiaatiosääntöjen avulla voit muodostaa assosiaatioita suurten tietokantojen tietoobjektien välille. Tämän valvomattoman tekniikan tarkoituksena on löytää mielenkiintoisia suhteita muuttujien välillä suurista tietokannoista. Esimerkiksi ihmiset, jotka ostavat uuden kodin, ostavat todennäköisimmin uusia huonekaluja.

Muut esimerkit:

  • Syöpäpotilaiden alaryhmä ryhmiteltynä geeniekspressiomittausten perusteella
  • Ostajaryhmät selaus- ja ostohistoriansa perusteella
  • Elokuvaryhmä elokuvien katsojien antaman luokituksen mukaan

Valvottu vs. valvomaton koneoppiminen

Tässä on tärkein ero Ohjattu vs. ohjaamaton oppiminen:

parametrit Valvottu koneoppimistekniikka Valvomaton koneoppimistekniikka
Tulotiedot Algorithms on koulutettu käyttäen merkittyjä tietoja. Algorithms käytetään sellaisia ​​tietoja vastaan, joita ei ole merkitty
Laskennallinen monimutkaisuus Ohjattu oppiminen on yksinkertaisempi menetelmä. Ohjaamaton oppiminen on laskennallisesti monimutkaista
tarkkuus Erittäin tarkka ja luotettava menetelmä. Less tarkka ja luotettava menetelmä.

Valvomattoman koneoppimisen sovellukset

Jotkut valvomattomien oppimistekniikoiden sovellukset ovat:

  • Clusterjakaa tietojoukon automaattisesti ryhmiin niiden samankaltaisuuksien perusteella
  • Poikkeamien havaitseminen voi löytää epätavallisia tietopisteitä tietojoukostasi. Siitä on hyötyä vilpillisten liiketoimien löytämisessä
  • Yhteyslouhinta tunnistaa joukot kohteet, jotka esiintyvät usein yhdessä tietojoukossasi
  • Piileviä muuttujamalleja käytetään laajalti tietojen esikäsittelyyn. Kuten tietojoukon ominaisuuksien määrän vähentäminen tai tietojoukon hajottaminen useiksi komponenteiksi

Valvomattoman oppimisen haitat

  • Tietojen lajittelusta ei voi saada tarkkaa tietoa, ja ohjaamattomassa oppimisessa käytettävä tulos on merkitty ja tuntematon
  • Less tulosten tarkkuus johtuu siitä, että syötetietoa ei tunneta ja ihmiset eivät ole merkitseneet niitä etukäteen. Tämä tarkoittaa, että koneen on tehtävä tämä itse.
  • Spektriluokat eivät aina vastaa informaatioluokkia.
  • Käyttäjän täytyy käyttää aikaa tulkitsemaan ja merkitsemään luokkia, jotka seuraavat tätä luokittelua.
  • Luokkien spektriominaisuudet voivat myös muuttua ajan myötä, joten sinulla ei voi olla samaa luokkatietoa siirryttäessä kuvasta toiseen.

Yhteenveto

  • Ohjaamaton oppiminen on koneoppimistekniikkaa, jossa mallia ei tarvitse valvoa.
  • Valvomaton koneoppiminen auttaa sinua löytämään tiedosta kaikenlaisia ​​tuntemattomia kuvioita.
  • Clustering ja assosiaatio ovat kaksi ohjaamatonta oppimista.
  • Neljä erilaista klusterointimenetelmää ovat 1) Exclusive 2) Agglomerative 3) Overlapping 4) Probabilistic.
  • Tärkeitä klusterointityyppejä ovat: 1) Hierarkkinen klusterointi 2) K-keskiarvoklusterointi 3) K-NN 4) Pääkomponenttianalyysi 5) Singulaarisen arvon hajottelu 6) Itsenäinen komponenttianalyysi.
  • Assosiaatiosääntöjen avulla voit muodostaa assosiaatioita suurten tietokantojen tietoobjektien välille.
  • Ohjatussa oppimisessa, Algorithms koulutetaan käyttämällä merkittyjä tietoja ohjaamattoman oppimisen aikana Algorithms käytetään sellaisia ​​tietoja vastaan, joita ei ole merkitty.
  • Poikkeamien havaitseminen voi löytää tärkeitä tietopisteitä tietojoukostasi, mikä on hyödyllistä vilpillisten tapahtumien löytämisessä.
  • Ohjaamattoman oppimisen suurin haittapuoli on, että et voi saada tarkkaa tietoa tiedon lajittelusta.

Tiivistä tämä viesti seuraavasti: