Masinõppe õpetus algajatele: mis on, ML põhitõed

Mis on masinõpe?

Masinõpe on arvutialgoritmide süsteem, mis suudab enesetäiendamise kaudu õppida eeskujust, ilma et programmeerija seda otseselt kodeeriks. Masinõpe on osa tehisintellektist, mis ühendab andmed statistiliste tööriistadega, et ennustada väljundit, mida saab kasutada praktiliste teadmiste tegemiseks.

Läbimurre tuleneb ideest, et masin saab andmetest (st näitest) õppida, et saada täpseid tulemusi. Masinõpe on tihedalt seotud andmekaevandamise ja Bayesi ennustava modelleerimisega. Masin võtab andmed vastu sisendina ja kasutab vastuste formuleerimiseks algoritmi.

Tüüpilised masinõppeülesanded on soovituse andmine. Neile, kellel on a Netflix kontol põhinevad kõik filmide või seriaalide soovitused kasutaja ajaloolistel andmetel. Tehnikaettevõtted kasutavad järelevalveta õppimine kasutajakogemuse parandamiseks isikupärastamise soovitusega.

Masinõpet kasutatakse ka mitmesuguste ülesannete jaoks, nagu pettuste tuvastamine, ennustav hooldus, portfelli optimeerimine, ülesannete automatiseerimine ja nii edasi.

Masinõpe vs traditsiooniline programmeerimine

Traditsiooniline programmeerimine erineb oluliselt masinõppest. Traditsioonilise programmeerimise puhul kodeerib programmeerija kõik reeglid, konsulteerides selle valdkonna eksperdiga, mille jaoks tarkvara arendatakse. Iga reegel põhineb loogilisel alusel; masin käivitab loogilise avalduse järgi väljundi. Kui süsteem muutub keeruliseks, tuleb kirjutada rohkem reegleid. Selle hooldamine võib kiiresti muutuda jätkusuutmatuks.

Masinõpe peaks sellest probleemist üle saama. Masin õpib, kuidas sisend- ja väljundandmed on omavahel seotud, ja kirjutab reegli. Programmeerijad ei pea kirjutama uusi reegleid iga kord, kui on uusi andmeid. Algoritmid kohanduvad vastuseks uutele andmetele ja kogemustele, et aja jooksul tõhusust parandada.

Kuidas masinõpe töötab?

Nüüd selles algajatele mõeldud masinõppe põhitõdede õpetuses õpime, kuidas masinõpe (ML) töötab.

Masinõpe on aju, kus kogu õppimine toimub. See, kuidas masin õpib, sarnaneb inimesega. Inimene õpib kogemusest. Mida rohkem me teame, seda lihtsam on ennustada. Analoogiliselt, kui seisame silmitsi tundmatu olukorraga, on edu tõenäosus väiksem kui teadaoleval olukorral. Masinaid õpetatakse samamoodi. Täpse ennustuse tegemiseks näeb masin näidet. Kui anname masinale sarnase näite, saab see tulemuse välja selgitada. Kuid sarnaselt inimesele, kui ta toidab varem nägematut näidet, on masinal raskusi ennustamisega.

Masinõppe põhieesmärk on õppimine ja järeldamine. Esiteks õpib masin mustrite avastamise kaudu. See avastus on tehtud tänu andmed. Andmeteadlase üks oluline osa on hoolikalt valida, milliseid andmeid masinale edastada. Probleemi lahendamiseks kasutatavate atribuutide loendit nimetatakse a funktsiooni vektor. Funktsioonivektorit võib pidada andmete alamhulgaks, mida kasutatakse probleemi lahendamiseks.

Masin kasutab mõningaid väljamõeldud algoritme, et lihtsustada tegelikkust ja muuta see avastus a mudel. Seetõttu kasutatakse andmete kirjeldamiseks ja mudeliks kokkuvõtmiseks õppimisetappi.

Näiteks püüab masin mõista seost üksikisiku palga ja uhkesse restorani mineku tõenäosuse vahel. Selgub, et masin leiab positiivse seose palga ja tipptasemel restoranis käimise vahel: see on mudel

Järeldades

Kui mudel on ehitatud, on võimalik ennenägematute andmete peal testida, kui võimas see on. Uued andmed teisendatakse funktsioonivektoriks, läbivad mudeli ja annavad ennustuse. See kõik on masinõppe ilus osa. Pole vaja reegleid uuendada ega mudelit uuesti koolitada. Uute andmete kohta järelduste tegemiseks saate kasutada eelnevalt koolitatud mudelit.

Masinõppeprogrammide eluiga on lihtne ja selle võib kokku võtta järgmistes punktides.

Määratlege küsimus
Andmeid koguma
Visualiseeri andmeid
Treeni algoritm
Testige algoritmi
Koguge tagasisidet
Täpsustage algoritmi
Korrake 4-7, kuni tulemused on rahuldavad
Kasutage ennustuse tegemiseks mudelit

Kui algoritm saab õigeid järeldusi teha, rakendab see neid teadmisi uutele andmekogumitele.

Masinõpe Algorithms ja kus neid kasutatakse?

Nüüd selles algajatele mõeldud masinõppe õpetuses õpime, kus masinõppe (ML) algoritme kasutatakse:

Masinõppe saab rühmitada kaheks suureks õppeülesandeks: juhendatud ja järelevalveta. On palju muid algoritme

Juhendatud õppimine

Algoritm kasutab koolitusandmeid ja inimestelt saadud tagasisidet, et teada saada antud sisendite seost antud väljundiga. Näiteks saab praktiseerija kasutada turunduskulusid ja ilmaennustust sisendandmetena, et ennustada purkide müüki.

Saate kasutada juhendatud õppimist, kui väljundandmed on teada. Algoritm ennustab uusi andmeid.

On kaks kategooriat juhendatud õppimine:

Klassifitseerimisülesanne
Regressiooniülesanne

Klassifikatsioon

Kujutage ette, et soovite reklaami jaoks ennustada kliendi sugu. Hakkad oma kliendiandmebaasist koguma andmeid pikkuse, kaalu, töökoha, palga, ostukorvi jms kohta. Teate iga kliendi sugu, see võib olla ainult mees või naine. Klassifikaatori eesmärk on määrata teabe (st teie kogutud tunnuste) põhjal tõenäosus, et tegemist on mehe või naisega (st silt). Kui mudel õppis meest või naist ära tundma, saate ennustuse tegemiseks kasutada uusi andmeid. Näiteks saite just uut teavet tundmatult kliendilt ja soovite teada, kas see on mees või naine. Kui klassifikaator ennustab meest = 70%, tähendab see, et algoritm on 70% kindel, et see klient on mees ja 30% naine.

Märgistus võib olla kahest või enamast klassist. Ülaltoodud masinõppe näitel on ainult kaks klassi, kuid kui klassifikaator peab objekti ennustama, on sellel kümneid klasse (nt klaas, laud, kingad jne. iga objekt tähistab klassi)

Regressioon

Kui väljund on pidev väärtus, on ülesandeks regressioon. Näiteks võib finantsanalüütikul olla vaja prognoosida aktsia väärtust erinevate tunnuste, näiteks aktsiate, aktsiate varasemate tootluste ja makromajanduse indeksi põhjal. Süsteemi koolitatakse hindama aktsiate hinda võimalikult väikese veaga.

Algoritm	Kirjeldus	KASUTUSALA
Lineaarne regressioon	Leiab viisi iga funktsiooni korreleerimiseks väljundiga, et aidata ennustada tulevasi väärtusi.	Regressioon
Logistiline regressioon	Lineaarse regressiooni laiendus, mida kasutatakse klassifitseerimisülesannete jaoks. Väljundmuutuja 3 on pigem binaarne (nt ainult must või valge), mitte pidev (nt lõpmatu potentsiaalsete värvide loend)	Klassifikatsioon
Otsuste puu	Hästi tõlgendatav klassifikatsiooni- või regressioonimudel, mis jagab andmefunktsioonide väärtused otsustussõlmedes harudeks (nt kui tunnus on värv, muutub iga võimalik värv uueks haruks), kuni tehakse lõplik otsus.	Regressioon Klassifikatsioon
Naiivne Bayes	Bayesi meetod on klassifitseerimismeetod, mis kasutab Bayesi teoreemi. Teoreem värskendab eelteadmisi sündmuse kohta iga sündmust mõjutada võiva tunnuse sõltumatu tõenäosusega.	Regressioon Klassifikatsioon
Toetage vektormasinat	Klassifitseerimisülesande jaoks kasutatakse tavaliselt tugivektori masinat ehk SVM-i. SVM-algoritm leiab hüpertasandi, mis jagab klassid optimaalselt. Seda on kõige parem kasutada koos mittelineaarse lahendajaga.	Regressioon (mitte väga levinud) Klassifikatsioon
Juhuslik mets	Algoritm on üles ehitatud otsustuspuule, et parandada täpsust drastiliselt. Juhuslik mets genereerib mitu korda lihtsaid otsustuspuid ja kasutab häälteenamuse meetodit, et otsustada, milline silt tagastada. Liigitusülesande puhul saab enim hääli saanud lõplik ennustus; samas kui regressiooniülesande puhul on kõigi puude keskmine ennustus lõplik ennustus.	Regressioon Klassifikatsioon
AdaBoost	Klassifikatsiooni- või regressioonitehnika, mis kasutab otsuse tegemiseks paljusid mudeleid, kuid kaalub neid tulemuse ennustamise täpsuse alusel	Regressioon Klassifikatsioon
Gradienti suurendavad puud	Gradienti suurendavad puud on nüüdisaegne klassifitseerimis-/regressioonitehnika. See keskendub eelmiste puude tehtud veale ja püüab seda parandada.	Regressioon Klassifikatsioon

Järelevalveta õppimine

Järelevalveta õppimise korral uurib algoritm sisendandmeid ilma selgesõnalist väljundmuutujat andmata (nt uurib klientide demograafilisi andmeid mustrite tuvastamiseks)

Saate seda kasutada, kui te ei tea, kuidas andmeid klassifitseerida ja soovite, et algoritm leiaks mustrid ja liigitaks andmed teie eest

Algoritmi nimi	Kirjeldus	KASUTUSALA
K-tähendab klastrite moodustamist	Jagab andmed teatud rühmadesse (k), millest igaüks sisaldab sarnaste omadustega andmeid (nagu on kindlaks määratud mudeli, mitte inimeste poolt eelnevalt)	Clusterse
Gaussi segumudel	K-keskmiste klastrite üldistus, mis annab suurema paindlikkuse rühmade (klastrite) suuruse ja kuju osas	Clusterse
Hierarhiline klastrite moodustamine	Jaotab klastrid hierarhilise puu järgi, et moodustada klassifitseerimissüsteem. Võib kasutada Cluster püsikliendikaardi klient	Clusterse
Soovitaja süsteem	Aidake määratleda soovituse tegemiseks asjakohased andmed.	Clusterse
PCA/T-SNE	Enamasti kasutatakse andmete mõõtmete vähendamiseks. Algoritmid vähendavad funktsioonide arvu 3 või 4 suurima dispersiooniga vektorini.	Mõõtmete vähendamine

Kuidas valida masinõppe algoritmi

Nüüd selles masinõppe põhitõdede õpetuses õpime, kuidas valida masinõppe (ML) algoritmi:

Masinõppe algoritme on palju. Algoritmi valik põhineb eesmärgil.

Allolevas masinõppe näites on ülesandeks ennustada lilletüüpi kolme sordi hulgast. Ennustused põhinevad kroonlehe pikkusel ja laiusel. Pildil on kujutatud kümne erineva algoritmi tulemusi. Üleval vasakul oleval pildil on andmestik. Andmed on jagatud kolme kategooriasse: punane, helesinine ja tumesinine. On mõned rühmitused. Näiteks alates teisest pildist kuulub kõik vasakpoolses ülaosas punasesse kategooriasse, keskosas on segu ebakindlusest ja helesinisest, alumine aga tumedast kategooriast. Teised pildid näitavad erinevaid algoritme ja seda, kuidas nad üritavad andmeid klassifitseerida.

Masinõppe väljakutsed ja piirangud

Nüüd selles masinõppe õpetuses õpime tundma masinõppe piiranguid:

Masinõppe peamine väljakutse on andmete puudumine või andmestiku mitmekesisus. Masin ei saa õppida, kui andmed puuduvad. Pealegi annab vähese mitmekesisusega andmekogu masinale raske aja. Masin peab olema heterogeenne, et omandada tähendusrikast ülevaadet. On haruldane, et algoritm suudab teavet välja võtta, kui variatsioone pole või on vähe. Soovitatav on teha vähemalt 20 vaatlust rühma kohta, et aidata masinal õppida. See piirang põhjustab halva hinnangu ja prognoosi.

Masinõppe rakendamine

Nüüd selles masinõppe õpetuses õpime masinõppe rakendusi:

Augmentatsioon:

Masinõpe, mis abistab inimesi nende igapäevaste ülesannete täitmisel isiklikult või äriliselt, omamata täielikku kontrolli väljundi üle. Sellist masinõpet kasutatakse erinevatel viisidel nagu virtuaalne assistent, andmeanalüüs, tarkvaralahendused. Peamine kasutaja on vähendada inimestest tingitud vigu.

Automaatika:

Masinõpe, mis töötab täiesti iseseisvalt mis tahes valdkonnas, ilma inimese sekkumiseta. Näiteks robotid, kes sooritavad tootmistehastes olulisi protsessietappe.

Finantstööstus

Masinõpe kasvab finantssektoris üha populaarsemaks. Pangad kasutavad peamiselt ML-i andmete seest mustrite leidmiseks, aga ka pettuste vältimiseks.

Valitsusorganisatsioon

Valitsus kasutab ML-i avaliku turvalisuse ja kommunaalteenuste haldamiseks. Võtke näiteks Hiina tohutu näotuvastusega. Valitsus kasutab tehisintellekti jaywalkeri ärahoidmiseks.

Tervishoiutööstus

Tervishoid oli üks esimesi tööstusharusid, mis kasutas pildituvastusega masinõpet.

Turundus

AI-d kasutatakse turunduses laialdaselt tänu rikkalikule juurdepääsule andmetele. Enne massiandmete ajastut töötasid teadlased välja täiustatud matemaatilisi tööriistu, nagu Bayesi analüüs, et hinnata kliendi väärtust. Andmebuumi tõttu toetub turundusosakond kliendisuhete ja turunduskampaania optimeerimiseks tehisintellektile.

Näide masinõppe rakendamisest tarneahelas

Masinõpe annab suurepäraseid tulemusi visuaalse mustrite tuvastamise jaoks, avades palju potentsiaalseid rakendusi füüsilises kontrollis ja hoolduses kogu tarneahela võrgus.

Järelevalveta õppimine võib kiiresti otsida võrreldavaid mustreid mitmekesisest andmekogumist. Masin omakorda saab läbi viia kvaliteedikontrolli kogu logistikakeskuses, kahjustuste ja kulumisega saadetistes.

Näiteks IBMWatsoni platvorm suudab kindlaks teha transpordikonteineri kahjustused. Watson ühendab visuaalsed ja süsteemipõhised andmed, et jälgida, aru anda ja teha soovitusi reaalajas.

Eelmisel aastal tugines laohaldur laoseisu hindamiseks ja prognoosimiseks laialdaselt esmasele meetodile. Suurandmete ja masinõppe kombineerimisel on rakendatud paremaid prognoosimistehnikaid (parandus 20–30% võrreldes traditsiooniliste prognoosimisvahenditega). Müügi osas tähendab see 2–3% kasvu, mis on tingitud laokulude võimalikust vähenemisest.

Näide masinõppest Google Car

Näiteks Google'i autot teavad kõik. Auto on katusel täis lasereid, mis näitavad ümbritsevat kohta. Selle ees on radar, mis teavitab autot kõigi seda ümbritsevate autode kiirusest ja liikumisest. Ta kasutab kõiki neid andmeid, et välja selgitada mitte ainult, kuidas autot juhtida, vaid ka selleks, et välja selgitada ja ennustada, mida potentsiaalsed juhid auto ümber teevad. Muljetavaldav on see, et auto töötleb peaaegu gigabaidi sekundis andmeid.

Miks on masinõpe oluline?

Masinõpe on seni parim tööriist andmete mustri analüüsimiseks, mõistmiseks ja tuvastamiseks. Üks masinõppe peamisi ideid on see, et arvutit saab õpetada automatiseerima ülesandeid, mis oleksid inimese jaoks ammendavad või võimatud. Traditsioonilise analüüsi selge rikkumine on see, et masinõpe suudab otsuseid vastu võtta minimaalse inimese sekkumisega.

Võtke selle ML-i õpetuse jaoks järgmine näide; jaemüüja saab hinnata maja hinda oma kogemuste ja turuteadmiste põhjal.

Masinat saab koolitada eksperdi teadmisi funktsioonideks tõlkima. Tunnusteks on kõik maja, naabruskonna, majanduskeskkonna jms omadused, mis hinnavahet teevad. Asjatundjal kulus maja hinna hindamise kunsti valdamiseks ilmselt mõni aasta. Tema teadmised lähevad pärast iga müüki aina paremaks.

Masina jaoks on selle kunsti valdamiseks vaja miljoneid andmeid (st näidet). Kohe õppimise alguses teeb masin vea, kuidagi nagu nooremmüüja. Kui masin näeb kogu näidet, sai ta hinnangu tegemiseks piisavalt teadmisi. Samas uskumatu täpsusega. Samuti suudab masin oma viga vastavalt kohandada.

Enamik suurettevõttest on mõistnud masinõppe ja andmete hoidmise väärtust. McKinsey on hinnanud, et analüütika väärtus jääb vahemikku $9.5 triljonit kuni $15.4 triljonit aega $5–7 triljonit võib omistada kõige arenenumatele AI-tehnikatele.

Loe ka Mis on häguloogika? ArchiTektuur, rakendus ja näide: Kliki siia

Masinõppe õpetus algajatele: mis on, ML põhitõed

Mis on masinõpe?

Masinõpe vs traditsiooniline programmeerimine