Supervised Machine Learning: Hvad er, Algorithms med eksempler

Hvad er Supervised Machine Learning?

Supervised Machine Learning er en algoritme, der lรฆrer af mรฆrkede trรฆningsdata for at hjรฆlpe dig med at forudsige resultater for uforudsete data. I Supervised learning trรฆner du maskinen ved hjรฆlp af data, der er godt "mรฆrket". Det betyder, at nogle data allerede er mรฆrket med korrekte svar. Det kan sammenlignes med at lรฆre i nรฆrvรฆrelse af en vejleder eller en lรฆrer.

Succesfuld opbygning, skalering og implementering prรฆcis overvรฅgede maskinlรฆringsmodeller tager tid og teknisk ekspertise fra et team af hรธjtuddannede dataforskere. I รธvrigt, Data videnskabsmand skal genopbygge modeller for at sikre, at den givne indsigt forbliver sand, indtil dens data รฆndres.

Hvordan Supervised Learning fungerer

Overvรฅget maskinlรฆring bruger trรฆningsdatasรฆt til at opnรฅ de รธnskede resultater. Disse datasรฆt indeholder input og det korrekte output, der hjรฆlper modellen med at lรฆre hurtigere. For eksempel vil du trรฆne en maskine til at hjรฆlpe dig med at forudsige, hvor lang tid det vil tage dig at kรธre hjem fra din arbejdsplads.

Her starter du med at oprette et sรฆt mรฆrkede data. Disse data inkluderer:

  • Vejrforhold
  • Tid pรฅ dagen
  • Holidays

Alle disse detaljer er dine input i dette eksempel pรฅ overvรฅget lรฆring. Outputtet er den tid, det tog at kรธre hjem pรฅ den specifikke dag.

Hvordan Supervised Machine Learning fungerer

Du ved instinktivt, at hvis det regner udenfor, sรฅ vil det tage dig lรฆngere tid at kรธre hjem. Men maskinen har brug for data og statistik.

Lad os se nogle eksempler pรฅ overvรฅget lรฆring om, hvordan du kan udvikle en overvรฅget lรฆringsmodel af dette eksempel, som hjรฆlper brugeren med at bestemme pendlingstiden. Det fรธrste du skal bruge for at lave er et trรฆningssรฆt. Dette trรฆningssรฆt vil indeholde den samlede pendlingstid og tilsvarende faktorer som vejr, tid osv. Baseret pรฅ dette trรฆningssรฆt kan din maskine se, at der er en direkte sammenhรฆng mellem mรฆngden af โ€‹โ€‹regn og den tid, det tager at komme hjem.

Sรฅ den konstaterer, at jo mere det regner, jo lรฆngere vil du kรธre for at komme tilbage til dit hjem. Det kan ogsรฅ se sammenhรฆngen mellem den tid, du forlader arbejdet, og den tid, du er pรฅ farten.

Jo tรฆttere du er pรฅ klokken 6, jo lรฆngere tid tager det for dig at komme hjem. Din maskine kan muligvis finde nogle af relationerne til dine mรฆrkede data.

Arbejde med Supervised Machine Learning
Arbejde med Supervised Machine Learning

Dette er starten pรฅ din datamodel. Det begynder at pรฅvirke, hvordan regn pรฅvirker den mรฅde, folk kรธrer pรฅ. Det begynder ogsรฅ at se, at flere mennesker rejser pรฅ et bestemt tidspunkt pรฅ dagen.

Typer af overvรฅget maskinlรฆring Algorithms

Fรธlgende er typerne af Supervised Machine Learning-algoritmer:

Regression

Regressionsteknik forudsiger en enkelt outputvรฆrdi ved hjรฆlp af trรฆningsdata.

Eksempel: Du kan bruge regression til at forudsige husprisen ud fra trรฆningsdata. Inputvariablerne vil vรฆre lokalitet, stรธrrelse pรฅ et hus osv.

Styrker: Outputs har altid en probabilistisk fortolkning, og algoritmen kan reguleres for at undgรฅ overfitting.

Svagheder: Logistisk regression kan underperforme, nรฅr der er flere eller ikke-lineรฆre beslutningsgrรฆnser. Denne metode er ikke fleksibel, sรฅ den fanger ikke mere komplekse relationer.

Logistisk regression:

Logistisk regressionsmetode brugt til at estimere diskrete vรฆrdier baseret pรฅ et givet sรฆt af uafhรฆngige variable. Det hjรฆlper dig med at forudsige sandsynligheden for forekomst af en hรฆndelse ved at tilpasse data til en logit-funktion. Derfor er det ogsรฅ kendt som logistisk regression. Da den forudsiger sandsynligheden, ligger dens outputvรฆrdi mellem 0 og 1.

Her er et par typer af regression Algorithms

Klassifikation

Klassificering betyder at gruppere outputtet i en klasse. Hvis algoritmen forsรธger at mรฆrke input i to adskilte klasser, kaldes det binรฆr klassifikation. At vรฆlge mellem mere end to klasser kaldes multiklasseklassifikation.

Eksempel: Bestemmelse af, om nogen vil vรฆre en misligholder af lรฅnet.

Styrker: Klassifikationstrรฆet fungerer meget godt i praksis

Svagheder: Ubegrรฆnsede, individuelle trรฆer er tilbรธjelige til at overmontere.

Her er et par typer klassifikation Algorithms

Naive Bayes Classifiers

Naiv Bayesian model (NBN) er nem at bygge og meget nyttig til store datasรฆt. Denne metode er sammensat af direkte acykliske grafer med en forรฆlder og flere bรธrn. Det forudsรฆtter uafhรฆngighed blandt bรธrneknuder adskilt fra deres forรฆlder.

Beslutningstrรฆer

Beslutningstrรฆer klassificerer instanser ved at sortere dem baseret pรฅ funktionsvรฆrdien. I denne metode er hver tilstand funktionen af โ€‹โ€‹en instans. Det bรธr klassificeres, og hver gren reprรฆsenterer en vรฆrdi, som knudepunktet kan antage. Det er en meget brugt teknik til klassificering. I denne metode er klassifikation et trรฆ, der er kendt som et beslutningstrรฆ.

Det hjรฆlper dig med at estimere reelle vรฆrdier (omkostninger ved at kรธbe en bil, antal opkald, det samlede mรฅnedlige salg osv.).

Support Vector Machine

Support vector machine (SVM) er en type lรฆringsalgoritme udviklet i 1990. Denne metode er baseret pรฅ resultater fra statistisk lรฆringsteori introduceret af Vap Nik.

SVM-maskiner er ogsรฅ tรฆt forbundet med kernefunktioner, hvilket er et centralt koncept for de fleste lรฆringsopgaver. Kernelrammerne og SVM bruges pรฅ en rรฆkke forskellige omrรฅder. Det omfatter multimedieinformationssรธgning, bioinformatik og mรธnstergenkendelse.

Overvรฅgede vs. Ikke-overvรฅgede Maskinlรฆringsteknikker

Baseret pรฅ Overvรฅget maskinlรฆringsteknik Uovervรฅget maskinlรฆringsteknik
Inputdata Algorithms trรฆnes ved hjรฆlp af mรฆrkede data. Algorithms bruges mod data, der ikke er mรฆrket
Beregningsmรฆssig kompleksitet Superviseret lรฆring er en enklere metode. Uovervรฅget lรฆring er beregningsmรฆssigt komplekst
Nรธjagtighed Meget nรธjagtig og pรฅlidelig metode. Less prรฆcis og trovรฆrdig metode.

Udfordringer i overvรฅget maskinlรฆring

Her er udfordringerne i overvรฅget maskinlรฆring:

  • Irrelevant inputfunktion nuvรฆrende trรฆningsdata kan give unรธjagtige resultater
  • Dataforberedelse og forbehandling er altid en udfordring.
  • Nรธjagtigheden lider, nรฅr umulige, usandsynlige og ufuldstรฆndige vรฆrdier er blevet indtastet som trรฆningsdata
  • Hvis den pรฅgรฆldende ekspert ikke er tilgรฆngelig, sรฅ er den anden tilgang "brute-force". Det betyder, at du skal tรฆnke pรฅ, at de rigtige funktioner (inputvariabler) at trรฆne maskinen pรฅ. Det kan vรฆre unรธjagtigt.

Fordele ved Supervised Learning

Her er fordelene ved Supervised Machine learning:

  • Superviseret lรฆring i Maskinelรฆring giver dig mulighed for at indsamle data eller producere et dataoutput fra den tidligere erfaring
  • Hjรฆlper dig med at optimere prรฆstationskriterier ved hjรฆlp af erfaring
  • Overvรฅget maskinlรฆring hjรฆlper dig med at lรธse forskellige typer af regneproblemer i den virkelige verden.

Ulemper ved Supervised Learning

Nedenfor er ulemperne ved Supervised Machine learning:

  • Beslutningsgrรฆnsen kan vรฆre overtrรฆnet, hvis dit trรฆningssรฆt ikke har eksempler, som du vil have i en klasse
  • Du skal vรฆlge en masse gode eksempler fra hver klasse, mens du trรฆner klassificereren.
  • klassificering big data kan vรฆre en reel udfordring.
  • Trรฆning til superviseret lรฆring krรฆver meget regnetid.

Bedste praksis for Supervised Learning

  • Fรธr du gรธr noget andet, skal du beslutte, hvilken slags data der skal bruges som trรฆningssรฆt
  • Du skal bestemme strukturen af โ€‹โ€‹den indlรฆrte funktion og indlรฆringsalgoritmen.
  • Indsaml tilsvarende output enten fra menneskelige eksperter eller fra mรฅlinger

Resumรฉ

  • I overvรฅgede lรฆringsalgoritmer trรฆner du maskinen ved at bruge data, som er godt "mรฆrket".
  • Du vil trรฆne en maskine, som hjรฆlper dig med at forudsige, hvor lang tid det vil tage dig at kรธre hjem fra din arbejdsplads, er et eksempel pรฅ Supervised learning.
  • Regression og klassificering er to dimensioner af en Supervised Machine Learning-algoritme.
  • Overvรฅget lรฆring er en enklere metode, mens uovervรฅget lรฆring er en kompleks metode.
  • Den stรธrste udfordring i superviseret lรฆring er, at irrelevante inputfunktioner til stede trรฆningsdata kan give unรธjagtige resultater.
  • Den stรธrste fordel ved superviseret lรฆring er, at det giver dig mulighed for at indsamle data eller producere et dataoutput fra den tidligere erfaring.
  • Ulempen ved denne model er, at beslutningsgrรฆnsen kan vรฆre overanstrengt, hvis dit trรฆningssรฆt ikke har eksempler, som du รธnsker at have i en klasse.
  • Som en bedste praksis for at overvรฅge lรฆring skal du fรธrst beslutte, hvilken slags data der skal bruges som et trรฆningssรฆt.

Opsummer dette indlรฆg med: