Begeleid machinaal leren: wat is, Algorithms met voorbeelden
Wat is begeleid machine learning?
Machinaal leren onder toezicht is een algoritme dat leert van gelabelde trainingsgegevens om u te helpen de uitkomsten van onvoorziene gegevens te voorspellen. Bij begeleid leren train je de machine met behulp van gegevens die goed zijn 'gelabeld'. Het betekent dat sommige gegevens al zijn getagd met de juiste antwoorden. Het kan worden vergeleken met leren in aanwezigheid van een supervisor of een leraar.
Succesvol bouwen, schalen en implementeren accuraat Machine learning-modellen onder toezicht vergen tijd en technische expertise van een team van zeer bekwame datawetenschappers. Bovendien, Data wetenschapper moet herbouwen modellen om ervoor te zorgen dat de gegeven inzichten waar blijven totdat de gegevens veranderen.
Hoe begeleid leren werkt
Machine learning onder toezicht maakt gebruik van trainingsdatasets om de gewenste resultaten te bereiken. Deze datasets bevatten input en de juiste output waardoor het model sneller leert. U wilt bijvoorbeeld een machine trainen om u te helpen voorspellen hoe lang het duurt voordat u van uw werkplek naar huis rijdt.
Hier begint u met het maken van een set gelabelde gegevens. Deze gegevens omvatten:
- Weersomstandigheden
- Tijd van de dag
- Holidays
Al deze details zijn uw input in dit Supervised learning-voorbeeld. De output is de hoeveelheid tijd die het kostte om op die specifieke dag terug naar huis te rijden.
Je weet instinctief dat als het buiten regent, het langer duurt om naar huis te rijden. Maar de machine heeft data en statistieken nodig.
Laten we enkele voorbeelden van begeleid leren bekijken over hoe u een begeleid leermodel van dit voorbeeld kunt ontwikkelen, waarmee de gebruiker de reistijd kan bepalen. Het eerste dat u moet maken, is een trainingsset. Deze trainingsset bevat de totale reistijd en bijbehorende factoren zoals het weer, de tijd, enz. Op basis van deze trainingsset kan uw machine zien dat er een directe relatie bestaat tussen de hoeveelheid regen en de tijd die u nodig heeft om thuis te komen.
Het stelt dus vast dat hoe meer het regent, hoe langer u zult rijden om terug naar huis te gaan. Het kan ook het verband zien tussen het tijdstip waarop u uw werk verlaat en het tijdstip waarop u onderweg bent.
Hoe dichter je bij 6 uur bent, hoe langer het duurt voordat je thuiskomt. Mogelijk vindt uw machine enkele relaties met uw gelabelde gegevens.

Dit is het begin van uw gegevensmodel. Het begint invloed te krijgen op de manier waarop regen de manier waarop mensen rijden beรฏnvloedt. Het begint ook te zien dat meer mensen op een bepaald tijdstip van de dag reizen.
Soorten begeleid machinaal leren Algorithms
Hieronder staan โโde typen Supervised Machine Learning-algoritmen:
Regressie
Regressietechniek voorspelt een enkele outputwaarde op basis van trainingsgegevens.
Voorbeeld: U kunt regressie gebruiken om de huizenprijs te voorspellen op basis van trainingsgegevens. De invoervariabelen zijn de locatie, de grootte van een huis, enz.
Sterke punten: Uitvoer heeft altijd een probabilistische interpretatie en het algoritme kan worden geregulariseerd om overfitting te voorkomen.
Zwakke punten: Logistische regressie kan ondermaats presteren als er meerdere of niet-lineaire beslissingsgrenzen zijn. Deze methode is niet flexibel, dus het legt geen complexere relaties vast.
Logistieke regressie:
Logistische regressiemethode die wordt gebruikt om discrete waarden te schatten op basis van een gegeven reeks onafhankelijke variabelen. Het helpt u de waarschijnlijkheid van het optreden van een gebeurtenis te voorspellen door gegevens aan een logitfunctie te koppelen. Daarom wordt het ook wel logistische regressie genoemd. Omdat het de waarschijnlijkheid voorspelt, ligt de uitgangswaarde tussen 0 en 1.
Hier zijn een paar soorten regressie Algorithms
Classificatie
Classificatie betekent het groeperen van de uitvoer binnen een klasse. Als het algoritme invoer in twee verschillende klassen probeert te labelen, wordt dit binaire classificatie genoemd. Het selecteren tussen meer dan twee klassen wordt multiklasseclassificatie genoemd.
Voorbeeld: Bepalen of iemand al dan niet in gebreke blijft met de lening.
Sterke punten: Classificatieboom presteert in de praktijk zeer goed
Zwakke punten: Onbeperkte individuele bomen zijn gevoelig voor overfitting.
Hier zijn een paar soorten classificatie Algorithms
Naรฏeve Bayes-classificatoren
Het naรฏeve Bayesiaanse model (NBN) is eenvoudig te bouwen en zeer nuttig voor grote datasets. Deze methode bestaat uit directe acyclische grafieken met รฉรฉn ouder en meerdere kinderen. Het veronderstelt onafhankelijkheid tussen onderliggende knooppunten die gescheiden zijn van hun ouder.
Beslissingsbomen
Beslissingsbomen classificeren instanties door ze te sorteren op basis van de kenmerkwaarde. Bij deze methode is elke modus het kenmerk van een instantie. Het moet worden geclassificeerd en elke tak vertegenwoordigt een waarde die het knooppunt kan aannemen. Het is een veelgebruikte techniek voor classificatie. Bij deze methode is classificatie een boom die bekend staat als een beslissingsboom.
Het helpt u bij het inschatten van de werkelijke waarden (kosten voor de aankoop van een auto, aantal oproepen, totale maandelijkse verkopen, enz.).
Ondersteuning van Vector Machine
Support vector machine (SVM) is een type leeralgoritme ontwikkeld in 1990. Deze methode is gebaseerd op resultaten van de statistische leertheorie geรฏntroduceerd door Vap Nik.
SVM-machines zijn ook nauw verbonden met kernelfuncties, wat een centraal concept is voor de meeste leertaken. Het kernelframework en SVM worden op verschillende gebieden gebruikt. Het omvat het ophalen van multimedia-informatie, bio-informatica en patroonherkenning.
Onder toezicht versus onbewaakte technieken voor machine learning
| Gebaseerd op | Machine learning-techniek onder toezicht | Machine learning-techniek zonder toezicht |
|---|---|---|
| Invoergegevens | Algorithms worden getraind met behulp van gelabelde gegevens. | Algorithms worden gebruikt tegen gegevens die niet zijn gelabeld |
| Computationele complexiteit | Begeleid leren is een eenvoudiger methode. | Ongeleid leren is rekenkundig complex |
| Nauwkeurigheid | Zeer nauwkeurige en betrouwbare methode. | Less nauwkeurige en betrouwbare methode. |
Uitdagingen bij begeleid machinaal leren
Dit zijn de uitdagingen waarmee men te maken krijgt bij machinaal leren onder toezicht:
- Irrelevante invoerkenmerken van huidige trainingsgegevens kunnen onnauwkeurige resultaten opleveren
- Het voorbereiden en voorbewerken van gegevens is altijd een uitdaging.
- De nauwkeurigheid gaat achteruit als onmogelijke, onwaarschijnlijke en onvolledige waarden als trainingsgegevens zijn ingevoerd
- Als de betrokken deskundige niet beschikbaar is, is de andere aanpak โbrute forceโ. Het betekent dat u moet nadenken over de juiste functies (invoervariabelen) om de machine op te trainen. Het kan onnauwkeurig zijn.
Voordelen van begeleid leren
Dit zijn de voordelen van begeleid machinaal leren:
- Begeleid leren in Machine leren stelt u in staat gegevens te verzamelen of een gegevensuitvoer uit de vorige ervaring te produceren
- Helpt u prestatiecriteria te optimaliseren op basis van ervaring
- Machine learning onder toezicht helpt u bij het oplossen van verschillende soorten rekenproblemen in de echte wereld.
Nadelen van begeleid leren
Hieronder staan โโde nadelen van Supervised Machine learning:
- De beslissingsgrens kan overtraind zijn als uw trainingsset geen voorbeelden bevat die u in een klas wilt hebben
- U moet uit elke klas veel goede voorbeelden selecteren terwijl u de classificator traint.
- classificeren big data kan een echte uitdaging zijn.
- Het trainen van begeleid leren vergt veel rekentijd.
Beste praktijken voor begeleid leren
- Voordat u iets anders doet, moet u beslissen welk soort gegevens u als trainingsset wilt gebruiken
- U moet de structuur van de geleerde functie en het leeralgoritme bepalen.
- Verzamel overeenkomstige resultaten van menselijke experts of van metingen
Samenvatting
- Bij Supervised Learning-algoritmen traint u de machine met behulp van gegevens die goed zijn 'gelabeld'.
- U een machine wilt trainen die u helpt te voorspellen hoe lang het duurt voordat u van uw werkplek naar huis rijdt, is een voorbeeld van begeleid leren.
- Regressie en classificatie zijn twee dimensies van een Supervised Machine Learning-algoritme.
- Leren onder toezicht is een eenvoudigere methode, terwijl ongeleid leren een complexere methode is.
- De grootste uitdaging bij begeleid leren is dat irrelevante invoer van huidige trainingsgegevens onnauwkeurige resultaten kan opleveren.
- Het belangrijkste voordeel van begeleid leren is dat u hiermee gegevens kunt verzamelen of een gegevensuitvoer kunt produceren uit eerdere ervaringen.
- Het nadeel van dit model is dat de beslissingsgrenzen overbelast kunnen raken als uw trainingsset geen voorbeelden bevat die u in een klas wilt hebben.
- Als best practice voor het begeleiden van leren moet u eerst beslissen welk soort gegevens als trainingsset moeten worden gebruikt.

