Nadzorowane uczenie maszynowe: co to jest, Algorithms z przykładami

Co to jest nadzorowane uczenie maszynowe?

Nadzorowane uczenie maszynowe to algorytm, który uczy się na podstawie oznaczonych danych szkoleniowych, aby pomóc Ci przewidzieć wyniki w przypadku nieprzewidzianych danych. W uczeniu nadzorowanym szkolisz maszynę, korzystając z dobrze „oznaczonych” danych. Oznacza to, że niektóre dane są już oznaczone poprawnymi odpowiedziami. Można to porównać do uczenia się w obecności przełożonego lub nauczyciela.

Pomyślne budowanie, skalowanie i wdrażanie dokładny nadzorowane modele uczenia maszynowego wymagają czasu i wiedzy technicznej zespołu wysoko wykwalifikowanych analityków danych. Ponadto, Dane naukowiec musi odbudować modele aby mieć pewność, że przekazane informacje pozostaną prawdziwe do czasu zmiany danych.

Jak działa uczenie się nadzorowane

Nadzorowane uczenie maszynowe wykorzystuje zestawy danych szkoleniowych do osiągnięcia pożądanych wyników. Te zestawy danych zawierają dane wejściowe i prawidłowe dane wyjściowe, które pomagają modelowi szybciej się uczyć. Na przykład chcesz przeszkolić maszynę, aby pomogła Ci przewidzieć, ile czasu zajmie Ci dotarcie z miejsca pracy do domu.

Tutaj zaczynasz od utworzenia zestawu oznaczonych etykietami danych. Dane te obejmują:

  • Warunki pogodowe
  • Pora dnia
  • Wakacje

Wszystkie te szczegóły to Twoje dane wejściowe w tym przykładzie uczenia nadzorowanego. Dane wyjściowe to ilość czasu, jaką zajęło dojechanie do domu w tym konkretnym dniu.

Jak działa nadzorowane uczenie maszynowe

Instynktownie wiesz, że jeśli na zewnątrz pada deszcz, podróż do domu zajmie Ci więcej czasu. Ale maszyna potrzebuje danych i statystyk.

Zobaczmy kilka przykładów uczenia się nadzorowanego, jak można opracować model uczenia się nadzorowanego na podstawie tego przykładu, który pomoże użytkownikowi określić czas dojazdu. Pierwszą rzeczą, którą musisz stworzyć, jest zestaw treningowy. Ten zestaw treningowy będzie zawierał całkowity czas dojazdu i odpowiednie czynniki, takie jak pogoda, czas itp. Na podstawie tego zestawu treningowego Twoja maszyna może wykryć bezpośredni związek między ilością deszczu a czasem potrzebnym na powrót do domu.

Ustala więc, że im bardziej pada deszcz, tym dłużej będziesz jechał, aby wrócić do domu. Może również wykryć związek między czasem, w którym wychodzisz z pracy, a czasem, w którym będziesz w drodze.

Im bliżej 6:XNUMX, tym dłużej trwa powrót do domu. Twoja maszyna może znaleźć niektóre powiązania z danymi oznaczonymi etykietami.

Działanie nadzorowanego uczenia maszynowego
Działanie nadzorowanego uczenia maszynowego

To jest początek Twojego modelu danych. Zaczyna wpływać na to, jak deszcz wpływa na sposób jazdy ludzi. Zaczyna również zauważać, że więcej osób podróżuje o określonej porze dnia.

Rodzaje nadzorowanego uczenia maszynowego Algorithms

Poniżej przedstawiono typy algorytmów nadzorowanego uczenia maszynowego:

Regresja

Technika regresji przewiduje pojedynczą wartość wyjściową na podstawie danych szkoleniowych.

Przykład: Możesz użyć regresji, aby przewidzieć cenę domu na podstawie danych szkoleniowych. Zmiennymi wejściowymi będą: lokalizacja, wielkość domu itp.

Silne strony: Wyniki zawsze mają interpretację probabilistyczną, a algorytm można uregulować, aby uniknąć nadmiernego dopasowania.

Słabości:Regresja logistyczna może nie działać prawidłowo, gdy istnieją liczne lub nieliniowe granice decyzyjne. Ta metoda nie jest elastyczna, więc nie obejmuje bardziej złożonych relacji.

Regresja logistyczna:

Metoda regresji logistycznej stosowana do szacowania wartości dyskretnych na podstawie zadanego zestawu zmiennych niezależnych. Pomaga przewidzieć prawdopodobieństwo wystąpienia zdarzenia poprzez dopasowanie danych do funkcji logitowej. Dlatego nazywa się ją również regresją logistyczną. Ponieważ przewiduje prawdopodobieństwo, jego wartość wyjściowa mieści się w przedziale od 0 do 1.

Oto kilka rodzajów regresji Algorithms

Klasyfikacja

Klasyfikacja oznacza grupowanie danych wyjściowych w obrębie klasy. Jeśli algorytm próbuje przyporządkować dane wejściowe do dwóch odrębnych klas, nazywa się to klasyfikacją binarną. Wybór pomiędzy więcej niż dwiema klasami nazywany jest klasyfikacją wieloklasową.

Przykład: Ustalenie, czy dana osoba nie spłaci pożyczki.

Silne strony: Drzewo klasyfikacyjne sprawdza się bardzo dobrze w praktyce

Słabości: Nieograniczone, pojedyncze drzewa są podatne na nadmierne dopasowanie.

Oto kilka rodzajów klasyfikacji Algorithms

Naiwne klasyfikatory Bayesa

Naiwny model bayesowski (NBN) jest łatwy do zbudowania i bardzo przydatny w przypadku dużych zbiorów danych. Metoda ta składa się z bezpośrednich grafów acyklicznych z jednym rodzicem i kilkoma dziećmi. Zakłada niezależność między węzłami potomnymi oddzielonymi od węzła nadrzędnego.

Drzewa decyzyjne

Drzewa decyzyjne klasyfikują instancje, sortując je na podstawie wartości cechy. W tej metodzie każdy tryb jest cechą instancji. Należy go sklasyfikować, a każda gałąź reprezentuje wartość, którą węzeł może przyjąć. Jest to powszechnie stosowana technika klasyfikacji. W tej metodzie klasyfikacja ma postać drzewa zwanego drzewem decyzyjnym.

Pomaga oszacować realne wartości (koszt zakupu samochodu, ilość rozmów, łączna miesięczna sprzedaż itp.).

Maszyna wektorów nośnych

Maszyna wektorów nośnych (SVM) to rodzaj algorytmu uczenia się opracowany w 1990 roku. Metoda ta opiera się na wynikach statystycznej teorii uczenia się wprowadzonej przez Vapa Nika.

Maszyny SVM są również ściśle powiązane z funkcjami jądra, co stanowi centralną koncepcję większości zadań edukacyjnych. Struktura jądra i SVM są wykorzystywane w różnych dziedzinach. Obejmuje wyszukiwanie informacji multimedialnych, bioinformatykę i rozpoznawanie wzorców.

Nadzorowane i nienadzorowane techniki uczenia maszynowego

Oparte na Technika uczenia maszynowego pod nadzorem Technika uczenia maszynowego bez nadzoru
Dane wejściowe Algorithms są szkolone przy użyciu oznakowanych danych. Algorithms są używane w odniesieniu do danych, które nie są oznaczone
Złożoność obliczeniowa Uczenie się pod nadzorem jest prostszą metodą. Uczenie się bez nadzoru jest obliczeniowo złożone
Dokładność Metoda bardzo dokładna i godna zaufania. Less metoda dokładna i wiarygodna.

Wyzwania w nadzorowanym uczeniu maszynowym

Oto wyzwania stojące przed nadzorowanym uczeniem maszynowym:

  • Nieistotna funkcja wejściowa, obecne dane treningowe mogą dawać niedokładne wyniki
  • Przygotowanie i wstępne przetwarzanie danych jest zawsze wyzwaniem.
  • Dokładność spada, gdy jako dane szkoleniowe wprowadzane są niemożliwe, mało prawdopodobne i niekompletne wartości
  • Jeśli dany ekspert nie jest dostępny, wówczas drugim podejściem jest „brutalna siła”. Oznacza to, że musisz pomyśleć o odpowiednich funkcjach (zmiennych wejściowych), na których będzie można szkolić maszynę. Może to być niedokładne.

Zalety uczenia się pod nadzorem

Oto zalety nadzorowanego uczenia maszynowego:

  • Nauka pod nadzorem w Nauczanie maszynowe umożliwia gromadzenie danych lub wytwarzanie danych wyjściowych z poprzedniego doświadczenia
  • Pomaga zoptymalizować kryteria wydajności, korzystając z doświadczenia
  • Nadzorowane uczenie maszynowe pomaga rozwiązywać różnego rodzaju problemy obliczeniowe w świecie rzeczywistym.

Wady uczenia się pod nadzorem

Poniżej przedstawiono wady nadzorowanego uczenia maszynowego:

  • Granica decyzji może zostać przetrenowana, jeśli Twój zestaw treningowy nie zawiera przykładów, które chcesz mieć w klasie
  • Podczas szkolenia klasyfikatora musisz wybrać wiele dobrych przykładów z każdej klasy.
  • Klasyfikacja big danych może być prawdziwym wyzwaniem.
  • Szkolenie w zakresie uczenia się pod nadzorem wymaga dużej ilości czasu obliczeniowego.

Najlepsze praktyki w zakresie uczenia się pod nadzorem

  • Zanim zrobisz cokolwiek innego, musisz zdecydować, jakiego rodzaju dane mają zostać użyte jako zbiór szkoleniowy
  • Musisz zdecydować o strukturze wyuczonej funkcji i algorytmie uczenia się.
  • Zbierz odpowiednie dane wyjściowe od ekspertów lub z pomiarów

Podsumowanie

  • W algorytmach uczenia nadzorowanego maszynę trenuje się przy użyciu danych, które są dobrze „oznakowane”.
  • Jeśli chcesz wytrenować maszynę, która pomoże Ci przewidzieć, ile czasu zajmie Ci dotarcie z miejsca pracy do domu, jest to przykład uczenia się pod nadzorem.
  • Regresja i klasyfikacja to dwa wymiary algorytmu nadzorowanego uczenia maszynowego.
  • Nadzorowana nauka jest prostszą metodą, natomiast uczenie bez nadzoru jest metodą złożoną.
  • Największym wyzwaniem w uczeniu nadzorowanym jest to, że nieistotna funkcja wejściowa, obecne dane szkoleniowe, może dawać niedokładne wyniki.
  • Główną zaletą uczenia się pod nadzorem jest to, że pozwala ono gromadzić dane lub generować dane wyjściowe na podstawie poprzedniego doświadczenia.
  • Wadą tego modelu jest to, że granica decyzyjna może zostać przeciążona, jeśli w zestawie treningowym nie ma przykładów, które chcesz mieć w klasie.
  • Zgodnie z najlepszą praktyką uczenia się z nadzorem należy najpierw zdecydować, jakiego rodzaju dane należy wykorzystać jako zbiór szkoleniowy.

Podsumuj ten post następująco: