Урок за машинно обучение за начинаещи: Какво е, Основи на ML

Какво е машинно обучение?

Machine Learning е система от компютърни алгоритми, които могат да се учат от пример чрез самоусъвършенстване, без да бъдат изрично кодирани от програмист. Машинното обучение е част от изкуствения интелект, който комбинира данни със статистически инструменти, за да предскаже резултат, който може да се използва за правене на прозрения, които могат да бъдат предприети.

Пробивът идва с идеята, че една машина може самостоятелно да се учи от данните (т.е. пример), за да произвежда точни резултати. Машинното обучение е тясно свързано с извличането на данни и байесовото прогнозно моделиране. Машината получава данни като вход и използва алгоритъм за формулиране на отговори.

Типичните задачи за машинно обучение са предоставяне на препоръка. За тези, които имат Netflix акаунт, всички препоръки за филми или сериали се основават на историческите данни на потребителя. Технологичните компании използват учене без надзор за подобряване на потребителското изживяване с персонализирана препоръка.

Машинното обучение се използва и за различни задачи като откриване на измами, предсказуема поддръжка, оптимизиране на портфолио, автоматизиране на задача и т.н.

Машинно обучение срещу традиционно програмиране

Традиционното програмиране се различава значително от машинното обучение. В традиционното програмиране програмистът кодира всички правила след консултация с експерт в индустрията, за която се разработва софтуерът. Всяко правило се основава на логическа основа; машината ще изпълни изход след логическия израз. Когато системата стане сложна, трябва да се напишат повече правила. Може бързо да стане неустойчиво за поддръжка.

Предполага се, че машинното обучение ще преодолее този проблем. Машината научава как са свързани входните и изходните данни и пише правило. Програмистите не трябва да пишат нови правила всеки път, когато има нови данни. Алгоритмите се адаптират в отговор на нови данни и опит, за да подобрят ефикасността с течение на времето.

Как работи машинното обучение?

Сега в този урок за основите на машинното обучение за начинаещи ще научим как работи машинното обучение (ML):

Машинното обучение е мозъкът, където се извършва цялото обучение. Начинът, по който машината се учи, е подобен на човешкия. Хората се учат от опита. Колкото повече знаем, толкова по-лесно можем да предвидим. По аналогия, когато сме изправени пред непозната ситуация, вероятността за успех е по-ниска от известната ситуация. Машините се обучават еднакво. За да направи точна прогноза, машината вижда пример. Когато дадем на машината подобен пример, тя може да разбере резултата. Въпреки това, като човек, ако захранва невиждан досега пример, машината има трудности да предвиди.

Основната цел на машинното обучение е обучение намлява извод. На първо място, машината се учи чрез откриването на модели. Това откритие е направено благодарение на данни. Една решаваща част от специалиста по данни е да избира внимателно кои данни да предостави на машината. Списъкът с атрибути, използвани за решаване на проблем, се нарича a вектор на характеристиките. Можете да мислите за вектор на характеристики като подмножество от данни, които се използват за справяне с проблем.

Машината използва някои фантастични алгоритми, за да опрости реалността и да трансформира това откритие в модел. Следователно етапът на обучение се използва за описание на данните и обобщаването им в модел.

Например, машината се опитва да разбере връзката между заплатата на индивида и вероятността да отиде в изискан ресторант. Оказва се, че машината намира положителна връзка между заплатата и посещението на ресторант от висок клас: това е моделът

Заключение

Когато моделът е изграден, е възможно да се тества колко мощен е върху невиждани досега данни. Новите данни се трансформират във вектор на характеристиките, преминават през модела и дават прогноза. Всичко това е красивата част от машинното обучение. Няма нужда да актуализирате правилата или да обучавате отново модела. Можете да използвате предварително обучения модел, за да направите изводи върху нови данни.

Животът на програмите за машинно обучение е ясен и може да бъде обобщен в следните точки:

Дефинирайте въпрос
Събиране на данни
Визуализирайте данните
Алгоритъм за влак
Тествайте алгоритъма
Съберете обратна връзка
Усъвършенствайте алгоритъма
Цикъл 4-7, докато резултатите са задоволителни
Използвайте модела, за да направите прогноза

След като алгоритъмът стане добър в правенето на правилните заключения, той прилага това знание към нови набори от данни.

Machine Learning Algorithms и къде се използват?

Сега в този урок за машинно обучение за начинаещи ще научим къде се използват алгоритмите за машинно обучение (ML):

Машинното обучение може да бъде групирано в две широки задачи за обучение: контролирано и неконтролирано. Има много други алгоритми

Контролирано обучение

Алгоритъмът използва данни за обучение и обратна връзка от хора, за да научи връзката на дадени входове с даден изход. Например, практикуващият може да използва маркетингови разходи и прогноза за времето като входни данни, за да предвиди продажбите на консерви.

Можете да използвате контролирано обучение, когато изходните данни са известни. Алгоритъмът ще предвиди нови данни.

Има две категории на контролирано обучение:

Задача за класификация
Регресионна задача

Класификация

Представете си, че искате да предвидите пола на клиент за реклама. Ще започнете да събирате данни за височината, теглото, работата, заплатата, кошницата за покупки и т.н. от вашата клиентска база данни. Знаете пола на всеки ваш клиент, той може да бъде само мъж или жена. Целта на класификатора ще бъде да присвои вероятност да бъде мъж или жена (т.е. етикет) въз основа на информацията (т.е. функции, които сте събрали). Когато моделът се научи как да разпознава мъж или жена, можете да използвате нови данни, за да направите прогноза. Например току-що сте получили нова информация от непознат клиент и искате да знаете дали е мъж или жена. Ако класификаторът прогнозира мъж = 70%, това означава, че алгоритъмът е сигурен на 70%, че този клиент е мъж, а 30% е жена.

Етикетът може да бъде от два или повече класа. Горният пример за машинно обучение има само два класа, но ако класификаторът трябва да предвиди обект, той има десетки класове (напр. стъкло, маса, обувки и т.н. всеки обект представлява клас)

Регресия

Когато изходът е непрекъсната стойност, задачата е регресия. Например, може да се наложи финансов анализатор да прогнозира стойността на дадена акция въз основа на набор от характеристики като капитал, предишни показатели на акциите, макроикономически индекс. Системата ще бъде обучена да изчислява цената на акциите с възможно най-ниска грешка.

алгоритъм	Descriptйон	Тип
Линейна регресия	Намира начин да съпостави всяка характеристика с изхода, за да помогне за прогнозиране на бъдещи стойности.	Регресия
Логистична регресия	Разширение на линейната регресия, което се използва за задачи за класификация. Изходната променлива 3 е двоична (напр. само черно или бяло), а не непрекъсната (напр. безкраен списък от потенциални цветове)	Класификация
Дърво на решенията	Силно интерпретируем класификация или регресионен модел, който разделя стойностите на характеристиките на данните на клонове във възлите за вземане на решения (напр. ако дадена характеристика е цвят, всеки възможен цвят става нов клон), докато не бъде направен окончателен резултат за решение	Регресия Класификация
Наивен Байес	Байесовият метод е класификационен метод, който използва теоремата на Байес. Теоремата актуализира предишните знания за събитие с независимата вероятност за всяка характеристика, която може да повлияе на събитието.	Регресия Класификация
Поддръжка на векторна машина	Support Vector Machine, или SVM, обикновено се използва за задачата за класификация. Алгоритъмът SVM намира хиперравнина, която оптимално разделя класовете. Най-добре се използва с нелинеен решаващ инструмент.	Регресия (не много често) Класификация
Случайна гора	Алгоритъмът е изграден върху дърво на решенията за драстично подобряване на точността. Случайната гора генерира многократно прости дървета на решения и използва метода на „мнозинството на гласовете“, за да реши кой етикет да върне. За задачата за класифициране крайната прогноза ще бъде тази с най-много гласове; докато за задачата за регресия, средната прогноза за всички дървета е крайната прогноза.	Регресия Класификация
AdaBoost	Техника за класификация или регресия, която използва множество модели, за да излезе с решение, но ги претегля въз основа на тяхната точност при прогнозиране на резултата	Регресия Класификация
Градиентно усилващи дървета	Дърветата с градиентно усилване са най-съвременна техника за класификация/регресия. Той се фокусира върху грешката, допусната от предишните дървета, и се опитва да я коригира.	Регресия Класификация

Неуправляемо обучение

При неконтролирано обучение алгоритъмът изследва входните данни, без да му е дадена изрична изходна променлива (напр. изследва демографските данни на клиента, за да идентифицира модели)

Можете да го използвате, когато не знаете как да класифицирате данните и искате алгоритъмът да намери модели и да класифицира данните вместо вас

Име на алгоритъма	Descriptйон	Тип
K-означава групиране	Поставя данни в някои групи (k), всяка от които съдържа данни с подобни характеристики (както е определено от модела, а не предварително от хората)	ClusterING
Модел на гаусовата смес	Обобщение на k-означава групиране, което осигурява повече гъвкавост в размера и формата на групите (клъстери)	ClusterING
Йерархично групиране	Разделя клъстери по йерархично дърво, за да формира класификационна система. Може да се използва за Cluster клиент на карта за лоялност	ClusterING
Препоръчителна система	Помощ за определяне на съответните данни за изготвяне на препоръка.	ClusterING
PCA/T-SNE	Използва се предимно за намаляване на размерността на данните. Алгоритмите намаляват броя на характеристиките до 3 или 4 вектора с най-високи дисперсии.	Намаляване на размерите

Как да изберем алгоритъм за машинно обучение

Сега в този урок за основите на машинното обучение ще научим как да изберем алгоритъм за машинно обучение (ML):

Има много алгоритми за машинно обучение. Изборът на алгоритъм се основава на целта.

В примера за машинно обучение по-долу задачата е да се предскаже вида цвете сред трите разновидности. Прогнозите се основават на дължината и ширината на венчелистчето. Картината изобразява резултатите от десет различни алгоритъма. Картината горе вляво е наборът от данни. Данните са класифицирани в три категории: червено, светло синьо и тъмно синьо. Има някои групировки. Например, от второто изображение всичко в горния ляв ъгъл принадлежи към червената категория, в средната част има смесица от несигурност и светло синьо, докато долната част съответства на тъмната категория. Другите изображения показват различни алгоритми и как се опитват да класифицират данните.

Предизвикателства и ограничения на машинното обучение

Сега в този урок за машинно обучение ще научим за ограниченията на машинното обучение:

Основното предизвикателство на машинното обучение е липсата на данни или разнообразието в набора от данни. Една машина не може да се учи, ако няма налични данни. Освен това набор от данни с липса на разнообразие затруднява машината. Една машина трябва да има хетерогенност, за да научи смислено прозрение. Рядко се случва алгоритъм да извлече информация, когато няма или има малко варианти. Препоръчително е да имате поне 20 наблюдения на група, за да помогнете на машината да се учи. Това ограничение води до лоша оценка и прогноза.

Приложение на машинното обучение

Сега в този урок за машинно обучение, нека научим приложенията на машинното обучение:

уголемяване:

Машинно обучение, което помага на хората с техните ежедневни задачи, лично или търговско, без да имат пълен контрол върху изхода. Такова машинно обучение се използва по различни начини като виртуален асистент, анализ на данни, софтуерни решения. Основният потребител е да намали грешките, дължащи се на човешки пристрастия.

Автоматизация:

Машинно обучение, което работи напълно автономно във всяка област, без да е необходима човешка намеса. Например роботи, изпълняващи основните етапи на процеса в производствените предприятия.

Финансова индустрия

Машинното обучение става все по-популярно във финансовата индустрия. Банките използват главно машинно обучение, за да намерят модели в данните, но също така и за предотвратяване на измами.

Държавна организация

Правителството използва ML за управление на обществената безопасност и комунални услуги. Вземете примера на Китай с масовото разпознаване на лица. Правителството използва Изкуствен интелект за предотвратяване на jaywalker.

Здравеопазване

Здравеопазването беше една от първите индустрии, които използваха машинно обучение с разпознаване на изображения.

маркетинг

Широкото използване на AI се извършва в маркетинга благодарение на изобилния достъп до данни. Преди ерата на масовите данни изследователите разработват усъвършенствани математически инструменти като байесовия анализ за оценка на стойността на клиента. С бума на данните, маркетинговият отдел разчита на AI, за да оптимизира взаимоотношенията с клиентите и маркетинговата кампания.

Пример за приложение на машинно обучение във веригата за доставки

Машинното обучение дава страхотни резултати за визуално разпознаване на шаблони, отваряйки много потенциални приложения при физическа проверка и поддръжка в цялата мрежа на веригата за доставки.

Неконтролираното обучение може бързо да търси сравними модели в разнообразния набор от данни. От своя страна машината може да извършва проверка на качеството в целия логистичен център, пратка с повреди и износване.

Така например, IBMПлатформата на Watson може да определи повредата на транспортния контейнер. Watson комбинира визуални и базирани на системи данни, за да проследява, отчита и дава препоръки в реално време.

През изминалата година мениджърът на запасите разчита широко на основния метод за оценка и прогнозиране на инвентара. При комбинирането на големи данни и машинно обучение са внедрени по-добри техники за прогнозиране (подобрение от 20 до 30 % спрямо традиционните инструменти за прогнозиране). По отношение на продажбите това означава увеличение от 2 до 3% поради потенциалното намаляване на разходите за инвентар.

Пример за машинно обучение Google Car

Например, всеки знае колата на Google. Колата е пълна с лазери на покрива, които й казват къде се намира спрямо околността. Има радар отпред, който информира колата за скоростта и движението на всички коли около нея. Той използва всички тези данни, за да разбере не само как да управлява колата, но и да разбере и предвиди какво ще направят потенциалните шофьори около колата. Впечатляващото е, че колата обработва почти гигабайт данни в секунда.

Защо машинното обучение е важно?

Машинното обучение е най-добрият инструмент досега за анализиране, разбиране и идентифициране на модел в данните. Една от основните идеи зад машинното обучение е, че компютърът може да бъде обучен да автоматизира задачи, които биха били изчерпателни или невъзможни за човешко същество. Явното нарушение на традиционния анализ е, че машинното обучение може да взема решения с минимална човешка намеса.

Вземете следния пример за този урок по ML; агент на дребно може да оцени цената на къща въз основа на собствения си опит и познанията си за пазара.

Една машина може да бъде обучена да превежда знанията на експерт в функции. Характеристиките са всички характеристики на къща, квартал, икономическа среда и т.н., които правят разликата в цената. За експерта вероятно са му отнели няколко години, за да овладее изкуството да оценява цената на къща. Неговият опит става все по-добър и по-добър след всяка продажба.

За машината са необходими милиони данни (т.е. пример), за да овладее това изкуство. Още в началото на обучението си машината прави грешка, някак като младши продавач. След като машината види целия пример, тя получава достатъчно знания, за да направи своята оценка. В същото време с невероятна точност. Машината също така може да коригира грешката си съответно.

Повечето от големите компании са разбрали стойността на машинното обучение и съхраняването на данни. McKinsey са изчислили, че стойността на анализите варира от $9.5 трилиона до $15.4 трилиона докато $5 до 7 трилиона могат да бъдат приписани на най-напредналите AI техники.

Прочетете също Какво е размита логика? Archiструктура, приложение и пример: Натисни тук

Урок за машинно обучение за начинаещи: Какво е, Основи на ML

Какво е машинно обучение?

Машинно обучение срещу традиционно програмиране