Машинно самообучение – обяснение на основите и дефинициите за начинаещи и мениджъри

Обясняваме основите на машинното обучение и защо то е толкова важно.

By Stephanie Fischer und Dr. Christian Winkler Last updated юли 8, 2022

За да могат да преценят сами потенциала на машинното самообучение за собствения им бизнес, организациите трябва първо да използват правилно техническите термини. В тази статия ще научите за машинното самообучение, обяснено по разбираем начин.

Index

Наистина ли машинното самообучение е нещо ново?

Машинното самообучение (Machine Learning, наричано по-долу МС) е поддисциплина на изкуствения интелект и е обект на изследвания на повече от 50 години. Това означава, че МС не е нещо ново. Въпреки това то изпадна в забвение доста бързо след „откриването“ му, тъй като след първоначалните успехи разочарованието бързо се разпространи. Приложимостта на машинното самообучение просто не можа да бъдат намерена, а данните също не бяха налични в необходимото количество и качество.

Ако МС не е нещо ново – защо е толкова популярно в момента?

Разбира се, през последните 50 години алгоритмите за МС са значително подобрени, но не са основната причина да се прилага в практиката сега.

Благодарение на скока в компютърната производителност (която е достъпна за всеки) вече е икономически възможно, машинното самообучение да бъде приложено глобално. Благодарение на бързите графични карти, сега за няколко евро на час се предлагат сървъри, които само преди няколко години са били на първо място в списъка на суперкомпютрите (и следователно недостъпни).

Успоредно с това се увеличава и обемът на наличните данни – това се отнася както за собствените данни на компаниите, така и за публичните данни. Това осигурява отлична основа за картографиране на наистина значими и полезни за компаниите случаи на употреба. Те включват прогнозна поддръжка (т.е. оценка на времето на повреда), разпознаване на говор и ценови прогнози.

Въпреки че в момента се завихря хайп, който със сигурност ще бъде последван (отново) от голямо разочарование, много бизнес модели могат да се възползват от машинното самообучение.

Всичко за машинното самообучение без научно-фантастични отенъци

Какво е алгоритъм?

Компютъният алгоритъм може да се разглежда като готварска рецепта. Той описва точно последователността на изпълнение на множество стъпки. Компютрите не разбират от рецепти, а от езици за програмиране: в тях алгоритмите са разбити на формални стъпки (команди).

Някои задачи могат лесно да бъдат формулирани като алгоритъм, например броене от 1 до 100 или проверка дали дадено число е просто. При други проблеми това е много трудно, например разпознаване на писменост или маркиране на текст. Тук методите на машинното самообучение могат да помогнат. От дълго време се разработват алгоритми, които дават възможност за анализ на съществуващи данни и да се прилага извлечената от тях информация към друга съвкупност от данни.

Защо някои алгоритми се наричат „обучаващи“?

Алгоритъмът за машинно самообучение взима предвид много фактори, т.нар. параметри. С две думи, даден параметър може да се използва например за географско свързване на новини с думата „Тръмп“ с региона на Северна Америка. Обикновено МС алгоритмите използват стотици, често до стотици хиляди параметри. Регулирането на параметрите, за да се получат правилните резултати за съществуващите данни, се нарича обучение.

Различни методи за машинно самообучение

Следващата карта показва различните методи за машинно самообучение и конкретни приложения, които понастоящем са особено популярни. Заедно с приложения текст, тази графика може да помогне на организациите да подходят към машинното самообучение и да определят потенциала за собствения си бизнес.

Machine Learning (ML) - Landkarte: Supervised, Unsupervised & Reinforcement Learning — Картата на машинното самообучение предоставя преглед на трите различни метода за машинно самообучение: контролирано, неконтролирано и усилено самообучение, които имат специфични области на приложение в компаниите.

Контролирано обучение

За така нареченото „обучение с наблюдение“ са необходими известни данни, които вече съдържат логиката, която искаме да приложим към нов набор от данни.

От тези данни се избират набор от данни за обучение и набор от данни за изпитване. Първата се използва за съответно задаване на параметрите на алгоритъма, а втората – за оценка на ефективността на алгоритъма. Тук например можете да изчислите и показателите за качество и да спрете процеса на обучение, когато резултатите се считат за достатъчно добри (това може да отнеме много време или изобщо да не се случи!).

Алгоритъмът изучава логиката в рамките на този така наречен набор за обучение. Обученият по този начин алгоритъм може да класифицира данни, които имат определено сходство с обучаващата съвкупност, като използва научената логика – например като използва предварително определените категории закупен/незакупен продукт или анулиране/неанулиране.

Трябва да сте много внимателни при някои стъпки: например, когато прилагате набор от упражнения, алгоритъмът не трябва просто да научи всичко „наизуст“, а да разбере логиката зад тях. Ако не успеете да се справите с това, проблемът, с който се сблъсквате, се нарича „прекомерно приспособяване“.

Неконтролирано обучение

Неконтролираното обучение е подходящо, когато не са налични известни, логически структурирани данни за практикуване на контролирано обучение. Алгоритмите, които използват неконтролирано обучение, могат например да разделят база данни с клиенти на различни групи (сегментиране на клиенти). Съществуват алгоритми, които сами решават колко такива клъстера да се формират, и алгоритми, на които се задава броят на клъстерите.

Този тип машинно самообучение е последвано от ръчна работа и за интерпретиране на резултатите е необходимо човешко творчество: Тъй като намерените клъстери трябва да се интерпретират технически. Алгоритъмът не предоставя никаква обосновка защо тези клъстери са възникнали по този начин.

Друга възможност за неконтролирано обучение е така нареченото намаляване на измеренията. Това може да се използва за намиране на т.нар. характеристики от съществуващ набор от данни, т.е. компоненти, по които данните действително се различават. Пример за това могат да бъдат описанията на части от облеклото; тогава цветът ще бъде извлечен като характеристика.

Обучение с подсилване

Малко по-незначителен вид обучение в бизнеса днес е обучението с подсилване, което също е контролиран процес. Идеята е да се възнагради (и по този начин да се насърчи) успешното поведение, като същевременно се потисне поведението, което е довело до нежелани резултати.

Например, ако искате да обучите алгоритъм да играе за пари на десет машини (които се представят различно добре), първо ще го накарате да играе пет пъти на всяка машина, а след това по-често на машините, които са донесли най-високи печалби при първия опит. Алгоритъмът има право да играе малко и на машини, които са донесли малки или никакви печалби, защото това може да е било неблагоприятно стечение на обстоятелствата в първите пет опита, а в действителност това са най-добрите машини.

Кои са алгоритмите, които могат обучени?

Съществуват редица различни методи за обучение, но тук са споменати само машините с поддържащи вектори и дърветата за вземане на решения като представители на контролираното обучение.

За всеки от тези методи има различни алгоритми за регулиране на параметрите, за да се постигне възможно най-голямо съответствие с известните данни. Тези алгоритми са действителните процедури за обучение в машинното обучение. Примери за това са Gradient Descent, Backpropagation и генетични алгоритми.

В зависимост от целта на приложението се оказва, че някои алгоритми работят по-добре или по-слабо. Това може да бъде повлияно и от данните. Някои специални случаи на употреба изискват дори модификации на самите алгоритми. В много случаи със стандартни алгоритми вече могат да се постигнат много добри резултати. В отделни случаи обаче може да се наложи модифициране на даден алгоритъм или разработване на нов.

Отначало машинното обучение все още означава ръчна работа

Въпреки наличните автоматизации, процесите на машинно самообучение все още включват много ръчни стъпки: Например, известните данни често не са налични в качеството, в което са действително необходими. Поради това данните обикновено трябва да бъдат почистени на първия етап в контекста на т.нар. прочистване на данни.

МС е статистически метод

И трите вида машинно самообучение са статистически методи, което означава, че само голям брой повторения водят до добри резултати. Компютрите могат да вършат тази „глупава“ работа много добре, а благодарение на значително увеличения изчислителен капацитет вече не се налага да чакаме дълго.

Зад един успешен проект за машинно самообучение винаги стои екип със специализирани в различни области членове

МС прави продуктите и услугите по-удобни за ползване, процесите – по-ефективни, а прогнозите – по-надеждни. Ако ръководството на компанията дефинира използването на машинно самообучение като част от корпоративната стратегия, машинното обучение – в комбинация с правилните данни – има силата да революционизира целия бизнес модел.

На този фон сегашният шум, който се вдига около МС, е много разбираем.

При всички възможности не трябва да се забравя: МС не е панацея. Качеството на данните, т.е. „храната“ на МС, е от решаващо значение: „Влиза боклук – излиза боклук“ е особено вярно за МС. Освен това МС изисква много големи количества данни, които не винаги са налични.

Резултатите, получени от МС алгоритъма, са толкова добри, колкото са добри хората, които с оглед на въпроси, свързани с компанията, са набавили и подготвили подходящи набори от данни и многократно са коригирали параметрите на алгоритъма, докато не се постигне технически интерпретируем резултат.

В много случаи не технологията определя границите на МС, а креативността на хората. От съществено значение е да се открие случаят на използване, който отговаря на бизнеса, и след това да се проектира поетапно с помощта на всички съществуващи познания в областта, които служителите на компанията предоставят. Методите за иновации, ориентирани към клиента, като например дизайнерското мислене и подходите за създаване на прототипи, допринасят значително за това – също и чрез ранното забелязване на неуспеха.

Stephanie Fischer

Ich bin Stephanie. Gründerin im Bereich Künstliche Intelligenz. Ursprünglich komme ich aus der Managementberatung und Organisationsentwicklung. Ich praktiziere Yoga seit 15 Jahren und bin Kundalini und Yin Yogalehrerin. Ich verknüpfe alte Techniken zum Bewusstseinstraining mit innovativen Lernformaten und aktuellen Tech-Themen. Mit Upskilling Lernmodulen oder Live Webinaren begreifen Mitarbeitende ihre Rolle innerhalb ihres Arbeitsbereichs, der durch Künstlicher Intelligenz (teil-)automatisiert wird. In Leadership Workshops erlernen Teilnehmende die Skills, die in einer digitalisierten Welt überlebenswichtig sind.