Apprentissage automatique – Les bases et la définition sont expliquées pour les débutants et les managers

Nous expliquons les bases de l'apprentissage automatique "Machine Learning" et pourquoi il est si important.

By Stephanie Fischer und Dr. Christian Winkler On Sep 29, 2020

Afin de pouvoir évaluer le potentiel de l’apprentissage machine pour sa propre entreprise, l’organisation doit d’abord utiliser correctement les termes techniques. Cet article explique l' »apprentissage automatique » d’une manière généralement compréhensible et au-delà des hypers.

Index

L’apprentissage machine est-il vraiment nouveau ?

L’apprentissage machine, Machine Learning (ci-après ML) est une sous-discipline de l’intelligence artificielle et fait l’objet de recherches depuis plus de 50 ans. Le ML n’est donc pas nouveau. Cependant, elle est tombée dans l’oubli assez rapidement après sa « découverte » car la désillusion s’est rapidement répandue après les premiers succès. Les bonnes applications n’ont tout simplement pas été trouvées et les données n’étaient pas disponibles en quantité et en qualité nécessaires.

Si le Machine Learning n’est pas nouveau, pourquoi en fait-on tout un plat ?

Bien sûr, les algorithmes de ML ont été grandement améliorés au cours des 50 dernières années. Néanmoins, ce n’est pas la raison principale de la tendance à mettre ces algorithmes en pratique maintenant.

En raison de l’augmentation rapide de la capacité de calcul (et pour tous ceux qui sont disponibles), il est maintenant économiquement possible de fournir les énormes capacités de calcul nécessaires à cet effet. Grâce à des cartes graphiques rapides, les serveurs sont désormais disponibles pour quelques euros de l’heure, ce qui, il y a quelques années encore, aurait été en tête de liste des superordinateurs (et donc inabordable).

Parallèlement, la quantité de données disponibles a également augmenté – cela s’applique aux données propres à l’entreprise ainsi qu’aux données publiques. Cela constitue une excellente base pour cartographier des cas d’utilisation vraiment significatifs et utiles pour les entreprises. Il s’agit, par exemple, de la maintenance prédictive (c’est-à-dire l’estimation du temps de défaillance), de la reconnaissance des textes parlés et des prévisions de prix.

Même si un battage médiatique se développe actuellement à partir de cela, qui sera certainement suivi (encore) par une grande désillusion, de nombreux modèles commerciaux peuvent en profiter ou même être développés stratégiquement plus avant.

Comprendre l’apprentissage des machines au-delà des hypes

Qu’est-ce qu’un algorithme ?

Un algorithme pour les ordinateurs peut être considéré comme une recette. Il décrit exactement les étapes qui sont exécutées les unes après les autres. Les ordinateurs ne comprennent pas les recettes de cuisine, mais les langages de programmation : Dans ces derniers, l’algorithme est décomposé en étapes formelles (commandes) que l’ordinateur peut comprendre.

Certains problèmes peuvent facilement être formulés sous forme d’algorithme, par exemple compter de 1 à 100 ou vérifier si un nombre est un nombre premier. Pour d’autres problèmes, cela est très difficile, par exemple pour reconnaître une police ou un mot-clé. Ici, les procédures d’apprentissage machine aident. Depuis longtemps, des algorithmes ont été développés qui permettent d’analyser les données existantes et d’appliquer les connaissances qui en découlent à de nouvelles données.

Pourquoi certains algorithmes sont-ils appelés « apprentissage » ?

Un algorithme d’apprentissage machine a beaucoup de liberté, ce qu’on appelle les paramètres. De manière simplifiée, un paramètre pourrait être utilisé, par exemple, pour placer les messages avec le mot « Trump » dans un contexte géographique en relation avec la région nord-américaine. En général, les algorithmes de Machine Learning utilisent plusieurs centaines, souvent jusqu’à des centaines de milliers de paramètres. L’ajustement des paramètres pour obtenir des résultats corrects pour les données existantes est appelé apprentissage.

L’apprentissage supervisé – Qu’est-ce que c’est ?

Pour l’apprentissage dit « supervisé », il faut des données connues qui contiennent déjà la logique que l’on voudrait appliquer à un nouvel ensemble de données.

Un ensemble de données de formation et de test est sélectionné à partir de ces données. Le premier sert à définir les paramètres de l’algorithme en conséquence, tandis que le second sert à évaluer les performances de l’algorithme. Vous pouvez également y calculer des mesures de qualité et mettre fin au processus de formation si les résultats sont jugés suffisamment bons (cela peut prendre beaucoup de temps ou ne pas se produire du tout !).

L’algorithme apprend la logique au sein de ce soi-disant ensemble de formation. Un algorithme ainsi formé peut ensuite classer les données qui présentent une certaine similitude avec le jeu de formation avec la logique apprise – par exemple, en fonction des catégories prédéfinies Produit acheté/non acheté ou Annulation/Non annulation.

Il faut faire très attention à certaines étapes : par exemple, lorsque l’algorithme s’exerce avec un ensemble de formation, il ne doit pas simplement tout apprendre « par cœur », mais doit comprendre la logique qui se cache derrière. Si vous n’y parvenez pas, le problème auquel vous êtes confronté s’appelle le « surarmement ».

L’apprentissage non supervisé – Qu’est-ce que c’est ?

L’apprentissage non supervisé convient à l’apprentissage supervisé si aucune donnée connue et structurée logiquement n’est disponible pour la pratique. Les algorithmes qui utilisent l’apprentissage non supervisé peuvent, par exemple, structurer une base de données clients en fonction de différents groupes de clients (segmentation de la clientèle). Il existe des algorithmes qui décident eux-mêmes du nombre de grappes qu’ils forment et des algorithmes qui sont donnés le nombre de grappes.

Après ce genre d’apprentissage machine, le travail manuel suit à nouveau et la créativité humaine est nécessaire pour interpréter le résultat : Car les clusters trouvés doivent maintenant être interprétés de manière professionnelle. En effet, l’algorithme ne fournit aucune explication quant à la raison pour laquelle ces grappes ont été créées de cette manière.

Une autre possibilité d’apprentissage non supervisé est la réduction dite dimensionnelle. Cela peut être utilisé pour trouver ce qu’on appelle des caractéristiques à partir d’un ensemble de données existant, c’est-à-dire des éléments dans lesquels les données diffèrent réellement. Un exemple de cela pourrait être la description de vêtements, la couleur serait alors extraite en tant que caractéristique.

Apprentissage du renforcement – Qu’est-ce que c’est ?

L’apprentissage de renforcement est actuellement un type d’apprentissage moins important dans l’économie, et est également une procédure contrôlée. L’idée est ici de récompenser (et donc de promouvoir) les comportements réussis, tout en réprimant ceux qui ont conduit à des résultats indésirables.

Par exemple, si vous vouliez entraîner un algorithme à jouer pour de l’argent sur dix bandits manchots (qui fonctionnent différemment « bien »), vous les feriez d’abord jouer cinq fois à chaque machine, puis plus souvent aux machines qui ont produit les gains les plus élevés lors de la première répétition. L’algorithme peut également jouer un peu sur les machines qui ont produit peu ou pas de gains, car cela aurait pu être une coïncidence défavorable (et peu probable) lors des cinq premières tentatives, et en réalité ce sont les meilleures machines.

Combien y a-t-il d’algorithmes qui peuvent apprendre ?

Il existe une multitude de méthodes d’apprentissage différentes, seules les machines vectorielles et les arbres de décision de soutien, en tant que représentants de l’apprentissage supervisé, doivent être mentionnés ici.

Pour chacune de ces méthodes, il existe différents algorithmes pour ajuster les paramètres afin d’obtenir le meilleur accord possible avec les données connues. Ces algorithmes sont les procédures d’apprentissage réelles dans l’apprentissage machine. Les exemples sont la descente en gradient, la rétropropagation et les algorithmes génétiques.

Selon l’objectif de l’application, certains algorithmes s’avèrent plus ou moins performants. Cela peut également être influencé par les données. Certaines applications spéciales nécessitent même des modifications des algorithmes eux-mêmes. Dans de très nombreux cas, de très bons résultats peuvent être obtenus avec des algorithmes standard. Toutefois, dans certains cas, il peut être nécessaire de modifier un algorithme ou d’en développer un.

L’apprentissage machine signifie encore et toujours : le travail manuel

Aussi automatisé que tout cela puisse paraître, les processus d’apprentissage machine comprennent encore de nombreuses étapes manuelles : Par exemple, les données connues ne sont souvent pas disponibles dans la qualité dont vous avez réellement besoin. C’est pourquoi les données doivent généralement être nettoyées dans un premier temps, dans le cadre de ce que l’on appelle le nettoyage des données.

Machine Learning est une méthode statistique

Ces trois types d’apprentissage machine sont des procédures statistiques, ce qui signifie que seul un nombre élevé de répétitions conduit à de bons résultats. Les ordinateurs peuvent très bien faire ce travail « stupide », et grâce à la capacité de calcul considérablement accrue, nous n’avons pas à attendre très longtemps les résultats.

Derrière un projet d’apprentissage machine réussi, il y a toujours une équipe interdisciplinaire

Le ML rend les produits et les services plus conviviaux, les processus plus efficaces et les prévisions plus fiables. Si la direction définit l’utilisation de l’apprentissage machine comme faisant partie de la stratégie de l’entreprise, l’apprentissage machine – combiné avec les bonnes données – a le pouvoir de révolutionner l’ensemble du modèle commercial.

Dans ce contexte, le battage actuel qui s’est développé autour du ML est très compréhensible.

Avec toutes les possibilités qu’il ne faut pas oublier : Le ML n’est pas une panacée. Le facteur décisif est la qualité des données, c’est-à-dire le « fourrage » du ML : ainsi, « garbage in – garbage out » s’applique particulièrement au ML. En outre, le blanchiment d’argent nécessite de très grandes quantités de données, qui ne sont pas toujours disponibles.

Les résultats produits par l’algorithme de ML ne sont valables que si les personnes qui ont acquis et préparé des quantités de données appropriées avec des questions pertinentes pour l’entreprise dans leur tête et ont ajusté à plusieurs reprises les paramètres de l’algorithme jusqu’à l’obtention d’un résultat techniquement interprétable.

Dans de nombreux cas, ce n’est pas la technologie qui fixe les limites du ML, mais la créativité des gens. Il est essentiel de trouver le cas d’utilisation approprié pour l’entreprise et de concevoir ensuite de manière itérative, en utilisant toutes les connaissances existantes dans le domaine que vos propres employés apportent à la table. Les méthodes d’innovation centrées sur le client, telles que la réflexion sur la conception et les approches de prototypage allégé, y contribuent grandement, notamment en détectant les échecs à un stade précoce.

Stephanie Fischer

Ich bin Stephanie. Gründerin im Bereich Künstliche Intelligenz. Ursprünglich komme ich aus der Managementberatung und Organisationsentwicklung. Ich praktiziere Yoga seit 15 Jahren und bin Kundalini und Yin Yogalehrerin. Ich verknüpfe alte Techniken zum Bewusstseinstraining mit innovativen Lernformaten und aktuellen Tech-Themen. Mit Upskilling Lernmodulen oder Live Webinaren begreifen Mitarbeitende ihre Rolle innerhalb ihres Arbeitsbereichs, der durch Künstlicher Intelligenz (teil-)automatisiert wird. In Leadership Workshops erlernen Teilnehmende die Skills, die in einer digitalisierten Welt überlebenswichtig sind.