机器学习–为初学者和管理者解释基础知识和定义。

我们解释了机器学习的基础知识以及为什么它如此重要。

By Stephanie Fischer und Dr. Christian Winkler On 12月 7, 2020

为了能够评估机器学习对自身业务的潜力，组织必须首先正确使用技术术语。这篇文章用通俗易懂的方式解释了 “机器学习”，并超越了那些虚伪的东西。

Index

机器学习真的很新鲜吗？

机器学习(Machine Learning，以下简称ML)是人工智能的一门分支学科，研究已有50多年的历史。因此，ML并不新鲜。然而，它在 “被发现 “之后，很快就被人遗忘了，因为在最初的成功之后，幻觉迅速蔓延。根本找不到合适的应用，也没有必要数量和质量的数据。

如果ML不是新的–为什么会被这样炒作？

当然，在过去的50年里，ML算法有了很大的改进。尽管如此，这并不是现在将这些算法付诸实践的趋势的主要原因。

由于计算能力的快速增长（以及对每个人都可用），现在提供所需的巨大计算能力在经济上是可行的。得益于快速的显卡，现在的服务器每小时只需几欧元，而在几年前，这在超级计算机中是名列前茅的（因此也是难以承受的）。

与此同时，可用的数据量也在增加–这适用于自有公司数据和公共数据。这为企业绘制真正有意义、有用的用例提供了很好的基础。例如，这些包括预测性维护（即估计故障时间）、识别口语文本和价格预测。

即使目前由此形成了一种炒作，之后肯定会（再次）出现巨大的幻觉，但很多商业模式都可以从中获利，甚至可以进一步得到战略发展。

了解机器学习，超越假设

什么是算法？

计算机的算法可以看作是一个配方。它确切地描述了哪些步骤是一个接一个地进行的。计算机不懂烹饪配方，但懂编程语言。在它们中，算法被分解成计算机可以理解的形式化步骤（命令）。

有些问题可以很容易地制定成一个算法，例如从1数到100或检查一个数字是否是质数。对于其他问题，这是非常困难的，例如识别字体或键入文字。这里机器学习的程序帮助。长期以来，人们一直在开发算法，以便对现有数据进行分析，并将由此获得的知识应用于新数据。

为什么有些算法被称为 “学习”？

一个机器学习算法有很大的自由度，即所谓的参数。简化后，可以用一个参数，比如，把带有 “特朗普 “字样的消息放在与北美地区相关的地理环境中。通常情况下，ML算法使用了许多数百个参数，往往多达数十万个。调整参数，使现有数据得到正确的结果称为学习。

监督学习–是什么？

对于所谓的 “监督学习”，需要已知的数据，这些数据已经包含了人们想要应用到新数据集的逻辑。

从这些数据中选择一个训练和测试数据集。前者用于对算法中的参数进行相应的设置，而后者则用于评估算法的性能。在这里，你还可以计算质量指标，如果认为结果足够好，就可以结束训练过程（这可能需要很长时间，或者根本不会发生！）。

算法在这个所谓的训练集中学习逻辑。以这种方式训练的算法，就可以用学习到的逻辑对与训练集有一定相似度的数据进行分类–例如，根据预定义的类别Product Purchased/Not Purchased或Cancellation/No Cancellation。

有些步骤你必须非常小心：比如，当算法在用训练集练习时，不能简单地 “背诵 “所有的东西，而是要理解背后的逻辑。如果你没有做到这一点，你所面临的问题就叫做 “过度适应”。

无监督学习–那是什么？

如果没有已知的、逻辑结构化的数据可供实践使用，那么无监督学习适合于监督学习。例如，使用无监督学习的算法可以根据不同的客户群体来构建客户数据库（客户细分）。有自己决定形成多少个这样的聚类的算法，也有给定聚类数量的算法。

在这种机器学习之后，人工工作又接踵而至，需要人的创造力来诠释结果。对于现在发现的群组要进行专业的解读。这是因为算法并没有提供任何解释，为什么这些聚类是以这种方式创建的。

无监督学习的另一种可能是所谓的维度减少。这可以用来从现有的数据集中找出所谓的特征，即数据实际不同的成分。一个例子可以是对服装物品的描述，然后将颜色作为特征提取出来。

强化学习–是什么？

强化学习是目前经济中不太重要的一种学习方式，也是一种监控程序。这里的想法是奖励（从而促进）成功的行为，同时抑制导致不良结果的行为。

例如，如果你想训练一种算法，让它在十个独臂强盗（它们的功能不同 “好”）上玩钱，你会先让它们在每台机器上玩五次，然后更频繁地在第一次排练中产生最高赢率的机器上玩。算法也可能会在那些几乎没有产生赢利的机器上玩一下，因为这可能是前五次尝试中的不利（也不太可能）巧合，而实际上这些都是最好的机器。

能学习的算法有多少种？

不同的学习方法有很多，这里只应该提到支持向量机和决策树作为监督学习的代表。

对于每一种方法，都有不同的算法来调整参数，以达到与已知数据尽可能高的一致性。这些算法是机器学习中实际的学习程序。例如：梯度下降法、逆向传播法和遗传算法。

根据应用的目的，发现某些算法的效果更好或更差。这也会受到数据的影响。一些特殊应用甚至需要对算法本身进行修改。对于非常多的情况，用标准算法可以达到非常好的效果。然而，在个别情况下，可能需要修改算法或开发自己的算法。

机器学习首先还是意味着：人工工作

尽管这些听起来都是自动化的，但机器学习的过程仍然包括许多人工的过程步骤。例如，已知的数据往往无法获得你实际需要的质量。为此，通常必须在所谓的数据清洗的框架内，对数据进行第一步的清理。

ML是一种统计方法

这三类机器学习都是统计程序，也就是说，只有高次数的重复才能带来好的结果。计算机可以很好地完成这种 “愚蠢 “的工作，由于计算能力的大大提高，我们不需要等待很长时间就可以得到结果。

一个成功的机器学习项目背后总有一个跨学科的团队

ML使产品和服务更加方便用户，流程更加高效，预测更加可靠。如果管理层将机器学习的使用定义为企业战略的一部分，那么机器学习–与正确的数据相结合–就有能力彻底改变整个商业模式。

在这样的背景下，目前围绕ML展开的炒作是非常可以理解的。

有了所有的可能性就不能忘记。ML不是万能药。决定性因素是数据质量，即ML的 “饲料”：因此，”垃圾进–垃圾出 “尤其适用于ML。此外，ML需要非常大的数据量，而这些数据并不总是可用的。

ML算法所产生的结果，只有在人们脑海中带着公司相关的问题获取和准备了适量的数据，并反复调整算法的参数，直到得到一个技术上可以解释的结果。

在很多情况下，设定ML的极限的不是技术，而是人的创造力。必须找到适合业务的用例，然后利用自己员工带来的所有现有领域知识进行反复设计。以客户为中心的创新方法，如设计思维和精益原型方法在这方面做出了重要贡献–也是通过早期发现失败。

Stephanie Fischer

Ich bin Stephanie. Gründerin im Bereich Künstliche Intelligenz. Ursprünglich komme ich aus der Managementberatung und Organisationsentwicklung. Ich praktiziere Yoga seit 15 Jahren und bin Kundalini und Yin Yogalehrerin. Ich verknüpfe alte Techniken zum Bewusstseinstraining mit innovativen Lernformaten und aktuellen Tech-Themen. Mit Upskilling Lernmodulen oder Live Webinaren begreifen Mitarbeitende ihre Rolle innerhalb ihres Arbeitsbereichs, der durch Künstlicher Intelligenz (teil-)automatisiert wird. In Leadership Workshops erlernen Teilnehmende die Skills, die in einer digitalisierten Welt überlebenswichtig sind.

AI 基础知识术语解释机器学习算法