机器学习–为初学者和管理者解释基础知识和定义。
我们解释了机器学习的基础知识以及为什么它如此重要。
为了能够评估机器学习对自身业务的潜力,组织必须首先正确使用技术术语。这篇文章用通俗易懂的方式解释了 “机器学习”,并超越了那些虚伪的东西。
Index
机器学习真的很新鲜吗?
机器学习(Machine Learning,以下简称ML)是人工智能的一门分支学科,研究已有50多年的历史。因此,ML并不新鲜。然而,它在 “被发现 “之后,很快就被人遗忘了,因为在最初的成功之后,幻觉迅速蔓延。根本找不到合适的应用,也没有必要数量和质量的数据。
如果ML不是新的–为什么会被这样炒作?
当然,在过去的50年里,ML算法有了很大的改进。尽管如此,这并不是现在将这些算法付诸实践的趋势的主要原因。
由于计算能力的快速增长(以及对每个人都可用),现在提供所需的巨大计算能力在经济上是可行的。得益于快速的显卡,现在的服务器每小时只需几欧元,而在几年前,这在超级计算机中是名列前茅的(因此也是难以承受的)。
与此同时,可用的数据量也在增加–这适用于自有公司数据和公共数据。这为企业绘制真正有意义、有用的用例提供了很好的基础。例如,这些包括预测性维护(即估计故障时间)、识别口语文本和价格预测。
即使目前由此形成了一种炒作,之后肯定会(再次)出现巨大的幻觉,但很多商业模式都可以从中获利,甚至可以进一步得到战略发展。
了解机器学习,超越假设
什么是算法?
计算机的算法可以看作是一个配方。它确切地描述了哪些步骤是一个接一个地进行的。计算机不懂烹饪配方,但懂编程语言。在它们中,算法被分解成计算机可以理解的形式化步骤(命令)。
有些问题可以很容易地制定成一个算法,例如从1数到100或检查一个数字是否是质数。对于其他问题,这是非常困难的,例如识别字体或键入文字。这里机器学习的程序帮助。长期以来,人们一直在开发算法,以便对现有数据进行分析,并将由此获得的知识应用于新数据。
为什么有些算法被称为 “学习”?
一个机器学习算法有很大的自由度,即所谓的参数。简化后,可以用一个参数,比如,把带有 “特朗普 “字样的消息放在与北美地区相关的地理环境中。通常情况下,ML算法使用了许多数百个参数,往往多达数十万个。调整参数,使现有数据得到正确的结果称为学习。
监督学习–是什么?
对于所谓的 “监督学习”,需要已知的数据,这些数据已经包含了人们想要应用到新数据集的逻辑。
从这些数据中选择一个训练和测试数据集。前者用于对算法中的参数进行相应的设置,而后者则用于评估算法的性能。在这里,你还可以计算质量指标,如果认为结果足够好,就可以结束训练过程(这可能需要很长时间,或者根本不会发生!)。
算法在这个所谓的训练集中学习逻辑。以这种方式训练的算法,就可以用学习到的逻辑对与训练集有一定相似度的数据进行分类–例如,根据预定义的类别Product Purchased/Not Purchased或Cancellation/No Cancellation。
有些步骤你必须非常小心:比如,当算法在用训练集练习时,不能简单地 “背诵 “所有的东西,而是要理解背后的逻辑。如果你没有做到这一点,你所面临的问题就叫做 “过度适应”。
无监督学习–那是什么?
如果没有已知的、逻辑结构化的数据可供实践使用,那么无监督学习适合于监督学习。例如,使用无监督学习的算法可以根据不同的客户群体来构建客户数据库(客户细分)。有自己决定形成多少个这样的聚类的算法,也有给定聚类数量的算法。
在这种机器学习之后,人工工作又接踵而至,需要人的创造力来诠释结果。对于现在发现的群组要进行专业的解读。这是因为算法并没有提供任何解释,为什么这些聚类是以这种方式创建的。
无监督学习的另一种可能是所谓的维度减少。这可以用来从现有的数据集中找出所谓的特征,即数据实际不同的成分。一个例子可以是对服装物品的描述,然后将颜色作为特征提取出来。
强化学习–是什么?
强化学习是目前经济中不太重要的一种学习方式,也是一种监控程序。这里的想法是奖励(从而促进)成功的行为,同时抑制导致不良结果的行为。
例如,如果你想训练一种算法,让它在十个独臂强盗(它们的功能不同 “好”)上玩钱,你会先让它们在每台机器上玩五次,然后更频繁地在第一次排练中产生最高赢率的机器上玩。算法也可能会在那些几乎没有产生赢利的机器上玩一下,因为这可能是前五次尝试中的不利(也不太可能)巧合,而实际上这些都是最好的机器。
能学习的算法有多少种?
不同的学习方法有很多,这里只应该提到支持向量机和决策树作为监督学习的代表。
对于每一种方法,都有不同的算法来调整参数,以达到与已知数据尽可能高的一致性。这些算法是机器学习中实际的学习程序。例如:梯度下降法、逆向传播法和遗传算法。
根据应用的目的,发现某些算法的效果更好或更差。这也会受到数据的影响。一些特殊应用甚至需要对算法本身进行修改。对于非常多的情况,用标准算法可以达到非常好的效果。然而,在个别情况下,可能需要修改算法或开发自己的算法。
机器学习首先还是意味着:人工工作
尽管这些听起来都是自动化的,但机器学习的过程仍然包括许多人工的过程步骤。例如,已知的数据往往无法获得你实际需要的质量。为此,通常必须在所谓的数据清洗的框架内,对数据进行第一步的清理。
ML是一种统计方法
这三类机器学习都是统计程序,也就是说,只有高次数的重复才能带来好的结果。计算机可以很好地完成这种 “愚蠢 “的工作,由于计算能力的大大提高,我们不需要等待很长时间就可以得到结果。
一个成功的机器学习项目背后总有一个跨学科的团队
ML使产品和服务更加方便用户,流程更加高效,预测更加可靠。如果管理层将机器学习的使用定义为企业战略的一部分,那么机器学习–与正确的数据相结合–就有能力彻底改变整个商业模式。
在这样的背景下,目前围绕ML展开的炒作是非常可以理解的。
有了所有的可能性就不能忘记。ML不是万能药。决定性因素是数据质量,即ML的 “饲料”:因此,”垃圾进–垃圾出 “尤其适用于ML。此外,ML需要非常大的数据量,而这些数据并不总是可用的。
ML算法所产生的结果,只有在人们脑海中带着公司相关的问题获取和准备了适量的数据,并反复调整算法的参数,直到得到一个技术上可以解释的结果。
在很多情况下,设定ML的极限的不是技术,而是人的创造力。必须找到适合业务的用例,然后利用自己员工带来的所有现有领域知识进行反复设计。以客户为中心的创新方法,如设计思维和精益原型方法在这方面做出了重要贡献–也是通过早期发现失败。
Comments are closed.