什么是生成性人工智能？- 你需要知道的一切，包括含义、模型和实例

了解生成式人工智能模型及其局限性和使用案例

By Benjamin Talin On 7月 11, 2023

在这本综合指南中，探索生成性人工智能的世界：其意义、模型、应用、伦理、限制和未来的潜力。

Index

人工智能（AI）简介

目前，人工智能（AI）无处不在–从新闻到LinkedIn，甚至是当地酒吧的讨论，每个人都有自己的观点或预测。许多人预测（或至少是希望），它将彻底改变我们的生活、工作和互动方式。但它到底是什么，为什么目前有这么多的炒作？

就其核心而言，人工智能是一个广泛的术语，指的是机器或软件。其目标是模仿人类智能，并努力像人类一样学习、思考、感知、推理、沟通和决策。这种不断发展的技术可以分为三类：狭义人工智能，为某一特定任务而设计，如语音识别；通用人工智能，可以执行人类可以做的任何智力任务；以及超级智能人工智能，在大多数有经济价值的工作中超越人类能力。

在这个广泛的人工智能包括的定义框架内，目前媒体上有一个特定的子集。所谓的生成性人工智能，它可以生成具有欺骗性的类似文本、图像和其他内容。本文重点讨论什么是生成性人工智能，它意味着什么，以及有哪些值得注意的例子证明其潜力。

什么是生成性人工智能？

如上所述，生成性人工智能属于人工智能的总称，但它已经开辟了自己的领域。它是一套训练有素的人工智能模型和技术，使用统计方法，根据其概率产生内容。这些类型的人工智能系统学习模仿（重要的是–模仿，而不是理解和应用）它们所训练的数据，然后产生类似的内容（所以不是事实）。与鉴别式人工智能不同的是，它将输入内容分类为预定义的类别（例如，垃圾邮件过滤器），生成式人工智能产生新的、反映训练数据的合成数据。

生成式人工智能的基础是机器学习技术，特别是深度学习。机器学习使用的算法可以从数据中学习，并利用它来做决定或预测。深度学习是机器学习的一个子集，使用所谓的神经网络，有多个层次。每一层都代表着像大脑中的突触一样的东西–它以一定的概率被触发。因此，当一个像 “Great “这样的词出现时，有各种突触（节点），然后以一定的概率说 “Britain “或 “Wall “可能出现在 “Great “之后。给出的背景越多，这些节点的训练就越多。如果伦敦、女王和英国国旗出现在某个地方，那么它就很有可能是 “大不列颠 “而不是 “长城”。

生成模型使用几类统计模型（通常是神经网络）。在目前最著名的例子ChatGPT中，使用了编码器/解码器架构。输入由编码器网络进行分析和分类，转换成计算机可读的数字和变量，通过训练有素的神经网络发送，数字和变量的结果作为文本输出给解码器。

生成式人工智能的简单解释：用户输入的文本被分解，机器试图理解它，根据信息，网络然后试图生成最佳答案，并使其再次成为人类可读的，结果被转换回语音并输出。因此，一切都只基于概率，所以也就出现了虚假陈述的事实，因为在这种情况下，这些都比事实 “更有可能”。

媒体和社交媒体围绕这项技术的炒作可能是基于这样一个事实：这些模型非常善于生成令人信服和具有欺骗性的真实内容，从而使我们相信智能。尽管如此，生成式人工智能模型除了图像生成和文本生成之外，也有其他应用。例如，数据扩增、异常检测和缺失数据的归纳，或内容分类。

生成式人工智能如何工作–你应该知道的3个模型

最近，随着计算能力变得足够便宜，能够以 “合理的成本 “运行大型数据集，它们在人工智能领域取得了巨大的进步，为不同的模型在足够大的规模上进行训练以产生合理的输出创造了基础。

这些是生成性人工智能背后的三种主要模型，每一种都有其优势、劣势和可能的使用案例：

生成对抗网络(Generative Adversarial Networks – GANs)

GANs本质上由两个神经网络组成–生成器和鉴别器–它们相互竞争，同时一个需要创造新的输出，另一个控制输出。它的工作原理类似于造假者试图制造假币，而侦探试图区分假货和真货。

生成器网络开始创建一个样本/输出，并将其传递给鉴别器。鉴别器一开始也不太擅长鉴别，可能会把假币归为真币。因此，这两个网络都需要进行训练以提高其效率。然而，随着两者都从错误中学习，它们的性能会随着时间的推移变得越来越好（这就是为什么人工智能模型需要被训练）。

生成器的目标是产生鉴别器无法从真实数据中区分的数据和输出。同时，鉴别器试图在区分真实数据和假数据方面变得越来越好。这种情况一直持续到达到一个平衡点，即生成器产生真实的数据，而鉴别器不能再进行区分，有50%的人不能确定是假的还是真的。

变异自动编码器（Variational Autoencoders – VAEs）

VAEs完全依靠概率和统计学的原理来生成合成数据。这些模型根据各种简单的数学结构，如平均值或标准偏差，生成数据。

VAEs由一个编码器和一个解码器组成（如上文所简述）。编码器将输入数据压缩成一个所谓的 “潜在空间表示”，它根据概率分布（平均值和方差）捕捉统计学的参数。然后，它从潜空间的学习分布中生成一个样本，解码器网络采取该样本并重建原始输入数据。该模型被训练成最小化输入和输出之间的差异，因此生成的数据与原始数据非常相似，因为它在两个方向上都运行着相同的训练过的网络和概率。

基于变压器的模型（Transformer-based models）

与GANs和VAEs相比，GPT-3和GPT-4等基于转化器的模型主要用于涉及序列数据的任务，即具有特定语义或相互关联的数据，如自然语言处理。

基于转化器的模型使用一种基于 “注意机制 “的架构，在任务执行过程中对输入数据的某些部分赋予更高的重要性，以试图提取和权衡语句的含义。

GPT模型使用转化器的一个变种，称为转化器解码器，它一次性读取整个数据序列（例如，一个句子），因此可以建立模型或弄清句子中单词之间的复杂依赖关系。这些模型在非常大的文本模型上进行训练，然后针对特定任务进行微调，如翻译、问题回答或文本生成。他们创造的强大的语言模型可以产生惊人的连贯性和上下文的句子、段落，甚至整个文章，但仍然有一个问题，即像其他模型一样，它们只基于概率，因此也会 “幻化 “或发明内容，因为它是 “可能的”，但却是错误的。

生成式人工智能模型的使用案例

现在我们了解了这些系统的基本原理，也慢慢明白了极限在哪里，但也明白了它们是如何工作的，我们也可以马上谈一谈如何应用这些模型。总的来说，你可以说目前的生成性人工智能浪潮仅限于那些有必要进行良好重复的应用（GAN模型），或者你需要 “可能是某种东西 “的输出，如语音的转录，或生成文本。这里提到的一些应用案例应该能让你对这些可能性有一个大致的了解：

创意艺术和设计

生成式人工智能已经在艺术和设计中找到了许多应用，并且正在改变我们创造和体验艺术的方式。Dall-E、Midjourney和许多其他图像生成器已经表明，创造逼真和引人注目的艺术是可能的。

尤其是GANs，在这个领域发挥了重要作用。例如，”明显 “艺术团体使用GAN创建的人工智能生成的肖像在佳士得拍卖行卖出了高达43.25万美元的价格。

音乐创作和生成：生成性人工智能模型也被用来创作音乐。几年前，像音乐这样复杂和有创造性的东西可以由机器生成是不可想象的。像谷歌的MusicLM或OpenAI的MuseNet这样的网络是根据不同流派和来源的MIDI文件训练出来的模型，可以生成许多不同风格的作品。
将艺术转化为不同的风格：人工智能不仅可以创造新的作品，还可以改造现有的作品。人工智能模型可以学习一个图像的风格元素，并将其应用于另一个图像–这种技术被称为神经风格转移。其结果是一个混合图像，将一个图像的内容与另一个图像的艺术风格相结合。

自然语言处理（NLP）。

生成式人工智能在NLP任务中起着关键作用，例如，内容创建、对话系统、翻译，但也包括虚拟助理的创建。

文本和内容创建： GPT-3和GPT-4等模型对当前的炒作贡献很大。他们创造类似人类文本的卓越能力吸引了人们的想象。这些模型可以写文章、写诗、写代码或改进代码，使它们成为自动内容创作的宝贵工具，为我们分担工作–但问题是，内容并不总是准确的，所有的声音都差不多。
对话系统和虚拟助手：通过理解语言，同时以有针对性的方式生成内容，生成模型也有可能实现人类和机器之间的对话。它们可以产生上下文反应，进行类似人类的对话。这种能力提高了虚拟助理、聊天机器人和人工智能在客户服务和许多其他领域的有效性。
转录和语音增强：另一个广为人知的用例也是从语音中创建内容的语言模型。挑战在于，这些模型需要理解上下文，以补偿麦克风的不良质量或房间里的噪音。这样，生成式人工智能就能产生清晰的输出，也能创造出更好的视频和音频内容的转录方式。

计算机视觉和图像合成

生成式人工智能对计算机视觉任务有很大影响，因为神经网络也能识别物体或创建欺骗性的复制品。

图像合成： GANs被广泛用于生成真实的合成图像。例如，英伟达的StyleGAN产生了令人难以置信的栩栩如生的人脸图像，而这些图像并不存在。或者其他AI，无需专业相机就能生成电影内容。但也有Deep Fakes，即计算机生成的人的假版本，可以成为这种图像合成的一部分。
图像增强：生成模型也可以在一个被称为inpainting的过程中填补图像的缺失部分。他们根据周围像素的背景预测缺失的部分。Photoshop人工智能因此成为社交媒体的热门，因为它用不存在的内容补充了图像。另外，谷歌的 “魔力橡皮擦 “也成为头条新闻，它也使用了生成性人工智能，用 “最可能 “的填充物删除图片中的人或物体。

药物开发和医疗保健

生成式人工智能在医疗保健和药物开发方面具有很好的潜力，因为它也可以预测或 “发明 “不同的结构或化合物。

新药发现：生成式模型可以预测潜在药物的分子结构，加快药物发现过程。多年来，各种公司一直在尝试使用人工智能模型来发明新的分子化合物，并利用它们来开发治疗疾病的药物。
个性化的医学：生成模型也可以帮助个性化的医疗。通过从病人数据中学习模式，这些模型可以帮助为个别病人找到最有效的治疗方法。

生成式人工智能在现实世界场景中的例子

OpenAI的GPT-4：这个基于转化器的模型是一个高容量的语言生成器，能够起草电子邮件、编写代码、创建书面内容、辅导和翻译。
DeepArt：这个应用程序也被称为Prisma，它使用生成模型将用户上传的照片转化为由著名艺术家启发的艺术品。
MidJourney：是一个文本-图像生成器，它根据用户的输入和描述创建图像和图形。
谷歌的DeepDream：一个使用人工智能来寻找和加强图像中的模式的程序，创造出梦幻般的迷幻变换。
Jukin Composer：这个工具由OpenAI的MuseNet驱动，使用人工智能为视频内容创作原创音乐。
Insilico Medicine：一家生物技术公司，利用生成模型来预测潜在药物的分子结构，加快药物发现过程。
ChatGPT：由OpenAI开发的人工智能聊天机器人，可以进行类似人类的文本对话，用于客户服务和个人助理应用。
英伟达的StyleGAN：一种生成对抗网络，可生成现实中不存在的超现实的人脸图像。
Artbreeder：一个使用GANs来合并用户输入的图像的平台，以创造复杂和新颖的图像，如肖像和风景。
Runway ML: 这个创意工具包使用生成模型来帮助艺术家和设计师创造独特的动画和视觉效果。
Deepfake技术：一种使用GANs在视频中创造令人信服的脸部交换的技术，创造出一种潜在的欺骗性但令人印象深刻的逼真视频内容。

生成式人工智能的道德挑战和潜在的误用

生成式人工智能技术的发展，像任何技术一样，自然会带来新的（伦理）挑战：

深度造假和错误信息

生成式模型，特别是GANs，创造逼真的合成媒体的能力，导致了 “深度伪造 “的出现。这些是具有欺骗性的真实的人工生成的图像、音频或视频文件，密切模仿真实人物。在这个过程中，背景可能被完全改变，可能会说或做一些从未发生过的事情。这可能被滥用于传播错误信息或宣传，这可能会产生严重的社会和政治后果。

隐私和同意

生成式模型通常需要大量的数据进行训练。目前，特别是在欧盟，人们看到出现了关于数据和知识产权被用于训练人工智能系统的方式的诉讼和担忧。当模型在个人或敏感数据上训练时，这一点尤其关键。此外，生成逼真的合成数据（如人脸）可能会模糊同意的界限，因为这些生成的 “人类 “没有同意使用他们的肖像，众所周知，政治家已经出现在色情描写中。

无意中的偏见/成见

所有的人工智能模型，包括生成性人工智能，都会在无意中把偏见引入数据中。训练人工智能模型的方式可以是对数据进行偏见，通过选择数据进行偏见，或者通过拾取和处理反映在数据中的人类偏见。例如，如果一个语言模型是在互联网的文本上训练的，它可以学习并产生反映该数据中社会偏见的文本。

对经济和就业的影响

虽然生成性人工智能只能使某些任务自动化，并提高某些领域的效率，但它也可能导致使用这些模型的各个行业的工作被取代。由于它对一些行业的变化很大，失调的程度可能会更大，造成社会紧张。

AI治理和监管

讨论和实施人工智能的治理和监管显然是重要的。政策制定者、研究人员和行业领导者需要共同制定政策和措施，确保负责任地使用生成性人工智能，但同时商业界也希望人工智能不受监管，因为他们担心监管最终会阻碍创新，例如欧洲会落后于中国和美国，在人工智能竞赛中由于强大的监管而失败。然而，由于它也有侵犯版权等后果，其他国家也受到了挑战。

生成式人工智能的未来和局限性

生成式人工智能在短时间内已经在许多领域取得了长足的进步，并为未来带来了巨大的希望，但我们也必须明白，目前的模型有其局限性，即使有这些模型，也无法生成真正的超级智能人工智能。另外，LLM（大型语言模型）的工作方式也很有限。

增加现实性和复杂性

随着更好的数据集和更多的训练，生成模型结果的真实性和潜在复杂性可能会增加。这将扩展到所有领域的改进，从动画、视频、音乐到书面文本。然而，目前的模型也存在挑战，特别是在平衡一致性和创造性方面。

更大的个性化

虽然生成式人工智能有可能将内容完全个性化到个人和他们的 “风格”，? 然而，这引起了除隐私之外的其他问题。在提供个性化体验的同时，还要确保负责任地使用和储存个人用户的数据，这也是一个挑战。或者你想让你的声音被其他人使用，或者让模型按照你的想法进行训练？

创意工具的民主化

生成式人工智能让每个人都能轻松地创造虚构的内容–当然，这也为滥用打开了大门。保护知识产权和防止不道德地使用这些工具是需要解决的重要挑战，但目前还没有实用的解决方案。

改进决策和预测能力

生成式人工智能可以改善决策和预测模型。然而，这些模型只有在它们被训练的数据上才是好的，这也是许多公司已经失败的地方。毕竟，人工智能不能施展魔法，许多人的希望是通过人工智能避免 “艰苦的工作”，然而，干净的数据很重要。此外，现有的偏见、成见或不正确的模式可以在未来的评估中学习并反映出来，影响其可靠性和公平性。还有一个问题是，如果数据被其他公司使用，这种模型是否能确保数据隐私。

与其他新兴技术的整合

将生成性人工智能与其他新兴技术（如VR、AR和IoT）结合起来具有巨大的潜力，但也带来了技术和伦理方面的挑战，必须小心翼翼地加以应对。特别是当我们谈到虚拟世界和游戏时，那么只需输入一个提示或与生成性人工智能模型交谈，并在它创造虚拟世界时解释你希望如何创造虚拟世界，这可能会改变游戏。生成式人工智能也将是生成Metaverse世界的关键，并使大众能够轻松创建内容而不需要设计师或专家。

规模化的内容–规模化的回收

对于像谷歌或其他平台的供应商来说，试图对信息进行分类的挑战之一是很难区分由人工智能创造的内容。这些内容，如文章或博客，对讨论没有真正的贡献，没有增加价值，质量是 “统计学上的平均”（按定义）。但它变得如此容易轻松地扩大内容生产规模，所以很多内容都是这样生产的。如果我们再旋转几年，在未来，大型语言模型将被训练在另一个人工智能创造的内容上，包括偏见和问题以及缺乏原创内容 – 所以平庸的内容正在创造更多的平庸内容。

当前模型的高原期和创新的需要

生成式人工智能的关键限制之一是当前模型的高原期。专家们已经观察到，现有模型（如GPT-4）的可扩展性正在减弱。尽管它是一个强大的语言模型，但它已经达到了一个大型模型所能有效做的极限。

这种情况凸显了人工智能领域创新的必要性。必须开发新的方法和模型来克服当前技术的局限性。人工智能研究的下一阶段可能涉及探索不同的架构、训练方法，以及可能是全新的机器学习方法。

被媒体和投资者吹捧和喜爱

如果我不批评什么，就不是我的文章了。对智能的完美模仿目前正在助长一种炒作，推动公司用生成性人工智能做一切事情。围绕这个话题的资本和新闻的涌入正在创造一波兴趣，但它也严重限制了对这些模型的局限性的讨论，并表明大多数初创公司实际上只是在使用OpenAI或其他模型的相同API。正如我们已经了解到的，这些模型有其局限性，它们并不准确，因为它们只是统计模型，有时它们甚至只是基于GAN模型生成内容，而这些内容看起来应该只是足够逼真，没有区别。这大大限制了许多领域的应用，每个人工智能应用的最大问题之一也是大多数用例的数据质量不佳–所以我们将在很长一段时间内看到图像、艺术、文本、音频或插图等内容的有限应用。

目前，我们看到很多承诺，这些大型语言模型（LLMs）可能会发展，随着这些热门的承诺，硅谷和其他地方正在涌入这个领域，有很多资金和媒体关注。在ChatGPT于2022年底推出后，科技行业的下一次 “淘金热 “将由货币来推动。

总结

生成式人工智能绝对是一项迷人的技术，可以大规模地创造出具有欺骗性的真实内容。这些技术的使用案例令人印象深刻，肯定会专门将许多以前成本很高的事情自动化。

但是，像任何技术一样，能够创造欺骗性真实内容的人工智能也带来了自己的挑战和道德考虑。从深度造假到错误信息、隐私问题和偏见，有许多未回答的问题。公司和国家需要就有效的治理和监管达成一致。

目前的模型和算法有其局限性，根据许多专家的说法，这些局限性已经达到了。我们将看到该行业的承诺是否会实现，因为现在我们已经看到了一个可能的高原，而且这些模型并不随其规模而线性扩展。这意味着模型将变得更大，但只是稍微好一点。但有一点是肯定的，生成性人工智能将继续存在，有其局限性，但也有其所有的好处。

Benjamin Talin

Benjamin Talin, a serial entrepreneur since the age of 13, is the founder and CEO of MoreThanDigital, a global initiative providing access to topics of the future. As an influential keynote speaker, he shares insights on innovation, leadership, and entrepreneurship, and has advised governments, EU commissions, and ministries on education, innovation, economic development, and digitalization. With over 400 publications, 200 international keynotes, and numerous awards, Benjamin is dedicated to changing the status quo through technology and innovation. #bethechange Stay tuned for MoreThanDigital Insights - Coming soon!