Что такое генеративный искусственный интеллект? — Все, что тебе нужно знать, включая значение, модели и примеры

Пойми, что такое генеративные модели ИИ и что они собой представляют, каковы их ограничения, а также случаи использования

By Benjamin Talin On Июл 11, 2023

Исследуй мир генеративного ИИ: его значение, модели, приложения, этику, ограничения и будущий потенциал в этом исчерпывающем руководстве.

Index

Введение в искусственный интеллект (ИИ)

Искусственный интеллект (ИИ) сейчас повсюду — в новостях, в LinkedIn или даже в местном пабе, у каждого есть своё мнение или прогноз. Многие предсказывают (или, по крайней мере, надеются), что он произведет революцию в том, как мы живем, работаем и взаимодействуем. Но что это такое и почему сейчас так много шумихи?

По своей сути, ИИ — это широкий термин, который относится к машинам или программному обеспечению. Их цель — имитировать человеческий интеллект и стремиться учиться, думать, воспринимать, рассуждать, общаться и принимать решения так же, как это делал бы человек. Эту развивающуюся технологию можно разделить на три категории: Узкий ИИ, предназначенный для выполнения конкретной задачи, такой как распознавание речи; Общий ИИ, который может выполнять любую интеллектуальную задачу, которую может выполнить человек; и Сверхинтеллектуальный ИИ, который превосходит возможности человека в большинстве экономически ценных работ.

В этих широких рамках того, что включает в себя ИИ как определение, в настоящее время в СМИ фигурирует специфическое подмножество. Так называемый генеративный ИИ, который может генерировать обманчиво похожие тексты, изображения и другой контент. Эта статья посвящена тому, что такое генеративный ИИ, что он означает и какие заметные примеры демонстрируют его потенциал.

Что такое генеративный ИИ?

Как уже упоминалось выше, генеративный ИИ подпадает под зонтичный термин искусственного интеллекта, но он выкроил свою собственную нишу. Это набор обученных моделей и техник ИИ, которые используют статистические методы для создания контента на основе его вероятностей. Эти типы систем ИИ учатся имитировать (Важно — имитировать, а не понимать и применять) данные, на которых они были обучены, а затем выдавать похожий контент (То есть не факты). В отличие от дискриминативного ИИ, который классифицирует входные данные по заранее определенным категориям (например, спам-фильтры), генеративный ИИ генерирует новые, синтетические данные, которые отражают обучающие данные.

В основе генеративного ИИ лежат методы машинного обучения и, в частности, глубокого обучения. Машинное обучение использует алгоритмы, которые могут учиться на данных и использовать их для принятия решений или прогнозов. Глубокое обучение, подмножество машинного обучения, использует так называемые нейронные сети с несколькими слоями. Каждый слой представляет собой что-то вроде синапса в мозге — который срабатывает с определенной вероятностью. Поэтому, когда появляется слово «Great», возникают различные синапсы (узлы), которые с определенной вероятностью говорят, что после слова «Great» может идти «Britain» или «Wall». Чем больше контекста дается, тем больше тренируются эти узлы. Если где-то появляются Лондон, королева и Юнион Джек, то очень вероятно, что это будет «Great Britain», а не «Great Wall».

Генеративные модели используют несколько классов статистических моделей (часто нейронные сети). В наиболее известном на данный момент примере ChatGPT используется архитектура кодер/декодер. Входные данные анализируются и классифицируются сетью кодировщика, преобразуются в читаемые компьютером числа и переменные, отправляются через обученную нейронную сеть, и результат чисел и переменных выводится обратно на декодер в виде текста.

Простое объяснение генеративного ИИ: текст, который вводит пользователь, разлагается, машина пытается его понять, на основе полученной информации сеть затем пытается сгенерировать наилучший возможный ответ и снова сделать его человекочитаемым, результаты преобразуются обратно в речь и выводятся на экран. Поэтому все основывается только на вероятностях, и поэтому дело доходит и до того, что делаются ложные заявления, потому что они были в данном случае «более вероятны», чем факты.

Шумиха в СМИ и в социальных сетях вокруг этой технологии, вероятно, основана на том, что эти модели очень хорошо генерируют убедительный и обманчиво реальный контент и таким образом заставляют нас поверить в интеллект. Несмотря на это, у генеративных моделей ИИ есть и другие применения, помимо генерации изображений и текста. Примерами могут быть увеличение данных, обнаружение аномалий и вменение недостающих данных, а также классификация контента.

Как работает генеративный ИИ — 3 модели, которые ты должен знать

В последнее время в области ИИ произошёл монументальный прогресс, поскольку вычислительные мощности стали достаточно дешёвыми, чтобы работать с большими массивами данных по «разумным ценам», создавая основу для обучения различных моделей в достаточно больших масштабах для получения разумных результатов.

Вот три основные модели, лежащие в основе генеративного ИИ, каждая из которых имеет свои сильные и слабые стороны, а также возможные варианты использования:

Генеративные адверсарные сети (ГАС, Generative Adversarial Networks — GANs)

GANs, по сути, состоят из двух нейронных сетей — генератора и дискриминатора, — которые конкурируют друг с другом, в то время как одна должна создавать новый выход, а другая контролирует этот выход. Это работает по принципу, похожему на фальшивомонетчика, пытающегося изготовить фальшивые деньги, и детектива, пытающегося отличить подделку от настоящей вещи.

Генераторная сеть начинает с создания образца/выхода и передает его дискриминатору. Дискриминатор сначала не очень хорошо различает и может классифицировать подделку как настоящую. Поэтому обе сети должны быть обучены для повышения их эффективности. Однако, поскольку обе сети также учатся на своих ошибках, их производительность со временем становится все лучше и лучше (вот почему модели ИИ нужно обучать).

Цель генератора — производить данные и выходные данные, которые дискриминатор не может отличить от реальных данных. В то же время дискриминатор старается все лучше и лучше отличать настоящие данные от поддельных. Это продолжается до тех пор, пока не будет достигнуто равновесие, когда генератор производит реалистичные данные, а дискриминатор уже не может отличить их и на 50% не уверен, что это подделка или реальность.

Вариационные автоэнкодеры (Variational Autoencoders — VAEs)

VAE полагаются исключительно на принципы вероятности и статистики для генерации синтетических данных. Эти модели генерируют данные на основе различных простых математических структур, таких как среднее значение или стандартные отклонения.

VAE состоят из кодера и декодера (как кратко объяснено выше). Кодер сжимает входные данные в так называемое «представление латентного пространства», которое фиксирует параметры статистики на основе вероятностного распределения (среднего и дисперсии). Затем он генерирует выборку из изученного распределения в латентном пространстве, которую сеть декодера берет и восстанавливает исходные входные данные. Модель обучается минимизировать разницу между входом и выходом, чтобы сгенерированные данные были очень похожи на исходные, так как они проходят через те же обученные сети и вероятности в обоих направлениях.

Модели на основе трансформаторов (Transformer-based models)

В отличие от GAN и VAE, модели на основе трансформаторов, такие как GPT-3 и GPT-4, используются в основном для задач, в которых задействованы данные последовательности, то есть данные, имеющие специфическую семантику или корреляции друг с другом, например, обработка естественного языка.

Модели на основе трансформаторов используют архитектуру, основанную на «механизмах внимания», которые присваивают более высокую важность определенным частям входных данных во время выполнения задачи в попытке извлечь и взвесить смысл высказывания.

Модели GPT используют вариант трансформатора, называемый трансформаторным декодером, который считывает всю последовательность данных (например, предложение) сразу и может таким образом моделировать или выяснять сложные зависимости между словами в предложении. Модели обучаются на очень больших текстовых моделях, а затем тонко настраиваются для конкретных задач, таких как перевод, ответы на вопросы или генерация текста. Создаваемые ими мощные языковые модели могут производить удивительно связные и контекстуальные предложения, абзацы или даже целые статьи, но при этом у них остается проблема, что, как и другие модели, они основаны только на вероятностях и поэтому также «халюцинируют» или придумывают содержание, потому что оно «вероятно», но неверно.

Случаи использования генеративных моделей ИИ

Теперь, когда мы понимаем основы этих систем, а также потихоньку понимаем, где находятся пределы, но и как они работают, мы можем сразу же поговорить и о том, как мы можем применять эти модели. В целом можно сказать, что нынешняя волна генеративного ИИ ограничена приложениями, где необходимо либо хорошее дублирование (модели GAN), либо где нужны выходы, которые «скорее всего будут чем-то», как расшифровка речи или генерация текста. Некоторые из упомянутых здесь примеров использования должны дать тебе общее представление о возможностях:

Творческие искусства и дизайн

Генеративный ИИ нашел множество применений в искусстве и дизайне и меняет то, как мы создаем и воспринимаем искусство. Dall-E, Midjourney и многие другие генераторы изображений показали, что можно создавать реалистичное и убедительное искусство.

GAN, в частности, сыграли важную роль в этой области. Например, сгенерированный ИИ портрет, созданный арт-коллективом Obvious с помощью GAN, был продан за огромные $432 500 на аукционе Christie’s.

Сочинение и генерация музыки: Генеративные модели ИИ также использовались для сочинения музыки. Несколько лет назад было немыслимо, чтобы что-то настолько сложное и творческое, как музыка, могло быть сгенерировано машиной. Такие сети, как MusicLM от Google или MuseNet от OpenAI, — это модели, обученные на MIDI-файлах из разных жанров и источников, которые могут генерировать композиции в самых разных стилях.
Перевод искусства в разные стили: ИИ может не только создавать новые произведения, но и трансформировать существующие. Модели ИИ могут изучать элементы стиля одного изображения и применять их к другому — эта техника известна как нейронный перенос стиля. В результате получается гибридное изображение, которое сочетает в себе содержание одного изображения с художественным стилем другого.

Обработка естественного языка (NLP).

Генеративный ИИ играет ключевую роль в задачах НЛП, например, в создании контента, диалоговых систем, переводов, но также и в создании виртуальных помощников.

Создание текста и контента: Такие модели, как GPT-3 и GPT-4, внесли большой вклад в нынешний ажиотаж. Их замечательные способности создавать человекоподобный текст поразили воображение. Эти модели могут писать статьи, сочинять стихи, писать или улучшать код, что делает их ценными инструментами для автоматизированного создания контента и снимает с нас работу — но с той проблемой, что контент не всегда точен и звучит примерно одинаково.
Диалоговые системы и виртуальные помощники: Благодаря пониманию языка, а также целенаправленному генерированию контента, генеративные модели также обладают потенциалом для обеспечения диалога между людьми и машинами. Они могут генерировать контекстуальные ответы и участвовать в человекоподобных беседах. Эта способность повышает эффективность виртуальных помощников, чат-ботов и ИИ в обслуживании клиентов и многих других областях.
Транскрипция и аугментация голоса: Другим широко известным случаем использования являются также языковые модели, которые создают контент из речи. Сложность заключалась в том, что эти модели должны понимать контекст, чтобы компенсировать плохое качество микрофона или шум в комнате. Таким образом, генеративный ИИ производит четкие и ясные результаты, а также создает гораздо более качественные расшифровки видео- и аудиоконтента.

Компьютерное зрение и синтез изображений

Генеративный ИИ оказывает большое влияние на задачи компьютерного зрения, поскольку нейронные сети также распознают объекты или создают обманчивые реплики.

Синтез изображений: GAN широко используются для генерации реалистичных синтетических изображений. Например, StyleGAN от NVIDIA создал невероятно реалистичные изображения человеческих лиц, которых не существует. Или другие ИИ, которые генерируют кинематографический контент без необходимости использования профессиональных камер. Но также и Deep Fakes, сгенерированные компьютером поддельные версии людей, могут быть частью этого синтеза изображений.
Улучшение изображений: Генеративные модели также могут заполнять недостающие части изображения в процессе, который называется инпайнтинг. Они предсказывают недостающие части, основываясь на контексте окружающих пикселей. Photoshop AI в результате стал хитом социальных сетей, потому что он дополнял изображения контентом, которого не существовало. Также Google сделал заголовки с «Волшебным ластиком», который также использует генеративный ИИ для удаления людей или объектов с фотографий с заполнением, которое является «наиболее вероятным».

Разработка лекарств и здравоохранение

Генеративный ИИ имеет многообещающий потенциал для здравоохранения и открытия лекарств, потому что он также может предсказывать или «изобретать» различные структуры или соединения.

Открытие новых лекарств: Генеративные модели могут предсказывать молекулярные структуры для потенциальных лекарств, ускоряя процесс открытия лекарств. Различные компании уже много лет пытаются использовать модели ИИ для изобретения новых молекулярных соединений и использовать их для разработки препаратов для лечения заболеваний.
Персонифицированная медицина: Генеративные модели также могут помочь персонализировать медицинское лечение. Изучая закономерности из данных о пациентах, эти модели могут помочь найти наиболее эффективное лечение для отдельных пациентов.

Примеры генеративного ИИ в реальных сценариях

GPT-4 от OpenAI: эта модель, основанная на трансформации, является высокопроизводительным генератором языка, способным составлять электронные письма, писать код, создавать письменный контент, обучать и переводить.
DeepArt: Также известное как Prisma, это приложение использует генеративные модели для преобразования загруженных пользователем фотографий в произведения искусства, вдохновленные известными художниками.
MidJourney: Это генератор текста в изображение, который создает изображения и графику на основе пользовательских вводных и описаний.
DeepDream от Google: Программа, которая использует искусственный интеллект для поиска и улучшения паттернов в изображениях, создавая похожие на сны психоделические трансформации.
Jukin Composer: Этот инструмент, работающий на базе OpenAI’s MuseNet, использует ИИ для сочинения оригинальной музыки для видеоконтента.
Insilico Medicine: Биотехнологическая компания, использующая генеративные модели для предсказания молекулярных структур потенциальных лекарств, что ускоряет процесс открытия лекарств.
ChatGPT: Чатбот на базе ИИ, разработанный OpenAI, который может вести текстовые разговоры, похожие на человеческие, и используется в сфере обслуживания клиентов и персональных помощников.
StyleGAN от NVIDIA: генеративная адверсарная сеть, которая генерирует гиперреалистичные изображения человеческих лиц, которых не существует в реальности.
Artbreeder: Платформа, которая использует GAN для объединения изображений, введенных пользователем, для создания сложных и новых изображений, таких как портреты и пейзажи.
Runway ML: Этот творческий инструментарий использует генеративные модели, чтобы помочь художникам и дизайнерам создавать уникальные анимации и визуальные образы.
Технология Deepfake: Технология, которая использует GANs для создания убедительных подмен лиц в видео, создавая потенциально обманчивый, но впечатляюще реалистичный видеоконтент.

Этические проблемы и потенциальное неправильное использование генеративного ИИ

Развитие технологий генеративного ИИ, как и любой технологии, естественно, приносит новые (этические) вызовы:

Глубокие подделки и дезинформация

Способность генеративных моделей, в частности GAN, создавать реалистичные синтетические медиа привела к появлению «глубоких подделок». Это обманчиво реальные искусственно сгенерированные изображения, аудио- или видеофайлы, которые близко имитируют реальных людей. В процессе работы контекст может быть полностью изменен, и могут быть сказаны или сделаны вещи, которых никогда не было. Этим можно злоупотреблять для распространения дезинформации или пропаганды, что может иметь серьезные социальные и политические последствия.

Конфиденциальность и согласие

Генеративные модели обычно требуют больших объемов данных для обучения. В настоящее время, в частности в ЕС, можно наблюдать появление судебных исков и озабоченность тем, как данные и интеллектуальная собственность используются для обучения систем ИИ. Это особенно критично, когда модели обучаются на личных или конфиденциальных данных. Кроме того, генерация реалистичных синтетических данных (например, человеческих лиц) может размыть границы согласия, поскольку эти сгенерированные «люди» не давали согласия на использование их подобия, а политики, как известно, появляются в порнографических изображениях.

Непреднамеренная предвзятость / предубеждение

Все модели ИИ, включая генеративный ИИ, могут непреднамеренно вносить в данные предвзятость. Способ обучения моделей ИИ может заключаться либо в предвзятости данных, либо в предвзятости при выборе данных, либо в улавливании и обработке человеческих предубеждений, которые отражаются в данных. Например, если языковая модель обучается на тексте из Интернета, она может научиться и создавать текст, отражающий общественные предубеждения в этих данных.

Влияние на экономику и занятость

Хотя генеративный ИИ может автоматизировать только определённые задачи и повысить эффективность в некоторых областях, он также может привести к вытеснению рабочих мест в различных отраслях, где используются эти модели. Поскольку для некоторых отраслей он существенно меняется, вытеснения могут быть более значительными, создавая социальную напряженность.

Управление и регулирование ИИ

Обсуждение и реализация управления и регулирования ИИ, безусловно, важны. Политики, исследователи и лидеры индустрии должны работать вместе над созданием политики и мер, обеспечивающих ответственное использование генеративного ИИ, но в то же время бизнес-сообщество также хочет нерегулируемого ИИ, так как опасается, что регулирование в конечном итоге помешает инновациям, и, например, Европа будет отставать от Китая и США и проиграет в гонке ИИ из-за сильного регулирования. Однако, поскольку это также имеет последствия, такие как нарушение авторских прав, другие страны также сталкиваются с проблемой.

Будущее и ограничения генеративного ИИ

Генеративный ИИ уже добился больших успехов во многих областях за короткий промежуток времени и подает большие надежды на будущее, но также важно понимать, что текущие модели имеют свои ограничения, и даже с их помощью невозможно создать настоящий сверхинтеллектуальный ИИ. Кроме того, LLM (большие языковые модели) ограничены в том, как они работают.

Повышенная реалистичность и сложность

С улучшением наборов данных и увеличением количества тренировок реалистичность и потенциальная сложность результатов генеративных моделей, вероятно, будут увеличиваться. Это распространится на улучшения во всех областях, начиная от анимации, видео, музыки и заканчивая письменным текстом. Однако существуют проблемы с текущими моделями, особенно когда речь идет о балансе между согласованностью и креативностью.

Большая персонализация

Хотя генеративный ИИ имеет потенциал для полной персонализации контента под человека и его «стиль»,? Однако это поднимает другие вопросы, помимо конфиденциальности. Существует также проблема предоставления персонализированного опыта при обеспечении ответственного использования и хранения данных отдельных пользователей. Или ты хочешь, чтобы твой голос использовался другими людьми или чтобы модель обучалась на твоих идеях?

Демократизация творческих инструментов

Генеративный ИИ дает каждому легкий доступ к простому созданию вымышленного контента — конечно, это также открывает двери для злоупотреблений. Защита прав интеллектуальной собственности и предотвращение неэтичного использования этих инструментов — важные задачи, которые необходимо решить, но практических решений для этого пока нет.

Улучшенное принятие решений и возможности прогнозирования

Генеративный ИИ может улучшить принятие решений и прогностическое моделирование. Однако эти модели хороши лишь настолько, насколько хороши данные, на которых они обучены, и в этом также многие компании уже терпят неудачу. В конце концов, ИИ не может творить волшебство, и надежда многих заключается в том, что с помощью ИИ они смогут избежать «тяжёлой работы», однако здесь важны чистые данные. Кроме того, существующие предубеждения, предрассудки или неправильные шаблоны могут быть усвоены и отражены в будущих оценках, что повлияет на их надежность и справедливость. Также существует вопрос о том, смогут ли такие модели обеспечить конфиденциальность данных, если эти данные будут использоваться другими компаниями.

Интеграция с другими развивающимися технологиями

Интеграция генеративного ИИ с другими развивающимися технологиями, такими как VR, AR и IoT, обладает огромным потенциалом, но также ставит технические и этические проблемы, которые необходимо тщательно преодолевать. Особенно если мы говорим о виртуальных мирах и играх, то здесь может измениться игра: достаточно набрать промт или поговорить с моделью генеративного ИИ и объяснить, как ты хочешь, чтобы был создан виртуальный мир, пока он его создает. Генеративный ИИ также станет ключом к созданию миров Metaverse и сделает виртуальные миры доступными для масс с простым созданием контента без необходимости привлечения дизайнеров или экспертов.

Контент в масштабе — переработка в масштабе

Одна из проблем для таких провайдеров, как Google или другие платформы, пытающихся классифицировать информацию, заключается в том, что трудно отличить контент, созданный ИИ. Такой контент, как статьи или блоги, не вносит реального вклада в обсуждение, не добавляет добавленной стоимости, а его качество «статистически среднее» (per Definition). Но стало так легко масштабировать производство контента, и поэтому много контента производится именно таким образом. Если мы раскрутим это на несколько лет дальше, то в будущем большие языковые модели будут обучаться на контенте, созданном другим ИИ, включая предубеждения и проблемы и отсутствие оригинального контента — So Mediocre Content is Creating more Mediocre Content.

Плато текущих моделей и необходимость инноваций

Одним из ключевых ограничений генеративного ИИ является плато текущих моделей. Эксперты уже наблюдают, что масштабируемость существующих моделей, таких как GPT-4, уменьшается. Хотя это мощная языковая модель, она достигла пределов того, что может эффективно делать большая модель.

Эта ситуация подчеркивает необходимость инноваций в области ИИ. Необходимо разработать новые методы и модели, чтобы преодолеть ограничения текущих технологий. Следующий этап исследований в области ИИ, вероятно, будет связан с изучением различных архитектур, методов обучения и, возможно, совершенно новых подходов к машинному обучению.

Раздутый и любимый СМИ и инвесторами

Это была бы не моя статья, если бы я не критиковал что-то. Идеальная имитация интеллекта в настоящее время подпитывает шумиху, которая побуждает компании делать всё с помощью генеративного ИИ. Приток капитала и новости вокруг этой темы создают волну интереса, но это также сильно ограничивает обсуждение ограничений этих моделей и показывает, что большинство стартапов на самом деле просто используют тот же API от OpenAI или других моделей. Как мы уже выяснили, модели имеют свои ограничения, они не являются точными, так как это всего лишь статистические модели, а иногда они даже просто генерируют контент на основе GAN-моделей, которые должны выглядеть просто достаточно реалистично, чтобы быть неотличимыми. Это сильно ограничивает возможности применения во многих областях, и одной из самых больших проблем для каждого приложения ИИ также является низкое качество данных для большинства случаев использования — поэтому мы еще долго будем видеть ограниченные приложения для контента, такого как изображения, искусство, текст, аудио или иллюстрации.

В настоящее время мы видим много обещаний, что эти Большие языковые модели (LLM) могут развиваться, и с этими горячими обещаниями Кремниевая долина и другие стекаются в это пространство с большим количеством денег и вниманием СМИ. Следующая «золотая лихорадка» в технологической индустрии будет подпитываться валютой после запуска ChatGPT в конце 2022 года.

Заключение

Генеративный ИИ, безусловно, увлекательная технология, которая позволяет создавать обманчиво реальный контент в масштабах. Варианты использования этих технологий впечатляют и, безусловно, конкретно автоматизируют многие вещи, которые раньше были дорогостоящими.

Но, как и любая технология, ИИ, который может создавать обманчиво реальный контент, также приносит свои проблемы и этические соображения. От deepfakes до дезинформации, проблем конфиденциальности и предвзятости — есть много вопросов без ответов. Компаниям, но и государствам необходимо договориться об эффективном управлении и регулировании ИКС.

Текущие модели и алгоритмы имеют свои ограничения, и, по мнению многих экспертов, они уже достигнуты. Мы увидим, будут ли достигнуты обещания индустрии, потому что уже сейчас мы видим плато того, что возможно, и то, что модели не масштабируются линейно с их размером. Это означает, что модели будут становиться больше, но лишь незначительно лучше. Однако одно можно сказать наверняка: генеративный ИИ здесь, чтобы остаться, с ограничениями, но и со всеми преимуществами.

Benjamin Talin

Benjamin Talin, a serial entrepreneur since the age of 13, is the founder and CEO of MoreThanDigital, a global initiative providing access to topics of the future. As an influential keynote speaker, he shares insights on innovation, leadership, and entrepreneurship, and has advised governments, EU commissions, and ministries on education, innovation, economic development, and digitalization. With over 400 publications, 200 international keynotes, and numerous awards, Benjamin is dedicated to changing the status quo through technology and innovation. #bethechange Stay tuned for MoreThanDigital Insights - Coming soon!