Какво е генеративен изкуствен интелект? – Всичко, което трябва да знаете, вкл. значение, модели и примери
Разберете генериращите модели на изкуствения интелект и че те са, техните ограничения, но и случаите на употреба
Разгледайте света на генеративния изкуствен интелект: неговото значение, модели, приложения, етика, ограничения и бъдещ потенциал в това изчерпателно ръководство.
Index
Въведение в изкуствения интелект (AI)
Изкуственият интелект (ИИ) в момента е навсякъде – от новините до LinkedIn или дори в местната кръчма – всеки има мнение или прогноза. Мнозина прогнозират (или поне се надяват), че той ще направи революция в начина, по който живеем, работим и взаимодействаме. Но какво точно представлява тя и защо в момента се шуми толкова много около нея?
В основата си ИИ е широк термин, който се отнася до машини или софтуер. Целта е да се имитира човешката интелигентност и да се стремят да се учат, да мислят, да възприемат, да разсъждават, да общуват и да вземат решения, както би направил човек. Тази развиваща се технология може да бъде разделена на три категории: Тесен ИИ, предназначен за конкретна задача, като например разпознаване на реч; Общ ИИ, който може да изпълнява всяка интелектуална задача, която може да изпълнява човек; и Свръхинтелигентен ИИ, който надминава човешките възможности в повечето икономически ценни дейности.
В тази широка рамка на това, което включва ИИ като определение, понастоящем в медиите се говори за специфична подгрупа. Така нареченият генеративен ИИ, който може да генерира измамно подобни текстове, изображения и друго съдържание. Тази статия се фокусира върху това какво е генеративен ИИ, какво означава и какви забележителни примери демонстрират неговия потенциал.
Какво е генеративен ИИ?
Както беше споменато по-горе, генеративният ИИ попада под общия термин изкуствен интелект, но е обособил своя собствена ниша. Той представлява набор от обучени модели и техники на ИИ, които използват статистически методи за създаване на съдържание въз основа на неговите вероятности. Тези видове системи за ИИ се научават да имитират (Важно – имитират, а не разбират и прилагат) данните, върху които са били обучени, и след това произвеждат подобно съдържание (Така че не са факти). За разлика от дискриминативния ИИ, който класифицира входните данни в предварително определени категории (напр. филтри за спам), генеративният ИИ генерира нови, синтетични данни, които отразяват данните от обучението.
В основата на генеративния ИИ са техниките за машинно обучение и по-специално дълбокото обучение. Машинното обучение използва алгоритми, които могат да се учат от данни и да ги използват за вземане на решения или прогнози. Дълбокото учене, подмножество на машинното учене, използва така наречените невронни мрежи с множество слоеве. Всеки слой представлява нещо като синапс в мозъка – който се задейства с определена вероятност. Така че, когато се появи дума като „Велик“, има различни синапси (възли), които след това казват с определена вероятност, че след „Велик“ може да се появи „Великобритания“ или „Стената“. Колкото повече контекст се дава, толкова повече тези възли се обучават. Ако някъде се появят Лондон, кралицата и Юнион Джак, тогава е много вероятно да е „Великобритания“, а не „Великата стена“.
Генеративните модели използват няколко класа статистически модели (често невронни мрежи). В най-известния в момента пример ChatGPT се използва архитектура на енкодер/декодер. Входните данни се анализират и класифицират от кодираща мрежа, преобразуват се в числа и променливи, които могат да се четат на компютър, изпращат се през обучена невронна мрежа и резултатът от числата и променливите се извежда обратно на декодер като текст.
Просто обяснение на генеративния изкуствен интелект: Текстът, който е въведен от потребителя, се разлага, машината се опитва да го разбере, след което въз основа на информацията мрежата се опитва да генерира най-добрия възможен отговор и да го направи отново четим за човека, резултатите се преобразуват обратно в реч и се извеждат. Следователно всичко се основава само на вероятности и така се стига и до факта, че се правят неверни твърдения, защото те в случая са били „по-вероятни“ от фактите.
Шумотевицата в медиите и в социалните мрежи около тази технология вероятно се основава на факта, че тези модели са много добри в генерирането на убедително и измамно реално съдържание и по този начин ни карат да вярваме в интелигентността. Въпреки това генеративните модели на изкуствения интелект имат и други приложения освен генерирането на изображения и текстове. Примери за това могат да бъдат допълване на данни, откриване на аномалии и присвояване на липсващи данни или класификация на съдържание.
Как работи генеративният изкуствен интелект – 3 модела, които трябва да знаете
Напоследък те са монументални в напредъка на ИИ, тъй като изчислителната мощност стана достатъчно евтина, за да се обработват големи набори от данни на „разумна цена“, създавайки основа за обучение на различни модели в мащаби, достатъчно големи, за да дават разумни резултати.
Това са трите основни модела, стоящи зад генеративния ИИ, всеки от които има своите силни и слаби страни и възможни случаи на използване:
Генериращи мрежи с противопоставяне (Generative Adversarial Networks – GANs)
GANs по същество се състоят от две невронни мрежи – генератор и дискриминатор – които се конкурират помежду си, докато едната трябва да създаде нов изход, а другата контролира изхода. Това работи на подобен принцип като фалшификатор, който се опитва да произведе фалшиви пари, и детектив, който се опитва да различи фалшивите от истинските.
Мрежата на генератора започва със създаването на образец/изход и го предава на дискриминатора. Отначало дискриминаторът също не е много добър в различаването и може да класифицира фалшификата като истински. Така че и двете мрежи трябва да бъдат обучени за тяхната ефективност. Въпреки това, тъй като и двете мрежи се учат от грешките си, тяхната ефективност става все по-добра с течение на времето (Ето защо моделите на изкуствения интелект трябва да бъдат обучавани).
Целта на генератора е да произвежда данни и изходни данни, които дискриминаторът не може да различи от истинските данни. В същото време дискриминаторът се опитва да става все по-добър в разграничаването на истинските данни от фалшивите. Това продължава, докато не се постигне равновесие, при което генераторът произвежда реалистични данни, а дискриминаторът вече не може да ги различава и е 50% несигурен, че са фалшиви или истински.
Вариационни автоенкодери (Variational Autoencoders – VAE).
VAE разчитат единствено на принципите на вероятността и статистиката, за да генерират синтетични данни. Тези модели генерират данни въз основа на различни прости математически структури, като например средна стойност или стандартни отклонения.
VAE се състоят от енкодер и декодер (както е обяснено накратко по-горе). Кодерът компресира входните данни в така нареченото „представяне на латентно пространство“, което улавя параметрите на статистиката въз основа на вероятностното разпределение (средна стойност и дисперсия). След това той генерира извадка от наученото разпределение в латентното пространство, която декодиращата мрежа взема и реконструира оригиналните входни данни. Моделът е обучен да минимизира разликата между входа и изхода, така че генерираните данни да са много подобни на оригиналните, тъй като преминават през същите обучени мрежи и вероятности в двете посоки.
Модели, базирани на трансформатори (Transformer-based models)
За разлика от GAN и VAE, моделите, базирани на трансформатори, като GPT-3 и GPT-4, се използват предимно за задачи, които включват последователни данни, т.е. данни, които имат специфична семантика или корелации помежду си, като например обработка на естествен език.
Моделите, базирани на трансформатори, използват архитектура, базирана на „механизми за внимание“, които придават по-голяма важност на определени части от входните данни по време на изпълнението на задачата в опит да извлекат и претеглят значението на дадено твърдение.
Моделите на ГПТ използват вариант на трансформатора, наречен дешифратор на трансформатора, който чете наведнъж цяла поредица от данни (напр. изречение) и по този начин може да моделира или да разгадава сложни зависимости между думите в изречението. Моделите се обучават върху много големи модели на текстове и след това се настройват фино за конкретни задачи, като например превод, отговаряне на въпроси или генериране на текст. Създадените от тях мощни езикови модели могат да създават удивително последователни и контекстуални изречения, параграфи или дори цели статии, но все още имат проблема, че подобно на другите модели те се основават само на вероятности и поради това също „халюцинират“ или измислят съдържание, защото то е „вероятно“, но погрешно.
Случаи на използване на генеративни модели на изкуствен интелект
Сега, след като разбрахме основите на системите и също така бавно разбираме къде са границите, но и как работят, можем веднага да говорим и за това как можем да приложим тези модели. Най-общо може да се каже, че настоящата вълна на генеративния ИИ е ограничена до приложения, при които е необходимо или добро дублиране (модели на GAN), или където са необходими изходи, които „вероятно са нещо“, като транскрипция на реч или генериране на текст. Някои от споменатите тук случаи на употреба трябва да ви дадат представа за възможностите:
Творчески изкуства и дизайн
Генеративният ИИ е намерил многобройни приложения в изкуството и дизайна и променя начина, по който създаваме и преживяваме изкуство. Dall-E, Midjourney и много други генератори на изображения показаха, че е възможно да се създава реалистично и завладяващо изкуство.
В тази област важна роля изиграха по-специално GANs. Например, портрет, генериран от изкуствен интелект, създаден от арт колектива Obvious с помощта на GAN, беше продаден за 432 500 долара в аукционната къща Christie’s.
- Композиране и генериране на музика: Генериращите модели на ИИ се използват и за композиране на музика. Преди няколко години беше немислимо, че нещо толкова сложно и творческо като музиката може да бъде генерирано от машина. Мрежи като MusicLM на Google или MuseNet на OpenAI са модели, обучени върху MIDI файлове от различни жанрове и източници, които могат да генерират композиции в много различни стилове.
- Превеждане на изкуството в различни стилове: ИИ може не само да създава нови произведения, но и да трансформира съществуващи. Моделите на ИИ могат да научат елементите на стила на едно изображение и да ги приложат към друго – техника, известна като невронно прехвърляне на стилове. Резултатът е хибридно изображение, което съчетава съдържанието на едно изображение с художествения стил на друго.
Обработка на естествен език (NLP).
Генериращият ИИ играе ключова роля в задачите на NLP, напр. създаване на съдържание, диалогови системи, преводи, но също и създаване на виртуални асистенти.
- Създаване на текст и съдържание: Модели като GPT-3 и GPT-4 допринесоха много за сегашната популярност. Техните забележителни способности за създаване на текст, подобен на човешкия, завладяха въображението. Тези модели могат да пишат статии, да съчиняват поезия, да пишат или да подобряват код, което ги прави ценни инструменти за автоматизирано създаване на съдържание и отнема от работата ни – но с проблема, че съдържанието не винаги е точно и всички звучат приблизително еднакво.
- Диалогови системи и виртуални асистенти: Чрез разбиране на езика, но и чрез целенасочено генериране на съдържание, генеративните модели имат потенциала да позволят диалог между хората и машините. Те могат да генерират контекстуални отговори и да участват в разговори, подобни на човешките. Тази способност повишава ефективността на виртуалните асистенти, чатботовете и изкуствения интелект в обслужването на клиенти и в много други области.
- Транскрипция и гласово разширяване: Друг случай на употреба, който е широко известен, са и езиковите модели, които създават съдържание от реч. Предизвикателството е, че тези модели трябва да разбират контекста, за да компенсират лошото качество на микрофона или шума в стаята. По този начин генеративният ИИ дава ясни и категорични резултати, а също така създава далеч по-добри транскрипции на видео и аудио съдържание.
Компютърно зрение и синтез на изображения
Генеративният ИИ има голямо влияние върху задачите за компютърно зрение, тъй като невронните мрежи също разпознават обекти или създават измамни реплики.
- Синтез на изображения: GAN се използват широко за генериране на реалистични синтетични изображения. StyleGAN на NVIDIA например е създала невероятно реалистични изображения на човешки лица, които не съществуват. Или други изкуствени интелекти, които генерират кинематографично съдържание, без да са необходими професионални камери. Но и Deep Fakes, компютърно генерирани фалшиви версии на хора, могат да бъдат част от този синтез на изображения.
- Подобряване на изображенията: Генериращите модели могат също така да запълват липсващи части от дадено изображение в процес, наречен inpainting. Те предвиждат липсващите части въз основа на контекста на околните пиксели. В резултат на това изкуственият интелект на Photoshop се превърна в хит в социалните медии, тъй като допълваше изображения със съдържание, което не съществуваше. Също така Google влезе в заглавията на вестниците с „Магическата гума“, която също използва генеративен ИИ, за да изтрива хора или обекти от снимки с пълнеж, който е „най-вероятно“.
Разработване на лекарства и здравеопазване
Генериращият ИИ има обещаващ потенциал за здравеопазването и откриването на лекарства, тъй като може също така да предсказва или да „измисля“ различни структури или съединения.
- Откриване на нови лекарства: Генериращите модели могат да предсказват молекулярни структури за потенциални лекарства, като по този начин ускоряват процеса на откриване на лекарства. Различни компании от години се опитват да използват модели на ИИ за изобретяване на нови молекулярни съединения и да ги използват за разработване на лекарства за лечение на заболявания.
- Персонализирана медицина: Генеративните модели могат също така да помогнат за персонализиране на медицинското лечение. Чрез изучаване на модели от данни за пациенти тези модели могат да помогнат за намиране на най-ефективното лечение за отделните пациенти.
Примери за генеративен изкуствен интелект в реални сценарии
- GPT-4 на OpenAI: Този модел, базиран на трансформатор, е висококапацитетен езиков генератор, способен да изготвя имейли, да пише код, да създава писмено съдържание, да дава уроци и да превежда.
- DeepArt: Това приложение, известно също като Prisma, използва генеративни модели, за да трансформира качени от потребителите снимки в произведения на изкуството, вдъхновени от известни художници.
- MidJourney: е генератор на текст в изображение, който създава изображения и графики въз основа на потребителски промпт и описания.
- DeepDream на Google: Програма, която използва изкуствен интелект, за да открива и подобрява модели в изображенията, създавайки подобни на сънища, психеделични трансформации.
- Jukin Composer: Този инструмент, задвижван от MuseNet на OpenAI, използва AI за композиране на оригинална музика за видеосъдържание.
- Insilico Medicine: Биотехнологична фирма, която използва генеративни модели за предсказване на молекулярни структури за потенциални лекарства, като по този начин ускорява процеса на откриване на лекарства.
- ChatGPT: Чатбот с изкуствен интелект, разработен от OpenAI, който може да води текстови разговори, подобни на човешките, и се използва в приложения за обслужване на клиенти и лични асистенти.
- StyleGAN на NVIDIA: генеративна мрежа за противопоставяне, която генерира хиперреалистични изображения на човешки лица, които не съществуват в реалността.
- Artbreeder: Платформа, която използва GAN за обединяване на въведени от потребителя изображения за създаване на сложни и нови изображения, като портрети и пейзажи.
- Runway ML: Този творчески инструментариум използва генеративни модели, за да помогне на художници и дизайнери да създават уникални анимации и визуални изображения.
- Технология Deepfake: Технология, която използва GAN за създаване на убедителни смени на лица във видеоклипове, създавайки потенциално измамно, но впечатляващо реалистично видеосъдържание.
Етични предизвикателства и потенциална злоупотреба с генеративния изкуствен интелект
Развитието на технологиите за генеративен ИИ, както и всяка друга технология, естествено носи нови (етични) предизвикателства:
Дълбоки фалшификати и дезинформация
Способността на генеративните модели, особено на GAN, да създават реалистични синтетични медии доведе до появата на „дълбоки фалшификати“. Това са измамно реални изкуствено генерирани изображения, аудио или видеофайлове, които плътно имитират истински хора. В процеса на работа контекстът може да бъде напълно променен и да бъдат казани или направени неща, които никога не са се случвали. Това може да се използва за разпространение на дезинформация или пропаганда, което може да има сериозни социални и политически последици.
Поверителност и съгласие
Генериращите модели обикновено изискват големи количества данни за обучение. Понастоящем, по-специално в ЕС, се наблюдава появата на съдебни дела и опасения относно начина, по който данните и интелектуалната собственост се използват за обучение на системи с изкуствен интелект. Това е особено важно, когато моделите се обучават върху лични или чувствителни данни. Освен това генерирането на реалистични синтетични данни (напр. човешки лица) може да размие границите на съгласието, тъй като тези генерирани „хора“ не са дали съгласието си за използване на техния образ, а е известно, че политици се появяват в порнографски изображения.
Непреднамерени пристрастия/предразсъдъци
Всички модели на изкуствен интелект, включително генеративният изкуствен интелект, могат непреднамерено да внесат предубеждения в данните. Начинът, по който се обучават моделите на ИИ, може да бъде или чрез предубеждение към данните, или чрез предубеждение чрез подбор на данните, или чрез улавяне и обработка на човешки предубеждения, които се отразяват в данните. Например, ако един езиков модел е обучен върху текст от интернет, той може да се научи и да създаде текст, който отразява обществените пристрастия в тези данни.
Въздействие върху икономиката и заетостта
Въпреки че генеративният ИИ може да автоматизира само някои задачи и да подобри ефективността в определени области, той може да доведе и до изместване на работни места в различни отрасли, където се използват тези модели. Тъй като той се променя значително за някои отрасли, разместванията могат да бъдат по-големи, което ще създаде социално напрежение.
Управление и регулиране на ИИ
Обсъждането и прилагането на управлението и регулирането на ИИ очевидно е важно. Политиците, изследователите и ръководителите на промишлеността трябва да работят заедно за установяване на политики и мерки, които да гарантират отговорното използване на генеративния ИИ, но в същото време бизнес общността също иска нерегулиран ИИ, тъй като се опасява, че регулирането в крайна сметка ще попречи на иновациите и напр. поради силните регулации Европа ще изостане от Китай и САЩ и ще загуби в надпреварата за ИИ. Въпреки това, тъй като той има и последици, като например нарушаване на авторските права, другите държави също са изправени пред предизвикателство.
Бъдещето и ограниченията на генеративния ИИ
Генериращият ИИ вече е постигнал голям напредък в много области за кратък период от време и дава големи обещания за бъдещето, но също така е важно да разберем, че настоящите модели имат своите ограничения и дори с тези модели не може да се генерира истински свръхинтелигентен ИИ. Също така LLM (Large Language Models) са ограничени в начина си на работа.
По-голям реализъм и сложност
С по-добри набори от данни и повече обучение реализмът и потенциалната сложност на резултатите от генеративните модели вероятно ще се увеличат. Това ще обхване подобрения във всички области от анимации, видеоклипове, музика до писмен текст. Въпреки това при настоящите модели има предизвикателства, особено когато става въпрос за балансиране на съгласуваността и креативността.
По-голяма персонализация
Макар че генеративният ИИ има потенциала да персонализира напълно съдържанието спрямо отделния човек и неговия „стил“,? Това обаче повдига и други въпроси, освен защитата на личните данни. Съществува и предизвикателството да се предоставят персонализирани преживявания, като същевременно се гарантира отговорното използване и съхранение на данните на отделните потребители. Или искате гласът ви да бъде използван от други хора или моделът да бъде обучен по вашите идеи?
Демократизиране на творческите инструменти
Генеративният ИИ дава на всеки лесен достъп до лесно създаване на измислено съдържание – разбира се, това отваря и вратата за злоупотреби. Защитата на правата на интелектуална собственост и предотвратяването на неетичното използване на тези инструменти са важни предизвикателства за решаване, но все още няма практически решения за това.
Подобрено вземане на решения и възможности за прогнозиране
Генеративният ИИ може да подобри вземането на решения и прогнозирането на модели. Тези модели обаче са толкова добри, колкото са добри данните, върху които са обучени, а това е и мястото, където много компании вече се провалят. В крайна сметка ИИ не може да прави магии и надеждата на мнозина е, че могат да избегнат „тежката работа“ чрез ИИ, обаче чистите данни са важни. Освен това съществуващите пристрастия, предразсъдъци или неправилни модели могат да бъдат научени и отразени в бъдещите оценки, което ще се отрази на тяхната надеждност и справедливост. Съществува и въпросът дали такива модели могат да гарантират неприкосновеността на данните, ако данните бъдат използвани от други компании.
Интеграция с други нововъзникващи технологии
Интегрирането на генеративния ИИ с други нововъзникващи технологии като VR, AR и IoT крие огромен потенциал, но също така поставя технически и етични предизвикателства, които трябва да бъдат внимателно преодолени. Особено когато говорим за виртуални светове и игри, тогава може да се окаже, че играта се променя, ако просто въведете промпт или разговаряте с модел на генеративен ИИ и обясните как искате да бъде създаден виртуалният свят, докато той го създава. Генериращият ИИ ще бъде ключов и при генерирането на светове от метавселената и ще направи виртуалните светове достъпни за масите с лесно създаване на съдържание без нуждата от дизайнери или експерти.
Съдържание в мащаба – рециклиране в мащаба
Едно от предизвикателствата пред доставчици като Google или други платформи, които се опитват да категоризират информация, е, че е трудно да се разграничи съдържанието, създадено от ИИ. Съдържанието, като статии или блогове, не допринася реално за дискусията, не добавя добавена стойност, а качеството е „статистически средно“ (по Дефиниция). Но стана толкова лесно да се мащабира производството на съдържание и затова много съдържание се създава по този начин. Ако го завъртим още няколко години напред, в бъдеще големи езикови модели ще бъдат обучавани върху съдържание, създадено от друг ИИ, включително предубеждения и проблеми и липса на оригинално съдържание – Така че посредственото съдържание създава още по-посредствено съдържание.
Платото на настоящите модели и необходимостта от иновации
Едно от основните ограничения на генеративния ИИ е платото на настоящите модели. Експертите вече наблюдават, че мащабируемостта на съществуващите модели, като например GPT-4, намалява. Въпреки че това е мощен езиков модел, той е достигнал границите на това, което един голям модел може да прави ефективно.
Тази ситуация подчертава необходимостта от иновации в областта на изкуствения интелект. Трябва да се разработят нови методи и модели, за да се преодолеят ограниченията на настоящите технологии. Следващият етап от изследванията на ИИ вероятно ще включва проучване на различни архитектури, методи за обучение и евентуално изцяло нови подходи към машинното обучение.
Популярен и обичан от медиите и инвеститорите
Това нямаше да е моя статия, ако не бях критичен към нещо. Съвършената имитация на интелигентност в момента подхранва шумотевица, която кара компаниите да правят всичко с генеративен ИИ. Притокът на капитали и новините около темата създават вълна от интерес, но също така силно ограничават дискусията за ограниченията на тези модели и показват, че повечето стартъпи всъщност просто използват същия API от OpenAI или други модели. Както вече научихме, моделите имат своите ограничения, не са точни, тъй като са само статистически модели, а понякога дори просто генерират съдържание въз основа на GAN модели, които трябва да изглеждат достатъчно реалистично, за да не се различават. Това значително ограничава приложенията в много области, а един от най-големите проблеми за всяко приложение на изкуствения интелект е и лошото качество на данните за повечето случаи на употреба – така че още дълго време ще виждаме ограничени приложения за съдържание като изображения, изкуство, текст, аудио или илюстрации.
Понастоящем сме свидетели на много обещания, че тези големи езикови модели (Large Language Models – LLMs) биха могли да се развият, и с тези горещи обещания Силициевата долина и други страни се насочват към това пространство с много пари и медийно внимание. Следващата „златна треска“ в технологичната индустрия ще бъде подхранвана от валутата след стартирането на ChatGPT в края на 2022 г.
Заключение
Генеративният ИИ определено е очарователна технология, която позволява да се създава измамно реално съдържание в голям мащаб. Случаите на използване на тези технологии са впечатляващи и определено ще автоматизират конкретно много неща, които досега са били скъпи.
Но както всяка технология, ИИ, който може да създава измамно реално съдържание, също носи своите предизвикателства и етични съображения. От дълбоките фалшификати до дезинформацията, опасенията за неприкосновеността на личния живот и пристрастията – има много въпроси без отговор. Компаниите, но и държавите трябва да се споразумеят за ефективно управление и регулиране на ИИ.
Настоящите модели и алгоритми имат своите ограничения и според много експерти те вече са достигнати. Ще видим дали обещанията на индустрията ще бъдат постигнати, защото още сега виждаме едно плато на възможното и че моделите не се мащабират линейно с техния размер. Това означава, че моделите ще стават все по-големи, но само незначително по-добри. Едно нещо обаче е сигурно – генеративният изкуствен интелект е тук, за да остане, с ограниченията, но и с всички предимства.
Comments are closed.