Генеративный ИИ, возможно, только недавно стал мейнстримом, но уже сейчас наблюдается смещение баланса сил в отрасли, причем не в пользу доминирующих технологических компаний-гигантов. Такие компании, как OpenAI, Alphabet's Google и Meta, продолжают вкладывать ресурсы в универсальные модели необычайной мощности и масштабов (так называемые "базовые модели"), и они и дальше будут находиться в авангарде технологических инноваций генеративного ИИ. Тем не менее, движущая экономическая сила индустрии B2B в области ИИ будет двигаться "от большего к меньшему", т.е. в сторону небольших, более экономичных моделей, предназначенных для конкретных бизнес-задач. Толчком к такому сдвигу станет растущий спрос на высокопроизводительные системы генеративного ИИ, которые будут дешевле в использовании, чем большие языковые и мультимодальные модели (LLM и LMM), такие как OpenAI GPT-4 или Google Gemini.
Многие руководители компаний не до конца понимают, что этот сдвиг откроет огромные возможности даже для тех компаний, которые сегодня вообще не являются игроками на рынке технологий, при условии, что у них есть нужные данные. Именно поэтому руководители всех отраслей должны задаться вопросом, могут ли их данные позволить им стать влиятельными игроками в индустрии генеративного ИИ, а не только потребителями технологии.
Проблема стоимости "логического вывода"
За последний год спрос на модели генеративного ИИ вырос настолько, что ChatGPT от OpenAI не только стал "самым популярным потребительским приложением в истории", но и достиг дохода в 100 миллионов долларов за счет создания корпоративного сервиса. Согласно недавнему опросу BCG, в котором приняли участие более 1400 руководителей высшего звена по всему миру, 85 % руководителей компаний планируют увеличить расходы на ИИ, включая генеративный ИИ, в 2024 году. По мере того как все больше компаний находят полезные приложения и делают необходимые инвестиции, общий спрос на услуги в области генеративного искусственного интеллекта сталкивается с серьезным ограничением: стоимостью его использования.
Современные универсальные модели, такие как GPT-4, Gemini и Anthropic's Claude, требуют значительных дополнительных затрат на обработку запросов к каждой системе (в отличие, например, от поисковых систем). Грубо говоря, каждое дополнительное слово в ответе большой языковой модели (LLM) требует пропустить весь текст через модель. Таким образом, стоимость логического вывода (а именно так LLM или LMM генерирует результат) пропорциональна количеству параметров в модели, умноженному на количество слов диалога.
GPT-3.5, например, была построена с использованием более 175 миллиардов параметров, а для GPT-4 это число, как считается, выросло до 1,75 триллиона. При таких масштабах стоимость использования этих универсальных моделей, обусловленная потреблением энергии и амортизацией постоянных затрат на эксплуатацию облачных мощностей, может быстро стать астрономической, особенно если модель не используется стратегически. О какой стоимости идет речь? Работая с нашими клиентами, мы убедились, что, в зависимости от навыков пользователя в области оперативной инженерии, чат может легко исчисляться десятками тысяч лексем (или частей слов), что обходится от нескольких центов до доллара и более за один запрос.
Даже если стоимость вычислений продолжит снижаться, как это происходило до сих пор и, скорее всего, будет происходить и дальше, объем выводов, запрашиваемых пользователями, будет расти по мере того, как компании будут знакомиться с решениями генеративного ИИ, внедрять и масштабировать их. И этот спрос действительно вырастет, когда автономные агенты начнут выполнять свои обещания по автоматизации всех сквозных рабочих процессов. В результате, даже при снижении стоимости вычислений, фактические расходы на вывод моделей, скорее всего, будут расти. Более того, расходы на вычисления скоро превысят расходы на персонал в крупных технологических компаниях (и есть предположения, что это уже происходит в Google). Именно поэтому стоимость вычислений может стать (если уже не стала) основным препятствием для широкомасштабного внедрения генеративного ИИ.
Принцип модульности
Хорошая новость заключается в том, что генеративный ИИ — это модульная технология. Если на ранних этапах развития новой, преобразующей технологии преимущество отдается вертикальной интеграции, то по мере созревания архитектуры инновации переходят к созданию новых, более совершенных компонентов, или модулей. В силу того, что экономисты называют "гипотезой зеркального отражения", такая эволюция в конечном итоге приведет к модульному развитию индустрии генеративного ИИ в целом. Экономическое следствие модульности заключается в том, что она эффективно перераспределяет отраслевые источники прибыли, которые в настоящее время сосредоточены вокруг базовых моделей и технологических компаний, которые их создали, образуя многочисленные очаги инноваций по всей цепочке создания стоимости.
Мы видели, как эта динамика проявлялась в процессе эволюции от монолитного компьютера-мейнфрейма к модульному ПК. Как только компьютерная система серии System/360 компании IBM представила модульную архитектуру для мэйнфреймов, а также интерфейсы прикладного программирования (API), обеспечивающие совместимость модулей, отрасль разделилась, и разные компании сосредоточились на различных модулях технологии. IBM не смогла помешать другим использовать эти API для создания продуктов, которые сначала были "IBM-совместимыми", а затем превратились в ПК, полностью собранные из модулей, созданных конкурентами. Победителями стали компании, сосредоточившиеся на модулях с присущей им экономией на масштабе, в первую очередь Microsoft и Intel. Со временем инновации, подстегиваемые модуляризацией, обеспечили значительный рост индустрии и огромное повышение стоимости и производительности.
Аналогичная картина наблюдается и в индустрии генеративного ИИ, и некоторые крупные игроки уже предполагают, что будет дальше. Например, компания Open AI объявила о создании собственного магазина приложений, где будут представлены новые модели. Позиционируя себя как платформу для разработки специализированных приложений на основе своих базовых моделей, OpenAI признает перспективу фрагментарного создания стоимости на основе своих современных базовых LLM. Она также пытается получить часть перераспределяемой прибыли, которая является результатом растущей модульной индустрии.
Генеративный ИИ становится меньше, но могущественнее
Растущий спрос на использование генеративного ИИ приводит к снижению стоимости логического вывода. А поскольку отрасль становится все более модульной, это давление создает значительные возможности для компаний, способных разрабатывать небольшие высокопроизводительные специализированные модели. Эти небольшие модели могут в совокупности отделить производительность от стоимости вывода, что приведет к масштабному внедрению технологии.
Один из методов достижения высокой производительности специализированных моделей — это создание их с нуля, чтобы они были небольшими по сравнению с огромными универсальными LLM и LMM, которые захватили воображение общественности в последний год. Один из способов сделать это — уменьшить количество параметров, часто с помощью дистилляции (техника, при которой маленькая модель обучается с помощью автоматизированного, целенаправленного взаимодействия с более крупной моделью). Например, китайский стартап 01.AI недавно выпустил "маленькую" LLM, которая превзошла аналоги с более чем в пять раз большим количеством параметров. Microsoft также использовала этот подход с Phi, своим собственным "набором небольших языковых моделей", некоторые из которых также превосходят гораздо более крупные аналоги (несмотря на то, что имеют всего 1,3 миллиарда параметров). Bloomberg воспользовался открытым исходным кодом LLM BLOOM для создания BloombergGPT с менее чем одной третью привычного числа параметров.
Второй подход — тонкая настройка, которая иногда сочетается с дистилляцией. Тонкая настройка — это процесс переобучения базовой модели (будь то LLM или LMM) с использованием специальных данных для корректировки значений или добавления новых слоев в модель. Переобучение части модели с использованием специализированных данных приводит к улучшению производительности при решении определенного набора задач. Преимущество тонкой настройки в том, что она зачастую относительно недорогая и быстрая. Vicuna, модель, обученная с помощью тонкой настройки LLaMa компании Meta, как сообщается, достигает 90% производительности ChatGPT и Google Bard, при том что она имеет "всего" 13 миллиардов параметров, а общая стоимость переобучения составляет 300 долларов. Компания Microsoft всего за один день доработала LLaVa для создания LLaVa-Med, разговорного помощника для обработки биомедицинских изображений. Многие компании, такие как Intuit, уже применяли тонкую настройку для внедрения решений генеративного ИИ.
Тонкая настройка, как правило, снижает стоимость вывода, позволяя опираться на меньшие "исходные" модели, чем самые мощные LLM и LMM, и при этом соответствовать или превосходить их по производительности для конкретных задач. Однако тонкая настройка требует доступа к специализированным данным, которые, как правило, являются собственностью, и к которым технологические гиганты в большинстве своем не имеют доступа.
В результате экономическая активность будет смещаться вниз по цепочке создания стоимости генеративного ИИ, привлекая все большее число игроков, обладающих лучшими данными в определенной области, которые будут либо сотрудничать с технологическими компаниями, либо непосредственно сами заниматься доработкой моделей. Поэтому компании должны изучить, какие данные они должны собирать (и не собирают), чтобы доработать модели, которые они смогут не только использовать сами, но и монетизировать, предоставляя услуги третьим лицам. Особенно с ростом мультимодальных моделей генеративного ИИ (включающих в себя как текст, так и изображения, видео и даже данные датчиков машин), диапазон ценных данных гораздо шире, чем многие руководители себе представляют.
Новая динамика власти в индустрии генеративного ИИ
Универсальные базовые модели останутся в руках горстки очень крупных и влиятельных технологических игроков из-за их исключительного масштаба и стоимости. В то же время спрос на небольшие специализированные приложения раскроет инновационный потенциал модульной архитектуры генеративного ИИ. Потребительские компании могут использовать данные Интернета вещей (IoT) для создания специализированных моделей для проектирования продуктов. Предприятия со сложными цепочками поставок могут использовать свои статистические данные для разработки решений для третьих сторон. Компания, которая, скажем, производит вашу посудомоечную машину или выпускает ваш автомобиль, может стать следующим крупным игроком в области генеративного ИИ. Одним словом, лучшие специализированные модели сегодня могут появиться вовсе не в "технологических" компаниях.
Большие технологические компании, конечно же, знают обо всем этом и агрессивно стремятся к созданию альянсов, чтобы получить доступ к запатентованным данным, которых им не хватает. Однако компании, владеющие этими данными, находятся в более выгодном положении, хотя они могут и не знать об этом. У таких компаний есть возможность играть роль младшего партнера в таком альянсе с крупной технологической компанией или же они могут сами воспользоваться этой бизнес-возможностью, взяв на себя инициативу по объединению с более мелкими разработчиками с открытым исходным кодом. Второй, более смелый подход требует от компании значительного увеличения объема специальных знаний в области небольших моделей генеративного ИИ, а также серьезных инвестиций во внутреннюю систему анализа данных и инженерные возможности.
Таким образом, мы находимся на переломном этапе в экономике генеративного ИИ. То, что до сих пор представляло собой эволюцию от меньшего к большему, когда преимущество заключалось в масштабе, а типичная корпорация была лишь сторонним наблюдателем, теперь перерастает в нечто более децентрализованное, что нарушает текущую расстановку сил в индустрии генеративного ИИ.
Источник: @thebugged