Компания Mistral представила свою новейшую большую языковую модель и заключила сделку с Microsoft.
Некоторые гонки заканчиваются, не успев начаться. Так, например, происходит в соревновании по созданию лучших больших языковых моделей (БЯМ). Эти алгоритмы служат основой генеративного искусственного интеллекта, который способен создавать тексты и другие материалы подобно человеку. Компания OpenAI, американский создатель ChatGPT, кажется, вырвалась вперед. Она создала самую мощную в мире модель GPT-4. Компания привлекает таланты, поглощает данные и вычислительные мощности, чтобы создавать более совершенные модели. В результате она привлекает все больше пользователей, а вместе с ними и капитал, который можно влить в еще более сложные модели.
Но французский стартап под названием Mistral бросает вызов этому гиганту, продолжающему набирать обороты. 26 февраля он выпустил новую большую языковую модель. Модель под названием Mistral-Large меньше, чем GPT-4, если судить по количеству используемых параметров (обычный показатель мощности модели). Тем не менее, она практически не уступает GPT-4 в таком важном аспекте производительности, как построение логического вывода. Компания Mistral также представила конкурента ChatGPT на базе Mistral-Large – Le Chat (произносится как "ле шах", т. е. как французское слово "кошка", а не английский омограф). Компания также объявила о заключении сделки с Microsoft, гигантом в области искусственного интеллекта, который уже имеет тесные партнерские отношения с OpenAI. Технологический гигант приобретет небольшую долю в Mistral и сделает модели французской компании доступными через свое облако Azure.
История Mistral – это доказательство того, что индустрия уже становится более открытой – и менее американской. Если компания бросит серьезный вызов OpenAI, это также подтвердит подозрения некоторых представителей отрасли о том, что в генеративном ИИ размер – это еще не все. "Теперь дело не в том, чтобы быть большим, а в том, чтобы быть креативным и быстрым", — говорит Артур Менш, исполнительный директор Mistral.
Подъем французской компании был таким же стремительным, как северо-западный зимний ветер, в честь которого она названа. Она была основана менее года назад, и до сих пор в ней работает всего 25 человек. Несмотря на это, ее большие языковые модели лидируют среди моделей с открытым исходным кодом, статистические данные которых, в отличие от проприетарных "черных ящиков" вроде GPT-4, находятся в открытом доступе и могут модифицироваться кем угодно. Это позволило Mistral привлечь внушительный объем финансирования в размере 490 млн евро (531 млн долларов), благодаря чему компания оценивается более чем в 2 млрд долларов. Среди крупных инвесторов – ведущие венчурные капиталисты Силиконовой долины, такие как Andreessen Horowitz и General Catalyst, а также такие светила технического прогресса, как Эрик Шмидт, бывший исполнительный директор Google.
Своим ранним успехом Mistral обязана умелому смешению основных "технических ингредиентов" талантов в области ИИ, данных и вычислительных мощностей с политикой, которая приобретает все большее значение для ИИ-индустрии по мере того, как мировые правительства размышляют о потенциале этой технологии.
Давайте начнем с таланта. По словам Станисласа Полу, соучредителя компании Dust, еще одной из множества ИИ-компаний, созданных в Париже, Mistral — это "пара, созданная на небесах" между французским инженерным образованием и американскими крупными технологическими фирмами. Трое из шести основателей Mistral, составляющие ее технический "мозг", – Менш, Тимоте Лакруа и Гийом Лэмпл – являются выпускниками элитных технических школ Франции. Как и многие другие ведущие ученые, они работали в исследовательских лабораториях Google и Meta, другого американского технологического гиганта. В отличие от них, эти трое создавали модели в филиалах этих лабораторий в Париже, а не в Лондоне или Силиконовой долине. Это означает, что они входят в топ 100 человек во всем мире, которые действительно знают, как обучать самые современные модели.
Судя по всему, они особенно хорошо умеют собирать данные для обучения своих моделей – второй компонент успеха. Менш не будет рассказывать о том, как именно Mistral собирает свои наборы данных для обучения. По его словам, это источник конкурентного преимущества его фирмы. Но инсайдеры в отрасли подтверждают, что Mistral "очень умна" в подборе материала. Например, она отсеивает повторяющуюся или бессмысленную информацию. Это позволило сделать модели Mistral гораздо меньше: статистические веса, или "параметры", моделей Mistral исчисляются миллиардами, по сравнению с примерно 1,8 трлн для GPT-4 от OpenAI (обе компании умалчивают о точных размерах). Это позволяет клиентам запускать их на собственных компьютерах, а не в огромных центрах обработки данных, что требуется для многих проприетарных моделей.
По словам Менша, упор Mistral на обработку данных позволяет компании использовать вычислительные мощности, третий важнейший компонент ИИ, более эффективно, чем это удается ее конкурентам. Обучение последней модели Mistral обошлось гораздо дешевле, чем 100 млн долларов, которые OpenAI, очевидно, потратила на разработку GPT-4. Кроме того, подход Mistral позволяет клиентам дешевле настраивать модели на основе собственных данных, а затем запускать их в работу.
С технической точки зрения такие стартапы, как Mistral, пользуются "преимуществом второго лица", получая выгоду от всей работы, проделанной OpenAI и другими компаниями, – утверждает Жаннетт цу Фюрстенберг из General Catalyst. Важно, что в случае с Mistral эти технические навыки дополняются политическим чутьем, что очень полезно. Сегодня многие правительства считают, что отечественные БЯМ обеспечат экономические и стратегические преимущества.
Кроме того, одним из основателей Mistral является Седрик О, бывший министр цифровых технологий Франции. Он поддерживает непосредственный контакт с президентом страны Эммануэлем Макроном, который проявляет большой интерес ко всему, что связано с искусственным интеллектом. Когда в прошлом году в проекте закона Европейского союза об ИИ прозвучала угроза заставить Mistral раскрыть секрет своих данных, Седрик О при поддержке Макрона скоординировал успешные франко-германские усилия по противодействию этим требованиям. Они были исключены из законопроекта.
Вопрос в том, сможет ли компания Mistral, которой еще только предстоит получить значительный доход, извлечь прибыль их этой заманчивой комбинации технологий и политики. По мнению компании, многие предприятия, особенно европейские, хотят получить больше контроля над используемыми ими системами, чем готова предоставить OpenAI, и не хотят быть привязанными к еще одной американской технологической платформе. Такие клиенты, по идее, будут готовы платить Mistral за поддержку и работу моделей.
Один из вопросов, который могут задать себе потенциальные клиенты, заключается в том, как в мире будут регулироваться модели с открытым исходным кодом. Жаркие дебаты о том, позволят ли они террористам и другим недобросовестным субъектам создавать био- и кибероружие, утихли. Вместо того чтобы говорить о рисках, политики обсуждают потенциальные выгоды: большую прозрачность, больше инноваций и меньшую зависимость от горстки влиятельных компаний, которые контролировали технологию. Регуляторы по обе стороны Атлантики до сих пор спокойно относились к БЯМ с открытым исходным кодом. Но у Седрика О могут снова возникнуть проблемы, если эти модели будут становиться все более мощными или будут использоваться не по назначению, например, для распространения дезинформации во время многочисленных выборов по всему миру в этом году.
Избежать политической реакции, безусловно, в интересах Mistral, но успешное лоббирование имеет и обратную сторону. Сдержанность регуляторов почти наверняка приведет к усилению конкуренции в сфере открытых исходных кодов. 20 февраля финская компания Silo AI представила новую БЯМ, еще более открытую, чем Mistral. Она предоставила информацию о данных, на которых обучалась модель, и о программном обеспечении, которое выполняло эту работу. Новая версия, которая выйдет через несколько месяцев, будет доступна на большинстве европейских языков и будет работать так же хорошо, как сейчас на финском и английском.
Самое важное, что до сих пор неясно, имеет ли размер значение для генеративного ИИ. Это станет ясно, когда OpenAI наконец-то выпустит свою следующую модель, GPT-5. Если она оставит в пыли Mistral-Large и другие небольшие модели с открытым исходным кодом, то разговоры Менша о креативности и скорости потеряют смысл. Однако пока Mistral становится все более популярной.
Источник: @thebugged