В некоторых областях технологической индустрии считается, что обучение систем искусственного интеллекта на больших объемах данных из Интернета позволит им со временем стать лучше. Возможно, в некоторых задачах эти инструменты превзойдут человека.
Однако новая исследовательская работа ставит под сомнение этот подход. В этой работе говорится о том, что может быть фатальным недостатком в методах разработки систем ИИ. В работе, опубликованной в июле в журнале Nature, исследователи обнаружили, что когда модели ИИ обучаются на данных, содержащих созданный ИИ контент, что, вероятно, будет происходить все чаще, в конечном итоге их производительность ухудшается, и это явление получило название "коллапс модели".
Результаты исследования усиливают скептицизм в отношении долгосрочной траектории развития ИИ. Они появились как раз в тот момент, когда Уолл-стрит уже сомневается в том, что масштабные инвестиции Большого технологического института в развитие ИИ в конечном итоге окупятся.
Что такое коллапс модели?
Чат-боты с искусственным интеллектом, такие как ChatGPT, работают на основе больших языковых моделей, обученных на почти невообразимом количестве данных (в некоторых случаях — триллионы слов), взятых с веб-страниц, из статей, разделов комментариев и так далее. Благодаря этим огромным массивам данных компании, работающие в сфере ИИ, смогли создать продукты, способные выдавать шокирующе подходящие ответы на запросы пользователей.
Но некоторые наблюдатели за развитием ИИ высказывают опасения, что эти модели со временем станут значительно менее точными и "разрушатся", если их обучать на контенте, который уже был создан ИИ, а не реальными людьми. В одной из работ 2023 года, посвященной коллапсу модели, было показано, что изображения людей, созданные ИИ, становились все более искаженными после повторного обучения моделей на "даже небольшом количестве материалов, сгенерированных этими же моделями ИИ". Исследователи сравнили это явление с тем, как если бы система ИИ была "отравлена" своей собственной работой.
Какие выводы были сделаны в ходе нового исследования?
В новой статье Nature исследователи из Оксфорда, Кембриджа и других университетов обнаружили, что модели ИИ, обученные на контенте, созданном искусственным интеллектом, приводят к непредвиденным и потенциально бессмысленным результатам. Как объясняют исследователи, ошибки одной модели усугубляются следующей, все больше отдаляя ИИ от реальности, пока запросы не станут, по сути, бессмыслицей.
В одном из примеров авторы показали, как запрос об исторической британской архитектуре превратился в непонятную дискуссию о кроликах после обработки большой языковой моделью, которая была несколько раз обучена на контенте, сгенерированном ИИ.
"Мы продемонстрировали, что к [коллапсу модели] нужно относиться серьезно, если мы хотим сохранить преимущества обучения на основе больших массивов данных, взятых из Интернета", — пишут исследователи.
Насколько велик риск коллапса модели?
Хотя коллапс модели в основном остается теоретической проблемой, в статье Nature отмечается, что будущие модели ИИ "неизбежно будут обучаться на данных, созданных их предшественниками", поскольку сгенерированные ИИ тексты и изображения распространяются по сети и просачиваются в массивы данных.
Технологические компании, включая Meta, Google и Anthropic, также экспериментируют с обучением моделей на так называемых "синтетических" данных, которые они создают с помощью генеративного ИИ. Теоретически синтетический вариант помогает ИИ-компаниям удовлетворить безграничную потребность в данных, избежав при этом юридических, этических и связанных с конфиденциальностью проблем, возникающих при сборе информации с различных веб-сайтов. Но перспектива коллапса модели может нарушить эти планы.
Есть ли решение?
Выводы, сделанные в статье, лишь подкрепляют необходимость для компаний, занимающихся разработкой ИИ, обеспечить доступ к высококачественным данным, созданным людьми, но это может обойтись дорого. Компания OpenAI, создающая ChatGPT, потратила миллионы долларов на заключение партнерства с такими издательствами, как News Corp. и Axel Springer SE, чтобы получить лицензию на их контент для обучения своих моделей. Также неясно, достаточно ли одних этих данных для удовлетворения потребностей технологических компаний.
По мнению исследователей, для разработчиков ИИ жизненно важно сохранить доступ к оригинальным обучающим данным, которые не загрязнены контентом, созданным ИИ. Однако не существует простого способа отслеживать контент, созданный ИИ, в масштабах компании. В связи с этим исследователи предлагают тем, кто создает модели ИИ, работать над "координацией в масштабах всего сообщества", чтобы понимать происхождение данных, которые они собирают в Интернете.
Источник: @thebugged