Дети учатся на примере взрослого,
а не на его словах.
Карл Юнг
Практически любой человек знает или хотя бы слышал, что генеративный ИИ обучается на больших массивах данных. Относительно этих массивов существует два предубеждения, широко распространенных среди людей, не представляющих, что такое машинное обучение. Это люди, которые уже активно используют генеративный ИИ, а также люди, которые к нему только присматриваются.
Первое предубеждение – для обучения нейросетей уже использованы все данные, накопленные человечеством. Второе предубеждение – нейросети обучаются на абсолютно случайных данных, которые они вытягивают из интернета.
Разбираться с машинным обучением – удел квалифицированных специалистов. Но нынешним и будущим пользователям генеративного ИИ с предубеждениями лучше расстаться. Попробуем им в этом помочь. А заодно поговорим о том, как находятся, отбираются и готовятся данные для обучения самых разных моделей современного искусственного интеллекта.
Начнем с первого предубеждения.
С 2024 года в самых разных изданиях, в том числе весьма авторитетных, постоянно появляются публикации примерно с такими заголовками: «Данные для обучения нейросетей заканчиваются. Что дальше?» В подтверждение приводится, например, такое сообщение:
Осенью 2024 разработчики OpenAI обнаружили, что, несмотря на общий рост производительности самой последней языковой модели, прогресс при переходе на нее менее заметен, чем при переходе от ChatGPT-3 к ChatGPT-4. Они связывают это с тем, что модель обучили уже на всех легкодоступных данных.
Читатель, уверены, уже отметил, что ключевое слово здесь «легкодоступные», а не слово «все». И это действительно так – заканчиваются легкодоступные данные, которыми могут пользоваться разработчики генеративного ИИ. Но, значит, есть еще и труднодоступные данные?
Здесь придется сделать небольшой экскурс во всемирную паутину.
Мы так часто употребляем слова «интернет», «всемирная паутина», «глобальная сеть», что в нашем сознании само понятие интернет ассоциируется с огромным, но единым информационным пространством. Мы почему-то уверены, что можем найти в интернете все.
Не все, что пожелаем, но точно – все, что там есть. В интернете, скорее всего, нет описания и изображения семирукого шестинога. Но если есть, их можно получить, составив правильный поисковый запрос – не правда ли? В реальности – все не совсем так.
В интернете принято выделять три сегмента.
Видимый интернет (Surface Web). Это тот сегмент интернета, к которому мы получаем доступ при помощи ссылок и поисковых запросов. В нем расположены официальные сайты организаций, новостные порталы, интернет-издания и многого другое, что находится в открытом доступе. Этот сегмент интернета доступен поисковым роботам, которые постоянно индексируют веб-страницы. Google и другие поисковые системы выдают в качестве результата только то, что находится в видимом сегменте интернета.
Глубокий интернет (Deep Web). Этот сегмент иногда называют «скрытая сеть», «невидимая сеть». Это места или контент в интернете, к которым нельзя получить доступ с помощью обычных поисковых систем. В первую очередь, это веб-страницы и базы данных, для доступа к которым нужно пройти аутентификацию, например, ввести логин и пароль. Так владельцы контента ограничивают к нему доступ.
Ограничение доступа к цифровому контенту может быть обусловлено многими причинами. Защитой персональных данных, конфиденциальностью контента, желанием на нем заработать.
Темный интернет (Dark Web). Более распространен термин даркнет. Это совсем небольшой сегмент интернета, для доступа к которому нужны специальные программные средства (обычные браузеры его не видят). В этом сегменте основная часть контента связана с преступной деятельностью. Искать читателю этот сегмент интернета мы категорически не рекомендуем, так как незаметно преступить закон в темном интернет проще простого.
Когда сравнивают сегменты видимого и глубокого интернета, обычно используют аналогию с айсбергом. Видимый интернет – это малая часть информационного айсберга. Глубокий интернет – его основная, гораздо более массивная часть. По некоторым оценкам глубокий интернет содержит более 90% цифровых данных. Оценки разнятся, но в любом случае закрытый цифровой контент в разы превосходит контент открытый.
Понятно, что учиться на данных из глубинного интернета генеративный ИИ в общем случае не может. Конечно, создатели ИИ-модели могут купить закрытый цифровой контент у его владельцев. В некоторых случаях владельцы свой контент и закрывают, чтобы зарабатывать на доступе к нему. Однако общей ситуации это не меняет – огромное количество закрытых данных для обучения нейросетей недоступно.
Да и с открытыми данными в видимом сегменте все не так просто.
С 2008 года некоммерческая организация Common Crawl занимается сканированием видимого сегмента интернета и созданием его обширного архива. Результаты своей работы организация бесплатно предоставляет широкой общественности. На ноябрь 2024 года в архивах организации хранилось около 250 миллиардов страниц, 45% которых – на английском языке.
До революции генеративного ИИ деятельность организации особых возражений не вызывала. Платный контент находился в закрытом сегменте интернета, а если попадал в видимый сегмент, Common Crowl была не при чем – это были происки пиратов.
Все изменилось, когда архивы Common Crowl стали использовать для обучения своих нейросетей компании, ведущие разработку в области генеративного ИИ. Быстро выяснилось, что в архивах хранятся миллионы платных публикаций, принадлежащих крупнейшим изданиям, таким как The New York Times, The Wall Street Journal и другие.
Поисковые роботы Common Crowl, как и поисковые роботы Google, умели извлекать платные публикации, пользуясь некоторыми скрытыми возможностями новостных лент. Но от поисковых инструментов Google владельцы контента признавали пользу – они увеличивали поток пользователей на их ресурсы. А вот пользы от того, что их публикации служат для обучения генеративного ИИ, владельцы не видели. Более того, уникальные возможности по генерации текстов делают искусственный интеллект серьезным конкурентом для периодических изданий и новостных агрегаторов.
Сегодня многие крупнейшие информационные ресурсы блокируют программы, которые собирают данные для обучения нейросетей. Среди них New York Times, Reuters и CNN. Поэтому пока генеративному ИИ сложно конкурировать на рынке оперативной достоверной информации. Давать объективную оценку событиям, которые произошли на днях, он не может.
Говорить, что данные для обучения нейросетей заканчиваются, преждевременно. Владельцам генеративного ИИ и владельцам уникального цифрового контента есть, о чем договариваться. К тому же следует помнить, что в реальном мире остается много данных, которые еще не оцифрованы. Это живая речь людей в многочисленных аудиозаписях прошлых лет, библиотеки мира, архивы периодики на разных языках, произведения искусства, археологические находки.
Второе предубеждение – нейросети обучаются на абсолютно случайных данных, которые они вытягивают из интернета. Попробуем кратко объяснить, почему это не совсем так.
В машинном обучении есть важнейший термин датасет. Датасеты – это организованные наборы данных, которые используются для обучения и тестирования нейросетей. Как правило, они представляют из себя упорядоченные коллекции записей, каждая из которых содержит различные характеристики конкретного объекта.
Если ввести в поисковой строке Google слово «датасет», то в выдаче будет много результатов с такими названиями: «130+ датасетов для машинного обучения», «Топ 100 open source датасетов», … В реальности доступных датасетов – десятки тысячи. Они различаются по назначению, содержанию и объему. Вот несколько примеров:
ImageNet – легенда, изменившая мир машинного обучения, которую мы уже упоминали. 14+ миллионов размеченных изображений в более чем 20 000 категорий.
MNIST – 70 000 рукописных цифр размером 28×28 пикселей.
Kinetics-700 – 650 000 видеоклипов из YouTube, покрывающих 700 классов человеческих действий. Минимум 700 примеров на каждое действие — от занятий спортом до повседневной активности.
Отдельные датасеты можно найти для различных видов транспорта, одежды, обуви и мебели, фруктов, овощей и цветов, древнеегипетских иероглифов, деталей автомобилей, ситуаций на дороге, … Сложно придумать тему, для которой не найдется подготовленного датасета.
В интернете существует много открытых и закрытых коллекций датасетов. Например, американское правительство создало ресурс, который содержит тысячи датасетов от федеральных агентств по климату, здравоохранению, транспорту, экономике. Данные структурированы по регионам и уровням власти, что упрощает поиск. Есть коллекция датасетов на основе статистики здравоохранения от ВОЗ.
Для увеличения объема данных, которые можно использовать в обучении, часто применяется их аугментация – внесение незначительных изменений в реальные данные. Например, на фотографии человека меняется цвет глаз, форма носа, прическа. Измененные данные увеличивают объем обучающего набора, и при этом сохраняется связь с реальными данными.
Кроме датасетов, огромное значение для обучения нейросетей имеют синтетические данные. Так называют сгенерированные компьютером данные, похожие на настоящие, но при этом полностью выдуманные. Это не фотографии лиц реальных людей, а изображения лиц, нарисованные нейросетью. Это не истории болезни реальных людей, а придуманные истории вымышленных пациентов, похожие на настоящие. Это не портреты реальных покупателей, а похожие имитации с ФИО, которые берутся «с потолка».
Применение в обучении синтетических данных позволяет справиться с несколькими проблемами, которые плохо решаются или вообще не решаются при работе с реальными данными.
Дефицит и редкость данных. Например, нейросеть нужно научить диагностировать редкую болезнь. Реальных историй болезни – десяток, крайне мало для обучения. В таких случаях на помощь приходят синтетические данные, которые можно создать вручную или по заданным алгоритмам. Нейросеть учится на «выдуманных» данных и начинает лучше распознавать реальные.
Проблемы конфиденциальности. Законы о персональных данных ужесточаются во всех странах. Компании как огня боятся их утечки, и синтетические данные – то, что нужно в этой ситуации. Например, банк хочет сделать нейросеть, которая будет предсказывать, кто возьмет кредит и вернет, а кто – нет. Использовать для ее обучения реальные данные клиентов — опасно и незаконно. Поэтому создаются мифические кредитные истории «выдуманных» клиентов, похожие по статистике на настоящие истории. Для обучения нейросети подходит, сохранность персональных данных не нарушена.
Стоимость реальных данных. Например, чтобы обучить беспилотный автомобиль ездить по разным дорогам, нужно потратить много ресурсов на реальные тестовые поездки. Синтетические данные помогают сократить издержки. Создается виртуальная среда, в которой нейросеть автомобиля собирает синтетические данные с камер и датчиков и учится принимать правильные решения.
Дисбаланс реальных данных. В реальных данных один тип данных может присутствовать в избытке, а данных другого типа – явно недостаточно. Обучение на них будет однобоким и в итоге – ущербным. Синтетические данные помогают выравнивать такие дисбалансы.
Мусор в реальных данных. Как и сама жизнь, реальные данные – не идеальны. В них могут быть опечатки, ошибки, случайные помехи, которые мешают обучению нейросети. Синтетические данные могут быть очищены от этих помех.
Синтетические данные играют важную роль в машинном обучении, но всегда следует помнить об опасностях их чрезмерного или неуместного применения.
Синтетические данные могут быть недостаточно похожи на реальные. Например, человеческие лица, которые генерируют нейросети, как правило, идеальны и не имеют явных изъянов. Если нейросеть обучать только на таких лицах, она будет плохо распознавать реальные лица с морщинами, дефектами и разными оттенками кожи, плохим освещением.
Синтетические данные могут потерять важные нюансы реальных данных. Например, при разработке беспилотного наземного транспорта нужно учитывать все особенности погодных условий. Если забыть, например, про извилистую скользкую дорогу, в какой-то момент это станет катастрофическим недостатком.
Резюме. Подбор и/или подготовка специальных наборов данных для обучения нейросетей – это искусство в сочетании с высокой квалификацией. Да и потенциал накопленных человечеством неструктурированных данных далеко не исчерпан – генеративному ИИ есть, чему учиться.
