Сюжет 16. Интеграция решений в генеративном ИИ

Если перед коллективом нет цели,

то нельзя найти способа его организации.

Антон Макаренко

Обработка естественного языка – это основа человеческого мышления. Это не только чтение – восприятие и обработка печатного текста. Это также восприятие и обработка устной речи, то есть восприятие и обработка аудио информации. В книгах встречаются самые разные изображения – картинки, таблицы, схемы, диаграммы, которые тоже нужно воспринимать и обрабатывать.

При общении с другими людьми человек смотрит на собеседника, параллельно воспринимает и обрабатывает визуальную информацию – мимику и жесты. Остроты его мышлению добавляет тактильная информация, которую он может получить от собеседника.

Человек продолжает мыслить, даже когда вокруг него нет других собеседников, книг или печатных изданий. Гуляя по лесу или по берегу моря, он воспринимает окружающую красоту, которая также вносит свою лепту в мыслительную деятельность.

Разработчики ИИ понимают описанное выше богатство восприятия человеческого интеллекта. Поэтому очевидной стала задача по расширению возможностей генеративного ИИ воспринимать не только печатный текст, но и другие информационные потоки.

Так появился на свет мультимодальный ИИ.

Мультимодальный ИИ – это архитектурная модель на основе нейросетей, которая способна воспринимать и обрабатывать несколько типов данных одновременно. Такие типы данных называют модальностями. У каждой мультимодальной модели свой набор модальностей, одной из которых является текст.

К стандартным модальностям относят:

текст: предложения, фрагменты текста, тексты на разных языках;

изображения: рисунки, фотографии, схемы, графика и символы;

аудио: речь, музыка и другие звуковые сигналы;

видео: последовательности изображений, в том числе сопровождаемые звуком.

Мультимодальные модели могут воспринимать сенсорные данные, которые поступают от датчиков и иных устройств, воспринимающих внешнюю среду, например, сигналы GPS.

Создание мультимодального ИИ – прогрессивный, перспективный и неизбежный шаг на пути к созданию AGI – общего ИИ. Человеческий мозг интегрирует информацию из разных органов чувств, чтобы создать полную картину мира. Также мультимодальный ИИ способен глубже и точнее понимать разнообразные сигналы, которые поступают от пользователей или устройств, воспринимающих окружающий мир.

Самые первые мультимодальные модели – это генераторы изображений по текстовому описанию. На них, по сути, отрабатывалась ключевая идея мультимодального ИИ – создание единого семантического векторного пространства для нескольких модальностей.

Кратко архитектуру мультимодальной модели можно описать так.

... читайте сюжет в полной версии

поделиться в: