Чтобы рассуждать о предмете,
не обязательно быть его обладателем.
Пьер Бомарше
Пока одни люди впечатляются способностью генеративного ИИ воспринимать человеческую речь и вести диалоги, другие задают ехидные вопросы. Например, такие. А может ли ИИ рассуждать и объяснять свои решения? А как ИИ справляется со сложными задачами?
Давайте будем с этим разбираться.
Трансформеры и построенные на их основе модели с самого начала могли демонстрировать примеры рассуждений. Эти способности были обусловлены двумя важнейшими особенностями LLM.
Во-первых, параллельная обработка информации позволила существенно увеличить объем одновременно обрабатываемых данных. То есть, сразу закладывалась возможности сохранять значительный контекст, в который можно было включать образцы рассуждений.
Во-вторых, механизмы внимания обеспечили выявление, сохранение и использование ключевых зависимостей между элементами текста, сколь бы далеко друг от друга они не находились. Правильное понимание контекста вопроса и ответа – это необходимое условие для обоснованных рассуждений.
Даже первые публичные модели генеративного ИИ, начиная с ChatGPT 3.5, при определенных условиях демонстрировали способности к рассуждениям. Для этого достаточно было добавить в запрос простую фразу «Дорогой ИИ, думай пошагово».
В одном исследовании одна из первых LLM выполняла математический тест в двух вариантах – с добавлением такой фразы в запросы и без нее. Результаты ошеломили исследователей. Без добавления «думай пошагово» LLM выполнила около 18% заданий теста. С добавленной фразой – более 78%.
Сначала способность LLM к рассуждениям воспринималось как эмерджентное свойство. Однако очень быстро стали вестись целенаправленные исследования, которые должны были превратить генеративный ИИ в рассуждающий ИИ.
Эмерджентное свойство – это свойство, которое появляется неожиданно и выходит за рамки предусмотренного набора свойств. Эмерджентные способности генеративного ИИ – тема отдельная и почти философская. Ее рассмотрим в одном их следующих сюжетов.
Скорее всего, подобное поведение первых LLM подсказало исследователям пути их совершенствования в имитации разумной деятельности. Важная когнитивная способность человека – умение рассуждать, объяснять и обосновывать свои действия. Исследователи поставили перед собой задачу сформировать данную когнитивную способность у LLM. По крайней мере, на уровне ее качественной имитации.
Началась работа над созданием рассуждающих LLM (reasoning-LLM). В эту гонку включились все лидеры ИИ-рынка. Было понятно, что рассуждающие LLM – необходимый этап на пути к AGI (общему искусственному интеллекту). Если этап убедительно не пройти, общественность перестанет верить дальнейшим рассказам о всемогущем AGI, который вот-вот будет создан и коренным образом изменит наш мир.
Первое и очевидно решение – заставить LLM не торопиться сразу выдавать готовое решение, а уделить задаче больше времени и потратить на нее больше вычислительных ресурсов.
Компания OpenAI, как обычно, выступила застрельщиком, первой анонсировав работу над рассуждающей LLM. Представители компании прямо заявили, что модель OpenAI o1 разрабатывается так, чтобы «тратить больше времени на обдумывание проблемы перед ответом, почти как человек». Другими словами, модель не спешит с выводом, разбивает решение задачи на шаги, генерирует решения для каждого шага, анализирует их и лишь затем формулирует итоговый результат.
LLM с базовой архитектурой находит одно из самых вероятных продолжений текста ответа, не отдавая приоритета промежуточным рассуждения и выводам. Особенно, если на этапе предварительного обучения в текстовых наборах было мало примеров явных рассуждений. А для первых LLM их было мало, так как строгие рассуждения на разные темы – информация редкая и дорогая.
Рассуждающие LLM специально тренируют на сложных задачах и проблемах, которые даже самый гениальный человек не может решить за одной действие. Подходы к такому тренингу в разных LLM немного различаются, но логика обучения примерно одинаковая.
Главный внутренний механизм рассуждающей LLM – генерация и использование цепочки мыслей (chain-of-thought). Одни модели сразу демонстрируют эту цепочку в ответе, другие делают это по запросу пользователя, третьи скрывают свои рассуждения.
При построении и использовании цепочки мыслей LLM обычно проходит следующие этапы:
анализ – модель переписывает задачу своими словами, выявляет ключевые условия;
декомпозиция – модель разбивает сложную задачу на более простые части;
основное решение – модель последовательно решает каждую часть одну за другой;
альтернативные решения – модель может генерировать и проверять разные варианты решения на отдельных шагах;
самоконтроль – модель периодически проверяет, соответствует ли промежуточный результат условию, нет ли противоречий с другими шагами;
коррекция решения – в случае выявления ошибки или противоречия модель откатывается назад, исправляет их и только после этого двигается дальше.
Этот комплексный процесс реализуется в первую очередь специальным обучением. LLM обучают генерировать пару «ответ + решение», в которой решение – это и есть цепочка мыслей. Обычные LLM генерируют только ответы.
Рассмотрим основные методы и подходы, которые используются при проектировании и обучении рассуждающего генеративного ИИ.
Обучение с подкреплением на рассуждениях. Прежде чем описывать этот метод, несколько слов скажем об обучении с подкреплением.
Обучение с подкреплением (reinforcement learning) – это, по сути, обучение на своих ошибках и положительном опыте. Дотронулся до горячего утюга, получил ожог и больше так не делаешь – обучение на ошибках. Попробовал новое блюдо, понравилось, заказываешь его в следующий раз – обучение на положительном опыте. Нейросеть получает задание. Выполняет его с ошибкой – отрицательный сигнал заставляет ее корректировать параметры. Выполняет без ошибки – положительный сигнал и переход к новому заданию.
Обучение с подкреплением на рассуждениях мотивирует LLM отвечать не сразу, а пытаться рассуждать. Это дает результат, даже если входные тексты специальным образом не размечались. У LLM как бы формируется привычка рассуждать перед выдачей ответа.
Однако это только привычка, которая не гарантирует хороший результат. Без дополнительного обучения такая привычка приводит LLM к излишней болтливости, с повторениями и рассуждениями не по делу. Все как у людей. Есть такие умники, которые могут часами рассуждать на какую-то тему, но по сути – ни о чем.
Дополнительная настройка на правильных рассуждениях. После выработки у LLM привычки рассуждать, ее начинают учить рассуждать правильно и к месту. Для этого, как правило, ее дополнительно обучают на специально подобранных и размеченных данных, с большим числом правильных пошаговых решений. При этом эксперты оценивают и корректирую рассуждения и ответы LLM так, чтобы они соответствовали представлениям человека. По сути, это тонкая настройка, о которой мы рассказывали в прошлом сюжете.
Увеличение контекстного окна. Это еще один подход, который способен улучшать способности LLM к рассуждениям. Он заключается в существенном увеличении тех областей памяти LLM, в которых хранятся запрос пользователя и генерируемая пара «ответ + решение».
Человек, рассуждающий о чем-то, имеет в распоряжении всю свою долговременную память. Это позволяет ему уместно вставлять в рассуждения информационные элементы из самых разных закоулков собственной нейронной сети. Например, применять аналогии.
Возможно, это не так важно при доказательстве математических теорем или решении физических задач. Но рассуждения естественными науками не ограничивается. К тому же уместные аналогии бывают весьма полезны при объяснении сложных математических, физических или технических проблем. Ими часто пользовались великие ученые, объясняя сложные вещи своим студентам.
У рассуждающих LLM контекстное окно увеличено в сравнении с предшественниками, которые спешили сразу давать ответы на любые вопросы. Лидер в этом вопросе на момент написания данного текста – модель Claude 3.7 Sonnet, которая поддерживает контекст до 200 000 токенов (примерно 150 000 слов, 300 страниц текста). Конкурирующие модели OpenAI o1 и DeepSeek R1 поддерживают 128 000 токенов. Такое контекстное окно позволяют удерживать в памяти и учитывать целые книги или огромные проекты с программным кодом.
Группа экспертов (Mixture of Experts, MoE). Так называется оригинальное архитектурное решение, которое используется в некоторых LLM. Оно, как нам кажется, давно напрашивалось. Его реализовали разработчики DeepSeek R1, в конце 2024 года удивившие ИТ-сообщество решениями, которые при сравнимых с лидерами возможностях требовали гораздо меньше вычислительных ресурсов. Одна из причин экономичности нового игрока на рынке ИИ – архитектура MoE.
В такой архитектуре LLM – это не единая нейросеть с сотней миллиардов параметров, а совокупность нейросетей-экспертов, интегрированных в единое комплексное решение. Нейросеть-эксперт – это мини-LLM, отвечающая за решение определенного круга задач. Слово «мини» достаточно условно, так как речь все равно идет о миллиардах параметров для каждой нейросети-эксперта.
Архитектура MoE позволяет решить важную проблему. Вычислительные ресурсы, обеспечивающие работоспособность LLM, при увеличении числа параметров увеличиваются по квадратичному закону.
LLM со 200 миллиардами параметров современные дата-центры обслуживают без проблем. Увеличение числа параметров до 400 миллиардов уже вызывает проблемы. Поддержка работоспособности LLM, в которой 800 миллиардов параметров и традиционная архитектура, задача нетривиальная, если вообще – решаемая.
DeepSeek R1 суммарно на всех входящих в нее нейросетей-экспертов имеет 670 миллиардов параметров. Недавно (сентябрь 2025 года) китайская корпорация Alibaba выпустила LLM, в которой анонсирован 1 триллион параметров. В прессе указывается, что очередная китайская LLM имеет в основе оптимизированную MoE-архитектуру, то есть, тоже состоит из нейросетей-экспертов, каждая из которых имеет приемлемое количество параметров.
Встроенные модули и инструменты. Это тоже вполне очевидный подход для оптимизации работы рассуждающего генеративного ИИ. Он предполагает, что основная LLM после анализа задачи и разбиения ее на части составляет план решения. В рамках этого плана на некоторых шагах вызываются специализированные или просто более слабые модели, а также традиционные программные инструменты.
Так, например, OpenAI приводит примеры, когда мощная LLM o1 разрабатывает план, а более простая и дешевая модель 03-mini выполняет отдельные части этого плана. Для выполнения плана могут привлекаться привычные калькуляторы и более сложные математические вычислители, поисковые системы и другие инструменты.
Такая интеграция также закладывается на этапе обучения с подкреплением. LLM поощряется за уместное и правильное планирование вызовов традиционных программных инструментов.
Рассуждающие генеративные ИИ показывают существенно лучшие результаты на специальных тестах, предусматривающих решение сложных математических и естественнонаучных задач, логических головоломок, заданий по программированию, задач по планированию. Так рассуждающие LLM показывают превосходные результаты по решению олимпиадных задач по математике, физике, программированию, превосходя в этом лучших представителей человечества.
В завершении темы отметим, что многочисленные эксперименты показывают важность грамотных запросов. Даже самые «умные» LLM выдают слабые или некорректные результаты, если prompt составлен плохо. Об этом нам еще предстоит более детальный разговор.
Резюме. Трансформация обычных LLM в рассуждающие – это огромный шаг в развитии генеративного ИИ. И хотя рассуждения LLM изнутри выглядят совсем не так, как рассуждения в нейросети человеческого мозга, внешние проявления впечатляют.
