искусственный интеллект: Ренормализирующие генеративные модели (RGM) - новый прорыв в области ИИ, или хайп на пустом месте?

Недавно опубликованная статья From pixels to planning: scale-free active inference вызвала неподдельный интерес в ИИ тусовке. Ещё-бы, ведь после её выхода некоторые заговорили о новом прорыве в области ИИ под названем Ренормализирующие Генеративные Модели (RGM). Что это, хайп или действительно что-то новое и важное? Давайте попробуем разобраться.

Начнём с некоторых определений. Мы можем воспринимать и изучать окружающий мир потому, что в нём есть некие инварианты, которые для нас обычно не меняются во времени и пространстве. Назовём их объектами. Понятие объекта является базовым для нас, так как именно в их терминах, или смысловых единицах, мы строим свои модели внешнего мира, которые помогают нам его изучать и в нём ориентировться. Это видно хотя бы из структуры любого естественного языка, который позволяет людям описывать внешний мира и обмениваться информацией с другими людьми. Объектам там соответствуют существительные, описанию их свойств - прилагателные, описанию их динамики во времени - глаголы и причастия и т.д. Модели могут быть достаточно простыми и очень сложными. В любом случае, качество модели характеризуется её предсказательной силой. Чем точнее и на больший период времени модель может делать предсказания, тем она эффективнее. Так же отличительной чертой хорошей модели является её простота. Например, геоцентричные модели движения планет в солнечной системе, типа системы Птолемея, позволяли делать относительно неплохие предсказания их перемещения, однако, были, как бы сказали сегодня, "неэкономичными". Они требовали подгонки многих свободных параметров и были весьма сложными (эпициклы там всякие и т.д.). Гелиоцентричная модель Коперника сразу резко упростила описание движения планет и повысила его точность, а уж после введения поправок, связанных с учётом эффектов общей теории относительности, стало возможным предсказывать траектории движения небесных тел в солнечной системе на много миллионов лет вперёд просто с беспрецедентной точностью. Очевидно, в подобных моделях объектами, с которыми они работают, являются Солнце, а так же планеты, планетоиды и астероиды, вращающиеся вокруг него. В таких моделях время течёт непрерывно. Но есть и другой тип моделей, в которых оно дискретно, именно к таким моделям и применим подход, уже достаточно давно разрабатывамый Карлом Фристоном и его командой. Типичным примером, в котором можно использовать модели с дискретным временем, являются логических игры, те же шахматы, например. Квант времени в таких моделях соответсвует одному ходу. Модель мира в шахматах очень проста, по сути, это матрица 8 на 8, каждый элемент которой может принимать одно из 13-ти значений, плюс правила, по которым может трансформироваться матрица, то есть, меняться позиция. Но модель мира в шахматах специфична ещё и тем, что, в ней велика неопределённость, связанная с непредсказуемостью ходов противника. И если при заданных начальных условиях движение планет по орбитам предопределено с высокой точностью, то в шахматах при одних и тех же начальных условиях нужно рассматривать быстро разростающееся дерево возможных вариантов. И эта ситуация достаточно типична в реальной жизни, большинство событий в ней предсказуемо лишь статистически. В подходе, предлагаемом группой Фристона, мы задаём для модели начальные условия и рассматриваем возможные сценарии дальнейшего развития ситуации в виде вариации потенциальных траекторий эволюции системы во времени. Последние, в свою очередь, зависят от скрытых параметров и для нас, как внешних наблюдателей, случайны, хотя статистически следуют некоторым распределениям вероятностей. В этом заключается существенное отличие от большинства других современных подходов, в которых основными действующими лицами являются объекты, а не их варьируемые потенциальные траектории в пространстве состояний и времени. Подход, изложенный в статье, отдалённо напоминает вариационный метод вычисления действия в физике.

Кроме того, в подходе группы Фристона предлагается работать сразу на нескольких уровнях абстракции, их модель как бы рекурсивно разорачивается как во времени, так и в уровнях детализации представления, позволяя одновременно как осуществить взгляд с высоты птичьего полёта, так и уделить особое внимание мелким деталям нижних уровней пирамиды абстракций. Именно для возможности вычисления таких переходов между уровнями абстракции и понадобилась перенормировка. Ниже мы ещё рассмотрим это несколько более подробно, а пока опишем подход Фристона с точки зрания гносиологии.

Ключевая идея заключается в том, что основной принцип работы мышления - получение наблюдателем максимальных знаний об окружающем мире, минимизируя, тем самым, свободную энергию. Что такое, товарищи, "набюдатель", и что такое, товарищи "свободная энергия"? Понятие наблюдателя во многом пришло из физики, где оно играет важную роль, например, в квантовой механике и теории относительности. Наблюдатель может получать какие-то сигналы из внешнего мира, стороить на их основе его некую модель, и на основе этого предсказывать его состояния, и, соответственно, приходящие из него сигналы в будущем. А что такое, товарищи, "свободная энергия"? Этот термин позаимствован из теромодинамки, и соответсвует в ней той части энергии системы, которая может быть использована для производства работы. Оставшаяся часть соответствует кинетической энергии хаотического движения молекул, и принципиально не может быть целенаправлено использована, этот факт иногда формулируют как невозможность создания теплового двигателя второго рода. Но в теории информации свободная энергия, как, например и энтропия, имеют несколько другой смысл, чем в термодинамике, это впервые понял Больцман. О важности данного открытия можно судить хотя бы по тому, что именно соответствующая формула "информационного" определения энтропии выбита на его могиле.

Любопытно отметить, что в физике есть в чём то похожая идея, это так называемый принцип минимального действия. Не будем здесь углубляться в детали, но в самом простом случае физической системы, на которую не действуют внешние поля, он упрощается до утверждения - при переходе из состояния А в состояние Б, система из всех возможных траекторий движется по той, которая позволяет достичь конечного состояния за минимальное время. Применительно к геометричекой оптике первым до этого додумался Пьер Ферма, более знакомый публике как автор знаменитой теоремы, носящей его имя. До него считалось естественным, что природа в данном случае "экономит" длину пути, пройденного лучём, а вовсе не время распространения луча. Так как работа в классической механике равна изменению кинетической энергии тела, то принцип минимального действия можно переформулировать так: система при переходе из одного состояния в другое следует такой траектории, которая минимизирует работу (говоря по простому - природа ленива). Любопытно, что если формально применить эту идею к термодинамике, то можно сделать вывод, что и там система, выведенная из равновесия, возможно, стремиться вернуться к нему как можно быстрее. То есть, не просто стремится к нему в соответствии со вторым законом термодинамики, но и ещё и делает это настолько быстро, насколько это возможно. Может быть, тогда и жизнь для Вселенной лишь своеобразный придуманный ею способ, достичь, наконец, состояния тепловой смерти максимально быстро?

Но вернёмся к нашим баранам, то есть, свободной энергии. Ввёл её в оборот в термодинамику в 19-м веке немецкий физик, и, по совместительству, врач Гельмгольц. При этом, в силу своих разносторонних интересов, он пытался с помощью этого термина объяснить так же и основы восприятия мозгом внешнего мира и построения его модели. Свободная энергия, как уже говорилось выше, является разницей между полной энергией системы и её бесполезной для совершения работы части, которая равна энтропии, умноженной на температуру. Энтропия изолированной термодинамической системы максимальна в состоянии равновесия, она характеризует то состояние, к которому она стремится, предоставленная самой себе. Иначе говоря, это её наиболее вероятное, "ожидаемое" состояние. В противовес этому состоянию, та часть описания системы, которая соответствует свободной энергии, это как бы нечто неожиданное, "непредвиденное", выбивающееся из стандартного её состояния. Руководствуясь, по видимому, подобной интерпретацией, Гельмгольц ввел понятие так называемого "бессознательного вывода" при восприятии мозгом различного рода информации, то есть, неосознаваемых самим человеком правил и знаний (причём, некоторые из них заложены в мозг уже от рождения), которые он использует, когда обрабатывает входную информацию. Если воспринимаемая мозгом информация не содержит ничего странного или неожиданного, она просто обрабатывается в фоновом режме, не заставляя человека обращать на неё внимание. В принципе, подход Фристона и К и использует эту идею. Если из внешнего мира приходит именно тот рутинный поток информации, который мы и ожидали, то мы обычно пропускаем его "мимо ушей", не обращая на него внимание, и не запоминая детали. Но если происходит нечто неожиданное и экстраординарное, это сразу привлекает наше внимание, эпизод запоминается, и мы, как правило, пытаемся найти ему логическое объяснение. Тем самым, мы как-бы пытаемся дополнить нашу картину мира, что бы в следующий раз мы бы могли предвидеть заранее удивившнее нас событие.

Как же работает "машина предсказания" нашего мозга? Фристон предлагает для объяснения феномена мышления подход, основанный на модели скрытых марковских цепочек. Надо сказать, что сам по себе этот подход отнюдь не новый, например, в нашей компании его начали использовать в системе распознавания документов ещё в середине 90-х годов прошлого века. В соответствии с ним изучаемый мозгом или системой ИИ внешний мир состоит из объектов, которые могут находиться в разных состояниях. Эти состояния мы принципиально не можем измерить непосредственно, таким же образом, как мы, например, не можем измерить непосредственно волновую функцию в квантовой механике, поэтому они называются скрытыми для наблюдателя. Тем не менее, мы можем строить какие-то модели и оценки исходя из измерения некоторых вторичных событий, зависящих от этих скрытых состояний (например, зафиксированного взаимодействия электрона с определённой областью фотопластинки, на которую он налетает). По видимому, наиболее часто приводимый пример, поясняющий суть описываемого подхода - постановка врачем диагноза больному. У него есть собственный опыт, соответствующая литература, и т.д., а так же результаты внешнего осмотра, анализов, рентгеновских снимков и прочего, и на основе всей этой информации, лишь косвенно и вероятностым образом связанной с причиной болезни, он должен поставить диагноз. В рамках данного подхода при моделировании объектов внешнего мира они не имеют однозначных состояний, а могут одновременно иметь с разными вероятностями сразу целый спектр состояний, причём, по мере получения дополнительной информации, например, связанной с оценкой состояний других обьектов, эти вероятности могут периодически корректироваться. Из этого следует, что в общем случае нужно рассматривать целую сеть взаимодействующих между собой объектов, и по этой причине данный метод некоторые называют так же подходом, основанным на байесовских сетях доверия. В таком представлении процесс "восприятия" наблюдателя можно интерпретировать как возможные конкретные пути взаимосвязей, или переходов, между состояниями объектов, при которых информация распространяется от наблюдения состояний самых простых объектов нижнего уровня на входе (например, пикселов на картинке, букв на входе текстового трасформера и т.д.) до очень сложных абстрактных объетов высоких уровней (распознавание сюжета фотографии или картины, понимание смысла текста и пр.). Можно запускать процесс и в обратную сторону, например, по заданному сюжету нарисовать картинку, или сочинить текст на заданную тему. Новое в подходе Фристона заключается в введении в модель концепции времени. При этом, скрытыми параметрами оказываются уже не состояния отдельных объектов, а траектории состояния этих обьектов во времени. Соответственно, для процессов, разворачивающихся во времени, можно аналогичным образом выделить юниты нижнего уровня (например, отдельные ноты), которые могут объединяться в более сложные юниты (скажем, аккорды), потом в ещё более сложные (музыкальные мотивы) и так далее, вплоть до уровня темы самого музыкального произведнения (фуги, симфонии, концерта и т.д.).

Очень важным в подходе Фристона является так же введение так называемой процедуры перенормироки вероятностей при переходе между различными уровнями рассмотрения в модели внешнего мира. Кстати, термин, похоже, опять взят из физики, где в теория поля, для того, что бы избежать формальных бесконечностей, при расчётах используется понятие "эффективного" заряда электрона, который меняется при изменении масштаба рассматриваемой модели. В физике, по крайней мере, в начале, перенормировка по сути была своеобразной заплаткой, позвлившей "сшить" между собой квантову.ю механику и общую теорию поля. Что означает перенормировка в подходе Фристона? Как уже было описано выше, в этом подходе наблюдатель пытается построить непротиворечивую модель мира, обладающую предсказательной силой. Внешний мир сложен, но структурирован, что ощутимо помогает в построениии его модели. Единицами, которыми оперирует такая модель, являются объекты, как некоторые инвариантные сущности во времени и пространстве. При этом, структура внешнего мира позволяет естественным образом выстраивать в модели иерархические уровни его описания. Например, атомы состоят из элементарных частиц (некоторые из которых, в свою очередь, состоят из кварков), молекулы - из атомов, сложные структуры следующего уровня типа кристаллов, природных минералов, полимерных органических цепочек (ДНК, РНК, белки и т.д.), соответстенно, из молекул. Или, скажем, возьмём армию. На самом нижнем уровне она состоит из отдельных солдат и офицеров, на уровень выше - из отделений, далее, постепенно поднимаясь по ступенькам иерархической пирамиды, видим взводы, роты, батольоны и т.д., вплоть до стуктуры на уровне всей армии данного государства. Если бы главнокомандующий вооруженных сил страны пытался при планировании учитывать всю теоретически доступную ему информацию, вплоть до самых нижних уровней управленческой пирамиды, он бы не смог принять никаих разумных решений. Как правило, планирование осуществляется с учётом информации, приходящей от одного, максмум, двух нижележащих уровней, только так можно планировать что-либо осмысленно. Планирование на более низких уровнях является пререгативой соответсвующих командующих нижнего уровня и т.д. Благодаря перенормировке вероятностей состояния объектов, находящихся на соседних уровнях абстракции, модель может работать одновременно с несколькими представлениями, использя наиболее важную информацию, приходящую от нижних уровней, для генерации начальных условий и возможных траекторий движения на вышележащих уровнях.

Подход, изложенный в статье, выглядит достаточно красиво и универсально, но, всё же, нет ли у него слабых мест? На мой взгляд, есть. Это, в первую очередь, детерминизм, не предполагающий альтернативных вариантов траекторий. При использовании обсуждаемого алгоритма в качестве единственного метода решения задачи, это может приводить к пропуску других возможных ответов, и даже прямо неправильным ответом. Почему это возможно? Так как состояния все объектов имеют вероятностный характер, и обычно связаны друг с другом, можно говорить об альтернативных интерпретациях, появляющихся в процессе обработки системой входного сигнала при переходе между уровнями абстракции. Скажем, для зрения, элементами самого нижнего уровня абстракции могут быть, колбочки и палочки, расположенные внутри сетчатки глаза, или фотоэлементы матрицы на входе видеокамеры, а заканчиваться цепочка восприятия может на высоких уровнях абстракции, например, нейронах распознавания сцены в естественных или искусственных нейросетях. Иногда таких путей можно построить больше одного, причём, без наличия контекста, они все могут быть допустимыми. Данный тезис можно проиллюстрировать, например, с помощью известных рисунков-перевёртышей ниже.

На левом рисунке можно увидеть либо старушку в профиль, либо девушку, отвернувшуюся от нас в другую сторону, на правом - либо два профиля лицом к лицу на чёрном фоне, либо вазу на светлом фоне. То, какую сцену "видит" мозг, зависит, по сути, от того, как мы интерперетируем некоторые детали фона, и можно считать, что обе интерпретации верны, то есть, правильным ответом в данном случае будут обе интерпретации со сравнимыми вероятностями. Но так как алгоритм Фристона принципиально детерминированный, он всегда будет "видеть" здесь лишь одну интерпретацию картинки. Для человека ситуация иная. В зависимости от каких-то, по сути, случайных факторов, начиная с одинаковой картинки пути, ведущие к конечной интерпертации увиденного, могут радикально разойтись, и человека видит то один сюжет, то другой. Но бывает и так, что вынуждение системы всегда учитывать лишь один путь, может приводить к в принципе неверному ответу! Возьмём, к примеру, задачу распознавания рукописных слов. Они, как известно, состоят из букв. Для того, что бы распознать слово, вначале нужно выделить все буквы, его составляющие, а потом распознать их одну за другой. И это без знания контекста часто совсем не тривиальная задача. Рассмотрим, например, написанное от руки слово "Мишка". Даже если мы знаем, как выглядят все рукописные буквы алфавита на кириллице, пять практически одинаковых шрихов в середине слова можно интерпретировать либо как "иш", либо как "ши" (см. рисунок ниже).

Лишь отследив, что получается в обоих вариантах, и распознав все буквы, мы, вероятно, можем выбрать правильный, использовав контекст - слово "Мишка" в русском языке есть, а "Мшика" нет, но даже здесь "зелёному" варианту можно дать какие-то небольшие шансы, мали ли, кто-то, например, решил назвать так нестандартно своего домашнего питомца. К слову, моя внучка, выросшая в семье программистов, долго называла известные нам всем с детства конфеты... "Мишка на сервере"! Так что, и с контекстом тоже надо быть достаточно осторожными.

Ещё более наглядным примером потенциальных проблем, которые могут возникнуть при попытке использования изложенного в статье метода для реальных задач ИИ, являются логические игры. Представьте, что при анализе партии алгоритм на нижнем уровне перебора рассматривает лишь те ходы за обе стороны, которые он по каким-то своим признакам считает абсолютно лучшими (точнее говоря, наиболее вероятными), а на остальные вообще не обращает внимания. Очевидно, что при такой недальновидной тактике он сможет обыграть разве что лишь уж совсем начинающего противника. В общем, даже на очень упрощённых примерах перехода между уровнями представления (от букв к словам и от конкретных ходов к тактическим планам игры) видно, что без рассмотрения сразу нескольких возможных вариантов интерпретации, для многих практических задач ИИ, никак нем обойтись. Для принятия достаточно обоснованных решений в реалистичных условиях система, как правило, должна проследить множество возможных путей распространения потоков информации, отобрать из них лишь наиболее важные и, в итоге, "пробежав" по всем ним, выбрать оптимальный путь "рассуждений". В итоге получается, что наиболее выгодно строить такую иерархическую модель мира, в которой её структура напоминает многоуровневый граф, по ветвям которого можно двигаться между уровнями детализации от самых низких (условные пикселы) до самых высоких (уровень принятия решения). Стартуя с самых нижних уровней графа, мы постепенно двигаемся по нему с уровня на уровень, причём, так как от каждого узла отходит сразу несколько веток (вариантов выбора), при этом количество возможных вариантов быстро возрастает, примерно как при переборе дерева вариантов в шахматах или го. Что бы принять решение, нужно как то ограничить расползание дерева вариантов. Это можно делать по разному, например, отбрасывать варианты перехода, имеющие вероятность меньше определённого порога, или, скажем, использовать алгоритм Витерби, позволяющий получить наиболее "перспективные" траектории. Можно пойти и другим путём - просто использовать метод Монте-Карло для выбора очередного "шага" по графу, давая каждому "ходу" шансы, пропорциональные величине его вероятности. Повторяя процедуру многократно, мы получим список всех наиболее перспективных вариантов решений с оценкой вероятности, пропорциональной сумме произведений вероятностей переходов по всем рёбрам графа, приведших к этому исходу. Именно такой подход наша компания успешно опробовала ещё в середине 90-х годов, вскоре после выхода в свет книги Джуды "Probabalistic Reasoning in Intelligen System", заложившего основы использования байесовских сетей доверия в системах ИИ. В качестве пояснения на рисунке ниже приведён слайд из одного из докладов автора статьи, схематически иллюстрирующий движение по графу при распознавании поля суммы на банковском чеке при поиске решения. Толщина стрелок в нём зависит от вероятности выбора именно данного шага. Наиболее вероятный вариант интерперетации исходного изображения представлен на самом ниженем уровне зелёным кружком. (Примечание - нижний уровень на графе соответсвует по смыслу верхним уровням в тексте и, соответственно, наоборот).

Какие проблемы могуть всплыть, если использовать подход Фристона, например, для решения описанной выше задачи? Во-первых, как уже отмечалось выше, всего одна ошибка на уровне сегментации поля на объекты может направить её в неправильном направлении, и эту ошибку в силу детерминированности поведения алгоритма будет уже не исправить. Во-вторых, не зная вероятностей альтернативных вариантов на самом верхнем уровне, мы не сможем объективно оценить надёжность принятого решения, ибо вполне возможно, что существовали и другие пути, приводящие к решению, которые давали сравнимую с лучшим решением величину вероятности, но они просто невидимы для нас. Модель, изложенная в обсужданемой статье это, по сути, аналог лапласовского детерминизма, применённого к прогнозированию поведения достаточно простых систем, она вряд ли будет работать в нелинейных системах с точками бифуркации.

В статье приводятся четыре примера использования данного подхода от распознавания цифр рукописного текста до эффективного сжатия видео и аудио потоков (ведь эта модель может быть использована ещё и как архиватор), синтеза простого видео и аудио контента, и самообучения стратегиям поведения в простых видеоиграх в двумерном пространстве. Нужно отметить, что представленные модели носят несколько "игрушечный" характер, что, впрочем, вполне объяснимо, ведь авторы писали научную статью, а не отчёт о способе решения конкретной практической задачи. Тем не менее, разбор задачи распознавания цифр, как наиболее близкой к тем практическим приложениям, которыми занимается автор, показывает, что как процесс, так и конечный результат формирования системой объектов разного уровня абстракции, оказывается в итоге весьма похожим на то, что происходит при обучении и работе типичной нейросети глубокого обучения, что, впрочем, отмечают и сами авторы. При этом, принципиальное отличие заключается в том, что модель Фристона может обучаться на данных меньшего объёма, так как она сама определяет, какие объекты включать в обучающую выборку, а какие нет. Не исключено, что это в будущем позволит ей обучаться быстрее, чем это делают использующиеся сейчас модели, основанные на нейросетях, но что бы делать какие-либо выводы необходимо для начала сравнить скорость обучения и эффективность обученной модели на одних и тех же данных, чего, насколько я знаю, пока сделано не было. Кроме того, нужно учитывать, что при глубоком обучении нейросетей сейчас активно используются графические карты, специально "заточенные" для таких задач. Как правило, это позволяет ускорить обучение на порядки. Насколько существующие видеокарты позволят ускорить обучение по алгоритму Фристона, пока не ясно.

Итак, заключительные выводы.

1. Предложнный алгоритм обучения выглядит красиво с эстетической точки зрения, и, по-видимому, действительно воспроизводит некоторые принципы самообучения живых систем.

2. Алгоритм может работать и обучатья не только восприятию статических паттернов, но и сигналов, распределённых во времени.

3. Он демонстрирует возможность быстрого решения достаточно простых задач классификации, позволяя при этом теоретически достигать максимального качества обучения за минимальное время.

4. Сомнительно, что алгоритм сам может решать достаточно сложные задачи классификации, но, не исключено, что будучи включённым в состав более сложной многоуровневой системы распознавания, он сможет конкурировать с её подсистемами, ответственными за распознавание на основе глубокого обучения.

В общем, прорывом я бы данную публикацию не назвал, но как попытку наступления ИИ на том участке фронта, где мало кто из специалистов её ожидал, я думаю, вполне можно зачесть. Насколько сильно она повлияет на стратегическую обстановку на всём участке фронта ИИ, я бы пока гадать не стал, поживём - увидим.

Ренормализирующие генеративные модели (RGM) - новый прорыв в области ИИ, или хайп на пустом месте?

Относится к разделу искусственный интеллект