Мне представляется, что теоретические исследования, проводимые в области искусственного интеллекта (ИИ) и психологии в целом были недостаточно общими для того, чтобы объяснить либо с практической точки зрения, либо феноменологически эффективность человеческого мышления. Основные структурные элементы, образующие фундамент для развертывания процессов восприятия, хранения информации, мышления и разработки языковых форм общения, должны быть более крупными и иметь более четкую структуру; их фактическое и процедуральное содержание следует более тесно увязывать друг с другом с тем, чтобы получить возможность объяснить феномен силы и "быстродействия" человеческого мышления.
Аналогичной точки зрения придерживаются специалисты научных центров, работающие над решением проблем искусственного интеллекта. Хорошо известно, например, предложение А.Ньюэлла и Г.Саймона(1972) решать проблему представления в терминах "пространств задач" или предложение С. Пейперта и автора этих строк (М.Минский, С.Пейперт, 1972) разбить всю совокупность сведений, необходимых системе ИИ, на "микромиры". Иную форму те же взгляды принимают в работах известных теоретиков, таких как Р.Шенк(1973), Р.Абельсон(1973) и Д.Норман(1973), которые используют более крупные структуры для изучения механизмов понимания естественного языка. В этом проявляется стремление ученых выйти за рамки исследований чисто бихейвористического и формально-логического направлений и отказаться от попыток решать проблему представления с помощью наборов разрозненных простых структур данных. (Бихейворизм (от англ. behavior - поведение) - одно из направлений в психологии, в основе которого лежит утверждение о том, что предметом психологии является поведение, а не сознание. Основной задачей психологов, по мнению основоположника бихейворизма Дж.Уотсона(1914), является установление объективно наблюдаемых отношений в соответствии с известной схемой "стимул - реакция" и сведение к ним всех понятий о внутренних, психических процессах. (см. М.Г.Ярошевский,1976).)
В настоящей работе делается попытка связать воедино результаты некоторых из вышеупомянутых исследований и создать единую и стройную теорию. Отмечаются ее недостатки, поскольку здесь ставится больше вопросов, чем дается на них ответов.
Отправным моментом для данной теории служит тот факт, что человек, пытаясь познать новую для себя ситуацию или по-новому взглянуть на уже привычные вещи, выбирает из своей памяти некоторую структуру данных (образ), называемую нами фреймом, с таким расчетом, чтобы путем изменения в ней отдельных деталей сделать ее пригодной для понимания более широкого класса явлений или процессов.
Фрейм является структурой данных для представления стереотипной ситуации. С каждым фреймом ассоциирована информация разных видов. Одна ее часть указывает, каким образом следует использовать данный фрейм, другая - что предположительно может повлечь за собой его выполнение, третья - что следует предпринять, если эти ожидания не подтвердятся.
Фрейм можно представлять себе в виде сети, состоящей из узлов и связей между ними. "Верхние уровни" фрейма четко определены, поскольку образованы такими понятиями, которые всегда справедливы по отношению к предполагаемой ситуации. На более низких уровнях имеется много особых вершин-терминалов или "ячеек", которые должны быть заполнены характерными примерами или данными.
Каждым терминалом могут устанавливаться условия, которым должны удовлетворять его задания. Простые условия определяются маркерами, например, в виде требования, чтобы заданием терминала был какой-либо субъект, или предмет подходящих размеров, или указатель на субфрейм определенного типа. (Субфреймы, фреймы и суперфреймы - это иерархически упорядоченные элементы, образующие системы фреймов). Более сложными условиями задаются отношения между понятиями, включенными в различные терминальные вершины.
Группы семантически близких друг к другу фреймов объединены в систему фреймов. Результаты существенных действий представляются в виде трансформаций между фреймами системы. Это дает возможность моделировать такие понятия, как внимание и ценность информации, сделать более экономичными некоторые типы вычислений, а также показать эффективность использования фреймов в системах ИИ.
При зрительном восприятии образов системы фреймов используются следующим образом: различные фреймы соответствуют различным позициям наблюдателя, анализирующего одну и ту же сцену, а трансформации между ними отражают результаты перемещения наблюдателя из одного места в другое. Для систем других типов различия между фреймами могут соответствовать результатам выполнения каких-либо действий, определенным причинно-следственным связям между объектами внешнего мира или разным точкам зрения по одним и тем же вопросам. Одни н те же терминалы могут входить в состав нескольких фреймов системы - это один из центральных моментов теории, позволяющий согласовывать информацию, поступающую из различных источников.
Теория фреймов во многом выигрывает благодаря возможности использования в ней ожиданий и других видов предположений. Терминалы фрейма в обычном своем состоянии заполнены так называемыми "заданиями отсутствия" или заранее заготовленными значениями, т. е. сведениями о деталях (частностях), которые не обязательно должны присутствовать в какой-либо конкретной ситуации. Связь заданий отсутствия со своими терминалами не является жесткой и неизменной, поэтому они легко могут быть заменены другими сведениями, более подходящими к текущей ситуации. Задания отсутствия могут, таким образом, выполнять роль переменных, служить для аргументации с помощью примеров (что часто делает излишним применение логических кванторов), представлять информацию общего вида и описывать наиболее вероятные случаи, указывать на способы проведения полезных обобщений и т. д.
Системы фреймов связаны, в свою очередь, сетью поиска информации. Если предложенный фрейм нельзя приспособить к реальной ситуации, т. е. если не удается найти такие задания терминалов, которые удовлетворяют условиям соответствующих маркеров, сеть поиска информации позволяет выбрать более подходящий для данной ситуации фрейм. Подобные структуры дают возможность использовать в системах фреймов различные методы представления информации, что имеет особое значение для разработки механизмов понимания.
После выбора фрейма в процессе согласования терминалам присваиваются такие значения, которые удовлетворяют всем условиям соответствующих маркеров. Ход процесса согласования частично контролируется информацией, связанной с самим фреймом (включая указания на то, как реагировать на непредвиденные обстоятельства), и в значительной степени опытом решения аналогичных или близких по смыслу задач. Если согласование внешних данных с маркерами терминалов неудовлетворительное, то сведения, полученные на его основе, могут быть с успехом применены при выборе альтернативного фрейма.
Отметим, что схемы, предложенные в настоящей работе, несовершенны во многих отношениях. Во-первых, некоторые варианты представления информации обсуждаются безотносительно к тем процессам, в которых они должны использоваться. Иногда приводятся только лишь описания свойств, которыми следует снабдить те или иные структуры. Маркеры и задания терминалов рассматриваются так, будто известны их соединения и связи с более крупными структурными единицами, чего на самом деле пока нет.
Помимо этих технических недочетов читатель не найдет в настоящей работе углубленного анализа проблемы "понимания" и возможностей ее изучения на основе разрабатываемой теории. Автор не претендует на то, что предлагаемые им идеи достаточны для создания совершенной теории, но считает, что структуры, связывающие в единое целое системы фреймов, могут оказаться полезными при объяснении ряда явлений, характерных для естественного интеллекта.
Когда мы входим в комнату, нам кажется, что мы видим всю возникающую перед глазами картину с одного взгляда. В действительности же зрительное восприятие - это длительный процесс. На все требуется время: и на то, чтобы рассмотреть детали и собрать о них нужную информацию, и на то, чтобы, сделав предположения, проверить их и прийти к определенным заключениям, и на то, чтобы оценить полученные данные с учетом преследуемых целей, собственных знаний и ожиданий. Тем не менее, все это происходит настолько быстро и естественно, что невольно вызывает удивление и требует объяснений.
Некоторые специалисты считают неудовлетворительными те теории, в которых делается попытка трактовать феномен зрительного восприятия с позиции дискретных, последовательных, символьных процессов. Им кажется, что хотя машинные программы, написанные на основе этих теорий, действительно могут демонстрировать эффект "видения", для живых существ они неприемлемы ввиду грубости восприятия и малого быстродействия. Однако обычно предлагаемая альтернатива, относящаяся к крайнему случаю холизма или идеалистической "философии целостности" (см. В.Г.Афанасьев, 1964), не может быть технически реализована. Ниже я приведу доводы в пользу того, что следующие один за другим символьные процессы могут объяснить суть явлений, которые нам кажутся мгновенными и завершенными и которые имеют место при анализе сцен.
Часть теоретиков, придерживающихся ранних гештальт-психологических концепций (подробнее см. М.Г.Ярошевскнн, 1976), стремилась объяснить феномен зрительного восприятия с помощью имеющегося в человеческом мозге электрического поля, но уже в 30-х годах нашего столетия стала ясна несостоятельность подобных воззрений. Их современные последователи, включая приверженцев идеи интегральных преобразований, использования голограмм и интерферентных явлений, достигнуть многого также не сумели. И все же, несмотря на эти неудачи, большинство специалистов по-прежнему полагает, будто требуемая скорость восприятия может быть обеспечена только посредством некоторого глобального параллельного процесса, подобного волновому.
Излагаемая в настоящей работе теория фреймов рассматривает все основные вопросы, поднятые гештальт-психологами. Общим для обоих подходов является стремление раскрыть суть процессов, лежащих в основе соотнесения сенсорных данных либо с общими понятиями, либо с их частями, но методы, предложенные для обоснования выдвинутых положений, в корне отличны друг от друга. Гештальт-психологи стремились доказать, что эти процессы основаны главным образом на взаимодействии небольшого числа универсальных и весьма эффективных процедур, но неудачи с их эффективным выделением показали ограниченность этой идеи. В теории фреймов упор делается на многочисленность взаимодействий между сенсорными данными и образованной в процессе обучения громадной сетью символьной информации. И хотя эти взаимодействия должны, в конечном счете, основываться на том или ином наборе общих принципов, в нашей теории изучение мыслительных процессов отделено от вопросов происхождения и развития систем ИИ.
Может ли оказаться полезной параллельная обработка информации? Вопрос этот следует считать чисто техническим в большей степени, чем может показаться на первый взгляд. Действительно, на уровне выявления простейших визуальных черт, текстурных элементов, характерных особенностей при стереоскопическом зрении или двигательном параллаксе использование параллельной обработки информации следует считать целесообразным. На следующем, "предметном" уровне труднее представить себе, каким образом можно использовать параллелизм, хотя в этой связи следует отметить работы А.Гузмана(1969) по выделению "ядер" и объединению их в связанные области или Д.Вальтца(1972) по использованию семантических корней для отсортировки теневых линий, выполняемой на специальной параллельной сети.
Однако на более высоких уровнях мыслительной деятельности целесообразность применения параллелизма встречает ряд принципиальных возражений. В работах по распознаванию образов было предложено довольно много схем для выполнения параллельных операций - персептроны, интегральные преобразования и т.д. Эти схемы, интересные и с математической, и с вычислительной точек зрения, видимо, могли бы служить в качестве составных частей теории обработки сенсорной информации, но не более того. Интегральные методы хороши, главным образом, для работы с изолированными двухмерными изображениями, но на их основе нельзя решить задачу выделения и распознавания объектов в сложных трехмерных сценах. Почему?
При анализе сложных сцен должны быть правильно выделены области, принадлежащие различным объектам, ибо только в этом случае воспринимаемая картина обретает смысл; однако для решения этой задачи, которая эквивалентна традиционной в гештальт-психологип проблеме "объект - фон", требуется так много усилий, что, как отмечалось в работе М.Минского и С.Пейперта(1969), сама возможность и даже целесообразность разработки методики изолированного распознавания ставится под сомнение. Для трехмерных изображений эта проблема еще более осложняется как искажением перспективы, так н тем обстоятельством, что отдельные части предметов оказываются невидимыми из-за других объектов.
В новых знаковых теориях используются методы выработки гипотез с последующим их подтверждением; эти методы кажутся нам более продуктивными. Трудно решить любую по-настоящему сложную проблему, не уделив самого пристального внимания ее отдельным составным частям. К счастью, однако, можно представить себе более эффективный (по сравнению с просто идеей параллелизма) последовательный процесс, при котором крупные, сложные знаковые структуры рассматриваются в качестве простейших операндов. Это открывает теоретически новую возможность для быстрого поиска крупных субструктур н, по-видимому, позволит найти секрет быстродействия механизмов человеческого мышления и восприятия зрительной информации.
В настоящей работе не проводится границы между теорией человеческого мышления и теорией построения "думающих" машин: разделять их в данный момент не имеет смысла, поскольку как в той, так и в другой области знаний отсутствуют концепции, достаточно общие для объяснения и тем более для моделирования сложной интеллектуальной деятельности. Однако одно отличие все же имеется. Дело в том, что у специалистов-психологов, работающих над проблемами интеллекта, наблюдается определенная тенденция к сокращению числа различных механизмов, включаемых в модели функционирования человеческого мозга. Это ведет к попыткам достигнуть большего эффекта с помощью меньшего, чем может быть обосновано, числа основных механизмов мышления. Такие теории уделяют недостаточно внимания как вопросам управления психической деятельностью, так и уточнению наших знаний об отдельных интеллектуальных процессах. Ученые, работающие в области ИИ, видимо, сосредоточили все свои усилия именно на этих вопросах, но ни те, ни другие, однако, не придавали должного значения изучению самой структуры знаний, особенно знаний процедурального типа.
Можно понять, почему психологи чувствуют себя не очень уверенно, оперируя сложными схемами, не основанными на тщательно выверенных механизмах мышления. Однако стремление к ограничению их числа еще не соответствует данному этапу развития науки в той мере, в какой это может иметь место в будущем. Анатомия и генетика мозга являются той областью знаний, в которой можно предположить значительно большее число разнообразных механизмов, чем это можно себе представить сегодня. Нам следует сосредоточить свое внимание скорее на проблемах достаточности и эффективности, чем на проблеме необходимости.
Еще несколько лет назад главная цель работ по распознаванию образов сводилась к проблеме достаточности: найти любые пути, ведущие к разработке алгоритмов машинного анализа сцен. Только недавно специалистам удалось обнаружить и реализовать возможности правильного объединения отдельных черт и признаков в законченные структуры образов. Отмечу, прежде всего, работы Л.Робертса(1965), А.Гузмана(1968), П.Уинстона(1970), Д.Хаффмана(1971), М.Клоувза(1971), Дж.Сираи(1972), Д.Вальтца(1972), которые характеризуют собой ряд этапов в разработке вопросов анализа изображений типа "фигура-фон", "целое-часть" и выделение структурных групп.
Хотя эти работы достаточно просты, на их основе можно дать не только поверхностное толкование феномена зрительного восприятия, но и в какой-то степени объяснить быстроту и гладкость его протекания. Теория восприятия образов сталкивается с рядом новых вопросов при переходе от проблемы достаточности к проблеме эффективности. Каким образом различные виды "признаков" могут столь быстро, как это имеет место в человеческой практике, приводить к идентификации и описанию сложных ситуаций? Каковы способы внесения изменений при выявлении ошибок или нахождении новых доказательств? Как разрешаются противоречия? Как может быть изменена информация о местоположении объекта без перевычисления состояний других связанных с ним предметов? Как обстоит дело с движущимися объектами? Каким образом процессы зрительного восприятия используют знания, связанные с общими, невизуальными видами деятельности? Каким образом человек координирует информацию, поступающую из различных источников? Как в системе могут использоваться ожидания относительно результатов предполагаемых действий? Может ли теория объяснить феноменологические результаты зрительного восприятия образов, а также управляемое самим ходом восприятия построение и манипулирование воображаемыми сценами?
В рамках традиционных подходов бихейвористской и перцептуальной психологии было сделано очень мало, чтобы найти ответы на эти вопросы; однако взгляды некоторых работавших ранее психологов (см.Ф.Бартлетт,1932), несомненно, нашли свое отражение в настоящей работе. В более поздних работах по теории символьной обработки информации, в публикациях, подобных статьям А.Ньюэлла(1973) и Л.Пилишина(1973), содержатся более конструктивные предложения по формулированию этих спорных вопросов.
Я начинал изложение с разработки упрощенной системы фреймов для представления перспективных видов куба. Далее она будет модифицирована для представления внутреннего вида комнат и для приобретения, использования и обновления информации, необходимой человеку при перемещениях внутри дома.
В соответствии с использованным в работе А.Гузмана(1968) символическим представлением тел правильной формы с помощью "областей" и "связей" между ними можно допустить, что результатом восприятия внешнего вида куба является структура, подобная тон, что показана на рис.1.1. Подструктуры А и В представляют детали и обозначения двух граней куба. При перемещении вправо грань А исчезает из поля зрения, тогда как видимой становится новая грань С. Если теперь, находясь по отношению к кубу в ином месте, попытаться заново провести весь анализ сцены, то придется забыть о том, что было известно об А; затем заново найти информацию о В и описать грань С.
Но поскольку мы переместились вправо, то можем сохранить информацию о В, связав ее с терминалом "левой грани" второго фрейма куба. Чтобы сохранить (на всякий случай!) сведения об А, мы связываем его с дополнительным терминалом невидимой грани в новой схеме куба, показанной на рис.1.2.
Если же потом переместиться обратно влево, то можно восстановить первоначальную картину без перцептивных вычислений, для этого потребуется только лишь восстановить связи верхнего уровня с первым фреймом куба. Теперь нам необходима информация о грани С. Для этого понадобится добавить еще одну невидимую грань справа в первом фрейме куба (рис.1.3).
Можно продолжить эту процедуру, чтобы подобным образом представить результаты осмотра предмета с других сторон. Это приведет к более полной системе фреймов, в которой каждый фрейм представляет собой различные "перспективные виды" куба. На рис.1.4. показаны три фрейма, соответствующие перемещению влево и вправо на угол в 45 градусов. Если продолжить этот анализ, то результирующая система может стать очень большой. Для более сложных объектов требуется большее число различных проекций. Не ясно, все ли они необходимы в обычных условиях или же требуется только одна проекция для каждой их разновидности. Это зависит от обстоятельств.
Подобный тип сложной структуры, конечно же, не создается заново каждый раз, когда человек осматривает какой-либо предмет. Видимо, в долговременной памяти ранится большой набор систем фреймов, и одна из них активируется, когда данные и ожидания дают возможность предполагать, что она соответствует видимой картине. Как же это происходит? Если выбранный фрейм подходит не в той мере, как хотелось бы, и не удается быстро найти более подходящий, а вопрос достаточно важен, то происходит приспособление наилучшего из обнаруженных фреймов к реальной картине и он запоминается для последующих применений.
Строятся ли такие системы фреймов для каждого знакомого нам объекта? Это выглядело бы слишком экстравагантно. Представляется более вероятным, что у человека имеются специальные системы для представления наиболее важных объектов, а, кроме того, множество фреймов для обычно используемых "основных форм"; их сочетания образуют фреймы для новых применений.
Различные фреймы системы похожи на многочисленные "модели" объектов, описанные А.Гузманом(1967) и П.Уинстоном(1970). Различные фреймы аналогичны различным видам изображений, а имена межфреймовских указателей соответствуют перемещениям или действиям, изменяющим местоположение наблюдателя. Ниже будет обсуждаться вопрос о том, следует ли рассматривать эти виды в качестве двух- или трехмерных моделей объектов.
В каждый фрейм включены терминалы, служащие для присоединения указателей, идущих к его субструктурам. Одна и та же физическая черта может присутствовать в различных видах изображения объекта, следовательно, соответствующий ей терминал будет совместно использоваться сразу несколькими фреймами. Это позволяет представлять в одном месте информацию, собираемую не только в разное время и в разных местах, но и не зависящую от позиции наблюдателя. Это важно и для невизуальных применений систем фреймов.
Ход процесса согласования, результатом выполнения которого является решение, соответствует ли реальной ситуации выбранный фрейм или нет, зависит как от текущих целей, так и от информации, связанной с этим фреймом. Фреймы содержат в себе маркеры терминалов и другие ограничения, а цели используются для принятия решений о том, какие из этих ограничений существенны в данный момент, а какие нет. Вообще говоря, процесс согласования может содержать следующие компоненты:
1. Проверка на адекватность. Выбранный на основе ожиданий или предварительных данных фрейм должен вначале пройти проверку на правильность сделанного выбора; при этом используются знания о ранее выделенных элементах, их местоположении, об отношениях и наиболее вероятных субфреймах. Перечень текущих целей используется для принятия решения о том, какие терминалы и какие условия следует учитывать при составлении фрейма с действительностью.
2. Конкретизация. Затем фреймом запрашивается информация, необходимая для конкретизации значений тех терминалов, которые более не могут сохранять свои заранее заготовленные значения. Например, может потребоваться описание грани С, если соответствующий терминал в данный момент времени не означен и не отмечен как "невидимый". Задания должны согласовывать с текущими условиями, задаваемыми маркерами соответствующего терминала. Так, грань С может содержать маркеры для таких ограничений или ожиданий как: правая центральная область изображения; должно быть означено; должно быть видимым; если нет. рассмотреть перемещение вправо; должно быть субфреймом "грань куба"; использует совместно с гранью В терминал левой вертикальной границы; при неудаче рассмотреть фрейм "ящик, лежащий на боку"; тот же цвет фона, что и у грани В.
3. Управление. При получении сведений о трансформации (например, о предстоящем перемещении) выбранный фрейм передает управление соответствующему фрейму той же системы.
При более подробном рассмотрении этой схемы управления видно, что в ней содержатся возможности для использования многих видов знаний. Если попытка задания значений терминалам не удается, то результирующее сообщение об ошибке может быть использовано для выбора альтернативного варианта. Пользуясь этим, ниже рассмотрим вариант организации памяти в виде сети подобия, как это сделано в работе П.Уинстона(1970).
Можно ли действительно предполагать, что восприятие человеком трехмерных объектов столь фрагментарно и атомистично, что оно может быть представлено в терминах отношений между элементами двухмерных изображений? Давайте сразу же отделим друг от друга эти два вопроса: являются ли зрительные образы символьными и основаны ли они на двухмерных конструкциях. Первый вопрос имеет особое значение; не вызывает сомнения, что на некотором уровне зрительное восприятие протекает в основном в символьной форме. Разногласия могут быть между теми, кто, с одной стороны, придерживается несколько наивных концепций и считает вое приятие либо картиноподобным, либо протекающим на основе оперирования с воображаемыми геометрическим телами, и теми, кто, с другой стороны, основываясь на экспериментальных данных (см. Ж.Пиаже, Б.Инельдер,1956 и др.), доказывает, что многие возможные ограничения, вытекающие из символьных представлений, и в самом деле существуют.
Так, нам известно, что дети в своем творчестве, особенно в графике (впрочем, это относится и к взрослым) пользуются набором весьма ограниченных символьных ингредиентов (см., например, Е.Гомбрих(1959)). Перспективы и заслонения обычно представляются не такими, какие они есть на самом деле, а с помощью определенных условностей. Метрические соотношения сильно искажены; сложные формы изображаются с помощью специальных знаков, которые не пользуются для представления наиболее существенны! признаков. Представители "наивной" точки зрения обычно не признают подобных ухищрений и придерживаются мнения, что люди действительно "видят и манипулирую! образами, подобными картинам" так, что это нельзя объяснить с помощью дискретных описаний.
Что касается второго вопроса (являются ли образы двух- или трехмерными), то его на уровне символьный описаний не существует, ибо неподходящим становится здесь само понятие измерения. Каждый вид символьного описания объекта одним целям служит хорошо, а другим - плохо. Если заданы отношения "слева-от", "справа-от" и "находится-над" между элементами некоторой структуры и представлены они в виде маркеров, определенных на парах терминалов, то при проведении определенных манипуляций с объектом его описание, выполненное на этой основе, будет достаточным для предсказания местонахождения его отдельных элементов. Задача облегчается тем, что если, например, поворачивать куб, не меняя его ориентации в пространстве (не меняя грани, которой он соприкасается со столом), то определенные свойства этих отношений будут инвариантными к подобным перемещениям. Большинство предметов обычно имеет свои верхние и нижние части. Однако если положить куб на боковую грань, то предсказания, основанные на тех же самых описаниях, сделать будет значительно труднее: люди испытывают большие затруднения при слежении за гранями шестицветного куба (т.е. куба, каждая грань которого окрашена в разный цвет), если заставить их мысленно его поворачивать.
Если для тех же целей использовать более "характерные" отношения, такие как "следующий-за" или "быть-противоположным-к", то аналогичные описания изображений будут менее чувствительными к возможным поворотам объектов. В работах П. Уинстона(1970, 1971, 1972) мы видим, каким образом систематические замены отношений (например, "слева" вместо "сзади" или "справа" вместо "спереди") могут использоваться при имитации вращения предметов.
У. Хогарт осуждал тех художников, которые слишком мало времени уделяли совершенствованию своих представлений об окружавших их предметах. (Уильям Хогарт (1697-1764), выдающийся английский живописец, график и теоретик искусства, в 1753 г. опубликовал, свои известный теоретический трактат "Анализ красоты"). Он советовал тем, кто стремится получить правильные представления о расстояниях, отношениях и различиях между некоторыми существенными точками и линиями, принадлежащими, в худшем случае, даже наиболее асимметричным фигурам, постепенно вырабатывать в себе способность извлекать их из своей памяти, ибо это может во многом помочь тому, кто постоянно что-нибудь изобретает или рисует по памяти и способствует точному натурному воспроизведению предметов.
Таким образом, преднамеренная тренировка памяти в вопросах систематизации отношений между точками, лежащими на противоположных поверхностях тел, является, по мнению У. Хогарта, ключом к пониманию инвариантных отношений между видимыми и невидимыми частями изображений; они могут дать человеку информацию, достаточную для того, чтобы вообразить себя внутри какого-то предмета или мысленно очутиться в другой, практически недоступной точке наблюдения. Отсюда можно сделать вывод о том, что У.Хогарт отвергал "наивные" концепции в теории восприятия образов.
Некоторые люди полагают, что пространственные задачи решаются с помощью каким-то образом хранимого в памяти аналога трехмерной структуры. Если, однако, кто-либо и смог бы воссоздать такую модель, то для "интеллектуального глаза" сохранилась бы большая часть из тех традиционных проблем, которые относятся к реальному глазу, и, кроме того, появилась бы новая весьма трудная задача: создание (на основе двухмерных конструкций) образа какого-то гипотетически воображаемого предмета.
Хотя эти аргументы, как может показаться, свидетельствуют о целесообразности употребления двухмерных изображений для агрегирования и распознавания образов, их нельзя считать удовлетворительными для задач планирования и выполнения манипуляцпонкых операций. Более естественным выглядит другой вариант представления информации в той же символьной форме, но на базе основных геометрических форм. Так, телефонная трубка может быть описана с помощью двух усеченных сферических тел, соединенных изогнутым прямоугольным стержнем. В следующем параграфе будет рассмотрен вопрос о совместном использовании двух и более методов, качественно отличных друг от друга, для представления одного и того же объекта.
Познание окружающего мира с помощью органов зрения кажется нам непрерывным. Одной из причин этого является наше постоянное движение. Более глубокое объяснение заключается в том, что обычно наши ожидания "гладко" взаимодействуют с нашим зрительным восприятием. Предположим, что вам пришлось выйти из комнаты, закрыть за собой дверь, затем вернуться, чтобы ее открыть и обнаружить совершенно другую комнату. Вы были бы поражены. Смысл этой перемены был бы едва ли менее поразительным, чем внезапное, на ваших глазах, изменение всего мира.
Наивная теория феноменологической непрерывности утверждает, что скорость зрительного восприятия настолько велика, что наши образы могут изменяться с такой же скоростью, как и видимые нами сцены. Ниже я отдаю предпочтение альтернативной теории: изменения в основанных на фреймах представлениях человека происходят со своей собственной скоростью; система фреймов предпочитает производить небольшие изменения, как только это становится возможным, а иллюзия непрерывности возникает вследствие постоянства заданий терминалов, общих для фреймов различных видов. Таким образом, непрерывность зависит от подтверждения ожиданий, что, в свою очередь, зависит от быстроты доступа к запомненным знаниям об окружающем нас мире.
Перед тем, как войти в комнату, вы уже заранее знаете, что увидите комнату, а не какой-нибудь пейзаж. Обычно можно указать на это по типу двери, так же как и выбрать заранее фрейм, соответствующий виду новой комнаты. Часто люди просто предполагают наличие какой-то конкретной комнаты. В этом случае значения многих заданий терминалов уже определены.
Самый простой вариант фрейма комнаты - это подобие пустой внутренности коробки. Следуя нашей модели куба, можно считать, что структура верхнего уровня фрейма "комната" должна соответствовать схеме, показанной на рис.1.5.
Человек должен конкретизировать задания терминалов теми предметами, которые он видит. Если комната ему хорошо знакома, то некоторые задания уже заполнены данными (означены). В случае, когда отсутствуют какие-либо ожидания, на первой месте должно быть стремление выявить наиболее характерные геометрические признаки. Чтобы заполнить задания терминала "левая стена", можно вначале попытаться найти линии а и d, а затем углы ag и dg. Линию g найти в обычных условиях легко, поскольку она будет пересекаться при любом горизонтальном (на уровне глаз) осмотре помещения, проводимом слева направо. В конечном итоге углы ag, gb и Ьа должны соответствовать друг другу, так как все они являются частями одной и той же физической вершины.
Поскольку, однако, сам процесс восприятия является направлением, существуют основанные на знании и опыте полезные тактические схемы. Вероятно, границу е найти легче, чем любую другую, ибо, как только мы входим в обычную прямоугольную комнату, можно ожидать, что
граница е является горизонтальной линией;
она расположена ниже уровня глаз;
она разделяет между собой пол и стену.
Если известны предполагаемые размеры комнаты, мы можем определить величину е и наоборот. В сценах открытых пространств линия е является горизонтом и на равнинной местности мы можем ожидать ее появления даже на уровне глаз. Если нам не удастся быстро найти этот горизонт и заполнить им соответствующее задание терминала, то следует рассмотреть отклонения, связанные с этим терминалом: возможно, что комната имеет какую-то необычную форму или, например, в ней находится крупный предмет - препятствие для визуального отыскания линии е.
Попытаемся обнаружить некоторые другие характерные признаки. Найдя линию е, следует заняться поиском ее левого и правого углов, а после этого вертикальных линий, исходящих из них. Как только будут обнаружены эти основные ориентиры, можно представить себе общую форму и размеры комнаты. Это может привести к выбору нового фрейма, который лучше согласуется с найденными формой и размерами объекта наблюдения благодаря маркерам, подтверждающим сделанный выбор и уточняющим структуру объекта с помощью дополнительных деталей.
Конечно, совершенная система зрительного, восприятия должна анализировать сцену не просто как отдельную картину, а в соответствии с некоторыми установками фрейма более общего вида. Чтобы сам процесс восприятия протекал без затруднений, человек должен знать, где во внешнем и постоянно-меняющемся мире находится каждая нужная ему деталь. Это позволяет компенсировать трансформации в системах фреймов от перемещений глаз и головы, от изменений в положении туловища так же, как и от его более значительных перемещений с одного места в другое.
Если новая комната знакома недостаточно хорошо, то ни один заранее сформированный фрейм не может содержать сведения обо всех мелких деталях; в подобных случаях требуется проводить более глубокий анализ сцен. Однако объем работы и здесь может быть во многом уменьшен благодаря наличию таких субфреймов, с помощью которых можно выдвигать гипотезы о структуре и связях реальных объектов. Насколько эти субфреймы-ожидания могут быть полезны, зависит как от их адекватности рассматриваемому предмету, так и от качества процесса согласования, который устанавливает очередность сопоставления субфреймов с действительностью. Они многое могут сказать даже о малознакомой комнате. Большинство комнат подобны коробкам, и их следует классифицировать по типам: кухня, зал, жилая комната, аудитория и т.д. Человек знает десятки разновидностей комнат, и ему известны сотни их конкретных видов; нет сомнения в том, что они организованы во что-то типа сети подобия для того, чтобы обеспечить быстрый доступ к этой информации.
Типичный фрейм комнаты включает в себя терминалы трех или четырех видимых стен, каждая из которых может относиться к различным типам, например к стенам с окнами, с полками, картинами и камином. У каждой разновидности комнат свои типичные стены. Представление обычной стены может содержать массив терминалов размером (3Х3): (левая часть - центр - правая часть) X (верхняя часть - средняя часть - нижняя част), так что для предметов, относимых к стенам, можно качественно задавать их местоположение. Это может использоваться для локализации объектов с помощью внутренних пространственных отношений, например, чтобы представить такой факт, как "Y находится немного выше центра прямой, которая связывает Х с Z".
Если в трехмерном пространстве известно только направление восприятия (иначе, оптическая ось), то положение какого-либо элемента изображения, задаваемое соответствующим субфреймом, будет неопределенным. Линия, находящаяся в центральной части изображения, может принадлежать предмету, расположенному на передней стене комнаты, а может относиться к высокому объекту, находящемуся перед этой стеной; сами же объекты, очевидно, связаны с разными субфреймами. Решение об интерпретации линий может зависеть от обоснованных доказательств в пользу того или иного варианта, от более точной визуальной информации, полученной по данным стереовосприятия или двигательного параллакса, а также от той правдоподобной информации, которая может быть получена от других фреймов.
Положение границ пространственных элементов фрейма не носит совершенно четкого характера, и поэтому терминал каждого такого элемента должен содержать данные о (приблизительном) типичном местоположении его центра и некотором диапазоне относительных размеров. Мы предполагаем наличие лишь правильных топологических ограничений, например, что край левой стены должен всегда быть слева от любого стоящего у этой стены объекта. Процесс согласования видимой стены со всеми подобными ограничениями может приводить ко все большим затруднениям по мере того, как в описание элемента будут включаться (вопреки установленным для него размерам) предметы, предположительно находящиеся внутри него. Степень таких затруднений зависит от цели человека при анализе сцены и накопленного им опыта. Хотя данная концепция и может показаться сложной, я не думаю, что богатство и разнообразие зрительных ощущений могут наводить на мысль о создании каких-либо значительно более простых теорий.
Когда мы двигаемся по комнате, очертания находящихся в ней предметов изменяются. Каким образом можно предвидеть или компенсировать эти изменения без полного повторного анализа всей сцены? Эффект от движения глаз и поворота головы довольно прост; предметы перемещаются в рамках видимой области пространства, но не меняют при этом своих очертаний; однако изменение позиции наблюдения является причиной значительных перемен, которые зависят как от угла, так и от относительных расстояний между предметом и наблюдателем. Эта проблема особенно важна для животных, двигающихся с большой скоростью, так как у них модель внешней среды должна быть образована различными, частично проанализированными видами изображений. Видимо, эта потребность, пусть даже в самом примитивном своём варианте, послужила главным стимулом к эволюционному развитию систем фреймов, а позже и других символьных механизмов.
Если имеется обычная комната, то перемещение вдоль пунктирной линии (рис.1.6) вызывает упорядоченное изменение в очертаниях четырехугольных стен. Прямоугольник, находящийся в непосредственной близости от стены, должен трансформироваться точно так же, как и сама стена. Если на левой стене в центре вычертить прямоугольник, то будет казаться, что он находится перед стеной, поскольку человек предполагает, что любой такой четырехугольник есть на самом деле прямоугольник и, следовательно, он должен лежать в плоскости, проектируемой аналогичным образом. На рис.1.7а оба прямоугольника, казалось бы, выглядят одинаково, однако тот прямоугольник, что находится справа, не согласуется с маркерами терминала для субфрейма "левый прямоугольник" (которые, например, требуют, чтобы левая сторона была длиннее правой).
Таким образом, этот прямоугольник, представленный с помощью фрейма "центральный прямоугольник", кажется нам выдвинутым вперед и параллельным центральной стене.
Итак, необходимо не просто присвоить четырехугольнику метку "прямоугольный", но и сделать то же самое для определенного фрейма, входящего в систему фреймов "прямоугольники". Двигаясь по стрелке (рис.1.7а), можно ожидать, что любая трансформация, применимая к системе верхнего уровня, будет применима и к любой из ее подсистем (рис.1.7б). Аналогично последовательность эллиптических проекций окружности на плоскость изображения содержит конгруэнтные и потому визуально неоднозначные пары, что и показано на рис.1.8. Но, поскольку предметы обычно располагаются в плоскости стен, мы предполагаем, что эллипс левой стены будет находиться слева на плоскости изображения, и что он подвержен тем же трансформациям, что и сама стена. Если предсказание не подтвердится, мы, очевидно, будем весьма удивлены.
Правдоподобно ли, что ограниченная, качественная, знаковая система может служить инструментом для адекватного представления перспективных преобразований. Люди все время недооценивают свои возможности по восприятию образов, например, в таком вопросе, какпереосмысливание пространственных отношений, при изменении точки наблюдения. Уже отмечалось, что люди, считающие себя обладателями хорошего пространственного видения, часто допускают качественные ошибки при описании вращения простого многоцветного куба. И даже, в тех случаях, когда мы в действительности способны высказать точные метрические суждения об объектах видимой сцены, мы не всегда делаем это; например, лишь немногих людей заставит задуматься изображение несуществующей реально пирамиды, показанной на рис.1.9. Это не пространственное изображение (перспектива) любой усеченной пирамиды. Если эта фигура была бы пирамидой, то все три ее ребра в своем продолжении сошлись бы в одной точке. Имея достаточный опыт, люди, без сомнения, могут высказывать более точные суждения, но для этого не требуются какие-либо другие механизмы. Если для выполнения некоторой работы непрофессионал использует десять фреймов, то специалист может применить тысячу и, таким образом, получить совсем иной порядок ее исполнения.
В любом случае для правильного предсказания изменений перспективы в наших системах необходимо, чтобы трансформация на верхнем уровне вызывала соответствующие трансформации в системах субфреймов. В первом приближении этого можно добиться с помощью одинаковых названий трансформаций. Тогда действия "двигаться вправо", заданное для фрейма комнаты, будет вызывать то же самое действие и для объектов, связанных с субфреймами стен этой комнаты.
Поскольку, однако, эта схема имеет серьезный дефект, то она и рассматривается здесь только лишь в качестве "первого приближения". Действительно, если вы стоите около левой стены и двигаетесь вдоль нее вперед, то предметы, расположенные вблизи этой стены, испытывают значительную трансформацию типа "двигаться-вправо", фронтальная стена подвергнется преобразованию типа "приблизиться", а правая стена испытывает трансформацию типа "двигаться влево". Таким образом, вопрос о правильном предсказании изменений перспективы оказывается далеко не таким легким, чтобы его можно было решить простым переносом типов операций более низкие уровни системы.
Когда мы двигаемся вправо, крупный предмет, находящийся в центре на переднем плане, вероятно, левой своей стороной будет заслонять любой более удаленный предмет. При планировании перемещений человек должен иметь возможность предвидеть некоторые из этих изменений. Часть предметов может стать невидимой, а другая их часть - видимой. В нашем исходном примере куба проблемы заслонения не существует, поскольку это тело является полностью выпуклым; исчезновение целой грани и всех ее связей может быть легко восстановлено по данным, содержащимся на верхнем уровне. Однако в комнате, которую обычно следует рассматривать как тело вогнутой формы, отдельные элементы объектов, относящиеся к различным терминалам, могут заслонять друг друга. Рассмотрим в этой связи две экстремальные стратегии.
Характер заслонения |
Положение элементов относительно друг друга |
|||||||||||||||||||||||||||||
f частично заслоняет е | Под, сзади |
e заслоняет j | Под, сзади |
f частично заслоняет E | Слева, под |
E заслоняет J | Под, сзади |
E заслоняет h | Под, частично сзади |
E заслоняет j | Под, сзади |
e заслоняет i | Под, сзади |
E заслоняет I | Под, сзади |
E частично заслоняет e | Слева, под |
E заслоняет j | Под, частично сзади |
E частично заслоняет h | Под, слева |
Локальные группы предметов. Так же, как и с различными видами одиночных объектов, при рассмотрении знакомых групп частично загораживающих друг друга предметов можно воспользоваться специальной системой фреймов, соответствующей данной конфигурации объектов исходного изображения. Для примера рассмотрим сцену, состоящую из стола и стула (рис.1.10 и табл.1.1).
Если к фрейму, представляющему эту сцену применить те же, что и ранее, трансформации перспектив, то это позволит в первом приближении решить проблему заслонения.
Такой подход хорош для компактных, заранее известных групп объектов, но он не дает нужных результатов в тех случаях, когда одни предметы загораживают от дельные детали других объектов, расположенных в углублениях комнаты. Для технических применений простота данной схемы не компенсирует частые ошибки, возникающие при ее использовании, однако, как теория человеческих действий она может быть достаточно хорошей.
Отметим, что умственная деятельность, направленная на выяснение заслонений, протекает медленно и ее не следует стремиться объяснить на основании упрощенных представлений, связанных главным образом со скоростью выполнения операций.
Глобальная система заслонений. Более глубокая стратегия должна предусматривать, чтобы все фреймы пространственных изображений (перспектив) дополняющая единую, центральную систему фреймов зрительного восприятия образов. Терминалы такой системы должны ответствовать отдельным элементам внутреннего представления пространства среды, а трансформации - определять выявленные законы перспективы, согласно которым одни элементы по-разному заслоняют другие для различных точек наблюдения.
Если на самом деле у человека существовала бы такая макросистема, то была бы она врожденной или же сформировалась в результате обучения? Приведенная выше цитата из работы Ж.Пиаже и Б.Инельдер служит подтверждением тому, что дети до десятилетнего возраста не обладают подобными макроструктурами.
Теория зрительного восприятия должна быть, по нашему мнению, одновременно и теорией воображения, поскольку и та, и другая имеют одни и те же конечные цели: конкретизацию заданий терминалов фреймов. Каждый из нас согласится с Д.Хьюмом в том, что имеется различие между зрительным восприятием и ощущениями. Д.Хьюм утверждает, что это различие проистекает вследствие того, что восприятие по своей природе является мгновенным и непосредственным, тогда как вызываемые в памяти образы получаются рекомбинацией заполненных "впечатлений", а при хранении, поиске и преобразованиях этих структур каким-то Образом теряется их выразительность. Я предполагаю, что зрительное восприятие кажется более живым, нежели воображение, ибо его задания менее подвижны. Они более стойко сопротивляются попыткам других процессов изменить их. Для того чтобы изменить описание непосредственно видимой сцены, наша система зрительного восприятия, вероятно, будет вынуждена изменить эту сцену - ни больше и ни меньше. Для человеческой фантазии, конечно же, подобных жестких ограничений не существует.
В то же время сами "зрительные" задания не являются абсолютно негибкими; любой может научиться в уме изменять, представленную на чертеже изометрию куба. Существуют так называемые "двусмысленные" фигуры, которые можно легко описать различным образом. В этом случае изменение фрейма равнозначно изменению "описательной точки зрения", причем действие или преобразование носит символьный, а не физический характер. В любом случае существуют такие психические состояния, при которых фантазии менее гибки, чем "непосредственные восприятия", а иногда даже и более "ярки".
Как мы уже упоминали, целью работы механизмов восприятия и воображения является конкретизация заданий терминалов фреймов, при этом воображение оставляет человеку больший простор для выбора деталей и различных вариантов этих заданий. По-видимому, фреймы никогда не хранятся в долговременной памяти с незаданными значениями своих терминалов. Каждый терминал фрейма в действительности непрочно связан со своими заданиями отсутствия, которые чаще всего бывают полезны, но иногда могут препятствовать процессу поиска нужного фрейма.
Так, если вам скажут: "Джон ударил ногой по мячу", то, видимо, вы не думаете о каком-то чисто абстрактном мяче, а представите себе вполне определенные его характеристики: размер, цвет, массу, которые, однако, пока еще неизвестны. Возможно, что возникший в вашей памяти образ чем-то напоминает вам самый первый мяч или тот, которым вас больно ушибли, или, может быть, тот самый последний мяч, который вы держали в своих руках. В любом случае вашему воображению недостает остроты (эффекта "присутствия"), поскольку те процессы, которые контролируют ход согласования и оказывают влияние на непрочно связанные с терминалами задания отсутствия, только лишь подтверждают или отвергают их пригодность и не имеют связи с реальной действительностью.
Задания отсутствия должны оказывать тонкие, идеосинкразическне воздействия на те мыслительные операции, с помощью которых человек проводит аналогии, делает обобщения и вырабатывает суждения, особенно когда внешние влияния на них достаточно слабы. При правильном выборе эти стереотипы могут служить в качестве хранилища ценных набросков планов, в противном случае они могут образовывать наборы иррациональных данных парализирующего действия.
Я считаю, что имеется сходство между мыслями Пиаже о конкретных операциях и идеей использования трансформаций между фреймами системы. Некоторые виды логических операций могут быть легко реализованы на базе фреймов путём замены в них одних заданий отсутствия другими. Например, не вызовет затруднений попытка аппроксимации логических транзитивностей; так, силлогизмы вида: "Все, что принадлежит А, принадлежит В, и все, что принадлежит В, принадлежит С, =>, все, что принадлежит А, принадлежит С", должны естественным образом встречаться при подстановках субфреймов в терминалы фрейма. Я не думаю, что это общее правило универсально, но считаю, что вследствие транзитивности сменяющих друг друга субфреймов в некоторых случаях воспользоваться им будет полезно.
В дополнение к этому можно предполагать, что к справедливости высказываний вида: Большинство, относящееся к А, относится к В, и большинство, относящееся к В, относится к С, => большинство, относящееся к А, относится к С", следует относиться с той же степенью доверия, даже если иногда это не соответствует действительности.
Ясное понимание вопроса о том, что же может быть достигнуто на базе простейших операций с фреймами, было бы весьма ценным и актуальным. Значительным шагом в этом направлении, мне думается, явилась разработанная Дж.Муром и А.Ньюэллом(1973) процедура "выравнивания и покрытия" для их программы MERLIN. Эта процедура связана с известным в математической логике алгоритмом унификации (см.Н.Нельсон "Искусственный интеллект",1973), если известны фреймы А и В, то результаты ее работы могут быть проинтерпретированы (если не слишком вдаваться в детали) следующим образом:
Можно рассматривать А как вид В, если имеется "отображение" или фрейм-трансформация С, указывающая, каким образом (может быть даже с помощью каких иных отображений") терминалы, относящиеся к А, могут рассматриваться в понятиях В-терминалов.
В упомянутой выше работе метод изменения точек зрения используется, чтобы предложить ряд новых интерпретаций таким основным стратегиям, как целенаправленность, индукция и использование новых знаний.
Кроме того, авторы высказывают ценные предложения, каким образом можно в машинных программах реализовать основную идею теории фреймов.
По теории Ж.Пиаже способности детей к проведению рассуждений, как с помощью трансформаций, так и о них самих проявляются с переходом мышления ребенка на стадию формальных операций. Для различных видов умственной деятельности эти способности могут проявляться не одновременно и не синхронно по отношению друг к другу. Чтобы проводить более сложные рассуждения и освободиться от полезной, но малонадежной логики манипулирования с заранее заготовленными значениями, человек должен научиться оперировать с самими трансформациями, поскольку подобные преобразования содержат в себе сведения, необходимые, для более сложных форм умственной деятельности. В создаваемых для систем ИИ моделях можно было бы попытаться заставить ее (систему) читать свои собственные программы. Возможная альтернатива заключается в том, чтобы представить (с избыточностью) информацию о процессах иным способом. Сотрудники нашей лаборатории (Лаборатория искусственного интеллекта Массачусетского технологического института ), разрабатывающие программу, "понимающую программы", обычно приходили к мнению, что в них должны содержаться "комментарии" для более четкого выражения намерений, предпосылок и целей эти комментарии (в настоящее время) обычно записываются на специализированных языках.
В этой связи возникает важный вопрос о цели разработки нашей теории. Мышление на базе "схем", в основе которого лежит согласование сложных ситуаций со стереотипными структурами фреймов, явно недостаточно для некоторых видов умственной деятельности. Очевидно, что взрослые люди, думая о чем-либо, используют для своих целей ранее сформировавшиеся собственные представления. Если представить себе "формальные" операции в виде процессов, которые могут изучать и критиковать наши ранее сформировавшиеся представления (в виде фреймов или любом другом), то с их помощью можно создавать новые структуры, которые будут соответствовать "представлениям о представлениях". У меня, однако, не сложилось еще определенного мнения о той роли, которую могли бы играть системы фреймов в этих более сложных видах умственной деятельности.
Та же стратегия предполагает, что непосредственное использование фреймов мы связываем (схематично, по крайней мере) с "конкретными" операциями Ж.Пиаже. Если это так, то я поддерживаю тезис Ж.Пиаже о том, что позднее появление "формального" мышления у детей связано с парадоксальным повторным убеждением. При рассмотрении примеров применения системы фреймов к различным проблемам могут возникнуть сомнения по поводу того, что данная теория хорошо объясняет одно и плохо другое. Однако было бы наивно ожидать, что в рамках любой отдельно взятой системы можно решить все проблемы человеческого мышления, тем более что эта система ограничена конкретными операциями, сводящимися к манипуляциям со стереотипными структурами данных.
К предисловию | К главе 2 | Содержание