Главная > Интеллектуальные системы > Базы знаний интеллектуальных систем
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

3.3.2. Лингвистический аспект

Лингвистический (А2) аспект касается исследований языковых проблем, так как язык — это основное средство общения в процессе извлечения знаний.

Сразу же следует оговорить, что поскольку тема данной книги ограничена изложением теории и технологии инженерии знаний, то область разработки естественно-языковых интерфейсов и весь спектр проблем, связанных с ней — лексических, синтаксических, семантических, прагматических и т. д. [Виноград, 1976; Мальковский, 1985; Попов, 1982], — не рассматривается.

В инженерии знаний можно выделить три слоя лингвистических проблем (рис. 3.11):

(см. скан)

Рис. 3.11. Лингвистический аспект извлечения знаний

«Общий код» (S21)

«Общий код» решает проблему языковых ножниц между профессиональной терминологией эксперта и обыденной литературной речью инженера по знаниям и включает следующие компоненты:

Детализация схемы общения (см. рис. 3.8) на рис. 3.11 позволяет представить средства общения как два потока [Горелов, 1987], в которых нас интересуют компоненты VI и — языки, на которых говорят аналитик и эксперт — невербальные компоненты). Различие языков VI и и обусловливает «языковый барьер» или «языковые ножницы» в общении инженера по знаниям и эксперта.

Эти два языка являются отражением «внутренней речи» эксперта и аналитика, поскольку большинство психологов и лингвистов считают, что язык — это основное средство мышления наряду с другими знаковыми системами «внутреннего пользования» (универсальный семантический код — УСК [Мартынов, 1977], языки «смысла» [Мельчук, 1974], концептуальные языки [Шенк, 1980] и др.). Язык аналитика состоит из трех компонентов:

— общенаучной терминологии из его «теоретического багажа»;

— терминов предметной области, которые он почерпнул из специальной литературы в период подготовки;

— бытового разговорного языка, которым пользуется аналитик.

Язык эксперта включает:

— общенаучную терминологию;

— специальную терминологию, принятую в предметной области;

— бытовой язык;

— неологизмы, созданные экспертом за время работы, то есть его профессиональный жаргон.

Если считать, что бытовой и общенаучный языки у двух участников общения примерно совпадают (хотя реально объем второго компонента у эксперта существенно больше), то некоторый общий язык или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из потоков, представленных на рис. 3.12.

В дальнейшем этот общий код преобразуется в некоторую понятийную (семантическую) сеть, которая является прообразом поля знаний предметной области.

Выработка общего кода начинается с выписыванием аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следует группирование терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода

заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, то есть по понятийной близости (это уже первый шаг структурирования знаний).

На этом этапе аналитик должен с большим вниманием отнестись ко всем специальным терминам, пытаясь максимально вникнуть в суть решаемых проблем и терминологию. Освоение аналитиком языка предметной области — перйый рубеж на подступах к созданию адекватной базы знаний.

Рис. 3.12. (см. скан) Структура общего кода

Рисунок 3.12 дает представление о процессе неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация связывает «знак» и «означаемый предмет». Только в интерпретации знак получает смысл. Так, на рис. 3.13 слова «прибор X» для эксперта означает некоторую конкретную схему, которая соответствует схеме оригинала прибора, а в голове начинающего аналитика слова «прибор X» вызывают пустой образ или некоторый черный ящик с ручками.

Рис. 3.13. Неоднозначность интерпретации

Внимание к лингвистическому аспекту проблемы извлечения знаний способствует сближению образа 1 с образом 2 и интерпретации интерпретацией 12, а слова «прибор X» перейдут в действительно «общий» код.

Таким образом, слой включает изучение и управление процессом разработки специального промежуточного языка, необходимого для взаимодействия инженера по знаниям и эксперта.

Понятийная структура (S22)

Проблемы формирования понятийной структуры представляют следующий слой лингвистического аспекта проблемы извлечения знаний. Особенности формирования понятийной структуры обусловлены установленным постулатом когнитивной психологии о взаимосвязи понятий в памяти человека и наличии семантической сети, объединяющей отдельные термины во фрагменты, фрагменты в сценарии и т. д. Построение иерархической сети понятий, так называемой «пирамиды знаний», — важнейшее звено в проектировании интеллектуальных систем.

Большинство специалистов по искусственному интеллекту и когнитивной психологии считают, что основная особенность естественного интеллекта и памяти в частности — это связанность всех понятий в некоторую сеть. Поэтому для разработки базы знаний и нужен не словарь, а «энциклопедия» [Шенк, Бирнбаум, Мей, 1989], в которой все термины объяснены в словарных статьях со ссылками на другие термины.

Таким образом, лингвистическая работа инженера по знаниям на данном слое проблем заключается в построении таких связанных фрагментов с помощью «сшивания» терминов. Фактически эта работа является подготовкой к этапу концептуализации, где это «шитье» (по Шенку — КОП, концептуальная организация памяти [Шенк, Хантер, 1987]) приобретает некоторый законченный вид.

При тщательный работе аналитика и эксперта в понятийных структурах начинает просматриваться иерархия понятий, подробно о которой будет говориться в параграфах 4.4. и 8.2. Такие структуры имеют важнейшее гносеологическое и дидактическое значение и последнее время для них используется специальный термин — онтологии. Следует заметить, что эта иерархическая организация хорошо согласуется с теорией универсального предметного кода (УПК) [Горелов, 1987; Жинкин, 1982], согласно которой при мышлении используются не языковые конструкции, а их коды в форме некоторых абстракций, что в общем согласуется с результатами когнитивной психологии [Величковский, 1982]. Иерархия абстракций — это глобальная схема, которая может быть положена в основу концептуального анализа структуры знаний любой предметной области. Лингвистический эквивалент иерархии — иерархия понятий, которую необходимо построить в понятийной структуре, формируемой инженером по знаниям (рис. 3.14).

Следует подчеркнуть, что работа по составлению словаря и понятийной структуры требует.лингвистического «чутья», легкости манипулирования терминами и

богатого словарного запаса инженера по знаниям, так как зачастую аналитик вынужден самостоятельно разрабатывать словарь признаков. Чем богаче и выразительнее получается общий код, тем более полнее база знаний.

Рис. 3.14. (см. скан) Пример иерархии

Аналитик вынужден все время помнить о трудности передачи образов и представлений в вербальной форме. Полезными тут оказываются свойства многозначности слов естественного языка. Часто инженеру по знаниям приходится подсказывать слова и выражения эксперту, и такие новые лексические конструкции оказываются полезными.

Способность к словесной интерпретации зависит и от пола аналитика (параметр Установлено, что традиционно женщины придают большую значимость невербальным компонентам общения, а в вербальных имеют более обширный алфавит признаков. И вообще, существуют половые различия восприятия не только в бытовой сфере, что очевидно, но и в профессиональной. Следовательно, у эксперта-мужчины и у эксперта-женщины могут существенно отличаться алфавиты для вербализации признаков воспринимаемых объектов.

Словарь пользователя (S23)

Лингвистические результаты, соотнесенные к слоям общего кода и понятийной структуры, направлены на создание адекватной базы знаний. Однако часто профессиональный уровень конечного пользователя не позволяет ему применить специальный язык предметной области в полном объеме.

Неожиданными для начинающих разработчиков являются проблемы формирования отдельного словаря для создания дружественного интерфейса с пользователем ЭС, исследуемые в слое Необходимы специальные приемы, увеличивающие «прозрачность» и доступность системы. Для разработки пользовательского интерфейса требуется дополнительная доработка словаря общего кода с поправкой на доступность и «прозрачность» системы.

Так, при разработке экспертной системы по психодиагностике АВТАНТЕСТ [Гаврилова, 1984] пришлось разработать два словаря терминов — один для психо-логов-профессионалов, второй — для неспециалистов (испытуемых). Поскольку результат психодиагностического тестирования всегда интересен испытуемому, ему выдается листинг с психологическим заключением на общелитературном языке без употребления специальных терминов. Интересно, что при внедрении системы использовался в основном этот второй словарь; даже профессиональные психологи предпочитали получать тексты на обыденном языке.

<< Предыдущий параграф Следующий параграф >>
Оглавление