Главная > Интеллектуальные системы > Введение в статистическую теорию распознавания образов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

10.3.2. Расстояние до двух фиксированных точек.

До сих пор мы старались сохранить, насколько это возможно, структуру данных путем сохранения расстояний между объектами. Поэтому мы не интересовались вопросом о том, порождены ли эта данные одним или большим числом распределений. Если же мы хотим использовать двумерное отображение для целей классификации, то мы должны выбрать преобразование, которое сохраняет разделимость классов. Известно, что в случае двух классов

отношение правдоподобия несет полную информацию о разделимости классов в байесовском смысле. Следовательно, две плотности вероятности или монотонные функции от них (обычно в качестве таковых используют отрицательные логарифмы) являются подходящей парой переменных. Отображение с использованием этих переменных показано на рис. 10.14.

Рис. 10.14. Двумерное отображение данных.

В этом пространстве байесовская граница представляет собой прямую, проходящую под углом 45°, независимо от вида распределений. Таким образом, отображение на рис. 10.14 не приводит к потере информации, необходимой для классификации. Единственная сложность здесь — это сложность вычисления функции Если плотности вероятностен задаются набором параметров, решение этой задачи связано с оцениванием параметров. Например, если известно, что плотности вероятностей нормальны, функция примет вид

где и — оценки математического ожидания и ковариационной матрицы. В непараметрическом случае можно воспользоваться методами, описанными в гл. 6 (например, методом Парзена). Таким образом, неточность отображения проистекает из ошибок оценивания плотностей вероятности.

Намного более простыми признаками, пригодными для индикации, являются евклидовы расстояния до двух фиксированных точек Один из способов выбора (не имеющий теоретического обоснования) состоит в том, что в качестве этих точек берутся математические ожидания класса 1 и класса 2, т. е.

Прямая, разделяющая классы на -отображении, задается выражением

(кликните для просмотра скана)

или

где — угол между этой прямой и осью , а с — точка пересечения ее с осью Уравнение (10.75) показывает, что прямая на отображении соответствует сфере в пространстве X (см. рис. 10.15, а, б). Прямая под углом 45° соответствует гиперплоскости, перпендикулярной к вектору

Хотя прямые на двумерном отображении соответствуют весьма ограниченному набору гиперповерхностей в пространстве комбинация этих прямых, т. е. кусочно-линейная граница на двумерном отображении, может порождать сложную поверхность в пространстве X. Пример показан на рис. 10.16.

Рис. 10.16. Кусочно-липейная граница на двумерном отображении.

Это замечание важно потому, что оно обращает внимание на возможность для человека-оператора построить с помощью индикатора относительно сложную разделяющую поверхность.

Таким образом, евклидовы расстояния до двух точек можно использовать в качестве простых признаков для двумерной индикации. Однако, так как эти расстояния не имеют однозначной связи с плотностями вероятностей, они не могут дать точной информации о разделимости классов. Получаемое приближение при некоторых конкретных распределениях оказывается неудовлетворительным. Поэтому для улучшения качества аппроксимации приходится использовать процедуры нормировки.

1. Совместная нормировка. Когда два распределения расположены так, как это показано на рис. 10.17, а, -отображение дает плохие результаты. В зтом случае как так и

отображаются на -индакаторе в одну и ту же точку У, и поэтому отображенные распределения сильно перекрываются, хотя они хорошо разделимы в пространстве X. Эту трудность можно лреодолеть с помощью совместной нормировки в соответствии с (4.53). Как говорилось в гл. 4, если два распределения являются нормальными и имеют равные ковариационные матрицы, вектор разности средних значений перпендикулярен к байесовской разделяющей гиперплоскости, как показано на рис. 10.17, б.

Рис. 10.17. Совместная нормировка.

Это свойство сохраняется и в том случае, когда распределения имеют разные ковариационные матрицы, по одинаковые усредненные ковариационные матрицы, как показано на рис. 10.17, б. Следовательно, совместная нормировка устраняет упомянутую выше трудность. На рис. 10.18 показано -отображение двух классов объектов, обозначенных крестиками и двойными кружками на рис. 10.13.

2. Нормировка одного класса. Другоц важный способ нормировки, который мы будем называть нормировкой одного

(кликните для просмотра скана)

класса, заключается в том, что ковариационная матрица одного класса приводится к единичной матрице I. Эта нормировка особенно эффективна в задачах со многими классами, когда мы хотим отделить один класс от всех остальных, как показано на рис. 10.19, а и б; d-отображение для рис. 10.19, б показано на рис. 10.19, в, где объекты из класса 1 должны быть расположены в области

<< Предыдущий параграф Следующий параграф >>
Оглавление