Главная > Интеллектуальные системы > Введение в статистическую теорию распознавания образов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

§ 6.3. Метод гистограмм

Рассматривая к и А в выражении (6.53) как свободные параметры, можно получать различные оценки плотности вероятности, известные под названием гистограмм. В этом параграфе будут рассмотрены два часто встречающихся вида гистограмм.

6.3.1. Ячейки одинакового размера.

Разобьем пространство на взаимно непересекающиеся ячейки размеры которых одинаковы. Тогда плотность вероятности можно приближенно охарактеризовать числом объектов, попавших в каждую ячейку. Пример для одномерного случая показан на рис. 6.3.

Метод гистограмм не требует информации о распределении, и, если использовать регулярную сетку для построения ячеек то выбор нужной ячейки производится непосредственно.

Рис. 6.3. Гистограмма с одинаковыми ячейками.

Однако большим недостатком этого метода является то, что он требует слишком большой памяти: например, при наличии переменных и при М градациях по каждой переменной требуется ячеек. Поэтому большинство предлагавшихся модификаций этого метода имело своей целью уменьшение чисда ячеек.

6.3.2. Ячейки неодинакового размера.

Число ячеек можно уменьшить, используя ячейки неодинакового размера. Пример для одномерного случая показан на рис. 6.4.

Если известны число объектов в каждой ячейке, размер ячейки и ее местонахождение, то формулу (6.53) по-прежнему можно использовать в качестве оценки плотности вероятности. Для реализации этой идеи на практике нужен метод для определения числа объектов и размера каждой ячейки. Ниже приводится одно многих возможных решений [Себестиан, 1966].

1. Пусть имеется ячеек каждая из которых характеризуется координатами центра дисперсиями по каждой

из переменных и числом объектов, попавших внутрь ячейки При предъявлении нового объекта X вычисляется расстояние между X и центром каждой ячейки по формуле

Находится ближайшая ячейка, т. е. выбирается такое, что

Рис. 6.4. Гистограмма с неодинаковыми ячейками.

Тогда объект X классифицируется следующим образом:

В остальных случаях вопрос о принадлежности объекта X остается нерешенным.

Здесь и — свободные параметры, определяющие число ячеек и точность аппроксимации.

2. Когда новый объект попадает в ячейку, параметры ячейки пересчитываются следующим образом.

а) Увеличивается на единицу число объектов в ячейке. Пусть — новое число объектов.

б) Вычисляется новый вектор математического ожидания (новый центр ячейки):

в) Вычисляются новые дисперсии по формулам

и

Величина в (6.90) — дисперсия переменной в ячейке, подсчитанная по объектам. Величина первоначальное

заданное значение дисперсии. Только в том случае, когда превышает заменяется

3. Первый объект всегда становится центром новой ячейки. Второй объект классифицируется в соответствии с п. 1 и т. д. После того как все объекты расклассифицированы или среднее число объектов в ячейке достигает некоторого заданного значения, объекты, по которым не было принято решение, распределяются по ближайшим ячейкам, и параметры этих ячеек пересчитываются в соответствии с п. 2.

Свободные параметры можно подобрать путем повторения описанного выше процесса для одного и того же множества объектов.

<< Предыдущий параграф Следующий параграф >>
Оглавление