Главная > Интеллектуальные системы > Искусственный интеллект (Э. Хант)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

4.5.1. Статистическое группирование

Эта формулировка задачи группирования очень близка к статистической формулировке задачи распознавания образов. Наблюдения составляют множество X из экспериментальных точек с неизвестной принадлежностью классам. Предполагается, что процесс, с помощью которого получались наблюдения, был двухэтапным. На первом этапе выбирался один из классов, причем

класс выбирался с вероятностью классом связывалась известная функция плотности вероятности с неизвестным множеством параметров . (Например, если бы функция была нормальным распределением, то множество 0 могло бы содержать среднее и дисперсию для класса Затем в пространстве описаний с вероятностью выбиралась точка х. Задача группирования состоит в выборе значений для множеств которые лучше соответствуют данным X. Это естественная, хотя и трудная с вычислительной точки зрения задача статистической оценки. Хоел (1970) изложил математические аспекты задачи, а Купер (1969) рассмотрел их с машинной точки зрения. Вместо того чтобы заставлять читателя изучать эти весьма технические работы, мы приведем широко используемый пример вычислений, известный как минимизация по критерию хи-квадрат.

Пусть пространство описаний разбито на попарно непересекающихся областей Обозначим через число точек в X, попадающих в область Для любых фиксированных значений ожидаемое число наблюдений в области равно

Статистика хи-квадрат, которую предстоит минимизировать, равна

Задача решена, если найдены значения , минимизирующие (101). В некоторых задачах надо найти и значение Конкретный способ решения зависит от вида функций плотности вероятности Если повезет, то наилучшую оценку удается получить в замкнутой форме. В других случаях может понадобиться испробовать каким-то систематическим образом различные численные значения параметров. В некоторых задачах исчерпывающее перечисление параметров было неосуществимым даже с помощью очень большой ЭВМ. Гарнац и Хант (1973) показали, что в подобных случаях может оказаться достаточно точной для практических целей процедура графической оценки, выполняемой с помощью ЭВМ.

<< Предыдущий параграф Следующий параграф >>
Оглавление