Главная > Интеллектуальные системы > Введение в статистическую теорию распознавания образов
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Глава 6. ОЦЕНИВАНИЕ ПЛОТНОСТИ ВЕРОЯТНОСТИ

До сих пор мы рассматривали задачу оценивания параметров. Так, например, если можно предположить, что плотность вероятности определенным образом зависит от параметров, то можно построить классификатор, используя оценки этих параметров.

К сожалению, вид плотности вероятности часто заранее неизвестен, и для того чтобы применить критерий отношения правдоподобия, мы должны как-то оценить плотность вероятдостц, не зная ее структуру. В этом случае говорят о непараметрическом оценивании, в то время как прежний подход называют параметрическим оцениванием. Поскольку число параметров при параметрическом оценивании обычно гораздо меньше, чем число объектов в выборке, непараметрические методы оценивания более сложны, чем параметрические.

Непараметрическое оценивание плотности вероятности означает, по существу, оценивание функции нескольких переменных. Соответствующие методы могут использоваться даже тогда, когда полностью отсутствует априорная информация о плотности вероятности. Однако в тех случаях, когда такая информация имеется, рекомендуется с самого начала приписать оцениваемой плотности вероятности подходящий вид. Например, если каким-то образом установлено, что данные сгруппированы около нескольких мод, то можно постулировать, что плотность вероятности представляет собой взвешенную сумму нормальных плотностей вероятности.

Таким образом, непараметрические методы, представленные в этой главе, лучше работают в тех случаях, когда имеется мало информации о плотности вероятности.

§ 6.1. Оценка Парзена

6.1.1. Класс оценок плотности вероятности.

Для простоты рассмотрим сначала оценивание одномерной плотности вероятности [Парзен, 1962]. Многомерный случай можно рассмотреть аналогичным образом, и это будет сделано ниже.

Пусть независимые и одинаково распределенные наблюдения некоторой случайной величины. Оценку функции распределения вероятностей легко получить следующим образом:

Выражение является дискретной случайной величиной, имеющей биномиальное распределение

где - истинная функция распределения вероятностей случайной величины х. Как было показано в (5.121), выражение (6.1) является оценкой максимального правдоподобия функции распределения вероятностей

Математическое ожидание и дисперсия оценки определяются следующим образом:

Следовательно, является несмещенной оценкой.

Оценка плотности вероятности не может быть получена столь же легко. Поскольку плотность вероятности определяется обычно как производная от функции распределевия вероятностей, то ее оценку можно записать следующим образом:

где — некоторое положительное число. Неясно, одпако, каким именно должно быть это число в каждом конкретном случае. Очевидно, что число должно быть функцией числа наблюдепий, причем должно стремиться к , когда Устремится к Но как быстро функция должна стремиться к ? Для того чтобы ответить на этот вопрос, необходимо исследовать статистические свойства оценки (6.5).

Равенство (6.5) можно переписать следующим образом:

где

Заметим, что оценка (6.5) представляет собой частный случай оценки (6.6), при которой определяется формулой (6.7); для того чтобы связать оценку с оценкой можно было бы выбрать и другую зависимость Таким образом, мы приходим к более общей задаче — задаче выбора функции и числа . Величину будем называть ядром оценки.

Оценка (6.6) является асимптотически несмещенной и состоятельной, если функция и число удовлетворяют следующим условиям (доказательство будет приведено ниже).

1. Условия для

2. Условия для

Существует много ядер, удовлетворяющих условиям (6.8) — (6.11). Примеры таких ядер приведены в табл. 6.1. На рис. 6.1 показан результат оценивапия плотности вероятности с использованием нормального ядра.

<< Предыдущий параграф Следующий параграф >>
Оглавление