💩

Лекции:

Наблюдение за случайной величиной

Мы наблюдаем за случайной величиной с функцией распределения . Мы проводим эксперимент раз и получаем значения . — некоторый параметр распределения (напр, в распределении Пуассона это )

Выборочные значения (варианты)

Так называют элементы выборки

Основное предположение статистики

Мы предполагаем, что в нашем эксперименте величины случайны, одинаково распределены и независимыми

Распределение выборки

Эмпирическая функция распределения

Пусть у нас есть некоторое распределение по выборке:

Тогда мы можем ввести эмпирическую функцию распределения , где — количество , — частота события

делает скачек на в каждой точке

При этом, само собой разумеется, могут совпадать между собой. В этом утверждении рассматривается то, что мы "берем каждый вариант по очереди". То есть, если существует 3 одинаковых , то и скачек будет равен соответственно

Тогда мы можем записать математическое ожидание и дисперсию

Для выборки они определяются следующим образом:
Выборочное математическое ожидание

Выборочная дисперсия (несмещенная оценка дисперсии)

Bruh

В ЧАЙ НАЛИВАЕМ МОЛОКО!!!!!!!!!!!!!!! БУДЕТ ПЕНКА!!!!!!!
Немцы ударили по Лондону СЛУЧАЙНО
По номерам танков нужно определить количество танков, которые выпустила Германия

Оценки

Оценка

Пусть — независимый параметр функции распределения . Тогда — оценка параметра

Несмещенная оценка параметра

Так называют оценку параметра если

Пусть — несмещенная оценка, . Тогда и
Пусть — функция распределения несмещённой оценки функции распределения . Тогда и

Лучшая оценка

−4−3−2−10123400.511.522.533.544.55xy

Это 2 графика (нормального) распределения с параметрами и . Их математические ожидания совпадают и равны . Но дисперсия больше (в 4 раза), из-за чего лучше использовать именно

Лучшая оценка

Это такая несмещенная оценка , которая обладает наименьшей дисперсией

, если ,
Состоятельная оценка параметра

Это такая оценка, при которой

— состоятельная оценка
— состоятельная оценка

Топ-2 полезных свойства



Таким образом, при больших ошибка стремится к

Метод максимального правдоподобия

Функция правдоподобия

Пусть дискретное распределение, — вероятность наблюдения . Тогда функцией правдоподобия называют:

В методе максимального правдоподобия мы ищем оценку из условия

Но поскольку мы ищем не сам , а конкретно , то можно использовать и находить локальный максимум с помощью условий и
Из монотонности следует как раз и то, что

, применим метод максимального правдоподобия

, тогда
Посему


Те, кто плохо пишет экзамен есть ОХЛОМОН!!!

Ну так, по-дружески

В анализе есть понятие окрестности

Это, если что , а не русская У, охломоны

Итак, переходим к следующему примеру!..

Биномиальное распределение

, по другому никак
Тогда функция правдоподобия будет иметь следующий вид:
, по другому ну вот точно никак прям!
Находим логарифм:

И, условия для максимума функции:
,

Дубровин

"Это придумал не я"

— абсолютно непрерывное распределение с плотностью

В этом случае исходная формула остается той же самой за исключением того, что произведение заменяется на интеграл:

Экспоненциальное распределение


Отсюда функция максимального правдоподобия:

,
, т.е. для

Нормальное распределение


И мы имеем:


И условия, сначала для , потом для :
Для :
,

И для :

Метод моментов

Момент порядка

Центральный момент порядка

Аналогично и для непрерывных случаев
Дубровин

"Это придумал Пирсон"

— экспоненциальное распределение

— нормальное

Доверительный интервал

Доверительная вероятность

Пусть . Тогда положим . Доверительной вероятностью тогда называют число

Доверительный интервал

— вероятность наблюдать параметр на интервале доверительном интервале

Рассмотрим пару примеров в случае с нормальным распределением:

, где неизвестно, а — известна

Построим доверительный интервал для :
В нашем случае , , а
Тогда наш доверительный интервал будет иметь вид
Мы знаем, что
Тогда в случае Из этого следует то, что у нашего доверительного интервала
Исходя из определения вероятности
https://dzen.ru/video/watch/60842bb67b54072a763e7fc7?share_to=link

§4. Доверительные интервалы

Note

Ранее мы рассмотрели точечные оценки и два метода их получения: метод максимального правдоподобия и метод моментов.
Точечная оценка сообщает некоторое значение неизвестного параметра, но не даёт информации о её точности. Ответ на этот вопрос дают интервальные оценки, или доверительные интервалы.

Интервальная оценка

Интервальная оценка — это оценка, определяемая двумя числами, концами интервала.
Такие оценки позволяют установить точность и надёжность оценивания.

Пусть — оценка параметра . Очевидно, чем меньше модуль отклонения, тем оценка точнее:

или

Пояснение

Параметр характеризует точность оценки.
Так как — случайная величина, то утверждение о точности можно дать с вероятностью :

Значения (надёжности, доверительной вероятности) обычно:
0.95, 0.99, 0.999.

Тогда:

Доверительным интервалом

называют интервал , который покрывает с вероятностью .

Замечание

, — случайные величины и называются доверительными границами.


Примеры

1. Доверительный интервал при известной

Условие

Пусть , — известна. Тогда:

Потребуем:

Пусть . Тогда:

Где — функция нормального распределения:

Находим из таблицы, затем:

Доверительный интервал:


2. Доверительный интервал при неизвестной

Теперь неизвестна, подставим несмещённую оценку :

Тогда:

Обозначим:

Величина

имеет распределение Стьюдента с степенями свободы.

Плотность распределения Стьюдента:
Свойство

— чётная функция.

Тогда:

Где:

Из (*):


Отсюда по таблице находим

И подставляем в интервал:

Ответ

Доверительный интервал:

покрывает с вероятностью

§5. Проверка статистических гипотез

Note

На практике часто возникает задача проверки предположений о типе распределения или параметрах случайной величины .

Статистическая гипотеза

Статистическая гипотеза — любое предположение о распределении или параметрах случайной величины .

  • Нулевая гипотеза (проверяемая)
  • Альтернативная гипотеза (противоположна )

Типы ошибок при проверке гипотез

Danger

Возможны два типа ошибок:

  1. Ошибка первого рода — отклонение , когда она верна.
  2. Ошибка второго рода — принятие , когда она ложна.
  • Вероятность ошибки первого рода: уровень значимости критерия
  • Вероятность ошибки второго рода:

Статистика критерия и правило проверки

Пусть — выборка случайной величины .
Проверка гипотезы осуществляется по статистике .

Критерий

Критерий определяется критической областью — областью значений , при которых гипотеза отвергается.

  • Остальная часть значений образует область принятия
  • В случае одномерной , критическая и область принятия — промежутки
  • Критическая точка кр — граница между ними

Виды критических областей

По направлению:
  • Правосторонняя: кркр
  • Левосторонняя: кркр
  • Двусторонняя: или

Определение кр

Пусть верна. Тогда:

  • Для правосторонней области:
кр
  • Для левосторонней области:
кр
  • Для двусторонней области:
Ошибка!

Если (наблюдаемое значение ) попадает в критическую область, то отвергается. Иначе — принимается.


Особый случай: симметричное распределение

Note

Если распределение симметрично относительно 0, то можно выбрать кр и кр.

Тогда:

кркр

Значит:

  • Двусторонняя область:
кротвергается

Success

Вывод: Вид критической области выбирается в зависимости от формулировки гипотез. Тип сравнения и направление неравенства задаются в задаче.

§6. Сравнение выборочной средней с теоретической средней нормального распределения

1 случай: — известна

Note

Пусть , математическое ожидание неизвестно, — известна.

Проверяем гипотезу:

Определим статистику критерия:

Критическая область: кр.
Пусть — вероятность ошибки первого рода:

кр

Так как :

кр

Тогда:

кр

Находим кр по таблице .
По выборке вычисляем

  • Если кр, то отвергается
  • Иначе принимается

2 случай:

Note

Теперь критическая область левосторонняя: кр

  • Статистика:
  • Условие:
    кр

Решение аналогично.
Находим кр по таблице .
Если кр, то отвергается.


3 случай:

Warning

Критическая область: двусторонняя

криликр

Условие:

кр

Из симметрии нормального распределения:

кр

Находим кр по таблице.
Если кр, отвергаем .


2 случай: неизвестна

Note

, — неизвестна
Тогда используем распределение Стьюдента

1.


Тогда:

кр

или

кр

По таблице находим кр, затем:

  • Если кр отвергается
  • Иначе — принимается

2.

Критическая область: кр
Точно так же:

кр

3.

Tip

Двусторонняя область: кр

кркр

Находим кр из условия:

кр
  • Если кр отвергается

Метод критического уровня значимости

Note

Пусть — наблюдаемое значение статистики.
Тогда:

кр
  • отвергается, если кр
Интерпретация:
Уровень значимости кр Интерпретация
кр Хорошее согласие с гипотезой
кр Нет оснований отвергать гипотезу
кр Слабо значимое расхождение
кр Значимое расхождение
кр Высоко значимое расхождение
Quote

Использование кр позволяет не вычислять обратно кр и принимать гибкие решения.

§7. Проверка гипотезы о типе распределения

Note

Требуется проверить гипотезу о том, что функция распределения наблюдаемой случайной величины принадлежит заданному семейству распределений (например, нормальному, экспоненциальному и т.д.)

Критерий согласия χ² (хи-квадрат)

Tip

Для проверки такой гипотезы используется критерий согласия χ². Ниже — пошаговая процедура.


Этапы проверки

  1. Выдвигается гипотеза
    : , где — предполагаемое распределение.

  2. Разбиение области значений
    Интервал значений случайной величины разбивается на непересекающихся промежутков:

  3. Подсчёт частот
    По выборке считаем количество попаданий в каждый из интервалов.

  4. Расчёт теоретических вероятностей попадания
    Для каждого интервала вычисляем:

    Замечание

    Предполагается, что параметры распределения известны.

  5. Вычисление статистики критерия χ²:

    Это измеряет расхождение между наблюдаемыми частотами и теоретическими частотами .


Проверка гипотезы

Note

Используется критическое значение кр — табличное значение статистики χ² при уровне значимости и степенях свободы.

  • Пусть — фактически вычисленное значение критерия
  • Тогда:
    Есликртоотвергается
Статистика критического уровня:
кр

где — функция распределения χ² с степенями свободы.


Success

Таким образом, чем больше расхождение между и , тем больше значение χ² и тем меньше вероятность принадлежности к распределению .

§8. Проверка гипотезы о равенстве средних значений


📌 1 случай. Известные дисперсии, нормальное распределение

Note

Пусть и , причём — известны.
Даны две независимые выборки:

и

Нулевая гипотеза:

Критерий:

Используется статистика:

  • При :
Warning

При — критическая область двусторонняя:

криликр
  • Тогда:

    кр
  • Уровень значимости:

    кркр
Success

Если кр, то отвергается
Иначе принимается


📌 2 случай. Произвольные распределения, большие выборки ()

Note

Предполагается, что и — произвольные распределения.
Но выборочные средние — приблизительно нормальны по ЦПТ.

Используем статистику:

Где и — выборочные дисперсии:

По ЦПТ

при больших и

Success

Дальнейшее решение полностью аналогично случаю с известными дисперсиями.


📌 3 случай. Малые выборки, нормальное распределение, неизвестные одинаковые дисперсии

Note

Пусть выборки и — из нормальных распределений,
(неизвестно, но предполагается одинаковым)

Нулевая гипотеза:

Альтернативная:

Используем t-критерий Стьюдента:

или в более красивом виде:

Note

При :

Пусть — наблюдаемое значение статистики.
Критический уровень значимости:

кр

Где — функция распределения Стьюдента с .


Success

Если кр, то отвергается
Иначе принимается

Quote

Различие между и статистически значимо при уровне значимости .

§9. Проверка гипотезы о значимости выборочного коэффициента корреляции


🧠 Введение

Note

Прежде всего определим понятие двумерного нормального распределения (на плоскости).

Двумерное нормальное распределение

Это распределение вероятностей двумерной случайной величины с плотностью распределения:

где
, ,
, ,
— коэффициент корреляции между и .


📌 Независимость и некоррелированность

Tip

Если , то и некоррелированы.

Подставляя в формулу:

Это выражение можно представить как произведение двух одномерных нормальных распределений:

Success

Следовательно, для двумерной нормальной случайной величины:


🧪 Проверка гипотезы

Пусть имеется выборка из двумерного нормального распределения.
Выдвигаем гипотезу:

  • Нулевая:
  • Альтернативная:
Tip

На основе выборки вычисляем выборочный коэффициент корреляции:

где:

Альтернативная формула:


📊 Статистика критерия

Note

Пусть , но это может быть случайно.
Проверим значимость при уровне .

Строим статистику:


📐 Распределение статистики

Important

При статистика имеет распределение Стьюдента с степенями свободы.

Критическая область: двусторонняя
(так как ):

Из симметрии:

кркргдекр

💥 Принятие решения

  • Вычисляем — значение по данным
  • Находим кр по таблице Стьюдента
  • Если кр, то отвергается
Success

Также можно использовать уровень значимости:

кр
  • Если кр — отвергаем
  • Иначе — принимаем

Quote

Если выборочная корреляция значима, то переменные и зависимы.
Если нет — зависимость статистически не подтверждается.

§10. Проверка нормальности с помощью выборочных коэффициентов асимметрии и эксцесса


🧠 Идея метода

Note

Для нормального распределения справедливы следующие равенства:

  • Асимметрия:

  • Эксцесс:

Если или , то это может свидетельствовать о нарушении нормальности.


📊 Выборочный коэффициент асимметрии

По выборке вычисляется:

где
Tip

состоятельная и смещённая оценка

  • Если "далеко от 0" ⇒ возможное отклонение от нормальности.
Warning

При и гипотеза нормальности отвергается, если:


💥 Выборочный коэффициент эксцесса

Note

Проверка на "островершинность" или "плосковершинность".

Формула:

Tip

— приближённая оценка

Danger

При и гипотеза нормальности отвергается, если:


Quote

Отклонения и от нуля при больших — статистическое основание считать распределение ненормальным.