Домой Медицина  Бутстреп, малые выборки, применение в анализе данных. Малые выборки Линейная статистика малых выборок

Бутстреп, малые выборки, применение в анализе данных. Малые выборки Линейная статистика малых выборок

При изучении изменчивости выделяют признаки количественные и качественные, изучением которых занимается вариационная статистика в основе которой лежит теория вероятности. Вероятность указывает возможную частоту встречи особи с тем или иным признаком. P=m/n, где m-число особей с данной величиной признака; n-число всех особей в группе. Вероятность колеблется от 0 до 1 (например вероятность равна 0,02- появление двойни в стаде, т.е. значит на 100 отёлов появится две двойни). Таким образом объектом изучения биометрии является варьирующий признак, изучение которого осуществляется на определённой группе объектов т.е. совокупности. Различают генеральную и выборочную совокупность. Генеральная совокупность это многочисленная группа особей, которая нас интересует по изучаемому признаку. В генеральную совокупность может входить вид животных, породы одного и того же вида. В генеральную совокупность (породу) входит несколько миллионов животных. В тоже время порода расходится на много совокупностей т.е. стада отдельных хозяйств. Так как генеральная совокупность состоит из большого числа особей, то изучить её технически сложно. Поэтому изучают не всю генеральную совокупность, а только её часть, которая называется выборной или выборочной совокупностью .

По выборочной совокупности делают суждение о всей генеральной совокупности в целом. Выборка должна осуществляться по всем правилам, куда должны входить особи со всеми значениями варьирующего признака. Отбор особей из генеральной совокупности осуществляется по принципу случайности или методом жеребьёвки. В биометрии выделяют два типа случайной выборки: большая и малая. Большой выборкой называют такую, куда входит больше 30 особей или наблюдений, а малой выборкой меньше 30 особей. Для большой и малой выборочной совокупности существуют различные методы обработки данных. Источником статистической информации могут служить данные зоотехнического и ветеринарного учёта, где даётся информация о каждом животном от рождения до его выбытия. Другим источником информации могут служить данные научно-производственных опытов, проводимые на ограниченном числе животных. После того как получена выборочная совокупность приступают к её обработке. Это позволяет получить в виде математических величин ряд статистических величин или коэффициентов, которые характеризуют признаки интересующих групп животных.

Биометрическим методом получают следующие статистические параметры или показатели:

1. Средние величины варьирующего признака (средняя арифметическая величина, мода, медиана, средняя геометрическая величина).

2. Коэффициенты, измеряющие величину варьирования т.е. (изменчивости) изучаемого признака (среднее квадратическое отклонение, коэффициент вариации).

3. Коэффициенты, измеряющие величину связи между признаками (коэффициент корреляции, регрессии и корреляционное отношение).

4. Статистические ошибки и достоверность получаемых статистических данных.

5. Долю варьирования возникающая под действием различных факторов и другие показатели, которые связаны с изучением генетических и селекционных проблем.

При статистической обработке выборки члены совокупности организуются в виде вариационного ряда. Вариационным рядом называется группировка особей на классы в зависимости от величины изучаемого признака. Вариационный ряд состоит из двух элементов: из классов и ряда частот. Вариационный ряд может быть прерывистым и непрерывным. Признаки, которые могут принимать только целое число называют прерывистым числом голов, число яиц, число поросят и другие. Признаки, которые могут выражаться дробными числами называются непрерывистыми (рост см, удой кг, % жира, живая масса и другие).

При построении вариационного ряда придерживаются следующих принципов или правил:

1. Определяют или подсчитывают количество особей для которых будет построен вариационный ряд (n).

2. Находят мах и min величину изучаемого признака.

3. Определяют классный промежуток К=мах - min/ к-во классов, количество классов берётся произвольно.

4. Строят классы и определяют границу каждого класса, min+К.

5. Делают разноску членов совокупности по классам.

После построения классов и распределения особей по классам вычисляют основные показатели вариационного ряда (Х, σ, Cv, Mх, Мσ, Мcv). Наибольшее значение при характеристике совокупности получила средняя величина признака. При решении всех зоотехнических, ветеринарных, медицинских, экономических и других задач всегда определяют среднюю величину признака (средний удой по стаду, % жира, плодовитость в свиноводстве, яйценоскость у кур и другие признаки). В число параметров, характеризующих среднее значение признака входят следующие:

1. Средняя арифметическая величина.

2. Средне взвешенная арифметическая.

3. Средняя геометрическая.

4. Мода (Мо).

5. Медиана (Ме) и другие параметры.

Средняя арифметическая величина показывает нам какую величину признаков имели особи данной группы, если он был одинаков для всех, и определяется по формуле Х=А+в× К

Основным свойством средней арифметической величины является то, что она как бы устраняет варьирование признака и делает его общим для всей совокупности. В тоже время необходимо отметить, что средняя арифметическая величина принимает абстрактное значение, т.е. при её вычислении получают дробные показатели, в действительности которых может и не быть. Например: выход телят на 100 коров-85,3 телёнка, плодовитость свиноматок 11,8 поросят, яйценоскость кур 252,4 яйца и другие показатели.

Значение средней арифметической величины очень велико в практике животноводства и характеристики популяции. В практике животноводства в частности скотоводства используют средне взвешенную арифметическую величину при определении среднего содержания жира в молоке за лактацию.

Средняя геометрическая величина вычисляется в том случае, если необходимо характеризовать темп роста, темп увеличения популяции, когда средняя арифметическая величина искажает данные.

Модой называют чаще всего встречающуюся величину варьирующего признака, как количественного, так и качественного. Модальным числом у коровы является число сосков-4. Хотя встречаются коровы с пятью, шестью сосками. В вариационном ряду модальным классом будет тот класс, где имеется наибольшее количество частот и мы его определяем как нулевой класс.

Медианой называется варианта, которая делит всех членов совокупности на две равные части. Половина членов совокупности будет иметь величину варьирующего признака меньше медианы, а другая больше медианы (например: стандарт породы). Медиана чаще всего используется для характеристики качественных признаков. Например: форма вымени чашеобразная, округлая, козье. При правильной выборке вариант все три показателя должны быть одинаковы (т.е. Х, Мо, Ме). Таким образом первой характеристикой совокупности служат средние величины, однако для суждения о совокупности их недостаточно.

Вторым важным показателем любой совокупности является изменчивость или вариабильность признака. Изменчивость признака обуславливается многими факторами внешней среды и внутренними факторами т.е. наследственными факторами.

Определение изменчивости признака имеет большое значение, как в биологии, так и в практике животноводства. Так с помощью статистических параметров измеряющих степень изменчивости признака можно установить породные различия в степени изменчивости различных хозяйственно-полезных признаков, прогнозировать уровень отбора в различных группах животных, а также его эффективность.

Современное состояние статистического анализа позволяет не только устанавливать степень проявления фенотипической изменчивости, но и разделить фенотипическую изменчивость на составляющие её типы, а именно на генотипическую и паратипическую изменчивость. Это разложение изменчивости делается с помощью дисперсионного анализа.

Основными показателями изменчивости служат следующие статистические величины:

1. Лимиты;

2. Среднее квадратическое отклонение (σ);

3. Коэффициент изменчивости или вариации (Сv).

Наиболее простой способ представить величину изменчивости признака помогают нам лимиты. Лимиты определяются следующим образом: разница между мах и min значением признака. Чем больше эта разница, тем больше изменчивость этого признака. Основным параметром измерения изменчивости признака служит среднее квадратическое отклонение или (σ) и определяется по формуле:

σ = ±К ∙ √∑Pa 2 - b 2

Основными свойствами среднего квадратического отклонения т.е. (σ) являются следующие:

1. Сигма всегда величина именованная и выражается (в кг, г, метрах, см, шт.).

2. Сигма всегда величина положительная.

3. Чем больше величина σ, тем больше изменчивость признака.

4. В вариационном ряду все частоты вкладываются в ±3σ.

С помощью среднего квадратического отклонения можно определить к какому вариационному ряду относится данная особь. Методы определения изменчивости признака с помощью лимитов и среднего квадратического отклонения имеют свои недостатки, так как сопоставить разноимённые признаки по величине изменчивости невозможно. Необходимо знать изменчивость разных признаков у одного и того же животного или одной и той же группы животных, например: изменчивость удоя, содержания жира в молоке, живой массы, количества молочного жира. Поэтому сопоставляя изменчивость разноимённых признаков и выявляя степень их изменчивости рассчитывают коэффициент изменчивости по следующей формуле:

Таким образом, основными методами оценки изменчивости признаков у членов совокупности являются: лимиты; среднее квадратическое отклонение (σ) и коэффициент вариации или изменчивости.

В практике животноводства и экспериментальных исследованиях очень часто приходится иметь дело с малыми выборками. Малой выборкой называют число особей или животных не превышающее 30 или меньше 30. Установленные закономерности с помощью малой выборки переносятся на всю генеральную совокупность. У малой выборки определяют те же самые статистические параметры, что и у большой выборочной совокупности (Х, σ, Cv, Mx). Однако формулы и расчёты их отличаются от большой выборки (т.е. от формул и расчётов вариационного ряда).

1. Средняя арифметическая величина Х = ∑V

V- абсолютное значение варианты или признака;

n- число вариант или число особей.

2. Среднее квадратическое отклонение σ = ± √∑α 2

α = х-¯х, это разность между значением варианты и средней арифметической величиной. Эту разность α возводят в квадрат и получают α 2 n-1 число степеней свободы, т.е. количество всех вариант или особей уменьшенное на единицу (1).

Контрольные вопросы :

1.Что такое биометрия?

2.Какие статистические параметры характеризуют совокупность?

3.Какие показатели характеризуют изменчивость?

4.Что такое малая выборка

5. Что такое мода и медиана?

Лекция № 12

Биотехнология и трансплантация эмбрионов

1. Понятие о биотехнологии.

2. Отбор коров- доноров и реципиентов, трансплантация эмбрионов.

3. Значение трансплантации в животноводстве.

  • 6. Виды статистических группировок, их познавательное значение.
  • 7.Статистические таблицы: виды, правила построения, приемы чтения
  • 8.Абсолютные величины: виды, познавательное значение. Условия научного использования абсолютных и относительных показателей.
  • 9. Средние величины: содержание, типы, виды, научные условия применения.
  • 11.Свойства дисперсии. Правило сложения (разложения) дисперсии и его использование в статистическом анализе.
  • 12.Виды статистических графиков по содержанию решаемых задач и способам построения.
  • 13. Ряды динамики: виды, показатели анализа.
  • 14. Методы выявления тенденции в динамических рядах.
  • 15. Индексы: определение, основные элементы индексов, задачи, решаемые при помощи индексов, система индексов в статистике.
  • 16. Правила построения динамических и территориальных индексов.
  • 17. Основы теории выборочного метода.
  • 18. Теория малых выборок.
  • 19. Способы отбора единиц в выборочную совокупность.
  • 20.Виды связей, статистические методы анализа взаимосвязей, понятие корреляции.
  • 21.Содержание корреляционного анализа, корреляционные модели.
  • 22.Оценка силы (тесноты) корреляционной связи.
  • 23. Система показателей социально-экономической статистики.
  • 24. Основные группировки и классификации в социально-экономической статистике.
  • 25. Национальное богатство: содержание категории и состав.
  • 26. Содержание земельного кадастра. Показатели состава земель по формам собственности, целевому назначению и видам угодий.
  • 27. Классификация основных фондов, способы оценки и переоценки, показатели движения, состояния и использования.
  • 28. Задачи статистики труда. Понятие и содержание основных категорий рынка труда.
  • 29. Статистика использования рабочей силы и рабочего времени.
  • 30. Показатели производительности труда и методы анализа.
  • 31. Показатели производства продукции растениеводства и урожайности с.-х. Культур и угодий.
  • 32.Показатели производства продукции животноводства и продуктивности сельскохозяйственных животных.
  • 33.Статистика общественных затрат и себестоимости продукции.
  • 34.Статистика оплаты труда и расходов на рабочую силу.
  • 35.Статистика валовой продукции и доходов.
  • 36.Показатели движения и реализации продукции сельского хозяйства.
  • 37.Задачи статистического анализа сельскохозяйственных предприятий.
  • 38.Статистика цен и товаров отраслей народного хозяйства: задачи и методы анализа.
  • 39.Статистика рынка товаров и услуг.
  • 40.Статистика показателей общественного производства.
  • 41.Статистический анализ цен потребительского рынка.
  • 42.Статистика инфляции и основные показатели ее оценки.
  • 43.Задачи статистики финансов предприятий.
  • 44.Основные показатели финансовых результатов предприятий.
  • 45.Задачи статистики государственного бюджета.
  • 46. Система показателей статистики государственного бюджета.
  • 47. Система показателей статистики денежного обращения.
  • 48. Статистика состава и структуры денежной массы в стране.
  • 49. Основные задачи банковской статистики.
  • 50.Основные показатели банковской статистики.
  • 51.Понятие и классификация кредита. Задачи его статистического изучения.
  • 52.Система показателей статистики кредита.
  • 53.Основные показатели и методы анализа сберегательного дела.
  • 54.Задачи статистики фондового рынка и ценных бумаг.
  • 56.Статистика товарных бирж: задачи и система показателей.
  • 57.Система национальных счетов: понятия, основные категории и классификация.
  • 58.Основные принципы построения снс.
  • 59.Основные макроэкономические показатели – содержание, методы определения.
  • 60.Межотраслевой баланс: понятия, задачи, виды моб.
  • 62.Статистика доходов и расходов населения
  • 18. Теория малых выборок.

    При большом числе единиц выборочной совокупности (n >100) распределение случайных ошибок выборочной средней в соответствии с теоремой А.М.Ляпунова нормально или приближается к нормальному по мере увеличения числа наблюдений.

    Однако в практике статистического исследования в условиях рыночной экономики все чаще приходится сталкиваться с малыми выборками.

    Малой выборкой называется такое выборочное наблюдение, численность единиц которого не превышает 30.

    При оценке результатов малой выборки величина генеральной совокупности не используется. Для определения возможных пределов ошибки пользуются критерием Стьюдента.

    Величина σ вычисляется на основе данных выборочного наблюдения.

    Данная величина используется лишь для исследуемой совокупности, а не в качестве приближенной оценки σ в генеральной совокупности.

    Вероятностная оценка результатов малой выборки отличается от оценки в большой выборке тем, что при малом числе наблюдений распределение вероятностей для средней зависит от числа отобранных единиц.

    Однако для малой выборки величина коэффициента доверия t по другому связана с вероятностной оценкой, чем при большой выборке (так как, закон распределения отличается от нормального).

    Согласно установленному Стьюдентом закону распределения, вероятная ошибка распределения зависит как от величины коэффициента доверия t , так и от объема выборки В.

    Средняя ошибка малой выборки вычисляется по формуле:

    где - дисперсия малой выборки.

    В МВ коэффициент n/(n-1) нужно брать во внимание и обязательно корректировать. При определении дисперсии S2 число степеней свободы равно:

    .

    Предельная ошибка малой выборки определяется по формуле

    При этом значение коэффициента доверия t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по специальным таблицам Стьюдента, в которых даны распределения стандартизированных отклонений:

    Вероятностная оценка результатов МВ отличается от оценки в БВ тем что при малом числе наблюдений распределение вероятностей для средней зависит от числа отобранных единиц

    19. Способы отбора единиц в выборочную совокупность.

    1. Выборочная совокупность должна быть достаточно большой по численности.

    2. Структура выборочной совокупности должна наилучшим образом отражать структуру гнеральной совокупности

    3. Способ отбора должен быть случайным

    В зависимости от того участвуют ли отобранные единицы в выборке различают метод - бесповторный и повторный.

    Бесповторным называется такой отбор, при котором попавшая в выборку единица не возвращается в совокупность, из которой осуществляется дальнейший отбор.

    Расчет средней ошибки бесповторной случайной выборки:

    Расчет предельной ошибки бесповторной случайной выборки:

    При повторном отборе попавшая в выборку единица после регистрации наблюдаемых признаков возвращается в исходную (генеральную) совокупность для участия в дальнейшей процедуре отбора.

    Расчет средней ошибки повторной простой случайной выборки производится следующим образом:

    Расчет предельной ошибки повторной случайной выборки:

    Вид формирования выборочной совокупности подразделяется на - индивидуальный, групповой и комбинированный.

    Способ отбора – определяет конкретный механизм выборки единиц из генеральной совокупности и подразделяется на: собственно – случайный; механический; типический; серийный; комбинированный.

    Собственно – случайный наиболее распространенный способ отбора в случайной выборке, его еще называют методом жеребьевки, при нем на каждую единицу статистической совокупности заготовляется билет с порядковым номером. Далее в случайном порядке отбирается необходимое количество единиц статистической совокупности. При этих условиях каждая из них имеет одинаковую вероятность попасть в выборку.

    Механическая выборка . Применяется в тех случаях, когда генеральная совокупность каким – либо образом упорядочена т. е. имеется определенная последовательность в расположении единиц.

    Для определения средней ошибки механической выборки используется формула средней ошибки при собственно – случайном бесповторном отборе.

    Типический отбор . Используется когда все единицы генеральной совокупности можно разбить на несколько типических групп. Типический отбор предполагает выборку единиц из каждой группы собственно – случайным или механическим способом.

    Для типической выборки величина стандартной ошибки зависит от точности определения групповых средних. Так, в формуле предельной ошибки типической выборки учитывается средняя из групповых дисперсий, т.е.

    Серийный отбор . Применяется в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. Сущность серийной выборки заключается в собственно случайном либо механическом отборе серий, внутри которых производится сплошное обследование единиц.

    При серийной выборке величина ошибки выборки зависит не от числа исследуемых единиц, а от числа обследованных серий (s) и от величины межгрупповой дисперсии:

    Комбинированный отбор может проходить одну или несколько ступеней. Выборка называется одноступенчатой, если отобранные однажды единицы совокупности подвергаются изучению.

    Выборка называется многоступенчатой , если отбор совокупности проходит по ступеням, последовательным стадиям, причем каждая ступень, стадия отбора имеет свою единицу отбора.

    "

    Метод малых выборок имеет ряд преимуществ перед методом больших выборок. Основными преимуществами его являются, во-первых, уменьшение объема вычислительных работ, во-вторых, возможность следить за динамикой изменения точности процесса во времени, чего нельзя сделать с помощью метода больших выборок. Метод больших выборок может дать представление лишь о точности и устойчивости процесса в период взятия выборки, которые могут сохраниться и в дальнейшем, если после взятия выборки условия протекания процесса не изменяются. В действительности такой неизменности производственных условий заранее предвидеть нельзя. Например, при работе на прутковом автомате в течение смены производится несколько раз замена материала (смена прутка), смена инструмента в связи с износом, поднастройка станка и т.д., которые могут вносить значительные коррективы в полученные ранее параметры распределения. Метод малых выборок, если последние берут в течение всей смены регулярно через определенные промежутки времени, позволяет получить полную картину состояния процесса в течение исследуемого периода, выяснить степень его устойчивости, а также выявить причины недостаточной устойчивости процесса во времени, если она есть.

    Статистический анализ малыми выборками производится следующим образом. Выборки объемом n = 5-10 шт. берутся через определенные фиксированные промежутки времени (например, через 15-30 мин). Период времени для отбора проб устанавливается опытным путем и зависит от производительности станка, объема выборки и степени устойчивости технологического процесса. Для каждой выборки нужно вычислить и S . Далее необходимо для каждых двух смежных выборок проверить гипотезу однородности дисперсий выборок при помощи F - критерия Фишера.

    Если гипотеза подтверждается, то это свидетельствует о стабильности рассеивания или о том, что сравниваемые выборки взяты из одной и той же генеральной совокупности. При подтверждении гипотезы однородности дисперсий двух выборок следует проверить гипотезу однородности двух выборочных средних по t -критерию Стьюдента.

    Подтверждение гипотезы равенства двух смежных выборочных средних означает, что центр настройки оборудования не изменится в момент взятия данной выборки и остался таким, каким был при взятии предыдущей выборки, т.е. процесс находится в стабильном состоянии. Когда гипотеза равенства двух средних выборок не подтверждается, это свидетельствует о смещении центра настройки станка во время взятия данной выборки. Так как выборки берутся через определенные промежутки времени, то при обнаружении смещения центра настройки или изменения зоны рассеивания можно определить период времени, через который наступило нарушение стабильности процесса.

    Обнаружив факт нарушения стабильности процесса, можно установить и область, в которой следует искать причину этого явления. Неоднородность выборочных дисперсий, свидетельствующая о нестабильности рассеивания, указывает на то, что причину этого следует искать в станке или в механических свойствах обрабатываемого материала. Неоднородность выборочных средних говорит о смещении центра настройки (причину искать в инструменте).

    Таким образом, беря в течение смены через определенные интервалы времени малые выборки из текущей продукции станка, вычислены средние и дисперсии выборок путем сравнения и оценки их расхождения при помощи F и t- критериев, можно установить моменты разладок процесса и даже источники этих разладок.

    Статистика малых выборок (small-sample statistics)

    Принято считать, что начало С. м. в. или, как ее часто называют, статистике «малых п», было положено в первом десятилетии XX века публикацией работы У. Госсета, в к-рой он поместил t-распределение, постулированное получившим чуть позже мировую известность «студентом». В то время Госсет работал статистиком на пивоваренных заводах Гиннесса. Одна из его обязанностей заключалась в том, чтобы анализировать поступающие друг за другом партии бочонков только что сваренного портера. По причине, к-рую он никогда толком не объяснял, Госсет экспериментировал с идеей существенного сокращения числа проб, отбираемых из очень большого количества бочек, находящихся на складах пивоварни, для выборочного контроля качества портера. Это и привело его к постулированию t-распределения. Так как устав пивоваренных заводов Гиннесса запрещал публикацию их работниками результатов исслед., Госсет опубликовал результаты своего эксперимента по сравнению выборочного контроля качества с использованием t-распределения для малых выборок и традиционного z-распределения (нормального распределения) анонимно, под псевдонимом «Студент» (Student - откуда и пошло название t -распределение Стьюдента).

    t-распределение. Теория t-распределения, подобно теории z-распределения, используется для проверки нулевой гипотезы о том, что две выборки представляют собой просто случайные выборки из одной генеральной совокупности и, следовательно, вычисленные статистики (напр., среднее и стандартное отклонение) яв-ся несмещенными оценками параметров генеральной совокупности. Однако, в отличие от теории нормального распределения, теория t-распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности. Более того, хотя проверка различия между средними двух больших выборок на статистическую значимость требует принципиального допущения о нормальном распределении характеристик генеральной совокупности, теория t-распределения не требует допущений относительно параметров.

    Общеизвестно, что нормально распределенные характеристики описываются одной единственной кривой - кривой Гаусса, к-рая удовлетворяет следующему уравнению:

    При t-распределении целое семейство кривых представлено следующей формулой:

    Вот почему уравнение для t включает гамма-функцию, которая в математике означает, что при изменении п данному уравнению будет удовлетворять другая кривая.

    Степени свободы

    В уравнении для t буквой п обозначается число степеней свободы (df), сопряженных с оценкой дисперсии генеральной совокупности (S2), к-рая представляет собой второй момент любой производящей функции моментов, такой, напр., как уравнение для t-распределения. В С. число степеней свободы указывает на то, сколько характеристик осталось свободным после их частичного использования в конкретном виде анализа. В t-распределении одно из отклонений от выборочного среднего всегда фиксировано, так как сумма всех таких отклонений должна равняться нулю. Это сказывается на сумме квадратов при вычислении выборочной дисперсии как несмещенной оценки параметра S2 и ведет к тому, что df получается равным числу измерений минус единица для каждой выборки. Отсюда, в формулах и процедурах вычисления t-статистики для проверки нулевой гипотезы df = n - 2.

    F-pacnpeделение. Проверяемая с помощью t-критерия нулевая гипотеза состоит в том, что две выборки были случайным образом извлечены из одной генеральной совокупности или же были случайно извлечены из двух разных совокупностей с одинаковой дисперсией. А что делать, если нужно провести анализ большего числа групп? Ответ на этот вопрос искали в течение двадцати лет после того, как Госсет открыл t-распределение. Два самых выдающихся статистика XX столетия непосредственно причастны к его получению. Один - крупнейший английский статистик Р. А. Фишер, предложивший первые теорет. формулировки, развитие к-рых привело к получению F-распределения; его работы по теории малых выборок, развивающие идеи Госсета, были опубликованы в середине 20-х годов (Fisher, 1925). Другой - Джордж Снедекор, один из плеяды первых американских статистиков, разработавший способ сравнения двух независимых выборок любого объема посредством вычисления отношения двух оценок дисперсии. Он назвал это отношение F-отношением, в честь Фишера. Результаты исслед. Снедекора привели к тому, что F-распределение стало задаваться как распределение отношения двух статистик с2, каждой со своими степенями свободы:

    Из этого вышли классические работы Фишера по дисперсионному анализу - статистическому методу, явно ориентированному на анализ малых выборок.

    Выборочное распределение F (где п = df) представлено следующим уравнением:

    Как и в случае t-распределения, гамма-функция указывает на то, что существует семейство распределений, удовлетворяющих уравнению для F. В этом случае, однако, анализ включает два величины df: число степеней свободы для числителя и для знаменателя F-отношения.

    Таблицы для оценивания t- и F-статистик. При проверке нулевой гипотезы с помощью С., основанных на теории больших выборок, обычно требуется только одна справочная таблица - таблица нормальных отклонений (z), позволяющая определить площадь под нормальной кривой между любыми двумя значениями z на оси абсцисс. Однако таблицы для t- и F-распределений по необходимости представлены комплектом таблиц, поскольку эти таблицы основаны на множестве распределений, полученных вследствие варьирования числа степеней свободы. Хотя t- и F-распределения представляют собой распределения плотности вероятности, как и нормальное распределение для больших выборок, они отличаются от последнего в отношении четырех моментов, используемых для их описания. t-распределение, напр., является симметричным (обратите внимание на t2 в его уравнении) при всех df, но становится все более островершинным по мере уменьшения объема выборки. Островершинные кривые (с эксцессом больше нормального) имеют тенденцию быть менее асимптотическими (т. е. меньше приближаться к оси абсцисс на концах распределения), чем кривые с нормальным эксцессом, такие как кривая Гаусса. Это различие приводит к заметным расхождениям между точками на оси абсцисс, соответствующими значениям t и z. При df = 5 и двустороннем уровне а, равном 0,05, t = 2,57, тогда как соответствующее z = 1,96. Следовательно, t = 2,57 свидетельствует о статистической значимости на 5% уровне. Однако в случае нормальной кривой z = 2,57 (точнее 2,58) будет уже указывать на 1% уровень статистической значимости. Аналогичные сравнения можно провести и с F-распределением, поскольку t равно F в случае, когда число выборок равно двум.

    Что составляет «малую» выборку?

    В свое время был поднят вопрос о том, какой объем должна иметь выборка, чтобы ее можно было считать малой. Определенного ответа на этот вопрос просто не существует. Однако условной границей между малой и большой выборкой принято считать df = 30. Основанием для этого в какой-то мере произвольного решения служит результат сравнения t-распределения с нормальным распределением. Как уже отмечалось выше, расхождение значений t и z имеет тенденцию возрастать с уменьшением и снижаться с увеличением df. Фактически, t начинает тесно приближаться к z задолго до предельного случая, когда t = z при df = ∞. Простое визуальное изучение табличных значений t позволяет увидеть, что это приближение становиться довольно быстрым, начиная с df = 30 и выше. Сравнительные величины t (при df = 30) и z равны соответственно: 2,04 и 1,96 для р = 0,05; 2,75 и 2,58 для р = 0,01; 3,65 и 3,29 для р = 0,001.

    Другие статистики для «малых» выборок

    Хотя такие статистические критерии, как t и F, специально разработаны для применения к малым выборкам, они в равной степени применимы и к большим выборкам. Существует, однако, множество др. статистических методов, предназначенных для анализа малых выборок и часто используемых именно для этой цели. Имеются в виду т. н. непараметрические или свободные от распределения методы. В основном, фигурирующие в этих методах С. предназначены для применения к измерениям, полученным с помощью шкал, не удовлетворяющих определению шкал отношений или интервалов. Чаще всего это порядковые (ранговые) или номинальные измерения. Непараметрические С. не требуют предположений в отношении параметров распределения, в частности, в отношении оценок дисперсии, потому что порядковые и номинальные шкалы исключают само понятие дисперсии. По этой причине непараметрические методы используются также для измерений, полученных с помощью интервальных шкал и шкал отношений, когда анализируются малые выборки и существует вероятность того, что нарушаются основные предположения, необходимые для применения параметрических методов. К числу таких С., к-рые можно обоснованно применять к малым выборкам, относятся: критерий точной вероятности Фишера, двухфакторный непараметрический (ранговый) дисперсионный анализ Фридмана, коэффициент ранговой корреляции t Кендалла, коэффициент конкордации (W) Кендалла, H-критерий Краскела - Уоллеса для непараметрического (рангового) однофакторного дисперсионного анализа, U-критерий Манна-Уитни, медианный критерий, критерий знаков, коэффициент ранговой корреляции r Спирмена и t-критерий Уилкоксона.

    Помимо собственно случайной выборки с ее четким вероятностным обоснованием существуют и другие выборки, которые не являются абсолютно случайными, однако широко применяются. Следует заметить, что строгое применение собственно случайного отбора единиц из генеральной совокупности далеко не всегда возможно на практике. К таким выборкам относятся механическая выборка, типическая, серийная (или гнездовая), многофазовая и ряд других.

    Редко бывает, чтобы генеральная совокупность была однородной, это скорее исключение, нежели правило. Поэтому при наличии в составе генеральной совокупности различных типов явления часто желательно обеспечить более равномерное представительство в выборочной совокупности различных типов. Эта цель успешно достигается при применении типической выборки. Главная трудность заключается в том, что мы должны иметь дополнительную информацию о всей генеральной совокупности, что в ряде случаев является затруднительным.

    Типическую выборку называют еще расслоенной или стратифицированной выборкой; ее применяют также в целях более равномерного представления в выборке различных районов, и в этом случае выборку называют районированной.

    Итак, под типической выборкой понимается такая выборка, при которой генеральная совокупность разделена на типические подгруппы, сформированные по одному или нескольким существенным признакам (например, население разделено на 3-4 подгруппы по величине среднедушевого дохода или по уровню образования - начальное, среднее, высшее и т.п.). Далее из всех типических групп можно вести отбор единиц в выборку несколькими способами, формируя:

    а) типическую выборку с равномерным размещением, где из разных типов (слоев) отбирается равное число единиц. Эта схема работает хорошо, если в генеральной совокупности слои (типы) не очень сильно отличаются друг от друга по числу единиц;

    б) типическую выборку с пропорциональным размещением, когда требуется (в отличие от равномерного размещения), чтобы доля (%) отбора для всех слоев была бы одинаковой (например, 5 или 10%);

    в) типическую выборку с оптимальным размещением, когда учитывается степень вариации признаков в различных группах генеральной совокупности. При таком размещении пропорция отбора для групп с большой колеблемостью признака увеличивается, что в итоге приводит к уменьшению случайной ошибки.

    Формула средней ошибки при типическом отборе похожа на обычную ошибку выборки для собственно случайной выборки с той лишь разницей, что вместо общей дисперсии проставляется средняя из частных внутригрупповых дисперсий, что, естественно, приводит к уменьшению погрешности по сравнению с собственно случайной выборкой. Однако ее применение не всегда возможно (по многим причинам). Если нет необходимости в большой точности, легче и дешевле использовать серийную выборку.

    Серийная (гнездовая) выборка состоит в том, что в выборку отбираются не единицы совокупности (например, студенты), а отдельные серии или гнезда (например, учебные группы). Говоря иначе, при серийном (гнездовом) отборе единица наблюдения и единица отбора не совпадают: отбираются некоторые группы примыкающих друг к другу единиц (гнезда), а обследованию подлежат входящие в состав этих гнезд единицы. Так, например, при выборочном обсле­довании жилищных условий мы можем в случайном порядке вы­брать некоторое число домовладений (единица отбора) и выяснить далее жилищные условия проживающих в этих домах семей (единицы наблюдения).

    Серии (гнезда) состоят из единиц, связанных между собой территориально (районы, города и т.д.), организационно (предприятия, цеха и т.д.), или во времени (например, совокупность единиц выработанной за данный отрезок времени продукции).

    Серийный отбор может быть организован в форме одноступенчатого, двухступенчатого или многоступенчатого отбора.

    Случайно отобранные серии подвергаются сплошному исследованию. Таким образом, серийная выборка состоит из двух этапов случайного отбора серий и сплошного изучения этих серий. Серийный отбор дает значительную экономию в силах и средствах и поэтому часто используется на практике. Ошибка серийного отбора отличается от ошибки собственно случайного отбора тем, что вместо значения общей дисперсии используется межсерийная (межгрупповая) дисперсия, а вместо объема выборки - количество серий. Точность обычно не очень велика, но в ряде случаев это допустимо. Серийная выборка может быть повторной и бесповторной, а серии - равновеликими и неравновеликими.

    Серийная выборка может быть организована по разным схемам. Например, можно сформировать выборочную совокупность в два этапа: сначала в случайном порядке выбираются подлежащие обследованию серии, затем из каждой отобранной серии также в случайном порядке отбирается определенное количество единиц, подлежащих непосредственному наблюдению (измерению, взвешиванию и пр.). Ошибка такой выборки будет зависеть от ошибки серийного отбора и от ошибки индивидуального отбора, т.е. многоступенчатый отбор дает, как правило, менее точные результаты по сравнению с одноступенчатым, что объясняется возникновением ошибок репрезентативности на каждой ступени выборки. В этом случае требуется использовать формулу ошибки выборки для комбинированного отбора.

    Другой формой отбора является многофазовый отбор (1, 2, 3 фазы или этапа). Этот отбор по своей структуре отличается от многоступенчатого, так как при многофазном отборе пользуются на каждой фазе одними и теми же единицами отбора. Ошибки при многофазном отборе рассчитывают на каждой фазе отдельно. Главная особенность двухфазовой выборки состоит в том, что выборки отличаются друг от друга по трем критериям в зависимости: 1) от доли единиц, изученных на первой фазе выборки и вновь включенных во вторую и последующие фазы; 2) от соблюдения равенства шансов каждой единицы выборки первой фазы вновь быть объектом изучения; 3) от величины интервала, отделяющего фазы друг от друга.

    Остановимся еще на одном виде отбора, а именно механическом (или систематическом). Этот отбор являет­ся, вероятно, самым распространенным. Это объясняется, видимо, тем, что из всех приемов выбора данный прием является простейшим. В частности, он зна­чительно проще, чем случайный отбор, предполагающий умение пользоваться таблицами случайных чисел, и не требует дополнительных сведений о генеральной совокупности и ее структуре. К то­му же механический отбор тесно переплетается с про­порциональным стратифицированным отбором, что при­водит к снижению ошибки выборки.

    Например, применение механического отбора чле­нов жилищного кооператива из списка, составленного в по­рядке поступления в данный кооператив, обеспечит пропорциональное представительство членов кооператива с разным стажем. Использование этого же приема для отбора респондентов из списка лиц, составленного по алфа­виту, обеспечивает равные шансы для фамилий, начи­нающихся на разные буквы, и т.п. Использование та­бельных или иных списков на предприятиях или в учебных заведениях и др. может обеспечить не­обходимую пропорциональность в представительстве ра­ботников с разным стажем. Заметим, что механический отбор широко применяется в социологии, при изучении общественного мнения и др.

    В целях снижения величины ошибки и особенно расходов на проведение выборочного исследования широко используются разные комбинации отдельных видов отбора (механического, серийного, индивидуального, многофазного и т.п.) В таких случаях следует рассчитывать более сложные ошибки выборок, которые состоят из ошибок, имеющих место на разных этапах исследования.

    Малая выборка - это совокупность единиц меньше 30. Малые выборки встречаются на практике довольно часто. Например, число заболеваний редкими болезнями или число единиц, обладающих редким признаком; кроме того, к малой выборке прибегают, когда исследование стоит дорого или исследование связано с уничтожением продукции или образцов. Широкое применение малые выборки получили в сфере обследования качества продукции. Теоретические основы для определения ошибок малой выборки были заложены английским ученым У. Госсетом (псевдоним Стьюдент).

    Необходимо помнить, что при определении ошибки для малой выборки следует вместо численности выборки брать величину (n – 1) или же до определения средней ошибки выборки рассчитывать так называемую исправленную дисперсию выборки (в знаменателе вместо n следует ставить (n – 1)). Отметим, что такая поправка делается только один раз - при расчете выборочной дисперсии или при определении ошибки. Величина (n – 1) носит название степени свободы. Кроме того, нормальное распределение заменяется t -распределением (распределением Стьюдента), которое табулировано и зависит от количества степеней свободы. Единственным параметром распределения Стьюдента является величина (n – 1). Еще раз подчеркнем, что поправка (n – 1) важна и существенна лишь при малых по численности выборочных совокупностях; при n > 30 и выше различие сходит на нет, приближаясь к нулю.

    До сих пор шла речь о случайных выборках, т.е. таких, когда выбор единиц из генеральной совокупности производится случайно (или почти случайно) и все единицы имеют равную (или почти равную) вероятность попасть в выборку. Однако отбор единиц может быть основан на принципе неслучайного отбора, когда во главу угла ставится принцип доступности и целенаправленности. В таких случаях нельзя говорить о репрезентативности полученной выборки, а исчисление ошибок репрезентативности можно производить, лишь имея сведения о генеральной совокупности.

    Известны несколько схем формирования неслучайной выборки, которые получили значительное распространение и используются главным образом в социологических исследованиях: отбор доступных единиц наблюдения, отбор по нюрнбергскому методу, целевая выборка при определении экспертов и др. Важное значение имеет также квотная выборка, которая формируется исследователем по небольшому количеству существенных параметров и дает очень близкое совпадение с генеральной совокупностью. Говоря иначе, квот­ный отбор должен обеспечить исследователю почти полное совпадение выборочной и генеральной совокупностей по избранным им параметрам. Целенаправленное дости­жение близости двух совокупностей по ограниченному кругу показателей достигается, как правило, с помощью выборки существенно меньшего объема, чем при исполь­зовании случайного отбора. Именно это обстоятельство делает квотный отбор привлекательным для исследова­теля, не имеющего возможности ориентироваться на самовзвешивающуюся случайную выборку большого объ­ема. Следует добавить, что сокращение объема выборки чаще всего сочетается с уменьшением денежных затрат и сроков проведения исследования, что увеличивает преимущества указанного способа отбора. Отметим также, что при квотной выборке имеется довольно значительная предварительная информация о структуре генеральной совокупности. Главное преимущество здесь состоит в том, что объем выборки существенно меньше, чем при случайной выборке. Выделенные признаки (чаще всего социально-демографические - пол, возраст, образование) должны тесно коррелировать с изучаемыми характеристиками генеральной совокупности, т.е. объекта исследования.

    Как уже указывалось, выборочный метод дает возможность получить сведения о генеральной совокупности с гораздо меньшими затратами средств, времени и усилий, чем при сплошном наблюдении. Понятно также, что сплошное изучение всей генеральной совокупности в ряде случаев невозможно, например при проверке качества продукции, образцы которой уничтожаются.

    Вместе с этим, однако, следует указать, что генеральная совокупность не является полностью «черным ящиком» и кое-какими сведениями о ней мы все же располагаем. Проводя, например, выборочное исследование, касающееся жизни, быта, имущественного положения, доходов и расходов студентов, их мнений, интересов и т.п., мы все же располагаем сведениями об общей их численности, группировке по полу, возрасту, семейному положению, местожительству, курсе обучения и другими характеристиками. Эти сведения всегда используются в выборочном исследовании.

    Существует несколько разновидностей распространения выборочных характеристик на генеральную совокупность: способ прямого пересчета и способ поправочных коэффициентов. Пересчет выборочных характеристик производится, как правило, с учетом доверительных интервалов и может быть выражен в абсолютных и относительных величинах.

    Здесь вполне уместно подчеркнуть, что бóльшая часть статистической информации, касающейся экономической жизни общества в самых разных ее проявлениях и видах, основана на выборочных данных. Конечно, они дополняются и данными сплошного учета, и сведениями, полученными в результате переписей (населения, предприятий и пр.). Так, например, все сведения бюджетной статистики (о доходах и расходах населения), приводимые Росстатом, основаны на данных выборочного исследования. Сведения о ценах, размерах производства, объемах торговли, выраженные в соответствующих индексах, также в значительной мере основаны на выборочных данных.

    Статистические гипотезы и статистические критерии. Основные понятия

    Понятия статистического критерия и статистической гипотезы тесно связаны с выборкой. Статистическая гипотеза (в отличие от других научных гипотез) состоит в предположении о некоторых свойствах генеральной совокупности, которые можно проверить, опираясь на данные случайной выборки. При этом следует помнить, что полученный результат имеет вероятностный характер. Следовательно, итог исследования, подтверждающий справедливость выдвинутой гипотезы, почти никогда не может служить основанием для ее окончательного принятия, и наоборот, результат, несовместный с ней, вполне достаточен для отклонения выдвинутой гипотезы как ошибочной или ложной. Это так, потому что полученный результат может быть совместным и с другими гипотезами, а не только с выдвинутой.

    Под статистическим критерием понимается свод правил, которые позволяют ответить на вопрос, при каких результатах наблюдения гипотеза отклоняется, а при каких нет. Другими словами, статистический критерий - это некое решающее правило, обеспечивающее принятие истинной (верной) гипотезы и отклонение ложной гипотезы с большой степенью вероятности. Статистические критерии бывают односторонними и двусторонними, параметрическими и непараметрическими, более или менее мощными. Некоторые критерии применяются часто, другие используются реже. Часть критериев предназначена для решения специальных вопросов, а некоторые критерии могут использоваться при решении широкого класса задач. Эти критерии получили повсеместное распространение в социологии, экономике, психологии, естественных науках и т.д.

    Введем некоторые основные понятия статистической проверки гипотез. Проверка гипотезы начинается с выдвижения нулевой гипотезы Н 0 , т.е. некоторого предположения исследователя, а также конкурирующей, альтернативной гипотезы Н 1 , которая противоречит основной. Например: Н 0: , Н 1: или Н 0: , Н 1: (где а - генеральная средняя).

    Основная цель исследователя при проверке гипотезы заключается в том, чтобы отвергнуть выдвигаемую им гипотезу. Как писал Р. Фишер, цель проверки любой гипотезы - ее отклонить. Проверка гипотезы строится от противного. Следовательно, если мы считаем, что, например, средняя заработная плата рабочих, полученная по данным конкретной выборки и равная 186 денежным единицам в месяц, не совпадает с действительным размером заработной платы по всей генеральной совокупности, то в качестве нулевой гипотезы принимается, что эти зарплаты равны.

    Конкурирующая гипотеза Н 1 может быть сформулирована по-разному:

    Н 1: , Н 1: , Н 1: .

    Далее определяется ошибка I рода (a), которая устанавливает вероятность того, что верная гипотеза будет отклонена. Очевидно, что такая вероятность должна быть небольшой (обычно от 0,01 до 0,1, чаще всего по умолчанию 0,05, или так называемый 5%-ный уровень значимости). Эти уровни вытекают из метода выборочного наблюдения, согласно которому двукратная или трехкратная ошибка представляет собой те пределы, за которые чаще всего не выходит случайная вариация выборочных характеристик. Ошибка II рода (b) - это вероятность того, что будет принята неверная гипотеза. Как правило, более «опасна» ошибка I рода; именно она фиксируется статистиком. Если в начале исследования мы хотим фиксировать a и b одновременно (например, a = 0,05; b = 0,1), то для этого необходимо сначала рассчитать объем выборки.

    Критическая зона (или область) - это совокупность значений критерия, при которых Н 0 отклоняется. Критической точкой Т кр называется точка, отделяющая область принятия гипотезы от области отклонения, или критической зоны.

    Как уже упоминалось, ошибка I рода (a) - это вероятность отклонения верной гипотезы. Чем меньше a, тем меньше вероятность совершить ошибку I рода. Но вместе с тем при уменьшении a (например, с 0,05 до 0,01) труднее отклонить нулевую гипотезу, что, собственно говоря, и ставит перед собой исследователь. Подчеркнем еще раз, что дальнейшее снижение a до 0,05 и далее фактически приведет к тому, что все гипотезы, верные и ложные, попадут в область принятия нулевой гипотезы, и сделает невозможным провести их различие.

    Ошибка II рода (b) возникает в тех случаях, когда принимается Н 0 , но на самом деле верна альтернативная ей гипотеза Н 1 . Величина g = 1 – b называется мощностью критерия. Ошибка II рода (т.е. ошибочное принятие ложной гипотезы) уменьшается с возрастанием объема выборки и увеличением уровня значимости. Из этого следует, что нельзя одновременно уменьшить a и b. Это достигается лишь при увеличении объема выборки (что не всегда возможно).

    Чаще всего задачи проверки гипотезы сводятся к сравнению двух выборочных средних или долей; к сопоставлению генеральной средней (или доли) с выборочной; сравнению эмпирического и теоретического распределений (критерии согласия); сравнению двух выборочных дисперсий (c 2 -критерий); сравнению двух выборочных коэффициентов корреляции или коэффициентов регрессии и некоторым другим сравнениям.

    Решение о принятии или отклонении нулевой гипотезы заключается в сопоставлении фактического значения критерия с табличным (теоретическим). Если фактическое значение меньше табличного, то делается вывод, что расхождение носит случайный, несущественный характер и нулевую гипотезу отклонить нельзя. Обратная ситуация (фактическое значение больше табличного) ведет к отклонению нулевой гипотезы.

    При проверке статистических гипотез чаще всего используются таблицы нормального распределения, распределения c 2 (читается: хи-квадрат), t -распределения (распределения Стьюдента) и F -распределения (распределения Фишера).

    Новое на сайте

    >

    Самое популярное