+7 (495) 646-49-75 Сейчас работаем
+7 (495) 646-49-75 Заказать звонок
Режим работы: Пн. – Пт.: с 9:00 до 18:00
г. Москва
info@lit-review.ru
Мед. статистика

Выборочный метод — точная характеристика изучаемых совокупностей

admin / 03.09.2025

Задача, которую решает использование выборочного метода, заключается в возможности с минимальными данными выборки обеспечить получение максимально точных данных. Без применения знаний выборочного наблюдения и выборочной совокупности невозможно оценить масштабные клинические исследования, наблюдения, спрогнозировать различные явления и обрабатывать первичные данные.

Выборочное наблюдение — вид несплошного наблюдения, при котором отбор подлежащих обследованию единиц наблюдения из генеральной совокупности(population) осуществляется случайно, отобранная часть (выборка) (sample)подвергается обследованию, после чего результаты распространяются на всю исходную совокупность. Выборка должна отвечать критериям качественной и количественной репрезентативности.

Рис. 1  Количественная и качественная репрезентативность выборки (Е.Н. – единица наблюдения).

Положительные стороны выборочного метода:

—        большая точность получения результата за счет уменьшения случайных
ошибок при сборе материала;

—    возможность задать надежность и точность исследования.
Отрицательные стороны выборочного метода:

Эпидемиологические аспекты выборочного исследования будут подробно рассмотрены в соответствующем разделе (часть 2). Здесь мы остановимся на статистических аспектах данной проблемы, хотя эти два подхода неразрывно связаны между собой, составляя единую оболочку для научного исследования.

Основное требование, предъявляемое к формированию выборки – случайность отбора единиц наблюдения из генеральной совокупности, при котором каждой единице наблюдения обеспечивается равная вероятность попадания в выборку (рандомизированный отбор) (randomization).

Виды выборок

  1. В зависимости от способа отбора единиц наблюдения (от способа организации совокупности):
  1. По этапам отбора:
  1. В зависимости от числа программ отбора:

Модификации видов выборок:

Теоретическая основа выборочного метода

Взаимосвязь статистических показателей выборочной и генеральной совокупностей определяется законом больших чисел, выражаясь в центрально предельной теореме П. Л. Чебышева: чем больше число некоторых случайных величин, тем их средняя арифметическая ближе к средней арифметической генеральной совокупности, т.e. тем меньше разница между показателями выборочной и генеральной совокупностей. По мере увеличения числа наблюдений вероятность осуществления приближения показателя выборки к показателю генеральной совокупности становится все больше, стремясь к единице, если число наблюдений стремится к бесконечности. Для того, чтобы могла проявиться эта закономерность, выборка должна быть репрезентативна (представительна) по отношению к генеральной совокупности.

Репрезентативность — это способность выборочной совокупности как количественно, так и качественно отражать свойства генеральной совокупности. Количественная репрезентативность достигается достаточностью числа наблюдений, качественная — соответствием признаков единиц наблюдения в выборочной и генеральной совокупностях.

Любое значение параметра, вычисленное на основе ограниченного числа наблюдений, непременно содержит элемент случайности. Такое приближенное, случайное значение называется оценкой параметра. Оценка параметра должна быть доброкачественной, что определяется тремя факторами, которые дают наименьшие ошибки расхождения показателей выборочной и генеральной совокупностей:

Как правило, проводят точечную и интервальную оценку параметра.

Точечная оценка параметра

Точечная оценка параметра выражается в ошибке репрезентативности (standard error, стандартной ошибке), которая показывает на сколько отличаются обобщающие коэффициенты (показатели), полученные при выборочном исследовании, от тех коэффициентов, которые могли бы быть получены при сплошном исследовании.

Вычисление ошибки репрезентативности (m):

  1. Для количественных признаков: 
  2. Для номинальных и порядковых признаков: 

при показателях (коэффициентах), близких к 0 или к 100%:  

  1. При распределении Пуассона:

Условные обозначения:

s- стандартное отклонение (sample variance)

n — число наблюдений в выборке (sample size)

р — частота появления признака в совокупности (significance level)

q — показатель, альтернативный

t — доверительный коэффициент

x — средняя величина (sample mean)

Способы, уменьшающие ошибку репрезентативности:

Интервальная оценка параметра

Знание величины ошибки репрезентативности недостаточно, чтобы быть уверенным в результатах выборочного исследования, т.к. конкретная ошибка одного выборочного наблюдения может быть больше (меньше) средней ошибки выборки. Поэтому на практике определяют так же пределы возможных ошибок выборки или предельную ошибку выборки (D). Т.к. предельная ошибка может быть как в сторону увеличения, так и в сторону уменьшения, то говорят о доверительном интервале (ДИ) или доверительных границах (confidence interval, CI), в пределах которых будет находиться показатель генеральной совокупности на основании данных выборочного исследования

Выход результата за пределы доверительных границ в следствие случайных колебаний имеет незначительную вероятность. Пределы возможных отклонений, выраженные в долях t, оценивают по формуле:

Существует таблица соответствия интеграла вероятности и значения “t” (таблица Стьюдента). При числе наблюдений больше 30 можно пользоваться следующей закономерностью: вероятности безошибочного прогноза р = 0,68 приблизительно соответствует t равное 1; при p = 0,95   t = 2, при р = 0,99   t = 3. Это согласуется с «правилом трех сигм», когда в границах одного среднеквадратичного отклонения лежат 68% значений, двух – 95%, трех – 99%. Буква t  в данном случае обозначает использование распределения Стьюдента.

При малом числе наблюдений (не более 30) вероятности нахождения выборочных значений в пределах значений t, которые характерны для больших выборок, значительно снижаются, т.е. для достижения тех же вероятностей нужно взять значительно большие интервалы  x ± tm. В этих случая оперируют значениями t, приведенными в таблице Стьюдента.

Для большинства медицинских исследований допускают р = 0,95 или 95%. В этом случае вероятность выхода результата выборочного исследования за границы доверительного интервала, т.е. вероятность ошибки составляет 0,05 или 5%. Поэтому говорят, что результат исследования получен с уровнем значимости 0,05 (р=0,05). При необходимости более строгой оценки р=0,99 (99%), вероятность ошибки составит 0,01 (1%) и следовательно уровень значимости будет р=0,01.

Часто на практике необходимо оценить надежность и точность исследования, т.е. нужно знать, к каким ошибкам может привести замена параметра (результата в генеральной совокупности) его точечной оценкой (результатом в выборке с учетом ошибки репрезентативности) и с какой уверенностью можно ожидать, что эти ошибки не выйдут за известные пределы.

Точность оценки определяется доверительным интервалом (границами), надежность оценки определяется доверительной вероятностью, с которой оценка воспроизводится в пределах доверительных границ. Чем выше точность исследова­ния, тем меньше его надежность. В результате при больших доверительных границах, уровень вероятности (или уровень значимости) может не достигать значений, принятых для медицинских исследований

Определение доверительных границ (доверительного интервала)

-для количественных признаков

— для номинальных и порядковых признаков

Определение объема выборки

  1. По специальным таблицам с заданной предельной ошибкой (таблица Боярского).
  2. По формулам:

а) для количественных признаков:

б) для номинальных и порядковых признаков:

в) при выборке по методу контрольных групп или парных групп:

если число наблюдений в группах одинаково:
— для количественных признаков:

— для номинальных признаков: 

если число наблюдений в группах неодинаково:

— для количественных признаков: 

-для номинальных признаков:

Условные обозначения:

s – стандартное отклонение;

t — доверительный коэффициент,

n — число наблюдений в выборке;

D — предельная ошибка выборки;

р — частота появления признака в совокупности;

q — показатель, альтернативный p;

N – число наблюдений в генеральной совокупности.

Расчет объема выборки производят на начальных этапах исследования, когда неизвестны параметры распределения и предельная ошибка. Источниками для определения s и D служат:

— результаты пилотажного исследования;

— данные литературы (аналогичные исследования);

Как крайний вариант определения этих параметров для альтернативного распределения можно взять максимально возможное значение s2= р х q =0.5 x 0.5 = 0,.25, что существенно увеличивает необходимый объем наблюдений. Для количественных признаков приблизительное значение s можно определить как,

что также увеличивает необходимый объем выборки.

3. Объем выборки зависит от чувствительности критерия. С увеличением объема выборки чувствительность критерия увеличивается. Расчет чувствительности – важный этап планирования исследования.

Таким образом, итогом изучения материалов статьи для специалистов станут понятными главные определения и понятия, методы формирования репрезентативной выборки, определение точечной и интервальной оценки параметров. Кром того, предоставленные данные помогут сформировать репрезентативную по количеству и качеству выборку, вычислять ошибку репрезентативности (стандартную ошибку) для средних и долевых (частотных) величин в больших и малых выборках, вычислять ошибку репрезентативности (стандартную ошибку) для средних и долевых (частотных) величин в больших и малых выборках.

Благодарим за внимание к нашим материалам, оставайтесь с нами!

Pharm Times — наш телеграм канал

Статьи по биостатистике, клинической эпидемиологии, регуляторике обращения лекарственных препаратов

Подписаться