Информационные решения, отчетность и аналитика
для медицины и фармацевтической отрасли
работа по всей России и СНГ, всегда в срок
info@lit-review.ru
+7 (495) 646-49-75
Заказ обратного звонка
Специальные предложения по обзорам литературы и статистической обработке
(для статей, кандидатских, докторских, магистерских и PhD диссертаций) для медицинских специалистов из СНГ и ближнего зарубежья!

razmer_viborki

Размер выборки и искусство баланса между возможными ошибками.

Перед исследователем, планирующим изучение проблемы с использованием статистических методов так или иначе встает вопрос о необходимости расчета размера выборки для контроля между ошибкой первого и второго рода (о них читайте далее). Не стоит скрывать, что для большинства обсервационных исследований с клиническими данными достаточность объема выборки – достаточно болезненный вопрос, правильный ответ на который могут дать не многие. Мало кто понимает, что вопрос размеры выборки – дело не одной формулы, а достаточно сложная тема, требующая понимания собственных исследовательских задач, понимая, имеющихся данных в распоряжении исследователя, а также чувствительность и специфичность самих статистических критериев, имеющихся в распоряжении биометрики. Предлагаем читателю разобраться с этим важным вопросом.
В наиболее общих чертах стоит отметить, что ответ на вопрос о достаточности данных в исследуемой выборке зависит от четырех характеристик исследования: величины различия и частоте исходов между группами, р (ошибки первого рода альфа), и тип данных. Эти характеристики должен учитывать исследователь, планирующий эксперимент, а также читатель, решающий, следует ли доверять публикации.

Величина эффекта

Размер выборки зависит от того, какова же ожидаемая величина различий, которые предстоит выявить. В принципе можно искать различия любой величины и, конечно, исследователь надеется, что сможет обнаружить даже самые небольшие различия. Однако при прочих равных условиях для выявления малых различий требуется большее число пациентов. Поэтому лучше ставить вопрос таким образом:
Какое число больных достаточно, чтобы выявить наименьший клинически значимый эффект?
В случае если нас интересуют только очень большие различия между экспериментальной группой и группой сравнения (т.е. очень сильный лечебный эффект), то допустимо меньшее число пациентов.

Ошибка первого рода (Альфа-ошибка)

Размер выборки зависит также от риска альфа-ошибки (вывода об эффективности лечения, которое на самом деле неэффективно). Приемлемая величина такого риска выбирается произвольно — от 1 до 0. Если исследователь готов к последствиям высокой вероятности ложного вывода об эффективности метода, то он может взять небольшое число пациентов. Если же он стремится сделать риск ошибочного вывода достаточно малым, то потребуется увеличить число больных. Как обсуждалось выше, обычно ра устанавливается на уровне 0,05 (1 из 20), а иногда 0,01 (1 из 100).

Ошибка второго рода (Бета-ошибка)

Другой фактор, определяющий размер выборки, — это выбранный риск бета-ошибки, который тоже произволен. Вероятность бета-ошибки часто устанавливается на уровне 0,20, т.е. допускается 20% вероятность не выявить существующие в действительности различия. Общепринятые допустимые величины бета- ошибок гораздо больше, чем альфа-ошибок, т.е. мы относимся более требовательно к утверждениям об эффективности лечения. Если говорят, что лечение эффективно, оно должно быть эффективным в действительности.

Тип данных и их однородность

Статистическая мощность исследования определяется еще и типом данных. Когда исходы выражены качественными при- знаками и описываются частотой событий, статистическая мощность исследования зависит от этой частоты. Чем больше число событий, тем выше статистическая мощность исследования для данного числа испытуемых. Например, исследование 100 больных, 50 из которых умерли, имеет примерно такую же чувствительность (мощность), что и исследование 1000 больных, из которых умерли те же 50 пациентов.
Если исход выражается непрерывной количественной переменной (например, артериальное давление или уровень холестерина в сыворотке), то мощность исследования определяется степенью различий пациентов внутри каждой группы (дисперсией). Чем больше различия между пациентами по изучаемым характеристикам, тем меньше уверенности в том, что наблюдаемая разница (или ее отсутствие) между группами обусловлена истинными различиями в эффективности методов лечения. Другими словами, чем больше различия между пациентами внутри групп, тем ниже статистическая мощность исследования.

При планировании исследования автор выбирает такие величины клинической значимости лечебного эффекта, уровни ошибок, которые сам считает приемлемыми. Он может спланировать исследование таким образом, чтобы сделать его мощность максимальной для данного размера выборки, например путем отбора больных с высокой вероятностью развития исходов или с одинаковыми характеристиками (разумеется, в пределах поставленной задачи). Однако, получив данные и имея конкретную научную задачу, исследователь уже не может повлиять на статистическую мощность исследования, поскольку она определяется характеристиками полученных данных.

Взаимосвязь характеристик исследования

Обсуждавшиеся выше взаимоотношения носят характер взаимного компромисса. В принципе для любого числа включенных в исследование пациентов существует определенный баланс между ошибками первого и второго рода. При прочих равных условиях, чем больше допускаемая величина ошибки одного рода, тем меньше должен быть риск ошибки другого рода. При этом по сути своей ни одна из них не «хуже» другой. Последствия принятия ошибочной информации за истинную зависят от клинической ситуации. Если имеется острая необходимость в более эффективном методе лечения (например, болезнь очень опасна и нет эффективного альтернативного метода лечения) и предлагаемое лечение не опасно, то разумнее предпочесть относительно высокий риск вывода о том, что вмешательство эффективно, когда в действительности это не так (большая альфа-ошибка), минимизируя вероятность отвергнуть эффективный метод (бета-ошибка мала). С другой стороны, если болезнь менее серьезна и существуют альтернативные методы лечения либо новый метод лечения более дорог или опасен, следует минимизировать риск применения нового вмешательства, которое может быть неэффективным (альфа-ошибка мала), даже за счет относительно высокой вероятности упустить действительно эффективное лечения (большая бета-ошибка). Конечно, можно уменьшить обе ошибки — если число исследуемых больных велико, частота исходов высока, изучаемый показатель внутри групп варьирует мало, а предполагаемый лечебный эффект значителен.

Пример 1. Согласно наблюдениям серий случаем, нестероидный противовоспалительный препарат Сулипдак эффективен при полипах толстой кишки. Это предположение было промерено в рандомизированном испытании на 22 больных с семейным аденоматозным полппозом, 11 из которых получали сулипдак, а другие 11 плацебо. Через 9 мес у получавших сулипдак среднее число полипов было на 44% меньше, чем у получавших плацебо; различие статистически значимое (p<0,05). Поскольку лечебный эффект значителен, а на каждого пациента приходилось большое количество полипов (у некоторых более 100), для доказательства того, что лечебный эффект неслучаен, достаточно небольшого числа больных.

Пример 2. Исследование 2, было спланировано таким образом, чтобы при включении 41 000 пациентов оно с вероятностью 90% обеспечивало бы обнаружение снижения летальности в экспериментальной группе на 15% или частоты летальных исходов на 1% по сравнению с контрольной группой, в зависимости от того, какой из этих показателей будет больше. При этом допустимый уровень 0,05, а предполагаемая летальность в контрольной группе не ниже 8%. Здесь необходим большой объем выборки, так как доля больных с неблагоприятным исходом (смерть) относительно мала, величина лечебного эффекта невелика (15%) и авторы хотели иметь относительно высокую вероятность обнаружить эффект терапии, если он все-таки присутствует (90%).

Проиллюстрируем также, как задачу расчета объема выборки на примере использования статистического пакета Stata. Для этого воспользуемся командной строкой. Для определения мощности и размера выборки существует команда sampsi.

Предположим, что для сравнения средних мы решили применить t-Критерий Стьюдента для парных выборок. Стандартное отклонение исследуемого показателя одинаково в обеих группах и составляет 20 мм рт. ст. Сами группы также равны по размеру. Тогда следует записать следующую команду:

sampsi 150 135, sd1(20) sd2(20) p(0.8) a(0.05)

Здесь 150 и 135 – это средние величины артериального давления, выраженные в мм рт ст. sd1() и sd2() – стандартные отклонения, p() и a() – целевые мощность (ошибка второго рода) и уровень значимости (ошибка первого рода) соответственно.

В результате работы команды мы выясним, что для решения поставленной задачи необходимо набрать группы по 28 человек.

Необходимо всегда иметь в виду, что приведённые в примере значения мощности и уровня значимости могут изменяться в зависимости от особенностей исследования. Однако любое повышение мощности будет даваться довольно дорого. Так, если в нашем примере увеличить целевую мощность до 90%, то при сохранении всех прочих параметров размер выборки придётся увеличить до 38 испытуемых в каждой группе, что скажется на стоимости планируемой работы.

Вместо заключения

Для получения ответов на большинство возникающих в наше время вопросов относительно эффективности того или иного вмешательства требуется изучение результатов лечения очень большого числа больных. Вместе с тем эффективность таких действенных вмешательств, как введение инсулина при диабетическом кетоацидозе или хирургической операции при аппендиците, можно установить при анализе данных небольшого числа больных. Однако подобные методы лечения появляются редко и многие из них уже хорошо изучены. Теперь нам приходится рассматривать патологию с хроническим течением и с множественными взаимодействующими этиологическими факторами; эффективность предлагаемых новых методов лечения таких заболеваний, в общем, невелика. В подобной ситуации необходимо обращать особое внимание на то, достаточна ли численность больных в клиническом испытании для того, чтобы отличить истинный лечебный эффект от случайного результата.

Автор сайта: Кирилл Мильчаков
Источник:
Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология: Основы доказательной медицины/ М.: Медиа Сфера, 1998. — 352 с.


Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:

Наш телеграм канал Pharm Times

Статьи по биостатистике, клинической эпидемиологии, регуляторике обращения лекарственных препаратов.

Подписаться

2012-2024 © (с) НМА Литобзор -- информационное агентство доказательной медицины №1: обзор литературы, медикал райтинг, фармаконадзор, статистическая обработка данных для проектов в области медицины и фармацевтики