Как сделать расчет выборки
При проведении исследования в подавляющем большинстве случаев не представляется возможным опросить генеральную совокупность, т.е. общую численность объектов наблюдения (например, всех жителей столицы). Чтобы решить данную проблему и иметь возможность дать заключение обо всей генеральной совокупности, используется отбор выборочной совокупности.
Выборочная совокупность – часть объектов генеральной совокупности, характеристики которой корректно отражают характеристики генеральной совокупности (репрезентируют ее).
Типы выборок
В зависимости от целей исследования используются различные типы выборок:
1. Использование вероятностной выборки предполагает, что все члены генеральной совокупности имеют равные шансы попасть в выборку.
1.1. Простая случайная выборка
Основной вид вероятностной выборки. Респонденты выбираются СЛУЧАЙНЫМ ОБРАЗОМ из ПОЛНОГО списка единиц генеральной совокупности. На практике сформировать данный список достаточно трудно. Например, список всех мобильных телефонов не включает жителей, которые его не имеют, и т.д. Случайный отбор осуществляет компьютер (генератор случайных чисел), или используется таблица случайных чисел.
Только для данного типа выборки возможно использование:
1.1.1. Калькулятор размера выборки
1.1.2. Калькулятор ошибки выборки
1.2. Случайная систематическая выборка
Генеральная совокупность упорядочивается (например, по алфавитному порядку, по номеру телефона и т.д.), случайным образом выбирается первый элемент выборки, каждый последующий выбирается с равным шагом (например, каждый 5-й, 20-й, 100-й респондент).
1.3. Стратифицированная случайная выборка
Генеральная совокупность разделяется на группы (страты). Внутри каждой страты совершается простой случайный или систематический отбор. При этом выборка должна отражать структуру генеральной совокупности, т.е. в выборке должны быть сохранены пропорции.
1.4. Кластерная выборка
Используется тогда, когда единицами отбора выступают кластеры (группы). Например, при исследовании сотрудников медицинских учреждений целесообразно отобрать сначала сами учреждения. Внутри кластера производится сплошной опрос (опрашиваются все его представители).
2. Использование невероятностных выборок обусловлено невозможностью случайного отбора. Отбор происходит по субъективным критериям – доступности, типичности и т.д.
2.1. Квотная выборка
Генеральная структура в данном случае воспроизводится за счет квот (пропорций), которые обычно отражают социально-демографические критерии. Например, заранее известно только число женщин и мужчин в генеральной совокупности. В этом случае в той же пропорции они отбираются и для выборочной совокупности. Внутри групп единицы отбора выбираются произвольно.
2.3. Стихийная выборка
2.4. Выборка типичных случаев
Выбирается типичный признак, на основании которого отбираются и другие участники исследования. Выбор признака и его типичное значение производятся исследователем самостоятельно.
Руководитель Центра медико-социологических исследований вошел в состав Технической консультативной группы ЕРБ ВОЗ
Стандартный срок участия экспертов в группе – 2 года с возможностью продления
Специалисты обсудили опыт реализации новых форм диалога с населением в период пандемии COVID-19
В каждой профессии есть свой набор любимых вопросов. Для исследователей рынка этот список возглавляет, безусловно, вопрос о размере выборки. Обычно его формулируют так:
-
Мы хотели бы заказать исследование по посетителям московских торговых центров. Какая нам нужна выборка?
Главное заблуждение о размере выборки
Многие уверены, что чем больше размер целевой группы, тем больше должен быть размер выборки. Поэтому, якобы, чтобы узнать мнение жителей маленького города, достаточно опросить человек 200-300, ну а для выяснения мнения по России в целом и 5000 будет мало.
Две разновидности ошибки выборки
-
Систематическая – связана с ошибками проектирования выборки. Оценить ее размер, направление и степень смещения очень сложно, чаще всего – невозможно. Например, если вопросы респондентам будут задавать представители маргинальных социальных слоев, это повлияет на готовность участвовать в исследовании со стороны представителей более обеспеченных групп населения. В итоге это приведет к крайне трудно оцениваемой систематической ошибке и искажению данных.
Задача исследователя – собрать данные так, чтобы минимизировать систематическую ошибку выборки. Тогда можно будет свести статпогрешность лишь к случайной ошибке, которую можно рассчитать по формулам.
Как рассчитать размер случайной ошибки выборки
Случайная ошибка выборки зависит не только от объема выборки, но и от дисперсии, то есть степени однородности данных. Чем однороднее данные (т.е. чем меньше разброс полученных значений, или дисперсия), тем меньше ошибка выборки.
Существует формула расчета случайной ошибки выборки, однако для удобства рекомендуем пользоваться онлайн-калькуляторами, например, вот этим. Он позволяет легко провести два вида расчета:
-
рассчитать величину статистической погрешности на основе размера выборки и предполагаемой дисперсии;
В качестве параметра доверительной надежности (одно из полей в калькуляторе) обычно используется значение в 95%. Это означает, что в 95% случаев распределение признака в генеральной совокупности попадет в рассчитанный доверительный интервал (т.е. само значение признака в выборке плюс-минус размер статистической погрешности). Реже используется значение надежности в 97% или 99% – оно, соответственно, означает, что подобное попадание произойдет в 97% или 99% случаев. В данном случае надежность выборки повышается, но увеличивается размер выборки.
Самое сложное при определении размера выборки – поиск компромисса между требуемой точностью и стоимостью сбора данных. Этот процесс усложняется тем, что увеличение размера выборки в четыре раза приводит к увеличению точности лишь в два раза (соответствует квадратному корню от величины прироста выборки).
Кейс: определение размера выборки для оценки потенциала рынка продаж столичной недвижимости покупателям из регионов
В ноябре-декабре 2016 года мы провели исследование спроса на квартиры в новостройках Москвы и Санкт-Петербурга со стороны жителей разных городов России. Исследование включало в себя три метода сбора данных: массовый репрезентативный опрос населения в возрасте от 20 до 60 лет (проводился с использованием технологии CATI), а также серию экспертных интервью с риэлторами и глубинных интервью с потенциальными покупателями квартир.
В зависимости от важности города для заказчика, руководитель проекта со стороны Агентства определил допустимую статистическую погрешность, в которую должны укладываться итоговые результаты. Для этого мы использовали специальный макрос в MS Excel, но эти расчеты можно также выполнить с помощью калькулятора выборки. В результате размер выборки варьировал от 500 до 1000 респондентов по каждому из городов исследования, что в сумме и дало заявленные 21 500 человек.
Резюме
Чтобы рассчитать выборку маркетингового исследования, используйте следующий алгоритм:
-
Определите структуру целевой группы. Планируете ли вы анализировать отдельные подгруппы или достаточно будет анализа по выборке в целом?
1. Задачи математической статистики.
3. Способы отбора.
4. Статистическое распределение выборки.
5. Эмпирическая функция распределения.
6. Полигон и гистограмма.
7. Числовые характеристики вариационного ряда.
8. Статистические оценки параметров распределения.
9. Интервальные оценки параметров распределения.
1. Задачи и методы математической статистики
Математическая статистика - это раздел математики, посвященный методам сбора, анализа и обработки результатов статистических данных наблюдений для научных и практических целей.
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным- контролируемый размер детали.
Иногда проводят сплошное исследование, т.е. обследуют каждый объект относительно нужного признака. На практике сплошное обследование применяется редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов (выборочную совокупность) и подвергают их изучению.
Основная задача математической статистики заключается в исследовании всей совокупности по выборочным данным в зависимости от поставленной цели, т.е. изучение вероятностных свойств совокупности: закона распределения, числовых характеристик и т.д. для принятия управленческих решений в условиях неопределенности.
2. Виды выборок
Генеральная совокупность – это совокупность объектов, из которой производится выборка.
Выборочная совокупность (выборка) – это совокупность случайно отобранных объектов.
Объем совокупности – это число объектов этой совокупности. Объем генеральной совокупности обозначается N , выборочной – n .
Если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки n = 100.
При составлении выборки можно поступить двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. Т.о. выборки делятся на повторные и бесповторные.
Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.
Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.
На практике обычно пользуются бесповторным случайным отбором.
Для того, чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы объекты выборки правильно его представляли. Выборка должна правильно представлять пропорции генеральной совокупности. Выборка должна быть репрезентативной (представительной).
В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно.
Если объем генеральной совокупности достаточно велик, а выборка составляет лишь незначительную часть этой совокупности, то различие между повторной и бесповторной выборками стирается; в предельном случае, когда рассматривается бесконечная генеральная совокупность, а выборка имеет конечный объем, это различие исчезает.
3. Способы отбора
На практике применяются различные способы отбора, которые можно разделить на 2 вида:
1. Отбор не требует расчленения генеральной совокупности на части (а) простой случайный бесповторный; б) простой случайный повторный).
2. Отбор, при котором генеральная совокупность разбивается на части. (а) типичный отбор; б) механический отбор; в) серийный отбор).
Простым случайным называют такой отбор, при котором объекты извлекаются по одному из всей генеральной совокупности (случайно).
На практике часто применяют комбинированный отбор, при котором сочетаются указанные выше способы.
4. Статистическое распределение выборки
Пусть из генеральной совокупности извлечена выборка, причем значение x1 –наблюдалось раз, x2-n2 раз,… xk - nk раз. n = n1+n2+. +nk– объем выборки. Наблюдаемые значения называются вариантами, а последовательность вариант, записанных в возрастающем порядке- вариационным рядом. Числа наблюдений называются частотами (абсолютными частотами), а их отношения к объему выборки - относительными частотами или статистическими вероятностями.
Если количество вариант велико или выборка производится из непрерывной генеральной совокупности, то вариационный ряд составляется не по отдельным точечным значениям, а по интервалам значений генеральной совокупности. Такой вариационный ряд называется интервальным. Длины интервалов при этом должны быть равны.
Статистическим распределением выборки называется перечень вариант и соответствующих им частот или относительных частот.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (суммы частот, попавших в этот интервал значений)
Перед исследователем, планирующим изучение проблемы с использованием статистических методов так или иначе встает вопрос о необходимости расчета размера выборки для контроля между ошибкой первого и второго рода (о них читайте далее). Не стоит скрывать, что для большинства обсервационных исследований с клиническими данными достаточность объема выборки – достаточно болезненный вопрос, правильный ответ на который могут дать не многие. Мало кто понимает, что вопрос размеры выборки – дело не одной формулы, а достаточно сложная тема, требующая понимания собственных исследовательских задач, понимая, имеющихся данных в распоряжении исследователя, а также чувствительность и специфичность самих статистических критериев, имеющихся в распоряжении биометрики. Предлагаем читателю разобраться с этим важным вопросом.
В наиболее общих чертах стоит отметить, что ответ на вопрос о достаточности данных в исследуемой выборке зависит от четырех характеристик исследования: величины различия и частоте исходов между группами, р (ошибки первого рода альфа), и тип данных. Эти характеристики должен учитывать исследователь, планирующий эксперимент, а также читатель, решающий, следует ли доверять публикации.
Величина эффекта
Размер выборки зависит от того, какова же ожидаемая величина различий, которые предстоит выявить. В принципе можно искать различия любой величины и, конечно, исследователь надеется, что сможет обнаружить даже самые небольшие различия. Однако при прочих равных условиях для выявления малых различий требуется большее число пациентов. Поэтому лучше ставить вопрос таким образом:
Какое число больных достаточно, чтобы выявить наименьший клинически значимый эффект?
В случае если нас интересуют только очень большие различия между экспериментальной группой и группой сравнения (т.е. очень сильный лечебный эффект), то допустимо меньшее число пациентов.
Ошибка первого рода (Альфа-ошибка)
Размер выборки зависит также от риска альфа-ошибки (вывода об эффективности лечения, которое на самом деле неэффективно). Приемлемая величина такого риска выбирается произвольно — от 1 до 0. Если исследователь готов к последствиям высокой вероятности ложного вывода об эффективности метода, то он может взять небольшое число пациентов. Если же он стремится сделать риск ошибочного вывода достаточно малым, то потребуется увеличить число больных. Как обсуждалось выше, обычно ра устанавливается на уровне 0,05 (1 из 20), а иногда 0,01 (1 из 100).
Ошибка второго рода (Бета-ошибка)
Другой фактор, определяющий размер выборки, — это выбранный риск бета-ошибки, который тоже произволен. Вероятность бета-ошибки часто устанавливается на уровне 0,20, т.е. допускается 20% вероятность не выявить существующие в действительности различия. Общепринятые допустимые величины бета- ошибок гораздо больше, чем альфа-ошибок, т.е. мы относимся более требовательно к утверждениям об эффективности лечения. Если говорят, что лечение эффективно, оно должно быть эффективным в действительности.
Тип данных и их однородность
Статистическая мощность исследования определяется еще и типом данных. Когда исходы выражены качественными при- знаками и описываются частотой событий, статистическая мощность исследования зависит от этой частоты. Чем больше число событий, тем выше статистическая мощность исследования для данного числа испытуемых. Например, исследование 100 больных, 50 из которых умерли, имеет примерно такую же чувствительность (мощность), что и исследование 1000 больных, из которых умерли те же 50 пациентов.
Если исход выражается непрерывной количественной переменной (например, артериальное давление или уровень холестерина в сыворотке), то мощность исследования определяется степенью различий пациентов внутри каждой группы (дисперсией). Чем больше различия между пациентами по изучаемым характеристикам, тем меньше уверенности в том, что наблюдаемая разница (или ее отсутствие) между группами обусловлена истинными различиями в эффективности методов лечения. Другими словами, чем больше различия между пациентами внутри групп, тем ниже статистическая мощность исследования.
При планировании исследования автор выбирает такие величины клинической значимости лечебного эффекта, уровни ошибок, которые сам считает приемлемыми. Он может спланировать исследование таким образом, чтобы сделать его мощность максимальной для данного размера выборки, например путем отбора больных с высокой вероятностью развития исходов или с одинаковыми характеристиками (разумеется, в пределах поставленной задачи). Однако, получив данные и имея конкретную научную задачу, исследователь уже не может повлиять на статистическую мощность исследования, поскольку она определяется характеристиками полученных данных.
Взаимосвязь характеристик исследования
Читайте также: