Как правильно построить выборку при проведении маркетинговых исследований и опросов общественного мнения.

0 52

Как известно, анкетирование респондентов помогает проводить исследования в маркетинге и социологии. Получая данные от маленькой группы опрошенных респондентов после обработки данных их можно расширить на большую группу. Эта возможность построена на предположении, что однотипные представители одной социальной группы людей будут одинаково реагировать на такие характеристики продукции, как цена, упаковка, методы продвижения и рекламы. В этом случае нет необходимости опрашивать несколько тысяч или десятков тысяч человек, потому что возникает возможность представить широкую аудиторию по точной выборке.

Среди всех методов, с помощью который проводятся социологические и маркетинговые исследования, выделяют опрос и анкетирование. Они предполагают, что у некоей многочисленной группы людей собирают их непредвзятое мнение. Эти слова обычно даже заменяют часто полноценные исследования.

Введем несколько определений

Массовый опрос

– в нем принимает участие интервьюер (представитель компании, занимающейся исследованиями) и респонденты (те, которые передают имеющуюся у них информацию). Для последних формируется специальный список небольших вопросов, на которые они должны дать короткий, но правдивый ответ.

Анкетирование

— в нем участвуют только респонденты, которые отвечают на вопросы, указанные в анкете, самостоятельно, и прямого контакта с интервьюером тут не происходит.

Что же должно получиться в результате? Появляются данные, которые вместе составляют характеризуют представителей какой-либо социальной группы, которая принимал участие в исследованиях. Эта группа будет именоваться генеральной совокупностью.

Приведем примеры генеральной совокупности:

  • Граждане Украины, обладающие правом голосовать;
  • Жители Киева, которые любят и покупают пиво;
  • Дети в возрасте 12-16 лет, которые проживают в Днепропетровской;
  • Учителя, преподающие физику и химию в средней школе;
  • Семьи, чей достаток колеблется в диапазоне от 500 до 1000 долларов США на человека в месяц;
  • Все предприниматели, которые занимаются торговлей в розницу в городе Харьков.

Для того, чтобы действительно дойти до каждого жителя в таких масштабных выборках, которые были перечислены выше, необходимо огромное количество интервьюеров, десятки миллионов долларов бюджета и огромное время работы. Вот почему маркетинг, который прежде всего должен быть экономичным, не проводит таких масштабных акций, а работает с небольшими выборками, потом проецируя полученные результаты на всю генеральную совокупность.

Незнакомый с правилами математической статистики человек сразу же заметит – как же так можно? Какое есть основание для того, чтобы расширить мнение маленькой группы людей на большую совокупность населения. Оказывается, ученые позаботились о таком обосновании: выяснили, поведение людей и их отношение к тем или иным предметам, явлениям или услугам подвержено влиянию социально-демографических характеристик.

Говоря понятным языком, те, у кого одинаковые условия проживания, схожий уровень образования, равное количество детей и прочие характеристики, которые относятся к социальному статусу и демографии, тоже совпадают, будут одинаково реагировать на рыночные стимулы (цену или рекламу, к примеру). Поэтому маленького количества опрошенных вполне достаточно, чтобы мнение этой группы (с учетом незначительных погрешностей) распространить на всю генеральную совокупность.

Как строится выборка

Есть две группы методов, с помощью которых можно создать точную выборку таким образом, чтобы она отражала состояние всей генеральной совокупности.

Одна группа методов носит название вероятностные. Она базируется на теории вероятности. Она гласит: репрезентация будет достигнута тогда и только тогда, когда каждой единице, входящей в генеральную совокупность, будет дана возможность попадания в выборку я той же вероятности.

Например, есть население города, возраст – от 18 до 65 лет общей численностью 200 тыс. человек. Каждый житель этого города должен получить вероятность в 1/200 000 попадания в группу опрошенных. Тогда выборка будет называться случайной. В противном случае – смещенной или непрезентативной.

Другой пример.

В Киеве примерно 500 школ. Если задавать вопросы всем учителям физики и химии мы не можем физически или из-за ограничений во времени, то можно наугад выбрать любых 20 и поговорить с ними. Как выбрать эти 20 школ? С помощью генератора случайных чисел, случайным образом, — именно так работает «барабан» при проведении лотереи. Полученная в результате выборка будет именоваться «простой случайной». Еще раз повторим – возможность попасть в группу опрашиваемых есть у любой школы, и эти вероятности у двух разных школ равны между собой.

Еще один способ выбора – в номере школы выбрать любое число, например, в диапазоне между 1 и 25. Пусть это будет номер 12. Значение каждой следующей школы будет выбираться путем прибавления 25 к предыдущему номеру. А это означает, что будут опрошены школы №№ 12, 37, 62, 87, 112, 137 и так далее, пока не доберутся до школы №500.

Есть так называемые стратифицированные выборки. В этом случае вся совокупность подразделяется на группы в соответствии с каким-то признаком, а потом выбирается по несколько представителей из каждой группы. Например, в случае со школами есть смысл разделить их на группы в зависимости от специализации школ: физико-математические, гуманитарные, спортивные, с английским уклоном (всего 4 группы), а потом случайным образом выбрать в каждой группе по 5 школ.

Еще одной разновидность предыдущей группы выборок является маршрутная выборка. Например, имеется город, в котором необходимо опросить жителей, количество интервьюеров – 20 человек. Город делится на 20 секторов, в каждом секторе прописывается маршрут и указываются случайным образом адреса.

Еще один способ случайного выбора школ называется кластерной выборкой. Сначала вся генеральная совокупность разделяется на независимые кластеры – к примеру, это могут быть районы Киева. Районов 10 – кластеров тоже будет 10. В каждом кластере будет примерно 50 школ. Следующий шаг – случайным образом выбираем 4 районов и в них прорабатываем случайных 5 школ. Выборка из 20 случайных школ готова!

Это все был разговор о простоте и достоинствах этих методов. Поговорим теперь о тех недостатках, которые, конечно же, им присущи.

Главным условием, которое помогает провести исследование в полном объеме, является предположение о том, что каждый элемент генеральной совокупности доступен для его проведения. То есть интервьюеры могут зайти в любую школу и пообщаться с любым учителем. Но учитель может быть болен, может быть занят, может быть психологически не готов к разговору на заданную тему.

Кроме того, маркетологи и социологи, которые часто проводят исследования, уверяют что люди, чьи доходы высоки, не столь доступны для исследователей, нежели граждане со средними и ниже средних доходами. И нет ничего, что заставило бы сильных мира сего отвечать на вопросы. Поэтому следует учитывать – все выборки, в которых проводятся исследования, всегда будут смещаться в сторону тех, кто зарабатывает недостаточно или мало. Причем это правило работает для всех стран, не только для нашей.

А вот с образованием – все с точностью наоборот: граждане с высшим образованием гораздо охотнее пойдут на контакт, чем те, в чьем архиве – лишь школа. Поэтому в выборках тех, у кого есть образование, больше.

Что касается маргиналов (алкоголиков, людей без определенного места жительства, социопатов, тех, кто употребляет наркотики, у кого неполадки с психикой), то с ними работать тоже сложно. Срабатывает обычный человеческий фактор – интервьюеры хотят избежать подобных контактов, и агентства ничего не могут с этим поделать. По разным данным, на территории пост-советского пространства процент таких людей колеблется в пределах от 12% до 15%, так что солидная часть населения остается за бортом выборки, а сама выборка смещается в сторону «адекватных» (условно) граждан.

Уберите отсюда тех людей, которые стесняются разговаривать с неизвестными, отвечать на невинные, а порой провокационные вопросы, или просто не хотят принимать участие ни в каком анкетировании.

Все вышеперечисленные условия ведут к тому, что результаты всегда будут смещены в сторону людей со средним и ниже среднего уровнями дохода, с высшим образованием, тех, кого можно назвать «адекватными» (вменяемыми и идущими на контакт). Это следует учитывать, и опытные исследователи рынка об этом знают.

Как же преодолеть эти проблемы? Ведь они существенным образом влияют на результаты исследований. Для этого как раз и применяется вторая группы методов, которая носит название детерминированные. Прежде всего, это речь идет о методе квот.

При использовании этого метода каждой группе носителей определенных признаков, будь то пол или возраст, уровень дохода или образования, обеспечивается присутствие в выборке. Этот метод считается максимально эффективным при проведении серьезных и значимых мероприятий. Когда он применяется, взаимосвязи между явления прослеживаются более четко, а сравнение различных групп респондентов происходит на более качественном уровне.

Но и у метода квот есть определенные трудности, которые мешают его проведению. Во-первых, не всегда можно правильно распределить все параметры, которые будут влиять на получение конечного результата. В этом случае ответственность ложится на консультанта данного исследования, которые распределяет квоты в соответствии с собственными видение ситуации и тем, что происходит на рынке.

Однако в том случае, когда строгая репрезентативность не является главным и самым важным условием, ею можно пренебречь и использовать другие, более простые для реализации детерминированные методы:

  • Нерепрезентативные (произвольные). В этом случае опрашиваются случайные люди, попадающие только под общие требования (например, только проживающие там, где проводится исследование). Такой метод вряд ли даст надежные результативные данные. Однако его вполне можно использовать в том случае, когда высокая точность не является главным стремлением. Для того, чтобы данные были более-менее точными, можно увеличить выборку, а затем убрать из полученных данных неподходящие.
  • Поверхностные. В этом случае отбор проводится по самым общим признакам. Их задают консультанты, да и то в виде не слишком точного задания.
  • Воронки. Сначала отбираются самые «контактные» респонденты, а среди них – самые «компетентные».
  • Концентрация. При этом методе выбирается отдельный сегмент и среди этой группы задают вопросы всем без исключения. Например, 11 класс любой средней школы может стать прекрасной выборкой генеральной совокупности всех школьников-одиннадцатиклассников.
  • Снежный ком. Каждый из принявший участие предлагает следующего кандидата, и из таких рекомендаций и формируется окончательная выборка.

Что такое достоверность измерений и как измерить их погрешность?

Давайте сначала определимся, что такое уровень достоверности. В математической статистике под ним понимается вероятность такого события, при котором параметр, который изучается, попадет в интервал, который называется доверительным. А доверительный интервал – это такой диапазон, в который должно попасть истинное значение параметра при том уровне достоверности, который был задан.

Тут действуют два простых правила:

  • Чем выше тот уровень достоверности, которого требуется достичь, тем больше должна быть выборка.
  • Чем меньше доверительный интервал, тем больше должна быть выборка.

Разберем пример.

Есть выборка городских жителей в возрасте от 14 до 65 лет численностью респондентов. Доверительный интервал – 4 пункта, уровень достоверности – 0,95. Надо было ответить утвердительно или отрицательно на один вопрос – были ли Вы в кинотеатре за последние три месяца хотя бы один раз? На этот вопрос дали положительный ответ 15% участников.

Что означают такие результаты? От 11% до 19% тех, кто проживают в городах, и чей возраст находится в диапазоне от 14 до 65 лет, за последние три месяца были в кинотеатре хотя бы один раз. То есть все значения, которые попадут в интервал «11-19», будут достоверными. Если бы доверительный интервал был 2 процентных пункта, то интервал бы составил «13-17».

Как же влияет уровень достоверности на результаты? Предположим, было проведено 100 исследований по 1200 респондентов в каждом, вне зависимости друг от друга. 95 исследований показали бы значение, которые находилось бы в указанном диапазоне «11-19». 5 исследований закончились бы с результатом, который бы выходил за эти пределы.

Определяемся с оптимальным размером выборки

Для того, чтобы определить, какой размер выборки из генеральной совокупности будет достаточен для того, чтобы репрезентовать всю совокупность, следует использовать специальную формулу. В ней применяются следующие переменные:

  • Дисперсия, или ожидаемое математическое отклонение тех результатов, которые будут получены, от того среднего значения, которое будет посчитано;
  • Коэффициент, отражающий уровень достоверности. Он будет равен 2, если достоверность 0,95, и 3, если достоверность 0,99.
  • Уровень точности.

В формуле квадрат дисперсии умножается на квадрат коэффициента делится на квадрат точности.

Рассмотрим, как будет работать эта формула на конкретном примере. Мы хотим узнать, какова сумма среднего чека в магазине. Для этого нам надо понимать, скольких людей мы должны опросить. Хозяин говорит: я ожидаю, что он составит примерно 500-700 гривен, значит, среднее отклонение составит 200 гривен. Достаточный для нас уровень достоверности – 0,95 (коэффициент – 2), а среднее значение должно иметь точность 20 гривен.

Значит, (200^2) * (2^2) / (20^2) = 40 000 * 4 / 400 = 400

Это означает, что нам будет достаточно 400 человек. Если бы требовалась более высокая точность (например, 10 гривен), то (200^2) * (2^2) / (10^2) = 40 000 * 4 / 100 = 1 600 человек.

Если бы при точности в 10 гривен мы хотели получить данные с более высокой точностью (например, 0,99 предполагает коэффициент 3), то (200^2) * (3^2) / (10^2) = 40 000 * 9 / 100 = 3 600 человек.

Какие сложности возникают у интервьюеров, когда они используют эту и другие, более сложные, формулы? Их несколько:

  • Иногда даже приблизительно сложно оценить «среднее ожидаемое значение» и среднюю дисперсию;
  • Мы рассмотрели пример, в котором один параметр и одна ситуация. А как быть, если в анкете 10 вопросов?
  • Если вопрос предполагает два, три или даже четыре варианта ответа?
  • Если вместо стандартных ответов «да» и «нет» должны быть более сложные – какие формулы использовать в данном случае?

Есть формулы, которые учитывают размер генеральной совокупности, а есть те, которым все равно, сколько проживает людей на данном участке. И выбрать правильную формулу иногда очень сложно.

Как же поступают на практике и каким образом решают возникающие проблемы?

Прежде всего, следует определить, какое количество опрашиваемых в состоянии охватить агентство с учетом временных и бюджетных показателей (проще говоря, сколько есть времени и какое количество интервьюеров, учитывая бюджет, можно себе позволить). Уровень достоверности обычно принимается равным 0,95. Только после этого можно перейти к расчету доверительного интервала.
При определении необходимого и достаточного количества людей, представленных в выборке, пользуются не столько математикой и статистикой, сколько накопленным опытом и теми неформальными правилами, которые приняты в этой сфере. Например, если есть необходимость исследовать узкую группу респондентов, то будет достаточно 30-50 человек. Пример узкой группы – женщины, замужем, из г. Одессы, возраст 30-45 лет, у которых 1 ребенок и ежемесячный доход на всю семью от 1000 до 1500 долларов США.

При этом те данные, которые будут получены, не могут распространяться на тех женщин, которые еще не замужем. Или на тех, у кого другой доход. Или на тех, у кого нет детей. Перечисленные характеристики являются значимыми, и их замена может привести к неправильным выводам. Ну и понятное дело – эти данные не могут распространяться на мужчин.

Что же делать, если надо охватить всех женщин города Одессы, а также понять, как эти характеристики влияют на результат? Нужно взять несколько групп: две группы – возрастные; три группы – по наличию детей и их количеству; три группы – в зависимости от возраста; три группы – по уровню дохода; две группы – в зависимости от уровня образования. Итого получится 108 групп, в каждой по 30 человек (минимальное значение). Значит, следует опросить 3 тыс. женщин.

Если такой путь кажется сложным и не вписывается в рамки бюджета, то можно обойтись опросом 500 женщин, а потом провести попарный факторный анализ. То есть отдельно исследовать, как влияют все факторы. При этом будет важным разбивать выборку на 2-3 группы, в каждой из которых будет порядка 100 или 50 респондентов.

Как должна выглядеть выборка, которая будет представлять все население Украины? Вот один из примеров.

  • Количество опрашиваемых – 1200 -3000 человек.
  • Количество групп – рассчитать: мужчины и женщины, три группы в зависимости от возраста, две – в зависимости от образования, три группы по доходу, пять – по месту жительства (город-миллионник или поселок городского типа).
  • Доверительный интервал – 3 процентных пункта. Если заявлено, что 30% украинцев употребляют майонез, то на самом деле от 27% до 33% наших соотечественников его будут кушать.

На практике размер выборки практически не зависит от того, насколько крупной была генеральная совокупность. Если исследуется город-милилионник или провинциальный городок с населением в 30 тыс. человек, размер выборки вполне может быть одинаков. Больше на выбор количества опрашиваемых влияет число значимых параметров:

Если нужна репрезентация по полу и возрасту – берите 300-400 человек в рамках одного населенного пункта.

Если нужна выборка по трем параметрам – достаточно 600 человек.

Если нужно исследование, в котором будут оцениваться пять параметров, то количество опрашиваемых следует увеличить до 1000-1200 человек.

Мы рассмотрели основные методы, которые используются при опросах и маркетинговых исследованиях. Надеемся, нам удалось изложить все так, чтобы Вам стало понятно, какие параметры следует закладывать в социологические разработки, чтобы их выводы удовлетворяли профессионалов своего дела и реально отражали картину.

Вам также могут понравиться

Комментарии

Loading...