Як уникнути маніпуляцій соціологічними даними? Конспект вебінару Тетяни Костюченко

Чому в соцдослідженнях звертають увагу на формулювання запитань та відповідей? Що таке репрезентативність вибірки? Як «читати» опитування? Про це говорила експертка з соціальних досліджень, старша викладачка кафедри соціології Національного університету «Києво-Могилянська академія» Тетяна Костюченко під час вебінару з викладачами журналістики. Це вже третій захід із серії вебінарів з медіаграмотності, які спільно проводять Український інститут медіа та комунікації та IREX. Публікуємо нотатки основних тез розповіді Тетяни Костюченко.

Вибірка та репрезентативність

Чому опитують «вибірки», а не все населення?

Найбільші за обсягом і охопленням опитування — референдуми. Але на таких опитуваннях ставиться максимум два-три запитання. Це не буде повноцінна анкета, яка нам дозволить робити висновки про настрої населення стосовно, скажімо, вакцинації або децентралізації, судової реформи, досвіду, ставлення до корупції тощо. Одне чи два-три запитання нам будуть надавати певну «середню температуру по лікарні». Безперечно, це теж важливо, але якщо нам необхідно поставити більше запитань, то ми маємо розуміти, що таке опитування треба провести відносно швидко і за прийнятні кошти.

Вибірка дозволяє провести особисті інтерв’ю доволі швидко і не за всі гроші світу.

Репрезентативна вибірка — це відповідність певним загальним параметрам певної сукупності. Генеральна сукупність — це всі об’єкти обстеження, які визначені програмою соціологічного дослідження.

При загальнонаціональних опитуваннях важливою характеристикою є статево-вікова категорія населення. Також, якщо мова про дослідження на території України, ми маємо забезпечити, щоб потрапили люди з різних регіонів.

При побудові вибірки кожен елемент генеральної сукупності (людина, організація тощо) може потрапити у вибірку з рівною ймовірністю.

Після завершення збору даних проводиться контроль якості польового етапу. Зокрема це логічний контроль — коли ми працюємо з масивом даних і можемо порівняти розподіл відповідей. Якщо ми бачимо певні зсуви у характеристиках вибірки чи зміни в динаміці настроїв чи ставлення, або якісь нелогічності, то постають запитання: чи це справді зміна чи особливість у настроях населення, яку ми зафіксували, чи це просто помилка, що сталася на польовому етапі? У таких випадках дослідницькі команди розбираються безпосередньо, аж до кожного маршруту. Ми можемо робити порівняння в межах міста, кожного маршруту, кожного інтерв’юера, і, таким чином, виявляти порушення. Якщо це порушення, то зазвичай такі маршрути переробляються.

Якщо ми побудуємо різну кількість маршрутів у різних районах міста, розробимо правила, які НЕ будуть дозволяти інтерв’юерам опитати, наприклад, скупчення людей різного віку і статі на одній станції метро – то ми можемо сподіватися, що вибірка, яку ми плануємо реалізувати, буде репрезентативною населенню міста )

До чого розмір вибірки?

У людей часто постає питання: а чи справді вибірка є достатньо репрезентативною? І тут дехто помилково вважає, що чим більшою за розміром є вибірка, тим більш репрезентативною вона буде.

Розмір вибірки важливий для того, щоб ми могли робити висновки про точність вимірювання. Репрезентативною може бути загальнонаціональна вибірка в 400 осіб. І навпаки — вибірка в 40 000 осіб може бути нерепрезентативною через системну похибку. Системна похибка — це певний зсув у виборі респондентів і респонденток для участі в опитуванні. Він може бути зумовлений самим підходом до того, кого ми опитуємо.

Є класичний приклад системної похибки:

Опитування журналу Literary Digest у 1936 році щодо переможця у президентських виборах (опитали 2 млн — ! — передплатників журналу і передбачили перемогу Лендона, а в реальності вибори виграв Рузвельт).

В Інституті Геллапа вважають найбільш оптимальною загальнонаціональну вибірку у 1500 респондентів, бо вона дозволяє порівнювати певні підкатегорії у вибірці. Наприклад, порівняти відповіді за статтю, віковими категоріями, макрорегіонами тощо.

Приклади критеріїв репрезентативності:

для загальнонаціональної вибірки дорослого населення (стать, вік, територія проживання тощо)
для опитування юридичних осіб/підприємств (за кількістю працівників, доходом, формою власності тощо).

Розмір вибірки важливий, коли йдеться про статистичну похибку вибірки. Чим більше елементів вибірки ми дослідимо (за умови забезпечення репрезентативності), тим нижчою буде ця статистична похибка. Це важливо, бо чим вища статистична похибка (у малих вибірках), тим проблематичніше стверджувати, що наші висновки за результатами опитування є надійними.

Похибка вибірки також є різною, в залежності від того, яка величина показника характеристики у вибірці (наприклад, різною є статистична похибка для показників, близьких до 50%, та показників, близьких до 10% чи 90%). Статистична похибка вибірка говорить про таке: ми не зі 100% ймовірністю стверджуємо, що наші дані можна поширювати на всю генеральну сукупність. Зазвичай ймовірність у 0,95 є допустимою в соціальних дослідженнях, опитуваннях громадської думки.

Типи запитань

Різні типи запитань нам дають різні можливості працювати з даними:

Закрите (з варіантами відповіді) АБО відкрите
З можливістю вибрати одну відповідь або декілька
Важливо також скільки і варіантів ми пропонуємо (5, 10, 15)
З номінальною, порядковою, чи метричною шкалою
З дихотомією так/ні чи з можливістю вибрати ступінь згоди/незгоди

На цьому прикладі обидва запитання фахово складені. Однак, у першому є момент, який би варто було змінити. У самому формулюванні закладений натяк на позитивну відповідь. Усе ж таки має бути певний баланс у формулюваннях, ми повинні людині дати можливість сказати «Ні» вже самим формулюванням запитання.

Як ми бачимо, у першому випадку більше респондентів відповіли схвально, ніж у другому.

З цих даних можна зробити одну публікацію із заголовком «Переважна більшість, чи понад 80% населення України пишаються тим, що є громадянами України». Або можна зробити інший матеріал за результатами другого опитування: «Всього лише дві третини населення пишаються тим, що вони громадяни України».

Вплив формулювання запитання і списку варіантів відповідей на результати опитування

Журналістам важливо звертатися до першопочаткового формулювання запитання і переліку варіантів відповідей. Тому що інколи і в пресрелізах, і в презентаціях можуть не повідомляти формулювання запитань, а просто вказати тему. У таких випадках краще уточнити в дослідницької команди або в авторів дослідження, яким було початкове формулювання.

Правила формулювання запитань:

Вони мають бути однаково зрозумілі всім.
Для кожного респондента має знайтися той варіант відповіді, який відображає його/її погляди або досвід.
Якщо передбачений лише один варіант відповіді — не має бути кількох відповідей, які точно відображають погляди або досвід респондента (варіанти мають бути взаємно виключними).
Формулювання запитань не мають схиляти до певного вибору, який є більш привабливий, соціально схвалюваний.

Як «читати» опитування

(Поради від Американської Асоціації досліджень Громадської думки, AAPOR)