Чого навчати студентів, аби виростити з них дата-журналістів. Конспект вебінару Юлії Дукач

post-image
Марина Курильчук
Як перетворювати масиви «страшних» даних на зручні таблиці, а потім і на красиві графіки — про це Юлія Дукач, соціологиня, дата-аналітикиня та керівниця відділу дослідження російської дезінформації у Texty.org.ua, розповіла на вебінарі 19 грудня. Захід відбувся в межах проєкту «Академія викладачів журналістики», який реалізовує Український інститут медіа та комунікації за підтримки DW Akademie.

Публікуємо нотатки з вебінару.

Дата-журналістика: необмежений простір для роботи

Ще у двохтисячних у світових медіа, як-от The Washington Post та The New York Times, виходили великі дата-проєкти. Але саме зараз дата-журналістика переживає бум. Окрім «Текстів», в Україні нею займається NGL.media. Великі видання, як-от Forbes, Liga, відкрили профільні відділи, а Радіо Свобода час від часу шукає дата-журналістів.

Журналістика даних охоплює багато різних підходів, навичок, інструментів (навіть найпростіші, як-от таблиці в Excel або Google), тож навряд чи можна сформувати повний перелік обов’язкових для її опанування штук. Та й різні дата-журналісти, найімовірніше, працюють за різними підходами та у різних сферах. Я, наприклад, активно користуюся Python і машинним навчанням для аналізу даних, хтось працює без мов програмування, а дехто має справу з супутниковими знімками.

Під даними ми розуміємо деталізовані та неагреговані дані. Тобто дата-журналіст — це не та людина, яка посилається у своєму матеріалі на результати досліджень, а та, яка працює з великими таблицями даних (як на зображенні нижче) і виводить з них певний відсоток, що потім йде у публікацію.

Приклад таблиці, з якою зазвичай працює дата-журналіст
Приклад таблиці, з якою зазвичай працює дата-журналіст

Є кілька чинників, що впливають на розвиток журналістики даних:

  • Кількість цифрових даних зростає в геометричній прогресії.
  • Водночас дані стало набагато легше діставати: у мережу заходять державні інституції та громадські організації.
  • Завдяки розвитку обчислювальних засобів суттєво знизився барʼєр входження в аналіз даних. Зараз є багато бібліотек, які дозволяють це робити без детального знання мов програмування.

Журналістика даних — не заміна журналістиці, а її доповнення.

Як створюються проєкти

Зазвичай робота над дата-проєктом триває від одного до трьох місяців. Масштабні проєкти потребують іноді більше часу. Наприклад, не один місяць ми працювали над дослідженням масштабів нелегального видобутку бурштину. На таких територіях, як правило, змивають верхній родючий шар ґрунту, тому їх видно на супутникових знімках. Їх ми й шукали за допомогою машинного алгоритму, який аналізував знімки та знаходив всі випадки видобутку бурштину за останні роки.

Інший приклад — проєкт, в межах якого ми досліджували алгоритм рекомендацій в українському сегменті YouTube, робота над ним зайняла щонайменше пів року. По-перше, ми мали знайти людей, які б погодилися встановити собі у Google Chrome наш спеціальний застосунок, який би фіксував, що вони дивилися у YouTube протягом місяця і які рекомендації їм випадали. По-друге, розробити, власне, цей застосунок. І, зрештою, треба було проаналізувати зібрані дані та підготувати публікацію.

Іноді задумуєшся: чи настільки важливе це питання, чи варте того, аби на нього витрачати стільки часу?

Що таке дані та якими вони бувають

Коли ми говоримо про дані, то маємо на увазі структуровані та машиночитані формати. Ті, що надає та ж українська статистика, часто не відповідають обом критеріям відразу.

Машиночитані дані бувають або табличними, або ієрархічними. Більшість із нас працює із першим типом, однак ті відкриті дані, які ми можемо дістати з інтернету, найчастіше належать до другого типу.

Приклад табличних даних
Приклад ієрархічних даних

Зазвичай дата-журналісти натрапляють на дані, які мають вигляд, як на зображенні нижче. Якщо ви не знаєте, що з ними робити і як їх перетворювати на пласку таблицю, наприклад, у форматі Excel, то жодного дата-проєкту на основі цих даних не вийде. До того ж більшість сервісів, які роблять візуалізації, працює з таблицями.

дані, з якими працює дата-журналіст

Важливо ще й правильно оформити цю таблицю. Зокрема, треба памʼятати, що колонка — це набір значень одного типу: в ній не має бути подвійних заголовків, приміток, коментарів. Також треба враховувати, що дані, з якими ви матимете справу, не завжди будуть уніфікованими або «чистими». Наприклад, під час дослідження експертів в українському YouTube я нарахувала пʼять різних варіантів апострофа. Так само можуть бути різні лапки, формати запису дат, відокремлення у десятковому дробі тощо. Тому кожен дата-журналіст має вміти такі дані «почистити».

дані, з якими працює дата-журналіст

Базові вимоги до наповнення таблиць:

  • Не використовуємо об’єднані комірки.
  • Один рядок даних відповідає одному спостереженню.
  • Один стовпчик в таблиці — одна змінна.
  • Не використовуємо перенесення рядка в текстовій комірці.
  • Звертаємо увагу та правильно обираємо формат комірок (текст, число, дата).
  • Не поєднуємо кілька одиниць даних в одній комірці.
  • Не використовуємо латинські літери замість кириличних і навпаки.
  • На початку і в кінці комірки з даними не має бути пробілів. Самі пробіли не можуть повторюватися.
  • Не залишайте порожніх комірок — внесіть в них запис null.

Де шукати дані

Можна користуватися порталами відкритих даних органів державної влади, зокрема:

Також ви можете шукати інформацію на міських геопорталах, однак врахуйте, що багато із них закрилися після 24 лютого 2022 року.

В Українського центру оцінювання якості освіти є дані по ЗНО та НМТ в машиночитному форматі. Вони деперсоналізовані, проте на їхній базі можна, скажімо, зробити порівняльний аналіз шкіл у регіонах.

Є велика кількість міжнародних платформ, які акумулюють дані:

Ці та інші ресурси можна використовувати, щоб порівнювати ситуацію в Україні та у світі. Так, у нас можуть бути певні прогалини у даних. Але оскільки Україна є членом спільнот відкритих даних, то в більшості випадків намагаються підтягувати наші статистичні показники.

Усі дані, що публікуються в інтернеті, наприклад, в онлайн-магазинах або на платформах пошуку роботи, можна витягувати навіть без навичок програмування за допомогою, наприклад, додатків для Google Chrome.

Також легко вивантажуються дані з Telegram, і аналізувати можна не лише новини, а й цікаві для себе теми. Наприклад, можна вивантажити всі повідомлення з каналу улюбленого книжкового блогера й порахувати, скажімо, які автори або видання згадувалися найчастіше, скільки було реклами.

Здавалося б, якщо дані вже відкриті, зібрані, структуровані, то, напевно, у них уже немає нічого цікавого або в них дослідили все, що могли. Але це не так. По-перше, навіть якщо хтось працював з певними масивами даних, це не означає, що є гарні якісні журналістські публікації на цю тему. По-друге, у даних приховано надзвичайну кількість інформації, тому на їхній основі можна робити багато чого.

Візуалізація

Дата-журналіст повинен мати базові навички візуалізації, аби хоча б розуміти, коли потрібно робити графік, а коли простіше дати таблицю. Графік — це завжди одна готова відповідь / ідея / теза. Натомість в таблиці подають дані, в яких є багато відповідей, щоправда, їх не помітно відразу.

Є два правила візуалізації в журналістиці даних, між якими має бути баланс.

По-перше, графік має бути самодостатнім. Тобто якщо читачі витягнуть його з матеріалу і почнуть поширювати у соцмережах без посилання на повний текст (а таке буває часто з красивими графіками), то іншим людям має бути зрозуміло, про що йдеться.

По-друге, у центрі уваги мають бути дані, а не підписи й пояснення (принцип «економії чорнил»). Уявіть, що графік треба видрукувати, і кожну рисочку, крапочку, символ, пофарбоване треба оплатити. Тоді перевіряємо себе: чи можемо щось видалити та не дублювати, зробити не чорним, а світло-сірим, і водночас зберегти важливу інформацію?

Список корисних ресурсів для майбутніх дата-журналістів

  • посібник «Відкриті дані: формати та правила створення» від Texty.org.ua;
  • The Pudding — сайт, на якому публікують візуальні історії, створені на основі даних. Автори беруться за нестандартні теми, приміром, досліджують, що саме Китай цензурує в іноземних творах (на прикладі серіалу «Теорія великого вибуху»);
  • інструменти для створення графіки Datawrapper та Flourish;
  • безплатний онлайн-курс із візуалізації даних на Prometheus;
  • курс з очищення даних в Excel.

У матеріалі використано слайди із презентації Юлії Дукач

Коментарі