Мы используем файлы cookies. Продолжая пользоваться сайтом, вы соглашаетесь с этим. Узнать больше о cookies

Издательство «Альпина Паблишер» Москва, 4-я Магистральная улица, дом 5, строение 1 +74951200704
следующая статья
Разбираемся с «тёмными данными»: версия специалиста по визуализации данных

Разбираемся с «тёмными данными»: версия специалиста по визуализации данных

Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Эксперт в области визуализации данных и инфографики, основатель Дата-студии Андрей Дорожный рассказал о «спонтанных данных», которые собирают гаджеты, и ценности опровержения старых теорий.

По словам Дэвида Хэнда, автора книги о «тёмных данных», они могут быть опасны и создать проблемы — например, если исказить результаты медицинских исследований. Но работать с большими объёмами информации мы начали не так давно — раньше данных было гораздо меньше. Может ли опора на неполные данные навредить больше, чем отсутствие любых данных?

Люди веками использовали «малые данные». Я имею в виду данные статистики и переписей. Последние 20 лет стали появляться так называемые «спонтанные данные». Это могут быть данные соцсетей или носимых гаджетов. Они почти всегда неполные: кого-то нет в соцсетях, кто-то не носит гаджет. Но такие данные позволяют анализировать огромные объемы информации, включая перемещение объектов в пространстве. И те инсайты, которые получены в ходе такого анализа, гораздо ценнее ошибок и неточностей, которые в этих данных есть. И с каждым годом технологии и методы работы с большими данными будут развиваться, так что ждем будущих открытий.

Как использовать тёмные данные в свою пользу? Бывает так, что отсутствие информации не мешает, а помогает сделать правильный прогноз?

Смотря что считать «правильным прогнозом». Часто в российских компаниях результаты анализа данных используются для подтверждения собственной правоты или защиты проекта. В этом случае неполные данные помогают провернуть эту манипуляцию. Но если мы хотим принять действительно объективное решение, данные должны быть настолько полными, насколько они решают поставленную задачу. Игнорировать важные данные при этом недопустимо.

Давайте поговорим о данных в науке. Допустим, всё, что мы знаем о мире, может быть искажено «тёмными данными». В таком случае любая теория может быть позже опровергнута. Как в таких условиях отличать науку от лженауки?

Опровержение тех или иных теорий как раз и движет науку вперед. Наука — это система с четкими правилами и методами, этим она и отличается от ненаучного знания. Если тех или иных данных нет, эксперимент не проводится. Это как если бы опыт Павлова проводился без собаки. Научное знание развивается — и да, мы можем менять свою картину мира в свете новых исследований. Хороший пример — исследование коронавируса. В начале 2020 года мы знали о нем немного; сейчас собрано больше данных, и мы знаем те вещи, о которых даже не догадывались. Так что это всегда путь в темноте, но мы движемся дальше и «светлых» мест становится больше и больше.

Глеб Гавриш
руководитель маркетинговой редакции
При копировании материалов размещайте
активную ссылку на www.alpinabook.ru