Мы используем файлы куки и рекомендательные технологии.
Продолжая пользоваться сайтом, вы соглашаетесь на их применение.

Издательство «Альпина Паблишер» 123007, г. Москва, ул. 4-ая Магистральная, д. 5, стр. 1 +74951200704
следующая статья
Разбираемся с «тёмными данными»: версия дата-журналиста

Разбираемся с «тёмными данными»: версия дата-журналиста

Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Лауреат конкурса Data Journalism Awards в номинации «Лучший молодой дата-журналист года» Дада Линделл рассказала о работе дата-журналистов, о пропусках в больших данных, которые можно игнорировать, и тех, которые нельзя игнорировать ни в коем случае.

Дэвид Хэнд в книге «Тёмные данные» говорит о том, что на нашу жизнь большое влияние оказывают данные, которых у нас нет. Мы опираемся только на известную информацию и не подозреваем, что не знаем чего-то. Это приводит к ошибочным выводам. Можете объяснить, почему возникают «тёмные данные»?

Само по себе возникновение того, что профессор Хэнд в своей классификации называет «темными данными», — это нормально; известно, что никакого новаторства тут нет. Однако ценность книги как раз в том, что с её помощью можно в качестве введения ознакомиться с широким спектром возможных ошибок в статистических измерениях и выводах в сжатом виде. Вообще описанные классы «тёмных данных» называются иначе, missing data (неполные данные), к которым профессор Хэнд присовокупляет погрешности измерений. Или это можно назвать также пропусками в данных (missingness).


«Тёмные данные», как правило, возникают в случае непродуманной методологии. В другом возможном варианте их появление вследствие принятой методологии было продумано, и тогда исследователь пытается устранить возможную ошибку статистическими методами. В медицинских исследованиях — да и в любых других, просто все это началось с медицины — есть понятия non-ignorable missingness, те пропуски, которые нельзя игнорировать. Именно с утрированного примера такого пропуска и начинается книга; в противовес есть ignorable missingness — такие пропуски, которые можно игнорировать. Существование и работа с такими пропусками должны быть прописаны в методологии, в этом и состоит работа исследователя.

Как дата-сайентисты и дата-журналисты работают с этими отсутствующими данными? Учитывают ли они их, и если да, то как?

Как журналист, я ставлю перед собой задачу делать выводы на основе собранных самостоятельно данных, и минимизация возможных ошибок из-за «тёмных данных» тогда находится на моей стороне: приходится тщательно продумывать методологию, учитывать возможность влияния на выводы разных факторов. Нередко мы с редакторами отказывались от историй, в которых могли возникнуть ошибки из-за «тёмных данных».


А вот работая с государственной статистикой или с предоставленными кем-то уже обработанными данными, самое главное — понять, как и кем они собирались. Я всегда советую читать формы статистических наблюдений, регламенты или опросники. Кажется, например, что исследование Росстата по зарплатному неравенству охватывает всю Россию, однако это не так, ведь в нем берется информация о зарплатах только на средних и крупных предприятиях, а малый бизнес в исследовании не участвует. К тому же не учитывается теневая экономика. Такие исследования, если их правильно не интерпретировать и не донести эту информацию до читателя, могут привести к неправильным выводам.

Можете привести пример из практики или истории, когда ошибка в анализе больших данных привела к масштабным последствиям и повлияла на многих людей?

Такой пример приводит в книге сам профессор Хэнд, это катастрофа шаттла Challenger. В советской истории был еще более ужасающий пример ситуации, произошедшей по схожей причине: взрыв на Чернобыльской АЭС. Одна из наиболее вероятных причин этой трагедии — незнание конструкторами определённого эффекта, возникающего в топливных элементах при их резком извлечении из реактора при его низкой мощности. Яркое описание того, что происходит в топливных элементах в этой ситуации, приведено в сериале «Чернобыль» (HBO, 2019). По этой версии выходит, что, если бы конструкторы топливных элементов в полной мере осознавали этот процесс, они, наверное, могли бы его учесть. Но, возможно, у них не было доступа к таким данным, и учесть их никто не мог, чтобы внести правки в эксплуатационные инструкции.

Глеб Гавриш
Руководитель маркетинговой редакции
Глеб Гавриш
Руководитель маркетинговой редакции
При копировании материалов размещайте
активную ссылку на www.alpinabook.ru