Разбираемся с «тёмными данными»: версия дата-журналиста
Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Лауреат конкурса Data Journalism Awards в номинации «Лучший молодой дата-журналист года» Дада Линделл рассказала о работе дата-журналистов, о пропусках в больших данных, которые можно игнорировать, и тех, которые нельзя игнорировать ни в коем случае.
Дэвид Хэнд в книге «Тёмные данные» говорит о том, что на нашу жизнь большое влияние оказывают данные, которых у нас нет. Мы опираемся только на известную информацию и не подозреваем, что не знаем чего-то. Это приводит к ошибочным выводам. Можете объяснить, почему возникают «тёмные данные»?
Само по себе возникновение того, что профессор Хэнд в своей классификации называет «темными данными», — это нормально; известно, что никакого новаторства тут нет. Однако ценность книги как раз в том, что с её помощью можно в качестве введения ознакомиться с широким спектром возможных ошибок в статистических измерениях и выводах в сжатом виде. Вообще описанные классы «тёмных данных» называются иначе, missing data (неполные данные), к которым профессор Хэнд присовокупляет погрешности измерений. Или это можно назвать также пропусками в данных (missingness).
«Тёмные данные», как правило, возникают в случае непродуманной методологии. В другом возможном варианте их появление вследствие принятой методологии было продумано, и тогда исследователь пытается устранить возможную ошибку статистическими методами. В медицинских исследованиях — да и в любых других, просто все это началось с медицины — есть понятия non-ignorable missingness, те пропуски, которые нельзя игнорировать. Именно с утрированного примера такого пропуска и начинается книга; в противовес есть ignorable missingness — такие пропуски, которые можно игнорировать. Существование и работа с такими пропусками должны быть прописаны в методологии, в этом и состоит работа исследователя.
Как дата-сайентисты и дата-журналисты работают с этими отсутствующими данными? Учитывают ли они их, и если да, то как?
Как журналист, я ставлю перед собой задачу делать выводы на основе собранных самостоятельно данных, и минимизация возможных ошибок из-за «тёмных данных» тогда находится на моей стороне: приходится тщательно продумывать методологию, учитывать возможность влияния на выводы разных факторов. Нередко мы с редакторами отказывались от историй, в которых могли возникнуть ошибки из-за «тёмных данных».
А вот работая с государственной статистикой или с предоставленными кем-то уже обработанными данными, самое главное — понять, как и кем они собирались. Я всегда советую читать формы статистических наблюдений, регламенты или опросники. Кажется, например, что исследование Росстата по зарплатному неравенству охватывает всю Россию, однако это не так, ведь в нем берется информация о зарплатах только на средних и крупных предприятиях, а малый бизнес в исследовании не участвует. К тому же не учитывается теневая экономика. Такие исследования, если их правильно не интерпретировать и не донести эту информацию до читателя, могут привести к неправильным выводам.
Можете привести пример из практики или истории, когда ошибка в анализе больших данных привела к масштабным последствиям и повлияла на многих людей?
Такой пример приводит в книге сам профессор Хэнд, это катастрофа шаттла Challenger. В советской истории был еще более ужасающий пример ситуации, произошедшей по схожей причине: взрыв на Чернобыльской АЭС. Одна из наиболее вероятных причин этой трагедии — незнание конструкторами определённого эффекта, возникающего в топливных элементах при их резком извлечении из реактора при его низкой мощности. Яркое описание того, что происходит в топливных элементах в этой ситуации, приведено в сериале «Чернобыль» (HBO, 2019). По этой версии выходит, что, если бы конструкторы топливных элементов в полной мере осознавали этот процесс, они, наверное, могли бы его учесть. Но, возможно, у них не было доступа к таким данным, и учесть их никто не мог, чтобы внести правки в эксплуатационные инструкции.