Разбираемся с «тёмными данными»: версия исследователя данных
Чтобы разобраться с тем, что такое «тёмные данные» и как их использовать, мы обратились к специалистам, которые работают с данными каждый день, и задали им несколько вопросов. Директор АНО «Информационная культура», руководитель Ассоциации участников рынка данных Иван Бегтин рассказал о способах использования больших данных, об ошибках при их сборе и обработке и объяснил, как устроена регуляторная политика в отношении данных в разных странах.
Как большие данные влияют на жизнь обычного человека? Можете описать преимущества и риски, связанные с их сбором и анализом?
Большие данные бывают разные. Это могут быть большие данные, которые собирают AdTech-корпорации для манипуляции потребителями, могут быть большие данные адронного коллайдера, а могут быть большие данные рентгеновских снимков для улучшения диагностики болезней. Большие данные можно сравнить с ядерной энергией. Как она влияет на жизнь человека? Даёт тепло и может унести миллиарды жизней. Всё зависит от того, в чьих она руках.
Объясните механизм работы с данными: как существующая где-то информация превращается в прогнозную модель? На какие шаги можно разложить этот процесс?
Прогнозные модели — это лишь один из многих вариантов продуктов на данных. Например, поисковые системы — это тоже продукты на данных; рекомендательные системы также основаны на данных; на данных создаются все системы «мягкого искусственного интеллекта», распознавания образов, умные станки, голосовые помощники и многое другое. В прогнозных моделях данные чаще используются для того, чтобы получить картину прошлого или настоящего, иногда чтобы скорректировать будущее. Всё начинается со сбора данных, отбора ключевых элементов (параметров), а далее применение разного рода алгоритмов выявления закономерностей.
Стоит ли верить большим данным? Какова вероятность ошибок или искажений и от чего они зависят?
Данные собирают люди или приборы. Доверие им такое же, как доверие процедурам сбора. Хорошие и правильные решения приводят к хорошим данным, плохие решения — к плохим. Так, если у вас есть система с форматно-логическим контролем (проверкой того, что все вводимые данные вводятся верно), то и вероятность, что в ней будут ошибочные данные из-за опечатки в каком-то коде невелика. А если вы создали систему датчиков анализа потоков пользователей в зависимости от их идентификаторов устройств Wi-Fi, а потом производители меняют правила игры и делают эти идентификаторы переменными, то и ваша система сбора данных перестанет работать. Индустрия данных стремится к контролю за потоками данных, автоматизации их по возможности и контролю качества как первой необходимости.
Некоторые люди боятся оставлять цифровые следы: не сидят в соцсетях, отключают рекламу, используют шифрующие приложения. Они правы? Насколько наши данные защищены?
Наши данные защищены по-разному, но всё зависит от того, от кого мы хотим их защищать. От хакеров? У крупных сервисов защита в целом неплохая. От владельца данных? Мало защищены и только законодательно. Платформы часто злоупотребляют своими возможностями манипуляции пользователями. От государства? Защищены только выбором сервиса, с которым работаем, и его юрисдикцией. Например, регуляторная политика Евросоюза направлена на защиту граждан входящих в ЕС стран в любой точке мира и при использовании его сервисов, регуляторная политика Китая ориентирована на защиту интересов китайских компаний, а регуляторная политика США — на баланс интересов потребителей в США и крупнейших цифровых корпораций. Баланс важен, поскольку чрезмерная защита граждан приводит к существенным ограничениям для бизнеса, а недостаточная — к серьёзному социальному давлению на компании и на власти стран.