Наука о данных как движущая сила технологий
«Не интересоваться данными означает не интересоваться самыми фундаментальными принципами жизни» — это фраза о том, что мы живем в век информации. А как насчет того, что мы живем в век данных? Любая информация — это данные о прошлом и настоящем. Алгоритмы их поиска, упорядочивания и передачи последующим поколениям отлично расписал Кирилл Еременко в книге «Работа с данными в любой сфере».
Для чего нужны данные
У автора готов ответ на этот вопрос: для создания историй о том, кто мы такие, как мы себя представляем, что нам нравится и когда мы хотим чего-то. И хотя данные нельзя получить из будущего, с их помощью можно сложить представление о грядущем и прогнозировать его.
«Данные нужны для того, чтобы проложить тропинку с уникальными виртуальными следами».
Не «наследить» в интернете сегодня очень сложно. По крайней мере прогрессивной половине человечества. Мы создаем собственную историю в сети, используя данные. А после того как история создана, эстафетная палочка переходит к машинам. Они знают о нас даже больше, чем мы сами. Они читают наши личные данные как сборник рассказов о нас. Мало кто знает, что работать с данными в конечном итоге означает быть рассказчиком, передающим информацию.
Как работать с данными
Наука о данных имеет необычайно широкий спектр и охватывает любую сферу человеческой деятельности. В книге «Работа с данными в любой сфере» четко выделяются пять этапов, которые составляют то, что называется процессом обработки и анализа данных:
- Сформулируйте вопрос.
- Подготовьте данные.
- Проанализируйте данные.
- Визуализируйте выводы.
- Представьте выводы.
«Наука о данных дает нам основу для ответа на дополнительные вопросы, связанные с массивом данных компании, а также для прогнозирования и идей по улучшению».
У технологической исследовательской фирмы Gartner даже есть модель для разделения науки о данных на четыре типа, и, если бизнес-аналитика соответствует первому типу анализа, наука о данных может помочь поставить галочки для трех остальных.
Наука о данных как движущая сила технологий
Мы постоянно говорим о том, что мир не стоит на месте. Заслугу в этих переменах мы приписываем технологиям, но мало кто думает о данных в контексте современных изобретений.
Вот почему вам стоит прочитать именно эту книгу, а не книгу о технологиях: вам нужно понять, как работает система, чтобы внести в нее изменения. Алгоритм такой: сначала понять ключевые принципы и масштабы распространения данных, затем уяснить для себя правила их сбора и анализа и наконец научиться представлять свои данные.
«Карточный домик»: история или данные
Сериал «Карточный домик», выпущенный развлекательной компанией Netflix, впервые доказал индустрии, насколько сильны могут быть данные не только в том, что касается охвата нужной аудитории, но и в управлении фактическим производством контента.
Сериал — политическая драма — выпуска 2013 г. был первой проверкой того, как данные могут быть применены в производстве хитов. В преддверии создания «Карточного домика» Netflix собирала данные о своих пользователях. Полученные сведения о зрительских привычках позволили Netflix группировать свой видеоконтент в разнообразные категории, скрытые от пользователей.
Когда информация об этих подкатегориях появилась в интернете несколько лет назад, люди были ошеломлены. Чтобы вы могли получить представление о том, насколько точно действовала Netflix, вот некоторые варианты подкатегорий: «Захватывающие фильмы ужасов 1980-х», «Хорошее образование и воспитание с участием героев „Маппет-шоу“», «Драмы шоу-бизнеса», «Глуповатая независимая сатира», «Откровенные фильмы о реальной жизни», «Умные фильмы о заграничных войнах», «Бросающие в дрожь триллеры» и «Признанные критиками мрачные фильмы-экранизации».
Оказалось, что существует значительное число подписчиков Netfix, которые наслаждались и работой Кевина Спейси, и серьезными политическими драмами. Остальное — перезапуск оригинального «Карточного домика» 1990-х гг. с Кевином Спейси в главной роли — это история (или это данные?).
Netflix достиг цели, извлекая все имевшиеся у компании данные по клиентам и применяя правильное сочетание моделей, чтобы найти связи между зрительскими привычками.
А данные всего лишь следуют за тем, чего хотят люди.