Data science: что это такое и где ей учиться
Онлайн-магазины, банки, стриминговые сервисы и многие другие компании собирают информацию о поведении своих пользователей. Чтобы найти в этих данных закономерности и использовать их для решения конкретных бизнес-задач, необходимо построить не одну модель и протестировать десятки гипотез. Здесь на помощь приходит Data Science — наука о данных.
Рассказываем, как появилась эта наука, чем занимается специалист по Data Science и какие навыки нужны, чтобы им стать.
Яндекс.Практикум — сервис онлайн-образования. Мы помогаем людям расти — на работе и в жизни. Вы освоите новую специальность, заговорите на иностранном языке и будете получать удовольствие от того, чем занимаетесь, каждый день. Здесь учатся, получают навыки и опыт, создают новое и меняют свою жизнь.
Что такое Data Science
При работе с данными Data Science находит нужные решения, руководствуясь методами статистики. Эти решения используют в медицине, чтобы с помощью данных об уже поставленных диагнозах точнее ставить новые, в онлайн-магазинах, чтобы рекомендовать товары, составлять акции и планировать закупки и даже в работе беспилотного транспорта — нейронные сети распознают дорогу, разметку и препятствия.
Зачем нужна отдельная наука о данных, если решения на основе данных принимали и раньше, например, с помощью построения диаграмм на основе опросов? Отдельная область знаний появилась потому, что количество данных и их сложность начали стремительно расти. Больше нельзя было обработать такие объёмы вручную, а закономерности стало труднее увидеть старыми методами.
Современная наука о данных делится на две условные категории: анализ данных и машинное обучение. К анализу данных относятся задачи поиска закономерностей, чтобы с их помощью отвечать на запросы бизнеса. Пример такой задачи: выяснить, какой товар и в какое время больше покупают, есть ли сезонные всплески интереса. Машинное обучение, в отличие от анализа, не даёт ответов на вопросы, но помогает делать автоматические предсказания, например, прогнозировать цены на авиабилеты, учитывая страну вылета и прилёта, дату и время отправления и другие факторы. Классические задачи машинного обучения: распознавание лиц и речи, рекомендации, поиск.
Есть несколько понятий, которые часто упоминают в контексте Data Science:
- ML (machine learning, «машинное обучение»). Про машинное обучение мы уже говорили выше, это набор методов и алгоритмов для создания моделей, которые могут предсказать результат по входным данным. Один из методов машинного обучения — нейросети.
- AI (artificial intelligence, «искусственный интеллект»). Искусственный интеллект используют в компьютерных системах для решения задач, в которых обычно нужна помощь человека. Например, чтобы узнавать людей на фото, анализировать и сравнивать книги в вашей электронной библиотеке и предлагать на их основе новые. Задачи искусственного интеллекта решают в том числе с помощью методов машинного обучения.
- BIG DATA («большие данные»). Для построения моделей машинного обучения требуются числовые и текстовые данные, фото, видео и аудио. Чтобы эту информацию хранить и анализировать нужно знание Big Data. Инженер по работе с большими данными продумывает, как собрать и где хранить данные, как сделать их доступными для внутренних и внешних пользователей.
У новичков в Data Science часто возникает путаница, когда нужно определить связи между этими тремя понятиями. На этой схеме хорошо показано, как это есть на самом деле:
Чем занимается специалист по Data Science
В задачи датасаентиста входит всё, о чём мы рассказывали выше: анализ данных, машинное обучение, построение моделей. Благодаря работе этих специалистов:
- Алиса понимает вашу речь и может поддержать разговор,
- Онлайн-магазины умеют подбирать сопутствующие товары, которые вы всё время забываете добавить в корзину,
- Камера IPhone умеет различать вас и ваших друзей в кадре.
Какие навыки нужны, чтобы стать специалистом по Data Science
У работодателей пока нет единых требований к таким кандидатам, набор навыков и инструментов зависит от задач конкретной компании. Можно выделить базовые требования для специалистов, которые работают с большим количеством данных:
- математика (статистика, теория вероятности, линейная алгебра и математический анализ), чтобы строить математические модели, искать закономерности или предсказывать что-то новое;
- программирование (языки программирования Python, R), чтобы написать модель для первоначальной оценки гипотезы, поиска общих данных или простой аналитики;
- машинное обучение, чтобы переобучать готовые или создавать собственные модели;
- инструменты анализа данных (библиотеки Pandas, Matplotlib).
Где узнать больше
Мы собрали книги, лекции и курсы, чтобы поближе познакомиться с наукой и задачами специалистов, которые с ней работают.
Yufeng Guo
«What is Machine Learning?»
Первый ролик из серии AI Adventures команды Google Cloud. В нём на простых примерах объясняется, как работает и где применяется машинное обучение. В полной серии 53 ролика, в которых подробно и просто рассказано о машинном обучении, работе облачных сервисов и искусственном интеллекте.
СТОИМОСТЬ: бесплатно
ЯЗЫК: английский, есть английские субтитры
Asitang Mishra
«Demystifying Data Science»
Датасаентист NASA Аситанг Мишра сравнивает себя с Властелином колец, потому что такой специалист совмещает много ролей. Он пытается объяснить различные причуды этой новой, быстрорастущей и порой расплывчатой области науки о данных в простых и доступных каждому терминах.
СТОИМОСТЬ: бесплатно
ЯЗЫК: английский, есть английские субтитры
Для тех, кто хочет научиться:
Профессия «Специалист по Data Science» в Яндекс.Практикуме
За 8 месяцев обучения вы освоите язык программирования Python, основы анализа данных и методы машинного обучения. Познакомитесь с основными системами хранения данных, научитесь решать простые задачи компьютерного зрения и определять тональность отзывов в интернете. Соберете портфолио из 17 проектов: спрогнозируете вероятность ухода клиента из банка и обучите модель для предсказания добычи нефти с наименьшим риском убытка.
Чтобы начать, достаточно иметь законченное среднее образование и возможность заниматься не меньше 10 часов в неделю. Первые 20 часов курса ― бесплатно, чтобы попробовать и принять решение, продолжать обучение или нет.
Специализация МФТИ и Яндекса «Машинное обучение и анализ данных»
Специализация включает в себя шесть курсов: «Математика и Python для анализа данных», «Обучение на размеченных данных», «Поиск структуры в данных», «Построение выводов по данным», «Прикладные задачи анализа данных», «Анализа данных: финальный проект». Вы освоите основные темы, необходимые в работе с большим массивом данных, научитесь строить рекомендательные системы, оценивать эмоциональную окраску текста и прогнозировать спрос на товар.
Курс Stepik «Введение в Data Science и машинное обучение»
Курс знакомит слушателей с основами машинного обучения и рассчитан в первую очередь на тех слушателей, которые только начинают свой путь в Data Science. Разберёте основные теоретические понятия, а также начнёте знакомство с библиотеками Pandas и Scikit-learn — наиболее популярными инструментами для анализа данных и машинного обучения, используя язык программирования Python. Для успешного прохождения потребуются базовые знания в области статистики и программирования на Python для решения практических задач (но его можно выучить и параллельно курсу).
Что такое блокчейн: 2 лекции, 2 книги и 5 курсов, чтобы разобраться
Объясняем для начинающих, понимающих и продвинутых
Новая версия Lean UX Canvas для команд, скрам-мастеров и владельцев продукта
Самый удобный шаблон для создания проектов в улучшенной версии