Мы используем файлы cookies. Продолжая пользоваться сайтом, вы соглашаетесь с этим. Узнать больше о cookies
На информационном ресурсе применяются рекомендательные технологии. Подробнее

Издательство «Альпина Паблишер» 123007, г. Москва, ул. 4-ая Магистральная, д. 5, стр. 1 +74951200704
следующая статья
Data science: что это такое и где ей учиться

Data science: что это такое и где ей учиться

Онлайн-магазины, банки, стриминговые сервисы и многие другие компании собирают информацию о поведении своих пользователей. Чтобы найти в этих данных закономерности и использовать их для решения конкретных бизнес-задач, необходимо построить не одну модель и протестировать десятки гипотез. Здесь на помощь приходит Data Science — наука о данных.

Рассказываем, как появилась эта наука, чем занимается специалист по Data Science и какие навыки нужны, чтобы им стать.

Яндекс.Практикум — сервис онлайн-образования. Мы помогаем людям расти — на работе и в жизни. Вы освоите новую специальность, заговорите на иностранном языке и будете получать удовольствие от того, чем занимаетесь, каждый день. Здесь учатся, получают навыки и опыт, создают новое и меняют свою жизнь.

Что такое Data Science

При работе с данными Data Science находит нужные решения, руководствуясь методами статистики. Эти решения используют в медицине, чтобы с помощью данных об уже поставленных диагнозах точнее ставить новые, в онлайн-магазинах, чтобы рекомендовать товары, составлять акции и планировать закупки и даже в работе беспилотного транспорта — нейронные сети распознают дорогу, разметку и препятствия.

Зачем нужна отдельная наука о данных, если решения на основе данных принимали и раньше, например, с помощью построения диаграмм на основе опросов? Отдельная область знаний появилась потому, что количество данных и их сложность начали стремительно расти. Больше нельзя было обработать такие объёмы вручную, а закономерности стало труднее увидеть старыми методами.

Современная наука о данных делится на две условные категории: анализ данных и машинное обучение. К анализу данных относятся задачи поиска закономерностей, чтобы с их помощью отвечать на запросы бизнеса. Пример такой задачи: выяснить, какой товар и в какое время больше покупают, есть ли сезонные всплески интереса. Машинное обучение, в отличие от анализа, не даёт ответов на вопросы, но помогает делать автоматические предсказания, например, прогнозировать цены на авиабилеты, учитывая страну вылета и прилёта, дату и время отправления и другие факторы. Классические задачи машинного обучения: распознавание лиц и речи, рекомендации, поиск.

Есть несколько понятий, которые часто упоминают в контексте Data Science:

  1. ML (machine learning, «машинное обучение»). Про машинное обучение мы уже говорили выше, это набор методов и алгоритмов для создания моделей, которые могут предсказать результат по входным данным. Один из методов машинного обучения — нейросети.
  2. AI (artificial intelligence, «искусственный интеллект»). Искусственный интеллект используют в компьютерных системах для решения задач, в которых обычно нужна помощь человека. Например, чтобы узнавать людей на фото, анализировать и сравнивать книги в вашей электронной библиотеке и предлагать на их основе новые. Задачи искусственного интеллекта решают в том числе с помощью методов машинного обучения.
  3. BIG DATA («большие данные»). Для построения моделей машинного обучения требуются числовые и текстовые данные, фото, видео и аудио. Чтобы эту информацию хранить и анализировать нужно знание Big Data. Инженер по работе с большими данными продумывает, как собрать и где хранить данные, как сделать их доступными для внутренних и внешних пользователей.

У новичков в Data Science часто возникает путаница, когда нужно определить связи между этими тремя понятиями. На этой схеме хорошо показано, как это есть на самом деле:

Источник: Хабр

Чем занимается специалист по Data Science

В задачи датасаентиста входит всё, о чём мы рассказывали выше: анализ данных, машинное обучение, построение моделей. Благодаря работе этих специалистов:

  • Алиса понимает вашу речь и может поддержать разговор,
  • Онлайн-магазины умеют подбирать сопутствующие товары, которые вы всё время забываете добавить в корзину,
  • Камера IPhone умеет различать вас и ваших друзей в кадре.

Какие навыки нужны, чтобы стать специалистом по Data Science

У работодателей пока нет единых требований к таким кандидатам, набор навыков и инструментов зависит от задач конкретной компании. Можно выделить базовые требования для специалистов, которые работают с большим количеством данных:

  • математика (статистика, теория вероятности, линейная алгебра и математический анализ), чтобы строить математические модели, искать закономерности или предсказывать что-то новое;
  • программирование (языки программирования Python, R), чтобы написать модель для первоначальной оценки гипотезы, поиска общих данных или простой аналитики;
  • машинное обучение, чтобы переобучать готовые или создавать собственные модели;
  • инструменты анализа данных (библиотеки Pandas, Matplotlib).

Где узнать больше

Мы собрали книги, лекции и курсы, чтобы поближе познакомиться с наукой и задачами специалистов, которые с ней работают.

Yufeng Guo

«What is Machine Learning?»

Первый ролик из серии AI Adventures команды Google Cloud. В нём на простых примерах объясняется, как работает и где применяется машинное обучение. В полной серии 53 ролика, в которых подробно и просто рассказано о машинном обучении, работе облачных сервисов и искусственном интеллекте.

СТОИМОСТЬ: бесплатно

ЯЗЫК: английский, есть английские субтитры

Asitang Mishra

«Demystifying Data Science»

Датасаентист NASA Аситанг Мишра сравнивает себя с Властелином колец, потому что такой специалист совмещает много ролей. Он пытается объяснить различные причуды этой новой, быстрорастущей и порой расплывчатой области науки о данных в простых и доступных каждому терминах.

СТОИМОСТЬ: бесплатно

ЯЗЫК: английский, есть английские субтитры

Для тех, кто хочет научиться:

СТОИМОСТЬ: 90 000 рублей ЯЗЫК: русский

Профессия «Специалист по Data Science» в Яндекс.Практикуме

За 8 месяцев обучения вы освоите язык программирования Python, основы анализа данных и методы машинного обучения. Познакомитесь с основными системами хранения данных, научитесь решать простые задачи компьютерного зрения и определять тональность отзывов в интернете. Соберете портфолио из 17 проектов: спрогнозируете вероятность ухода клиента из банка и обучите модель для предсказания добычи нефти с наименьшим риском убытка.

Чтобы начать, достаточно иметь законченное среднее образование и возможность заниматься не меньше 10 часов в неделю. Первые 20 часов курса ― бесплатно, чтобы попробовать и принять решение, продолжать обучение или нет.

Подробнее о курсе →

-23%
Твердый переплет
990 руб. 766 руб.
 шт.
В корзине
СТОИМОСТЬ: 6 036 рублей в месяц, можно прослушать бесплатно ЯЗЫК: русский

Специализация МФТИ и Яндекса «Машинное обучение и анализ данных»

Специализация включает в себя шесть курсов: «Математика и Python для анализа данных», «Обучение на размеченных данных», «Поиск структуры в данных», «Построение выводов по данным», «Прикладные задачи анализа данных», «Анализа данных: финальный проект». Вы освоите основные темы, необходимые в работе с большим массивом данных, научитесь строить рекомендательные системы, оценивать эмоциональную окраску текста и прогнозировать спрос на товар.

Подробнее о курсе →

СТОИМОСТЬ: бесплатно ЯЗЫК: русский

Курс Stepik «Введение в Data Science и машинное обучение»

Курс знакомит слушателей с основами машинного обучения и рассчитан в первую очередь на тех слушателей, которые только начинают свой путь в Data Science. Разберёте основные теоретические понятия, а также начнёте знакомство с библиотеками Pandas и Scikit-learn — наиболее популярными инструментами для анализа данных и машинного обучения, используя язык программирования Python. Для успешного прохождения потребуются базовые знания в области статистики и программирования на Python для решения практических задач (но его можно выучить и параллельно курсу).

Подробнее о курсе →

Читайте также

Что такое блокчейн: 2 лекции, 2 книги и 5 курсов, чтобы разобраться

Объясняем для начинающих, понимающих и продвинутых

Читайте также

Новая версия Lean UX Canvas для команд, скрам-мастеров и владельцев продукта

Самый удобный шаблон для создания проектов в улучшенной версии

Самое интересное — у вас в почте.
Отправляем дайджест лучших статей раз в две недели.

Заполняя эту форму, я подтверждаю, что ознакомился с Правилами сайта, и даю согласие на обработку персональных данных.

reCAPTCHA используется в соответствии с Политиками и Правилами использования Google.
Спасибо за подписку!
При копировании материалов размещайте
активную ссылку на www.alpinabook.ru