Что такое большие данные и как использовать их для бизнеса: отвечает хакер Александр Варской
Какую информацию можно называть данными? Чем большие данные отличаются от других? Как и зачем их используют наука и бизнес? Что знают о вас банки и корпорации? С этими вопросами мы обратились к хакеру Александру Варскому — рассказываем все секреты в материале.
Все изображения для статьи создали нейросети. Обложку сгенерировала нейросеть Midjourney по запросу «Робот помогает бизнесмену», остальные иллюстрации сделаны через нейросети RuDalle и Craiyon по запросу Data Science.
Данные — это любая информация?
Когда мы говорим «данные», речь идет о структурированной информации. Информацией можно назвать таблицу, и массив данных, и художественное произведение, и запись разговора, и трекинг. Для бизнеса терминологические различия не имеют значения. Люди просто для того, чтобы не казаться необразованными или банальными и не болеть тавтологией, могут упоминать слова «информация», «данные», «массивы», «массивы данных», «базы данных».
Что такое «большие данные»? В каких сферах можно использовать их?
Термин «большие данные» появился из научного мира. В сфере науки есть не просто большие, а огромные данные. Возьмем астрофизику: вокруг нас в космосе находятся миллиарды объектов, они все время в движении, при этом Вселенная расширяется, и данные об этих процессах можно собирать и обрабатывать.
Большие данные нужны для всего, что связано с геолокацией. Спутники, которые отвечают за то, чтобы мы с вами друг друга нашли, чтобы такси подъехало к вашему подъезду, отправляют на Землю большие данные. Ведь таких, как вы, много, и все ждут свое такси.
В банковской сфере Big Data — это вообще основное. Большой банк, миллионы клиентов, нужно рассчитывать риски по кредитам. Формулы достаточно простые, но данных много. Я видел таблицы в некоторых банках. Это вам не клиентская база онлайн-магазинов, где есть адрес, имя, фамилия, телефон, пароль в личный кабинет и электронная почта — и всё, больше людям ничего не надо.
Банковская таблица — это 150 колонок: расчетные счета, БИК, АКПУ, поручители заемщика, его возраст, вес, рост — вообще всё. Банкам это интересно, поэтому их большие данные — большие не только в длину, но и в ширину, как крокодил, который не только зеленый, но и длинный.
Еще один пример — медицина и связанные с ней научные области. Для решения очень многих проблем, например, поиск лекарства от рака, вирусология, нужны большие данные. Когда началась пандемия COVID-19, ученые стали собирать статистику по заболевшим, и сейчас научный мир ее обрабатывает, чтобы выяснить, что же происходило во время пандемии, какие у нее будут последствия. Какая-то часть заболевших людей до сих пор подвергаются изучению, добровольному и недобровольному, скрытому и открытому.
Для чего бизнесу работать с большими данными?
Прежде всего это нужно для увеличения клиентской базы. Допустим, внешним источником информации является какой-то поток. Кстати, неважно, как он получен, вы можете купить данные легально или нелегально, перехватить или обменять. Например, по причине вашего географического расположения вы можете иметь доступ к большому количеству информации или, может быть, через вас проходит много сетевого трафика. Можно с помощью этого потока увеличить свои продажи, увеличить клиентуру, достичь нужной аудитории.
Еще бизнес может анализировать производственные процессы. Например, у металлургического завода могут быть сложные расчеты производства деталей или износа оборудования. Каждую долю секунды снимаются показатели, которые образуют данные немаленького размера. Их можно анализировать, а потом оптимизировать процессы.
Допустим, мой бизнес — это сельское хозяйство. Какие данные я могу получать и обрабатывать? Как понять, какие именно данные вам нужны?
Например, данные по геолокации комбайнов. Допустим, поля большие, нельзя пропустить ни колоска и, таким образом, увеличить надои пшеницы. Почему бы и нет?
Всё зависит от вашей сферы деятельности. Если вы что-то продаете, вас интересуют как минимум контактная информация клиентов (телефон и почта, соцсети и так далее), геолокация, другие признаки, по которым вы можете их дифференцировать.
Одна компания продавала одежду для малышей: владельцы хотели выхватывать данные из Instagram* беременных женщин, а для этого сканировать всю соцсеть — это о-го-го какие данные. Так они сформулировали заказ для компании, которая занималась большими данными и распознаванием изображений. Продавцы детской одежды хотели распознать, кто ходит с большим животом. И реализовали это, надо сказать.
Мне хочется собирать и обрабатывать данные, но нет возможности создавать внутреннюю инфраструктуру для работы с ними. Я могу воспользоваться каким-нибудь сервисом или отдать эту работу на аутсорс?
Если вам хочется самому собирать и обрабатывать, то зачем себя такого удовольствия лишать и отдавать на аутсорс? Тогда уж сами. Вам нужны место и мощности.
Сервера, то есть места для хранения данных, очень шумят. К тому же они большие, в офис в сумочке не принести. Чтобы не заниматься ими самостоятельно, вы можете купить место на серверах где-нибудь в Голландии или в Германии, и там эта адская машина с данными будет стоять и шуметь. Конечно, это стоит денег. Те, кто продает сервера, давно поняли: «Вот продукт для дата-обработки, он стоит немалых денег!» Не говорите, что собираетесь заниматься большими данными, просто назовите, сколько терабайт вам нужно.
Какие риски существуют в работе с большими данными? И как обеспечить безопасность?
Как и в работе с любой информацией, риски существуют. Данные утекают просто потому, что это данные. Если у мужчины рождается дочка, то он должен быть готов, что она когда-нибудь лишится девственности и выйдет замуж. Может быть, и не выйдет, но первое событие произойдет с высокой вероятностью. То же самое и с данными. Отвечу как хакер: полную безопасность данных не обеспечить никак.
Дополнительные риски возникают в связи с тем, что данные большие, а значит, с ними надо обходиться еще бережнее, а их целостность обеспечить сложнее. Бэкап вам будет делать дороже — представьте, что у вас петабайты данных. Чтобы обеспечить хотя бы какую-то безопасность, данные должны обслуживать люди. Вы не сможете выбрать определенные настройки, нажать галочки в меню и сказать, что вот теперь будет безопасно.
Какие еще виды данных существуют?
Например, Smart Data. Это когда на выходе у вас получается сегментированный, точечный массив данных людей. Маркетологи такие очень любят. Там нет ничего лишнего, что нужно обрабатывать, очищать и так далее. Это прям целевая аудитория. Есть еще Glance Data, от «взглянуть мельком». Это такой стохастический вариант для людей, которые не хотят углубляться в данные, а просто на них взглянуть.
И Point Data, то есть самые важные данные, сама суть.
Например, если кто-то хочет узнать, кто правит миром, то просто берет Point Data базы посетителей Давосского форума, а потом обрабатывает данные таким образом, чтобы узнать связи данных этих людей с внешним миром. Вокруг каждого будет сеть взаимосвязей, с помощью которой можно выйти на лиц, принимающих решение, кто за все отвечает.
Point Data очень трудно найти. Наверное, для этого нужно либо знать, где искать, либо обрабатывать очень много материала под названием «большие данные».
* Соцсеть, признанная в России экстремистской.