Уважаемые пользователи Голос!
Сайт доступен в режиме «чтение» до сентября 2020 года. Операции с токенами Golos, Cyber можно проводить, используя альтернативные клиенты или через эксплорер Cyberway. Подробности здесь: https://golos.io/@goloscore/operacii-s-tokenami-golos-cyber-1594822432061
С уважением, команда “Голос”
GOLOS
RU
EN
UA
archibald116
7 лет назад

Большие данные для самых маленьких

Если Вы — "блондинка", то прочитав этот пост, сможете выделиться перед друзьями/коллегами: будете с серьезным видом понимающе кивать, когда  пойдет очередное упоминание о "Big Data" по TV.

*

Что же скрывается под этим модным словечком? Начнем издалека. Люди всегда старались записывать важную для них  информацию, которую сейчас принято назвать словом "данные".  Какую например? Прежде всего финансы: кто сколько и чего продал, кто кому под какой процент занял. Во вторую очередь научные наблюдения, исторические записи: во сколько встало/село солнце, кто на ком сколько раз женился/развелся и т.д.

У данных как правило есть некоторая структура представления информации, и они периодически дополняются новыми записями. В этом отличие "данных" от, например, литературы и научных трудов. Теперь ближе к делу. Раньше данные записывались на камнях и глиняных табличках, потом тетрадках и журналах. 

Не очень давно приспособили для этого дела компьютеры, на которых завели, так называемые, "базы данных". Те  же тетрадки, только в электронном виде, хранящиеся как правило на жестких дисках.  Постепенно базы данных стали храниться не на одном, а на нескольких дисках (сервер). Затем не на одном, а на нескольких серверах. И на этом не остановились...

Сейчас мы живем в эпоху, когда база данных может занимать несколько датацентров, причем расположенных на разных континентах. Вот этот феномен и получил название big data. Подчеркивается, что данные не просто большие, а настолько большие, что требуют для хранения и работы специальные программы и аппаратуру.Не обязательно база данных занимает несколько серверов, пполне возможно, что она пока помещается в его ноутбуке. Но при этом она сделана на таких программах, что при росте легко переедет на несколько серверов.



А почему данных вдруг стало так много?

По мере роста емкости дисков и снижении их стоимости (а также стоимости компьютерной техники), росло и количество информации, которую записывает человечество. Если раньше записывали только самое-самое важное, в основном про деньги, то теперь появилась возможность записывать самые незначительные (на первый взгляд) детали. 

  • На сайтах как именно вы провели мышкой на странице, над какой кнопкой задумались, до куда прокрутили страницу, какие разделы посетили;
  • В магазинах какие товары Вы обычно покупаете вместе (например, чипсы часто берут с газировкой), у какой витрины задержались, по какому маршруту ходите по торговому залу;
  • На сайтах знакомств какие анкеты вы открыли, сколько секунд смотрели каждую, чьи фотографии просмотрели внимательнее;
  • В метеорологии очень детальные метеонаблюдения в огромном количестве точек планеты;
  • И таких примеров очень много - в науке, в бизнесе... 

Хранение столь детальной информации требует очень большого объема баз данных, при этом - доступного по цене. Как только появились программы и аппаратура, так и записываемые данные стали все более и более детальными.



И что с этими big data делают?

А далее в дело вступает Data Science. Записанные данные анализируются, ищутся закономерности. Бизнес в результате сможет больше вам продать, ученые сильнее продвинуть науку. 

Вернемся к примерам из предыдущего абзаца: на сайтах разделы (и кнопки на странице) располагают так, чтобы Вы как можно быстрее находили нужную вам информацию. А еще лучше как можно быстрее купили совершенно не нужный вам товар. 

В магазине то же самое: объявляются акции (скидки на чипсы) --> по маршруту вашего передвижения по залу ставят газировку, которую вы на автомате возьмете --> и вот рост продаж газировки перекрывает недополученную прибыль от чипсов. На сайте знакомств вам начинают предлагать те анкеты, которые по характеристикам близки к понравившимся вам. Метеорологи все точнее и точнее предсказывают погоду, ну, по крайней мере на ближайшие дни. 



Это они виноваты в том, что я покупаю лишнее?!

Напрямую нет.  Вы жертва маркетингового отдела (в магазине) или дизайнера интерфейсов (на сайте). А вот им уже помогли работники big data, а так же data science вообще.

*

С большими данными работают:

  • инженеры обслуживают программы и аппаратуру, хранящие данные;
  • программисты  пишут программы, позволяющие записывать и выбирать данные. Как правило в data science в чистом виде программистов нет, по выполняемой работе они либо ближе к инженерам, либо к аналитикам.
  • аналитики анализируют накопленные данные, делают выводы и дают рекомендации на основе этих выводов. Вот эта группа людей вполне могла навести маркетинговый/дизайнерский отдел к тому, как заставить вас больше покупать.
  • data scientist (адекватного русского перевода этому термину нет). Если говорить очень и очень упрощенно, эти люди придумывают алгоритмы, с помощью которых аналитики очень быстро получают из данных нужную информацию.

Помните, заниматься big data это не только модно, но и как правило высокоплачиваемо ⚠️



Итак, big data...

Big Data это термин, обозначающий программы и аппаратуру, хранящие базы данных, которые могут расти в размерах почти бесконечно. В которые пишется настолько много детальной информации, что кажется что она бессмысленная и ненужная. Но потом эту информацию анализируют, и узнают новые интересные закономерности, которые помогают принимать решения в бизнесе/науке.



Так что там насчет Data Science?

 Самая понятная формулировка, которую можно найти в интернет, гласит:

Data Science — это наука о методах анализа данных и извлечения из них ценной информации, знаний. 


Именно благодаря Data Science вам отказывают в кредите (или наоборот) буквально за 1 минуту. Умная машина получает от Вас информацию: возраст, доход, семейное положение и т.д. И тут же подсчитывает вероятность, что Вы не будете отдавать кредит. Если она высокая, Вам вежливо откажут, если низкая, одобрят.

Примерно так же происходит кредитование предприятий, ввод новых банковских тарифов (вклады, банковские карточки), все тщательно просчитывается.В страховании теперь можно рассчитать вероятность того, что клиент разобьет свою машину и страховой придется отстегивать деньги на ее ремонт. Это и раньше делалось, с помощью математической статистики. Но теперь точность таких расчетов поражает.

А вот примеры, которые еще лет 10-20 назад казались фантастикой:  

  • распознавание изображений (ваши штрафы за превышение скорости, сфотографированное камерами, приходят благодаря Data Science);
  • предсказания в самых разных областях: ваших покупок в магазине на основе вашей предыдущей истории покупок, еще не проявившихся болезней по набору анализов и обследований, результатов спортивных матчей, выборов, экономических показателей;
  • автоматическое регулирование светофоров в городах так, чтобы пробки не появлялись, или рассасывались как можно быстрее (к сожалению, это не про РФ);
  • распознавание речи, переводы (пока еще с очень сильными ограничениями);
  • сочинение картин, стихов, музыки компьютером, с помощью так называемых нейросетей (пост);
  • и многое другое...


Также существует чуть менее понятная, но тоже вполне правильная формулировка:

Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе.



Что за набор дисциплин?

Во-первых, математика. А прежде всего такие разделы, как математическая статистика, теория вероятностей и смежные.

Во-вторых, Compter Science. Под этим очередным непонятным термином скрывается информатика. Но не те уроки, что были в школе, а в более широком смысле: программирование, "железо", база данных, методы как все это заставить работать. 

В-третьих, это наука о мышлении. Еще одно малопонятное для посторонних выражение Cognitive Science. Вкратце скажу, что благодаря этой науке люди научились понимать и имитировать работу мозга.

Помимо классических наук под Data Science подразумевается еще много непонятных терминов. Это data mining, data visualisation, machine learning, и многое другое. 

*


Но на самом деле, в академическом смысле науки Data Science нет. Это такое условное название компота, в который входят несколько "настоящих" наук и еще множество слов, для непосвященных таких же непонятых, как и сам Data Science. 

6
503.260 GOLOS
На Golos с November 2016
Комментарии (11)
Сортировать по:
Сначала старые