“Ответ – 42”

Этот текст я писала пару лет назад, но нигде его раньше не публиковала. Я всю жизнь так или иначе работаю с коммуникациями, т.е. обеспечиваю движение информации и ее понимание. Именно поэтому меня так вдохновляет мир блокчейн, я уверена, что это новая эра в отношениях людей и информации

А это эссе - моя первая попытка осмысления этих отношений. Как человечество обращалось с данными раньше, что происходит теперь и почему нам всем пора учиться играть по новым правилам.

(текст написан 2016 году).

На днях болтала с лучшим другом, он крутой айтишник, фаундер film.ru, создавал несколько проектов для Яндекса (например, Яндекс.Афиша), сейчас IT директор портала Medaboutme.ru В общем, это человек, который с машинами общается не хуже, чем с людьми… даже лучше, наверное, потому что машины делают ровно то, что им говорят. Кстати, у этой его способности есть и обратный эффект, за годы общения с машинами мой друг (зовут его Сергей) научился очень точно общаться с людьми, четко формулировать свои желания и запросы, обозначать границы – это безумно облегчает общение.

Так вот, я задала Сергею вопрос – «что такого произошло с человечеством к 2008 году, что возникла тема Big Data, что это вдруг понадобилось обязательно обрабатывать эти самые большие данные?». Я ожидала услышать ответ вроде «ну люди стали производить намного-намного больше информации, с которой теперь нужно что-то делать», но Сергей ответил «люди стали обрабатывать большие данные потому, что теперь могут, а раньше не могли. А информации они всегда производили много, только не могли ее хранить». И ведь действительно! Думать оказалось удобнее с этой стороны. Попытаюсь порассуждать, почему же раньше не могли, а теперь могут и как к этому относиться.

Big Data стоит на трех китах:

1. Дешево хранить

В принципе, считать рабов и захваченные земли люди пытались всегда.

Но когда-то это приходилось делать так:

Потом так:

Долбежка камня или выведение символов на влажных глиняных дощечках, или даже написание буковок от руки на бумаге способы ресурсоемкие и не то, чтобы быстрые.

Дело значительно ускорилось после появления печатного станка.

Но… если просто представить сколько бумажных книг, напечатанных на таком станке, ну или даже в современной типографии помещается в вашем карманном Киндле…

В 20-м веке все пошло значительно веселее:

Диск - IBM Model 350, 1956 г. Объём - 3,75 МБ. Стоимость - 3200 долларов США.

3,75 МБ! Объем памяти моего телефона (небольшая плоская штука, легко помещающаяся в карман) 128 Gb, не говоря про флешки, раскиданные по квартире или внешний диск к компьютеру.

Итак, теперь у нас есть очень-очень-очень много информации, которую мы научились компактно и дешево хранить.

Стоит задуматься, сколько всего о каждом из нас уже хранится на материальных носителях, мурашки бегут по спине, по крайней мере у меня. Известно, что Facebook хранит всю информацию, однажды не него попавшую. Если вы хотите удалить свою неудачную фотографию, он, конечно, закроет ее от вас, можете делать вид, что ее никогда не было. Но она останется базе данных Facebook навсегда и кто знает где и когда появится вновь. Все наши статусы, мысли, комментарии, заметки на полях – все сохраняется на серверах, находящихся в тысячах километров от нас. Гугл знает все о наших привычках и интересах: что мы ищем, как часто, что покупаем, каким способом расплачиваемся, сколько любовных писем отправляем с рабочей почты. Вся эта информация хранится. Часть из нее обрабатывается и уже влияет на наше поведение, в том числе, делая этот мир более удобным для нас, экономя наше время и энергию, помогая нам с выбором… или навязывая его. Пока сложно даже представить, насколько эта наша новая реальность отличается даже от той, в которой выросли наши родители. Не нужно даже напрягать лишние человеческие ресурсы, чтобы за нами следить, мы сами радостно рассказываем о себе все.

2. Дешево обрабатывать

Я держу в руках смартфон, кажется восьмиядерный. То есть эта маленькая штука, помещающаяся у меня на ладони, может одновременно в восьми разных местах внутри себя что-то делать с данными. Взять эту информацию, сложить с этой, умножить на ту и отправить сюда. Восемь независимых потоков, которые в доли секунды отправляют мои фотографии на другую сторону земного шара, принимают эсемески от мамы, показывают мне ленту фейсбука и позволяют мне практически в любой момент выудить очередную интересную статью про бигдата на почитать прямо здесь и сейчас.

Наши машины теперь умеют за доли секунды справляться с таким объем информации, с которым человеческий мозг не разберется за физическую жизнь.

И с каждым годом это обходится нам все дешевле.

Вики пишет, что «согласно закону Мура количество транзисторов, размещаемых на кристалле интегральной схемы, удваивается каждые 24 месяца. Часто цитируемый интервал в 18 месяцев связан с прогнозом Давида Хауса из Intel, по мнению которого производительность процессоров должна удваиваться каждые 18 месяцев из-за сочетания роста количества транзисторов и быстродействия каждого из них».

Мой друг Сергей рассказал, как на заре программистской карьеры в начале девяностых ему приходилось занимать очередь для доступа к компьютеру, чтобы воспроизвести написанную на перфокарте программу и получить результат. Если результат не соответствовал ожиданиям, приходилось забирать перфокарты, переписывать программу и через какое-то время пробовать снова. Но с каждым годом процесс обработки данных ускорялся по экспоненте. И всего лишь через пятнадцать лет после перфокарт, мы пришли к BigData

3. Легко извлекать

Когда-то лет двадцать назад, когда я была еще школьницей и чуть ли не самым активным пользователем библиотеки в нашей школе, к нам в гости зашел сосед. Почему-то зашел разговор об Интернет, он в этом уже кое-что понимал, а у меня еще даже компьютера не было. Сосед взахлеб рассказывал о том, что сейчас вовсю пошел процесс по оцифровке библиотек и скоро можно будет получить доступ к любой книге не выходя из квартиры. Я тогда плохо его поняла и задала, глупый вопрос, а зачем это надо. И он подробно и терпеливо объяснил. Вот представь, сказал он, что ты изучаешь, например, историю и хочешь посмотреть какую-то редкую книгу по своей теме. Ты едешь в Москву в библиотеку, заказываешь книгу, ждешь, когда тебе ее найдут и принесут, а дальше садишься и долго-долго ищешь нужную тебе информацию, перелистывая страницу за страницей. А если бы информация именно о том что тебе нужно выдавалась бы со скоростью – несколько секунд? Сегодня нам это кажется простым и естественным. Тогда осмысление этой идеи сильно изменило мою картину мира.

Хотите сделать сайт, портал, CRM, запустить большой виртуальный проект? Нет проблем – купите место на сервере, который физически находится… да где угодно, какая вам сейчас разница где? Сложите туда всю вашу информацию и обращайтесь к ней в любую секунду с любого устройства. Обрабатывайте, складывайте обратно, меняйте… Кстати, чтобы купить это самое место, вам достаточно с хоть мобильного телефона зайти на соответствующий сайт и сделать пару кликов. Через секунду со счета вашей карточки спишется нужная сумма и вы станете обладателем определенного объема гигабайт. Все.

Что дальше?

От данных к знанию

Большое количество собранных данных является просто буквами и цифрами до тех пор, пока мы к этим данным как-то не отнеслись. Я начала думать про процесс обработки данных и сначала, у меня появилась версия, что обработав данные мы обретаем знание. То есть понимание о том, как что-то с чем-то связано и на что-то влияет. Похоже, это была иллюзия. Обработав большое количество данных мы можем лишь выявить определенные закономерности, которые, скорее всего будут работать. И на этом пути встречаются те же подводные камни, что в мышлении человека. Есть шанс перепутать корреляцию с причинно-следственными связями, промазать с выборками, ошибиться с изначальным вопросом, на который ищешь ответ. То есть пока машины не думают, они просто делают с данными то, что человек просит их делать: складывают, умножают, делят, сравнивают. И вот это они делают быстро и хорошо.

Машинное обучение

Машины не думают, но… Обучаются. Одним из основных подразделов искусственного интеллекта сейчас является машинное обучение. То есть люди строят алгоритмы способные обучаться.

Самый эпохальный шахматный матч в истории между Гарри Каспаровым и и суперкомпьютером Deep Blue был проигран человеком почти 20 лет назад. Причины поражения весьма ироничны. Каспаров исходил из того, что стратегия компьютера - в любой момент времени получить более выигрышную позицию на поле. Но в какой-то момент суперкомпьютер, не найдя хода для получения преимущества, просто сдвинул ладью, чем запутал гроссмейстера. Случайный блеф удался, Каспаров попытался найти «кошку в черной комнате», подозревая, что компьютер начал использовать другую стратегию, из-за чего впоследствии проиграл. Машина, случайно сделавшая иррациональный человеческий ход, обыграла человека, искавшего исключительно механизированные алгоритмы.

Шахматы ограничены правилами и отсутствием внешних факторов, таким образом, количество возможных комбинаций хоть и близко к бесконечности, но все же конечно. Как следствие, в программный процессор теоретически возможно внести всевозможные ситуации на шахматной доске, что сделает компьютер абсолютно непобедимым для человека, подверженного ошибкам и забывчивости.

Но гораздо интереснее был кейс обучения компьютера игре в Го. В отличие от шахмат, данная система незамкнута и невозможно заранее просчитать все возможные алгоритмы поэтому в данном случае пришлось разрабатывать систему обучения компьютера и приспосабливать различные архитектуры. Самые популярные основаны на использовании дерева поиска, применении методов Монте-Карло, создании экспертных систем. Большинство программ объединяют в себе несколько подходов.

Я пишу эти строки, ожидая такси в аэропорт Астаны. Только что завершился Астанинский Экономический Форум. И одной из самых популярных тем, обсуждаемых здесь на нескольких секциях и в кулуарах, был недавний запуск беспилотных такси в Калифорнии. Машина считает все возможные комбинации дорожных ситуации и реагирует в разы быстрее белкового водителя. Интересно, как долго мне еще будут нужны мои водительские права и придется ли вообще сдавать экзамен на вождение моей дочери?

А нам всем пора серьезно переосмысливать свое представление о сущности информации, учиться новому к ней отношению и взаимодействию и очень быстро привыкать к жизни в новом мире и учиться правильно задавать вопросы.

bigdata