Закон Ципфа - Как он будет работать в ГОЛОСЕ?

Если вы читали Буклет про Стим (White Paper), то на сайте wiki.golos.io в Разделе "Распределение Выплат" вы непременно должны были найти упоминание о Законе Ципфа.

Когда то на Steemit я уже писал на эту тему статью, но решил для пользователей ГОЛОСА написать отдельно и, к тому же, применить ее к завершившемуся на днях краудсейлу и первоначальному распределению силы голоса среди пользователей этой платформы.

Думаю, что многим будет интересно узнать о том, кто же такой Джордж Кингсли Ципф и чем интересен выведенный им закон.

Джордж Кингсли Ципф (англ. George Kingsley Zipf)
7.01.1902 - 25.09.1950 - американский лингвист, занимавшийся изучением статистических закономерностей в естественных языках.
Источник Изображения

Чем интересен этот закон и почему о нем стоит знать рядовому пользователю ГОЛОСА?

В Буклете про Стим об этом законе дословно сказано следующее:

Закон Зипфа одно из таких эмпирических правил, которое характеризует удивительный диапазон применений этого феномена в реальном мире достаточно хорошо. Этот закон говорит о том, что если мы упорядочим какую-нибудь коллекцию по размеру или популярности, второй элемент в этой коллекции будет приблизительно в два раза меньше от измерения первого элемента, третий элемент в коллекции будет 1/3 от измерения первого элемента и так далее. В общем случае k ранжированный элемент будет измеряться как 1/k от первого элемента.

Возможно с первого раза может показаться странным упоминание о нем в документе объясняющем принципы работы социально-медийной блокчейн платформы. Может быть, для кого то и понять его будет не так то просто. Но попробуем разобраться в этом вопросе.

Немного истории

Все началось с того, что в 1949 году социолог Джордж Кингсли Ципф, который был профессором и читал лекции в Гарвардском университете, опубликовал свой труд в котором изложил некоторые наблюдения. Опытным путем он обнаружил интересную особенность использования определенных слов любым человеком. Оказалось, что всего лишь небольшое количество слов используется людьми постоянно, в то время как подавляющее большинство других слов эти люди используют крайне редко. Если расставить слова по рангу популярности, или частоте использования, открывается удивительная закономерность:

слово первого ранга всегда используется вдвое чаще, чем слово второго ранга и втрое чаще, чем слово третьего ранга.

Если выразить это в виде математической формулы, то она будет выглядеть следующим образом:

F*R =C,

где: F – частота появления слова в тексте; R – ранг слова (наиболее часто употребляемое слово получает ранг 1, следующее – 2 и т.д.); С – константа.

Если вы хотя бы немного помните школьный курс алгебры, то в этой формуле вы легко узнаете уравнение гиперболы.

Ципф экспериментально определил, что С ≈ 0,1.

Графически закон Ципфа выглядит примерно так

Ципф не был математиком и не мог объяснить природу этой закономерности. Больше того, многие ученые математики вообще не принимали всерьез его труд. По этому поводу интересны воспоминания известного математика Бенуа Мандельброта, которые он описал в своей книге «(Не)послушные рынки: фрактальная революция в финансах». Приведу отрывок из этой книги.

Неожиданный степенной закон

В 1950 году я был молодым студентом-математиком Парижского университета, подыскивавшим тему для своей диссертации. Мои дядя Золем являл собою местный хрестоматийный образец профессора математики: глубокий теоретик, очень консервативный и, несмотря на то, что родится в Польше, столп французского научного сообщества. Уже в 31-летнем возрасте его избрали профессором на полной ставке престижного Французского колледжа.

То быта эра Николя Бурбаки; за этим собирательным псевдонимом скрывался математический «клуб», который, подобно Дада в искусстве или экзистенциализму в литературе, распространился из Франции и стал на некоторое время чрезвычайно влиятельным на мировой сцене. Абстракция и чистая математика, математика ради математики, были возведены в ранг культа; члены «клуба» презирали прагматизм, прикладную математику и даже математику как инструмент науки. Такой подход был для французских математиков догмой, а для меня, пожалуй, причиной уехать из Франции и поступить на работу в IBM. Я был, к ужасу моего дяди, молодым бунтарем. Работая над своей докторской диссертацией, я часто в конце дня заходил к нему в кабинет поболтать, и нередко эти разговоры перерастали в дискуссию. Однажды, пытаясь как-то скрасить предстоящую долгую и скучную поездку на метро домой, я попросил у него в дорогу что-нибудь почитать. Он сунул руку в мусорную корзину и извлек оттуда несколько скомканных листков бумаги.

– Вот, возьми, – буркнул дядя. – Глупейшая статья, из тех, какие ты любишь.

То был обзор книги социолога Джорджа Кингсли Ципфа. Ципф, достаточно богатый человек, чтобы не думать о куске хлеба насущного, читал в Гарвардском университете лекции по им же придуманной дисциплине, которую он назвал статистической человеческой экологией. В его книге Human Behavior and the Principle of Least Effort (Поведение человека и принцип наименьших усилий) степенные законы рассматривались как вездесущие структуры общественных наук. В фишке степенные законы вполне обычны и выступают формой того, что я ныне называю фрактальным самоповторением в масштабе. У сейсмологов есть математическая формула степенной зависимости количества землетрясений от их силы по знаменитой шкале Рихтера. Или, другими словами: слабые землетрясения обычны, тогда как сильные редки, а частота и сила землетрясений связаны точной формулой. В то время было немногих таких примеров, да и известны они были всего нескольким людям. Ципф, энциклопедист, был одержим навязчивой идеей, будто степенные законы действуют не только в физических науках; им подчиняются все проявления поведения, организации и анатомии человека – даже размеры половых органов.

К счастью, обзор книги, который мне дал дядя, ограничивался только одним необычно изящным примером: частотой слов. В тексте или речи некоторые слова, такие как английские the (определенный артикль) или this («это»), встречаются часто; другие, milreis или momus, появляются редко или вообще никогда (для самых любознательных: первое означает древнюю португальскую монету, второе – синоним слова «критик»). Ципф предложил следующее упражнение: взять любой текст и посчитать, сколько раз в нем появляется каждое слово. Затем присвоить каждому слову ранг: 1 — для самых часто употребляемых слов, 2 — для занимающих второе место по частоте появления и т.д. Наконец, построить график, на котором для каждого ранга указать количество появлении этого слова. Мы получим удивительный рисунок. Кривая не убывает равномерно от самого обычного слова в данном тексте к самому редкому. Сначала она обрушивается с головокружительной быстротой, после чего начинает убывать медленнее, повторяя траекторию лыжника, прыгнувшего с трамплина, а затем приземлившегося и спускающегося по относительно пологому склону заснеженной горы. Образец классической неравномерной шкалы. Ципф, подогнав под свои диаграммы кривую, придумал для нее формулу.

Я был ошеломлен. К концу моей долгой поездки на метро я уже имел тему для половины моей докторской диссертации. Я точно знал, как объяснить математические основания частотного распределения слов, чего Ципф, не будучи математиком, сделать не смог бы. В последующие месяцы меня ждали удивительные открытия. Используя упомянутое уравнение, можно создать мощный инструмент социальных исследований. Улучшенный вариант формулы Ципфа позволял количественно оценить и ранжировать богатство словарного запаса любого человека: высокое значение – богатый лексикон; низкое значение – бедный. Имея такую шкалу, можно измерять различия по словарному запасу между текстами или говорящими. Появляется возможность количественно оценить эрудицию. Правда, мои друзья и консультанты были в ужасе от моей решимости заняться этой странной темой. Ципф, говорили они мне, человек с причудами. Мне показали его книгу, и я согласился, что она отвратительна. Подсчет слов – это не настоящая математика, убеждали меня. Занявшись этой темой, я никогда не найду хорошую работу; и профессором стать мне тоже будет нелегко.

Но я оставался глух к мудрым советам. Мало того, я написал диссертацию вообще без консультантов и даже уговорит одного из университетских бюрократов заверить ее печатью. Я был исполнен решимости пройти избранный путь до конца и применить идеи Ципфа в экономике, ведь не только речь можно свести к степенному закону. Богаты мы или бедны, процветаем или голодаем — все это тоже казалось мне объектом степенного закона.

Мандельброт немного модифицировал формулу Ципфа:

F = C * R в степени -1/a

где a – коэффициент, характеризующий богатство словарного запаса; чем больше значение a, тем богаче словарный запас текста, поскольку кривая зависимости частоты появления каждого слова от его ранга убывает медленнее, и, например, редкие слова появляются чаще, чем при меньших значениях a. Именно это свойство Мандельброт предполагал использовать для оценки эрудиции

Ну и что из этого? - скажете вы.
Однако, все дело в том, что эта закономерность проявляется не только в языке. Ципф выяснил, что эта закономерность проявляется еще и во многих других областях.

Это же правило действует в распределении доходов людей в стране: самый богатый человек имеет вдвое больше денег, чем следующий богач и так далее.
Этот закон также работает в отношении размера городов. Город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город и так далее.

Почему это должно интересовать пользователей ГОЛОСА?

Как было сказано в самом начале статьи, этот закон имеет прямое отношение к Steemit и ГОЛОСУ. И дело не только в употреблении слов каждым из тех, кто публикует статьи на этих социально-медийных площадках. Речь пойдет о доходах. Ведь здесь публикации и кураторство вознаграждается криптовалютными токенами, которые можно обменять на реальные деньги. Обратите внимание на следующую диаграмму.

В построении этой диаграммы использовались данные с steeme.ru. В таблицу были введены данные о взносах первых 200 учетных записей участвующих в краудсейле ГОЛОСА. Вводить всех, на мой взгляд, не имеет смысла. В реальности, за счет бонусов, шеардропа и уже намайненной Силы Голоса, у некоторых пользователей конечный баланс Силы Голоса будет немного иной, но эта погрешность также будет не велика. Сейчас главное увидеть прослеживается ли связь Закона Ципфа в итогах краудсейла ГОЛОСА. И ответ однозначный - КОНЕЧНО ПРОСЛЕЖИВАЕТСЯ.

Как вы видите этот закон очень четко прослеживается в распределении "ВЕСА" пользователей на платформе уже в самом начале ее использования. Не сомневаюсь в том, что он будет прекрасно работать в ГОЛОСЕ и дальше. И именно так, как об этом было заявлено в Буклете про Стим. Математические законы всегда работают очень точно. Игнорировать их - верх безумия.

Последнее время здесь некоторые проявляют беспокойство в связи со "справедливым" распределением голосов. Еще раз подчеркну, математические законы о которых писалось в этой статье проигнорировать не удастся никому. В настоящий момент доля нескольких десятков Китов размыта "длинным хвостом" более 9'000 других пользователей. Не сомневаюсь, что и в дальнейшем, с приходом новых пользователей, распределение доходов будет строго подчинено этому правилу.

Надеюсь, что скоро мы увидим дальнейшие подтверждения в действии этого Закона на практике. А пока вникайте в Закон Ципфа. Кстати очень интересный был этот человек - Джордж Кингсли Ципф (англ. George Kingsley Zipf)