Революция хранения данных. ДНК может хранить почти безграничные данные в почти нулевом размере
Привет. В век больших данных мы производим гораздо больше цифровой информации, чем мы можем хранить.
В прошлом году 20 миллиардов долларов было потрачено на новые центры обработки данных только в США, что удвоило капитальные затраты на инфраструктуру центра обработки данных с 2016 года.
И даже с ростом инвестиций в хранилища данных корпорации и государственный сектор отстают.
Но есть надежда
С зарождающейся технологией, использующей ДНК для хранения данных, скоро это может стать проблемой прошлого. Помещая биты данных в крошечные молекулы ДНК, исследователи и компании, подобные Microsoft, надеются в конце десятилетия разместить целые центры обработки данных в нескольких колбах ДНК.
Фон
С окончанием 20-го века мы заменили использование магнитной ленты, гибких дисков и компакт-дисков сложными полупроводниковыми микросхемами памяти, способными хранить данные на бесчисленных крошечных транзисторах.
В соответствии с законом Мура мы видели экспоненциальное увеличение емкости кремниевых чипов. В то же время, однако, скорость, с которой человечество производит новую цифровую информацию, показывает взрывной рост.
Размер глобальной базы данных растет экспоненциально, по прогнозам, к 2025 году достигнет 160 триллионов гигабайт.
По состоянию на 2016 год цифровые пользователи производили более 44 миллиардов гигабайт данных в день. По оценкам Международной корпорации данных (IDC) к 2025 году эта цифра превысит 460 миллиардов.
И с усилиями частного сектора по улучшению глобальной связи, таким как OneWeb и Project Loon от Google, мы можем увидеть приток данных от пяти миллиардов новых пользователей.
К 2020 году ожидается, что три миллиарда новых пользователей присоединятся к сети. Благодаря усилиям частного сектора это число может достигнуть пяти миллиардов.
В то время как компании и сервисы чрезвычайно выигрывают от этого притока, становится все более дорого строить новые дата-центры с необходимой скоростью.
В настоящее время требуется строительство нового центра обработки данных стоимостью около 50 миллионов долларов, чтобы не отставать от этого роста, не говоря уже о миллионах на мебель, оборудование, мощности и охлаждение.
Кроме того, необходимый тип кремния редко бывает чистым в природе, и исследователи прогнозируют, что он истечет к 2040 году.
Рассмотрим ДНК, с другой стороны. На теоретическом пределе мы можем поместить 215 миллионов гигабайт данных в один грамм ДНК.
Но как?
ДНК построена из двойной спиральной цепи из четырех нуклеотидных оснований - аденина (A), тимина (T), цитозина (C) и гуанина (G). После формирования эти цепи плотно сворачиваются, образуя чрезвычайно плотные, компактные хранилища данных.
Чтобы кодировать файлы данных в эти базы, мы можем использовать различные алгоритмы, которые преобразуют двоичные в базовые нуклеотиды-0s и 1s в A, T, C и G. «00» может быть закодировано как A, «01» как G, «10 «Как C, и« 11 »как T, например.
После кодирования информация затем сохраняется путем синтеза ДНК с конкретными базовыми образцами, а окончательные кодированные последовательности хранятся во флаконах с огромным сроком годности.
Для извлечения данных закодированная ДНК может быть прочитана с использованием любой технологии секвенирования, такой, как переносной Minion от Oxford Nanopore.
Хранение данных ДНК - или NAM (память нуклеиновой кислоты) - только начинает приближаться к началу своей экспоненциальной кривой роста. Но в то время, когда процесс остается дорогостоящим и медленным, несколько игроков начинают решать его самую большую проблему: извлечение.
Так же, как вы можете щелкнуть по определенному файлу и отфильтровать поисковый запрос на вашем рабочем столе, случайный доступ к большим хранилищам данных стал одним из главных приоритетов для ученых из Microsoft Research и Вашингтонского университета.
Сохраняя более 400 ДНК-кодированных мегабайт данных, система хранения ДНК в Вашингтоне теперь предлагает произвольный доступ ко всем своим данным без ошибок.
Приложения
Даже до того, как мы гарантируем случайный доступ для поиска данных, хранение данных ДНК имеет актуальные рыночные приложения.
Согласно исследованию IDC к 2025 году огромная доля корпоративных данных будет поступать прямо в архив.
Со временем большинство сохраненных данных становятся только потенциально имеющими значение, что делает их извлечение менее потенциальным.
В частности, для хранения прошлых юридических документов, медицинских записей и других архивных данных, зачем тратить драгоценную вычислительную мощность, инфраструктуру и накладные расходы?
Закодированная ДНК может сохраняться в течение 10 000 лет - в холодных, темных и сухих условиях при меньшей стоимости хранения.
Теперь, когда мы можем легко использовать естественные ферменты для репликации ДНК, у компаний есть тонны доступных данных, используя ДНК в качестве резервной системы.
А так как алгоритмы поиска и биохимические технологии улучшаются, произвольный доступ к ДНК, закодированной данными, может стать таким же простым, как клик файла на вашем рабочем столе.
Исследователи уже исследуют потенциал молекулярных вычислений, полностью лишенных кремния и электроники.
Гарвардский профессор Джордж Черч и его лаборатория, например, предполагают запись данных непосредственно в ДНК.
"Я заинтересован в создании биологических камер, которые не имеют никаких электронных или механических компонентов”, в результате чего информация “идет прямо в ДНК”.
По словам исследователей, регистраторы ДНК автоматически фиксируют аудиовизуальные данные.
Однажды мы сможем даже записывать биологические события в организме. Стремясь к этой цели, лаборатория работает над созданием рекордера ДНК нервной активности in vivo.
Возможно, самый ультракомпактный, долговечный и универсальный механизм хранения - ДНК предлагает нам беспрецедентные приложения для хранения данных - возможно, даже и для вычислений.
Потенциал
Поскольку хранение данных ДНК резко падает в технических затратах и увеличивается в скорости, коммерческие пользовательские интерфейсы станут, как критически важными, так и весьма прибыльными.
Как только корпорации, стартапы и люди смогут легко сохранять файлы, изображения или даже нейронную активность в ДНК, возможностей для новых прорывов будет предостаточно.
Представьте себе загрузку файлов в облако, которое находится в зашифрованном флаконе ДНК, в отличие от массивных и неэффективных традиционных центров обработки данных.
Корпорации могли бы иметь свои собственные хранилища, а локальные сети данных могли бы обеспечить повышенную кибербезопасность, особенно для архивов.
И поскольку ДНК хранится тысячелетиями без обслуживания, можно забыть о необходимости копирования баз данных и государственных цифровых архивов.
Но, возможно, самым захватывающим потенциалом ДНК является ее переносимость.
Если бы мы хотели отправить единый экзабайт данных (один миллиард гигабайт) на Марс, используя кремниевые бинарные носители, потребовалось бы пять ракет Falcon Heavy и это стоило бы 486 миллионов долларов только на грузовые перевозки.
С ДНК нам понадобятся пять кубических сантиметров.
Размер ДНК обладает истинным потенциалом для дематериализации целых космических колоний, основанных на данных.
На протяжении всей истории ДНК открывала необычные возможности. Возможно, разместив безграничные данные в почти нулевом пространстве, когда-нибудь она сможет открыть еще много удивительного.