Использование днк как флешки
ДНК представляет собой последовательность нуклеотидов. Их всего четыре: аденин, гуанин, тимин, цитозин. Для кодирования информации каждому из них приписывают цифру-код. Например, тимин — 0, гуанин — 1, аденин — 2, цитозин —3. Кодирование начинается с того, что все буквы, цифры и изображения переводят в двоичный код, то есть последовательность нулей и единиц, а их уже — в последовательность нуклеотидов, то есть четверичный код.
Можно применять только три нуклеотида для постройки кода (троичный код), а четвертым — разбивать последовательности на части. Есть вариант с построением оснований в виде двоичного кода, когда два из них соответствуют нулю, а два — единице.
Для считывания применяют несколько методик. Одна из самых распространенных заключается в том, что цепочку молекулы ДНК копируют с помощью оснований, у каждого из которых есть цветовая метка. Затем очень чувствительный детектор считывает данные, и по цветам компьютер восстанавливает последовательность нуклеотидов.
«Молекула ДНК очень емкая. Даже у бактерии она, как правило, содержит около миллиона оснований, а у человека — целых три миллиарда. То есть каждая клетка человека несет объем информации, сопоставимый с вместимостью флешки. И таких клеток у нас триллионы. В ДНК можно записать огромное количество данных, но запись и чтение с такого носителя пока происходят слишком медленно и дорого стоят», — рассказывает Александр Панчин, кандидат биологических наук, старший научный сотрудник Института проблем передачи информации имени А. А. Харкевича РАН.Плотность записи растет
«Вообще, есть два подхода к записи данных на ДНК. Первый, когда вы синтезируете совершенно новую ДНК, используя химический синтезатор. По команде компьютера нуклеотиды добавляются в раствор в определенном порядке, и постепенно “вырастает” нужная цепочка оснований. Во втором случае кодируются данные в уже существующей ДНК какого-то организма», — поясняет Панчин.В мае 2010 года группа Крейга Вентера, который первым составил карту генома человека, опубликовала работу о создании искусственной бактерии. Они взяли за основу очищенную от генома бактериальную клетку и поместили туда сформированную последовательность оснований. Получилась новая бактерия, вполне деятельная и живая, отличающаяся от обычной только тем, что ее ДНК создали вручную. Кроме того, коллектив продемонстрировал чувство прекрасного, записав с помощью четверичного кода в ДНК бактерии свои имена и цитаты из классических произведений.
В 2012 году группа под руководством молекулярного биолога Джорджа Чёрча подошла к делу более основательно и закодировала в ДНК книгу «Регенезис: как синтетическая биология заново откроет природу и нас самих» объемом в 52 тысячи слов, несколько картинок и одну программу, написанную на Java. Они применяли двоичный код. Общий объем данных составил 658 килобайт. Плотность информации оказалась равна почти 1018 байт на грамм молекул. Для сравнения: жесткий диск объемом 1012 байт весит около сотни граммов. Главный недостаток метода — нестабильность записанной информации.
«Молекула ДНК склонна мутировать, что понижает надежность хранения данных. Особенно если носитель ДНК — живая клетка, способная к делению: при удвоении ДНК ошибки закрадываются особенно часто. Надежность хранения данных повысится, если иметь тысячи копий одного и того же послания. Ну или просто хранить ДНК, скажем, в морозильнике. При низких температурах способность молекулы к мутации значительно снижается», — поясняет эксперт.Кроме того, информация иногда теряется при чтении. Ошибки могут быть как химического плана, когда к элементу присоединяется неправильное основание, так и чисто расчетными, то есть зависящими от компьютера.
Дорого, надежно
В марте 2017 года журнал Science опубликовал статью американских ученых, которым удалось записать 2*1017 байт на один грамм ДНК. Биологи подчеркивают, что не потеряли ни байта. Говоря проще, что записали, то и получили на выходе.
Для обычного пользователя «генетическая флешка» пока недоступна, потому что хранить информацию на ней очень дорого, а скорость чтения/записи — низкая. По оценкам ученых, считывание лишь одного мегабайта требует около трех с половиной тысяч долларов и нескольких часов времени.
К несомненным преимуществам записи информации на ДНК относится огромная плотность хранения данных, а также стабильность носителя — правда, лишь при низких температурах.
Системы хранения данных, основанные на ДНК, могут стать выходом для человечества, которое генерирует все большие объемы информации. По сравнению со всеми прочими носителями у ДНК просто феноменальная плотность записи данных. Еще одно преимущество — в случае ДНК для хранения данных в оптимальных условиях не нужна энергия, причем информацию можно сохранять сотни лет. Через несколько веков данные можно без проблем считать — конечно, при условии наличия соответствующих технологий.
Но есть у ДНК и минусы. Например, сейчас еще нет стандартов кодирования информации в нити ДНК. Синтезирование искусственных молекул — дело достаточно дорогое, а считывание хранимой информации может занимать дни и недели. Многократное обращение к нитям ДНК за информацией приводит к нарушению структуры молекул, так что в итоге могут возникнуть ошибки. Сейчас предложен метод, который поможет решить некоторые из этих проблем. Система хранения данных (пока что лишь изображений) представляет собой нечто среднее между обычной файловой системой и базой на основе метаданных.
Подробнее о проблемах
Разрабатываемые системы хранения данных в ДНК предусматривают добавление определенных меток последовательностей (sequence tags) к участкам ДНК, которые содержат данные. Для получения необходимой информации в молекулу добавляются участки, которые способны образовывать пары оснований с нужными метками. Все это используется для амплификации полной последовательности. Примерно как пометить каждое изображение в коллекции собственным ID, а затем настроить все так, чтобы амплифицировался один конкретный ID.
Метод достаточно эффективен, но у него есть два ограничения. Во-первых, этап амплификации, который выполняется при помощи процесса полимеразной цепной реакции (ПЦР), имеет ограничения на размер амплифицируемой последовательности. При этом каждый тег занимает часть и так ограниченного пространства, поэтому добавление подробных меток сокращает объем пространства для хранения данных.
Еще одно ограничение заключается в том, что ПЦР, амплифицирующая определенные фрагменты ДНК с данными, потребляет часть исходной библиотеки ДНК. То есть каждый раз, когда мы считываем данные, часть их уничтожается. Ученые сравнивают такой способ поиска информации со сжиганием стога сена для обнаружения иголки. Если это делать часто, в итоге можно потерять вообще всю базу данных. Правда, есть способы восстанавливать потерянные участки, но этот метод не идеален, поскольку при его использовании увеличивается вероятность появления ошибки в ДНК и участках данных.
Новый метод позволяет отделить информацию меток от основных данных. Кроме того, исследователи создали систему, которая дает возможность получить доступ лишь к интересующим нас данным. Остальная информация остается нетронутой, так что молекулы ДНК остаются в сохранности и не повреждаются.
Новая система
Основа технологии — капсулы из диоксида кремния, в которых хранятся отдельные файлы. К каждой капсуле прикрепляются ДНК-метки, которые показывают, что в файле. Размер каждой капсулы составляет около 6 микрометров. Благодаря такой системе ученым удалось научиться извлекать отдельные изображения с точностью 100%. Набор файлов, который они создали, не очень велик — их всего 20. Но если учитывать возможности ДНК, то масштабировать такую систему можно до секстиллиона файлов.
Закодированы эти 20 файлов были во фрагменты ДНК длиной около 3000 нуклеотидов, это около 100 байт данных. В одну капсулу из кремнезема можно поместить файл размером до гигабайта. После того, как файл помещен в оболочку, на его поверхность помещаются метки из одноцепочечной ДНК. К одной оболочке можно прикрепить несколько меток, которые служат ключевыми словами. Например, «рыжий», «кот», «животное».
Помеченные таким образом капсулы из кремнезема объединяются в единую библиотеку данных. Она не так компактна, как хранилище из чистой ДНК, но зато данные в этом случае не повреждаются.
Поиск файлов
Для поиска файлов используется группа ключевых слов — меток. Например, если нужно найти изображение кошки, используются метки «оранжевый», «кошка» и «домашний». Для поиска тигра только «оранжевый» и «кошка». Скорость поиска в такой системе пока что очень невелика — что-то около 1 кБ в секунду.
Еще одна хитрость связана с тем, что каждая метка связана с флуоресцентными молекулами разного цвета. Поэтому в ходе запроса любые капсулы с нужными метками будут светиться определенным цветом. Сейчас уже есть устройства, которые используют лазеры для разделения объектов по цвету флуоресценции, так что выделить нужные данные технически возможно.
При этом остальная часть библиотеки затрагиваться не будет, а значит, не пострадают данные. Стог сена ради поиска одной иголки сжигать уже не требуется. Дополнительный плюс в возможности логического поиска с разными критериями. Например, условия запроса могут быть сложными: true для «кот», false для «домашний», true для «черный» и т.п.
Не только поиск
Да, ведь задача поиска нужных данных — это лишь часть дела, причем даже не половина. Обнаруженные данные необходимо еще секвенировать. А для этого требуется раскрыть оболочку из кремнезема, вынуть хранимую в капсуле нить, ввести ДНК в бактерию и потом уже считать данные. Это крайне медленный процесс, по сравнению с которым даже стримеры являются очень быстрой технологией.
С другой стороны, системы на основе ДНК и не будут быстрыми, их главное предназначение — хранение огромных объемов информации, которую не требуется часто извлекать. Кроме того, с течением времени технологию будут совершенствовать, так что скорость считывания информации, можно надеяться, возрастет.
В цепочку генов можно записать в 60 раз больше информации, чем на сегодняшние носители. Теперь можно копировать информацию с любого цифрового носителя напрямую в ДНК, фактически превращая клетки живых организмов в миниатюрные устройства для записи и хранения данных. Рассказываем, как это работает.
Читайте «Хайтек» в
Какая информация есть в ДНК
ДНК представляет собой последовательность нуклеотидов. Их всего четыре: аденин, гуанин, тимин, цитозин.
Для кодирования информации каждому из них приписывают цифру-код. Например, тимин — 0, гуанин — 1, аденин — 2, цитозин — 3.
Последовательность нуклеотидов позволяет «кодировать» информацию о различных типах РНК. Все эти типы РНК синтезируются на матрице ДНК за счет копирования последовательности ДНК в последовательность РНК, синтезируемой в процессе транскрипции, и принимают участие в биосинтезе белков (процессе трансляции).
Помимо кодирующих последовательностей, ДНК клеток содержит последовательности, выполняющие регуляторные и структурные функции. Кроме того, в геноме эукариот часто встречаются участки, принадлежащие «генетическим паразитам», например, транспозонам.
Кодирование начинается с того, что все буквы, цифры и изображения переводят в двоичный код, то есть последовательность нулей и единиц, а их уже — в последовательность нуклеотидов, то есть четверичный код.
Считывать ДНК можно по-разному. Самая распространенная методика — цепочку молекулы ДНК копируют с помощью оснований, у каждого из которых есть цветовая метка. Затем очень чувствительный детектор считывает данные, и по цветам компьютер восстанавливает последовательность нуклеотидов.
Как в ДНК появляется новая информация
Делается это при помощи технологии CRISPR-Cas9, ее еще называют генетическими ножницами. Она была разработана восемь лет назад, а в 2020 году удостоена Нобелевской премии по химии.
Ранее записывать информацию нужно было долго и при помощи специального оборудования. Однако группа ученых из Колумбийского университета автоматизировала этот процесс.
Нам удалось научить клетки разговаривать с компьютером посредством электронных сигналов и таким образом скачивать информацию с любого электронного носителя.
Харрис Ванг, профессор системной биологии
Авторы объясняют, что они переводят двоичный код компьютерной программы в электрические импульсы, которые посылают в клетку. На ее поверхности есть рецепторы, которые воспринимают эти сигналы и уже переводят их на язык ДНК, автоматически выстраивая нужную последовательность генома.
В результате к цепочке ДНК добавляется так называемый прицеп, или дополнительный фрагмент. В отличие от цифровой компьютерной информации, он представляет собой набор букв генетического кода, то есть аналоговый шифр, поэтому ученый сравнивает этот отрезок с магнитной лентой.
Взаимодействие фактора транскрипции STAT3 с ДНК (показана в виде синей спирали)Какой объем информации можно записать в ДНК
С помощью новой технологии сотрудников Колумбийского университета удалось закодировать и прочитать 2,14 МБ информации. Итоговая физическая плотность записи составила 215 000 000 ГБ на грамм нуклеиновой кислоты.
Один оборот спирали ДНК в B-форме — это примерно 10 пар нуклеотидов. Кодирующей будет одна из нитей, так как вторая всегда комплиментарна первой.
Таким образом, есть 10 ячеек, в каждой из которых может быть одна из четырех букв: А, Т, Г, Ц.
При использовании четвертичного или двоичного кодирования плотность кодирования информации в ДНК составляет два бита на ячейку, то есть 20 бит на один оборот спирали, линейный размер которого примерно 3,4 нм объемом
11 м 3 — это то, что можно записать.
Сегодня можно создавать процессоры, в которых 1 бит записывается на 10 нанометрах. Таким образом, в ДНК, исходя из линейных размеров, можно записать примерно в 60 раз больше информации.
Насколько надежно записывать информацию на ДНК
В марте 2017 года журнал Science опубликовал статью американских ученых, которым удалось записать 2*10 17 байт на грамм ДНК. Биологи подчеркивают, что не потеряли ни байта.
К несомненным преимуществам записи информации на ДНК относится огромная плотность хранения данных, а также стабильность носителя — правда, лишь при низких температурах.
В ДНК информация записана в трехмерном аналоговом виде, а это наиболее устойчивая форма. В таком виде данные могут храниться сотни тысяч, а то и миллионы лет, заявил профессор системной биологии Харрис Ванг.
Вывод
Несмотря на все преимущества, технология записи информации на ДНК находится на начальном этапе своего развития. На сегодняшний день синтез ДНК остается все еще очень дорогим, поэтому за мегабайт данных, записанных на ДНК-«флешку», придется заплатить порядка 3,5 тыс. долларов.
Ученым еще предстоит разработать технологию автоматической передачи информации с ДНК. Также важно упростить способ передачи информации из компьютера в клетку. Сейчас для этого используется поток электронов, но в будущем его заменят чем-нибудь другим.
Например, переменным магнитным полем или температурой внешней среды. Или даже обычным лучом света — ведь фоторецепторы есть у большинства живых организмов.
В цепочку генов можно записать в 60 раз больше информации, чем на сегодняшние носители. Однако из-за дороговизны и куда более быстрого развития ИТ-технологий вряд ли мы будем копировать в ДНК аудио или фото
Сотрудники Колумбийского университета и Геномного центра разработали новую технологию записи информации в ДНК. С помощью нее ученым удалось закодировать и прочитать 2,14 мегабайт информации в виде ДНК-олигонуклеотидов. В них уместилась подарочная карта Amazon, операционная система KolibriOS, статья Шеннона о передаче информации в зашумленном канале, видеофайл «Прибытие поезда» братьев Люмьер и даже компьютерный вирус. Итоговая физическая плотность записи составила 215 000 000 гигабайт на грамм нуклеиновой кислоты. Казалось бы, что человечество сделало еще один шаг к очередной информационной революции. Но так ли это на самом деле? Какие есть преимущества и недостатки у ДНК как носителя информации?
100500 гигабайт в одной молекуле
Информационные возможности ДНК стали известны сразу после открытия ее структуры в 1953 году. Ученые поняли, что если быстро научиться синтезировать и читать ДНК, то можно записывать большое количество информации в маленьком объеме. Однако порядок величины удалось установить лишь в 80-е годы — после того, как были установлены размеры самой ДНК.
Сколько же информации можно записать на ДНК? Один оборот спирали ДНК в B-форме это примерно 10 пар нуклеотидов. Кодирующей будет одна из нитей т.к. вторая всегда комплиментарна первой. Таким образом имеем 10 ячеек, в каждой из которых может быть одна из четырёх букв (А, T, Г и Ц). При использовании четвертичного или двудвоичного кодирования плотность кодирования информации в ДНК составляет два бита на ячейку, т.е. 20 бит на один оборот спирали, линейный размер которого примерно 3,4 нанометра (объём
11 кубических нанометров) — это то, что можно записать. Много это или мало?
Существующими физическими принципами сегодня можно создавать процессоры, в которых 1 бит записывается на 10 нанометрах. Таким образом, в ДНК, исходя из линейных размеров, можно записать примерно в 60 раз больше информации. Но скорее всего это быстро кончится, поскольку уже сейчас Intel и TSMC работают над созданием процессора, в котором 1 бит информации будет записан на 5 нанометрах. Преимущество хранения информации в виде ДНК в объёме сходит на нет с развитием 3D NAND технологий многослойной флеш-памяти. И это не предел с учетом наступающих на пятки квантовых компьютеров. Так есть ли смысл записывать в ДНК фотографии, тексты и другую информацию, закодированную в битовом языке, если компьютерные технологии работают на опережение?
Возможность записи информации на ДНК, скорее всего, сыграет свою роль, но только в каких-то специфических вещах, где не получается сделать процессоры на той основе, к которой мы привыкли — полупроводников или магнитно-оптических носителей. Это будет ситуация, когда по-другому просто не получается, например, в случае каких-нибудь хитрых биологических конструкций.
Дорого, но очень долговечно
Одно из главных преимуществ ДНК как носителя информации — долговечность. Бумажные носители и жесткие диски заметно проигрывают ДНК, которую можно выделить из костей организмов умерших миллионы лет назад, а затем и считать информацию. Особенно, если она хранилась в подходящих условиях, таких как вечная мерзлота, например, или в пустыне под землей без кислорода. Лучше чем ДНК хранятся разве что кальциевые окаменелости. Частично она может разрушиться или модифицироваться, но с учётом многократной повторяемости, расшифровка будет возможной. Поэтому если у человека, например, появятся задачи сохранения информации о планете, которая должна пролежать долго, то ДНК справится с ней как нельзя лучше. Но пока такие замыслы лишь на уровне фантастический рассказов — раса, которая была вынуждена умереть, сохранила генетический материал и потом эту расу восстановили, считав информацию.
На сегодняшний день синтез ДНК остается все еще очень дорогим, поэтому за мегабайт данных записанных на ДНК «флешку» придется заплатить порядка 3,5 тысячи долларов. Если сравнивать с записью на компакт-диск, то цифра кажется заоблачной. Но с другой стороны, если вы захотите сохранить информацию во Вселенной и выберете для этого компакт-диски, то будете тратить определенную сумму на запись каждого диска. ДНК же синтезируется один раз, и ее размножение представляет собой очень дешевые реакции. Это сравнимо с тем, как много времени тратит автор, чтобы сочинить книгу, а напечатать много ее экземпляров уже сравнительно легко. Здесь то же самое.
Не исключено, что технологию синтеза ДНК и считывания информации с нее можно будет использовать даже дома — сейчас технологии достаточно широки, чтобы сделать это. Представьте, что у вас дома стоит небольшой аппарат, вы берете пробирку, кладете в прибор, в котором уже все подготовлено и записываете в считанные секунды нужную информацию. Но такие технологии как «неуловимый Джо» — никто не может поймать, потому, что на самом деле, никому не нужно. Для записи цифровой информации есть вещи проще, например, уже привычные нам компьютерные носители. Скорее всего компьютерные технологии уйдут далеко вперед, поскольку они еще не исчерпали свои ресурсы по уменьшению ячейки, а создание многослойной флеш-памяти только начинается. В случае же с ДНК ячейка не станет меньше нуклеотида. Поэтому использование ДНК в качестве носителя информации, по-видимому, будет ограничено научными исследованиями и биотехнологическими приложениями. Источник: Forbes
Читайте также: