Где открыть fasta файл
В биоинформатики и биохимии , то формат FASTA представляет собой текстовый формат для представления либо нуклеотидные последовательности , или аминокислоты (белок) последовательности, в которых нуклеотиды или аминокислоты , которые представлены с использованием однобуквенных кодов. Формат также позволяет размещать имена последовательностей и комментарии перед последовательностями. Формат основан на программном пакете FASTA , но теперь стал почти универсальным стандартом в области биоинформатики .
Простота формата FASTA позволяет легко манипулировать последовательностями и анализировать их с помощью инструментов обработки текста и языков сценариев, таких как язык программирования R , Python , Ruby и Perl .
СОДЕРЖАНИЕ
Исходный формат и обзор
Исходный формат FASTA / Pearson описан в документации к пакету программ FASTA . Его можно загрузить с любым бесплатным дистрибутивом FASTA (см. Fasta20.doc, fastaVN.doc или fastaVN.me - где VN - номер версии).
В исходном формате последовательность представлялась как серия строк, каждая из которых не превышала 120 символов и обычно не превышала 80 символов. Вероятно, это было сделано для того, чтобы предусмотреть предварительное выделение размеров фиксированных линий в программном обеспечении: в то время большинство пользователей полагались на терминалы Digital Equipment Corporation (DEC) VT220 (или совместимые), которые могли отображать 80 или 132 символа в строке. Большинство людей предпочитали более крупный шрифт в 80-символьных режимах, поэтому стало рекомендованным использовать 80 или менее символов (часто 70) в строках FASTA. Кроме того, ширина стандартной печатной страницы составляет от 70 до 80 символов (в зависимости от шрифта). Таким образом, 80 символов стали нормой.
Первая строка в файле FASTA начинается либо с символа «>» (больше), либо, реже, с символа «;» (точка с запятой) была воспринята как комментарий. Последующие строки, начинающиеся с точки с запятой, будут игнорироваться программным обеспечением. Поскольку единственным использованным комментарием был первый, он быстро стал использоваться для хранения сводного описания последовательности, часто начинающегося с уникального регистрационного номера библиотеки, и со временем стало обычным делом всегда использовать ">" для первой строки и для не использовать ";" комментарии (которые в противном случае были бы проигнорированы).
После начальной строки (используемой для уникального описания последовательности) была сама последовательность в стандартной однобуквенной символьной строке. Все, кроме допустимого символа, будет проигнорировано (включая пробелы, табуляторы, звездочки и т. Д.). Также было принято заканчивать последовательность знаком «*» (звездочка) (по аналогии с использованием в последовательностях в формате PIR) и по той же причине оставлять пустую строку между описанием и последовательностью. Ниже приведены несколько примеров последовательностей:
Формат FASTA с несколькими последовательностями может быть получен путем объединения нескольких файлов FASTA с одной последовательностью в общий файл (также известный как формат с несколькими FASTA). Это не означает противоречия с форматом, поскольку только первая строка в файле FASTA может начинаться с символа ";" или «>», что заставляет все последующие последовательности начинаться с «>», чтобы их можно было рассматривать как разные (и, кроме того, принудительно выполняет исключительное резервирование «>» для строки определения последовательности). Таким образом, приведенные выше примеры могут быть взяты вместе как многопоследовательный (т.е. мульти-FASTA) файл.
В настоящее время современные биоинформатические программы, которые полагаются на формат FASTA, ожидают, что заголовкам последовательностей будет предшествовать ">", а фактическая последовательность, хотя обычно представлена как "чередующаяся", то есть на нескольких строках, как в приведенном выше примере, также может быть " последовательный », когда полный участок находится на одной строке. Пользователям часто может потребоваться выполнить преобразование между «последовательным» и «чередующимся» форматом FASTA для запуска различных биоинформатических программ.
Строка описания
Строка описания (defline) или строка заголовка / идентификатора, которая начинается с '>', дает имя и / или уникальный идентификатор для последовательности, а также может содержать дополнительную информацию. В устаревшей практике строка заголовка иногда содержала более одного заголовка, разделенных символом ^ A (Control-A). В исходном формате Pearson FASTA один или несколько комментариев, выделенных точкой с запятой в начале строки, могут находиться после заголовка. Некоторые базы данных и приложения для биоинформатики не распознают эти комментарии и следуют спецификации NCBI FASTA . Ниже приведен пример файла FASTA с несколькими последовательностями:
Идентификаторы NCBI
NCBI определил стандарт для уникального идентификатора , используемого для последовательности (SeqID) в строке заголовка. Это позволяет пометить последовательность, полученную из базы данных, ссылкой на ее запись в базе данных. Формат идентификатора базы данных понимается такими инструментами NCBI, как makeblastdb и table2asn . В следующем списке описан формат, определенный NCBI FASTA для идентификаторов последовательностей.
gnl|database|string
Вертикальные полосы («|») в приведенном выше списке не являются разделителями в смысле формы Бэкуса – Наура , но являются частью формата. Можно объединить несколько идентификаторов, также разделенных вертикальными полосами.
Представление последовательности
После строки заголовка представлена фактическая последовательность. Последовательности могут быть последовательностями белков или последовательностями нуклеиновых кислот , и они могут содержать пробелы или символы выравнивания (см. Выравнивание последовательностей ). Ожидается, что последовательности будут представлены в стандартных кодах аминокислот и нуклеиновых кислот IUB / IUPAC , за следующими исключениями: буквы нижнего регистра принимаются и отображаются в верхнем регистре; одиночный дефис или тире может использоваться для обозначения символа пробела; а в аминокислотных последовательностях допустимые буквы U и * (см. ниже). Цифровые цифры не допускаются, но используются в некоторых базах данных для обозначения позиции в последовательности. Поддерживаемые коды нуклеиновых кислот:
Код нуклеиновой кислоты | Имея в виду | Мнемонический |
---|---|---|
А | А | Денин |
C | C | C ytosine |
грамм | грамм | G uanine |
Т | Т | T hymine |
U | U | U racil |
(я) | я | я носин (нестандартный) |
р | A или G (I) | пу R ине |
Y | C, T или U | p Y римидины |
K | G, T или U | основания , которые K etones |
M | А или С | основания с в М иных групп |
S | C или G | S взаимодействие Чонг |
W | A, T или U | W взаимодействие ЕАК |
B | не A (то есть C, G, T или U) | B идет после A |
D | не C (то есть A, G, T или U) | D идет после C |
ЧАС | не G (то есть A, C, T или U) | H идет после G |
V | ни T, ни U (т.е. A, C или G) | V идет после U |
N | ACGTU | N ucleic кислоты |
- | промежуток неопределенной длины |
Поддерживаемые коды аминокислот (22 аминокислоты и 3 специальных кода):
Аминокислотный код | Имея в виду |
---|---|
А | Аланин |
B | Аспарагиновая кислота (D) или аспарагин (N) |
C | Цистеин |
D | Аспарагиновая кислота |
E | Глютаминовая кислота |
F | Фенилаланин |
грамм | Глицин |
ЧАС | Гистидин |
я | Изолейцин |
J | Лейцин (L) или изолейцин (I) |
K | Лизин |
L | Лейцин |
M | Метионин / Стартовый кодон |
N | Аспарагин |
О | Пирролизин (редко) |
п | Пролин |
Q | Глутамин |
р | Аргинин |
S | Серин |
Т | Треонин |
U | Селеноцистеин (редко) |
V | Валин |
W | Триптофан |
Y | Тирозин |
Z | Глутаминовая кислота (E) или глутамин (Q) |
Икс | любой |
* | остановка перевода |
- | промежуток неопределенной длины |
FASTA файл
Расширение имени файла
Не существует стандартного расширения имени файла для текстового файла, содержащего последовательности в формате FASTA. В таблице ниже показано каждое расширение и его соответствующее значение.
Расширение | Имея в виду | Примечания |
---|---|---|
fasta, fa | общий FASTA | Любой универсальный файл fasta. Ниже приведены другие распространенные расширения файлов FASTA. |
фна | Нуклеиновая кислота FASTA | Обычно используется для определения нуклеиновых кислот. |
ffn | Нуклеотид FASTA участков гена | Содержит кодирующие области для генома. |
фаа | Аминокислота FASTA | Содержит аминокислотные последовательности. Многопротеиновый файл fasta может иметь более конкретное расширение mpfa. |
frn | Некодирующая РНК FASTA | Содержит некодирующие участки РНК для генома в алфавитном порядке ДНК, например тРНК, рРНК |
Сжатие
Для сжатия файлов FASTA требуется специальный компрессор для обработки обоих каналов информации: идентификаторов и последовательности. Для улучшения результатов сжатия они в основном разделены на два потока, где сжатие выполняется с учетом независимости. Например, алгоритм MFCompress выполняет сжатие этих файлов без потерь, используя контекстное моделирование и арифметическое кодирование. Для тестов алгоритмов сжатия файлов FASTA см. Hosseini et al., 2016, и Kryukov et al., 2020.
Шифрование
Шифрование файлов FASTA в основном решается с помощью специального инструмента шифрования: Cryfa. Cryfa использует шифрование AES и позволяет сжимать данные помимо шифрования. Он также может обращаться к файлам FASTQ.
Расширения
Формат FASTQ - это форма формата FASTA, расширенная для указания информации, относящейся к секвенированию. Он создан Центром Сэнгера в Кембридже.
A2M / A3M - это семейство форматов, производных от FASTA, используемых для выравнивания последовательностей . В последовательностях A2M / A3M символы нижнего регистра означают вставки, которые затем указываются в других последовательностях как символ точки (" . "). Точки можно отбросить для компактности без потери информации. Как и в случае с типичным FASTA, используемым при выравнивании, зазор (« - ») означает ровно одну позицию. A3M похож на A2M, с добавленным правилом, согласно которому пробелы, выровненные по вставкам, тоже могут быть отброшены.
Четыре лучших способа открыть файлы FASTA
Первый способ, которым вы всегда должны пытаться открыть расширение файла FASTA, - это дважды щелкнуть по нему, но если это не сработает, вы можете попробовать еще несколько вещей. Существует множество программ, которые могут открывать разные расширения файлов, и есть несколько простых способов определить, какой из них использовать.
Установить необязательные продукты - File Magic (Solvusoft) | EULA | Privacy Policy | Terms | Uninstall
Выберите правильную программу
Начните с выбора правильной программы, чтобы открыть файл FASTA. Ниже перечислены некоторые из наиболее распространенных программ, используемых для открытия файлов FASTA. Один из них должен иметь возможность открыть файл FASTA.
- FASTA Format DNA and Protein Sequence Alignment
- dnaLIMS Fasta Library
Обратите внимание на тип файла
Другие программы могут открыть файл FASTA, в зависимости от типа файла. Вы можете найти тип файла, указанный в свойствах файла. На ПК с ОС Windows щелкните файл правой кнопкой мыши, выберите «Свойства», затем просмотрите «Тип файла». На компьютере Mac щелкните файл правой кнопкой мыши, нажмите «Дополнительная информация», затем просмотрите раздел «Вид».
Наконечник: Если это расширение файла FASTA, оно, вероятно, относится к типу Data Files, поэтому любая программа, используемая для Data Files, должна открыть файл FASTA.
Спросите у разработчика
Обращение к разработчику программного обеспечения - еще один простой способ получить помощь при открытии файла FASTA. Вы можете найти разработчиков для наиболее распространенных программ, используемых для открытия файлов FASTA в приведенном ниже списке.
Программного обеспечения | разработчик |
---|---|
FASTA Format DNA and Protein Sequence Alignment | PC Software Company |
dnaLIMS Fasta Library | dnaTools |
Использование универсального средства просмотра файлов
Когда все остальное не удается, универсальный просмотрщик файлов - лучший способ открыть файл FASTA. Такие программы, как File Magic (Download), могут открывать много разных типов файлов в зависимости от формата. Хотя некоторые файлы могут быть несовместимы с этими программами. Если ваш файл FASTA несовместим, он будет открыт только в двоичном формате.
Рекомендуем
Установить необязательные продукты - File Magic (Solvusoft) | EULA | Privacy Policy | Terms | Uninstall
Открывает все ваши файлы, как
МАГИЯ! 1
Установить необязательные продукты - File Magic (Solvusoft)
EULA | Privacy Policy | Terms | Uninstall
1 Типы файлов, которые не поддерживаются, могут быть открыты в двоичном формате.
Просмотр файлов
Если файл .FASTA известен Вашей системе, то открыть его можно двойным нажатием мышкой или клавишей ENTER. Эта операция запустит ассоциируемые с файлом .FASTA аппликации, установленные в системе. Если система встречает файл впервые и отсутствуют соответствующие ассоциации, то акция закончится предложением системы, найти соответствующее программное обеспечение в компьютере либо сети интернет.
Иногда случается, что для обслуживания типа файлов .FASTA приписана неправильная программа. Это случается в следствии действия враждебных программ, таких как вирусы или вредоносные программы, но чаще всего это результат ошибочного совмещения аппликации с расширением файла .FASTA. Если во время обслуживания нового типа файлов .FASTA мы укажем системе неправильную программу, то система ошибочно будет рекомендовать ее использование всякий раз, когда будет встречаться файл этого типа. В таком случае следует попробовать повторно выбрать соответствующую аппликацию. Нажмите правой кнопкой мышки на файл .FASTA, а затем выберите из меню опцию "Открыть с помощью. " затем "Выбрать программу по умолчанию" . Сейчас выберите одну из установленных аппликаций из вышеуказанного списка и попробуйте снова.
Windows
SnapGeneBSEdit
DNA Baser
Geospiza FinchTV
SeqVerter
Linux
MAC
SnapGene4Peaks
Geospiza FinchTV
Ручное редактирование Реестра Windows
Если наша система не справляется с расширением .FASTA и подвели все автоматические и полуавтоматические методы обучения его этому искусству, остается ручное редактирование реестра Windows. Этот реестр хранит всю информацию, касающуюся рабоы нашей операционной системы, в том числе соединения расширений файлов с программами для их обслуживания. Команда REGEDIT вписанная в окне „поиск программ и файлов” или „запустить в случае старших версий операционной системы, предоставляет нам доступ к реестру нашей операционной системы. Все операции, проведенные в реестре (даже не очень сложные, касающееся расширения файла .FASTA) имеют значительное влияние на работу нашей системы, поэтому прежде чем проводить какие-либо модификации следует убедится, что сделана копия актуального реестра. Интересующий нас раздел - это ключ HKEY_CLASSES_ROOT. Следующая инструкция показывает, шаг за шагом, как модифицировать реестр, а конкретно запись в реестре, содержащую информацию о файле .FASTA.
FASTA file format is used for storing DNA sequences, and is popular among scientist and scientific communities. FASTA is a database file used for storing data on nucleid acids or protein sequences.
FASTA files allows users to add comments or adnotations. FASTA stores data in text format and is supported by many bioinformatics software tools. Nucleaotides data store in FASTA files use standard abbreviation codes (for example, C for cytosine).
Формат файла FASTA используется для хранения последовательностей ДНК и популярен среди ученых и научных кругов. FASTA - это файл базы данных, используемый для хранения данных о нуклеиновых кислотах или белковых последовательностях.
Файлы FASTA позволяют пользователям добавлять комментарии или комментарии. FASTA хранит данные в текстовом формате и поддерживается многими программными инструментами для биоинформатики. В хранилище данных нуклеотидов в файлах FASTA используются стандартные коды аббревиатур (например, C для цитозина).
Программа(ы), умеющие открыть файл .FASTA
Windows
Mac OS
Linux
Как открыть FASTA файлы
Если появилась ситуация, в которой Вы не можете открыть файл FASTA на своем компьютере - причин может быть несколько. Первой и одновременно самой важной (встречается чаще всего) является отсутствие соответствующей аппликации обслуживающей FASTA среди установленных на Вашем компьютере.
Самым простым способом решения этой проблемы является нахождение и скачивание соответствующей аппликации. Первая часть задания, уже выполнена, - программы для обслуживания файла FASTA Вы найдете ниже. Теперь достаточно скачать и установить соответствующую аппликацию.
В дальнейшей части этой страницы Вы найдете другие возможные причины, вызывающие проблемы с файлами FASTA.
Возможные проблемы с файлами в формате FASTA
Отсутствие возможности открытия и работы с файлом FASTA, совсем не должен значить, что мы не имеем установленного на своем компьютере соответствующего программного обеспечения. Могут выступать другие проблемы, которые также блокируют нам возможность работы с файлом FASTA Format DNA And Protein Sequence Alignment. Ниже находится список возможных проблем.
- Повреждение открываемого файла FASTA.
- Ошибочные связи файла FASTA в записях реестра.
- Случайное удаление описания расширения FASTA из реестра Windows
- Некомплектная установка аппликации, обслуживающей формат FASTA
- Открываемый файл FASTA инфицирован нежелательным, вредным программным обеспечением.
- На компьютере слишком мало места, чтобы открыть файл FASTA.
- Драйверы оборудования, используемого компьютером для открытия файла FASTA неактуальные.
Если Вы уверены, что все перечисленные поводы отсутствуют в Вашем случае (или были уже исключены), файл FASTA должен сотрудничать с Вашими программами без каких либо проблем. Если проблема с файлом FASTA все-таки не решена, это может значить, что в этом случае появилась другая, редкая проблема с файлом FASTA. В таком случае остается только помощь специалиста.
Похожие расширения
.a1wish | Audials Wishlist Format |
.a3l | Adobe Authorware Library Format |
.a3m | Adobe Authorware Unpackaged Format |
.a3w | Adobe Authorware Unpackaged Format |
.a4l | Adobe Authorware Library Format |
.a4m | Adobe Authorware Unpackaged Format |
.a4w | Adobe Authorware Unpackaged Format |
.a5l | Adobe Authorware Library Format |
Как связать файл с установленной программой?
Если Вы хотите связать какой-то файл с новой программой (напр. moj-plik.FASTA) Вы можете воспользоваться двумя вариантами. Первый и самый простой - это нажатие правой кнопкой мышки на избранный файл FASTA. Из открытого меню выберите опцию Выбрать программу по умолчанию", затем опцию "Пересматривать" и найти требуемую программу. Всю операцию необходимо утвердить нажатием кнопки OK.
Есть ли универсальный метод открытия неизвестных файлов?
Многие файлы содержат данные в виде текста или чисел. Возможно, что во время открытия неизвестных файлов (напр. FASTA) популярный в системе Windows простой редактор текста, которым является Notatnik позволит нам увидеть часть данных, закодированных в файле. Этот метод позволяет просмотреть содержимое многих файлов, однако не в такой форме, как программа, предназначенная для их обслуживания.
Читайте также: