16.1: Вступ
- Page ID
- 6533
Формат ФАСТА
Біологічні послідовності передаються програмному забезпеченню в стандартизованому форматі, іменованому FASTA. FASTA - це звичайний текстовий формат, який можна прочитати в будь-якому текстовому редакторі (TextEdit, Блокнот, VIM, TextWrangler і т.д.). Нуклеїнові кислоти (ДНК і РНК) і Білки представлені однобуквенними нуклеотидами (A, T, C, G) або однобуквенними амінокислотами (20 амінокислот). Послідовності FASTA починаються з символу > у першому рядку, а потім деяку описову інформацію про послідовність, наприклад назву послідовності. Наступний рядок складається з інформації про послідовність. Файл FASTA може містити декілька записів послідовності, які розмежовуються новим рядком і рядком заголовка, що починається з >.
Приклад файлу FASTA
> Складена послідовність нуклеїнових кислот
ATATAGGATTAGGATTAGAGAGAGGAGGGATTGATTGATTGGATTGCGCCG
> Інша послідовність нуклеїнових кислот в тому ж файлі GGGTCGGGATTCGATTCGATTCGATTCGAT
Файли FASTA є звичайним текстом, але зазвичай мають розширення, яке вказує його як файл послідовності: .fasta, .fa, .fna або навіть .txt
Нижче наведено список однобуквенних кодів нуклеїнових кислот:
Код нуклеїнової кислоти | Значення | Мнемонічний |
---|---|---|
A | A | А денін |
C | C | C тиозин |
Г | Г | Г Україна |
Т | Т | Т гімін |
У | У | Расик |
Р | А або Г | Pu R лінія |
У | С, Т або У | P Y римідинів |
К | G, T або U | основи, які є K каменів |
М | А або С | бази з M в групи |
S | C або G | Сильна взаємодія |
Ш | А, Т або У | Ми слабку взаємодію |
Б | не A (тобто C, G, T або U) | B настає після А |
D | не C (тобто A, G, T або U) | D настає після C |
Ч | не G (тобто A, C, T або U) | H настає після G |
V | ні Т, ні U (тобто A, C або G) | V настає після U |
П | А, С, Г, Т, У | N нуклеотид |
Х | замаскований | |
— | Зазор невизначеної довжини |
Графічна послідовність маніпуляцій
Вправи, описані тут щодо біоінформатики, будуть використовувати безкоштовне програмне забезпечення з відкритим кодом під назвою Unipro UGENE.
- Оконечников К., Голосова О., Фурсов М., команда «УДЖЕНЕ». Unipro UGENE: уніфікований інструментарій біоінформатики. Біоінформатика 2012 28:1166-1167. дої:10.1093/біоінформатика/bts09
- Голосова О., Гендерсон Р., Васкін Ю., Габріелян А., Грехов Г., Нагараджан В., Олер А.Й., Квіньонес М, Хурт Д, Фурсов М., Гуєн Юніпро, UNIPRO UGENE NGS конвеєри та компоненти для аналізу даних виклику варіантів, РНК-SEQ та чіп-SEQ. Черв 2014 р., 2:64,4 р. у: 10,7717/за 0,644