in

Biyoinformatikte Farklı Dizi Formatları

Biyoinformatikte Kullanılan Farklı Türdeki Dizi Formatlarına İlişkin Bilgiler

İçindekiler

Giriş

Dizi analiz programlarının kullanımdaki önemli sorunlarından biri farklı dizi formatlarının bulunmasıdır. Bu dizi formatlarının hepsi standart ASCII (American Standart Code for Information Interchange, Bili Değişimi için Amerikan Standart Kodlama Sistemi) dosyalarıdır ancak bazı özel karakter ve kelimeler farklı bilgilerin ve dizilerin nerede olduğunu belirtir. Bu farklı dizi formatları; GenBank DNA Dizi Formatı, Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) ve FASTA Dizi formatıdır.

GenBank DNA Dizi Formatı

GenBank’ta bir veri tabanın kaydı şu şekildedir; Sisteme girilen her dizinin tanımlayıcı bilgileri, kodlanan bölgelerinin yeri, dizinin fonksiyonu ve literatür referansları hakkında bilgi verir. Bu bilgiler her satırda ilk bilgi olarak verilir. Bazı veri girişlerinde bu tanımlayıcılar RF gibi, kısaltmalar kullanır ve bazı belirleyici bilgiler verir. FEATURES alanındaki CDS alt bölgesi olarak bilinen ve potansiyel açık okuma çerçevelerinin örneğin bir amino asit dizisini verebilecek kodonları gösteren üç harfli dizilerin çevrilmesiyle elde edilen amino asit dizileridir. Dizi girişleri bilgisayarlar tarafından ‘’ ORIGIN’’ ve ‘’//’’ belirleyici olarak kabul edilir.

LOCUS: Lokusun ismi, uzunluğu ve dizi tipi.

DEFINITION: Girişin tanımı

ACCESSION: Orijinal kaynağın accession numarası

KEYWORDS: Dizi girişlerinin referanslarının yapılabilmesi için anahtar kelimeler

SOURCE: DNA’nın elde edildiği ortam

COMMENT: Biyolojik fonksiyon

FEATURES: Dizi baz konumu

ORIGIN: Dizinin başlangıcını belirten kısım

CDS: Protein kodlayan bölge

Avrupa Moleküler Biyoloji Laboratuvarı Veri Kütüphanesi

Avrupa Moleküler Biyoloji Laboratuvar Veri Kütüphanesi (The European Molecular Biology Laboratory (EMBL)) protein ve DNA dizilerini sunmaktadır. Bu format GenBank formatına çok yakındır. Aralarındaki en belirgin fark GenBank’ın dizi formatında başlangıç için ORIGIN teriminin kullanılması ve EMBL’de herhangi bir translasyon ürününün dizisi eklenmeyerek bunların ayrı bir giriş olarak veri tabanında yer almasıdır. Eldeki veri tabanının bilgisayara giriş formatı şu şekildedir;

ID: Dizi için kimlik kodu

AC: Dizinin başlangıcını gösteren accession numarası

CC: Biyolojik fonksiyonun tanımı

OS,OC: Kaynak organizma

KW: Giriş için anahtar kelimeler

DT: Dizi girişlerinin tarihleri

FASTA Dizi Format

Eldeki dizi verilerinin girişi için en hızlı ve karşılaştırması en kolay formatıdır. Bu format FAST (hızlı), Alignment (karşılaştırma) ‘ın birleşimi sonucu oluşan isimdir. FASTA formatının en belirgin ve önemli özelliği, hızlı  ve sadece diziyi içeren bir format olmasıdır. FASTA formatı (>) işareti ile başlar ve  sonrasında boşluk bırakılmadan belirleyici satır ve ardından gelen tanımlama satırından  oluşur.

FASTA dizi formatı;

Caspase 3 (CASP3- apoptoza ilişkin sistein proteaz) geni için FASTA formatının NCBI’ da bulunması aşağıda basamaklar halinde anlatılmıştır.

Öncelikle NCBI ana sayfasına giriş yapılarak arama motoruna genin adı yazılır. Arama sonu çıkan sayfada bu geni bulunduran bütün organizmalar yer almaktadır.

Görsel 1: Araştırma yaptığımız gene ait organizma seçilir. (Örneğin; Homo Sapiens) Görsel 2 Görsel 3

CASP3 genine ait   mRNA, nükleotit ve protein FASTA formatlarından seçeceğimiz format kullandığımız FASTA uygulamasına göre değişmektedir.

Görsel 4 Görsel 5

  • mRNA için FASTA formatı NM numarası
  • Protein için FASTA formatı NP numarası
  • Nükleotid için FASTA formatı NC numarası üzerine tıklanarak FASTA formatına ulaşılır.

İşlem sonucunda CASP3 genine ait mRNA FASTA formatına ulaşmış oluruz.

Kaynaklar:

  1. https://www.researchgate.net/publication/280041396_Biyoteknoloji_ve_Biyoinformatik 
  2. https://avesis.deu.edu.tr/yayin/f92de195-da5a-46d9-8bc0-c6656223b13e/biyoinformatik
  3. https://www.researchgate.net/profile/Bahattin-Tanyolac/publication/280041396_Biyoteknoloji_ve_Biyoinformatik/links/5617722808ae90469c614f39/Biyoteknoloji-ve-Biyoinformatik.pdf

Görsel Kaynak: https://biotechgo.org/tr/training/advanced-level/ptm-in-general-bioinformatics-adv/lo4-a

Editör: Selin Su GÜNDÜZ

Ne düşünüyorsunuz?

4 Points
+ Oy - Oy

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir