İçindekiler
Giriş
Dizi analiz programlarının kullanımdaki önemli sorunlarından biri farklı dizi formatlarının bulunmasıdır. Bu dizi formatlarının hepsi standart ASCII (American Standart Code for Information Interchange, Bili Değişimi için Amerikan Standart Kodlama Sistemi) dosyalarıdır ancak bazı özel karakter ve kelimeler farklı bilgilerin ve dizilerin nerede olduğunu belirtir. Bu farklı dizi formatları; GenBank DNA Dizi Formatı, Avrupa Moleküler Biyoloji Laboratuvarı (EMBL) ve FASTA Dizi formatıdır.
GenBank DNA Dizi Formatı
GenBank’ta bir veri tabanın kaydı şu şekildedir; Sisteme girilen her dizinin tanımlayıcı bilgileri, kodlanan bölgelerinin yeri, dizinin fonksiyonu ve literatür referansları hakkında bilgi verir. Bu bilgiler her satırda ilk bilgi olarak verilir. Bazı veri girişlerinde bu tanımlayıcılar RF gibi, kısaltmalar kullanır ve bazı belirleyici bilgiler verir. FEATURES alanındaki CDS alt bölgesi olarak bilinen ve potansiyel açık okuma çerçevelerinin örneğin bir amino asit dizisini verebilecek kodonları gösteren üç harfli dizilerin çevrilmesiyle elde edilen amino asit dizileridir. Dizi girişleri bilgisayarlar tarafından ‘’ ORIGIN’’ ve ‘’//’’ belirleyici olarak kabul edilir.
LOCUS: Lokusun ismi, uzunluğu ve dizi tipi.
DEFINITION: Girişin tanımı
ACCESSION: Orijinal kaynağın accession numarası
KEYWORDS: Dizi girişlerinin referanslarının yapılabilmesi için anahtar kelimeler
SOURCE: DNA’nın elde edildiği ortam
COMMENT: Biyolojik fonksiyon
FEATURES: Dizi baz konumu
ORIGIN: Dizinin başlangıcını belirten kısım
CDS: Protein kodlayan bölge
Avrupa Moleküler Biyoloji Laboratuvarı Veri Kütüphanesi
Avrupa Moleküler Biyoloji Laboratuvar Veri Kütüphanesi (The European Molecular Biology Laboratory (EMBL)) protein ve DNA dizilerini sunmaktadır. Bu format GenBank formatına çok yakındır. Aralarındaki en belirgin fark GenBank’ın dizi formatında başlangıç için ORIGIN teriminin kullanılması ve EMBL’de herhangi bir translasyon ürününün dizisi eklenmeyerek bunların ayrı bir giriş olarak veri tabanında yer almasıdır. Eldeki veri tabanının bilgisayara giriş formatı şu şekildedir;
ID: Dizi için kimlik kodu
AC: Dizinin başlangıcını gösteren accession numarası
CC: Biyolojik fonksiyonun tanımı
OS,OC: Kaynak organizma
KW: Giriş için anahtar kelimeler
DT: Dizi girişlerinin tarihleri
FASTA Dizi Format
Eldeki dizi verilerinin girişi için en hızlı ve karşılaştırması en kolay formatıdır. Bu format FAST (hızlı), Alignment (karşılaştırma) ‘ın birleşimi sonucu oluşan isimdir. FASTA formatının en belirgin ve önemli özelliği, hızlı ve sadece diziyi içeren bir format olmasıdır. FASTA formatı (>) işareti ile başlar ve sonrasında boşluk bırakılmadan belirleyici satır ve ardından gelen tanımlama satırından oluşur.
FASTA dizi formatı;
Caspase 3 (CASP3- apoptoza ilişkin sistein proteaz) geni için FASTA formatının NCBI’ da bulunması aşağıda basamaklar halinde anlatılmıştır.
Öncelikle NCBI ana sayfasına giriş yapılarak arama motoruna genin adı yazılır. Arama sonu çıkan sayfada bu geni bulunduran bütün organizmalar yer almaktadır.
CASP3 genine ait mRNA, nükleotit ve protein FASTA formatlarından seçeceğimiz format kullandığımız FASTA uygulamasına göre değişmektedir.
- mRNA için FASTA formatı NM numarası
- Protein için FASTA formatı NP numarası
- Nükleotid için FASTA formatı NC numarası üzerine tıklanarak FASTA formatına ulaşılır.
İşlem sonucunda CASP3 genine ait mRNA FASTA formatına ulaşmış oluruz.
Kaynaklar:
- https://www.researchgate.net/publication/280041396_Biyoteknoloji_ve_Biyoinformatik
- https://avesis.deu.edu.tr/yayin/f92de195-da5a-46d9-8bc0-c6656223b13e/biyoinformatik
- https://www.researchgate.net/profile/Bahattin-Tanyolac/publication/280041396_Biyoteknoloji_ve_Biyoinformatik/links/5617722808ae90469c614f39/Biyoteknoloji-ve-Biyoinformatik.pdf
Görsel Kaynak: https://biotechgo.org/tr/training/advanced-level/ptm-in-general-bioinformatics-adv/lo4-a
Editör: Selin Su GÜNDÜZ