Fasta dosya formatı içerisinde yer alan DNA sekansları üzerinde mevcut olan tekrarlı motifleri tespit etmek amacıyla python
dilinde uygulamalar geliştirerek öğrenme sürecime devam etmekteyim. Fasta dosya formatı
içinden motiflerin bulunma nedenlerini ve exon-intron çıkarımlarının, eklemelerinin tanımlarını açıklamaya çalışırken öncelikle klasik dosya formatlarından azıcık
farklı bir yapıda olan fasta formatını anlatarak
başlıyor olacağım.
Metin tabanlı dosya formatı olan FASTA
içerisinde nükleotid veya peptit dizileri bulunmaktadır. Fasta formatı
içerisinde yer alan sekans dosyası birden çok sekans dizi setini içermektedir. Her bir sekans
için fasta formatı içerisinde tek satırlık bir tanımlama satırı yer almaktadır. Sonrasında da tanımlama satırını sekans verileri takip etmektedir.
>VIT_00s0120g00270.t01|1008724|1008724|1009729|1
ATGGGAGGGAGATCTGTAGCTAAGGGAAGGACTATTGAGCAACGAATTCTTGAGTCAAATCTAGTTCTAGAAGCATTCGGTGATGCAAAGACTGTCAGAAACAATAATTCAAGTCGTTTGGTAAGTTTGTGGAGATTCAGTTTGATCAGAGGAGAAGGATTTCAAGAGCAACTATCAGGA…
>VIT_00s0120g00080.t01|89862|90371;89862;90959|90473;90112;91048|2;1;3
ATGCATTCAACTGATGGAAAACGCAGAGAGAACTGGGCAATGACAACGGAGGAAAAGAGCCGAGCTCAATCTGGCAATGTTAGTCATGCAGCTGGATGTGCTGAGAACAACATAGAAACA…
>VIT_00s0120g00300.t01|1096353|1096353|1096445|1
ATGGTTTTAGGGTTTACCATTTTATTTGTAAAACGACGGCCAGTGCCAAGCTTGCATGCTCGAGCGGCCGCCAGTGTGCTGGAAAGTTTCTAG…
Tanımlama satırı “>” sembolü ile
başlamaktadır. Tanımlayıcılar basit protein erişimleri, isimleri veya Entrez gi
denilen erişim numaralarını içermektedir. Fasta dosya formatının katarlar (string) veya listeler gibi doğrudan
işlenememesi, bu dosyanın başlangıç kısmında içermiş olduğu başlık bilgisi
nedeniyledir. Bir diğer deyişle, dosya içerisinde yer alan veri bilgisine
erişmeden önce dosyayı başlık bilgisinden ayırmak gerekmektedir.
Farklı DNA sekanslarından meydana gelen fasta dosyası içerisinde
DNA’nın
belirli bir bölgesine bağlanan proteinler için bağlanma yüzeyleri mevcuttur. Proteinlerin
DNA’ya bağlanmaları örtüşen motifler
aracılığıyla gerçekleşmektedir. Motiflerin
bulunması ile DNA etkileşim yüzeyi için uygun yapılar keşfedilmektedir. DNA ve
protein etkileşimi noktasındaki değerli detay ortak yapısal motifler ile
proteinlerin DNA’yı tanımalarıdır. Aynı zaman da gen düzenleyicilerin analizi aşamasında da motiflerin çıkarımı oldukça önem arz etmektedir. Böylece karmaşık biyolojik verilerin kısa, yinelenen bir sekans motifi halinde sembolize edilmeleri biyolojik verilerden fonksiyonların anlaşılması işlemini kolaylaştırmaktadır. Fonksiyonel olarak ilişkili bulunan genlerin aynı ifade örüntüleri veya benzer fonksiyonel açıklamalar kategorisinde kümelenebilmeleri bu sayede mümkün olabilmektedir.
DNA sekanslarından bahsetmiş iken intron ve ekzonlarında basit bir
şekilde ne olduklarına değinmek faydalı olacaktır. Exonların temel fonksiyonları mRNA’ya
dönüştürülebilen DNA parçaları olmaları ve proteinleri kodlamalarıdır. Intronlar ise başlangıçta herhangi bir fonksiyonelliğe
sahip olmayan DNA yığınları olarak görülmüş olsalar bile zamanla, kendilerinin doğrudan
protein kodlayamayan gen parçacıkları oldukları anlaşılmıştır. Ekzon bölgeleri arasında
kalan kodlanamayan DNA dizileri (intronlar) çıkarılarak proteine dönüştürülen ekzon bölgeleri ile
birleştirilmektedirler. Bu işleme ekleme (splicing) denmektedir. Intronlardaki çeşitli işlevsel elemanlar komşu ekzonların fonksiyonları ile ilişkilendirilmek için ortaya çıkmaktadırlar. Şekil içerisinde ekleme (splicing) işlemi adım adım gösterilmiştir.
Referans: http://www.deu.edu.tr/
Hiç yorum yok:
Yorum Gönder