13 Temmuz 2015 Pazartesi

BİYOİNFORMATİĞİ YAŞAMAK-2

Fasta dosya formatı içerisinde yer alan DNA sekansları üzerinde mevcut olan tekrarlı motifleri tespit etmek amacıyla python dilinde uygulamalar geliştirerek öğrenme sürecime devam etmekteyim. Fasta dosya formatı içinden motiflerin bulunma nedenlerini ve exon-intron çıkarımlarının, eklemelerinin tanımlarını açıklamaya çalışırken öncelikle klasik dosya formatlarından azıcık farklı bir yapıda olan fasta formatını anlatarak başlıyor olacağım.
Metin tabanlı dosya formatı olan FASTA içerisinde nükleotid veya peptit dizileri bulunmaktadır. Fasta formatı içerisinde yer alan sekans dosyası birden çok sekans  dizi setini içermektedir. Her bir sekans için fasta formatı içerisinde tek satırlık bir tanımlama satırı yer almaktadır. Sonrasında da tanımlama satırını sekans verileri takip etmektedir.

>VIT_00s0120g00270.t01|1008724|1008724|1009729|1
ATGGGAGGGAGATCTGTAGCTAAGGGAAGGACTATTGAGCAACGAATTCTTGAGTCAAATCTAGTTCTAGAAGCATTCGGTGATGCAAAGACTGTCAGAAACAATAATTCAAGTCGTTTGGTAAGTTTGTGGAGATTCAGTTTGATCAGAGGAGAAGGATTTCAAGAGCAACTATCAGGA…
>VIT_00s0120g00080.t01|89862|90371;89862;90959|90473;90112;91048|2;1;3
 ATGCATTCAACTGATGGAAAACGCAGAGAGAACTGGGCAATGACAACGGAGGAAAAGAGCCGAGCTCAATCTGGCAATGTTAGTCATGCAGCTGGATGTGCTGAGAACAACATAGAAACA…
 >VIT_00s0120g00300.t01|1096353|1096353|1096445|1
ATGGTTTTAGGGTTTACCATTTTATTTGTAAAACGACGGCCAGTGCCAAGCTTGCATGCTCGAGCGGCCGCCAGTGTGCTGGAAAGTTTCTAG…
Tanımlama satırı “>” sembolü ile başlamaktadır. Tanımlayıcılar basit protein erişimleri, isimleri veya Entrez gi denilen erişim numaralarını içermektedir. Fasta dosya formatının  katarlar (string) veya listeler gibi doğrudan işlenememesi, bu dosyanın başlangıç kısmında içermiş olduğu başlık bilgisi nedeniyledir. Bir diğer deyişle, dosya içerisinde yer alan veri bilgisine erişmeden önce dosyayı başlık bilgisinden ayırmak gerekmektedir. 
Farklı DNA sekanslarından meydana gelen fasta dosyası içerisinde  DNA’nın belirli bir bölgesine bağlanan proteinler için bağlanma yüzeyleri mevcuttur. Proteinlerin DNA’ya bağlanmaları  örtüşen motifler aracılığıyla gerçekleşmektedir.  Motiflerin bulunması ile DNA etkileşim yüzeyi için uygun yapılar keşfedilmektedir. DNA ve protein etkileşimi noktasındaki değerli detay ortak yapısal motifler ile proteinlerin DNA’yı tanımalarıdır. 
Aynı zaman da gen düzenleyicilerin analizi aşamasında  da motiflerin çıkarımı oldukça önem arz etmektedir. Böylece karmaşık biyolojik verilerin kısa, yinelenen bir sekans motifi halinde sembolize edilmeleri  biyolojik verilerden fonksiyonların anlaşılması işlemini kolaylaştırmaktadır. Fonksiyonel olarak ilişkili bulunan genlerin  aynı ifade örüntüleri veya benzer fonksiyonel açıklamalar kategorisinde  kümelenebilmeleri bu sayede mümkün olabilmektedir.
DNA sekanslarından bahsetmiş iken intron ve ekzonlarında basit bir şekilde ne olduklarına değinmek faydalı olacaktır. Exonların temel fonksiyonları mRNA’ya dönüştürülebilen DNA parçaları olmaları ve proteinleri kodlamalarıdır. Intronlar ise başlangıçta herhangi bir fonksiyonelliğe sahip olmayan DNA yığınları olarak görülmüş olsalar bile zamanla, kendilerinin doğrudan protein kodlayamayan gen parçacıkları oldukları anlaşılmıştır. Ekzon bölgeleri arasında kalan kodlanamayan DNA dizileri (intronlar) çıkarılarak proteine dönüştürülen ekzon bölgeleri ile birleştirilmektedirler. Bu işleme ekleme (splicing) denmektedir. Intronlardaki çeşitli işlevsel elemanlar komşu ekzonların fonksiyonları ile ilişkilendirilmek için ortaya çıkmaktadırlar. Şekil içerisinde ekleme (splicing)  işlemi adım adım gösterilmiştir. 


Referans: http://www.deu.edu.tr/

Hiç yorum yok:

Yorum Gönder