Programlama Genel
Fano Kod Reading Frame Oluştur(Ama)Mak | Matematik, Enformasyon Teorisi
Fano Kod Reading Frame Oluştur(Ama)Mak | Matematik, Enformasyon Teorisi
-
Tekrar selamlar,
Elimde 4 eleman var: A, T, G, C
Bunların kendine özel olasılıkları var, diyelim ki: P(A)= 1/4, P(T)=1/2, P(G)=1/8, P(C)=1/8
Bu durumda ben bunlara sen şu binaryler olabilirsin diyorum:
A: 01 A': 001
T: 1 T': 01
G: 001 G': 0001
C: 000 C': 0000
Bu durumda ATGTC= 0110011000 , (ATGTC)'= 001010001010000
Şimdi ben bu iki fanoyu da okuyup bu ATGTCdir diyebilecek bir universal reading frame oluşturmak istiyorum ama işin içinden çıkamadım. Help.
// amacım şu:
Elimde TATCTATGCTGCGTCCCCGTATGTCC... 'nin binaryleri olacak. Ben o reading framei çakınca bana diyecek ki senin aradığın ATGTC'den bunun içinde iki tane var.
nihai amacım şu:
Noise ekleyerek iki binary arasında istediğim dizinin ne kadar diverse ettiğini söyleyecek- mesela mismatch için 0.8le çarp, araya harf girdiyse orayı görme ya da her harf için şunla çarp gibi bir algoritmaya oturtacağım. Noise yüzünden Smith Waterman algoritması yapamıyorum.
izzmarit tarafından 21/Kas/17 07:59 tarihinde düzenlenmiştir -
Up
-
Anlamadigim bir noktayi sormak istiyorum
G: 001 ile A': 001 nasil ayirt edilecek ?
ikiside ayni yada ben anlamadim.
-
dhmm bunu yazdı
Anlamadigim bir noktayi sormak istiyorum
G: 001 ile A': 001 nasil ayirt edilecek ?
ikiside ayni yada ben anlamadim.
Hah ben de onu soruyorum :D
-
Hocam karakter sayisi uzerinden islem yapabilirsin mi acaba? Yazarken 50 turlu dusunce geldi. Cok karisik ve fazla olasilik var. Dusunmeye devam.
-
Primelarda decisiona dahilse, elinde 4 degil, 8 eleman var. Diger prime harflerin prior olasiligini da bilmen gerek. Harfleri tek tek decision processten gecirceksen bu bilgi yeterli. Ornegin G ve A' arasinda secim yaparken sadece bu olasiligi kullanarak secim yapacaksin. Tabi ki ayni constellationlar icin prior olasilik oraninda error olacak.
Blok halinde decision yapmak istiyorsan, harflerin joint prior olasiliklarini bilmelisin. ornegin P(AT), P(GT), P(ATGTC) ne kadar joint prob. bilgisi var elinde, hata o oranda azalir.
Olasiliklardan ve mappingden anladigim kadariyla huffman source coding kullaniliyor. Diger 4 elementi de hesaba katarak daha verimli kod uretebilirsiniz. Error azalir. -Goremedim ama varsa- synchronization problemi de ortadan kalkar.
Recover yaptiktan sonra, data analizini ayrica yaparsin. Smith waterman falan ikinci parta giriyor. Once detect sonra estimate, en son analyze.
-
biz buna blastlamak diyorum ama sen baya fantastik bir blast yapmışsın izmaritciğim. NCBI'da bunu yapabiliyorsun denemedin mi ?
-
Anladigimi soyluyorum. Amacin karakterleri kodlamak, sonra okumak degil mi? Bunun icin huffmanda kullanilan agaci sen de olusturabilirsin. Huffman agaci, mors kodu tablosuna benziyor. Nasil uzun kisa ile harfler karismiyorsa seninki de karismaz.
Sikistirma algoritmasi olarak kullanmayacagin icin, dinamik agac olusturmaya ihtiyacin yok. Kagit ustunde yapsan da olur.
-
Hocamlar ozur diliyorum inanilmaz bir yogunluk icindeyim vakit bulup kafayi toplayip yazamadim. En kisa surede konuyu hortlatarak sizi tekrar rahatsiz edecegim, tesekkur ederim vakit harcadiginiz icin.