Needleman-Wunsch algoritması
Needleman-Wunsch algoritması biyoinformatikte, protein veya nükleotit dizilerini hizalamak için kullanılanılan bir algoritmadır. Saul B. Needleman ve Christian D. Wunsch tarafından geliştirilmiş olup, 1970'te yayınlanmıştır.[1] Algoritma, temel olarak, büyük sorunları (örneğin tam diziler) daha küçük sorunlara bölerek çözmeye çalışır; ve bu çözümleri de birleştirerek büyük sorunun çözümünü oluşturur.
Rehber
Algoritma, herhangi iki karakter dizisi için kullanılabilir. Bu rehberde, biz iki küçük DNA dizisi üzerinden gideceğiz.
GCATGCT GATTACA
(Bunlar aynı DNA'nın iki zinciri değil, farklı DNA'lara ait dizilimlerdir.)
Tabloyu Oluşturun
Öncelikle şekil 1'deki gibi bir tablo çizin. İlk DNA dizisini tablonun ilk satırının üçüncü sütunundan başlayarak sağa doğru, ikinci DNA dizisini de tablonun üçüncü satırının ilk sütünundan başlayarak aşağıya doğru yazın.
Puanlama Sisteminizi Belirleyin
Sırada eşleşen veya eşleşmeyen karakterleri nasıl puanlandıracağımızı belirlemek var. Elimizdeki DNA dizilerine bakarak en iyi hizalamalardan birine bakalım:
GCATG-CU G-ATTACA
Karakterlerin eşleştiğini, eşleşmediğini ve dizideki boşluklara("-") dikkat edin:
- Eşleşme: İki karakterin aynı olması
- Eşleşmeme: İki karakterin farklı olması
- Boşluk: Bir karakterin, diğer dizideki boşluğa denk gelmesi
Bu üç durumu puanlandırmak için farklı yöntemler var (Puanlama Sistemleri bakınız); ancak şimdilik Needleman ve Wunsch tarafından da kullanılan basit yolu seçeceğiz: Eşleşme +1, Eşleşmeme -1, Boşluk -1 puan.
Tabloyu Doldurun
İkinci satırın, ikinci sütununa 0 yazarak başlayın. Satır satır ilerleyerek devam edin. Herhangi bir hücrenin puanı aşağıdaki şekilde belirlenir:
- Soldaki hücrenin puanı ile Boşluk puanı (-1) toplanır.
- Hücrenin bulunduğu satır ve sütun başlıklarındaki karakterleri karşılaştırarak eşleşme olup olmadığı belirlenir. Eşleşme varsa, sol-üst çaprazdaki hücrenin puanına Eşleşme puanı (+1); eşleşme yoksa, Eşleşmeme puanı(-1) toplanır.
- Yukarıdaki hücrenin puanı ile Boşluk puanı (-1) toplanır.
- Yukarıdaki üç yöntemden elde edilen puanlar karşılaştırılır, en yüksek olan hücreye yazılır. En yüksek puanın hangi hücre(ler)den elde edildiği oklarla gösterilir.
Okları İzleyin
Tablonun sağ-alt köşesindeki hücreden başlayarak sol-üst köşedeki 0'a ulaşana kadar okları izleyin. Çapraz oklar, eşleşme veya eşleşmemeyi; Sol ve yukarı oklar ise dizideki boşlukları belirtir. Sol oku izlediğinizde, tablonun tepesine yazılan dizide ilerlerken, soluna yazılan dizide aynı karakterde bekleriz; bu yüzden boşluk işaretini kullanırız.
Diziler En İyi Hizalamalar ------- ---------------------------------------- GATTACA G-ATTACA G-ATTACA G-ATTACA GCATGCT GCATG-CT GCA-TGCT GCAT-GCT
Kaynakça
- ↑ Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology 48 (3): 443–53. DOI:10.1016/0022-2836(70)90057-4. PMID 5420325. http://linkinghub.elsevier.com/retrieve/pii/0022-2836(70)90057-4.