Needleman-Wunsch algoritması

Needleman-Wunsch algoritması biyoinformatikte, protein veya nükleotit dizilerini hizalamak için kullanılanılan bir algoritmadır. Saul B. Needleman ve Christian D. Wunsch tarafından geliştirilmiş olup, 1970'te yayınlanmıştır.[1] Algoritma, temel olarak, büyük sorunları (örneğin tam diziler) daha küçük sorunlara bölerek çözmeye çalışır; ve bu çözümleri de birleştirerek büyük sorunun çözümünü oluşturur.

Rehber

Algoritma, herhangi iki karakter dizisi için kullanılabilir. Bu rehberde, biz iki küçük DNA dizisi üzerinden gideceğiz.

GCATGCT
GATTACA

(Bunlar aynı DNA'nın iki zinciri değil, farklı DNA'lara ait dizilimlerdir.)

Tabloyu Oluşturun

Öncelikle şekil 1'deki gibi bir tablo çizin. İlk DNA dizisini tablonun ilk satırının üçüncü sütunundan başlayarak sağa doğru, ikinci DNA dizisini de tablonun üçüncü satırının ilk sütünundan başlayarak aşağıya doğru yazın.

Puanlama Sisteminizi Belirleyin

Sırada eşleşen veya eşleşmeyen karakterleri nasıl puanlandıracağımızı belirlemek var. Elimizdeki DNA dizilerine bakarak en iyi hizalamalardan birine bakalım:

GCATG-CU
G-ATTACA

Karakterlerin eşleştiğini, eşleşmediğini ve dizideki boşluklara("-") dikkat edin:

Bu üç durumu puanlandırmak için farklı yöntemler var (Puanlama Sistemleri bakınız); ancak şimdilik Needleman ve Wunsch tarafından da kullanılan basit yolu seçeceğiz: Eşleşme +1, Eşleşmeme -1, Boşluk -1 puan.

Tabloyu Doldurun

İkinci satırın, ikinci sütununa 0 yazarak başlayın. Satır satır ilerleyerek devam edin. Herhangi bir hücrenin puanı aşağıdaki şekilde belirlenir:

Okları İzleyin

Tablonun sağ-alt köşesindeki hücreden başlayarak sol-üst köşedeki 0'a ulaşana kadar okları izleyin. Çapraz oklar, eşleşme veya eşleşmemeyi; Sol ve yukarı oklar ise dizideki boşlukları belirtir. Sol oku izlediğinizde, tablonun tepesine yazılan dizide ilerlerken, soluna yazılan dizide aynı karakterde bekleriz; bu yüzden boşluk işaretini kullanırız.

Diziler        En İyi Hizalamalar
-------        ----------------------------------------
GATTACA        G-ATTACA        G-ATTACA        G-ATTACA
GCATGCT        GCATG-CT        GCA-TGCT        GCAT-GCT

Kaynakça

  1. Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology 48 (3): 443–53. DOI:10.1016/0022-2836(70)90057-4. PMID 5420325. http://linkinghub.elsevier.com/retrieve/pii/0022-2836(70)90057-4.
This article is issued from Vikipedi - version of the 8/20/2015. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.