Cohen'in kappa katsayısı

Cohen'in kappa katsayısı iki değerleyici arasındaki karşılaştırmalı uyuşmanın güvenirliğini ölçen bir istatistik yöntemidir.[1] Cohen'in kappa ölçüsü her biri N tane maddeyi C tane birbirinden karşılıklı hariç olan kategoriye ayıran iki değerleyicinin arasında bulunan uyuşmayı ölçer. Ortaya çıkan kategorik değişken olduğu için bir parametrik olmayan istatistik türüdür. Cohen'in kappa ölçüsü bu uyuşmanın bir şans eseri olabileceğini de ele aldığı için basit yüzde orantı olarak bulunan uyuşmadan daha güçlü bir sonuç verdiği kabul edilir.

Ancak Cohen'in kappa ölçüsü sadece iki tane değerleyiciyi ele alır. Eğer değerleyici sayısı ikiden çoksa Fleiss'in Kappa'ya benzer Fleiss'in kappa katsayısı kullanılmalıdır.[2]

Formül

Eğer Pr(a) iki değerleyici için gözümlenen uyuşmaların toplama orantısı ise ve Pr(e) ise bu uyuşmanin şans eseri ortaya çıkma olasılığı ise, Cohen'in kappa katsayısı bulunması için kullanılacak formül şu olur:

Kappa için şu değerler hemen yorumlanır:

Örnek problem

İşletmeler yatırım yapmak için proje kredisi almak için bir bankaya başvurdukları zaman işletme yetkilileri tarafından hazırlanan proje iki değerleyici tarafından incelenip değerlendirilmektedir. Her değerleyici bir proje için ya "Kabul" veya "Ret" olarak değerleme sağlamaktadır. 50 tane projenin bu iki değerleyici tarafından incelenmesi sonunda elde edilen sonuçlar değerleyici A için satırlarda ve değerleyici B için sütunlarda verilmiş olarak şu tabloda gösterilir:

Kabul Ret
Kabul 20 5
Ret 10 15

Veri olarak alinan 50 proje basvurusunun 20si hem A hem de B değerlendirici tarafindan "Kabul" edilmesi tavsiye edilmistir ve 15 proje basvurusu hem A hem de B tarafindan ret edilmesi tavsiye edilmistir. Boylece her iki dergerleyicinin uzerinde anlastiklari proje basvuru sayisi (20+15=)35 olur ve boylece gozlenen anlasma orantisi Pr(a)=(20+15)/50 = 0,70 olur.

Rastgele olarak anlaşma olasılığını, yani Pr(e) değerini, bulmak için şunlari ele alırız:

Bundan dolayi her iki degerleyicinin rastgele olarak Kabul" degerlendirmesi yapma olasiligi 0,50 * 0,60 = 0,30 olur ve her iki değerleyicinin rastgele olarak Ret değerlendirmesi yapma olasılığı ise 0,50 * 0.40 = 0,20 olarak bulunur. Tümüyle rastgele anlaşma olasılığı bu nedenle Pr("e") = 0,30 + 0,20 = 0,50 olur.

Bunlar Cohen'in Kappa katsayisi formulune konulursa su sonuc elde edilir:

Celişkili sonuçlar

Cohen'in Kappa katsayısının en büyük tenkiti bazen sezi ile beklenenden değişik sonuçlar vermesidir.[3] Örneğin, aşağıda verilen iki örnek veriye göre değerleyici A ile değerleyici B arasında eşit anlaşma olması beklenmektedir (çünkü her iki örnekte de 100 başvurudan 60'ında anlaşma vardır.) Cohen'in Kappa katsayısının bunu yansıtması beklenir. Hâlbuki her iki örnek için Cohen'in Kappa katsayısı hesaplanırsa şu beklenmedik sonuçlar bulunur:

Kabul Ret
Kabul 45 15
Ret 25 15

Kabul Ret
Kabul 25 35
Ret 5 35

Cohen'in kappa katsayılarına göre, birinci örneğe nazaran, ikinci örnekte A ile B daha benzer birbirleriyle anlaşır şekilde değerlendirme yapmışlardır.

Sonuç yorumlaması

Landis ve Koch (1977) [4] elde edilen değerlerini yorumlamak için şu tabloyu sunmuşlardır.

Yorum
< 0 Hiç uyuşma olmamasi
0.0 — 0.20 Önemsiz uyuşma olması
0.21 — 0.40 Orta derecede uyuşma olması
0.41 — 0.60 Ekseriyetle uyuşma olması
0.61 — 0.80 Önemli derecede uyuşma olması
0.81 — 1.00 Neredeyse mükemmel uyuşma olması

Ancak bu tabloda verilen yorumlar ve hatta verilen aralıklar hakkında istatistikçiler arasında anlaşmazlık vardır. Landis ve Koch yazılarında verdikleri aralıklar ve yorumlar için teorik delil vermemişlerdir ve bu ifadeler ancak birer şahsi inanç olarak kabul edilebilir. Bazı istatistikçilere göre bu aralıklar ve yorumlar araştırmacılara zararlı olabilir.[5] [6]. Bu aralıklar ve yorumlar araştırıcılara Kappa değerinin değişken kategori sayısından da (yani Cden) etkilendiği gerçeğini unutturabilir. Bilinmektedir ki kategori sayısı ne kadar küçük olursa kappa değeri de büyük olamaktadır.

Ayrıca bakınız

Dipnotlar

  1. Jacob Cohen (1960), A coefficient of agreement for nominal scales, Educational and Psychological Measurement Vol.20, No.1, pp.37-46
  2. Fleiss, J. L. (1971) "Measuring nominal scale agreement among many raters." Psychological Bulletin, Vol. 76, No. 5 pp. 378--382
  3. Gwet, K. (2010). Handbook of Inter-Rater Reliability (2.Ed.) ISBN 978-0-9708062-2-2 (İngilizce)
  4. Landis, J. R. ve Koch, G. G. (1977) "The measurement of observer agreement for categorical data" , Biometrics. Cilt. 33, say. 159-174
  5. Gwet, K. (2001) Statistical Tables for Inter-Rater Agreement. (Gaithersburg : StatAxis Publishing)
  6. Sim, J. and Wright, C. C. (2005) "The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements" in Physical Therapy. Cilt. 85, say. 257--268

Dış kaynaklar

This article is issued from Vikipedi - version of the 1/11/2017. The text is available under the Creative Commons Attribution/Share Alike but additional terms may apply for the media files.