İstatistikte 7 Ölümcül Hata

Korelasyon (ilişki), nedenselliğe eşit değildir.

Yani gördüğünüz her ilişki, bunlardan birinin diğerinin nedeni olduğunu kesin bir şekilde ima etmez. Tamamen alakasız iki olgu, birbiriyle ilişkili gibi görünebilir, fakat arka plana baktığınızda, tamamen alakasızdır.

İstatistik, etrafımızda gerçekleşen olaylardaki düzenleri anlamak adına önemli bir araçtır. Fakat iyi kullanmayan her araç zararlı bir araç haline dönüşebilir. Bazen insanlar, istatistik üzerinden hatalı yorumlarda bulunabiliyor. İstatistikte yorum yapmak oldukça önemli olduğundan, yapılan yedi ölümcül hatayı ve bunlardan kaçınma yöntemlerini yakından inceleyelim.

1) Küçük değişimlerin anlamlı olduğunu kabul etmek

Borsadaki günlük dalgalanmaların birçoğu herhangi bir anlam taşımaktan ziyade tamamen rastlantısaldır. Bir partinin ankette bir tık daha önde görünmesi, çoğunlukla hata aralığı içerisinde kaybolan anlamsız bir farktır. Her ölçümde olduğu gibi anketlerde de bir hata payı bulunur. Hata payınız +-%5 ise, iki sonuç arasında %2'lik bir fark olduğunu söylemek hatalı olacaktır. Çünkü ölçümünüzdeki hata bundan daha büyüktür.

statistics likely noise
Solda hata payları verilmeyen bir grafik, sağda ise hata payları verilen bir grafik.

Yukarıdaki grafiği inceleyecek olursak, soldaki grafikte beyaz ile siyah arasında bariz bir fark olduğu görülür. Fakat bu fark anlamlı mıdır? Ölçümün herhangi bir hata aralığı verilmemiş (belki de çok küçük olduğu için gösterilmemiş olabilir). Fakat eğer grafik gerçekte sağdaki gibi bir hata aralığına sahipse. Beyaz siyahtan fazla bir değere sahip olabilir demektir. Bu sebeple sadece en olası görünen değere bakarak, bir kıyaslama yapmak ciddi bir hata olabilir.

2) İstatistiksel anlamı gerçek dünyadaki anlama eşitlemek

İstatistikte özellikle iki grup arasında kıyaslama yapmak adına araştırmalar yapılır. Bunlardan sıklıkla duyduğumuz ve toplum içerisinde yanlış anlaşılmalara sebep olabilecek örneklerden biri olan erkeklerin kadınlardan (fiziksel olarak) daha güçlü iken kadınların erkeklere göre daha yetiştirici (büyütücü) olduğudur.

İnsanlık kendi içinde çeşitliliğe sahiptir, tek bir kalıbı yoktur ve özellikleri kültürden kültüre, coğrafyadan coğrafyaya çeşitli değişiklikler gösterebilir. Eğer dünya üzerinde gidip rastgele bir bölgeden rastgele iki erkek ve rastgele iki kadın seçerseniz, bu iki erkeğin iki kadından da güçsüz olma ihtimali vardır. Hatta belki de bu erkekler kadınlara göre daha yetiştiricidir. Fakat dünyanın geri kalanına baktığınızda böyle bir genelleme olmadığını görebilirsiniz. Bu noktada yaptığınız araştırmada kaç kişinin dahil edileceği önemlidir ve kültür, coğrafya gibi detaylar verilmelidir.

Afrika'da ilkel bir kabile üzerinde, tüm kabile popülasyonu üzerinde bir araştırma yapmış olabilirsiniz. Dolayısıyla sonuca varmak için elinizdeki tüm popülasyonu değerlendirmişsinizdir. Fakat buradan elde ettiğiniz sonucun, İsviçre'de şehir merkezinde yaşayan insanlarla benzerlik göstermesi beklenemez.

Bu sebeple yapılan araştırma sadece sayıya dayanmaz ve diğer parametreler de göz önünde bulundurmalıdır. Bulundurulduğunda dahi, araştırma yapılan kesimin, genellenecek tüme olan yüzdesi oldukça önemlidir.

3) Uç değerleri gözden kaçırmak

Bir diğer problem de normal dağılımda (bazen bell eğrisi olarak da geçer) ortaya çıkıyor. Böyle bir dağılım aşağıdaki grafikteki gibidir.

statistics normal distribution bell curve

Eğer dikkat ederseniz, büyük bir çoğunluğun ortalama değerde toplandığı görülür. Fakat grafiğin uç kısımlarında en yüksek ve en düşük değerler yer alır. Örneğin toplumdaki IQ dağılımının böyle bir dağılım olduğunu düşünelim. Bu durumda insanların çoğu belirli bir IQ değerine sahip olacaktır. Düşük ve yüksek IQ'ya sahip olanlar ise grafiğin uç kısımlarındadır ve az sayıda insan bu değerlere sahiptir.

Şimdi grafiğin birazcık ötelendiğini düşünelim. Bu durum ortalamada yer alan insanlar üzerinde pek fazla bir değişime sebep olmaz. Grafikte ortadaki dairede gördüğünüz yerde, yine mevcut alanlarının içerisinde kalırlar. Lakin uç noktalardaki değişim ise çok daha barizdir. Toplumda düşük IQ'lu insan sayısı kayda değer miktarda azalırken (öncekine oranla çok daha fazla), yüksek IQ'lu insan sayısı ise kayda değer miktarda artmıştır. Yani farklar, uç bölgelerde daha barizdir. Bu sebeple yorumun ne üzerinden yapıldığı oldukça önemlidir. (Ayrıca bkz. 68-95-99.7 kuralı)

4) Tesadüfe güvenmek

1999 ve 2009 yılları arasında ABD'de havuza düşerek boğulan insan sayısı ile çekilen Nicholas Cage filmlerinin sayısı arasında bir korelasyon olduğunu biliyor muydunuz? Görünen o ki Nicholas Cage ne kadar film çekerse, o kadar çok insan havuza düşerek boğuluyor! Elbette ki bu doğru değil. Çünkü ikisi arasında hiçbir fiziksel bağlantı yok, dolayısıyla bu durum bir nedensellik içermiyor. Yani sadece grafiğe bakarak, eğriler arasında bir uyum görmek, bu ikisi arasında bir ilişki olduğunu ortaya koymaz.

statistics nicholas cage

En nihayetinde çizilen eğriler birçok parametrenin, farklı şekillerde dağılımının bir sonucu. Çevremizde birçok olay gerçekleştiği için, benzeri eğrilerin alakasız bir biçimde birbirine benzemesi gayet sıradan bir durum. Hatta bu yazının baş görselinde Kentucky'deki evlilik oranı ile balıkçı botundan düşerek boğulan insanlar arasındaki ilişkiyi görebilirsiniz (elbette bu ilişki sadece matematiksel). Bu hatadan kaçınmak için daha fazla veri gelmesini beklemek gibi bir kaba yaklaşımda bulunabilirsiniz. Lakin bu her zaman mümkün değildir. Bunun yerine bu istatistiğe sebep olabilecek fiziksel bir açıklama ortaya koymak daha etkili ve gereklidir.

5) Nedenselliği ters yönde almak

Bazen iki durum birbiri ile bir ilişki (korelasyon) içerisinde olduğunda, örneğin işsizlik ve akıl sağlığı sorunları, yapılacak çıkarım akıl sağlığı sorunlarının işsizliğe sebep olduğunu söyleyebileceği gibi, işsizliğin akıl sağlığı sorunlarına sebep olduğunu da söyleyebilir. Bu durumda hangisinin doğru olduğunun araştırılması ve temellendirilmesi gerekir.

Örneğin akıl sağlığı yerinde olmayan insanların işe özellikle alınmadığı yönünde bir eğilim tespit edebilirsiniz. Benzer şekilde daha önceden çalışan fakat akıl sağlığı yerinde olan insanların, işlerini kaybetmeleri durumunda akıl sağlıklarını kaybettiklerini de tespit edebilirsiniz. Hatta yalnızca ikisinden biri olmak zorunda değildir, bazen ikisi bir arada da bulunabilir. Bu sebeple tek bir istatistik, her zaman yeterli sonucu vermez.

6) Diğer faktörlerin etkisi olabileceğini unutmak

Bazen iki durum arasında bir ilişki olduğunda, bu ikisi doğrudan birbiri ile alakalı olmayabilir. Böyle bir durumda dolaylı yoldan ilintili olmalarına sebep olan üçüncü veya daha farklı faktörler bulunabilir.

Örneğin restoranlarda yemek yiyen insanların daha iyi bir kalp sağlığına sahip olduğunun görüldüğünü farz edelim. Bu durum aslında restoran yemeklerinin daha iyi bir kalp sağlığı sağladığına işaret etmiyor olabilir. Esas etmen, restoranda yemek yiyen insanların ekonomik durumunun iyi olması sebebiyle aynı zamanda iyi bir sağlık bakımına sahip olmaları olabilir.

Böyle bir durumdan kaçınmak için, her zaman dış faktörlerin de olaya dahil olabileceği hatırlanmalı ve olası ihtimaller değerlendirilmelidir. Örneğin yukarıdaki gibi bir ilişki, kalp sağlığı bozuk olan ve sağlıklı olan insanların ne sıklıkla sağlık bakımı yaptıkları kıyaslanarak tespit edilebilir.

7) Yanıltıcı grafikler

Grafiğe yalnızca görsel olarak bakmak yanıltıcı olabileceği için tehlikelidir. Burada eksenlerin neyi ima ettiği ve eksende hangi değerlere karşılık geldikleri oldukça önemlidir ve esas bakılması gereken budur.

statistics deceptive graphics

Yukarıdaki görselde eğer sağdaki grafiğe bakacak olursanız, iki veri arasında devasa bir fark var gibi görebilirsiniz. Fakat böyle bir görünüme sebep olan şey, aslında grafiğe oldukça dar bir aralıktan bakıyor olmanızdır. Eğer ölçeği, sizin gerçek aralığınıza oturtursanız, aynı grafiği soldaki gibi görmelisiniz. Şimdi neredeyse hiçbir fark yok öyle değil mi?

Bu sebeple grafikler incelenirken eksenin ne olduğu ve verilerin hangi değerlere karşılık geldiği oldukça önemlidir. Aradaki fark incelenecekse, neyi aradığınıza dikkat etmeniz gerekiyor.

Çeviren ve Geliştiren: Ögetay Kayalı

Referans
1. <http://www.sciencealert.com/the-seven-deadly-sins-of-statistical-misinterpretation-and-how-to-avoid-them>

Ögetay Kayalı

Astronom. Özel ilgi alanı teorik kozmoloji, özellikle Einstein'ın görelilik kuramının modifiye edilmesi (modified gravity) üzerine uğraşıyor. Bunların yanında ender bulduğu zaman aralıklarında kafasına esince programlama, 3B modelleme, makineler, tasarım, fotoğrafçılık, resim ve satranç ile de ilgileniyor.

Ögetay Kayalı 120 makale yazdıÖgetay Kayalı tarafından yazılan tüm makaleleri gör