Bir gün öğle yemeğinde genç bir kadın büyük bir kase dondurma yiyordu ve bir fakülte üyesi ona doğru yürüdü ve “Dikkat etsen iyi olur, yüksek istatistikselbağıntı dondurma ve boğulma arasında. ” Biraz daha detaylandırdığı için ona şaşkın bir bakış atmış olmalı. “En çok dondurma satan günler de çoğu insanın boğulduğunu görüyor.”
Dondurmamı bitirdiğinde iki meslektaş, bir değişkenin istatistiksel olarak diğeriyle ilişkili olması nedeniyle, birinin diğerinin nedeni olduğu anlamına gelmediğini tartıştı. Bazen arka planda bir değişken gizlenir. Bu durumda, yılın günü verilerde saklanıyor. Sıcak yaz günlerinde karlı kışlardan daha fazla dondurma satılmaktadır. Yaz aylarında daha fazla insan yüzüyor ve bu nedenle yaz aylarında kışın olduğundan daha fazla boğuluyor.
Gizlenen Değişkenlere Dikkat Edin
Yukarıdaki fıkra, gizlenen değişken olarak bilinen şeyin en iyi örneğidir. Adından da anlaşılacağı gibi, gizlenen bir değişken zor ve tespit edilmesi zor olabilir. İki sayısal veri kümesinin birbiriyle yakından ilişkili olduğunu tespit ettiğimizde, daima “Bu ilişkiye neden olan başka bir şey olabilir mi?” Diye sormalıyız.
Aşağıda, gizlenen bir değişkenin neden olduğu güçlü korelasyon örnekleri yer almaktadır:
- Bir ülkede kişi başına düşen ortalama bilgisayar sayısı ve o ülkenin ortalama yaşam süresi.
- Bir yangındaki itfaiyeci sayısı ve yangının neden olduğu hasar.
- İlkokul öğrencisi ve okuma seviyesi.
Tüm bu durumlarda, değişkenler arasındaki ilişki çok güçlüdür. Bu genellikle bir korelasyon katsayısı değeri 1 veya -1'e yakın olan. Bu korelasyon katsayısının 1 veya -1'e ne kadar yakın olduğu önemli değildir, bu istatistik bir değişkenin diğer değişkenin nedeni olduğunu gösteremez.
Gizlenen Değişkenlerin Tespiti
Doğası gereği, gizlenen değişkenleri tespit etmek zordur. Varsa, bir strateji verilere zaman içinde neler olduğunu incelemektir. Bu, veriler bir araya toplandığında gizlenen dondurma örneği gibi mevsimsel eğilimleri ortaya çıkarabilir. Başka bir yöntem de aykırı ve onları diğer verilerden neyin farklı kıldığını belirlemeye çalışın. Bazen bu, sahne arkasında neler olduğuna dair bir ipucu verir. En iyi eylem yolu proaktif olmaktır; Varsayımları ve tasarım deneylerini dikkatle sorgular.
Neden fark eder?
Açılış senaryosunda, iyi niyetli ama istatistiksel olarak bilgisiz bir kongre üyesinin boğulmayı önlemek için tüm dondurmaları yasaklamayı önerdiğini varsayalım. Böyle bir yasa tasarısı nüfusun büyük kesimlerini rahatsız edecek, birkaç şirketi iflasa zorlayacak ve ülkenin dondurma endüstrisi kapanırken binlerce işi ortadan kaldıracaktır. En iyi niyetlere rağmen, bu yasa tasarısı boğulan ölüm sayısını azaltmayacaktır.
Bu örnek çok fazla getirilmiş gibi görünüyorsa, gerçekte olanları göz önünde bulundurun. 1900'lerin başında, doktorlar bazı bebeklerin uykularında algılanan solunum problemlerinden gizemli bir şekilde öldüğünü fark ettiler. Buna beşik ölüm deniyordu ve şimdi SIDS olarak biliniyor. SIDS'ten ölenlere yapılan otopsilerden çıkan bir şey, göğüste bulunan bir bez olan genişlemiş bir timustur. SIDS bebeklerinde genişlemiş timus bezlerinin korelasyonundan, doktorlar anormal derecede büyük bir timusun yanlış solunum ve ölüme neden olduğunu varsaydı.
Önerilen çözüm, timusu yüksek radyasyon ile küçültmek veya bezi tamamen çıkarmaktı. Bu prosedürlerin ölüm oranı yüksekti ve daha da fazla ölüme yol açtı. Üzücü olan bu işlemlerin yapılması gerekmediğidir. Sonraki araştırmalar, bu doktorların varsayımlarında yanıldıklarını ve timusun SIDS'ten sorumlu olmadığını göstermiştir.
Bağlılık nedenselliği ifade etmez
Yukarıdakiler, tıbbi kanıtlar, mevzuat ve eğitim önerileri gibi şeyleri meşrulaştırmak için istatistiksel kanıtların kullanıldığını düşündüğümüzde bizi duraklatmalıdır. Verilerin yorumlanmasında, özellikle korelasyon içeren sonuçlar başkalarının yaşamlarını etkileyecekse, iyi çalışmalar yapılması önemlidir.
Birisi, “Çalışmalar A'nın B'nin bir nedeni olduğunu ve bazı istatistiklerin onu desteklediğini” belirttiğinde, "korelasyon nedensellik anlamına gelmez." Her zaman altında ne pusuda uyanık olmak veri.