Bazen sayısal veriler çiftler halinde gelir. Belki bir paleontolog aynı dinozor türünün beş fosilindeki femur (bacak kemiği) ve humerus (kol kemiği) uzunluklarını ölçer. Kol uzunluklarını bacak uzunluklarından ayrı olarak düşünmek ve ortalama veya standart sapma gibi şeyleri hesaplamak mantıklı olabilir. Ama ya araştırmacı bu iki ölçüm arasında bir ilişki olup olmadığını bilmek isterse? Kollara bacaklardan ayrı olarak bakmak yeterli değildir. Bunun yerine paleontolog, her iskelet için kemik uzunluklarını eşleştirmeli ve İstatistik korelasyon olarak bilinir.
Korelasyon nedir? Yukarıdaki örnekte, araştırmacının verileri incelediğini ve çok şaşırtıcı olmayan daha uzun kollu dinozor fosillerinin daha uzun bacakları ve daha kısa kollu fosillerin daha kısa bacaklar. Verilerin bir dağılım grafiği, veri noktalarının hepsinin düz bir çizginin yakınında kümelendiğini gösterdi. Araştırmacı daha sonra güçlü bir düz çizgi ilişkisi olduğunu söyler veya bağıntı, kol kemiği uzunlukları ve fosillerin bacak kemiği arasında. Korelasyonun ne kadar güçlü olduğunu söylemek biraz daha çalışma gerektiriyor.
Korelasyon ve Dağılım Grafikleri
Her veri noktası iki sayıyı temsil ettiğinden, iki boyutlu dağılım grafiği verilerin görselleştirilmesinde çok yardımcı olur. Aslında dinozor verileri üzerinde ellerimiz olduğunu ve beş fosilin aşağıdaki ölçümlere sahip olduğunu varsayalım:
- Femur 50 cm, humerus 41 cm
- Femur 57 cm, humerus 61 cm
- Femur 61 cm, humerus 71 cm
- Femur 66 cm, humerus 70 cm
- Femur 75 cm, humerus 82 cm
Femur ölçümü yatay yönde ve humerus ölçümü dikey yönde olacak şekilde bir veri grafiği yukarıdaki grafikle sonuçlanır. Her nokta iskeletlerden birinin ölçümlerini temsil eder. Örneğin, sol alttaki nokta iskelet # 1'e karşılık gelir. Sağ üstteki nokta iskelet # 5.
Kesinlikle tüm noktalara çok yakın düz bir çizgi çizebiliriz gibi görünüyor. Fakat kesin olarak nasıl anlatabiliriz? Yakınlık bakanın gözündedir. "Yakınlık" tanımlarımızın başka biriyle eşleştiğini nasıl bilebiliriz? Bu yakınlığı ölçmemizin bir yolu var mı?
Korelasyon katsayısı
Verilerin düz bir çizgi boyunca ne kadar yakın olduğunu objektif olarak ölçmek için korelasyon katsayısı kurtarmaya gelir. korelasyon katsayısı, tipik olarak r, -1 ile 1 arasında gerçek bir sayıdır. Değeri r Süreçteki öznellikleri ortadan kaldırarak bir formüle dayalı bir korelasyonun gücünü ölçer. Değerlerini yorumlarken akılda tutulması gereken birkaç kural vardır. r.
- Eğer r = 0 o zaman noktalar veri arasında kesinlikle düz çizgi ilişkisi olmayan tam bir karmakarışıktır.
- Eğer r = -1 veya r = 1 sonra tüm veri noktaları bir çizgi üzerinde mükemmel bir şekilde sıralanır.
- Eğer r bu aşırı uçlardan başka bir değerdir, o zaman sonuç düz bir çizginin mükemmel uyumundan daha azdır. Gerçek dünyadaki veri setlerinde bu en yaygın sonuçtur.
- Eğer r pozitifse, çizgi bir pozitif eğim. Eğer r negatifse, çizgi negatif eğimle aşağı iniyor.
Korelasyon Katsayısının Hesaplanması
Korelasyon katsayısı formülü r burada görüldüğü gibi karmaşıktır. Formülün bileşenleri, her iki sayısal veri kümesinin yanı sıra veri noktası sayısının ortalamaları ve standart sapmalarıdır. En pratik uygulamalar için r elle hesaplamak sıkıcıdır. Verilerimiz bir hesap makinesi veya e-tablo programına istatistiksel komutlar, genellikle hesaplamak için yerleşik bir işlev vardır r.
Korelasyon Sınırlamaları
Korelasyon güçlü bir araç olmasına rağmen, kullanımında bazı sınırlamalar vardır:
- Korelasyon bize veriler hakkında her şeyi anlatmaz. Ortalamalar ve standart sapmalar önemini korumaya devam ediyor.
- Veriler düz bir çizgiden daha karmaşık bir eğri ile tanımlanabilir, ancak bu, r.
- Aykırı değerler korelasyon katsayısını güçlü bir şekilde etkiler. Verilerimizde herhangi bir aykırı değer görürsek, hangi sonuçlardan değer aldığımız konusunda dikkatli olmalıyız. r.
- İki veri kümesi birbiriyle ilişkili olduğu için, sebep olmak diğerinin.