Nicelikleri Anlamak: Tanımlar ve Kullanımlar

Ortanca gibi özet istatistikler, birinci çeyrek ve üçüncü çeyrek konum ölçümleridir. Bunun nedeni, bu sayıların veri dağılımının belirli bir oranının nerede bulunduğunu göstermesidir. Örneğin, ortanca soruşturma altındaki verilerin orta konumudur. Verilerin yarısı medyandan daha düşük değerlere sahiptir. Benzer şekilde, verilerin% 25'i birinci çeyrek değerinden daha düşük değerlere ve verilerin% 75'i üçüncü çeyreğe göre daha düşük değerlere sahiptir.

Bu kavram genelleştirilebilir. Bunu yapmanın bir yolu, persentilleri. 90. persentil, verilerin yüzde 90'ının bu sayıdan daha düşük değerlere sahip olduğu noktayı belirtir. Daha genel olarak, pyüzdebirlik sayıdır n hangisi için pverilerin yüzdesi n.

Sürekli Rasgele Değişkenler

Her ne kadar medyan, ilk çeyrek ve üçüncü çeyrek sıra istatistikleri tipik olarak ayrı bir veri kümesiyle ayarlandığında, bu istatistikler sürekli bir rasgele için de tanımlanabilir değişken. Sürekli bir dağıtım ile çalıştığımız için integrali kullanıyoruz. pyüzde birlik bir sayıdır n öyle ki:

instagram viewer

-₶nf ( x ) dx = p/100.

Buraya f ( x ) olasılık yoğunluk fonksiyonudur. Böylece istediğimiz herhangi bir yüzdelik dilimi elde edebiliriz. sürekli dağılımı.

kantilleri

Diğer bir genelleme, sipariş istatistiklerimizin birlikte çalıştığımız dağılımı böldüğünü belirtmektir. Ortanca veri kümesini ikiye böler ve sürekli dağılımın ortanca veya 50. yüzdelik dilimi dağılımı alan olarak ikiye böler. İlk çeyrek, medyan ve üçüncü çeyrek verilerimizi her biri aynı sayıda olan dört parçaya böler. 25., 50. ve 75. yüzdelik dilimleri elde etmek için yukarıdaki integrali kullanabilir ve sürekli bir dağılımı eşit alandaki dört bölüme ayırabiliriz.

Bu prosedürü genelleştirebiliriz. Başlayabileceğimiz soruya doğal bir sayı verilmiştir. n, bir değişkenin dağılımını nasıl bölebiliriz n eşit boyutlu parçalar? Bu doğrudan kantil fikrine değiniyor.

n bir veri kümesi için miktarlar, verileri sırasıyla sıralayarak ve ardından bu sıralamayı n - 1 aralıkta eşit aralıklı nokta.

Sürekli rasgele değişken için olasılık yoğunluk fonksiyonumuz varsa, nicelikleri bulmak için yukarıdaki integrali kullanırız. İçin n Quantiles, istiyoruz:

  • İlk sahibi 1 /n soldaki dağıtım alanının.
  • İkinci 2 /n soldaki dağıtım alanının.
  • rsahip olmak r/n soldaki dağıtım alanının.
  • Sahip olan son (n - 1)/n soldaki dağıtım alanının.

Herhangi bir doğal sayı için n, n miktar 100'e karşılık gelirr/ninci persentiller, nerede r 1'den 1'e kadar herhangi bir doğal sayı olabilir n - 1.

Ortak Quantiles

Belirli türdeki kantil türleri, belirli isimlere sahip olacak kadar yaygın olarak kullanılır. Bunların listesi aşağıdadır:

  • 2 kantil medyan denir
  • 3 kantile tercile denir
  • 4 kantil dörtte birliktir
  • 5 kuantile quintiles denir
  • 6 kantil cinsiyete denir
  • 7 kantil septiles olarak adlandırılır
  • 8 kantil oktil denir
  • 10 kantil'e desil denir
  • 12 kantil duodecile denir
  • 20 kantil'e canlılık denir
  • 100 kantillere yüzdelik dilimler denir
  • 1000 kantil permiller denir

Tabii ki, yukarıdaki listede bulunanların ötesinde başka miktarlar da var. Çoğu kez kullanılan spesifik kantil, sürekli dağıtım.

Kuantil Kullanımı

Bir veri kümesinin konumunu belirtmenin yanı sıra, nicelikler başka şekillerde yardımcı olur. Bir popülasyondan basit bir rastgele örneğimiz olduğunu ve popülasyonun dağılımı bilinmediğini varsayalım. Normal dağılım veya Weibull dağılımı gibi bir modelin, örneklediğimiz popülasyon için uygun olup olmadığını belirlemeye yardımcı olmak için, verilerimizin ve modelimizin miktarlarına bakabiliriz.

Numune verilerimizdeki miktarları belirli bir miktardaki miktarlarla eşleştirerek olasılık dağılımısonuç, eşleştirilmiş verilerin toplanmasıdır. Bu verileri, kuantil-kuantil grafik veya q-q grafiği olarak bilinen bir dağılım grafiğinde çiziyoruz. Ortaya çıkan dağılım grafiği kabaca doğrusalsa, model verilerimiz için iyi bir seçimdir.

instagram story viewer