İstatistiklerde Aykırı Değerlerin Belirlenmesi

Aykırı değerler, bir veri kümesinin çoğundan büyük ölçüde farklı olan veri değerleridir. Bu değerler, verilerde bulunan genel bir eğilimin dışında kalmaktadır. Aykırı değerleri aramak için bir veri kümesinin dikkatle incelenmesi bazı zorluklara neden olur. Muhtemelen bir stemplot kullanarak bazı değerlerin verilerin geri kalanından farklı olduğunu görmek kolay olsa da, değerin bir aykırı değer olarak ne kadar farklı olması gerekir? Bize aykırı değerlerin nesnel bir standardını verecek spesifik bir ölçüme bakacağız.

Çeyrekler arası aralık

çeyrekler arası aralık aşırı bir değerin gerçekten bir aykırı değer olup olmadığını belirlemek için kullanabileceğimiz şeydir. Kareler arası aralık, beş sayı özeti bir veri kümesinin, yani birinci çeyrek ve üçüncü çeyrek. Çeyrekler arası aralığın hesaplanması tek bir aritmetik işlemi içerir. Çeyrekler aralığını bulmak için tek yapmamız gereken ilk çeyreği üçüncü çeyrekten çıkarmaktır. Ortaya çıkan fark bize verilerimizin orta yarısının ne kadar yayıldığını anlatıyor.

instagram viewer

Aykırı Değerlerin Belirlenmesi

Kareler arası aralığı (IQR) 1,5 ile çarpmak, belirli bir değerin aykırı olup olmadığını belirlememizi sağlayacaktır. İlk çeyrekten 1.5 x IQR çıkarırsak, bu sayıdan küçük olan veri değerleri aykırı sayılır. Benzer şekilde, üçüncü çeyreğe 1.5 x IQR eklersek, bu sayıdan büyük olan veri değerleri aykırı sayılır.

Güçlü Aykırı Değerler

Bazı aykırı değerler, bir veri kümesinin geri kalanından aşırı sapma gösterir. Bu durumlarda, yalnızca IQR ile çarptığımız sayıyı değiştirerek ve belirli bir tür aykırı değer tanımlayarak yukarıdaki adımları atabiliriz. İlk çeyrekten 3,0 x IQR çıkarırsak, bu sayının altındaki herhangi bir noktaya güçlü aykırı değer denir. Aynı şekilde, üçüncü çeyreğe 3.0 x IQR eklenmesi, bu sayıdan daha büyük noktalara bakarak güçlü aykırı değerler tanımlamamıza olanak tanır.

Zayıf Aykırı Değerler

Güçlü aykırı değerlerin yanı sıra aykırı değerlere yönelik başka bir kategori daha vardır. Bir veri değeri bir aykırı değerse, ancak güçlü bir aykırı değer değilse, değerin zayıf bir aykırı değer olduğunu söyleriz. Bu kavramlara birkaç örnek inceleyerek bakacağız.

örnek 1

İlk olarak, {1, 2, 2, 3, 3, 4, 5, 5, 9} veri kümesine sahip olduğumuzu varsayalım. 9 rakamı kesinlikle bir aykırı değer gibi görünüyor. Setin geri kalanından diğer değerlerden çok daha büyüktür. 9'un aykırı olup olmadığını nesnel olarak belirlemek için yukarıdaki yöntemleri kullanırız. Birinci çeyrek 2 ve üçüncü çeyrek 5'tir, yani çeyrekler arası aralık 3'tür. Bölümler arası aralığı 1,5 ile çarparak 4,5 elde ederiz ve sonra bu sayıyı üçüncü çeyreğe ekleriz. 9.5 sonucu, tüm veri değerlerimizden daha büyüktür. Bu nedenle aykırı değer yoktur.

ÖRNEK 2

Şimdi, en büyük değerin 9 yerine 10 olması dışında, önceki veri setine bakıyoruz: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Birinci çeyrek, üçüncü çeyrek ve çeyrekler arası aralık, örnek 1 ile aynıdır. Üçüncü çeyreğe 1.5 x IQR = 4.5 eklediğimizde, toplam 9.5 olur. 10, 9.5'ten büyük olduğu için bir aykırı değer olarak kabul edilir.

10 güçlü mü yoksa zayıf bir aykırı mıdır? Bunun için 3 x IQR = 9'a bakmamız gerekiyor. Üçüncü çeyreğe 9 eklediğimizde toplam 14 olur. 10 14'ten büyük olmadığından güçlü bir aykırı değer değildir. Böylece 10'un zayıf bir uç değer olduğu sonucuna varıyoruz.

Aykırı Değerleri Belirleme Nedenleri

Her zaman aykırı değerlerin peşinde olmalıyız. Bazen bir hatadan kaynaklanır. Diğer zamanlarda aykırı değerler daha önce bilinmeyen bir fenomenin varlığını gösterir. Aykırı değerlerin kontrol edilmesi konusunda gayretli olmamızın bir başka nedeni, tanımlayıcı istatistikler aykırı değerlere duyarlıdır. Ortalama, standart sapma ve korelasyon katsayısı eşlenmiş veri bu tür istatistiklerden sadece birkaçıdır.