Histogram Sınıfları: Bilgi ve Örnekler

click fraud protection

Gerçekten kaç sınıf olması gerektiğine dair bir kural yok. Sınıf sayısı hakkında düşünülmesi gereken birkaç nokta var. Sadece bir sınıf olsaydı, tüm veriler bu sınıfa girerdi. Histogramımız, veri setimizdeki eleman sayısıyla verilen yüksekliğe sahip tek bir dikdörtgen olacaktır. Bu çok yardımcı olmaz veya yararlı histogram.

Diğer uçta, çok sayıda sınıfımız olabilir. Bu, hiçbiri muhtemelen çok uzun olmayan çok sayıda çubukla sonuçlanır. Bu tip histogramı kullanarak verilerden ayırt edici özellikleri belirlemek çok zor olacaktır.

Bu iki uç noktaya karşı korunmak için, bir histogram için sınıf sayısını belirlemek üzere kullanılacak bir kural vardır. Nispeten küçük bir veri setimiz olduğunda, genellikle sadece beş sınıf kullanırız. Veri kümesi nispeten büyükse, yaklaşık 20 sınıf kullanırız.

Yine, bunun mutlak bir istatistiksel ilke değil, temel bir kural olduğu vurgulanmalıdır. Veri için farklı sayıda sınıfa sahip olmak için iyi nedenler olabilir. Aşağıda bunun bir örneğini göreceğiz.

Birkaç örnek düşünmeden önce, sınıfların gerçekte ne olduğunu nasıl belirleyeceğimizi göreceğiz. Bu sürece,

instagram viewer
Aralık bizim veriler. Başka bir deyişle, en düşük veri değerini en yüksek veri değerinden çıkarırız.

Veri kümesi nispeten küçük olduğunda, aralığı beşe böleriz. Bölüm, histogramımız için sınıfların genişliğidir. Muhtemelen bu süreçte bir miktar yuvarlama yapmamız gerekecek, yani toplam sınıf sayısı beş olamaz.

Veri seti nispeten büyük olduğunda, aralığı 20'ye böleriz. Daha önce olduğu gibi, bu bölünme sorunu bize histogramımız için sınıfların genişliğini verir. Ayrıca, daha önce gördüğümüz gibi, yuvarlamamız 20 sınıftan biraz daha fazla veya biraz daha az olabilir.

Büyük veya küçük veri kümesi durumlarından birinde, birinci sınıfın en küçük veri değerinden biraz daha az bir noktada başlamasını sağlıyoruz. Bunu, ilk veri değeri birinci sınıfa düşecek şekilde yapmalıyız. Sonraki diğer sınıflar, aralığı böldüğümüzde ayarlanan genişliğe göre belirlenir. En yüksek veri değerinin bu sınıf tarafından içerilmesi durumunda son sınıfta olduğumuzu biliyoruz.

Bir örnek için, veri kümesi için uygun bir sınıf genişliği ve sınıfları belirleyeceğiz: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Setimizde 27 veri noktası olduğunu görüyoruz. Bu nispeten küçük bir settir ve bu nedenle aralığı beşe böleriz. Aralık 19.2 - 1.1 = 18.1'dir. 18.1 / 5 = 3.62'yi bölüyoruz. Bu, 4'lük bir sınıf genişliğinin uygun olacağı anlamına gelir. En küçük veri değerimiz 1.1'dir, bu nedenle birinci sınıfa bundan daha az bir noktada başlarız. Verilerimiz pozitif sayılardan oluştuğundan, birinci sınıfın 0'dan 4'e çıkması mantıklı olacaktır.

Bunun bir örneği için, üzerinde 35 soru bulunan çoktan seçmeli bir test olduğunu ve bir lisede 1000 öğrencinin testi yaptığını varsayalım. Testte belirli puanlara ulaşan öğrenci sayısını gösteren bir histogram oluşturmak istiyoruz. Görüyoruz ki 35/5 = 7 ve 35/20 = 1.75. Histogramımız için kullanmak üzere 2 veya 7 genişlik sınıflarının seçeneklerini veren temel kuralımıza rağmen, genişlik 1 sınıflarına sahip olmak daha iyi olabilir. Bu sınıflar, öğrencinin sınavda doğru cevapladığı her soruya karşılık gelecektir. Bunlardan birincisi 0, sonuncusu 35'tir.

instagram story viewer