#3 İstatistik | Dağılımlar

Probability Distribbutions (Olasılık Dağılımı) :

Bir olasılık dağılımı bir rassal olayın ortaya çıkabilmesi için değerleri ve olasılıkları tanımlar. Discrete ve Continous olmak üzere ikiye ayrılır.

Discrete Probability Distributions ise kendi içinde Uniform, Binomial ve Poisson olarak 3’e ayrılır.

Uniform Distributions:

Discrete ne demek, ayrık demektir. Yani diyelim ki bir zar attık, kaç kez attık? Ya bir kez, ya iki ya üç ya beş ya on kez. Üç buçuk kez attık diyemeyiz veya 5.2 kez attık diyemeyiz. Bir zarı attığımızda sonuç ne çıkar peki? 1,2,3,4,5,6 çıkabilir. 2.5 veya 4.3 çıkamaz öyle değil mi? İşte bu durumlar ayrıktır. Sürekli değildir, ayrıktır.

O halde discrete distributions, belli başlı sample space’e sahip distributionlara diyoruz. Discrete çünkü 6 possible result’a sahip, sonsuz sayıda değil.

Peki ya Uniform? Uniform, çünkü bu 6 farklı sonucun çıkma olasılığı aynı ve eşit. Uniform aynı ve değişmeyen gibi anlamlara geliyor. Zarın her bir yüzünün gelmesi olasılığı aynıdır 1/6’dır.

Örnek jupyter notebook.

Binomial Distributions

2 tane discrete sonucu olan bir trial(birbirinden bağımsız denemeler.) var diyelim, misal yazı tura atmak. Success or failure diye 2 tane sonucu olan random deneyler olsun. Diyelim ki yazı çıkması başarı, tura çıkması başarısızlık olsun.

Binomial Distr. Formula.

Şimdi kodlamasına bakalım.

Binomial Dist. Kodlama ve Grafik.

Poisson Distributions

Number of successes per unit of time. Diyelim ki bir üretim yerindeyiz ve belirli bir zaman aralığındaki başarıyı ölçmek istiyoruz, işte burada Poisson devreye giriyor.

Örnek kodlama ve çıktımız.

Continous Probability Distributions

Continous yani sürekli, ayrık olmayan. Ne demektir? 1 ile 0 arasında sonsuz sayı var mesela, yukarıda işlediğimiz örneklerde söz konusu hep tam sayılardı, 1 ile başlar 2, 3, 4 diye devam ederdi halbuki 1 ile 2 arasında sonsuz sayı var yani kesikli olmayan sürekli verileri ele alacağız bu konuda.

  • PDF [Probability Density Function]

Olasılık yoğunluk fonksiyonudur. Örneğin birkaç milyar çiçeğin yaprak uzunluğunun olduğu bir veri seti düşünün, milyarlarca uzunluğu grafiğe yazdırmak istediğinizde yoğunluğu iyi bir şekilde analiz edebilirsiniz.

Yoğunluğun zirvede olduğu bir tepe noktası vardır, ve yarı yarıya bölünür grafikteki alan.

CDF [Cumulative Distribution Function]

Kümülatif yani toplam, biriken, yığılarak ilerleyen anlamlarına geliyor. İşte aralarındaki fark da bu şekilde.

PDF ve CDF farkları.

Şimdi en önemlisine gelelim.

Gaussian Distributions

Aynı zamanda PDF olarak da adlandırılır. Gerçek hayatta pek çok örneği olması bu dağılımı önemli kılar. Dünyadaki tüm insanların boy değerleri aslında bir gaussian distr. idir. Veya Dünyadaki tüm insanların IQ değerleri dağılımları da gaussian distr.’dir. Bu dağılımlar simetriktir, belirli bir mean değerleri vardır ve bu mean değerine ithafen dağılım gösterir ve simetriktir.

Tüm dünyadaki insanların ortalama IQlerinin 110 olduğunu farz edelim. Ancak bazı insanların 140 150 olabilecekken yine bazı insanların 70 80 civarı da olacaktır. Ancak biliyoruz ki ortalama ve yani en çok 110 değerine sahip insanlar var.

Ne kadar civarında? Biraz aşağısında da olabilir, biraz yukarısında da. Misal buna 30 diyelim. 110’un 30 fazlası 140 değerinde insanlar da var, 110’un 30 eksiği 80 değerinde de var. Yani + ve – 30 IQ standart sapma belirledim. ( + – ) 30 standart sapma. Kodlayalım.

Yazdığımız kod.
Almayı beklediğimiz çıktı.

Buradan anlamamız gereken şey standart sapmamız 30 ve o halde 110+30=140 ile 110-30=80 arasında bulunan tüm insanlar, insanların tamamının 68%’ini oluşturuyor

Z – SCORE

Şimdi Z score anlamak için devam edelim. 110’dan 140’a kadar olan o kısma bir sigma diyerek adlandıralım. Aynı şekilde 110’dan 80’e kadar olan o kısma da bir sigma diyelim. Seçeceğim insanın IQ sünün bu sigmalar içerisinde olma olasılığına da %68 demiştik

Eğer sigma bilmeseydik veya stdev hakim olmasaydık işte bunları hesaplamak için z score kullanacaktık. Bunun için de z score tablosuna ihtiyaç duyuyoruz.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir