#1 Veri Üzerine | İstatistik

Data nedir?

Bir problem veya konu hakkında toplanmış ve işlenmemiş ham bilgilerdir, türkçesi veridir. Veri kabaca 2 temel halde bulunabilir. Continuous ve Categorical olarak. Veri türlerini ayrıntılı olarak işlediğimiz yazı için tıklayın.

Level Of Measurements Nedir?

Ölçülme ölçeğidir. 4 Tanedir; nominal, ordinal, interval, ratio olarak.

Yukarıdaki linkte ayrıntılı olarak işlemiştik ancak burada da taslak olarak hızlı bir şekilde geçelim üstünden.

Nominal: kategoriktir, sıralanamaz.

Ordinal: sıralanabilir, ancak aralarındaki ilişki sayısal olarak anlamsız.

Interval: Belirli bir ölçeği vardır. Doğal başlangıç noktası yoktur. Aralarında karşılaştırma yapılabilir.

Ratio : Belirli bir ölçeği vardır. Oranlanabilir

Bazı bilim insanları interval ve ratio tiplerini tek bir tip olarak görürler.

Daha iyi anlamanız için yukarıdaki görsel yardımcı olabilir.

Population vs Sample nedir?

Popülasyon, nüfus veya bir gruptaki tüm üyeler, ülkedeki tüm şehirler akla gelebilir. Sample ise bir grubun alt kümesi, subseti, bir ülkedeki bazı şehirler gibi.

Neden buna ihtiyacımız var. Bazen gruptaki tüm üyeler oldukça kalabalık olabilir ve her şeyin verisine erişmek çok zahmetli veya mümkün olmayabilir. Bu gibi durumlarda tutarlı dağılımlar aracılığıyla örneklemlerden (yani sample) yola çıkarak tüm popülasyon üzerinde fikir yürütebiliriz. Ne kadar sağlıklı olduğu uygulandığı alana göre oldukça görecelidir.

Central of Tendancy Nedir?

Merkezi eğilimdir.

Mean : Sayısal bir veri dizisinin ortalamasıdır.

Median : Sayısal bir veri dizesi küçükten büyüğe sıralandığında ortada kalan değerdir.

Mode: Tepe değeridir. Veri dizisinin frekansının tekrar sayısının en büyük olanı verir.

Mean vs Median Nedir?

Çoğu zaman veri dizisinde ortalamayı bulmak bizler için yanıltıcı sonuçlar doğurur. Sağlıklı bir ortalama analizi için median gibi değerlere de bakılmalı. Ayrıca ortalamanın daha sağlıklı yapılabilmesi için standart sapma gibi pek çok hesaplamalar yapılır.

Dispersion Nedir?

Dağılımdır. (spread out diye de geçer.)

Range: bir listede en büyük ve en küçük sayı aralarındaki fark.

Variance: Dizideki verilerin ortalamadan ne kadar uzaklıkta olduğunu belirten ifade.

Standard Deviation: Variance’in kareköküdür. Çok kullanılır, önemlidir.

Quartile Nedir?

Türkçe anlatımı biraz zor olabilir o yüzden bir sayı dizisi verip onun üzerinden izah edelim.

1, 4, 5, 6, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17

Burada median neydi sıralı olduğu için direkt ortadaki elemanı bulabiliriz, median 11 olmalı.

Quartile lower ve upper olarak ikiye ayrılıyor. Quartile bulmak için median bilmemiz çok önemli.

Lower Quartile: Dizideki en küçük sayı ile median arasındaki ortadaki sayıdır. Yani diziye baktığımızda bunun 6 olduğunu görüyoruz.

Upper Quartile: Yine tahmin edebileceğiniz gibi en büyük sayı ile median arasında kalan ortanca sayıdır. Yani diziye bakınca bunun 14 olduğunu görüyoruz.

Önemli Not: Lower Quartile aynı zamanda first quartile veya türkçesiyle birinci çeyrek anlamlarına gelir ve 25% veya Q1 ile gösterilebilir. Aynı şekilde Upper Quartile ise third quartile veya türkçe olarak üçüncü çeyrek anlamlarına gelir ve 75% veya Q3 ile gösterilebilir.

IQR (Inter Quartile Range) Nedir?

Az önce gösterdiğimiz Upper Quartile ile Lower Quartile arasındaki farktır. IQR=Q3-Q1 diyerek ifade edebiliriz sanırım.

Outliers Nedir?

Adından da anlaşılacağı üzere out dışarı anlamlarına geliyor. Outlier dediğimiz ise uç değerleri temsil ediyor. Mesela bir veri kümeniz var ve bu veri kümesinde yetişkin insanların kilolarını tutuyorsunuz. Ancak bazı değerlerin 400 500 gibi olduğunu gördünüz. Sizce bu gerçek olabilir mi? Olabilir veya olamaz, bilmemiz gereken şey şu ki bunlar uç yani outliers değerlerdir. Bazen istatistik sonuçlarını da yanıltabilir.

Outlier olduğunu nasıl tespit edeceğiz ki 400 500 kilo insan olmaz diyip göz kararıyla mı? Elbette hayır. Bunun da formülü yukarıda verilmiş. Q1-1.5IQR ve Q3+1.5IQR sınırlarının dışında kalan değerleri outliers olarak belirleriz. Görüldüğü üzere ilki alt sınır, ikincisi üst sınırdır. O halde şöyle diyebiliriz.

lower_bound= Q1-1.5IQR
upper_bound=Q3+1.5IQR

Bivarite Data and Covariance Nedir?

Bivariate: iki değişkenli veri demektir.

Covariance: iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür.

Bivariate’de: iki variable karşılaştırılır ve correlation var mı yok mu ona bakılır. x ekseni independent variable, y ekseni dependent variable, çünkü x’e bağlı.

Correlation’da: iki variable arasındaki ilişki ama causality ile karıştırmamak lazım. Causality nedenselliktir. İki variable arasında bir doğru veya ters orantı görünebilir ancak bu mantıklı mıdır yani bir nedensellik causality var mıdır? Çoğu zaman birbirinin arasında ilişki görünse de bu demek değildir ki aralarında nedensellik var.

Pearson Correlation Coefficient Nedir?

Korelasyon katsayısı olarak adlandırabiliriz. Tıpkı scale etme gibi ölçeklendirme gibi aslında küçük değerler arasına sıkıştırma işlemidir. Verilerimizi -1 ile +1 arasına ölçeklendirmek gibi düşünülebilir.

+1 = postive linear correlation
-1= negative linear correlation
0 = there is no linear correlation

Spearman Rank Coefficient Nedir?

Pearson’a benzer ve karıştırılır. Aralarındaki farklardan birisi Rank içermesi, Rank belirli bir sıralama ölçütü olabilir. Ayrıca outliers değerlerde pearson başarısız olabilirken spearman daha güçlüdür. Daha fazla bilgi için araştırabilirsiniz çok hakim olmadığım bir konu.

Effect Size Nedir?

İstatistik kavramlarından birisidir. İki farklı grup arasındaki benzerliğin ne kadar söz konusu olduğunu belirler. Eğer iki grup arasındaki effect size 0.2 (small effect size) ise iki grubum birbirine benziyordur. Eğer 0.5(medium effect size) ise benzerlik olabilir ama çok fazla değil. Eğer 0.8(large effect size) ise iki grup birbirine benzemiyor demektir

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir