Korelasyon Geniş Analiz | İstatistik

Kısaca korelasyon, birden fazla değişken arasındaki ilişkiyi gösterir. Örneğin birisi artarken diğeri azalıyor mu, yoksa o da artıyor mu gibi.

Çok basit olarak iki değişken arasındaki ilişki, doğru veya ters orantı olarak adlandırabiliriz korelasyonu. Korelasyon bu ilişkiyi ifade eden bir metriktir.

Söz konusu korelasyon olduğunda değişkenler elbette numeric value olmalılar. Nominal değerlerin korelasyonundan bahsedemeyiz. Dolayısıyla numeric ve hatta continous değişkenleri en iyi scatter plot olarak çizdirebiliriz. Scatter plot da korelasyonu görmek gayet mümkün olabilir.

Korelasyona örnek, bir evin oda sayısı arttıkça fiyatının da artması olabilir. Burada doğru orantı vardır, iki yönlü artış ve azalış söz konusudur. Dolayısıyla güçlü ve pozitif bir korelasyon katsayısı vardır.

Bir diğer örnek bir evin yaşı arttıkça fiyatının da azalması söz konusu olabilir, ancak bu kesin değildir. Belki de ev antik ve değerli bir köşk olabilir, yıllanmış olması onu daha değerli kılabilir. Hatta İstanbul gibi bir yerde ise çok aşırı değer kazanabilir her gün. Her zaman anlamlı bir korelasyon bulamayabiliriz, sadece bulduğumuzu zannederiz.

Son olarak diyelim bir evin hangi yöne doğru baktığı ile ilişkili ters veya doğru orantılı bir korelasyon elde edebiliriz, ancak bu her zaman anlamlı veya doğru olmayabilir. Şans eseri bulduğumuz ilişkiler de korelasyon gibi görünebilir, ancak gerçekte hiç ilgisi olmayabilir.

Genelde scatter plot ile çizdirdiğimiz grafiğe geom_smooth eklersek doğrusal veya bir eğri ile korelasyonu daha iyi gösterebiliriz.

Burada anlamlı bir korelasyon olduğu pek söylenemez.

Birimleri Grafiğe Eklemek

Korelasyon var mı?
Evet korelasyon var gibi görünüyor.

Bunu daha güzelleştirebilir miyiz?

Birkaç değişiklik yaptık.
Şimdi daha net görünüyor.

Daha çok boyut ekleyebilir miyiz sizce?

Silindir özelliğini de ekledik.

Neredeyse 4, 5 boyutlu bir grafik var artık elimizde.

Sade bir scatter plotu bu hale getirdik.

Artık daha anlamlı bir grafik ve korelasyon meydana geldi.

HeatMap (Isı Haritası)

R da diğer önemli konu ısı haritası oluşturmak. Fakat hata almadan önce belirteyim ki ısı haritası sadece numeric variablelar arasında çalışır, nominal değer kabul etmez. HeatMap çalıştırabilmek için matrix dönüşümü yapmalıyız.

Örnek kodlama.
Isı haritası çıktısı.

Korelasyon Matrisleri

Korelasyonu görmek için böyle bir matris çizdirebiliriz.

Buradaki sayılar ne ifade ediyor? Korelasyonun katsayısını. Korelasyon burada +1 ile -1 arasında ifade ediliyor. Değerimiz +1’e yaklaştıkça güçlü bir doğru orantı söz konusu iken -1’e yaklaştıkça güçlü bir ters orantı söz konusu oluyor. Eğer değerimiz 0’a çok yakın ise bir ilişkiden bahsedemiyoruz.

İlişkinin şiddetini ne kadar yakın olduğu belirliyor, +0.99 çok şiddetli bir ilişki iken, -0.88 de yine çok şiddetli bir ilişkidir. Ancak +0.05 veya -0.08 gibi değerlerde neredeyse ilişkiden söz edemeyiz

Burada cor.test fonksiyonu oldukça işlevsel.
plot(df) çıktısı.

Birbirleri ile olan ilişkisini scatter plot olarak otomatik çıkartır.

ggcorr(df) kodunun çıktısı.
ggpairs(df) kodunun çıktısı.

Bu bilgileri M. Vahit Keskin hocanın Udemy kursundan elde ettim, sizlerin de o kursu edinmesini tavsiye ederim. R ile Makine Öğrenmesi Veri Bilimi Okulu


Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir