#1 DS Veri Türleri

Veri dediğimizde aklımıza henüz işlenmemiş, ham, çiğ, tek başına bir anlam ifade etmeyen bir bilgi parçacığı geliyor sanırım. Ancak veri de kendi içerisinde kategorizelendiriliyor. Yani veri dediğimizde birkaç veri çeşidi olduğunu bilmeliyiz. Bazı kitaplarda, bloglarda, eğitim video setlerinde sıklıkla veri türlerine yer veriliyor. Ancak problem şu ki her kitapta aynı veri türlerine dair çok farklı anlamlar farklı açıklamalar yer alıyor. En güvenilir olanları derledim.

Veri biliminde ilk yapılacak iş uğraşacağımız verilerin türlerini öğrenmektir. Misal, bazı modeller (yapay sinir ağları) sadece nümerik verilerle çalışabiliyorken bazı veri türleri sadece nominal veri türleriyle çalışabilir. Şimdi bu karmaşık gelen terimleri tek tek izah edelim.

Aslında veri kök itibariyle iki temel alanda ayrılabilir. Kategorik veriler ve sayısal veriler olarak.

1.Kategorik veriler

a) Nominal Veriler

i) Dikotom Veriler

ii) İkiden Çok Kategorili Veriler

b) Ordinal Veriler

2. Sayısal veriler.

a) Oransal(Ratio) Veriler

b) Aralıklı(Interval) Veriler

c) Sürekli Veriler

Şimdi kategorik verilerle başlayalım. Sayısal olmadığına göre kategorik diyince ne anlayabiliriz? Mesela sigara içip içmemesi. Kadın veya erkek olması. Eğitim düzeyi doktora, lisans, ön lisans gibi. Aralarında bir sayısal ilişki yok. Yani çarpıp toplayamayız, çok bir anlam ifade etmezler sayısal olarak. Sayısal karşılaştırılmazlar. Yani kategorik verilerdir. Kendi içinde nominal ve ordinal olarak ikiye ayrılır.

Sayısal veriler? Adından da anlaşılacağı üzere birinin boyu, kilosu, ayakkabı numarası, vücut ölçüleri, bir arabanın kaç ton ağırlğında olduğu gibi sayı ile ifade ettiğimiz verilerdir. Ve kendi içinde yine oransal ve aralıklı olarak, sürekli olarak ayrılır.

Tamamdır buraya kadar her şey basit. Aradaki fark çok bariz belli oluyor anlaması kolay. Fakat kendi içlerinde de ikiye ve üçe ayrılan verileri idrak edebilmek benim için çok zor olmuştu. :/ O yüzden şimdi tekrardan kategorik verilere gelelim ayrıldığı dalları ele alalım.

1.Kategorik -> a) Nominal Veriler

Nominal veriler, sıralanamayan ve ölçülemeyen verilerdir. Yani hem aralarında bir karşılaştırma ilişkisi yapamadığımız hem de sayısal olarak da ifade edemeyeceğimiz veriler. Misal, araba markası. Binlerce araba markası olabilir ve bir veri setinde insanların sahip olduğu arabaların markalarını tuttuğunuzu varsayın. Bu araba markaları nominal verilerdir. Ne sıralayabilirsiniz ne de ölçebilirsiniz. Cep telefonu markası gibi, sadece marka değil aklınıza bir sürü şey gelebilir. İpucu: “Daha fazla…” ifadesi ile kullanılamazlar. Dikotom veriler ve Çok kategorili veriler olarak ikiye ayrılır.

1.Kategorik -> a) Nominal Veriler -> i) Dikotom Veriler

i) Dikotom Veriler: Var/Yok, Kadın/Erkek, Hasta/Sağlıklı, Çürük/Sağlam gibi ikili opsiyonlardır.

1.Kategorik -> a) Nominal Veriler -> i) Çok Kategorili Veriler

ii) Çok kategorili Veriler: Bilgisayar Markaları, Medeni Durum, Renk, Irk, İsim, Forma Numarası gibi verilerdir. (Forma numarası, futbolcunun gücünü yeteneğini temsil etmez diye varsayıyoruz.)

1.Kategorik -> b) Ordinal Veriler

Ordinal Veriler, zaten ordinal kelimesinin türkçe anlamı sıra olduğu için sıralanabilir olduğunu hemen anlayabiliyoruz. Ancak ölçü belirtmezler. Unutmayalım, nominal veriler hem sıralanamaz hem ölçülemez verilerdi. Mesela plaka numaraları, Yozgat 66 ve İzmir 35 plakasına sahip. Peki buradan ne anlam çıkartmalıyız? Neredeyse hiçbir şey 🙂 Yozgat alfabede sonlarda ve plaka numarası olarak neredeyse İzmir’e göre iki misli büyüklükte. Ancak buradan alfabetik sıralandırma dışında bir anlam çıakramayız, burada sıra ilişkisi alfabe üzerindedir. Ordinal değerler arasında sıralı bir ilişki bulunmaktadır. “Daha fazla” ifadesi ile kullanılabilirler ancak nekadar daha fazla olduğunun ölçüsünü veremezler. Örneğin: Eğitim Düzeyi, Maddi durumu gibi.

1.Nümerik-> a) Oransal Veriler

Oransal (Ratio) Veriler: Birbirlerine göre orantılanabilen, çarpılıp bölünebilen verilerdir. Interval,ordinal ve nominal ölçüm türünün özelliklerini taşır. En üst ölçüm tekniği olduğu söylenir. Her türlü istatiksel ve matematik işleme imkan tanımaktadır. Oransallık söz konusudur. Örnek vermemiz gerekirse; yıllık kazancınız ne kadar, kaç çocuğunuz var, sağlık alanında ağırlık ölçümü, boy ölçümü, fizik bilimindeki ölçümler ağırlık, alan, hacim gibi, ölen hastalanan yaralanan hakkındaki veriler vb.

2.Nümerik-> b) Aralıklı Veriler

Nesnelerin sıralanmasında kullanılır. Eşit aralıkların eşit mesafelerini temsil ettiği bir ölçek türüdür. Ordinal ölçümün bütün özelliklerini taşır. Nesneler arasındaki farkın mukayesesine imkan tanır. Misal çocuk sayısı, 1, 2,3,5,8 olabilir ancak 2.5 olamaz. Tam sayı olmalıdır. Yani çeyrek, yarım adet çocuktan bahsetmeyiz. Sürekli değildir, aralıklıdır veriler. Misal kaza sayısı. Tam bir sayıdır, 3 kaza, 5 kaza gibi.

2.Nümerik-> c) Sürekli Veriler

Sürekli verilerden de bahsetmek istiyorum. Misal yaş ve sıcaklık. 20 yaşında olabilirsiniz ancak 20 yaşınıza ne zaman girdiniz ne zaman geçeceksiniz arada onlarca ay, onlarca hafta, yüzlerce gün, ve binlerce saat olabilir. Yani arada sonsuz birimde sayı olabilir eğer hesaplarsanız. Misal sıcaklık, 30 C derece. Ancak bu kadar düz mü küsüratlarını hesaba katarsak sonsuza kadar gidebilir. Sıcaklık 30’dan 31 olmaz, 30.12563553636 gibi sonsuza kadar gidebilir yani süreklidir. 0 ile 1 arasındaki sonsuz sayıda sayıyı örnek verebiliriz.

Sanırım hepsi bu kadar. İnternette detaylı ve tutarlı anlatabilen tek bir kaynak bulamadığım için öğrendiğimde ben de paylaşmak istedim. Ancak kafa karıştırıcı olduğunu kabul ediyorum. Aklınıza takılanları yorum atarsanız sizler için araştırmaya çalışırım.

İyi çalışmalar.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir