#1 Büyük Veri | Giriş, Nedir, Kurulumlar?

Merhabalar, büyük veri isimli bir içerik dizisinin vakti gelmiş de geçiyordu bile. Bu içerikte büyük verinin ne olduğunu ne ifade ettiğini ve büyük veri yönetiminde kullanılan gerekli temel araçları ve ekosistemi izah etmeyi deneyeceğim.

Her yerden duyduğunuz ve gördüğünüz üzere büyük veri diye bir kavram hayatımıza çoktan girdi ve insanlar, makineler, ev eşyalarımız, hayvanlar, bitkiler, uçaklar, trenler her saniye inanılmaz şekilde veri üretiyor. Bu kadar veriyi tutmak, (eğer turşusunu kurmayacaksak) bize çok pahalıya mal olabiliyor. Eldeki veriyi hızlı bir şekilde işleyip anlamlı şeyler üretmeye çalışırken, daha fazlasını saklayabilecek kapasitemiz olmadığı için her gün kıymetli olsa dahi pek çok veri çöpe atılıyor.

Ben bu yazıyı yazarken 1 TB 3.0 harddisk 65 usd civarındaydı, yani verileri saklamak tutmak gerçekten çok maliyetli. Üstelik o verileri işleyememek, o verilerden anlamlı şeyler çıkaramamak daha da pahalıya mal oluyor. Ancak bu maliyet şimdilik gözle görülür ve üzüldüğümüz bir maliyet olmasa da büyük verinin kıymetini bilen ve onu işlemek için çaba sarf edenler kazanıyor.

Büyük veriyi işlemek için en gözde ve yaygın aracımız elbette Hadoop. Ekosisteme değinmeden önce açık kaynak kodlu ve dünyadaki en iyi büyük veri işleme aracı olduğunu söyleyebilirim Hadoop’un.

Eğer büyük veri işine girmek istiyor araştırmalar denemeler yapmak istiyorsanız işte size program listesi, en azından benim kullandıklarım.

– Oracle Virtualbox (Oracle tarafından oluşturulmuş popüler bir sanallaştırma yazılımı.)

– Hortonworks Sandbox VirtualBox (Hadoopla daha kolay tanışma için bileşenlerin toparlanmış ön ayarlı paket. 15 gb falandı sanırım, indirmeden önce buna hazır hissetmeniz için.)

– Hortonworks Sandbox VMware (Yine bir 15 gb civarında bir şey olması gerekiyor,)

-Putty (Ana bilgisayarımız sanal makineye SSH ile bağlantı kurmak için.)

– WinSCP (Windows makineden, Linux makineye veri aktarma, dosya işlemleri yapma, Linux komu satırı kullanmayı bilmeyenler ve sevmeyenler için. Yine de linux komut satırı iyidir, tavsiye edilir.)

Bu arada minimum 12gb (ideal 16 gb) ram’inizin olması gerekli. (Big data ile uğraşırken oracle sanal makine, Linux konsolu, winscp bağlantısı, putty arayüzü hepsi birden çalışınca canınızı sıkmaması için şimdiden belirteyim.)

Bu kurulumları yaptıktan sonra Ambari dediğimiz internet arayüzüne giriş yapabileceksiniz, ancak bu kurulumlar ve daha sonrası çok da kolay ve rahat geçiyor olmayacak. Özellikle sanal makineye, linuxa yabancıysanız kesinlikle Udemy’den Erkan Şirin hocamın kurslarını almanızı kesinlikle tavsiye ederim. Size seve seve yardımcı olacaktır ayrıca oldukça donanımlı bu konuda.  

Devam edenler için, 127.0.0.1 ile 2222 port numarasını kullanarak Putty, Winscp, webden ambari giriş gibi işlemleri yapabilirsiniz.  Ayrıca konsoldan yapacağınız root ve admin girişlerinde ilk girişiniz olduğu için şifreyi de değiştireceksiniz.

https://www.udemy.com/adan-zye-uygulamal-hadoop-buyuk-veri-egitimi/

https://www.putty.org/

https://winscp.net/eng/download.php

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir