#2 Büyük Veri | Hadoop ve Ekosistemi

Her gün artan veriden kesinlikle çıkarmamız gereken pek çok kritik anlam mevcut. Hepsi keşfedilmeyi bekliyor, bir altın madeni gibi. Madende ona ulaşabilenler geleceği kestirebiliyor. Geleceğin tahmini ise büyümek ve daha fazla para kazanmak, istediğimiz her şeyi elde edebilmek gibi anlamlara geliyor.

Peki bu nasıl mümkün olabilir? Yani büyük verinin yönetimi dediğimiz şey de söylenişi kadar korkunç ve zor mu? Kolay sayılmaz. Amaç birçok bilgisayarı tek bir bilgisayar gibi kullanabilmek. İşte Hadoop ekosistemini oluşturan unsurların amacı da budur. Tek bir bilgisayarla elbette işlerimizi yürütemeyiz ve birden çok bilgisayarı tek bir amaca yönelik senkronize şekilde çalıştırmamız gerekiyor.

The Apache Hadoop yazılım kütüphanesi bir framework’dür. Bu framework; çok büyük hacimli veri setlerinin sunucu kümeleri üzerinde basit programlama modelleriyle dağıtık şekilde işlenmesine imkan verir. Açık kaynaklıdır, bilgisayar kümeleri üzerinde çalışır, veri depolar ve büyük hacimli veriyi işleyebilir. Ayrıca Hadoop ile dağıtık hesaplama işlevi çok önemlidir, büyük veriyi birden çok makine aynı anda dağıtık olarak işleyebilir.

“Scale Up” ve “Scale Out” (veya Dikey Ölçekleme ve Yatay Ölçekleme)

Eğer daha fazla kaynağa (CPU, RAM vb.) ihtiyacınız varsa ölçekleme yapmalısınız. Yani kaynakları artıracaksınız. Dikey ölçeklemede yine bir makinenin kaynaklarını artırmaya yönelik ölçeklemelerde bulunulur. Daha çok disk alanı, daha çok işlemci gücü gibi geliştirmelere gidilir. Ancak yatay ölçeklemede birden fazla makine temin edilir, yani makineler çoğaltılır ve çok fazla makine kaynak ihtiyacını gidermiş olur. Yatay ölçekleme Hadoop’ta kullanılan yöntemdir.

Hadoop hataya karşı oldukça dayanıklıdır.

Birden çok makine güçlerini birleştirerek, herhangi bir node’dan haber alınmadığında o node’daki verileri diğer makinelere aktarır ve verilerin güvenliğini bütünlüğünü sağlar. Yani herhangi bir sunucunun kaybolması ve zarar görmesi veriye zarar vermiyor.

Dağıtık işlemede şu şekilde gerçekleşir.

Eğer bir verinin sorgusu veya işlenmesi söz konusu olduğunda bu kodlama resource manager’a yönlendirilir ve oradan da tüm sunuculara dağılır, her sunucu veriye kendi cevabını verir ve tüm cevaplar toplandığında kodlamanın çıktısı da meydana gelmiş olur.

Apache Hadoop bileşenlerini çok kısa ve özet anlatmak gerekirse,

HDFS (Hadoop Distributed File System) : Dağıtık dosya sisteminde tutulur veri.

YARN (Kaynak Yönetimi) : Dağıtık hesaplamada işlemci ve Ram gücünü konteynır şekilde bölüyor ve ihtiyacı olan uygulamalara dağıtıyor.

Veri Analizi ise 2’ye ayrılır.

1) Akan Veri Analizi (Streaming Analysis) : Storm, Flink vb.

2) Parti (Batch) Analizi, Mahout, Spark vb.

Hive : HDFS datası üzerinde SQL sorgularını MapReduce çevirerek kullanmamızı sağlıyor.

Oozie : İş planlamasıdır. Periyodik olarak işleri zamana bölmek isteyebilirsiniz, bu işleri birbirine bağlar ve sonuçları takip etmemize yardımcı olur.

Solr : Arama motoru.

HBASE : Veri tabanı.

Zookeper: HDFS sisteminde bileşenlerin koordineli şekilde çalışmasını sağlıyor.

Veri Aktarımı: Nifi, Flume gibi araçlar mevcuttur.

Ambari: Bütün Hadoop clusterini gözlemlememizi ve yönetmemizi sağlıyor, konfigürasyon ayarlarını sağlıyor. Cluster’i upgrade etmemizi de sağlıyor.

Büyük veri hakkında daha çok bilgi almak için öneri Udemy kursu.

https://www.udemy.com/adan-zye-uygulamal-hadoop-buyuk-veri-egitimi

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir