Big Data @ Work - Kitap İncelemesi
(Açıklama: Bu yazı ilk olarak Arka Kapak dergisinin Nisan sayısında yayınlanmıştır. Buradaki sürüm Arka Kapak'ta yayınlanan yazıdan küçük farklılıklar içermektedir.)
Amerika'nın en sevdiği turta hangisidir? The Economist'in deneyimli Veri Editörü Kenneth Cukier bu soruyla başlamıştı büyük veriyi anlattığı TED konuşmasına. Elmalı turtayı başarılı bir şekilde büyük veriye bağlarken, konuşmasının sonunda verdiği mesaj netti; iyisiyle kötüsüyle büyük veri denizine dalmanız gerekiyor.
Aslında teknoloji dünyasının büyük veri kavramına yıllar önce göz kırptığını söylemek yanlış olmaz. 2000'lerin başında durağan verileri geleneksel analitik araçlarıyla masaya yatıran Silikon Vadisi, artık ‘hızlı, akıcı ve karmaşık’ veri akışını tanımlamak için kullanıyor büyük veri terimini.
Uluslararası Analitik Enstitüsü'nün kurucularından olan ve enstitünün araştırma direktörlüğünü yapan Thomas H. Davenport, analitik konusuna kafayı takan ve bir çok kitap yazan bir isim. Büyük veri konusuna giriş yapacaklar için de fikirlerini Big Data @ Work adlı kitapta okuyucularıyla paylaşıyor.
Büyük Veri Nedir?
Davenport, 'büyük veri' tamlamasında birinci kelimeye odaklananların yanlış yaptığını söylüyor ve ekliyor;
"Büyük veri terimi teknik olarak 100 terabayt ile 1 petabayt arasındaki yelpazeyi kapsar ama sizin için verilerin miktarı değil, onu nasıl analiz ettiğiniz önemlidir."
Tecrübeli profesör, büyük veri konusunda derin analizler sunmak yerine, sorunu ve çözümü tespit etmenize yarayacak harekete geçirici tavsiyelerde bulunuyor. Örneğin Davenport'a göre bazı sektörlerin önceliği olsa da büyük veri analizi tüm sektörlerin dikkate alması şart.
"Büyük verinin işinizle hangi alanlarda örtüştüğünü düşünün ve hedefinizi belirleyin."
diyor Davenport. Yeni teklifler mi geliştirmek niyetindesiniz, yoksa daha iyi ürünler mi? Maliyet tasarrufu mu sağlamak istiyorsunuz, yoksa zaman tasarrufu mu? Peki ya kazanacağınız ekstra zamanı nasıl kullanacaksınız?
V (3 + 2)
Bu soruları yanıtladıktan sonra sıra geleneksel analitik anlayışının aksine, dışardaki veriye odaklanmaya geliyor. Zira dışardaki hızlı ve yoğun veri akışı, içerdeki sınırlı ve sabit veri kümesinden daha büyük bir potansiyel taşıyor. Yöneticilerin de Üç V (volume: hacim, variety: çeşitlilik, velocity: hız) odaklı düşünmesi ve mümkünse bunlara iki V daha (veracity: doğruluk, value: değer) eklemesi gerekiyor.
Davenport'un bu kitapta işin teknoloji tarafına girdiği pek söylenemez. Sadece Hadoop, MapReduce gibi altyapılarla Python, Pig, Hive gibi bu dikeyde işe yarar betik dillere değinerek işin teknik jargonuna aşinalık kazandırıyor ama ısrarla altı çizilen bir başka detay var. Davenport, Google'ın rahle-i tedrisinden geçmişçesine, yetenekli insan kaynağına (veri bilimcisinden bahsediyor) vurgu yapıyor. Güvenilir (bu nokta önemli) ve yetenekli veri bilimcisi bulmanın kolay olmadığını, hatta şirketlerin kendi içinde bu konuya eğilmesi gerektiğini de öneriyor.
Sözün özü; ister 'Her şey bir bilgi parçasıdır' sözünden hareketle, ister 'In God we trust, everyone else bring data' sözünün ışığında düşünün; büyük veriye kayıtsız kalmak (toplayıp analiz etmemek) zamanla yok olmayı beklemekle aynı anlama geliyor.