Blog açmaktaki ilk ve en önemli amacım Informatica tool u ve Veri Ambari ile İş Zekası alanlarındaki sınırlı Türkçe kaynak sıkıntısını yeni başlayan arkadaşlar için dilim döndüğünce gidermek.Yayınlarımda ağırlıkla Informatica üzerine bir şeyler anlatarak başlarda alınması muhtemel hataları ve çözümlerini anlatmaya çalışacağım.Giriş için Informatica tool u nedir ETL ne için kullanılır ve önemi nedir sorularına basitçe ve anlaşılır olacak şekilde cevap vermeye çalışacağım.
İlk olarak Veri Ambarı,İş Zekası ve ETL kavramlarını açıklayalım;
Veri Ambarı : En basit tanımıyla ilişkili verilerin sorgulandığı ve analizlerinin yapılabildiği depodur.Veri ambarında operasyonel sistem adı verilen ve bizim bundan sonraki yazılarımızda kaynak olarak tabir edeceğimiz ortamdaki verileri belirli kriterlerle ve ya tamamiyle birebir kopyalanıp uygun formatta saklanır.Veri ambarı bir çok sektörün farklı dallarında kullanılabilir.Maliyetli bir uygulama ve kurulum süreci olsa da ileriye dönük tahminler yapabilmek,iş akışlarını yönetebilmek,işletmelerin geleceğe dönük yol planlarını hazırlayabilmek amacıyla kullanıldığından getirisi maliyetini kat kat aşamaktadır.
Günümüzde bilgiye ulaşmak müşterisi olan her işletme için elzemdir.Müşteriye doğru bilgilerle ulaşmak ve potansiyeli analiz edebilmek veri ambarında depolanan ham veri ile mümkün kılınabilir.Pazarda yeni fırsatlar bulabilmek,rekabete katılabilmek,iş ve ürün maliyetini azaltmak veri ambarı mimarisinin temel taşlarıdır.
İş Zekası : İş zekası kavramı son zamanlarda daha çok göz önüne çıkmış ve veri kalitesi ile neredeyse tam sonuç veren analizlerin yapıldığı daldır.İş sahasında BI olarak kullanılan tabirdir.Bir banka müşterisini ne kadar doğru analiz edebilir ve elindeki veriyi doğru yönetebilirse o müşterinin ihtiyacına uygun kampanyayı ve ya ürünü doğru koşullarda müşteriyle buluşturarak ihtiyacını karşılar.Bu veri ambarı ve iş zekası bölümünün ortaklaşa doğruda çalışmasıyla elde edilir.İş zekası kavramını biraz daha yalın anlatmak gerekirse veri ambarındaki ham bilgiyi doğru analiz metodolojisi ve süreçlerle yorumlayarak yeni fırsatları açığa çıkartan iş sahasıdır.
ETL(Extract-Transform-Load) : ETL kavramı veri ambarına farklı,heterojen kaynaklardan veri çekerek istenilen formatta saklamak için kullanılan metodolojidir.
Extract : Burada temel amaç birçok kaynaktan alınan datayı olabildiğince unified bir formata dönüştürmektir. Bu işlem data içeriğini anlamlı bir şekilde parçalayıp bir formata uyup uymadığını kontrol etmeyi de içerir. Örneğin alınan tarih bilgisi hiçbir parsing işlemine uymuyorsa o data extraction işlemine dahil edilmez. Bu işlem kaynak datalar bir alana alındıktan sonra yapılacığı gibi, işin kolaylığına göre direkt on-the-fly da yapılabilir.
Transform :Transfromation adımında temel olarak yapılan iki adet işlem vardır. Bunların birisi tarih/zaman eklemek – ki bu sayede datalara zaman boyutu katılmış olur- ikincisi ise denormalization olarak adlandırdığımız parçalı tablolardaki verilerin Veri Ambarı sorgulamalarını daha etkin yapabilmek amacıyla tek tablolara aktarılabilecek hale getirilmesidir. Bunun dışında yapılan en temel diğer işlemler kısaca:
-Aynı tanımı taşıyan dataların tek formata dönüştürülmesi
-Gerektiği durumlarda dataların belli kriterlere göre sıralanması
-Kolon değerlerinin birleştirilmesi ve tek kolon yapılması veya tam tersinin uygulanması
-Sürekli yapılacağı görülen hesaplamaların zaman kaybı olmaması açısından yüklenmeden önce yapılarak ayrı bir kolon olarak eklenmesi
Load : Bu aşamada daha önce yapılmış olan mapping algoritmasına uygun olarak kaynak gelen veriler Veri Ambarına yüklenir. Yükleme ilk defa yapılabileceği gibi zaten yüklenmekte olan verilerin delta – yani fark – ının da içeri atılması şeklinde olabilir. Yükleme de önemli olan konu hangi aralıklarla verinin Veri Ambarına aktarılacağıdır ki, bu da genellikle bir iş kuralıdır. Örneğin ; iş birimleri hangi güncellikte veri ile rapor almak istiyor? Sorusunun cevabı. Diğer bir önemli konu, ilerde raporlamada zorda kalmamak amacıyla yükleme işleminin auditlerinin tutulmasıdır. Yoksa geçmişe yönelik bazı sorgulamalarda eksik çıkan dataların hangi aktarım sırasında oluşan hatalardan kaynaklandığı bulunamaz.Örnek mimari aşağıdaki gibidir;
ETL işlemini yapabilmek için bir çok farklı şirketin ürünleri bulunmaktadır.İlk ve en kolay erişilebilen ürünlerin başında Microsoft SQL Server Integration Service adı ile geçen SSIS toolu bulunmaktadır.Ancak adından da anlaşılacağı gibi sadece veri tabanaı olarak Microsoft SQL ürünü içinde kullanılabilir farklı kaynaklardan örneğin Oracle,Teradata,DB2 gibi kaynaklardan veri alımı yapamaz.Bu işlemler için sadece ETL tool olarak hazırlanmış ürünler kullanılmalıdır ki en bilinenlerin başında Informatica,Oracle Data Integrator,Sybase ETL,iWay Software gibi lisans ücretli ürünler ve opensource olarak Jasper,Talent,Clover ETL gibi araçlarakla gelir.
Ben bu araçlar içinde yaygın olarak kullanılan Informatica tool u ile ilgili yazılar paylaşacağım.
Hiç yorum yok:
Yorum Gönder