PerlGtk.pl

  
Menu główne
use PerlMongers::Warszawa;
use PerlMongers::Krakow;
NG_gRadio
Perl Tematyczna Hurtownia Danych - część II
  przez wrares (83 odsłon)
Dziś poświęcimy swój czas, na przybliżenie technologi ETL w ekosystemie Perla. Dlaczego ta technologia jest tak ważna dla Nas. Dlatego że ma kluczowe znaczenie w trakcie budowy Hurtowni Danych a bez niej nie mamy możliwości poprawnego sprawdzania informacji zasysanej przez hurtownię. Zagłębiając się w ETL, dotykać będziemy trzech obszarów

Cytat:

1) E - Ekstrakcja informacji

2) T - Translacja danych

3) L - Ładowanie danych



Użytkowanie hurtowni nie jest trudne, szczególnie wtedy gdy korzystamy z Relacyjne Bazy oraz języka SQL. Trudny jest ETL, gdyż przygotowanie informacji do zasilania ją danymi wymaga solidnego napracowania się. Na rynku firmy informatyczne, często oferują klientom docelowym rozwiązanie które można opisać w jednym zadaniu, My przygotujemy hurtownię dla Państwa, mechanizm zarządzania, a wy przygotujcie dane źródłowe zgodne z Naszymi oczekiwaniami a nie Waszymi co do formy, treści, zawartości itp. bo inaczej wzrosną koszty lub się nie uda.
Jest to jeden z decydujących czynników, który skutecznie odstrasza potencjalnych użytkowników hurtowni danych. Któż chce ponosić dodatkowe koszty, raz zamknięte tematy niechętnie są ponownie otwierane. Chociaż tak wcale nie musi być i w dłuższej perspektywie budowa magazynu danych jest opłacalna. Dlatego trzeba zawsze zastanowić się, jak minimalnym kosztem doprowadzić informacje w firmie do stanu nadającego się do zasysania. A więc co musimy zrobić.

Cytat:


1) Zastanowić się jakie dokumenty źródłowe będą przetwarzane, jakiego okresu dotyczą, obszaru zastosowań itp.

2) Jaką mają formę zapisu - elektroniczną, papierową itp

3) Jakie narzędzia w ekosystemie Perla, byłyby użyteczne w procesie ekstrakcji informacji

4) Zdefiniowanie poprawnych wzorców

5) Dobór odpowiednich metod sprawdzających poprawność

6) Wybór jednolitego formatu danych zapisu informacji dla potrzeb hurtowni

7) Częstotliwość ładownia danych do hurtowni

8) Wykorzystanie mechanizmów natywnych bazy czy może oprogramowania zewnętrznego do ładownia danych

9) Raportowanie z działań, analiza błędów, sytuacji wyjątkowych odbiegających od ustalonego schematu

10) Inne czynności wynikające z prac prowadzonych w trakcie wykorzystywania ETL



Ekosystem Perla, doskonale nadaje się do tego zadania. Bazując na danych tekstowych, Perl potrafi bardzo skutecznie Nas wspomóc w tym zadaniu. Załóżmy że dane które Nas interesują są zapisane w różnych magazynach. Możemy je obsłużyć poprzez

Cytat:


(1) Bazy danych - używamy modułów DBI, DBD-

(2) Arkusze kalkulacyjne - moduły z grupy Spreadsheet-

(3) Pliki tekstowe - moduły File-

(4) Strony Internetowe - moduły HTML-

(5) Pliki XML - moduły XML-

(6) Dokumenty skanowane - Wyrażenia regularne

(7) Dodatkowe wprowadzenie przez użytkownika brakujących danych - arkusze kalkulacyjne, małe bazy itp

(8) Inne mechanizmy pojawiające się w trakcie procesu



Jak widzimy arsenał możliwości jest duży, tym bardzie że procesy te można zautomatyzować. Czyszczenie danych historyczny wykonujemy jednorazowo i kończymy temat. A co informacją bieżącą. Tutaj dobrym rozwiązaniem jest pisanie skryptu, który będzie na bieżąco pobierał i przetwarzał. Proponujemy skorzystanie z

Cytat:


(1) POE - wraz z całą grupą modułów rozszerzających funkcjonalność



Wybranie interesującej nas informacji oraz jej sprawdzenie pod względem merytorycznym, ilościowym, jakościowym itp. otwiera Nam drogę do translacji do jednolitego formatu. Kierujemy się dość prostymi założeniami. Jeśli Nasza hurtownia opiera się na standardach bazodanowych to definicję pól także wybieramy zgodnie z tym standardem. A więc np. tekst staramy się dostosować do zapisu pola VARCHAR, wartości zmiennoprzecinkowe DOUBLE itp.


Następnym krokiem, który Nas czeka to zassanie danych do hurtowni. Możemy zrobić to na dwa sposoby.

Cytat:


(1) Mechanizmy zasysania oferowane przez bazy danych - z tym związane jest przygotowanie formatu akceptowanego przez bazę, często wykorzystujemy funkcję FORMAT ekosystemu Perla

(2) Skrypt Perla - odpowiedzialny za interakcję z bazą



Który mechanizm wybrać, to zależy od problemu. Gdy danych jest sporo, my wybieramy pierwsze rozwiązanie, gdy danych mniej i chcemy dokonać dodatkowego przetwarzania możemy wybrać punkt drugi.

Ekosystem Perla, jak mało który świetnie nadaje się do ETL. Większość problemów wynikając w trakcie przygotowywania informacji dla potrzeb hurtowni dość szybko jesteśmy w stanie rozwiązać. Tym bardziej że użytkownicy, są niekiedy dość sceptycznie nastawienie do takie przedsięwzięcia. Dużą część pracy wykonać można, wspomagając się dostępnymi rozwiązaniami w Perlu.
Powrót
Szukaj w PerlGtk.pl
The Perl Job site
Szukaj kodu :