Samouczek DataStage dla początkujących: IBM Szkolenie DataStage (narzędzie ETL).

Co to jest DataStage?

DataStage jest narzędziem ETL służącym do ekstrakcji, transformacji i ładowania danych ze źródła do miejsca docelowego. Źródłem tych danych mogą być pliki sekwencyjne, pliki indeksowane, bazy danych relacyjnych, zewnętrzne źródła danych, archiwa, aplikacje korporacyjne itp. DataStage służy do ułatwiania analizy biznesowej poprzez dostarczanie wysokiej jakości danych, które pomagają w uzyskaniu informacji biznesowych.

Narzędzie DataStage ETL wykorzystywane jest w dużej organizacji jako interfejs pomiędzy różnymi systemami. Zajmuje się ekstrakcją, translacją i ładowaniem danych ze źródła do miejsca docelowego. Został po raz pierwszy wprowadzony przez VMark w połowie lat 90-tych. Z IBM nabywszy DataStage w 2005 roku, zmieniono jego nazwę na IBM WebSphere DataStage i nowsze do IBM InfoSfera.

Do tej pory na rynku dostępne były różne wersje Datastage: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft i tak dalej. Najnowsze wydanie to IBM InfoSphere DataStage

IBM Serwer informacyjny obejmuje następujące produkty:

  • IBM InfoSphere DataStage
  • IBM Etap jakości InfoSphere
  • IBM Dyrektor ds. usług informacyjnych InfoSphere
  • IBM Analizator informacji InfoSphere
  • IBM Serwer informacyjny FastTrack
  • IBM Glosariusz biznesowy InfoSphere

Przegląd DataStage

Datastage ma następujące możliwości.

  • Potrafi integrować dane z najszerszej gamy źródeł danych korporacyjnych i zewnętrznych
  • Implementuje reguły sprawdzania poprawności danych
  • Jest przydatny przy przetwarzaniu i przekształcaniu dużych ilości danych
  • Wykorzystuje skalowalne podejście do przetwarzania równoległego
  • Potrafi obsługiwać złożone transformacje i zarządzać wieloma procesami integracyjnymi
  • Wykorzystaj bezpośrednią łączność z aplikacjami korporacyjnymi jako źródłami lub celami
  • Wykorzystaj metadane do analizy i konserwacji
  • Operatestowane wsadowo, w czasie rzeczywistym lub jako usługa internetowa

W kolejnych sekcjach tego samouczka DataStage krótko opisujemy następujące aspekty IBM InfoSphere DataStage:

  • Transformacja danych
  • Oferty pracy
  • Równoległe przetwarzanie

InfoSphere DataStage i QualityStage mogą uzyskiwać dostęp do danych w aplikacjach korporacyjnych i źródłach danych, takich jak:

Typy etapów przetwarzania

IBM Praca w infosferze składa się z poszczególnych etapów, które są ze sobą powiązane. Opisuje przepływ danych ze źródła danych do celu danych. Zwykle stopień ma co najmniej jedno wejście danych i/lub jedno wyjście danych. Jednakże niektóre etapy mogą przyjmować więcej niż jedno wejście i wyjście danych do więcej niż jednego etapu.

W projektowaniu pracy można wykorzystać różne etapy:

  • Etap transformacji
  • Etap filtra
  • Etap agregatora
  • Usuń etap duplikatów
  • Dołącz do etapu
  • Etap wyszukiwania
  • Skopiuj etap
  • Etap sortowania
  • Pojemniki

Komponenty DataStage i Architektura

DataStage składa się z czterech głównych komponentów, a mianowicie:

  1. Administrator: Służy do zadań administracyjnych. Obejmuje to konfigurowanie użytkowników DataStage, ustawianie kryteriów usuwania oraz tworzenie i przenoszenie projektów.
  2. Kierownik: Jest to główny interfejs Repozytorium ETL DataStage. Służy do przechowywania i zarządzania metadanymi wielokrotnego użytku. Za pośrednictwem menedżera DataStage można przeglądać i edytować zawartość Repozytorium.
  3. Projektant: Interfejs projektowy używany do tworzenia aplikacji DataStage LUB zadań. Określa źródło danych, wymaganą transformację i miejsce docelowe danych. Zadania są kompilowane w celu utworzenia pliku wykonywalnego, który jest planowany przez dyrektora i uruchamiany przez serwer
  4. Reżyseria: Służy do sprawdzania, planowania, wykonywania i monitorowania zadań serwera DataStage i zadań równoległych.
Etap danych ArchiSchemat tecture
Etap danych ArchiSchemat tecture

Powyższy obraz wyjaśnia, jak to zrobić IBM Infosfera DataStage współdziała z innymi elementami platformy IBM Platforma Serwera Informacyjnego. DataStage jest podzielony na dwie sekcje, Komponenty współdzielone i środowisko wykonawcze Architektura.

   
Aktywności

wspólne

Ujednolicony interfejs użytkownika

  • Do tworzenia aplikacji InfoSphere DataStage (tzw. zadań) służy graficzny interfejs projektowy.
  • Każde zadanie określa źródła danych, wymagane przekształcenia i miejsce docelowe danych.
  • Zadania są kompilowane w celu utworzenia równoległych przepływów zadań i komponentów wielokrotnego użytku. Planuje je i prowadzi dyrektor InfoSphere DataStage i QualityStage.
  • Klient Designer zarządza metadanymi w repozytorium. Podczas gdy skompilowane dane wykonawcze są wdrażane na poziomie Information Server Engine.

Usługi wspólne

  • Usługi metadanych, takie jak analiza wpływu i wyszukiwanie
  • Usługi projektowe wspierające rozwój i konserwację zadań InfoSphere DataStage
  • Usługi wykonawcze obsługujące wszystkie funkcje produktu InfoSphere DataStage

Wspólne przetwarzanie równoległe

  • Silnik uruchamia zadania wykonywalne, które wyodrębniają, przekształcają i ładują dane w szerokiej gamie ustawień.
  • Silnik wybiera podejście polegające na przetwarzaniu równoległym i potoku, aby obsłużyć dużą ilość pracy.

Czas pracy Architektura

Skrypt BHP

  • Opisuje generowanie OSH (orkiestrowanego skryptu powłoki) i przepływ wykonywania IBM i przepływ IBM Infosfera DataStage korzystająca z silnika Information Server
  • Umożliwia korzystanie z graficznych technik „wskaż i kliknij” w celu opracowania przepływów zadań w celu wyodrębnienia, oczyszczenia, transformacji, integracji i ładowania danych do plików docelowych.

Wymaganie wstępne dla narzędzia Datastage

W przypadku DataStage wymagana będzie następująca konfiguracja.

  • Infosfera
  • DataStage Server 9.1.2 lub nowszy
  • Microsoft Wersja Visual Studio .NET 2010 Express C++
  • Oracle klienta (pełnego klienta, a nie klienta natychmiastowego), jeśli łączysz się z Oracle baza danych
  • Klient DB2 w przypadku połączenia z bazą danych DB2

W serii samouczków DataStage dla początkujących dowiemy się, jak pobrać i zainstalować serwer informacyjny InfoSphere.

Pobierz i zainstaluj InfoSphere Information Server

Aby uzyskać dostęp do DataStage, pobierz i zainstaluj najnowszą wersję IBM Serwer InfoSphere. Serwer obsługuje systemy AIX, Linux i Windows system operacyjny. Możesz wybrać według wymagań.

Aby przeprowadzić migrację danych ze starszej wersji Infosfery do nowej wersji, należy skorzystać z narzędzia wymiany zasobów.

Pliki instalacyjne

Aby zainstalować i skonfigurować Infosphere Datastage, w swoim systemie musisz mieć następujące pliki.

Dla litu szacuje się Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Dla Linuksa

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Przepływ procesu zmiany danych w zadaniu etapu transakcji CDC

Przepływ procesu zmian danych w CDC

  1. Usługa „InfoSphere CDC” dla bazy danych monitoruje i przechwytuje zmiany ze źródłowej bazy danych
  2. Zgodnie z definicją replikacji „InfoSphere CDC” przesyła dane zmian do „InfoSphere CDC for InfoSphere DataStage”.
  3. Serwer „InfoSphere CDC dla InfoSphere DataStage” wysyła dane do „etapu transakcji CDC” za pośrednictwem sesji TCP/IP. Serwer „InfoSphere CDC for InfoSphere DataStage” wysyła również komunikat COMMIT (wraz z informacjami o zakładkach), aby oznaczyć granicę transakcji w przechwyconym dzienniku.
  4. Dla każdego komunikatu COMMIT wysłanego przez serwer „InfoSphere CDC dla InfoSphere DataStage” na „etapie transakcji CDC” tworzone są znaczniki końca fali (EOW). Znaczniki te są wysyłane wszystkimi łączami wyjściowymi do etapu łącznika docelowej bazy danych.
  5. Kiedy „etap łącznika docelowej bazy danych” odbierze znacznik końca fali na wszystkich łączach wejściowych, zapisuje informacje o zakładkach do tabeli zakładek, a następnie zatwierdza transakcję w docelowej bazie danych.
  6. Serwer „InfoSphere CDC dla InfoSphere DataStage” żąda informacji o zakładkach z tabeli zakładek w „docelowej bazie danych”.
  7. Serwer „InfoSphere CDC for InfoSphere DataStage” odbiera informacje o zakładkach.

Informacje te służą m.in.

  • Określ punkt początkowy w dzienniku transakcji, w którym odczytywane są zmiany po rozpoczęciu replikacji.
  • Aby ustalić, czy istniejący dziennik transakcji można wyczyścić

Konfigurowanie replikacji SQL

Zanim zaczniesz korzystać z Datastage, musisz skonfigurować bazę danych. Utworzysz dwie bazy danych DB2.

  • Jeden, który będzie służył jako źródło replikacji i
  • Jeden jako cel.

Utworzysz także dwie tabele (Produkt i Zapasy) i wypełnisz je przykładowymi danymi. Następnie możesz przetestować integrację pomiędzy SQL Replikacja i etap danych.

Idąc dalej, skonfigurujesz replikację SQL, tworząc tabele sterujące, zestawy subskrypcji, rejestracje i elementy zestawu subskrypcji. Dowiemy się o tym więcej szczegółów w następnej sekcji.

Tutaj weźmiemy przykład pozycji sprzedaży detalicznej jako naszą bazę danych i utworzymy dwie tabele Zapasy i Produkt. Tabele te będą ładować dane ze źródła do celu za pośrednictwem tych zestawów. (tabele sterujące, zestawy subskrypcji, rejestracje i elementy zestawu subskrypcji.)

Krok 1) Utwórz źródłową bazę danych, tzw OBROTY. W tej bazie danych utwórz dwie tabele produkt oraz Magazyn.

Krok 2) Uruchom następujące polecenie, aby utworzyć bazę danych SALES.

db2 create database SALES

Krok 3) Włącz rejestrowanie archiwalne dla bazy danych SALES. Ponadto wykonaj kopię zapasową bazy danych, używając następujących poleceń

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Krok 4) W tym samym wierszu polecenia przejdź do podkatalogu setupDB w katalogu sqlrepl-datastage-tutorial wyodrębnionym z pobranego skompresowanego pliku.

Konfigurowanie replikacji SQL

Krok 5) Użyj następującego polecenia, aby utworzyć tabelę Inventory i zaimportować dane do tabeli, uruchamiając następujące polecenie.

Import db2 z inwentarza.ixf z ixf tworzy do inwentarza

Krok 6) Utwórz tabelę docelową. Nazwij docelową bazę danych jako STANOWIONEB.

Ponieważ teraz utworzyłeś zarówno bazę danych źródłową, jak i docelową, w następnym kroku tego samouczka DataStage zobaczymy, jak ją zreplikować.

Poniższe informacje mogą być pomocne w: konfigurowanie źródła danych ODBC.

Tworzenie obiektów replikacji SQL

Poniższy obraz pokazuje, w jaki sposób przepływ danych zmian jest dostarczany ze źródła do docelowej bazy danych. Tworzysz mapowanie źródła do celu między tabelami, tzw członkowie zestawu subskrypcji i zgrupuj członków w a subskrypcja.

Tworzenie obiektów replikacji SQL

Jednostka replikacji w InfoSphere CDC (Change Data Capture) nazywana jest subskrypcją.

  • Zmiany dokonane w źródle są przechwytywane w „tabeli kontroli przechwytywania”, która jest wysyłana do tabeli CD, a następnie do tabeli docelowej. Podczas gdy program apply będzie miał szczegóły dotyczące wiersza, w którym zmiany muszą zostać dokonane. Dołączy również tabelę CD do zestawu subskrypcji.
  • Subskrypcja zawiera szczegóły mapowania, które określają, w jaki sposób dane w źródłowym magazynie danych są stosowane do docelowego magazynu danych. Należy zauważyć, że CDC jest teraz określane jako Replikacja danych Infosfery.
  • Gdy subskrypcja jest wykonywana, InfoSphere CDC przechwytuje zmiany w bazie danych źródłowej. InfoSphere CDC dostarcza dane o zmianach do bazy docelowej i przechowuje informacje o punkcie synchronizacji w tabeli zakładek w bazie docelowej.
  • InfoSphere CDC wykorzystuje informacje zawarte w zakładkach do monitorowania postępu zadania InfoSphere DataStage.
  • W przypadku niepowodzenia informacje z zakładki służą jako punkt ponownego uruchomienia. W naszym przykładzie ASN.IBMTabela SNAP_FEEDETL przechowuje informacje o punktach synchronizacji związanych z DataStage, które służą do śledzenia postępu DataStage.

W tej sekcji IBM Samouczek szkoleniowy DataStage: musisz wykonać następujące czynności:

  • Twórz tabele CAPTURE Control i tabele APPLY Control do przechowywania opcji replikacji
  • Zarejestruj tabele PRODUCT i INVENTORY jako źródła replikacji
  • Utwórz zestaw subskrypcji składający się z dwóch elementów
  • Utwórz elementy zestawu subskrypcji i docelowe tabele CCD

Użyj programu wiersza poleceń ASNCLP, aby skonfigurować replikację SQL

Krok 1) Znajdź plik skryptu crtCtlTablesCaptureServer.asnclp w katalogu sqlrepl-datastage-tutorial/setupSQLRep.

Krok 2) W pliku zamień I " ” podając swój identyfikator użytkownika i hasło umożliwiające połączenie się z bazą SALES.

Krok 3) Zmień katalogi na sqlrepl-datastage-tutorial/setupSQLRep i uruchom skrypt. Użyj następującego polecenia. Polecenie połączy się z bazą danych SALES, wygeneruje skrypt SQL do tworzenia tabel kontrolki Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Krok 4) Znajdź plik skryptu crtCtlTablesApplyCtlServer.asnclp w tym samym katalogu. Teraz zamień dwa wystąpienia I " ” wraz z identyfikatorem użytkownika i hasłem umożliwiającym połączenie z bazą STAGEDB.

Krok 5) Teraz w tym samym wierszu poleceń użyj następującego polecenia, aby utworzyć tabele kontroli stosowania.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Krok 6) Znajdź pliki skryptów crtRegistration.asnclp i zamień wszystkie wystąpienia z identyfikatorem użytkownika umożliwiającym połączenie z bazą SALES. Zmień także „ ” do hasła połączenia.

Krok 7) Aby zarejestrować tabele źródłowe, użyj następującego skryptu. W ramach tworzenia rejestracji program ASNCLP utworzy dwie tabele CD. CDPRODUCT I CDINVENTORY.

asnclp –f crtRegistration.asnclp

Polecenie CREATE REGISTRATION używa następujących opcji:

  • Odświeżanie różnicowe: Monituje program Apply o aktualizację tabeli docelowej tylko wtedy, gdy zmienią się wiersze w tabeli źródłowej
  • Obraz obu: Ta opcja służy do zarejestrowania wartości w kolumnie źródłowej przed wystąpieniem zmiany i jednej dla wartości po wystąpieniu zmiany.

Krok 8) Aby nawiązać połączenie z docelową bazą danych (STAGEDB), wykonaj następujące czynności.

  • Znajdź plik crtTableSpaceApply.bat i otwórz go w edytorze tekstu
  • Zastępować I z identyfikatorem użytkownika i hasłem
  • W oknie komend DB2 wpisz crtTableSpaceApply.bat i uruchom plik.
  • Ten plik wsadowy tworzy nowy obszar tabel w docelowej bazie danych ( STAGEDB)

Krok 9) Znajdź pliki skryptu crtSubscriptionSetAndAddMembers.asnclp i wprowadź następujące zmiany.

  • Zamień wszystkie wystąpienia I wraz z identyfikatorem użytkownika i hasłem umożliwiającym połączenie z bazą SALES (źródło).
  • Zamień wszystkie wystąpienia I z identyfikatorem użytkownika umożliwiającym połączenie z bazą STAGEDB (docelową).

Po zmianach uruchom skrypt, aby utworzyć zestaw subskrypcji (ST00) grupujący tabele źródłowe i docelowe. Skrypt tworzy także dwa elementy zestawu subskrypcji oraz CCD (dane o spójnej zmianie) w docelowej bazie danych, w której będą przechowywane zmodyfikowane dane. Dane te zostaną wykorzystane przez Infosphere DataStage.

Krok 10) Uruchom skrypt, aby utworzyć zestaw subskrypcji, elementy zestawu subskrypcji i tabele CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Różne opcje używane do tworzenia zestawu subskrypcji i dwóch elementów obejmują

  • Kompletny, skondensowany, wyłączony
  • Zewnętrzny
  • Załaduj eksport importu typu
  • Czas ciągły

Krok 11) Z powodu wady narzędzi administracyjnych replikacji. Musisz wykonać inny plik wsadowy, aby ustawić kolumnę TARGET_CAPTURE_SCHEMA w pliku IBMtabelę sterującą SNAP_SUBS_SET na wartość null.

  • Znajdź plik updateTgtCapSchema.bat. Otwórz go w edytorze tekstu. Zastępować I z identyfikatorem użytkownika umożliwiającym połączenie z bazą STAGEDB.
  • W oknie komend DB2 wpisz komendę updateTgtCapSchema.bat i wykonaj plik.

Tworzenie plików definicji w celu mapowania tabel CCD do DataStage

Zanim w kolejnym kroku przystąpimy do replikacji, musimy połączyć tabelę CCD z DataStage. W tej sekcji zobaczymy jak połączyć SQL z DataStage.

Aby połączyć tabelę CCD z DataStage, należy utworzyć pliki definicji Datastage (.dxs). Format pliku .dsx jest używany przez DataStage do importowania i eksportowania definicji zadań. Do utworzenia dwóch plików .dsx użyjesz skryptu ASNCLP. Na przykład tutaj utworzyliśmy dwa pliki .dsx.

  • stagedb_AQ00_SET00_sJobs.dsx: Tworzy sekwencję zadań, która kieruje przepływem pracy czterech równoległych zadań.
  • stagedb_AQ00_SET00_pJobs.dsx : Tworzy cztery równoległe zadania

Program ASNCLP automatycznie mapuje kolumnę CCD do formatu kolumny Datastage. Jest obsługiwany tylko wtedy, gdy działa ASNCLP Windows, Linux lub Unix Procedura.

Pliki definicji do mapowania tabel CCD na DataStage

Zadania Datastage pobierają wiersze z tabeli CCD.

  1. Jedno zadanie ustawia punkt synchronizacji, w którym DataStage zakończył wyodrębnianie danych z dwóch tabel. Zadanie uzyskuje te informacje, wybierając wartość SYNCHPOINT dla zestawu subskrypcji ST00 z IBMSNAP_SUBS_SET i wstawienie jej do kolumny MAX_SYNCHPOINT tabeli IBMTabela SNAP_FEEDETL.
  2. Dwa zadania, które wyodrębniają dane z tabel PRODUCT_CCD i INVENTORY_CCD. Zadania wiedzą, które wiersze rozpocząć wyodrębnianie, wybierając wartości MIN_SYNCHPOINT i MAX_SYNCHPOINT z IBMTabela SNAP_FEEDETL dla zestawu subskrypcji.

Rozpoczęcie replikacji

Aby rozpocząć replikację, wykonaj poniższe kroki. Zapełnienie tabel CCD danymi oznacza, że ​​konfiguracja replikacji została sprawdzona. Aby wyświetlić zreplikowane dane w docelowych tabelach CCD, użyj graficznego interfejsu użytkownika Centrum sterowania DB2.

Krok 1) Upewnij się, że DB2 jest uruchomiony, jeśli nie, użyj uruchomienie db2 dowództwo.

Krok 2) Następnie użyj polecenia asncap z wiersza poleceń systemu operacyjnego, aby uruchomić program przechwytujący. Na przykład.

asncap capture_server=SALES

Powyższe polecenie określa bazę danych SALES jako serwer przechwytywania. Pozostaw okno poleceń otwarte podczas działania przechwytywania.

Krok 3) Teraz otwórz nowy wiersz poleceń. Następnie rozpocznij ZASTOSOWANIA programu za pomocą polecenia asnaply.

asnapply control_server=STAGEDB apply_qual=AQ00

Rozpoczęcie replikacji

  • Komenda określa bazę danych STAGEDB jako serwer sterujący wprowadzania (baza danych zawierająca tabele sterujące programu wprowadzającego zmiany).
  • AQ00 jako kwalifikator Apply (identyfikator tego zestawu tabel sterujących)

Pozostaw okno poleceń otwarte, a program Apply jest uruchomiony.

Krok 4) Otwórz teraz kolejny wiersz komend i wydaj komendę db2cc, aby uruchomić Centrum sterowania DB2. Zaakceptuj domyślne Centrum sterowania.

Krok 5) Teraz w lewym drzewie nawigacyjnym otwórz Wszystkie bazy danych> STAGEDB, a następnie kliknij Tabele. Double kliknij nazwę tabeli (Produkt CCD), aby otworzyć tabelę. Będzie to wyglądać mniej więcej tak.

Rozpoczęcie replikacji

Podobnie można otworzyć tabelę CCD dla INWENTARZA.

Rozpoczęcie replikacji

Jak tworzyć projekty w narzędziu Datastage

Na początek utworzysz projekt w DataStage. Aby to zrobić, musisz być administratorem InfoSphere DataStage.

Po zakończeniu instalacji i replikacji należy utworzyć projekt. W DataStage projekty są metodą organizowania danych. Obejmuje definiowanie plików danych, etapów i zadań budowania w konkretnym projekcie.

Aby utworzyć projekt w DataStage, wykonaj poniższe kroki:

Krok 1) Uruchom oprogramowanie DataStage

Uruchom administratora DataStage i QualityStage. Następnie kliknij Start > Wszystkie programy > IBM Serwer informacyjny > IBM Administrator WebSphere DataStage i QualityStage.

Krok 2) Połącz serwer i klienta DataStage

Aby połączyć się z serwerem DataStage za pośrednictwem klienta DataStage, wprowadź dane, takie jak nazwa domeny, identyfikator użytkownika, hasło i informacje o serwerze.

Krok 3) Dodaj nowy projekt

W oknie Administracja WebSphere DataStage. Kliknij kartę Projekty, a następnie kliknij przycisk Dodaj.

Krok 4) Wprowadź szczegóły projektu

W oknie Administracja WebSphere DataStage wprowadź szczegóły, takie jak:

  1. Imię i nazwisko
  2. Lokalizacja pliku
  3. Kliknij OK'

Twórz projekty w narzędziu Datastage

Każdy projekt zawiera:

  • Zadania DataStage
  • Wbudowane komponenty. Są to predefiniowane komponenty używane w zadaniu.
  • Komponenty zdefiniowane przez użytkownika. Są to niestandardowe komponenty utworzone przy użyciu DataStage Manager lub DataStage Designer.

Zobaczymy jak zaimportować zadania replikacji w Datastage Infosferze.

Jak importować zadania replikacji w Datastage i QualityStage Designer

Zaimportujesz zadania w formacie IBM Klient InfoSphere DataStage i QualityStage Designer. I wykonujesz je w IBM Klient InfoSphere DataStage i QualityStage Director.

Projektant-klient jest jak puste płótno do budowania zadań. Wydobywa, przekształca, ładuje i sprawdza jakość danych. Dostarcza narzędzi, które stanowią podstawowe elementy składowe zadania. Obejmuje

  • Praktyki: Łączy się ze źródłami danych w celu odczytu lub zapisu plików oraz przetwarzania danych.
  • Linki: łączy etapy przepływu danych

Etapy w kliencie InfoSphere DataStage i QualityStage Designer są przechowywane na palecie narzędzi Designer.

Rozwiązanie InfoSphere QualityStage obejmuje następujące etapy:

  • Zbadaj etap
  • Standaryzacja etapu
  • Dopasuj etap częstotliwości
  • Etap dopasowania z jednego źródła
  • Etap dopasowania z dwóch źródeł
  • Przetrwaj etap
  • Etap oceny jakości standaryzacji (SQA).

W infosferze DataStage możesz utworzyć 4 typy zadań.

  • Praca równoległa
  • Zadanie sekwencyjne
  • Zadanie na komputerze głównym
  • Zadanie serwera

Zobaczmy krok po kroku, jak importować pliki zadań replikacji.

Krok 1) Uruchom projektanta DataStage i QualityStage. Kliknij Start > Wszystkie programy > IBM Serwer informacyjny > IBM Projektant WebSphere DataStage i QualityStage

Krok 2) W oknie Dołącz do projektu wprowadź następujące szczegóły.

  • Domena
  • Nazwa Użytkownika
  • Hasło
  • Nazwa projektu
  • OK

Importuj zadania replikacji w Datastage i QualityStage

Krok 3) Teraz z menu Plik kliknij importuj -> Komponenty DataStage.

Otworzy się nowe okno Import repozytorium DataStage.

  1. W tym oknie przeglądaj STAGEDB_AQ00_ST00_sJobs.dsx plik, który utworzyliśmy wcześniej
  2. Wybierz opcję „Importuj wszystko”.
  3. Zaznacz pole wyboru „Wykonaj analizę wpływu”.
  4. Kliknij OK.'

Importuj zadania replikacji w Datastage i QualityStage

Po zaimportowaniu zadania DataStage utworzy zadanie STAGEDB_AQ00_ST00_sequence.

Krok 4) Wykonaj te same kroki, aby zaimportować plik Plik STAGEDB_AQ00_ST00_pJobs.dsx. Ten import tworzy cztery równoległe zadania.

Krok 5) W panelu Repozytorium projektanta -> Otwórz folder SQLREP. Wewnątrz folderu zobaczysz zadanie sekwencyjne i cztery zadania równoległe.

Importuj zadania replikacji w Datastage i QualityStage

Krok 6) Aby zobaczyć zadanie sekwencji. Przejdź do drzewa repozytorium, kliknij prawym przyciskiem myszy zadanie STAGEDB_AQ00_ST00_sequence i kliknij Edytuj. Wyświetli przepływ pracy czterech równoległych zadań kontrolowanych przez sekwencję zadań.

Importuj zadania replikacji w Datastage i QualityStage

Każda ikona jest sceną,

  • etap getExtractRange: Aktualizuje IBMTabela SNAP_FEEDETL. Ustawi punkt początkowy ekstrakcji danych na punkt, w którym DataStage ostatnio wyodrębnił wiersze, a punkt końcowy na ostatnią przetworzoną transakcję dla zestawu subskrypcji.
  • getExtractRangeSuccess: Ten etap dostarcza punkty początkowe do etapów ekstraktuFromINVENTORY_CCD i etapu ekstraktuFromPRODUCT_CCD
  • Wszystkie ekstraktySukces: Ten etap zapewnia, że ​​zarówno extractFromINVENTORY_CCD, jak i extractFromPRODUCT_CCD zostały pomyślnie ukończone. Następnie przekazuje punkty synchronizacji dla ostatnich wierszy, które zostały pobrane do etapu setRangeProcessed.
  • etap setRangeProcessed: Aktualizuje się IBMTabela SNAP_FEEDETL. Dzięki temu DataStage wie, od czego rozpocząć kolejną rundę ekstrakcji danych

Krok 7) Aby zobaczyć zadania równoległe. Kliknij prawym przyciskiem myszy STAGEDB_ASN_INVENTORY_CCD i wybierz opcję edycji w repozytorium. Otworzy się okno, jak pokazano poniżej.

Importuj zadania replikacji w Datastage i QualityStage

Na powyższym obrazku widać, że dane z tabeli Inventory CCD i SyncSzczegóły punktu h z tabeli FEEDETL są renderowane do etapu Lookup_6.

Tworzenie połączenia danych z DataStage do bazy danych STAGEDB

Następnym krokiem jest utworzenie połączenia danych pomiędzy produktem InfoSphere DataStage a docelową bazą danych SQL Replication. Zawiera tabele CCD.

W DataStage obiekty połączenia danych z powiązanymi etapami łącznika umożliwiają szybkie definiowanie połączenia ze źródłem danych w projekcie zadania.

Krok 1) STAGEDB zawiera zarówno tabele sterujące Apply, których DataStage używa do synchronizowania ekstrakcji danych, jak i tabele CCD, z których dane są ekstrahowane. Użyj następujących poleceń

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Note: Adres IP systemu, w którym utworzono STAGEDB

Krok 2) Kliknij opcję Plik > Nowy > Inne > Połączenie danych.

Krok 3) Pojawi się okno z dwiema zakładkami: Parametry i Ogólne.

Połączenie danych z DataStage do bazy danych STAGEDB

Krok 4) W tym etapie,

  1. Ogólnie rzecz biorąc, zakładka nazwij połączenie danych sqlreplConnect
  2. Na karcie Parametry, jak pokazano poniżej
  • Kliknij przycisk przeglądania obok pola „Połącz przy użyciu typu etapu” i w
  • Otwórz okno i przejdź po drzewie repozytorium do Typy etapów –> Równoległy– > Baza danych —-> Złącze DB2.
  • Kliknij Otwórz.

Połączenie danych z DataStage do bazy danych STAGEDB

Krok 5) W tabeli Parametry połączenia wprowadź szczegóły takie jak:

  • Ciąg połączenia: STAGEDB2
  • Nazwa użytkownika: Identyfikator użytkownika umożliwiający połączenie z bazą danych STAGEDB
  • Hasło: Hasło umożliwiające połączenie z bazą danych STAGEDB
  • Instancja: Nazwa instancji DB2 zawierającej bazę danych STAGEDB

Krok 6) W następnym oknie zapisz połączenie danych. Kliknij przycisk „zapisz”.

Import definicji tabel z STAGEDB do DataStage

W poprzednim kroku widzieliśmy, że InfoSphere DataStage i baza danych STAGEDB są połączone. Teraz zaimportuj definicję kolumny i inne metadane dla tabel PRODUCT_CCD i INVENTORY_CCD do repozytorium Information Server.

W oknie projektanta wykonaj poniższe kroki.

Krok 1) Wybierz opcję Importuj > Definicje tabel > Uruchom kreatora importu złącza

Krok 2) Na stronie wyboru konektora w kreatorze wybierz konektor DB2 i kliknij Dalej.

Import definicji tabel z STAGEDB do DataStage

Krok 3) Kliknij opcję ładowania na stronie szczegółów połączenia. Spowoduje to wypełnienie pól kreatora informacjami o połączeniu danych utworzonym w poprzednim rozdziale.

Import definicji tabel z STAGEDB do DataStage

Krok 4) Kliknij opcję Testuj połączenie na tej samej stronie. Spowoduje to, że DataStage podejmie próbę połączenia z bazą danych STAGEDB. Możesz zobaczyć komunikat „połączenie powiodło się”. Kliknij Następny.

Import definicji tabel z STAGEDB do DataStage

Krok 5) Upewnij się, że na stronie Lokalizacja źródła danych pola Nazwa hosta i Nazwa bazy danych są poprawnie wypełnione. Następnie kliknij Dalej.

Krok 6) Na stronie Schemat. Wprowadź schemat tabel sterujących stosowania (ASN) lub sprawdź, czy schemat ASN jest wstępnie wypełniony w polu schematu. Następnie kliknij Dalej. Strona wyboru wyświetli listę tabel zdefiniowanych w schemacie ASN.

Import definicji tabel z STAGEDB do DataStage

Krok 7) Pierwszą tabelą, z której musimy zaimportować metadane, jest IBMSNAP_FEEDETL, tabela kontrolna Apply. Zawiera ona szczegółowe informacje o punktach synchronizacji, które umożliwiają DataStage śledzenie wierszy pobranych z tabel CCD. Wybierz IBMSNAP_FEEDETL i kliknij Dalej.

Krok 8) Aby zakończyć import pliku IBMDefinicja tabeli SNAP_FEEDETL. Kliknij import, a następnie w otwartym oknie kliknij otwórz.

Krok 9) Powtórz kroki 1-8 jeszcze dwa razy, aby zaimportować definicje tabeli PRODUCT_CCD, a następnie tabeli INVENTORY_CCD.

UWAGA: Importując definicje zapasów i produktów pamiętaj o zmianie schematów z ASN na schemat, w ramach którego utworzono PRODUCT_CCD i INVENTORY_CCD.

Teraz DataStage ma wszystkie szczegóły potrzebne do połączenia się z docelową bazą danych replikacji SQL.

Ustawianie właściwości zadań DataStage

Dla każdego z czterech równoległych zadań DataStage, które mamy, zawiera ono jeden lub więcej etapów, które łączą się z bazą danych STAGEDB. Należy zmodyfikować etapy, aby dodać informacje o połączeniu i łącze do plików zestawu danych wypełnianych przez DataStage.

Etapy mają predefiniowane właściwości, które można edytować. Tutaj zmienimy niektóre z tych właściwości dla zadania równoległego STAGEDB_ASN_PRODUCT_CCD_extract.

Krok 1) Przeglądaj drzewo repozytorium projektanta. W folderze SQLREP wybierz zadanie równoległe STAGEDB_ASN_PRODUCT_CCD_extract. Aby edytować, kliknij zadanie prawym przyciskiem myszy. Okno projektu zadania równoległego zostanie otwarte w palecie projektanta.

Krok 2) Znajdź zieloną ikonę. Ta ikona oznacza etap złącza DB2. Służy do wyodrębniania danych z tabeli CCD. Double-kliknij ikonę. Otworzy się okno edytora scen.

Ustawianie właściwości zadań DataStage

Ustawianie właściwości zadań DataStage

Krok 3) W edytorze kliknij opcję Załaduj, aby wypełnić pola informacjami o połączeniu. Aby zamknąć edytor scen i zapisać zmiany, kliknij OK.

Krok 4) Teraz wróć do okna projektowania dla zadania równoległego STAGEDB_ASN_PRODUCT_CCD_extract. Znajdź ikonę pobieraniaSyncEtap złącza hPoints DB2. Następnie kliknij dwukrotnie ikonę.

Krok 5) Teraz kliknij przycisk ładowania, aby wypełnić pola informacjami o połączeniu.

UWAGA: Jeśli używasz bazy danych innej niż STAGEDB jako serwera sterującego wprowadzania. Następnie wybierz opcję załadowania informacji o połączeniu dla pliku getSyncEtap hPoints, który współdziała z tabelami kontrolnymi, a nie z tabelą CCD.

Krok 6) W tym etapie,

  • Utwórz pusty plik tekstowy w systemie, w którym działa InfoSphere DataStage.
  • Nazwij ten plik jako dataset.ds i zanotuj, gdzie go zapisałeś.
  • DataStage zapisze zmiany w tym pliku po pobraniu zmian z tabeli CCD.
  • Zestawy danych lub pliki używane do przenoszenia danych pomiędzy połączonymi zadaniami nazywane są trwałymi zbiorami danych. Jest reprezentowany przez etap DataSet.

Krok 7) Teraz otwórz edytor etapu w oknie projektu i kliknij dwukrotnie ikonę insert_into_a_dataset. Otworzy się kolejne okno.

Ustawianie właściwości zadań DataStage

Krok 8) W tym oknie

Ustawianie właściwości zadań DataStage

  • Na karcie właściwości upewnij się, że Target folder jest otwarty i podświetlona jest właściwość File = DATASETNAME.
  • Po prawej stronie będziesz mieć pole pliku
  • Wprowadź pełną ścieżkę do pliku dataset.ds
  • Kliknij OK'.

Zaktualizowałeś wszystkie niezbędne właściwości tabeli CCD produktu. Zamknij okno projektu i zapisz wszystkie zmiany.

Krok 9) Teraz zlokalizuj i otwórz zadanie równoległe STAGEDB_ASN_INVENTORY_CCD_extract z panelu repozytorium projektanta i powtórz kroki 3-8.

UWAGA:

  • Należy załadować informacje o połączeniu dla bazy danych serwera sterującego do edytora scenicznego dla pliku getSyncEtap hPoints. Jeśli Twój serwer sterujący nie jest STAGEDB.
  • W przypadku zadań równoległych STAGEDB_ST00_AQ00_getExtractRange i STAGEDB_ST00_AQ00_markRangeProcessed otwórz wszystkie etapy konektora DB2. Następnie użyj funkcji ładowania, aby dodać informacje o połączeniu do bazy danych STAGEDB

Kompilowanie i uruchamianie zadań DataStage

Gdy zadanie DataStage jest gotowe do skompilowania, Projektant weryfikuje projekt zadania, analizując dane wejściowe, transformacje, wyrażenia i inne szczegóły.

Po pomyślnym zakończeniu kompilacji zadanie jest gotowe do uruchomienia. Skompilujemy wszystkie pięć zadań, ale uruchomimy tylko „sekwencję zadań”. Dzieje się tak, ponieważ to zadanie kontroluje wszystkie cztery zadania równoległe.

Krok 1) W folderze SQLREP. Wybierz każde z pięciu zadań za pomocą (Cntrl+Shift). Następnie kliknij prawym przyciskiem myszy i wybierz opcję kompilacji wielu zadań.

Kompilowanie i uruchamianie zadań DataStage

Krok 2) W Kreatorze kompilacji DataStage zostanie wybranych pięć zadań. Kliknij Następny.

Kompilowanie i uruchamianie zadań DataStage

Krok 3) Rozpocznie się kompilacja, a po zakończeniu zostanie wyświetlony komunikat „Skompilowano pomyślnie”.

Kompilowanie i uruchamianie zadań DataStage

Krok 4) Teraz uruchom DataStage i QualityStage Director. Wybierz Start > Wszystkie programy > IBM Serwer informacyjny > IBM Dyrektor WebSphere DataStage i QualityStage.

Krok 5) W panelu nawigacji projektu po lewej stronie. Kliknij folder SQLREP. Spowoduje to umieszczenie wszystkich pięciu stanowisk w tabeli statusu dyrektora.

Krok 6) Wybierz zadanie STAGEDB_AQ00_S00_sequence. Na pasku menu kliknij opcję Zadanie > Uruchom teraz.

Kompilowanie i uruchamianie zadań DataStage

Po zakończeniu kompilacji zobaczysz status zakończenia.

Kompilowanie i uruchamianie zadań DataStage

Teraz sprawdź, czy zmienione wiersze przechowywane w tabelach PRODUCT_CCD i INVENTORY_CCD zostały wyodrębnione przez DataStage i wstawione do dwóch plików zestawów danych.

Krok 7) Wróć do Projektanta i otwórz zadanie STAGEDB_ASN_PRODUCT_CCD_extract. Aby otworzyć edytor scen Double-kliknij ikonę wstaw_do_zestawu_danych. Następnie kliknij wyświetl dane.

Krok 8) Zaakceptuj ustawienia domyślne w oknie wierszy do wyświetlenia. Następnie kliknij OK. Otworzy się okno przeglądarki danych, aby wyświetlić zawartość pliku zestawu danych.

Kompilowanie i uruchamianie zadań DataStage

Testowanie integracji pomiędzy replikacją SQL i DataStage

W poprzednim kroku skompilowaliśmy i wykonaliśmy zadanie. W tej sekcji sprawdzimy integrację replikacji SQL i DataStage. W tym celu wprowadzimy zmiany w tabeli źródłowej i sprawdzimy, czy ta sama zmiana zostanie zaktualizowana w DataStage.

Krok 1) Przejdź do folderu sqlrepl-datastage-scripts w swoim systemie operacyjnym.

Krok 2) Aby uruchomić replikację SQL, wykonaj następujące czynności:

  • Uruchom startSQLCapture.bat (Windows) w celu uruchomienia programu Capture w bazie danych SALES.
  • Uruchom plik startSQLApply.bat (Windows), aby uruchomić program Apply w bazie danych STAGEDB.

Krok 3) Teraz otwórz plik updateSourceTables.sql. Aby połączyć się z bazą SALES należy wymienić I z identyfikatorem użytkownika i hasłem.

Krok 4) Otwórz okno komend DB2. Zmień katalog na sqlrepl-datastage-tutorial\scripts i uruchom wydanie za pomocą podanego polecenia:

db2 -tvf updateSourceTables.sql

Skrypt SQL wykona różne operacje, takie jak Aktualizacja, Wstawianie i Usuwanie w obu tabelach (PRODUCT, INVENTORY) w bazie danych Sprzedaż.

Krok 5) W systemie, w którym działa DataStage. Otwórz DataStage Director i wykonaj zadanie STAGEDB_AQ00_S00_sequence. Kliknij opcję Zadanie > Uruchom teraz.

Integracja pomiędzy replikacją SQL i DataStage

Po uruchomieniu zadania zostaną wykonane następujące czynności.

  • Program Capture odczytuje sześciowierszowe zmiany w logu bazy danych SALES i wstawia je do tabel CD.
  • Program Apply pobiera wiersze zmian z tabel CD w SALES i wstawia je do tabel CCD w STAGEDB.
  • Dwa zadania wyodrębniania DataStage pobierają zmiany z tabel CCD i zapisują je w plikach dataset.ds i Inventory Dataset.ds.

Możesz sprawdzić, czy powyższe kroki miały miejsce, przeglądając zbiory danych.

Krok 6) Wykonaj poniższe kroki,

  • Uruchom projektanta. Otwórz zadanie STAGEDB_ASN_PRODUCT_CCD_extract.
  • Następnie Double-kliknij ikonę wstaw_do_zestawu_danych. W edytorze scenicznym. Kliknij opcję Wyświetl dane.
  • Zaakceptuj ustawienia domyślne w wierszach, które mają zostać wyświetlone w oknie i kliknij przycisk OK.

Zestaw danych zawiera trzy nowe wiersze. Najprostszym sposobem sprawdzenia, czy zmiany zostały wprowadzone, jest przewinięcie w dół przeglądarki danych. Teraz spójrz na trzy ostatnie rzędy (patrz obrazek poniżej)

Integracja pomiędzy replikacją SQL i DataStage

Litery I, U i D określają operacje INSERT, UPDATE i DELETE powodujące utworzenie każdego nowego wiersza.

Możesz wykonać to samo sprawdzenie dla tabeli Zapasy.

Podsumowanie

  • Datastage jest Narzędzie ETL który wyodrębnia dane, przekształca i ładuje dane ze źródła do celu.
  • Ułatwia analiza biznesowa dostarczając wysokiej jakości dane, które pomogą w uzyskaniu inteligencji biznesowej.
  • DataStage jest podzielony na dwie sekcje, Komponenty współdzielone i środowisko wykonawcze Architektura.
  • DataStage składa się z czterech głównych komponentów,
  • Administrator
  • Menedżer
  • projektant
  • Dyrektor
  • Poniżej przedstawiono kluczowe aspekty IBM InfoSphere DataStage
  • Transformacja danych
  • Oferty pracy
  • Równoległe przetwarzanie
  • W projektowaniu pracy zaangażowane są różne etapy
  • Etap transformacji
  • Etap filtra
  • Etap agregatora
  • Usuń etap duplikatów
  • Dołącz do etapu
  • Etap wyszukiwania

Podsumuj ten post następująco: