Samouczek DataStage dla początkujących: IBM Szkolenie DataStage (narzędzie ETL).

Co to jest DataStage?

DataStage jest narzędziem ETL służącym do ekstrakcji, transformacji i ładowania danych ze źródła do miejsca docelowego. Źródłem tych danych mogą być pliki sekwencyjne, pliki indeksowane, bazy danych relacyjnych, zewnętrzne źródła danych, archiwa, aplikacje korporacyjne itp. DataStage służy do ułatwiania analizy biznesowej poprzez dostarczanie wysokiej jakości danych, które pomagają w uzyskaniu informacji biznesowych.

Narzędzie DataStage ETL wykorzystywane jest w dużej organizacji jako interfejs pomiędzy różnymi systemami. Zajmuje się ekstrakcją, translacją i ładowaniem danych ze źródła do miejsca docelowego. Został po raz pierwszy wprowadzony przez VMark w połowie lat 90-tych. Z IBM nabywszy DataStage w 2005 roku, zmieniono jego nazwę na IBM WebSphere DataStage i nowsze do IBM InfoSfera.

Do tej pory na rynku dostępne były różne wersje Datastage: Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft i tak dalej. Najnowsze wydanie to IBM InfoSphere DataStage

IBM Serwer informacyjny obejmuje następujące produkty:

IBM InfoSphere DataStage
IBM Etap jakości InfoSphere
IBM Dyrektor ds. usług informacyjnych InfoSphere
IBM Analizator informacji InfoSphere
IBM Serwer informacyjny FastTrack
IBM Glosariusz biznesowy InfoSphere

Przegląd DataStage

Datastage ma następujące możliwości.

Potrafi integrować dane z najszerszej gamy źródeł danych korporacyjnych i zewnętrznych
Implementuje reguły sprawdzania poprawności danych
Jest przydatny przy przetwarzaniu i przekształcaniu dużych ilości danych
Wykorzystuje skalowalne podejście do przetwarzania równoległego
Potrafi obsługiwać złożone transformacje i zarządzać wieloma procesami integracyjnymi
Wykorzystaj bezpośrednią łączność z aplikacjami korporacyjnymi jako źródłami lub celami
Wykorzystaj metadane do analizy i konserwacji
Operatestowane wsadowo, w czasie rzeczywistym lub jako usługa internetowa

W kolejnych sekcjach tego samouczka DataStage krótko opisujemy następujące aspekty IBM InfoSphere DataStage:

Transformacja danych
Oferty pracy
Równoległe przetwarzanie

InfoSphere DataStage i QualityStage mogą uzyskiwać dostęp do danych w aplikacjach korporacyjnych i źródłach danych, takich jak:

Relacyjne bazy danych
Bazy danych mainframe
Aplikacje biznesowe i analityczne
Planowanie zasobów przedsiębiorstwa (ERP) lub bazy danych zarządzania relacjami z klientami (CRM).
Przetwarzanie analityczne online (OLAP) lub bazy danych zarządzania wydajnością

Typy etapów przetwarzania

IBM Praca w infosferze składa się z poszczególnych etapów, które są ze sobą powiązane. Opisuje przepływ danych ze źródła danych do celu danych. Zwykle stopień ma co najmniej jedno wejście danych i/lub jedno wyjście danych. Jednakże niektóre etapy mogą przyjmować więcej niż jedno wejście i wyjście danych do więcej niż jednego etapu.

W projektowaniu pracy można wykorzystać różne etapy:

Etap transformacji
Etap filtra
Etap agregatora
Usuń etap duplikatów
Dołącz do etapu
Etap wyszukiwania
Skopiuj etap
Etap sortowania
Pojemniki

Komponenty DataStage i Architektura

DataStage składa się z czterech głównych komponentów, a mianowicie:

Administrator: Służy do zadań administracyjnych. Obejmuje to konfigurowanie użytkowników DataStage, ustawianie kryteriów usuwania oraz tworzenie i przenoszenie projektów.
Kierownik: Jest to główny interfejs Repozytorium ETL DataStage. Służy do przechowywania i zarządzania metadanymi wielokrotnego użytku. Za pośrednictwem menedżera DataStage można przeglądać i edytować zawartość Repozytorium.
Projektant: Interfejs projektowy używany do tworzenia aplikacji DataStage LUB zadań. Określa źródło danych, wymaganą transformację i miejsce docelowe danych. Zadania są kompilowane w celu utworzenia pliku wykonywalnego, który jest planowany przez dyrektora i uruchamiany przez serwer
Reżyseria: Służy do sprawdzania, planowania, wykonywania i monitorowania zadań serwera DataStage i zadań równoległych.

Powyższy obraz wyjaśnia, jak to zrobić IBM Infosfera DataStage współdziała z innymi elementami platformy IBM Platforma Serwera Informacyjnego. DataStage jest podzielony na dwie sekcje, Komponenty współdzielone i środowisko wykonawcze Architektura.

		Aktywności
wspólne	Ujednolicony interfejs użytkownika	Do tworzenia aplikacji InfoSphere DataStage (tzw. zadań) służy graficzny interfejs projektowy. Każde zadanie określa źródła danych, wymagane przekształcenia i miejsce docelowe danych. Zadania są kompilowane w celu utworzenia równoległych przepływów zadań i komponentów wielokrotnego użytku. Planuje je i prowadzi dyrektor InfoSphere DataStage i QualityStage. Klient Designer zarządza metadanymi w repozytorium. Podczas gdy skompilowane dane wykonawcze są wdrażane na poziomie Information Server Engine.
	Usługi wspólne	Usługi metadanych, takie jak analiza wpływu i wyszukiwanie Usługi projektowe wspierające rozwój i konserwację zadań InfoSphere DataStage Usługi wykonawcze obsługujące wszystkie funkcje produktu InfoSphere DataStage
	Wspólne przetwarzanie równoległe	Silnik uruchamia zadania wykonywalne, które wyodrębniają, przekształcają i ładują dane w szerokiej gamie ustawień. Silnik wybiera podejście polegające na przetwarzaniu równoległym i potoku, aby obsłużyć dużą ilość pracy.
Czas pracy Architektura	Skrypt BHP	Opisuje generowanie OSH (orkiestrowanego skryptu powłoki) i przepływ wykonywania IBM i przepływ IBM Infosfera DataStage korzystająca z silnika Information Server Umożliwia korzystanie z graficznych technik „wskaż i kliknij” w celu opracowania przepływów zadań w celu wyodrębnienia, oczyszczenia, transformacji, integracji i ładowania danych do plików docelowych.

Wymaganie wstępne dla narzędzia Datastage

W przypadku DataStage wymagana będzie następująca konfiguracja.

Infosfera
DataStage Server 9.1.2 lub nowszy
Microsoft Wersja Visual Studio .NET 2010 Express C++
Oracle klienta (pełnego klienta, a nie klienta natychmiastowego), jeśli łączysz się z Oracle baza danych
Klient DB2 w przypadku połączenia z bazą danych DB2

W serii samouczków DataStage dla początkujących dowiemy się, jak pobrać i zainstalować serwer informacyjny InfoSphere.

Pobierz i zainstaluj InfoSphere Information Server

Aby uzyskać dostęp do DataStage, pobierz i zainstaluj najnowszą wersję IBM Serwer InfoSphere. Serwer obsługuje systemy AIX, Linux i Windows system operacyjny. Możesz wybrać według wymagań.

Aby przeprowadzić migrację danych ze starszej wersji Infosfery do nowej wersji, należy skorzystać z narzędzia wymiany zasobów.

Pliki instalacyjne

Aby zainstalować i skonfigurować Infosphere Datastage, w swoim systemie musisz mieć następujące pliki.

Dla litu szacuje się Windows,

EtlDeploymentPackage-windows-oracle.pkg
EtlDeploymentPackage-windows-db2.pkg

Dla Linuksa

EtlDeploymentPackage-linux-db2.pkg
EtlDeploymentPackage-linux-oracle.pkg

Przepływ procesu zmiany danych w zadaniu etapu transakcji CDC

Usługa „InfoSphere CDC” dla bazy danych monitoruje i przechwytuje zmiany ze źródłowej bazy danych
Zgodnie z definicją replikacji „InfoSphere CDC” przesyła dane zmian do „InfoSphere CDC for InfoSphere DataStage”.
Serwer „InfoSphere CDC dla InfoSphere DataStage” wysyła dane do „etapu transakcji CDC” za pośrednictwem sesji TCP/IP. Serwer „InfoSphere CDC for InfoSphere DataStage” wysyła również komunikat COMMIT (wraz z informacjami o zakładkach), aby oznaczyć granicę transakcji w przechwyconym dzienniku.
Dla każdego komunikatu COMMIT wysłanego przez serwer „InfoSphere CDC dla InfoSphere DataStage” na „etapie transakcji CDC” tworzone są znaczniki końca fali (EOW). Znaczniki te są wysyłane wszystkimi łączami wyjściowymi do etapu łącznika docelowej bazy danych.
Kiedy „etap łącznika docelowej bazy danych” odbierze znacznik końca fali na wszystkich łączach wejściowych, zapisuje informacje o zakładkach do tabeli zakładek, a następnie zatwierdza transakcję w docelowej bazie danych.
Serwer „InfoSphere CDC dla InfoSphere DataStage” żąda informacji o zakładkach z tabeli zakładek w „docelowej bazie danych”.
Serwer „InfoSphere CDC for InfoSphere DataStage” odbiera informacje o zakładkach.

Informacje te służą m.in.

Określ punkt początkowy w dzienniku transakcji, w którym odczytywane są zmiany po rozpoczęciu replikacji.
Aby ustalić, czy istniejący dziennik transakcji można wyczyścić

Konfigurowanie replikacji SQL

Zanim zaczniesz korzystać z Datastage, musisz skonfigurować bazę danych. Utworzysz dwie bazy danych DB2.

Jeden, który będzie służył jako źródło replikacji i
Jeden jako cel.

Utworzysz także dwie tabele (Produkt i Zapasy) i wypełnisz je przykładowymi danymi. Następnie możesz przetestować integrację pomiędzy SQL Replikacja i etap danych.

Idąc dalej, skonfigurujesz replikację SQL, tworząc tabele sterujące, zestawy subskrypcji, rejestracje i elementy zestawu subskrypcji. Dowiemy się o tym więcej szczegółów w następnej sekcji.

Tutaj weźmiemy przykład pozycji sprzedaży detalicznej jako naszą bazę danych i utworzymy dwie tabele Zapasy i Produkt. Tabele te będą ładować dane ze źródła do celu za pośrednictwem tych zestawów. (tabele sterujące, zestawy subskrypcji, rejestracje i elementy zestawu subskrypcji.)

Krok 1) Utwórz źródłową bazę danych, tzw OBROTY. W tej bazie danych utwórz dwie tabele produkt oraz Magazyn.

Krok 2) Uruchom następujące polecenie, aby utworzyć bazę danych SALES.

db2 create database SALES

Krok 3) Włącz rejestrowanie archiwalne dla bazy danych SALES. Ponadto wykonaj kopię zapasową bazy danych, używając następujących poleceń

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Krok 4) W tym samym wierszu polecenia przejdź do podkatalogu setupDB w katalogu sqlrepl-datastage-tutorial wyodrębnionym z pobranego skompresowanego pliku.

Krok 5) Użyj następującego polecenia, aby utworzyć tabelę Inventory i zaimportować dane do tabeli, uruchamiając następujące polecenie.

Import db2 z inwentarza.ixf z ixf tworzy do inwentarza

Krok 6) Utwórz tabelę docelową. Nazwij docelową bazę danych jako STANOWIONEB.

Ponieważ teraz utworzyłeś zarówno bazę danych źródłową, jak i docelową, w następnym kroku tego samouczka DataStage zobaczymy, jak ją zreplikować.

Poniższe informacje mogą być pomocne w: konfigurowanie źródła danych ODBC.

Tworzenie obiektów replikacji SQL

Poniższy obraz pokazuje, w jaki sposób przepływ danych zmian jest dostarczany ze źródła do docelowej bazy danych. Tworzysz mapowanie źródła do celu między tabelami, tzw członkowie zestawu subskrypcji i zgrupuj członków w a subskrypcja.

Jednostka replikacji w InfoSphere CDC (Change Data Capture) nazywana jest subskrypcją.

Zmiany dokonane w źródle są przechwytywane w „tabeli kontroli przechwytywania”, która jest wysyłana do tabeli CD, a następnie do tabeli docelowej. Podczas gdy program apply będzie miał szczegóły dotyczące wiersza, w którym zmiany muszą zostać dokonane. Dołączy również tabelę CD do zestawu subskrypcji.
Subskrypcja zawiera szczegóły mapowania, które określają, w jaki sposób dane w źródłowym magazynie danych są stosowane do docelowego magazynu danych. Należy zauważyć, że CDC jest teraz określane jako Replikacja danych Infosfery.
Gdy subskrypcja jest wykonywana, InfoSphere CDC przechwytuje zmiany w bazie danych źródłowej. InfoSphere CDC dostarcza dane o zmianach do bazy docelowej i przechowuje informacje o punkcie synchronizacji w tabeli zakładek w bazie docelowej.
InfoSphere CDC wykorzystuje informacje zawarte w zakładkach do monitorowania postępu zadania InfoSphere DataStage.
W przypadku niepowodzenia informacje z zakładki służą jako punkt ponownego uruchomienia. W naszym przykładzie ASN.IBMTabela SNAP_FEEDETL przechowuje informacje o punktach synchronizacji związanych z DataStage, które służą do śledzenia postępu DataStage.

W tej sekcji IBM Samouczek szkoleniowy DataStage: musisz wykonać następujące czynności:

Twórz tabele CAPTURE Control i tabele APPLY Control do przechowywania opcji replikacji
Zarejestruj tabele PRODUCT i INVENTORY jako źródła replikacji
Utwórz zestaw subskrypcji składający się z dwóch elementów
Utwórz elementy zestawu subskrypcji i docelowe tabele CCD

Użyj programu wiersza poleceń ASNCLP, aby skonfigurować replikację SQL

Krok 1) Znajdź plik skryptu crtCtlTablesCaptureServer.asnclp w katalogu sqlrepl-datastage-tutorial/setupSQLRep.

Krok 2) W pliku zamień I " ” podając swój identyfikator użytkownika i hasło umożliwiające połączenie się z bazą SALES.

Krok 3) Zmień katalogi na sqlrepl-datastage-tutorial/setupSQLRep i uruchom skrypt. Użyj następującego polecenia. Polecenie połączy się z bazą danych SALES, wygeneruje skrypt SQL do tworzenia tabel kontrolki Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Krok 4) Znajdź plik skryptu crtCtlTablesApplyCtlServer.asnclp w tym samym katalogu. Teraz zamień dwa wystąpienia I " ” wraz z identyfikatorem użytkownika i hasłem umożliwiającym połączenie z bazą STAGEDB.

Krok 5) Teraz w tym samym wierszu poleceń użyj następującego polecenia, aby utworzyć tabele kontroli stosowania.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Krok 6) Znajdź pliki skryptów crtRegistration.asnclp i zamień wszystkie wystąpienia z identyfikatorem użytkownika umożliwiającym połączenie z bazą SALES. Zmień także „ ” do hasła połączenia.

Krok 7) Aby zarejestrować tabele źródłowe, użyj następującego skryptu. W ramach tworzenia rejestracji program ASNCLP utworzy dwie tabele CD. CDPRODUCT I CDINVENTORY.

asnclp –f crtRegistration.asnclp

Polecenie CREATE REGISTRATION używa następujących opcji:

Odświeżanie różnicowe: Monituje program Apply o aktualizację tabeli docelowej tylko wtedy, gdy zmienią się wiersze w tabeli źródłowej
Obraz obu: Ta opcja służy do zarejestrowania wartości w kolumnie źródłowej przed wystąpieniem zmiany i jednej dla wartości po wystąpieniu zmiany.

Krok 8) Aby nawiązać połączenie z docelową bazą danych (STAGEDB), wykonaj następujące czynności.

Znajdź plik crtTableSpaceApply.bat i otwórz go w edytorze tekstu
Zastępować I z identyfikatorem użytkownika i hasłem
W oknie komend DB2 wpisz crtTableSpaceApply.bat i uruchom plik.
Ten plik wsadowy tworzy nowy obszar tabel w docelowej bazie danych ( STAGEDB)

Krok 9) Znajdź pliki skryptu crtSubscriptionSetAndAddMembers.asnclp i wprowadź następujące zmiany.

Zamień wszystkie wystąpienia I wraz z identyfikatorem użytkownika i hasłem umożliwiającym połączenie z bazą SALES (źródło).
Zamień wszystkie wystąpienia I z identyfikatorem użytkownika umożliwiającym połączenie z bazą STAGEDB (docelową).

Po zmianach uruchom skrypt, aby utworzyć zestaw subskrypcji (ST00) grupujący tabele źródłowe i docelowe. Skrypt tworzy także dwa elementy zestawu subskrypcji oraz CCD (dane o spójnej zmianie) w docelowej bazie danych, w której będą przechowywane zmodyfikowane dane. Dane te zostaną wykorzystane przez Infosphere DataStage.

Krok 10) Uruchom skrypt, aby utworzyć zestaw subskrypcji, elementy zestawu subskrypcji i tabele CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Różne opcje używane do tworzenia zestawu subskrypcji i dwóch elementów obejmują

Kompletny, skondensowany, wyłączony
Zewnętrzny
Załaduj eksport importu typu
Czas ciągły

Krok 11) Z powodu wady narzędzi administracyjnych replikacji. Musisz wykonać inny plik wsadowy, aby ustawić kolumnę TARGET_CAPTURE_SCHEMA w pliku IBMtabelę sterującą SNAP_SUBS_SET na wartość null.

Znajdź plik updateTgtCapSchema.bat. Otwórz go w edytorze tekstu. Zastępować I z identyfikatorem użytkownika umożliwiającym połączenie z bazą STAGEDB.
W oknie komend DB2 wpisz komendę updateTgtCapSchema.bat i wykonaj plik.

Tworzenie plików definicji w celu mapowania tabel CCD do DataStage

Zanim w kolejnym kroku przystąpimy do replikacji, musimy połączyć tabelę CCD z DataStage. W tej sekcji zobaczymy jak połączyć SQL z DataStage.

Aby połączyć tabelę CCD z DataStage, należy utworzyć pliki definicji Datastage (.dxs). Format pliku .dsx jest używany przez DataStage do importowania i eksportowania definicji zadań. Do utworzenia dwóch plików .dsx użyjesz skryptu ASNCLP. Na przykład tutaj utworzyliśmy dwa pliki .dsx.

stagedb_AQ00_SET00_sJobs.dsx: Tworzy sekwencję zadań, która kieruje przepływem pracy czterech równoległych zadań.
stagedb_AQ00_SET00_pJobs.dsx : Tworzy cztery równoległe zadania

Program ASNCLP automatycznie mapuje kolumnę CCD do formatu kolumny Datastage. Jest obsługiwany tylko wtedy, gdy działa ASNCLP Windows, Linux lub Unix Procedura.

Zadania Datastage pobierają wiersze z tabeli CCD.

Jedno zadanie ustawia punkt synchronizacji, w którym DataStage zakończył wyodrębnianie danych z dwóch tabel. Zadanie uzyskuje te informacje, wybierając wartość SYNCHPOINT dla zestawu subskrypcji ST00 z IBMSNAP_SUBS_SET i wstawienie jej do kolumny MAX_SYNCHPOINT tabeli IBMTabela SNAP_FEEDETL.
Dwa zadania, które wyodrębniają dane z tabel PRODUCT_CCD i INVENTORY_CCD. Zadania wiedzą, które wiersze rozpocząć wyodrębnianie, wybierając wartości MIN_SYNCHPOINT i MAX_SYNCHPOINT z IBMTabela SNAP_FEEDETL dla zestawu subskrypcji.

Rozpoczęcie replikacji

Aby rozpocząć replikację, wykonaj poniższe kroki. Zapełnienie tabel CCD danymi oznacza, że konfiguracja replikacji została sprawdzona. Aby wyświetlić zreplikowane dane w docelowych tabelach CCD, użyj graficznego interfejsu użytkownika Centrum sterowania DB2.

Krok 1) Upewnij się, że DB2 jest uruchomiony, jeśli nie, użyj uruchomienie db2 dowództwo.

Krok 2) Następnie użyj polecenia asncap z wiersza poleceń systemu operacyjnego, aby uruchomić program przechwytujący. Na przykład.

asncap capture_server=SALES

Powyższe polecenie określa bazę danych SALES jako serwer przechwytywania. Pozostaw okno poleceń otwarte podczas działania przechwytywania.

Krok 3) Teraz otwórz nowy wiersz poleceń. Następnie rozpocznij ZASTOSOWANIA programu za pomocą polecenia asnaply.

asnapply control_server=STAGEDB apply_qual=AQ00

Komenda określa bazę danych STAGEDB jako serwer sterujący wprowadzania (baza danych zawierająca tabele sterujące programu wprowadzającego zmiany).
AQ00 jako kwalifikator Apply (identyfikator tego zestawu tabel sterujących)

Pozostaw okno poleceń otwarte, a program Apply jest uruchomiony.

Krok 4) Otwórz teraz kolejny wiersz komend i wydaj komendę db2cc, aby uruchomić Centrum sterowania DB2. Zaakceptuj domyślne Centrum sterowania.

Krok 5) Teraz w lewym drzewie nawigacyjnym otwórz Wszystkie bazy danych> STAGEDB, a następnie kliknij Tabele. Double kliknij nazwę tabeli (Produkt CCD), aby otworzyć tabelę. Będzie to wyglądać mniej więcej tak.

Podobnie można otworzyć tabelę CCD dla INWENTARZA.

Jak tworzyć projekty w narzędziu Datastage

Na początek utworzysz projekt w DataStage. Aby to zrobić, musisz być administratorem InfoSphere DataStage.

Po zakończeniu instalacji i replikacji należy utworzyć projekt. W DataStage projekty są metodą organizowania danych. Obejmuje definiowanie plików danych, etapów i zadań budowania w konkretnym projekcie.

Aby utworzyć projekt w DataStage, wykonaj poniższe kroki:

Krok 1) Uruchom oprogramowanie DataStage

Uruchom administratora DataStage i QualityStage. Następnie kliknij Start > Wszystkie programy > IBM Serwer informacyjny > IBM Administrator WebSphere DataStage i QualityStage.

Krok 2) Połącz serwer i klienta DataStage

Aby połączyć się z serwerem DataStage za pośrednictwem klienta DataStage, wprowadź dane, takie jak nazwa domeny, identyfikator użytkownika, hasło i informacje o serwerze.

Krok 3) Dodaj nowy projekt

W oknie Administracja WebSphere DataStage. Kliknij kartę Projekty, a następnie kliknij przycisk Dodaj.

Krok 4) Wprowadź szczegóły projektu

W oknie Administracja WebSphere DataStage wprowadź szczegóły, takie jak:

Imię i nazwisko
Lokalizacja pliku
Kliknij OK'

Każdy projekt zawiera:

Zadania DataStage
Wbudowane komponenty. Są to predefiniowane komponenty używane w zadaniu.
Komponenty zdefiniowane przez użytkownika. Są to niestandardowe komponenty utworzone przy użyciu DataStage Manager lub DataStage Designer.

Zobaczymy jak zaimportować zadania replikacji w Datastage Infosferze.

Jak importować zadania replikacji w Datastage i QualityStage Designer

Zaimportujesz zadania w formacie IBM Klient InfoSphere DataStage i QualityStage Designer. I wykonujesz je w IBM Klient InfoSphere DataStage i QualityStage Director.

Projektant-klient jest jak puste płótno do budowania zadań. Wydobywa, przekształca, ładuje i sprawdza jakość danych. Dostarcza narzędzi, które stanowią podstawowe elementy składowe zadania. Obejmuje

Praktyki: Łączy się ze źródłami danych w celu odczytu lub zapisu plików oraz przetwarzania danych.
Linki: łączy etapy przepływu danych

Etapy w kliencie InfoSphere DataStage i QualityStage Designer są przechowywane na palecie narzędzi Designer.

Rozwiązanie InfoSphere QualityStage obejmuje następujące etapy:

Zbadaj etap
Standaryzacja etapu
Dopasuj etap częstotliwości
Etap dopasowania z jednego źródła
Etap dopasowania z dwóch źródeł
Przetrwaj etap
Etap oceny jakości standaryzacji (SQA).

W infosferze DataStage możesz utworzyć 4 typy zadań.

Praca równoległa
Zadanie sekwencyjne
Zadanie na komputerze głównym
Zadanie serwera

Zobaczmy krok po kroku, jak importować pliki zadań replikacji.

Krok 1) Uruchom projektanta DataStage i QualityStage. Kliknij Start > Wszystkie programy > IBM Serwer informacyjny > IBM Projektant WebSphere DataStage i QualityStage

Krok 2) W oknie Dołącz do projektu wprowadź następujące szczegóły.

Domena
Nazwa Użytkownika
Hasło
Nazwa projektu
OK

Krok 3) Teraz z menu Plik kliknij importuj -> Komponenty DataStage.

Otworzy się nowe okno Import repozytorium DataStage.

W tym oknie przeglądaj STAGEDB_AQ00_ST00_sJobs.dsx plik, który utworzyliśmy wcześniej
Wybierz opcję „Importuj wszystko”.
Zaznacz pole wyboru „Wykonaj analizę wpływu”.
Kliknij OK.'

Po zaimportowaniu zadania DataStage utworzy zadanie STAGEDB_AQ00_ST00_sequence.

Krok 4) Wykonaj te same kroki, aby zaimportować plik Plik STAGEDB_AQ00_ST00_pJobs.dsx. Ten import tworzy cztery równoległe zadania.

Krok 5) W panelu Repozytorium projektanta -> Otwórz folder SQLREP. Wewnątrz folderu zobaczysz zadanie sekwencyjne i cztery zadania równoległe.

Krok 6) Aby zobaczyć zadanie sekwencji. Przejdź do drzewa repozytorium, kliknij prawym przyciskiem myszy zadanie STAGEDB_AQ00_ST00_sequence i kliknij Edytuj. Wyświetli przepływ pracy czterech równoległych zadań kontrolowanych przez sekwencję zadań.

Każda ikona jest sceną,

etap getExtractRange: Aktualizuje IBMTabela SNAP_FEEDETL. Ustawi punkt początkowy ekstrakcji danych na punkt, w którym DataStage ostatnio wyodrębnił wiersze, a punkt końcowy na ostatnią przetworzoną transakcję dla zestawu subskrypcji.
getExtractRangeSuccess: Ten etap dostarcza punkty początkowe do etapów ekstraktuFromINVENTORY_CCD i etapu ekstraktuFromPRODUCT_CCD
Wszystkie ekstraktySukces: Ten etap zapewnia, że zarówno extractFromINVENTORY_CCD, jak i extractFromPRODUCT_CCD zostały pomyślnie ukończone. Następnie przekazuje punkty synchronizacji dla ostatnich wierszy, które zostały pobrane do etapu setRangeProcessed.
etap setRangeProcessed: Aktualizuje się IBMTabela SNAP_FEEDETL. Dzięki temu DataStage wie, od czego rozpocząć kolejną rundę ekstrakcji danych

Krok 7) Aby zobaczyć zadania równoległe. Kliknij prawym przyciskiem myszy STAGEDB_ASN_INVENTORY_CCD i wybierz opcję edycji w repozytorium. Otworzy się okno, jak pokazano poniżej.

Na powyższym obrazku widać, że dane z tabeli Inventory CCD i SyncSzczegóły punktu h z tabeli FEEDETL są renderowane do etapu Lookup_6.

Tworzenie połączenia danych z DataStage do bazy danych STAGEDB

Następnym krokiem jest utworzenie połączenia danych pomiędzy produktem InfoSphere DataStage a docelową bazą danych SQL Replication. Zawiera tabele CCD.

W DataStage obiekty połączenia danych z powiązanymi etapami łącznika umożliwiają szybkie definiowanie połączenia ze źródłem danych w projekcie zadania.

Krok 1) STAGEDB zawiera zarówno tabele sterujące Apply, których DataStage używa do synchronizowania ekstrakcji danych, jak i tabele CCD, z których dane są ekstrahowane. Użyj następujących poleceń

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Note: Adres IP systemu, w którym utworzono STAGEDB

Krok 2) Kliknij opcję Plik > Nowy > Inne > Połączenie danych.

Krok 3) Pojawi się okno z dwiema zakładkami: Parametry i Ogólne.

Krok 4) W tym etapie,

Ogólnie rzecz biorąc, zakładka nazwij połączenie danych sqlreplConnect
Na karcie Parametry, jak pokazano poniżej

Kliknij przycisk przeglądania obok pola „Połącz przy użyciu typu etapu” i w
Otwórz okno i przejdź po drzewie repozytorium do Typy etapów –> Równoległy– > Baza danych —-> Złącze DB2.
Kliknij Otwórz.

Krok 5) W tabeli Parametry połączenia wprowadź szczegóły takie jak:

Ciąg połączenia: STAGEDB2
Nazwa użytkownika: Identyfikator użytkownika umożliwiający połączenie z bazą danych STAGEDB
Hasło: Hasło umożliwiające połączenie z bazą danych STAGEDB
Instancja: Nazwa instancji DB2 zawierającej bazę danych STAGEDB

Krok 6) W następnym oknie zapisz połączenie danych. Kliknij przycisk „zapisz”.

Import definicji tabel z STAGEDB do DataStage

W poprzednim kroku widzieliśmy, że InfoSphere DataStage i baza danych STAGEDB są połączone. Teraz zaimportuj definicję kolumny i inne metadane dla tabel PRODUCT_CCD i INVENTORY_CCD do repozytorium Information Server.

W oknie projektanta wykonaj poniższe kroki.

Krok 1) Wybierz opcję Importuj > Definicje tabel > Uruchom kreatora importu złącza

Krok 2) Na stronie wyboru konektora w kreatorze wybierz konektor DB2 i kliknij Dalej.

Krok 3) Kliknij opcję ładowania na stronie szczegółów połączenia. Spowoduje to wypełnienie pól kreatora informacjami o połączeniu danych utworzonym w poprzednim rozdziale.

Krok 4) Kliknij opcję Testuj połączenie na tej samej stronie. Spowoduje to, że DataStage podejmie próbę połączenia z bazą danych STAGEDB. Możesz zobaczyć komunikat „połączenie powiodło się”. Kliknij Następny.

Krok 5) Upewnij się, że na stronie Lokalizacja źródła danych pola Nazwa hosta i Nazwa bazy danych są poprawnie wypełnione. Następnie kliknij Dalej.

Krok 6) Na stronie Schemat. Wprowadź schemat tabel sterujących stosowania (ASN) lub sprawdź, czy schemat ASN jest wstępnie wypełniony w polu schematu. Następnie kliknij Dalej. Strona wyboru wyświetli listę tabel zdefiniowanych w schemacie ASN.

Krok 7) Pierwszą tabelą, z której musimy zaimportować metadane, jest IBMSNAP_FEEDETL, tabela kontrolna Apply. Zawiera ona szczegółowe informacje o punktach synchronizacji, które umożliwiają DataStage śledzenie wierszy pobranych z tabel CCD. Wybierz IBMSNAP_FEEDETL i kliknij Dalej.

Krok 8) Aby zakończyć import pliku IBMDefinicja tabeli SNAP_FEEDETL. Kliknij import, a następnie w otwartym oknie kliknij otwórz.

Krok 9) Powtórz kroki 1-8 jeszcze dwa razy, aby zaimportować definicje tabeli PRODUCT_CCD, a następnie tabeli INVENTORY_CCD.

UWAGA: Importując definicje zapasów i produktów pamiętaj o zmianie schematów z ASN na schemat, w ramach którego utworzono PRODUCT_CCD i INVENTORY_CCD.

Teraz DataStage ma wszystkie szczegóły potrzebne do połączenia się z docelową bazą danych replikacji SQL.

Ustawianie właściwości zadań DataStage

Dla każdego z czterech równoległych zadań DataStage, które mamy, zawiera ono jeden lub więcej etapów, które łączą się z bazą danych STAGEDB. Należy zmodyfikować etapy, aby dodać informacje o połączeniu i łącze do plików zestawu danych wypełnianych przez DataStage.

Etapy mają predefiniowane właściwości, które można edytować. Tutaj zmienimy niektóre z tych właściwości dla zadania równoległego STAGEDB_ASN_PRODUCT_CCD_extract.

Krok 1) Przeglądaj drzewo repozytorium projektanta. W folderze SQLREP wybierz zadanie równoległe STAGEDB_ASN_PRODUCT_CCD_extract. Aby edytować, kliknij zadanie prawym przyciskiem myszy. Okno projektu zadania równoległego zostanie otwarte w palecie projektanta.

Krok 2) Znajdź zieloną ikonę. Ta ikona oznacza etap złącza DB2. Służy do wyodrębniania danych z tabeli CCD. Double-kliknij ikonę. Otworzy się okno edytora scen.

Krok 3) W edytorze kliknij opcję Załaduj, aby wypełnić pola informacjami o połączeniu. Aby zamknąć edytor scen i zapisać zmiany, kliknij OK.

Krok 4) Teraz wróć do okna projektowania dla zadania równoległego STAGEDB_ASN_PRODUCT_CCD_extract. Znajdź ikonę pobieraniaSyncEtap złącza hPoints DB2. Następnie kliknij dwukrotnie ikonę.

Krok 5) Teraz kliknij przycisk ładowania, aby wypełnić pola informacjami o połączeniu.

UWAGA: Jeśli używasz bazy danych innej niż STAGEDB jako serwera sterującego wprowadzania. Następnie wybierz opcję załadowania informacji o połączeniu dla pliku getSyncEtap hPoints, który współdziała z tabelami kontrolnymi, a nie z tabelą CCD.

Krok 6) W tym etapie,

Utwórz pusty plik tekstowy w systemie, w którym działa InfoSphere DataStage.
Nazwij ten plik jako dataset.ds i zanotuj, gdzie go zapisałeś.
DataStage zapisze zmiany w tym pliku po pobraniu zmian z tabeli CCD.
Zestawy danych lub pliki używane do przenoszenia danych pomiędzy połączonymi zadaniami nazywane są trwałymi zbiorami danych. Jest reprezentowany przez etap DataSet.

Krok 7) Teraz otwórz edytor etapu w oknie projektu i kliknij dwukrotnie ikonę insert_into_a_dataset. Otworzy się kolejne okno.

Krok 8) W tym oknie

Na karcie właściwości upewnij się, że Target folder jest otwarty i podświetlona jest właściwość File = DATASETNAME.
Po prawej stronie będziesz mieć pole pliku
Wprowadź pełną ścieżkę do pliku dataset.ds
Kliknij OK'.

Zaktualizowałeś wszystkie niezbędne właściwości tabeli CCD produktu. Zamknij okno projektu i zapisz wszystkie zmiany.

Krok 9) Teraz zlokalizuj i otwórz zadanie równoległe STAGEDB_ASN_INVENTORY_CCD_extract z panelu repozytorium projektanta i powtórz kroki 3-8.

UWAGA:

Należy załadować informacje o połączeniu dla bazy danych serwera sterującego do edytora scenicznego dla pliku getSyncEtap hPoints. Jeśli Twój serwer sterujący nie jest STAGEDB.
W przypadku zadań równoległych STAGEDB_ST00_AQ00_getExtractRange i STAGEDB_ST00_AQ00_markRangeProcessed otwórz wszystkie etapy konektora DB2. Następnie użyj funkcji ładowania, aby dodać informacje o połączeniu do bazy danych STAGEDB

Kompilowanie i uruchamianie zadań DataStage

Gdy zadanie DataStage jest gotowe do skompilowania, Projektant weryfikuje projekt zadania, analizując dane wejściowe, transformacje, wyrażenia i inne szczegóły.

Po pomyślnym zakończeniu kompilacji zadanie jest gotowe do uruchomienia. Skompilujemy wszystkie pięć zadań, ale uruchomimy tylko „sekwencję zadań”. Dzieje się tak, ponieważ to zadanie kontroluje wszystkie cztery zadania równoległe.

Krok 1) W folderze SQLREP. Wybierz każde z pięciu zadań za pomocą (Cntrl+Shift). Następnie kliknij prawym przyciskiem myszy i wybierz opcję kompilacji wielu zadań.

Krok 2) W Kreatorze kompilacji DataStage zostanie wybranych pięć zadań. Kliknij Następny.

Krok 3) Rozpocznie się kompilacja, a po zakończeniu zostanie wyświetlony komunikat „Skompilowano pomyślnie”.

Krok 4) Teraz uruchom DataStage i QualityStage Director. Wybierz Start > Wszystkie programy > IBM Serwer informacyjny > IBM Dyrektor WebSphere DataStage i QualityStage.

Krok 5) W panelu nawigacji projektu po lewej stronie. Kliknij folder SQLREP. Spowoduje to umieszczenie wszystkich pięciu stanowisk w tabeli statusu dyrektora.

Krok 6) Wybierz zadanie STAGEDB_AQ00_S00_sequence. Na pasku menu kliknij opcję Zadanie > Uruchom teraz.

Po zakończeniu kompilacji zobaczysz status zakończenia.

Teraz sprawdź, czy zmienione wiersze przechowywane w tabelach PRODUCT_CCD i INVENTORY_CCD zostały wyodrębnione przez DataStage i wstawione do dwóch plików zestawów danych.

Krok 7) Wróć do Projektanta i otwórz zadanie STAGEDB_ASN_PRODUCT_CCD_extract. Aby otworzyć edytor scen Double-kliknij ikonę wstaw_do_zestawu_danych. Następnie kliknij wyświetl dane.

Krok 8) Zaakceptuj ustawienia domyślne w oknie wierszy do wyświetlenia. Następnie kliknij OK. Otworzy się okno przeglądarki danych, aby wyświetlić zawartość pliku zestawu danych.

Testowanie integracji pomiędzy replikacją SQL i DataStage

W poprzednim kroku skompilowaliśmy i wykonaliśmy zadanie. W tej sekcji sprawdzimy integrację replikacji SQL i DataStage. W tym celu wprowadzimy zmiany w tabeli źródłowej i sprawdzimy, czy ta sama zmiana zostanie zaktualizowana w DataStage.

Krok 1) Przejdź do folderu sqlrepl-datastage-scripts w swoim systemie operacyjnym.

Krok 2) Aby uruchomić replikację SQL, wykonaj następujące czynności:

Uruchom startSQLCapture.bat (Windows) w celu uruchomienia programu Capture w bazie danych SALES.
Uruchom plik startSQLApply.bat (Windows), aby uruchomić program Apply w bazie danych STAGEDB.

Krok 3) Teraz otwórz plik updateSourceTables.sql. Aby połączyć się z bazą SALES należy wymienić I z identyfikatorem użytkownika i hasłem.

Krok 4) Otwórz okno komend DB2. Zmień katalog na sqlrepl-datastage-tutorial\scripts i uruchom wydanie za pomocą podanego polecenia:

db2 -tvf updateSourceTables.sql

Skrypt SQL wykona różne operacje, takie jak Aktualizacja, Wstawianie i Usuwanie w obu tabelach (PRODUCT, INVENTORY) w bazie danych Sprzedaż.

Krok 5) W systemie, w którym działa DataStage. Otwórz DataStage Director i wykonaj zadanie STAGEDB_AQ00_S00_sequence. Kliknij opcję Zadanie > Uruchom teraz.

Po uruchomieniu zadania zostaną wykonane następujące czynności.

Program Capture odczytuje sześciowierszowe zmiany w logu bazy danych SALES i wstawia je do tabel CD.
Program Apply pobiera wiersze zmian z tabel CD w SALES i wstawia je do tabel CCD w STAGEDB.
Dwa zadania wyodrębniania DataStage pobierają zmiany z tabel CCD i zapisują je w plikach dataset.ds i Inventory Dataset.ds.

Możesz sprawdzić, czy powyższe kroki miały miejsce, przeglądając zbiory danych.

Krok 6) Wykonaj poniższe kroki,

Uruchom projektanta. Otwórz zadanie STAGEDB_ASN_PRODUCT_CCD_extract.
Następnie Double-kliknij ikonę wstaw_do_zestawu_danych. W edytorze scenicznym. Kliknij opcję Wyświetl dane.
Zaakceptuj ustawienia domyślne w wierszach, które mają zostać wyświetlone w oknie i kliknij przycisk OK.

Zestaw danych zawiera trzy nowe wiersze. Najprostszym sposobem sprawdzenia, czy zmiany zostały wprowadzone, jest przewinięcie w dół przeglądarki danych. Teraz spójrz na trzy ostatnie rzędy (patrz obrazek poniżej)

Litery I, U i D określają operacje INSERT, UPDATE i DELETE powodujące utworzenie każdego nowego wiersza.

Możesz wykonać to samo sprawdzenie dla tabeli Zapasy.

Podsumowanie

Datastage jest Narzędzie ETL który wyodrębnia dane, przekształca i ładuje dane ze źródła do celu.
Ułatwia analiza biznesowa dostarczając wysokiej jakości dane, które pomogą w uzyskaniu inteligencji biznesowej.
DataStage jest podzielony na dwie sekcje, Komponenty współdzielone i środowisko wykonawcze Architektura.
DataStage składa się z czterech głównych komponentów,
Administrator
Menedżer
projektant
Dyrektor
Poniżej przedstawiono kluczowe aspekty IBM InfoSphere DataStage
Transformacja danych
Oferty pracy
Równoległe przetwarzanie
W projektowaniu pracy zaangażowane są różne etapy
Etap transformacji
Etap filtra
Etap agregatora
Usuń etap duplikatów
Dołącz do etapu
Etap wyszukiwania

Samouczek DataStage dla początkujących: IBM Szkolenie DataStage (narzędzie ETL).

Co to jest DataStage?

Przegląd DataStage

Typy etapów przetwarzania

Komponenty DataStage i Architektura

Wymaganie wstępne dla narzędzia Datastage

Pobierz i zainstaluj InfoSphere Information Server

Przepływ procesu zmiany danych w zadaniu etapu transakcji CDC

Konfigurowanie replikacji SQL

Tworzenie obiektów replikacji SQL

Tworzenie plików definicji w celu mapowania tabel CCD do DataStage

Rozpoczęcie replikacji

Jak tworzyć projekty w narzędziu Datastage

Jak importować zadania replikacji w Datastage i QualityStage Designer

Tworzenie połączenia danych z DataStage do bazy danych STAGEDB

Import definicji tabel z STAGEDB do DataStage

Ustawianie właściwości zadań DataStage

Kompilowanie i uruchamianie zadań DataStage

Testowanie integracji pomiędzy replikacją SQL i DataStage

Podsumowanie

Podsumuj ten post następująco:

Zapisz się do newslettera

Co to jest DataStage?

Przegląd DataStage

Typy etapów przetwarzania

POWIĄZANE ARTYKUŁY

Komponenty DataStage i Architektura

Wymaganie wstępne dla narzędzia Datastage

Pobierz i zainstaluj InfoSphere Information Server

Przepływ procesu zmiany danych w zadaniu etapu transakcji CDC

Konfigurowanie replikacji SQL

Tworzenie obiektów replikacji SQL

Tworzenie plików definicji w celu mapowania tabel CCD do DataStage

Rozpoczęcie replikacji

Jak tworzyć projekty w narzędziu Datastage

Jak importować zadania replikacji w Datastage i QualityStage Designer

Tworzenie połączenia danych z DataStage do bazy danych STAGEDB

Import definicji tabel z STAGEDB do DataStage

Ustawianie właściwości zadań DataStage

Kompilowanie i uruchamianie zadań DataStage

Testowanie integracji pomiędzy replikacją SQL i DataStage

Podsumowanie

Podsumuj ten post następująco:

Zapisz się do newslettera