Výukový program DataStage pro začátečníky: IBM Školení DataStage (ETL Tool).

Co je DataStage?

DataStage je nástroj ETL používaný k extrahování, transformaci a načítání dat ze zdroje do cílového místa určení. Zdrojem těchto dat mohou být sekvenční soubory, indexované soubory, relační databáze, externí zdroje dat, archivy, podnikové aplikace atd. DataStage se používá k usnadnění obchodní analýzy tím, že poskytuje kvalitní data, která pomáhá při získávání obchodních informací.

Nástroj DataStage ETL se používá ve velké organizaci jako rozhraní mezi různými systémy. Stará se o extrakci, překlad a načítání dat ze zdroje do cílové destinace. Poprvé byl spuštěn společností VMark v polovině 90. let. S IBM po akvizici DataStage v roce 2005 byla přejmenována na IBM WebSphere DataStage a novější IBM InfoSphere.

Různé verze Datastage dostupné na trhu byly Enterprise Edition (PX), Server Edition, MVS Edition, DataStage pro PeopleSoft a tak dále. Nejnovější vydání je IBM InfoSphere DataStage

IBM Informační server obsahuje následující produkty,

IBM InfoSphere DataStage
IBM InfoSphere QualityStage
IBM Ředitel informačních služeb InfoSphere
IBM InfoSphere Information Analyzer
IBM Informační server FastTrack
IBM Obchodní glosář InfoSphere

Přehled DataStage

Datastage má následující schopnosti.

Dokáže integrovat data z nejširšího spektra podnikových a externích datových zdrojů
Implementuje pravidla ověřování dat
Je užitečný při zpracování a transformaci velkého množství dat
Využívá škálovatelný přístup paralelního zpracování
Dokáže zvládnout složité transformace a řídit více integračních procesů
Využijte přímé připojení k podnikovým aplikacím jako zdrojům nebo cílům
Využijte metadata pro analýzu a údržbu
Operatestů v dávce, v reálném čase nebo jako webová služba

V následujících částech tohoto kurzu DataStage stručně popíšeme následující aspekty IBM InfoSphere DataStage:

Transformace dat
Zaměstnání
Paralelní zpracování

InfoSphere DataStage a QualityStage mohou přistupovat k datům v podnikových aplikacích a zdrojích dat, jako jsou:

Relační databáze
Sálové databáze
Obchodní a analytické aplikace
Plánování podnikových zdrojů (ERP) nebo databáze řízení vztahů se zákazníky (CRM).
Online analytické zpracování (OLAP) nebo databáze řízení výkonu

Typy fází zpracování

IBM práce infosféry se skládá z jednotlivých etap, které na sebe navazují. Popisuje tok dat ze zdroje dat do datového cíle. Obvykle má stupeň minimálně jeden datový vstup a/nebo jeden datový výstup. Některé fáze však mohou přijímat více než jeden vstup a výstup dat do více než jedné fáze.

V návrhu práce můžete použít různé fáze:

Fáze transformace
Filtrační stupeň
Fáze agregátoru
Odstranit duplikáty fáze
Připojte se k pódiu
Fáze vyhledávání
Kopírovat fázi
Fáze řazení
Kontejnery

Komponenty DataStage a Architecture

DataStage má čtyři hlavní komponenty, a to

Správce: Používá se pro administrativní úkoly. To zahrnuje nastavení uživatelů DataStage, nastavení kritérií čištění a vytváření a přesun projektů.
Manažer: Je to hlavní rozhraní úložiště ETL DataStage. Používá se pro ukládání a správu opakovaně použitelných metadat. Prostřednictvím správce DataStage lze prohlížet a upravovat obsah úložiště.
Designer: Návrhové rozhraní používané k vytváření aplikací NEBO úloh DataStage. Specifikuje zdroj dat, požadovanou transformaci a cíl dat. Úlohy jsou kompilovány tak, aby vytvořily spustitelný soubor, který naplánuje ředitel a spouští server
Ředitel školy: Používá se k ověřování, plánování, spouštění a monitorování úloh serveru DataStage a paralelních úloh.

Výše uvedený obrázek vysvětluje jak IBM Infosphere DataStage spolupracuje s dalšími prvky IBM Platforma informačního serveru. DataStage je rozdělena na dvě části, Sdílené součásti a runtime Architecture.

		Novinky
Společná	Jednotné uživatelské rozhraní	K vytváření aplikací InfoSphere DataStage (známých jako úlohy) se používá grafické rozhraní pro návrh. Každá úloha určuje zdroje dat, požadované transformace a cíl dat. Úlohy jsou kompilovány tak, aby vytvářely paralelní toky úloh a opakovaně použitelné komponenty. Naplánuje je a spouští ředitel InfoSphere DataStage a QualityStage. Klient Designer spravuje metadata v úložišti. Zatímco zkompilovaná data jsou nasazena na vrstvě Information Server Engine.
	Společné služby	Metadatové služby, jako je analýza dopadu a vyhledávání Návrhové služby, které podporují vývoj a údržbu úloh InfoSphere DataStage Prováděcí služby, které podporují všechny funkce InfoSphere DataStage
	Společné paralelní zpracování	Motor spouští spustitelné úlohy, které extrahují, transformují a načítají data v široké škále nastavení. Vybraný přístup k paralelnímu zpracování a zřetězení pro zvládnutí velkého objemu práce.
Runtime Architecture	skript BOZP	Toto popisuje generování OSH (orchestrovat skript Shell) a tok provádění IBM a tok IBM Infosphere DataStage využívající engine Information Server Umožňuje vám používat grafické techniky point-and-click k vývoji pracovních postupů pro extrakci, čištění, transformaci, integraci a načítání dat do cílových souborů.

Předpoklad pro nástroj Datastage Tool

Pro DataStage budete potřebovat následující nastavení.

Infosféra
DataStage Server 9.1.2 nebo vyšší
Microsoft Visual Studio .NET 2010 Express Edition C++
Oracle klient (úplný klient, ne okamžitý klient), pokud se připojujete k Oracle databáze
Klient DB2 při připojování k databázi DB2

Nyní v této sérii DataStage tutoriálů pro začátečníky se naučíme, jak stáhnout a nainstalovat informační server InfoSphere.

Stažení a instalace InfoSphere Information Server

Pro přístup k DataStage si stáhněte a nainstalujte nejnovější verzi IBM InfoSphere Server. Server podporuje AIX, Linux a Windows operační systém. Můžete si vybrat podle požadavku.

K migraci dat ze starší verze infosphere do nové verze použijte nástroj pro výměnu aktiv.

Instalační soubory

Pro instalaci a konfiguraci Infosphere Datastage musíte mít v nastavení následující soubory.

Pro Windows,

EtlDeploymentPackage-windows-oracle.pkg
EtlDeploymentPackage-windows-db2.pkg

pro Linux,

EtlDeploymentPackage-linux-db2.pkg
EtlDeploymentPackage-linux-oracle.pkg

Zpracujte tok změnových dat ve fázi transakce CDC

Služba 'InfoSphere CDC' pro databázi monitoruje a zachycuje změny ze zdrojové databáze
Podle definice replikace „InfoSphere CDC“ přenese data změn do „InfoSphere CDC for InfoSphere DataStage“.
Server “InfoSphere CDC for InfoSphere DataStage” odesílá data do “CDC Transaction stage” prostřednictvím relace TCP/IP. Server „InfoSphere CDC for InfoSphere DataStage“ také odešle zprávu COMMIT (spolu s informacemi o záložce), aby označil hranici transakce v zaznamenaném protokolu.
Pro každou zprávu COMMIT odeslanou serverem “InfoSphere CDC for InfoSphere DataStage” vytvoří “CDC Transaction stage” značky konce vlny (EOW). Tyto značky jsou odesílány na všechna výstupní spojení do fáze konektoru cílové databáze.
Když „fáze konektoru cílové databáze“ přijme značku konce vlny na všech vstupních odkazech, zapíše informace o záložce do tabulky záložek a poté potvrdí transakci do cílové databáze.
Server „InfoSphere CDC for InfoSphere DataStage“ požaduje informace o záložkách z tabulky záložek v „cílové databázi“.
Server „InfoSphere CDC for InfoSphere DataStage“ obdrží informace o záložce.

Tyto informace slouží k tomu,

Určete počáteční bod v protokolu transakcí, kde se načítají změny při zahájení replikace.
Chcete-li zjistit, zda lze vyčistit existující protokol transakcí

Nastavení replikace SQL

Než začnete s Datastage, musíte nastavit databázi. Vytvoříte dvě databáze DB2.

Jeden slouží jako zdroj replikace a
Jeden jako cíl.

Vytvoříte také dvě tabulky (Produkt a Zásoby) a naplníte je ukázkovými daty. Poté můžete otestovat svou integraci mezi SQL Replikace a datová fáze.

Dopředu nastavíte replikaci SQL vytvořením řídicí tabulky, sady odběrů, registrace a členy sady odběrů. Podrobněji se o tom dozvíme v další části.

Zde si vezmeme příklad položky Maloobchodní prodej jako naši databázi a vytvoříme dvě tabulky Zásoby a Produkt. Tyto tabulky načtou data ze zdroje do cíle prostřednictvím těchto sad. (řídicí tabulky, sady odběrů, registrace a členové sady odběrů.)

Krok 1) Vytvořte zdrojovou databázi označovanou jako PRODEJ. V této databázi vytvořte dvě tabulky produkt si Inventář.

Krok 2) Spuštěním následujícího příkazu vytvořte databázi SALES.

db2 create database SALES

Krok 3) Zapněte archivní protokolování pro databázi SALES. Také zálohujte databázi pomocí následujících příkazů

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Krok 4) Ve stejném příkazovém řádku přejděte do podadresáře setupDB v adresáři sqlrepl-datastage-tutorial, který jste extrahovali ze staženého komprimovaného souboru.

Krok 5) Pomocí následujícího příkazu vytvořte tabulku inventáře a importujte data do tabulky spuštěním následujícího příkazu.

db2 import z inventáře.ixf z ixf create do inventáře

Krok 6) Vytvořte cílovou tabulku. Cílovou databázi pojmenujte jako STAGEDB.

Protože jste nyní vytvořili zdroj i cíl databází, dalším krokem v tomto tutoriálu DataStage se podíváme na to, jak je replikovat.

Následující informace vám mohou pomoci nastavení zdroje dat ODBC.

Vytváření objektů replikace SQL

Obrázek níže ukazuje, jak se tok změnových dat doručuje ze zdrojové do cílové databáze. Vytvoříte mapování zdroje na cíl mezi tabulkami známými jako členové sady odběrů a seskupte členy do a předplatné.

Jednotka replikace v rámci InfoSphere CDC (Change Data Capture) se nazývá předplatné.

Změny provedené ve zdroji jsou zachyceny v „Capture control table“, která je odeslána do tabulky CD a poté do cílové tabulky. Zatímco aplikační program bude mít podrobnosti o řádku, odkud je třeba provést změny. Také se připojí k tabulce CD v sadě předplatného.
Předplatné obsahuje podrobnosti mapování, které určují, jak jsou data ve zdrojovém datovém úložišti aplikována na cílové datové úložiště. Všimněte si, že CDC se nyní označuje jako Replikace dat Infosphere.
Po provedení předplatného zachytí InfoSphere CDC změny ve zdrojové databázi. InfoSphere CDC doručí data změn do cíle a uloží informace o synchronizačních bodech v tabulce záložek v cílové databázi.
InfoSphere CDC používá informace o záložce ke sledování průběhu úlohy InfoSphere DataStage.
V případě selhání se informace o záložce použijí jako bod restartu. V našem příkladu ASN.IBMTabulka SNAP_FEEDETL ukládá informace o synchronizačních bodech souvisejících s DataStage, které se používají ke sledování průběhu DataStage.

V této části IBM Výukový program DataStage, musíte udělat následující věci,

Vytvářejte tabulky CAPTURE CONTROL a APPLY CONTROL tabulky pro ukládání možností replikace
Zaregistrujte tabulky PRODUCT a INVENTORY jako zdroje replikace
Vytvořte sadu odběrů se dvěma členy
Vytvořte členy sady odběrů a cílové tabulky CCD

K nastavení replikace SQL použijte program příkazového řádku ASNCLP

Krok 1) Vyhledejte soubor skriptu crtCtlTablesCaptureServer.asnclp v adresáři sqlrepl-datastage-tutorial/setupSQLRep.

Krok 2) V souboru nahradit a " ” s vaším uživatelským jménem a heslem pro připojení k databázi SALES.

Krok 3) Změňte adresáře na adresář sqlrepl-datastage-tutorial/setupSQLRep a spusťte skript. Použijte následující příkaz. Příkaz se připojí k databázi SALES, vygeneruje SQL skript pro vytvoření řídicích tabulek Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Krok 4) Ve stejném adresáři vyhledejte soubor skriptu crtCtlTablesApplyCtlServer.asnclp. Nyní nahraďte dvě instance a " ” s uživatelským ID a heslem pro připojení k databázi STAGEDB.

Krok 5) Nyní ve stejném příkazovém řádku použijte následující příkaz k vytvoření řídicích tabulek použití.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Krok 6) Vyhledejte soubory skriptu crtRegistration.asnclp a nahraďte všechny instance s ID uživatele pro připojení k databázi SALES. Také změňte „ ” k heslu připojení.

Krok 7) Pro registraci zdrojových tabulek použijte následující skript. V rámci vytvoření registrace program ASNCLP vytvoří dvě CD tabulky. CDPRODUKT A CDINVENTORY.

asnclp –f crtRegistration.asnclp

Příkaz CREATE REGISTRATION používá následující možnosti:

Obnovení diferenciálu: Vyzve program Apply k aktualizaci cílové tabulky pouze tehdy, když se změní řádky ve zdrojové tabulce
Obraz obojí: Tato možnost se používá k registraci hodnoty ve zdrojovém sloupci před změnou a jedna pro hodnotu po změně.

Krok 8) Pro připojení k cílové databázi (STAGEDB) použijte následující kroky.

Najděte soubor crtTableSpaceApply.bat, otevřete jej v textovém editoru
Nahradit a s ID uživatele a heslem
V příkazovém okně DB2 zadejte crtTableSpaceApply.bat a spusťte soubor.
Tento dávkový soubor vytvoří nový tabulkový prostor v cílové databázi (STAGEDB)

Krok 9) Vyhledejte soubory skriptu crtSubscriptionSetAndAddMembers.asnclp a proveďte následující změny.

Nahradit všechny výskyty a s ID uživatele a heslem pro připojení k databázi SALES (zdroj).
Nahradit všechny výskyty a s ID uživatele pro připojení k databázi STAGEDB (cíl).

Po změnách spusťte skript pro vytvoření sady odběrů (ST00), která seskupuje zdrojové a cílové tabulky. Skript také vytvoří dva členy sady odběrů a CCD (data konzistentních změn) v cílové databázi, která bude ukládat upravená data. Tato data bude spotřebovávat Infosphere DataStage.

Krok 10) Spuštěním skriptu vytvořte sadu odběrů, členy sady odběrů a tabulky CCD.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Různé možnosti používané pro vytvoření sady odběrů a dvou členů zahrnují

Dokončeno při kondenzaci vypnuto
Externí
Typ zatížení import export
Časování plynulé

Krok 11) Kvůli závadě v nástrojích pro správu replikace. Chcete-li nastavit sloupec TARGET_CAPTURE_SCHEMA v souboru, musíte spustit jiný dávkový soubor IBMŘídicí tabulka SNAP_SUBS_SET na hodnotu null.

Vyhledejte soubor updateTgtCapSchema.bat. Otevřete jej v textovém editoru. Nahradit a s ID uživatele pro připojení k databázi STAGEDB.
V příkazovém okně DB2 zadejte příkaz updateTgtCapSchema.bat a spusťte soubor.

Vytvoření definičních souborů pro mapování CCD tabulek na DataStage

Než provedeme replikaci v dalším kroku, musíme propojit CCD tabulku s DataStage. V této části uvidíme, jak propojit SQL s DataStage.

Chcete-li propojit CCD tabulku s DataStage, musíte vytvořit definiční soubory Datastage (.dxs). Formát souboru .dsx používá DataStage k importu a exportu definic úloh. Skript ASNCLP použijete k vytvoření dvou souborů .dsx. Zde jsme například vytvořili dva soubory .dsx.

stagedb_AQ00_SET00_sJobs.dsx: Vytvoří sekvenci úloh, která řídí pracovní postup čtyř paralelních úloh.
stagedb_AQ00_SET00_pJobs.dsx : Vytvoří čtyři paralelní úlohy

Program ASNCLP automaticky mapuje CCD sloupec do formátu Datastage Column. Je podporován pouze tehdy, když běží ASNCLP Windows, Linux nebo Unix Postup.

Úlohy datastage vytahují řádky z CCD tabulky.

Jedna úloha nastaví synchronizační bod tam, kde DataStage skončil při extrahování dat ze dvou tabulek. Úloha získá tyto informace výběrem hodnoty SYNCHPOINT pro sadu odběrů ST00 z IBMSNAP_SUBS_SET tabulky a její vložení do sloupce MAX_SYNCHPOINT v IBMTabulka SNAP_FEEDETL.
Dvě úlohy, které extrahují data z tabulek PRODUCT_CCD a INVENTORY_CCD. Úlohy vědí, které řádky mají začít extrahovat, výběrem hodnot MIN_SYNCHPOINT a MAX_SYNCHPOINT z IBMTabulka SNAP_FEEDETL pro sadu odběrů.

Spuštění replikace

Chcete-li spustit replikaci, použijte níže uvedené kroky. Když jsou tabulky CCD naplněny daty, znamená to, že nastavení replikace je ověřeno. Chcete-li zobrazit replikovaná data v cílových tabulkách CCD, použijte grafické uživatelské rozhraní DB2 Control Center.

Krok 1) Ujistěte se, že DB2 běží, pokud ne, pak použijte spuštění db2 příkaz.

Krok 2) Poté pomocí příkazu asncap z výzvy operačního systému spusťte program zachycení. Například.

asncap capture_server=SALES

Výše uvedený příkaz určuje databázi SALES jako Capture server. Během zachytávání ponechejte otevřené příkazové okno.

Krok 3) Nyní otevřete nový příkazový řádek. Poté spusťte PLATÍ program pomocí příkazu asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Příkaz určuje databázi STAGEDB jako řídicí server pro použití (databáze, která obsahuje řídicí tabulky použití)
AQ00 jako kvalifikátor použití (identifikátor pro tuto sadu řídicích tabulek)

Příkazové okno nechte otevřené se spuštěnou aplikací Apply.

Krok 4) Nyní otevřete další příkazový řádek a zadáním příkazu db2cc spusťte Řídicí centrum DB2. Přijměte výchozí ovládací centrum.

Krok 5) Nyní v levém navigačním stromu otevřete Všechny databáze > STAGEDB a poté klikněte na Tabulky. Double kliknutím na název tabulky ( Product CCD ) otevřete tabulku. Bude to vypadat nějak takto.

Stejně tak můžete otevřít CCD tabulku pro INVENTURU.

Jak vytvářet projekty v Datastage Tool

Nejprve vytvoříte projekt v DataStage. K tomu musíte být správcem InfoSphere DataStage.

Po dokončení instalace a replikace je třeba vytvořit projekt. V DataStage jsou projekty metodou pro organizaci vašich dat. Zahrnuje definování datových souborů, fází a úloh sestavení v konkrétním projektu.

Chcete-li vytvořit projekt v DataStage, postupujte takto:

Krok 1) Spusťte software DataStage

Spusťte Správce DataStage a QualityStage. Poté klikněte na Start > Všechny programy > IBM Informační server > IBM Správce WebSphere DataStage a QualityStage.

Krok 2) Připojte DataStage server a klienta

Chcete-li se připojit k serveru DataStage z klienta DataStage, zadejte podrobnosti, jako je název domény, ID uživatele, heslo a informace o serveru.

Krok 3) Přidejte nový projekt

V okně WebSphere DataStage Administration. Klepněte na kartu projekty a potom klepněte na tlačítko Přidat.

Krok 4) Zadejte podrobnosti o projektu

V okně WebSphere DataStage Administration zadejte podrobnosti jako

Jméno
Umístění souboru
Klikněte na „OK“

Každý projekt obsahuje:

Úlohy DataStage
Vestavěné komponenty. Jedná se o předdefinované komponenty používané v úloze.
Uživatelsky definované komponenty. Jedná se o přizpůsobené komponenty vytvořené pomocí Správce DataStage nebo DataStage Designer.

Uvidíme, jak importovat úlohy replikace v Datastage Infosphere.

Jak importovat úlohy replikace v Datastage a QualityStage Designer

Úlohy budete importovat do IBM Klient InfoSphere DataStage a QualityStage Designer. A provedete je v IBM Klient InfoSphere DataStage a QualityStage Director.

Návrhář-klient je jako prázdné plátno pro stavební práce. Extrahuje, transformuje, načítá a kontroluje kvalitu dat. Poskytuje nástroje, které tvoří základní stavební kameny úlohy. To zahrnuje

stáže: Připojuje se ke zdrojům dat za účelem čtení nebo zápisu souborů a zpracování dat.
: Propojuje fáze, po kterých proudí vaše data

Fáze v klientech InfoSphere DataStage a QualityStage Designer jsou uloženy v paletě nástrojů Designer.

V InfoSphere QualityStage jsou zahrnuty následující fáze:

Fáze vyšetřování
Standardizovat fázi
Fáze shody frekvence
Fáze zápasu z jednoho zdroje
Fáze zápasu se dvěma zdroji
Fáze přežití
Fáze hodnocení kvality standardizace (SQA).

V DataStage infosphere můžete vytvořit 4 typy úloh.

Paralelní práce
Sekvenční práce
Práce na sálovém počítači
Úloha serveru

Podívejme se krok za krokem, jak importovat soubory úloh replikace.

Krok 1) Spusťte DataStage a QualityStage Designer. Klikněte na Start > Všechny programy > IBM Informační server > IBM WebSphere DataStage a QualityStage Designer

Krok 2) V okně Attach to Project zadejte následující podrobnosti.

Doména
Uživatelské jméno
Heslo
Název projektu
OK

Krok 3) Nyní z nabídky Soubor klikněte na import -> Komponenty DataStage.

Otevře se nové okno DataStage Repository Import.

V tomto okně procházejte STAGEDB_AQ00_ST00_sJobs.dsx soubor, který jsme vytvořili dříve
Vyberte možnost „Importovat vše“.
Zaškrtněte políčko „Provést analýzu dopadu“.
Klikněte na tlačítko OK.

Jakmile je úloha importována, DataStage vytvoří úlohu STAGEDB_AQ00_ST00_sequence.

Krok 4) Při importu postupujte podle stejných kroků Soubor STAGEDB_AQ00_ST00_pJobs.dsx. Tento import vytvoří čtyři paralelní úlohy.

Krok 5) V podokně Úložiště návrhářů -> Otevřete složku SQLREP. Uvnitř složky uvidíte Sequence Job a čtyři paralelní úlohy.

Krok 6) Chcete-li zobrazit sekvenční úlohu. Přejděte do stromu úložiště, klikněte pravým tlačítkem na úlohu STAGEDB_AQ00_ST00_sequence a klikněte na Upravit. Ukáže pracovní postup čtyř paralelních úloh, které sekvence úloh řídí.

Každá ikona je jeviště,

fáze getExtractRange: Aktualizuje IBMTabulka SNAP_FEEDETL. Nastaví počáteční bod pro extrakci dat do bodu, kde DataStage naposledy extrahoval řádky, a nastaví koncový bod na poslední transakci, která byla zpracována pro sadu odběrů.
getExtractRangeSuccess: Tato fáze přivádí počáteční body do fáze extrakt z INVENTORY_CCD a extrakt z PRODUCT_CCD
AllExtractsSuccess: Tato fáze zajišťuje, že jak extractFromINVENTORY_CCD, tak extractFromPRODUCT_CCD byly úspěšně dokončeny. Poté předá synchronizační body pro poslední řádky, které byly načteny do fáze setRangeProcessed.
fáze setRangeProcessed: Aktualizuje se IBMTabulka SNAP_FEEDETL. DataStage tedy ví, odkud má začít další kolo extrakce dat

Krok 7) Chcete-li vidět paralelní úlohy. Klikněte pravým tlačítkem na STAGEDB_ASN_INVENTORY_CCD a vyberte Upravit v repozitáři. Otevře se okno, jak je znázorněno níže.

Zde na obrázku výše můžete vidět, že data z tabulky CCD inventáře a Synch podrobnosti bodu z tabulky FEEDETL jsou vykresleny do fáze Lookup_6.

Vytvoření datového připojení z DataStage k databázi STAGEDB

Dalším krokem je vytvoření datového spojení mezi InfoSphere DataStage a cílovou databází SQL Replication. Obsahuje CCD tabulky.

V DataStage používáte objekty datového připojení se souvisejícími fázemi konektoru k rychlému definování připojení ke zdroji dat v návrhu úlohy.

Krok 1) STAGEDB obsahuje jak řídicí tabulky Apply, které DataStage používá k synchronizaci extrakce dat, tak tabulky CCD, ze kterých jsou data extrahována. Použijte následující příkazy

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

Hodnocení: IP adresa systému, kde byl vytvořen STAGEDB

Krok 2) Klikněte na Soubor > Nový > Jiné > Datové připojení.

Krok 3) Budete mít okno se dvěma kartami, Parametry a Obecné.

Krok 4) V tomto kroku,

Obecně, karta, pojmenujte datové připojení sqlreplConnect
Na kartě Parametry, jak je znázorněno níže

Klikněte na tlačítko procházení vedle pole „Připojit pomocí pole Typ scény“ a v poli
Otevřít okno přejděte ve stromu úložiště na Typy ploch –> Paralelní– > Databáze —-> Konektor DB2.
Klikněte na Otevřít.

Krok 5) V tabulce Parametry připojení zadejte podrobnosti jako

ConnectionString: STAGEDB2
Uživatelské jméno: ID uživatele pro připojení k databázi STAGEDB
Heslo: Heslo pro připojení k databázi STAGEDB
Instance: Název instance DB2, která obsahuje databázi STAGEDB

Krok 6) V dalším okně uložte datové připojení. Klikněte na tlačítko 'uložit'.

Import definic tabulek z STAGEDB do DataStage

V předchozím kroku jsme viděli, že InfoSphere DataStage a databáze STAGEDB jsou propojeny. Nyní importujte definici sloupců a další metadata pro tabulky PRODUCT_CCD a INVENTORY_CCD do úložiště Information Server.

V okně návrháře postupujte podle níže uvedených kroků.

Krok 1) Vyberte Import > Definice tabulek > Spustit Průvodce importem konektoru

Krok 2) Na stránce výběru konektoru v průvodci vyberte konektor DB2 a klepněte na tlačítko Další.

Krok 3) Klikněte na načíst na stránce s podrobnostmi o připojení. Tím se vyplní pole průvodce informacemi o připojení z datového připojení, které jste vytvořili v předchozí kapitole.

Krok 4) Na stejné stránce klikněte na Test připojení. To vyzve DataStage k pokusu o připojení k databázi STAGEDB. Můžete vidět zprávu „připojení je úspěšné“. Klepněte na tlačítko Další.

Krok 5) Ujistěte se, že na stránce Umístění zdroje dat jsou pole Název hostitele a Název databáze správně vyplněna. Poté klikněte na další.

Krok 6) Na stránce Schéma. Zadejte schéma řídicích tabulek použití (ASN) nebo zkontrolujte, zda je schéma ASN předem vyplněno v poli schématu. Poté klikněte na další. Stránka výběru zobrazí seznam tabulek, které jsou definovány ve schématu ASN.

Krok 7) První tabulka, ze které potřebujeme importovat metadata, je IBMSNAP_FEEDETL, řídicí tabulka použití. Obsahuje podrobnosti o synchronizačních bodech, které umožňují DataStage sledovat, které řádky načetl z tabulek CCD. Vybrat IBMSNAP_FEEDETL a klikněte na Další.

Krok 8) Chcete-li dokončit import souboru IBMDefinice tabulky SNAP_FEEDETL. Klikněte na import a poté v otevřeném okně klikněte na otevřít.

Krok 9) Opakujte kroky 1-8 ještě dvakrát a importujte definice pro tabulku PRODUCT_CCD a poté pro tabulku INVENTORY_CCD.

POZNÁMKA: Při importu definic pro inventář a produkt se ujistěte, že jste změnili schémata z ASN na schéma, pod kterým byly vytvořeny PRODUCT_CCD a INVENTORY_CCD.

Nyní má DataStage všechny podrobnosti, které vyžaduje pro připojení k cílové databázi SQL Replication.

Nastavení vlastností pro úlohy DataStage

Pro každou ze čtyř paralelních úloh DataStage, které máme, obsahuje jednu nebo více fází, které se připojují k databázi STAGEDB. Chcete-li přidat informace o připojení a propojit soubory datové sady, které DataStage naplní, musíte upravit fáze.

Fáze mají předdefinované vlastnosti, které lze upravovat. Zde změníme některé z těchto vlastností pro paralelní úlohu STAGEDB_ASN_PRODUCT_CCD_extract.

Krok 1) Procházejte strom úložiště Designer. Ve složce SQLREP vyberte paralelní úlohu STAGEDB_ASN_PRODUCT_CCD_extract. Chcete-li upravit, klepněte na úlohu pravým tlačítkem. Okno návrhu paralelní úlohy se otevře v paletě návrháře.

Krok 2) Najděte zelenou ikonu. Tato ikona označuje fázi konektoru DB2. Používá se pro extrakci dat z CCD tabulky. Double- klikněte na ikonu. Otevře se okno editoru scény.

Krok 3) V editoru klikněte na Načíst a vyplňte pole informacemi o připojení. Chcete-li zavřít editor scény a uložit změny, klikněte na OK.

Krok 4) Nyní se vraťte do okna návrhu pro paralelní úlohu STAGEDB_ASN_PRODUCT_CCD_extract. Najděte ikonu pro získáníSyncFáze konektoru hPoints DB2. Poté poklepejte na ikonu.

Krok 5) Nyní klikněte na tlačítko načíst a vyplňte pole informacemi o připojení.

POZNÁMKA: Pokud jako řídicí server pro použití používáte jinou databázi než STAGEDB. Poté vyberte možnost načíst informace o připojení pro getSynchPoints stage, která interaguje spíše s řídicími tabulkami než s CCD tabulkou.

Krok 6) V tomto kroku,

Vytvořte prázdný textový soubor v systému, kde běží InfoSphere DataStage.
Pojmenujte tento soubor jako productdataset.ds a poznamenejte si, kam jste jej uložili.
DataStage zapíše změny do tohoto souboru poté, co načte změny z CCD tabulky.
Datové sady nebo soubory, které se používají k přesunu dat mezi propojenými úlohami, jsou známé jako trvalé datové sady. Je reprezentován fází DataSet.

Krok 7) Nyní otevřete editor scény v okně návrhu a dvakrát klikněte na ikonu insert_into_a_dataset. Otevře se další okno.

Krok 8) V tomto okně

Na kartě Vlastnosti se ujistěte, že Target je otevřena složka a je zvýrazněna vlastnost File = DATASETNAME.
Na pravé straně budete mít pole souboru
Zadejte úplnou cestu k souboru productdataset.ds
Klikněte na tlačítko OK.

Nyní jste aktualizovali všechny potřebné vlastnosti pro CCD tabulku produktu. Zavřete okno návrhu a uložte všechny změny.

Krok 9) Nyní vyhledejte a otevřete paralelní úlohu STAGEDB_ASN_INVENTORY_CCD_extract z podokna úložiště v Návrháři a opakujte kroky 3-8.

POZNÁMKA:

Musíte načíst informace o připojení pro databázi řídicího serveru do editoru fáze pro getSyncfáze hPoints. Pokud váš řídicí server není STAGEDB.
U paralelních úloh STAGEDB_ST00_AQ00_getExtractRange a STAGEDB_ST00_AQ00_markRangeProcessed otevřete všechny fáze konektoru DB2. Poté použijte funkci načtení k přidání informací o připojení pro databázi STAGEDB

Kompilace a spouštění úloh DataStage

Když je úloha DataStage připravena ke kompilaci, návrhář ověří návrh úlohy tím, že se podívá na vstupy, transformace, výrazy a další podrobnosti.

Když je kompilace úlohy úspěšně dokončena, je připravena ke spuštění. Zkompilujeme všech pět úloh, ale spustíme pouze „pořadí úloh“. Je to proto, že tato úloha řídí všechny čtyři paralelní úlohy.

Krok 1) Ve složce SQLREP. Vyberte každou z pěti úloh pomocí (Ctrl+Shift). Poté klikněte pravým tlačítkem a vyberte možnost Kompilace více úloh.

Krok 2) V Průvodci kompilací DataStage uvidíte, že je vybráno pět úloh. Klepněte na tlačítko Další.

Krok 3) Kompilace se spustí a po dokončení se zobrazí zpráva „Compiled successful“.

Krok 4) Nyní spusťte DataStage a QualityStage Director. Vyberte Start > Všechny programy > IBM Informační server > IBM WebSphere DataStage a QualityStage Director.

Krok 5) V navigačním podokně projektu vlevo. Klepněte na složku SQLREP. To přenese všech pět úloh do tabulky stavu ředitele.

Krok 6) Vyberte úlohu STAGEDB_AQ00_S00_sequence. Na liště nabídek klikněte na Úloha > Spustit nyní.

Po dokončení kompilace uvidíte stav dokončeno.

Nyní zkontrolujte, zda změněné řádky, které jsou uloženy v tabulkách PRODUCT_CCD a INVENTORY_CCD, byly extrahovány pomocí DataStage a vloženy do dvou souborů datových sad.

Krok 7) Vraťte se do Návrháře a otevřete úlohu STAGEDB_ASN_PRODUCT_CCD_extract. Chcete-li otevřít editor scény Double-klikněte na ikonu insert_into_a_dataset. Poté klikněte na Zobrazit data.

Krok 8) Přijměte výchozí hodnoty v okně řádků, které se mají zobrazit. Potom klepněte na tlačítko OK. Otevře se okno prohlížeče dat a zobrazí se obsah souboru datové sady.

Testování integrace mezi replikací SQL a DataStage

V předchozím kroku jsme úlohu zkompilovali a provedli. V této části zkontrolujeme integraci replikace SQL a DataStage. Za tímto účelem provedeme změny ve zdrojové tabulce a uvidíme, zda se stejná změna aktualizuje do DataStage.

Krok 1) Přejděte do složky sqlrepl-datastage-scripts pro váš operační systém.

Krok 2) Spusťte replikaci SQL podle následujících kroků:

Spusťte soubor startSQLCapture.bat (Windows) ke spuštění programu Capture v databázi SALES.
Spusťte soubor startSQLApply.bat (Windows) ke spuštění programu Apply v databázi STAGEDB.

Krok 3) Nyní otevřete soubor updateSourceTables.sql. Pro připojení k databázi SALES nahradit a s ID uživatele a heslem.

Krok 4) Otevřete příkazové okno DB2. Změňte adresář na sqlrepl-datastage-tutorial\scripts a spusťte problém daným příkazem:

db2 -tvf updateSourceTables.sql

Skript SQL provede různé operace, jako je aktualizace, vkládání a mazání na obou tabulkách (PRODUKT, ZÁSOBY) v databázi Prodej.

Krok 5) V systému, kde běží DataStage. Otevřete DataStage Director a spusťte úlohu STAGEDB_AQ00_S00_sequence. Klikněte na Úloha > Spustit nyní.

Při spuštění úlohy budou provedeny následující činnosti.

Program Capture načte šestiřádkové změny v protokolu databáze SALES a vloží je do tabulek CD.
Program Apply načte řádky změn z tabulek CD na SALES a vloží je do tabulek CCD na STAGEDB.
Dvě úlohy extrahování DataStage převezmou změny z tabulek CCD a zapíší je do souborů productdataset.ds a inventar dataset.ds.

To, že k výše uvedeným krokům došlo, můžete zkontrolovat pohledem na soubory dat.

Krok 6) Postupujte podle níže uvedených kroků,

Spusťte Designer.Otevřete úlohu STAGEDB_ASN_PRODUCT_CCD_extract.
Pak Double-klikněte na ikonu insert_into_a_dataset. Ve scénickém editoru. Klikněte na Zobrazit data.
Přijměte výchozí nastavení v okně řádků, které se mají zobrazit, a klepněte na OK.

Datová sada obsahuje tři nové řádky. Nejjednodušší způsob, jak zkontrolovat, zda jsou změny implementovány, je posouvat se v Prohlížeči dat úplně vpravo dolů. Nyní se podívejte na poslední tři řádky (viz obrázek níže)

Písmeno I, U a D určuje operace INSERT, UPDATE a DELETE, jejichž výsledkem je každý nový řádek.

Stejnou kontrolu můžete provést u tabulky zásob.

Shrnutí

Datastage je an ETL nástroj který extrahuje data, transformuje a načítá data ze zdroje do cíle.
Usnadňuje to obchodní analýza poskytováním kvalitních dat, která vám pomohou získat obchodní informace.
DataStage je rozdělena na dvě části, Sdílené součásti a runtime Architecture.
DataStage má čtyři hlavní komponenty,
Správce
Manažer
návrhář
Ředitel
Níže jsou uvedeny klíčové aspekty IBM InfoSphere DataStage
Transformace dat
Zaměstnání
Paralelní zpracování
V návrhu práce jsou zahrnuty různé fáze
Fáze transformace
Filtrační stupeň
Fáze agregátoru
Odstranit duplikáty fáze
Připojte se k pódiu
Fáze vyhledávání

Výukový program DataStage pro začátečníky: IBM Školení DataStage (ETL Tool).

Co je DataStage?

Přehled DataStage

Typy fází zpracování

Komponenty DataStage a Architecture

Předpoklad pro nástroj Datastage Tool

Stažení a instalace InfoSphere Information Server

Zpracujte tok změnových dat ve fázi transakce CDC

Nastavení replikace SQL

Vytváření objektů replikace SQL

Vytvoření definičních souborů pro mapování CCD tabulek na DataStage

Spuštění replikace

Jak vytvářet projekty v Datastage Tool

Jak importovat úlohy replikace v Datastage a QualityStage Designer

Vytvoření datového připojení z DataStage k databázi STAGEDB

Import definic tabulek z STAGEDB do DataStage

Nastavení vlastností pro úlohy DataStage

Kompilace a spouštění úloh DataStage

Testování integrace mezi replikací SQL a DataStage

Shrnutí

Shrňte tento příspěvek takto:

Přihlaste se k odběru newsletteru

Co je DataStage?

Přehled DataStage

Typy fází zpracování

SOUVISEJÍCÍ ČLÁNKY

Komponenty DataStage a Architecture

Předpoklad pro nástroj Datastage Tool

Stažení a instalace InfoSphere Information Server

Zpracujte tok změnových dat ve fázi transakce CDC

Nastavení replikace SQL

Vytváření objektů replikace SQL

Vytvoření definičních souborů pro mapování CCD tabulek na DataStage

Spuštění replikace

Jak vytvářet projekty v Datastage Tool

Jak importovat úlohy replikace v Datastage a QualityStage Designer

Vytvoření datového připojení z DataStage k databázi STAGEDB

Import definic tabulek z STAGEDB do DataStage

Nastavení vlastností pro úlohy DataStage

Kompilace a spouštění úloh DataStage

Testování integrace mezi replikací SQL a DataStage

Shrnutí

Shrňte tento příspěvek takto:

Přihlaste se k odběru newsletteru