Vodič za DataStage za početnike: IBM DataStage (ETL alat) Obuka

Što je DataStage?

DataStage je ETL alat koji se koristi za izvlačenje, transformaciju i učitavanje podataka od izvora do odredišta. Izvor ovih podataka može uključivati ​​sekvencijalne datoteke, indeksirane datoteke, relacijske baze podataka, vanjske izvore podataka, arhive, poslovne aplikacije itd. DataStage se koristi za olakšavanje poslovne analize pružanjem kvalitetnih podataka koji pomažu u dobivanju poslovne inteligencije.

DataStage ETL alat se koristi u velikim organizacijama kao sučelje između različitih sustava. Brine se o ekstrakciji, prijevodu i učitavanju podataka od izvora do odredišta. Prvi ga je lansirao VMark sredinom 90-ih. S IBM preuzimanjem DataStagea 2005. preimenovano je u IBM WebSphere DataStage i kasnije IBM Infosfera.

Različite verzije Datastagea koje su do sada bile dostupne na tržištu bile su Enterprise Edition (PX), Server Edition, MVS Edition, DataStage for PeopleSoft i tako dalje. Najnovije izdanje je IBM InfoSphere DataStage

IBM Informacijski poslužitelj uključuje sljedeće proizvode,

  • IBM InfoSphere DataStage
  • IBM InfoSphere QualityStage
  • IBM Direktor informacijskih usluga InfoSphere
  • IBM InfoSphere Information Analyzer
  • IBM Informacijski poslužitelj FastTrack
  • IBM InfoSphere Business Glossary

DataStage pregled

Datastage ima sljedeće mogućnosti.

  • Može integrirati podatke iz najšireg raspona poslovnih i vanjskih izvora podataka
  • Implementira pravila provjere valjanosti podataka
  • Koristan je u obradi i transformaciji velikih količina podataka
  • Koristi skalabilni pristup paralelne obrade
  • Može se nositi sa složenim transformacijama i upravljati višestrukim integracijskim procesima
  • Iskoristite izravnu povezanost s poslovnim aplikacijama kao izvorima ili ciljevima
  • Iskoristite metapodatke za analizu i održavanje
  • Operate u paketu, u stvarnom vremenu ili kao web usluga

U sljedećim odjeljcima ovog vodiča za DataStage ukratko opisujemo sljedeće aspekte IBM InfoSphere DataStage:

  • Transformacija podataka
  • Posao
  • Paralelna obrada

InfoSphere DataStage i QualityStage mogu pristupiti podacima u poslovnim aplikacijama i izvorima podataka kao što su:

Vrste faza obrade

IBM posao infosfere sastoji se od pojedinačnih faza koje su međusobno povezane. Opisuje tijek podataka od izvora podataka do cilja podataka. Obično stupanj ima najmanje jedan ulaz podataka i/ili jedan izlaz podataka. Međutim, neki stupnjevi mogu prihvatiti više od jednog unosa podataka i izlaza u više od jednog stupnja.

Različite faze u dizajnu posla koje možete koristiti su:

  • Faza transformacije
  • Stupanj filtra
  • Faza agregatora
  • Faza uklanjanja duplikata
  • Pridružite se pozornici
  • Faza traženja
  • Faza kopiranja
  • Sortiraj pozornicu
  • Kontejneri

DataStage komponente i Architektura

DataStage ima četiri glavne komponente, naime,

  1. Admin: Koristi se za administrativne zadatke. To uključuje postavljanje DataStage korisnika, postavljanje kriterija čišćenja i stvaranje i premještanje projekata.
  2. Menadžer: To je glavno sučelje repozitorija ETL DataStage. Koristi se za pohranu i upravljanje metapodacima koji se mogu ponovno koristiti. Preko DataStage upravitelja moguće je pregledavati i uređivati ​​sadržaj Repozitorija.
  3. Dizajner: Sučelje dizajna koje se koristi za stvaranje DataStage aplikacija ILI poslova. Određuje izvor podataka, potrebnu transformaciju i odredište podataka. Poslovi se kompajliraju kako bi se stvorila izvršna datoteka koju je rasporedio direktor i pokrenuo poslužitelj
  4. Redatelj: Koristi se za provjeru valjanosti, planiranje, izvršavanje i praćenje poslova DataStage poslužitelja i paralelnih poslova.
Datastage Archidijagram strukture
Datastage Archidijagram strukture

Gornja slika objašnjava kako IBM Infosphere DataStage je u interakciji s drugim elementima IBM Platforma informacijskog poslužitelja. DataStage je podijeljen u dva dijela, Dijeljene komponente i vrijeme izvođenja Architektura.

   
Aktivnosti

Zajednička

Jedinstveno korisničko sučelje

  • Sučelje grafičkog dizajna koristi se za stvaranje InfoSphere DataStage aplikacija (poznatih kao poslovi).
  • Svaki posao određuje izvore podataka, potrebne transformacije i odredište podataka.
  • Poslovi se sastavljaju za stvaranje paralelnih tokova poslova i komponenti koje se mogu ponovno koristiti. Planiraju ih i vode InfoSphere DataStage i QualityStage Director.
  • Klijent Designer upravlja metapodacima u repozitoriju. Dok su prevedeni podaci o izvršenju raspoređeni na razini Information Server Engine.

Zajedničke usluge

  • Usluge metapodataka kao što su analiza utjecaja i pretraživanje
  • Usluge dizajna koje podržavaju razvoj i održavanje InfoSphere DataStage zadataka
  • Izvršne usluge koje podržavaju sve InfoSphere DataStage funkcije

Uobičajena paralelna obrada

  • Motor pokreće izvršne poslove koji ekstrahiraju, transformiraju i učitavaju podatke u raznim postavkama.
  • Motor odabira pristup paralelne obrade i cjevovoda za rukovanje velikom količinom posla.

dužina trajanja Architektura

Skripta za zaštitu na radu

  • Ovo opisuje generiranje OSH-a (orkestriranje Shell Scripta) i tijek izvršenja IBM i tok IBM Infosphere DataStage koji koristi informacijski poslužitelj
  • Omogućuje vam korištenje grafičkih tehnika pokaži i klikni za razvoj tijekova poslova za izdvajanje, čišćenje, transformaciju, integraciju i učitavanje podataka u ciljne datoteke.

Preduvjet za alat Datastage

Za DataStage će vam trebati sljedeće postavke.

  • Infosfera
  • DataStage Server 9.1.2 ili noviji
  • Microsoft Visual Studio .NET 2010 Express Edition C++
  • Oracle klijent (puni klijent, ne instant klijent) ako se povezujete na Oracle baza podataka
  • DB2 klijent ako se povezuje na DB2 bazu podataka

Sada ćemo u ovoj seriji DataStage vodiča za početnike naučiti kako preuzeti i instalirati InfoSphere informacijski poslužitelj.

Preuzimanje i instalacija InfoSphere Information Servera

Za pristup DataStageu preuzmite i instalirajte najnoviju verziju IBM InfoSphere poslužitelj. Poslužitelj podržava AIX, Linux i Windows operacijski sustav. Možete odabrati prema zahtjevu.

Za premještanje vaših podataka iz starije verzije infosfere u novu verziju koristite alat za razmjenu sredstava.

Instalacijske datoteke

Da biste instalirali i konfigurirali Infosphere Datastage, morate imati sljedeće datoteke u postavkama.

Za Windows,

  • EtlDeploymentPackage-windows-oracle.pkg
  • EtlDeploymentPackage-windows-db2.pkg

Za Linux,

  • EtlDeploymentPackage-linux-db2.pkg
  • EtlDeploymentPackage-linux-oracle.pkg

Tijek procesa promjene podataka u CDC transakcijskom poslu

Procesni tok podataka o promjenama u CDC-u

  1. Usluga 'InfoSphere CDC' za bazu podataka prati i bilježi promjene iz izvorne baze podataka
  2. Prema definiciji replikacije “InfoSphere CDC” prenosi podatke o promjeni u “InfoSphere CDC za InfoSphere DataStage.”
  3. “InfoSphere CDC za InfoSphere DataStage” poslužitelj šalje podatke u “CDC Transaction stage” kroz TCP/IP sesiju. Poslužitelj “InfoSphere CDC za InfoSphere DataStage” također šalje poruku COMMIT (zajedno s informacijama o knjižnoj oznaci) za označavanje granice transakcije u snimljenom dnevniku.
  4. Za svaku COMMIT poruku koju šalje poslužitelj “InfoSphere CDC za InfoSphere DataStage”, “faza CDC transakcije” stvara markere kraja vala (EOW). Ovi se markeri šalju na svim izlaznim vezama do ciljne faze konektora baze podataka.
  5. Kada "faza konektora ciljne baze podataka" primi oznaku kraja vala na svim ulaznim vezama, ona zapisuje informacije o knjižnoj oznaci u tablicu knjižne oznake i zatim predaje transakciju ciljnoj bazi podataka.
  6. Poslužitelj “InfoSphere CDC za InfoSphere DataStage” zahtijeva informacije o knjižnim oznakama iz tablice knjižnih oznaka na “ciljnoj bazi podataka”.
  7. Poslužitelj “InfoSphere CDC za InfoSphere DataStage” prima informacije o knjižnoj oznaci.

Ove informacije se koriste za,

  • Odredite početnu točku u dnevniku transakcija gdje se čitaju promjene kada započne replikacija.
  • Da biste utvrdili može li se postojeći dnevnik transakcija očistiti

Postavljanje SQL replikacije

Prije nego počnete s Datastageom, trebate postaviti bazu podataka. Kreirat ćete dvije DB2 baze podataka.

  • Jedan koji služi kao izvor replikacije i
  • Jedan kao meta.

Također ćete stvoriti dvije tablice (Proizvod i Inventar) i popuniti ih oglednim podacima. Tada možete testirati svoju integraciju između SQL Replikacija i Datastage.

U nastavku ćete postaviti SQL replikaciju stvaranjem kontrolne tablice, skupovi pretplate, registracije i članovi skupa pretplate. O tome ćemo detaljnije saznati u sljedećem odjeljku.

Ovdje ćemo uzeti primjer artikla maloprodaje kao našu bazu podataka i stvoriti dvije tablice Inventar i Proizvod. Ove će tablice učitati podatke od izvora do cilja kroz te skupove. (kontrolne tablice, skupovi pretplate, registracije i članovi skupa pretplate.)

Korak 1) Stvorite izvornu bazu podataka koja se naziva Prodaja. Ispod ove baze podataka stvorite dvije tablice proizvoda i Popis.

Korak 2) Pokrenite sljedeću naredbu za stvaranje baze podataka SALES.

db2 create database SALES

Korak 3) Uključite arhivsko bilježenje za SALES bazu podataka. Također napravite sigurnosnu kopiju baze podataka pomoću sljedećih naredbi

db2 update db cfg for SALES using LOGARCHMETH3 LOGRETAIN
db2 backup db SALES

Korak 4) U istom naredbenom retku promijenite u poddirektorij setupDB u direktoriju sqlrepl-datastage-tutorial koji ste izdvojili iz preuzete komprimirane datoteke.

Postavljanje SQL replikacije

Korak 5) Upotrijebite sljedeću naredbu za izradu tablice inventara i uvoz podataka u tablicu pokretanjem sljedeće naredbe.

db2 import from inventory.ixf of ixf create into inventory

Korak 6) Napravite ciljnu tablicu. Nazovite ciljnu bazu podataka kao STAGEDB.

Budući da ste sada stvorili i izvor i cilj baze podataka, sljedeći korak u ovom DataStage vodiču, vidjet ćemo kako to replicirati.

Sljedeće informacije mogu biti od pomoći u postavljanje ODBC izvora podataka.

Stvaranje SQL replikacijskih objekata

Slika u nastavku prikazuje kako se tok podataka o promjenama isporučuje od izvorne do ciljane baze podataka. Izradite preslikavanje izvor-cilj između tablica poznato kao članovi skupa pretplate i grupirati članove u a pretplata.

Stvaranje SQL replikacijskih objekata

Jedinica replikacije unutar InfoSphere CDC (Change Data Capture) naziva se pretplata.

  • Promjene učinjene u izvoru bilježe se u "kontrolnoj tablici snimanja" koja se šalje u CD tablicu, a zatim u ciljnu tablicu. Dok će program za primjenu imati pojedinosti o retku iz kojeg je potrebno napraviti promjene. Također će se pridružiti CD stolu u pretplatničkom setu.
  • Pretplata sadrži detalje mapiranja koji određuju kako se podaci u izvornoj pohrani podataka primjenjuju na ciljnu pohranu podataka. Napomena, CDC se sada naziva Replikacija podataka Infosfere.
  • Kada se pretplata izvrši, InfoSphere CDC bilježi promjene na izvornoj bazi podataka. InfoSphere CDC isporučuje podatke o promjeni cilju i pohranjuje informacije o točki sinkronizacije u tablici knjižnih oznaka u ciljnoj bazi podataka.
  • InfoSphere CDC koristi informacije knjižne oznake za praćenje napretka posla InfoSphere DataStage.
  • U slučaju neuspjeha, podaci knjižne oznake koriste se kao točka ponovnog pokretanja. U našem primjeru, ASN.IBMTablica SNAP_FEEDETL pohranjuje informacije o točki sinkronizacije povezane s DataStageom koje se koriste za praćenje napretka DataStagea.

U ovom odjeljku od IBM Vodič za obuku za DataStage, morate učiniti sljedeće stvari,

  • Napravite tablice CAPTURE CONTROL i tablice APPLY CONTROL za pohranu opcija replikacije
  • Registrirajte tablice PRODUCT i INVENTORY kao izvore replikacije
  • Stvorite skup pretplate s dva člana
  • Stvorite članove skupa pretplate i ciljne CCD tablice

Koristite ASNCLP program naredbenog retka za postavljanje SQL replikacije

Korak 1) Locirajte datoteku skripte crtCtlTablesCaptureServer.asnclp u direktoriju sqlrepl-datastage-tutorial/setupSQLRep.

Korak 2) U datoteci zamijeniti i " ” sa svojim korisničkim imenom i lozinkom za spajanje na SALES bazu podataka.

Korak 3) Promijenite direktorije u direktorij sqlrepl-datastage-tutorial/setupSQLRep i pokrenite skriptu. Koristite sljedeću naredbu. Naredba će se povezati s bazom podataka SALES, generirati SQL skriptu za kreiranje kontrolnih tablica Capture.

asnclp –f crtCtlTablesCaptureServer.asnclp

Korak 4) Locirajte datoteku skripte crtCtlTablesApplyCtlServer.asnclp u istom direktoriju. Sada zamijenite dvije instance od i " ” s korisničkim ID-om i lozinkom za spajanje na STAGEDB bazu podataka.

Korak 5) Sada u istom naredbenom retku upotrijebite sljedeću naredbu za stvaranje kontrolnih tablica primjene.

asnclp –f crtCtlTablesApplyCtlServer.asnclp

Korak 6) Pronađite datoteke skripte crtRegistration.asnclp i zamijenite sve instance s korisničkim ID-om za povezivanje s bazom podataka SALES. Također, promijenite " ” na lozinku za povezivanje.

Korak 7) Za registraciju izvornih tablica koristite sljedeću skriptu. U sklopu kreiranja registracije program ASNCLP kreirat će dvije CD tablice. CDPROIZVOD I CDINVENTAR.

asnclp –f crtRegistration.asnclp

Naredba CREATE REGISTRATION koristi sljedeće opcije:

  • Diferencijalno osvježenje: Poziva program Primijeni da ažurira ciljnu tablicu samo kada se promijene redovi u izvornoj tablici
  • Slika oboje: Ova opcija se koristi za registraciju vrijednosti u izvornom stupcu prije nego što je došlo do promjene, a jedna za vrijednost nakon što je došlo do promjene.

Korak 8) Za povezivanje s ciljnom bazom podataka (STAGEDB) koristite sljedeće korake.

  • Pronađite datoteku crtTableSpaceApply.bat, otvorite je u uređivaču teksta
  • Zamijeniti i s korisničkim ID-om i lozinkom
  • U prozoru DB2 naredbi unesite crtTableSpaceApply.bat i pokrenite datoteku.
  • Ova paketna datoteka stvara novi tablični prostor na ciljnoj bazi podataka (STAGEDB)

Korak 9) Pronađite datoteke skripte crtSubscriptionSetAndAddMembers.asnclp i napravite sljedeće promjene.

  • Zamijenite sve instance od i uz korisnički ID i lozinku za spajanje na SALES bazu (izvor).
  • Zamijeni sve instance od i s korisničkim ID-om za spajanje na STAGEDB bazu podataka (target).

Nakon promjena pokrenite skriptu za kreiranje skupa pretplate (ST00) koji grupira izvornu i ciljnu tablicu. Skripta također stvara dva člana skupa pretplate i CCD (podatke o dosljednim promjenama) u ciljnoj bazi podataka koja će pohraniti izmijenjene podatke. Ove podatke će koristiti Infosphere DataStage.

Korak 10) Pokrenite skriptu za kreiranje skupa pretplate, članova skupa pretplate i CCD tablica.

asnclp –f crtSubscriptionSetAndAddMembers.asnclp

Različite opcije koje se koriste za stvaranje skupa pretplate i dva člana uključuju

  • Kompletno na kondenzirano isključeno
  • Vanjski
  • Vrsta opterećenja uvoz izvoz
  • Kontinuirano mjerenje vremena

Korak 11) Zbog greške u alatima za administraciju replikacije. Morate izvršiti drugu batch datoteku da biste postavili stupac TARGET_CAPTURE_SCHEMA u IBMSNAP_SUBS_SET kontrolne tablice na nulu.

  • Pronađite datoteku updateTgtCapSchema.bat. Otvorite ga u uređivaču teksta. Zamijeniti i s korisničkim ID-om za spajanje na STAGEDB bazu podataka.
  • U prozoru DB2 naredbi unesite naredbu updateTgtCapSchema.bat i izvedite datoteku.

Stvaranje definicijskih datoteka za mapiranje CCD tablica u DataStage

Prije nego što napravimo replikaciju u sljedećem koraku, moramo povezati CCD tablicu s DataStageom. U ovom odjeljku ćemo vidjeti kako povezati SQL s DataStageom.

Za povezivanje CCD tablice s DataStageom morate izraditi datoteke definicije Datastage (.dxs). DataStage koristi format datoteke .dsx za uvoz i izvoz definicija poslova. Koristit ćete ASNCLP skriptu za stvaranje dvije .dsx datoteke. Na primjer, ovdje smo stvorili dvije .dsx datoteke.

  • stagedb_AQ00_SET00_sJobs.dsx: Stvara niz poslova koji usmjeravaju tijek rada četiri paralelna posla.
  • stagedb_AQ00_SET00_pJobs.dsx : Stvara četiri paralelna posla

Program ASNCLP automatski preslikava CCD stupac u format stupca Datastage. Podržano je samo kada radi ASNCLP Windows, Linux ili Unix postupak.

Definicijske datoteke za mapiranje CCD tablica u DataStage

Datastage poslovi povlače retke iz CCD tablice.

  1. Jedan posao postavlja točku usklađivanja gdje je DataStage stao u izdvajanju podataka iz dvije tablice. Posao dobiva ove informacije odabirom vrijednosti SYNCHPOINT za ST00 skup pretplate iz IBMSNAP_SUBS_SET tablicu i njezino umetanje u stupac MAX_SYNCHPOINT od IBMSNAP_FEEDETL tablica.
  2. Dva posla koji izdvajaju podatke iz tablica PRODUCT_CCD i INVENTORY_CCD. Poslovi znaju koje redove započeti izdvajanje odabirom vrijednosti MIN_SYNCHPOINT i MAX_SYNCHPOINT iz IBMSNAP_FEEDETL tablica za skup pretplate.

Pokretanje replikacije

Da biste započeli replikaciju, upotrijebit ćete korake u nastavku. Kada se CCD tablice popune podacima, to znači da je postavka replikacije provjerena. Za pregled repliciranih podataka u ciljnim CCD tablicama koristite grafičko korisničko sučelje DB2 Kontrolnog centra.

Korak 1) Uvjerite se da DB2 radi, ako ne, koristite db2 početak naredba.

Korak 2) Zatim upotrijebite naredbu asncap iz odzivnika operativnog sustava za početak snimanja programa. Na primjer.

asncap capture_server=SALES

Gornja naredba navodi SALES bazu podataka kao Capture server. Držite naredbeni prozor otvoren dok snimanje traje.

Korak 3) Sada otvorite novi naredbeni redak. Zatim pokrenite PRIJAVITI programirati pomoću naredbe asnapply.

asnapply control_server=STAGEDB apply_qual=AQ00

Pokretanje replikacije

  • Naredba specificira STAGEDB bazu podataka kao kontrolni poslužitelj primjene (baza podataka koja sadrži kontrolne tablice aplikacije)
  • AQ00 kao kvalifikator primjene (identifikator za ovaj skup kontrolnih tablica)

Ostavite naredbeni prozor otvoren dok je Apply pokrenut.

Korak 4) Sada otvorite drugi naredbeni redak i izdajte naredbu db2cc za pokretanje DB2 Kontrolnog centra. Prihvatite zadani Kontrolni centar.

Korak 5) Sada u lijevom navigacijskom stablu otvorite Sve baze podataka > STAGEDB, a zatim kliknite Tablice. Double kliknite na naziv tablice ( Product CCD) da biste otvorili tablicu. Izgledat će otprilike ovako.

Pokretanje replikacije

Isto tako, također možete otvoriti CCD tablicu za INVENTAR.

Pokretanje replikacije

Kako izraditi projekte u alatu Datastage

Prije svega, izradit ćete projekt u DataStageu. Za to morate biti InfoSphere DataStage administrator.

Nakon što su instalacija i replikacija gotovi, trebate izraditi projekt. U DataStageu projekti su metoda za organiziranje vaših podataka. Uključuje definiranje podatkovnih datoteka, faza i poslova izgradnje u određenom projektu.

Za izradu projekta u DataStageu slijedite korake u nastavku:

Korak 1) Pokrenite softver DataStage

Pokrenite DataStage i QualityStage Administrator. Zatim kliknite Start > Svi programi > IBM Informacijski poslužitelj > IBM WebSphere DataStage i QualityStage Administrator.

Korak 2) Povežite DataStage poslužitelj i klijent

Za povezivanje s DataStage poslužiteljem s vašeg DataStage klijenta unesite detalje kao što su naziv domene, ID korisnika, lozinka i informacije o poslužitelju.

Korak 3) Dodajte novi projekt

U prozoru WebSphere DataStage Administration. Kliknite karticu Projekti, a zatim kliknite Dodaj.

Korak 4) Unesite detalje projekta

U prozor WebSphere DataStage Administration unesite pojedinosti poput

  1. Ime
  2. Lokacija datoteke
  3. Kliknite "U redu"

Stvorite projekte u alatu Datastage

Svaki projekt sadrži:

  • DataStage poslovi
  • Ugrađene komponente. To su unaprijed definirane komponente koje se koriste u poslu.
  • Korisnički definirane komponente. To su prilagođene komponente stvorene pomoću DataStage Managera ili DataStage Designera.

Vidjet ćemo kako uvesti replikacijske poslove u Datastage Infosphere.

Kako uvesti poslove replikacije u Datastage i QualityStage Designer

Uvest ćete poslove u IBM InfoSphere DataStage i QualityStage Designer klijent. A vi ih izvršite u IBM InfoSphere DataStage i QualityStage Director klijent.

Dizajner-klijent je poput praznog platna za građevinske poslove. Izvlači, transformira, učitava i provjerava kvalitetu podataka. Pruža alate koji čine osnovne građevne blokove posla. To uključuje

  • stažiranje: Povezuje se s izvorima podataka za čitanje ili pisanje datoteka i obradu podataka.
  • linkovi: povezuje faze kroz koje teku vaši podaci

Faze u klijentu InfoSphere DataStage i QualityStage Designer pohranjene su u paleti alata Designer.

Sljedeće faze uključene su u InfoSphere QualityStage:

  • Istražite fazu
  • Standardizirati pozornicu
  • Faza učestalosti podudaranja
  • Faza podudaranja s jednim izvorom
  • Faza podudaranja s dva izvora
  • Faza preživljavanja
  • Faza procjene kvalitete standardizacije (SQA).

U DataStage infosferi možete kreirati 4 vrste poslova.

  • Paralelni posao
  • Slijed posla
  • posao glavnog računala
  • Posao poslužitelja

Pogledajmo korak po korak kako uvesti datoteke posla replikacije.

Korak 1) Pokrenite DataStage i QualityStage Designer. Pritisnite Start > Svi programi > IBM Informacijski poslužitelj > IBM WebSphere DataStage i QualityStage Designer

Korak 2) U prozoru Priloži projektu unesite sljedeće pojedinosti.

  • Domena
  • korisničko ime
  • Lozinka
  • Naziv Projekta
  • OK

Uvoz poslova replikacije u Datastage i QualityStage

Korak 3) Sada iz izbornika File kliknite import -> DataStage komponente.

Otvorit će se novi prozor za uvoz DataStage repozitorija.

  1. U ovom prozoru pregledavajte STAGEDB_AQ00_ST00_sJobs.dsx datoteku koju smo ranije izradili
  2. Odaberite opciju "Uvezi sve".
  3. Označite potvrdni okvir "Izvrši analizu utjecaja".
  4. Pritisnite "U redu".

Uvoz poslova replikacije u Datastage i QualityStage

Nakon što se posao uveze, DataStage će stvoriti STAGEDB_AQ00_ST00_sequence posao.

Korak 4) Slijedite iste korake za uvoz STAGEDB_AQ00_ST00_pJobs.dsx datoteka. Ovaj uvoz stvara četiri paralelna posla.

Korak 5) Pod oknom Designer Repository -> Otvorite mapu SQLREP. Unutar mape vidjet ćete slijed poslova i četiri paralelna posla.

Uvoz poslova replikacije u Datastage i QualityStage

Korak 6) Da biste vidjeli redoslijed posla. Idite na stablo repozitorija, desnom tipkom miša kliknite STAGEDB_AQ00_ST00_sequence posao i kliknite Uredi. Prikazat će tijek rada četiri paralelna posla koje slijed poslova kontrolira.

Uvoz poslova replikacije u Datastage i QualityStage

Svaka ikona je pozornica,

  • faza getExtractRange: Ažurira IBMSNAP_FEEDETL tablica. Postavit će početnu točku za ekstrakciju podataka na točku gdje je DataStage posljednji put izdvojio retke i postaviti završnu točku na posljednju transakciju koja je obrađena za skup pretplate.
  • getExtractRangeSuccess: Ova faza daje početne točke fazi extractFromINVENTORY_CCD i fazi extractFromPRODUCT_CCD
  • AllExtractsSuccess: Ova faza osigurava da su i extractFromINVENTORY_CCD i extractFromPRODUCT_CCD uspješno završeni. Zatim prosljeđuje točke sinkronizacije za posljednje retke koji su dohvaćeni u stadij setRangeProcessed.
  • setRangeProcessed faza: Ažurira se IBMSNAP_FEEDETL tablica. Dakle, DataStage zna odakle započeti sljedeći krug ekstrakcije podataka

Korak 7) Da vidim paralelne poslove. Desnom tipkom miša kliknite STAGEDB_ASN_INVENTORY_CCD i odaberite uredi pod repozitorijem. Otvorit će se prozor kao što je prikazano u nastavku.

Uvoz poslova replikacije u Datastage i QualityStage

Ovdje na gornjoj slici možete vidjeti da su podaci iz CCD tablice inventara i Synch detalji o točki iz FEEDETL tablice prikazuju se u fazi Lookup_6.

Stvaranje podatkovne veze iz DataStagea u bazu podataka STAGEDB

Sada je sljedeći korak izgradnja podatkovne veze između InfoSphere DataStage i ciljne baze podataka SQL Replication. Sadrži CCD tablice.

U DataStageu koristite objekte podatkovne veze s povezanim fazama konektora za brzo definiranje veze s izvorom podataka u dizajnu posla.

Korak 1) STAGEDB sadrži i Apply kontrolne tablice koje DataStage koristi za sinkronizaciju svoje ekstrakcije podataka i CCD tablice iz kojih se podaci ekstrahiraju. Koristite sljedeće naredbe

db2 catalog tcpip node SQLREP remote ip_address server 50000
db2 catalog database STAGEDB as STAGEDB2 at node SQLREP

bilješke: IP adresa sustava na kojem je kreiran STAGEDB

Korak 2) Kliknite Datoteka > Novo > Ostalo > Podatkovna veza.

Korak 3) Imat ćete prozor s dvije kartice, Parametri i Općenito.

Podatkovna veza iz DataStagea u STAGEDB bazu podataka

Korak 4) U ovom koraku

  1. Općenito, kartica, nazovite podatkovnu vezu sqlreplConnect
  2. Na kartici Parametri, kao što je prikazano u nastavku
  • Kliknite gumb za pregledavanje pored polja "Poveži se pomoću polja vrste faze" i u
  • Otvorite prozor idite stablom repozitorija na Vrste stupnja –> Paralelno– > Baza podataka —-> DB2 konektor.
  • Pritisnite Otvori.

Podatkovna veza iz DataStagea u STAGEDB bazu podataka

Korak 5) U tablicu parametara veze unesite pojedinosti poput

  • ConnectionString: STAGEDB2
  • Korisničko ime: ID korisnika za spajanje na STAGEDB bazu podataka
  • Lozinka: Lozinka za spajanje na STAGEDB bazu podataka
  • Primjer: Ime DB2 instance koja sadrži STAGEDB bazu podataka

Korak 6) U sljedećem prozoru spremite podatkovnu vezu. Kliknite na gumb 'spremi'.

Uvoz definicija tablica iz STAGEDB u DataStage

U prethodnom koraku vidjeli smo da su InfoSphere DataStage i STAGEDB baza podataka povezani. Sada uvezite definiciju stupca i druge metapodatke za PRODUCT_CCD i INVENTORY_CCD tablice u repozitorij informacijskog poslužitelja.

U prozoru dizajnera slijedite korake u nastavku.

Korak 1) Odaberite Uvoz > Definicije tablice > Pokreni čarobnjaka za uvoz konektora

Korak 2) Na stranici odabira konektora čarobnjaka, izaberite DB2 konektor i kliknite Dalje.

Uvoz definicija tablica iz STAGEDB u DataStage

Korak 3) Pritisnite Učitaj na stranici s detaljima veze. Ovo će popuniti polja čarobnjaka informacijama o vezi iz podatkovne veze koju ste stvorili u prethodnom poglavlju.

Uvoz definicija tablica iz STAGEDB u DataStage

Korak 4) Pritisnite Testiraj vezu na istoj stranici. Ovo će potaknuti DataStage da se pokuša povezati s bazom podataka STAGEDB. Možete vidjeti poruku "povezivanje je uspješno". Pritisnite Dalje.

Uvoz definicija tablica iz STAGEDB u DataStage

Korak 5) Provjerite jesu li na stranici lokacije izvora podataka polja Naziv glavnog računala i Naziv baze podataka ispravno popunjena. Zatim kliknite dalje.

Korak 6) Na stranici sheme. Unesite shemu kontrolnih tablica Primjene (ASN) ili provjerite je li ASN shema unaprijed popunjena u polje sheme. Zatim kliknite dalje. Stranica za odabir prikazat će popis tablica koje su definirane u ASN shemi.

Uvoz definicija tablica iz STAGEDB u DataStage

Korak 7) Prva tablica iz koje trebamo uvesti metapodatke je IBMSNAP_FEEDETL, kontrolna tablica primjene. Ima pojedinosti o točkama sinkronizacije koje omogućuju DataStageu da prati koje je retke dohvatio iz CCD tablica. Odaberite IBMSNAP_FEEDETL i kliknite Dalje.

Korak 8) Za dovršetak uvoza IBMSNAP_FEEDETL definicija tablice. Kliknite uvoz i zatim u otvorenom prozoru kliknite otvori.

Korak 9) Ponovite korake 1-8 još dva puta za uvoz definicija za tablicu PRODUCT_CCD, a zatim za tablicu INVENTORY_CCD.

BILJEŠKA: Dok uvozite definicije za inventar i proizvod, provjerite jeste li promijenili sheme iz ASN-a u shemu pod kojom su stvoreni PRODUCT_CCD i INVENTORY_CCD.

Sada DataStage ima sve pojedinosti koje su mu potrebne za povezivanje s ciljnom bazom podataka SQL replikacije.

Postavljanje svojstava za DataStage poslove

Za svaki od četiri DataStage paralelna posla koja imamo, sadrži jednu ili više faza koje se povezuju s bazom podataka STAGEDB. Morate izmijeniti stupnjeve da biste dodali podatke o vezi i povezivali se s datotekama skupa podataka koje DataStage popunjava.

Faze imaju unaprijed definirana svojstva koja je moguće uređivati. Ovdje ćemo promijeniti neka od ovih svojstava za STAGEDB_ASN_PRODUCT_CCD_extract paralelni posao.

Korak 1) Pregledajte stablo repozitorija Designera. U mapi SQLREP odaberite STAGEDB_ASN_PRODUCT_CCD_extract paralelni posao. Za uređivanje desnom tipkom miša kliknite posao. Prozor dizajna paralelnog posla otvara se u Designer Palette.

Korak 2) Pronađite zelenu ikonu. Ova ikona označava stupanj DB2 konektora. Koristi se za izdvajanje podataka iz CCD tablice. Double- kliknite na ikonu. Otvara se prozor za uređivanje pozornice.

Postavljanje svojstava za DataStage poslove

Postavljanje svojstava za DataStage poslove

Korak 3) U uređivaču kliknite Učitaj za popunjavanje polja informacijama o vezi. Za zatvaranje pozornice i spremanje promjena kliknite OK.

Korak 4) Sada se vratite na prozor dizajna za STAGEDB_ASN_PRODUCT_CCD_extract paralelni posao. Pronađite ikonu za getSynchPoints DB2 stupanj konektora. Zatim dvaput kliknite na ikonu.

Korak 5) Sada kliknite gumb za učitavanje kako biste popunili polja informacijama o vezi.

BILJEŠKA: Ako koristite bazu podataka koja nije STAGEDB kao vaš kontrolni poslužitelj Primjene. Zatim odaberite opciju za učitavanje informacija o vezi za getSynchPoints faza, koja je u interakciji s kontrolnim tablicama, a ne s CCD tablicom.

Korak 6) U ovom koraku

  • Napravite praznu tekstualnu datoteku na sustavu na kojem se izvodi InfoSphere DataStage.
  • Imenujte ovu datoteku kao productdataset.ds i zabilježite gdje ste je spremili.
  • DataStage će pisati promjene u ovu datoteku nakon što dohvati promjene iz CCD tablice.
  • Skupovi podataka ili datoteke koje se koriste za premještanje podataka između povezanih poslova poznati su kao trajni skupovi podataka. Predstavljen je stupnjem skupa podataka.

Korak 7) Sada otvorite pozornicu za uređivanje u prozoru dizajna i dvaput kliknite na ikonu insert_into_a_dataset. Otvorit će drugi prozor.

Postavljanje svojstava za DataStage poslove

Korak 8) U ovom prozoru,

Postavljanje svojstava za DataStage poslove

  • Ispod kartice svojstava osigurava Target mapa je otvorena i svojstvo File = DATASETNAME je istaknuto.
  • Na desnoj strani imat ćete polje datoteke
  • Unesite puni put do datoteke productdataset.ds
  • Kliknite "U redu".

Sada ste ažurirali sva potrebna svojstva za CCD tablicu proizvoda. Zatvorite prozor dizajna i spremite sve promjene.

Korak 9) Sada pronađite i otvorite STAGEDB_ASN_INVENTORY_CCD_extract paralelni posao iz okna repozitorija dizajnera i ponovite korake 3-8.

BILJEŠKA:

  • Morate učitati informacije o vezi za bazu podataka kontrolnog poslužitelja u editor pozornice za getSynchPoints faza. Ako vaš kontrolni poslužitelj nije STAGEDB.
  • Za STAGEDB_ST00_AQ00_getExtractRange i STAGEDB_ST00_AQ00_markRangeProcessed paralelne poslove, otvorite sve stupnjeve DB2 konektora. Zatim upotrijebite funkciju učitavanja za dodavanje informacija o vezi za bazu podataka STAGEDB

Sastavljanje i pokretanje DataStage poslova

Kada je DataStage posao spreman za kompajliranje, Dizajner provjerava dizajn posla gledajući ulaze, transformacije, izraze i druge detalje.

Kada je kompilacija posla uspješno obavljena, spremna je za izvođenje. Sastavit ćemo svih pet poslova, ali ćemo pokrenuti samo "slijed poslova". To je zato što ovaj posao kontrolira sva četiri paralelna posla.

Korak 1) U mapi SQLREP. Odaberite svaki od pet poslova pomoću (Cntrl+Shift). Zatim desnom tipkom miša kliknite i odaberite opciju sastavljanja više poslova.

Sastavljanje i pokretanje DataStage poslova

Korak 2) Vidjet ćete da je odabrano pet poslova u DataStage čarobnjaku za kompilaciju. Pritisnite Dalje.

Sastavljanje i pokretanje DataStage poslova

Korak 3) Kompilacija počinje i prikazuje poruku "Kompilirano uspješno" kada završi.

Sastavljanje i pokretanje DataStage poslova

Korak 4) Sada pokrenite DataStage i QualityStage Director. Odaberite Start > Svi programi > IBM Informacijski poslužitelj > IBM WebSphere DataStage i QualityStage Director.

Korak 5) U navigacijskom oknu projekta s lijeve strane. Pritisnite mapu SQLREP. Ovo dovodi svih pet poslova u tablicu statusa direktora.

Korak 6) Odaberite posao STAGEDB_AQ00_S00_sequence. Na traci izbornika kliknite Posao > Pokreni sada.

Sastavljanje i pokretanje DataStage poslova

Nakon što je kompilacija gotova, vidjet ćete status završen.

Sastavljanje i pokretanje DataStage poslova

Sada provjerite jesu li promijenjeni reci koji su pohranjeni u tablicama PRODUCT_CCD i INVENTORY_CCD ekstrahirani pomoću DataStagea i umetnuti u dvije datoteke skupa podataka.

Korak 7) Vratite se u Designer i otvorite STAGEDB_ASN_PRODUCT_CCD_extract posao. Za otvaranje pozornice Double-kliknite ikonu insert_into_a_dataset. Zatim kliknite prikaz podataka.

Korak 8) Prihvatite zadane postavke u redovima koji će se prikazati u prozoru. Zatim kliknite OK. Otvorit će se prozor preglednika podataka koji prikazuje sadržaj datoteke skupa podataka.

Sastavljanje i pokretanje DataStage poslova

Testiranje integracije između SQL replikacije i DataStagea

U prethodnom koraku sastavili smo i izvršili posao. U ovom odjeljku provjerit ćemo integraciju SQL replikacije i DataStagea. Za to ćemo unijeti izmjene u izvornu tablicu i vidjeti je li ista promjena ažurirana u DataStage.

Korak 1) Dođite do mape sqlrepl-datastage-scripts za vaš operativni sustav.

Korak 2) Pokrenite SQL replikaciju slijedeći korake:

  • Pokrenite startSQLCapture.bat (Windows) za pokretanje programa Capture u bazi podataka SALES.
  • Pokrenite startSQLApply.bat (Windows) datoteku za pokretanje programa Primjena u bazi podataka STAGEDB.

Korak 3) Sada otvorite datoteku updateSourceTables.sql. Za povezivanje s bazom podataka SALES replace i s korisničkim ID-om i lozinkom.

Korak 4) Otvorite DB2 naredbeni prozor. Promijenite direktorij u sqlrepl-datastage-tutorial\scripts i pokrenite problem zadanom naredbom:

db2 -tvf updateSourceTables.sql

SQL skripta izvršit će razne operacije poput ažuriranja, umetanja i brisanja na obje tablice (PROIZVOD, ZALIHE) u bazi podataka prodaje.

Korak 5) Na sustavu na kojem se izvodi DataStage. Otvorite DataStage Director i izvršite STAGEDB_AQ00_S00_sequence posao. Kliknite Posao > Pokreni sada.

Integracija između SQL replikacije i DataStagea

Kada pokrenete posao, izvršit će se sljedeće aktivnosti.

  • Program Capture čita promjene u šest redaka u zapisniku baze podataka SALES i umeće ih u CD tablice.
  • Program Primjena dohvaća redove promjena iz CD tablica na SALES i umeće ih u CCD tablice na STAGEDB.
  • Dva DataStage posla izdvajanja preuzimaju promjene iz CCD tablica i zapisuju ih u datoteke productdataset.ds i inventory dataset.ds.

Možete provjeriti jesu li gore navedeni koraci provedeni gledanjem skupova podataka.

Korak 6) Slijedite korake u nastavku,

  • Pokrenite Dizajner. Otvorite zadatak STAGEDB_ASN_PRODUCT_CCD_extract.
  • Tada Double-kliknite ikonu insert_into_a_dataset. U scenskom uredniku. Pritisnite Pregled podataka.
  • Prihvatite zadane postavke u prozoru redaka koji će se prikazati i kliknite U redu.

Skup podataka sadrži tri nova retka. Najlakši način da provjerite jesu li promjene implementirane je da se pomaknete krajnje desno od Preglednika podataka. Sada pogledajte posljednja tri retka (pogledajte sliku ispod)

Integracija između SQL replikacije i DataStagea

Slovo I, U i D označava operaciju INSERT, UPDATE i DELETE koja je rezultirala svakim novim retkom.

Istu provjeru možete učiniti za tablicu inventara.

Rezime

  • Datastage je ETL alat koji izvlači podatke, transformira i učitava podatke od izvora do cilja.
  • Olakšava analiza poslovanja pružanjem kvalitetnih podataka za pomoć u dobivanju poslovne inteligencije.
  • DataStage je podijeljen u dva dijela, Dijeljene komponente i vrijeme izvođenja Architektura.
  • DataStage ima četiri glavne komponente,
  • administrator
  • Voditelj
  • dizajner
  • Direktor
  • Slijede ključni aspekti IBM InfoSphere DataStage
  • Transformacija podataka
  • Posao
  • Paralelna obrada
  • U projektiranje posla uključene su različite faze
  • Faza transformacije
  • Stupanj filtra
  • Faza agregatora
  • Faza uklanjanja duplikata
  • Pridružite se pozornici
  • Faza traženja

Sažmite ovu objavu uz: