Adatbányászati oktatóanyag: Mi az adatbányászat? Technikák, folyamat
Mi az adatbányászat?
Data Mining egy olyan folyamat, amely potenciálisan hasznos mintákat keres hatalmas adatkészletekből. Ez egy multidiszciplináris készség, amelyet használ gépi tanulás, statisztikák és mesterséges intelligencia információk kinyeréséhez a jövőbeli események valószínűségének értékeléséhez. Az adatbányászatból származó betekintést marketingre, csalások felderítésére, tudományos felfedezésekre stb.
Az adatbányászat célja rejtett, nem sejtett és korábban ismeretlen, de érvényes kapcsolatok felfedezése az adatok között. Az adatbányászat más néven tudásfelfedezés az adatokban (KDD), tudáskinyerés, adat-/mintaelemzés, információgyűjtés stb.
Adattípusok
Az adatbányászat a következő típusú adatokon hajtható végre
- Relációs adatbázisok
- Adatraktárak
- Fejlett DB és információs tárhelyek
- Objektumorientált és objektum-relációs adatbázisok
- Tranzakciós és térbeli adatbázisok
- Heterogén és örökölt adatbázisok
- Multimédiás és streaming adatbázis
- Szöveges adatbázisok
- Szövegbányászat és webbányászat
Az adatbányászat megvalósítási folyamata

Tanulmányozzuk részletesen az adatbányászat megvalósítási folyamatát
Üzleti megértés
Ebben a fázisban az üzleti és adatbányászati célokat határozzák meg.
- Először is meg kell értenie az üzleti és az ügyfelek céljait. Meg kell határoznia, hogy az ügyfele mit akar (amit sokszor még ők maguk sem tudnak)
- Vegyük számba a jelenlegi adatbányászati forgatókönyvet. Az értékelésben vegye figyelembe az erőforrásokat, a feltételezéseket, a korlátokat és más jelentős tényezőket.
- Az üzleti célok és a jelenlegi forgatókönyv alapján határozza meg adatbányászati céljait.
- A jó adatbányászati terv nagyon részletes, és ki kell dolgozni az üzleti és az adatbányászati célok elérése érdekében.
Adatok megértése
Ebben a fázisban az adatok józansági ellenőrzését végzik annak ellenőrzésére, hogy megfelel-e az adatbányászati céloknak.
- Először is az adatokat a szervezetben elérhető több adatforrásból gyűjtik össze.
- Ezek az adatforrások tartalmazhatnak több adatbázist, lapos fájlkezelőt vagy adatkockákat. Az adatintegrációs folyamat során felmerülhetnek olyan problémák, mint az objektumegyeztetés és a sémaintegráció. Ez egy meglehetősen összetett és trükkös folyamat, mivel a különböző forrásokból származó adatok valószínűleg nem egyeznek meg könnyen. Például az A tábla egy cust_no nevű entitást tartalmaz, míg egy másik B tábla egy cust-id nevű entitást tartalmaz.
- Ezért meglehetősen nehéz meggyőződni arról, hogy mindkét adott objektum ugyanarra az értékre vonatkozik-e vagy sem. Itt a metaadatokat kell használni az adatintegrációs folyamat hibáinak csökkentése érdekében.
- Ezután a lépés a megszerzett adatok tulajdonságainak keresése. Az adatok feltárásának jó módja az adatbányászati kérdések megválaszolása (amelyek az üzleti fázisban döntöttek) a lekérdezési, jelentéskészítő és vizualizációs eszközök segítségével.
- A lekérdezés eredménye alapján meg kell állapítani az adatok minőségét. Hiányzó adatok, ha vannak, be kell szerezni.
Adatok előkészítése
Ebben a fázisban az adatok készen állnak a gyártásra.
Az adat-előkészítési folyamat a projekt idejének mintegy 90%-át igényli.
A különböző forrásokból származó adatokat ki kell választani, meg kell tisztítani, átalakítani, formázni, anonimizálni és megszerkeszteni (ha szükséges).
Az adattisztítás az adatok „megtisztítására” szolgáló folyamat a zajos adatok simításával és a hiányzó értékek kitöltésével.
Például egy ügyfél demográfiai profiljához hiányoznak a koradatok. Az adatok hiányosak, ki kell tölteni. Egyes esetekben előfordulhatnak kiugró adatok. Például az életkor értéke 300. Az adatok inkonzisztensek lehetnek. Például a vevő neve eltérő a különböző táblákban.
Az adatátalakítási műveletek megváltoztatják az adatokat, hogy hasznosak legyenek az adatbányászatban. A következő transzformáció alkalmazható
Adatátalakítás
Az adatátalakítási műveletek hozzájárulnának a bányászati folyamat sikeréhez.
Simítás: Segít eltávolítani a zajt az adatokból.
Összesítés: Az adatokra összesítő vagy összesítő műveleteket alkalmaznak. Azaz a heti értékesítési adatok összesítése a havi és az éves végösszeg kiszámításához.
Általánosítás: Ebben a lépésben az alacsony szintű adatokat felváltja a magasabb szintű fogalmak fogalomhierarchiák segítségével. Például a város helyébe a megye lép.
Normalizálás: A normalizálás akkor történik, amikor az attribútumadatok felnagyítva vagy kicsinyítve vannak. Példa: Az adatoknak a -2.0 és 2.0 közötti tartományba kell esniük a normalizálás után.
Attribútum felépítése: ezek az attribútumok az adatbányászathoz szükséges adott attribútumkészletet tartalmazzák.
Ennek a folyamatnak az eredménye egy végső adathalmaz, amely felhasználható a modellezésben.
Modellezés
Ebben a fázisban matematikai modelleket használnak az adatminták meghatározására.
- Az elkészített adatállományhoz az üzleti célok alapján megfelelő modellezési technikákat kell kiválasztani.
- Hozzon létre egy forgatókönyvet a modell minőségének és érvényességének teszteléséhez.
- Futtassa a modellt az előkészített adatkészleten.
- Az eredményeket minden érdekelt félnek értékelnie kell, hogy megbizonyosodjon arról, hogy a modell megfelel az adatbányászati céloknak.
Értékelés
Ebben a fázisban az azonosított mintákat az üzleti célokhoz képest értékelik.
- Az adatbányászati modell által generált eredményeket az üzleti célokhoz képest kell értékelni.
- Az üzleti megértés megszerzése iteratív folyamat. Valójában, miközben megértjük, az adatbányászat miatt új üzleti követelmények is felmerülhetnek.
- A bevezetési szakaszban a modell mozgatása mellett döntenek.
bevetés
A telepítési szakaszban az adatbányászati felfedezéseket a mindennapi üzleti műveletekbe szállítja.
- Az adatbányászati folyamat során feltárt ismereteket vagy információkat könnyen érthetővé kell tenni a nem műszaki érdekelt felek számára.
- Részletes telepítési terv készül az adatbányászati felfedezések szállítására, karbantartására és figyelésére.
- A projekt zárójelentése készül, amely tartalmazza a projekt során levont tanulságokat és kulcsfontosságú tapasztalatokat. Ez segít a szervezet üzletpolitikájának javításában.
Adatbányászati technikák

1. Osztályozás
Ez az elemzés fontos és releváns információk lekérésére szolgál az adatokról és a metaadatokról. Ez az adatbányászati módszer segít az adatok osztályozásában különböző osztályokba.
2. ClusterING
ClusterAz elemzés az egymáshoz hasonló adatok azonosítására szolgáló adatbányászati technika. Ez a folyamat segít megérteni az adatok közötti különbségeket és hasonlóságokat.
3. Regresszió
A regresszióanalízis a változók közötti kapcsolatok azonosításának és elemzésének adatbányászati módszere. Egy adott változó valószínűségének azonosítására szolgál, tekintettel más változók jelenlétére.
4. Egyesületi szabályzat
Ez az adatbányászati technika segít megtalálni a kapcsolatot két vagy több elem között. Rejtett mintát fedez fel az adatkészletben.
5. Külső érzékelés
Az ilyen típusú adatbányászati technika olyan adatelemek megfigyelésére vonatkozik az adatkészletben, amelyek nem egyeznek a várt mintával vagy viselkedéssel. Ez a technika számos területen használható, mint például a behatolás, észlelés, csalás vagy hibaészlelés stb. A külső észlelést Outlier Analysisnek vagy Outlier bányászatnak is nevezik.
6. Szekvenciális minták
Ez az adatbányászati technika segít felfedezni vagy azonosítani a hasonló mintákat vagy trendeket a tranzakciós adatokban bizonyos időszakra vonatkozóan.
7. Jóslás
Az előrejelzés az adatbányászat egyéb technikáinak kombinációját használta, például trendeket, szekvenciális mintákat, klaszterezést, osztályozást stb. A múltbeli eseményeket vagy példányokat megfelelő sorrendben elemzi a jövőbeli események előrejelzéséhez.
Az adatbánya megvalósításának kihívásai
- Az adatbányászati lekérdezések megfogalmazásához képzett szakértőkre van szükség.
- Túlillesztés: A kis méretű oktatási adatbázis miatt előfordulhat, hogy egy modell nem illeszkedik a jövőbeli állapotokhoz.
- Az adatbányászat nagy adatbázisokat igényel, amelyeket néha nehéz kezelni
- Előfordulhat, hogy az üzleti gyakorlatokat módosítani kell a feltárt információk felhasználásának eldöntéséhez.
- Ha az adatkészlet nem változatos, előfordulhat, hogy az adatbányászati eredmények nem pontosak.
- A heterogén adatbázisokból és globális információs rendszerekből származó integrációs információk összetettek lehetnek
Adatbányászati példák
Most ezen az adatbányászati tanfolyamon példákkal ismerkedjünk meg az adatbányászattal:
Példa 1:
Fontolja meg a távközlési szolgáltatások marketingvezetőjét, aki növelni szeretné a távolsági szolgáltatások bevételeit. Az értékesítési és marketingtevékenységek magas megtérülése érdekében fontos az ügyfélprofil kialakítása. Hatalmas adattárral rendelkezik az ügyfelek információiról, például életkorról, nemről, jövedelmről, hiteltörténetről stb. De lehetetlen manuális elemzéssel meghatározni a távolsági hívásokat kedvelő emberek jellemzőit. Adatbányászati technikák segítségével feltárhatja a távolsági hívások felhasználói és jellemzői közötti mintákat.
Például megtudhatja, hogy legjobb vásárlói 45 és 54 év közötti házas nők, akik évente több mint 80,000 XNUMX dollárt keresnek. A marketing erőfeszítések az ilyen demográfiai csoportokra irányulhatnak.
Példa 2:
Egy bank új módszereket szeretne keresni a hitelkártya-műveleteiből származó bevételek növelésére. Azt akarják ellenőrizni, hogy a díjak felére csökkentése esetén megduplázódna-e a használat.
A bank több éves feljegyzéssel rendelkezik az átlagos hitelkártya-egyenlegekről, fizetési összegekről, hitelkeret-használatról és egyéb kulcsfontosságú paraméterekről. Modellt készítenek a javasolt új üzletpolitika hatásának ellenőrzésére. Az adatok azt mutatják, hogy a díjak felére csökkentése egy megcélzott ügyfélkör esetében 10 millió dollárral növelheti a bevételeket.
Adatbányászati eszközök
Az alábbiakban 2 népszerű Adatbányászati eszközök széles körben használják az iparban
R-nyelv:
R nyelv egy nyílt forráskódú eszköz statisztikai számításokhoz és grafikákhoz. Az R számos statisztikai, klasszikus statisztikai teszttel, idősoros elemzéssel, osztályozással és grafikus technikákkal rendelkezik. Hatékony adatkezelési és tárolási lehetőséget kínál.
Oracle Adatbányászat:
Oracle Data Mining népszerű nevén ODM egy modul a Oracle Advanced Analytics Database. Ez az adatbányászati eszköz lehetővé teszi az adatelemzők számára, hogy részletes betekintést nyerjenek és előrejelzéseket készítsenek. Segít előre jelezni az ügyfelek viselkedését, kialakítja a vásárlói profilokat, azonosítja a keresztértékesítési lehetőségeket.
Az adatbányászat előnyei
- Az adatbányászati technika segít a vállalatoknak tudásalapú információkhoz jutni.
- Az adatbányászat segíti a szervezeteket a működés és a termelés jövedelmező kiigazításában.
- Az adatbányászat költséghatékony és hatékony megoldás a többi statisztikai adatalkalmazáshoz képest.
- Az adatbányászat segíti a döntéshozatali folyamatot.
- Lehetővé teszi a trendek és viselkedések automatikus előrejelzését, valamint a rejtett minták automatikus felfedezését.
- Új rendszerekben és már meglévő platformokon is megvalósítható
- Ez a gyors folyamat, amely megkönnyíti a felhasználók számára hatalmas mennyiségű adat elemzését rövidebb idő alatt.
Az adatbányászat hátrányai
- Előfordulhat, hogy a cégek pénzért eladják ügyfeleik hasznos információit más cégeknek. Például az American Express eladta ügyfelei hitelkártyás vásárlásait más cégeknek.
- Sok adatbányászati elemző szoftvert nehéz működtetni, és előzetes képzést igényel.
- A különböző adatbányászati eszközök eltérő módon működnek a tervezésükben alkalmazott eltérő algoritmusok miatt. Ezért a megfelelő adatbányászati eszköz kiválasztása nagyon nehéz feladat.
- Az adatbányászati technikák nem pontosak, így bizonyos körülmények között súlyos következményekkel járhat.
Adatbányászati alkalmazások
| Alkalmazási területek | Használat |
|---|---|
| távközlés | Az adatbányászati technikákat a kommunikációs szektorban használják az ügyfelek viselkedésének előrejelzésére, hogy célzott és releváns kampányokat kínáljanak. |
| Biztosítás | Az adatbányászat segíti a biztosítótársaságokat abban, hogy termékeiket nyereségesen árazzák, és új ajánlatokat hirdessenek új vagy meglévő ügyfeleik számára. |
| Végzettség | Az adatbányászat révén az oktatók hozzáférhetnek a tanulói adatokhoz, megjósolhatják a teljesítményszinteket, és megtalálhatják azokat a tanulókat vagy tanulócsoportokat, amelyekre külön figyelmet kell fordítani. Például olyan diákok, akik gyengék a matematika tantárgyból. |
| Gyártás | Az adatbányászat segítségével a gyártók előre jelezhetik a termelési eszközök elhasználódását. Előre tudják látni a karbantartást, ami segít csökkenteni azokat, és minimalizálni az állásidőt. |
| Banking | Az adatbányászat segíti a pénzügyi szektort a piaci kockázatok áttekintésében és a szabályozási megfelelés kezelésében. Segít a bankoknak azonosítani a valószínűsíthető nemteljesítőket, hogy eldöntsék, kibocsássanak-e hitelkártyát, kölcsönt stb. |
| Kiskereskedelem | Az adatbányászati technikák segítenek a kiskereskedelmi bevásárlóközpontoknak és élelmiszerboltoknak azonosítani és a leginkább eladható cikkeket a legfigyelemesebb pozíciókban elrendezni. Segíti az üzlettulajdonosokat, hogy olyan ajánlattal álljanak elő, amely arra ösztönzi a vásárlókat, hogy növeljék kiadásaikat. |
| Szolgáltatók | Az olyan szolgáltatók, mint a mobiltelefon- és közüzemi iparágak, az adatbányászatot használják annak előrejelzésére, hogy az ügyfél miért hagyja el a céget. Elemezik a számlázási részleteket, az ügyfélszolgálati interakciókat, a vállalathoz intézett panaszokat, hogy minden ügyfélhez hozzárendeljenek egy valószínűségi pontszámot, és ösztönzőket kínálnak. |
| E-commerce | Az e-kereskedelmi webhelyek az adatbányászatot használják arra, hogy keresztértékesítést és felárértékesítést kínáljanak webhelyeiken keresztül. Az egyik leghíresebb név az Amazon, akik adatbányászati technikákat alkalmaznak, hogy több ügyfelet vonzanak be e-kereskedelmi üzletükbe. |
| Szuper piacok | Az adatbányászat lehetővé teszi a szupermarketek fejlesztési szabályainak előrejelzését, hogy a vásárlók várhatóan számítanak-e. Vásárlási szokásaik értékelésével olyan női vásárlókat találhatnak, akik nagy valószínűséggel terhesek. Megcélozhatják az olyan termékeket, mint a babapor, bababolt, pelenkák és így tovább. |
| Bűnügyi nyomozás | Az adatbányászat segít a bűnügyi nyomozó ügynökségeknek rendőri munkaerő bevetésében (hol és mikor történik a legvalószínűbb a bűncselekmény), kit kereshetnek a határátkelőhelyen stb. |
| bioinformatikai | Az adatbányászat segít bányászni a biológiai adatokat a biológiában és az orvostudományban összegyűjtött hatalmas adatkészletekből. |
Összegzésként
- Az adatbányászat definíciója: Az adatbányászat lényege a múlt magyarázata és a jövő előrejelzése Az adatok elemzése.
- Az adatbányászat nagy mennyiségű adathalmazból segít információt kinyerni. Ez az adatbányászat eljárása.
- Az adatbányászati folyamat magában foglalja az üzleti megértést, az adatok megértését, az adatok előkészítését, a modellezést, az evolúciót és a telepítést.
- A fontos adatbányászati technikák az osztályozás, a klaszterezés, a regresszió, az asszociációs szabályok, a külső észlelés, a szekvenciális minták és az előrejelzés
- R-nyelv és a Oracle Az adatbányászat kiemelkedő adatbányászati eszközök és technikák.
- Az adatbányászati technika segít a vállalatoknak tudásalapú információkhoz jutni.
- Az adatbányászat fő hátránya, hogy sok elemző szoftvert nehéz működtetni, és előzetes képzést igényel.
- Az adatbányászatot különféle iparágakban használják, mint például a kommunikáció, a biztosítás, az oktatás, a gyártás, a bankszektor, a kiskereskedelem, a szolgáltatók, az e-kereskedelem, a szupermarketek bioinformatika.
