Data Mining Tutorial: Hva er Data Mining? Teknikker, prosess
Hva er Data Mining?
Data Mining er en prosess for å finne potensielt nyttige mønstre fra enorme datasett. Det er en tverrfaglig ferdighet som bruker maskinlæring, statistikk og AI for å trekke ut informasjon for å evaluere sannsynligheten for fremtidige hendelser. Innsikten hentet fra Data Mining brukes til markedsføring, svindeloppdagelse, vitenskapelig oppdagelse, etc.
Data Mining handler om å oppdage skjulte, uventede og tidligere ukjente, men gyldige forhold mellom dataene. Data mining kalles også Knowledge Discovery in Data (KDD), Kunnskapsutvinning, data/mønsteranalyse, informasjonshøsting, etc.
Typer data
Data mining kan utføres på følgende typer data
- Relasjonsdatabaser
- Datavarehus
- Avansert DB og informasjonsrepositorier
- Objektorienterte og objektrelasjonelle databaser
- Transaksjonelle og romlige databaser
- Heterogene og eldre databaser
- Multimedia og streaming database
- Tekstdatabaser
- Tekst mining og web mining
Implementeringsprosess for Data Mining

La oss studere implementeringsprosessen for Data Mining i detalj
Forretningsforståelse
I denne fasen etableres forretnings- og datautvinningsmål.
- Først må du forstå forretnings- og klientmål. Du må definere hva klienten din vil ha (som mange ganger selv de ikke vet selv)
- Ta oversikt over det gjeldende data mining-scenarioet. Ta hensyn til ressurser, antakelser, begrensninger og andre viktige faktorer i vurderingen din.
- Bruk forretningsmål og gjeldende scenario for å definere datautvinningsmålene dine.
- En god datautvinningsplan er veldig detaljert og bør utvikles for å oppnå både forretnings- og datautvinningsmål.
Dataforståelse
I denne fasen utføres fornuftssjekk av data for å sjekke om det passer for datautvinningsmålene.
- For det første samles data inn fra flere tilgjengelige datakilder i organisasjonen.
- Disse datakildene kan inkludere flere databaser, flat filer eller datakuber. Det er problemer som objektmatching og skjemaintegrasjon som kan oppstå under dataintegreringsprosessen. Det er en ganske kompleks og vanskelig prosess ettersom data fra ulike kilder neppe passer sammen. For eksempel inneholder tabell A en enhet som heter kunde_nr, mens en annen tabell B inneholder en enhet som heter kunde-id.
- Derfor er det ganske vanskelig å sikre at begge disse gitte objektene refererer til samme verdi eller ikke. Her bør Metadata brukes for å redusere feil i dataintegrasjonsprosessen.
- Deretter er trinnet å søke etter egenskapene til innhentede data. En god måte å utforske dataene på er å svare på datautvinningsspørsmålene (avgjort i forretningsfasen) ved å bruke spørrings-, rapporterings- og visualiseringsverktøyene.
- Basert på resultatene av spørringen, bør datakvaliteten fastslås. Manglende data hvis noen skulle innhentes.
Dataforberedelse
I denne fasen gjøres data produksjonsklar.
Dataforberedelsesprosessen bruker omtrent 90 % av prosjektets tid.
Dataene fra forskjellige kilder bør velges, renses, transformeres, formateres, anonymiseres og konstrueres (hvis nødvendig).
Datarensing er en prosess for å "rense" dataene ved å jevne ut støyende data og fylle inn manglende verdier.
For en kundedemografisk profil mangler for eksempel aldersdata. Dataene er ufullstendige og bør fylles ut. I noen tilfeller kan det være dataavvik. For eksempel har alder en verdi 300. Data kan være inkonsekvente. For eksempel er navnet på kunden forskjellig i forskjellige tabeller.
Datatransformasjonsoperasjoner endrer dataene for å gjøre dem nyttige i datautvinning. Følgende transformasjon kan brukes
Datatransformasjon
Datatransformasjonsoperasjoner vil bidra til suksessen til gruveprosessen.
Utjevning: Det hjelper å fjerne støy fra dataene.
Aggregering: Oppsummerings- eller aggregeringsoperasjoner brukes på dataene. Dvs. de ukentlige salgsdataene er aggregert for å beregne den månedlige og årlige totalen.
Generalisering: I dette trinnet erstattes data på lavt nivå med konsepter på høyere nivå ved hjelp av konsepthierarkier. For eksempel erstattes byen av fylket.
normalisering: Normalisering utført når attributtdata skaleres opp eller nedskaleres. Eksempel: Data bør falle i området -2.0 til 2.0 etter normalisering.
Attributtkonstruksjon: disse attributtene er konstruert og inkludert det gitte settet med attributter som er nyttige for datautvinning.
Resultatet av denne prosessen er et endelig datasett som kan brukes i modellering.
Modellering
I denne fasen brukes matematiske modeller for å bestemme datamønstre.
- Basert på forretningsmålene bør egnede modelleringsteknikker velges for det utarbeidede datasettet.
- Lag et scenario for å teste kvaliteten og validiteten til modellen.
- Kjør modellen på det forberedte datasettet.
- Resultatene bør vurderes av alle interessenter for å sikre at modellen kan oppfylle målene for datautvinning.
Evaluering
I denne fasen blir identifiserte mønstre evaluert opp mot forretningsmålene.
- Resultater generert av data mining-modellen bør evalueres opp mot forretningsmålene.
- Å få forretningsforståelse er en iterativ prosess. Faktisk, mens du forstår, kan nye forretningskrav heves på grunn av datautvinning.
- En go eller no-go beslutning tas om å flytte modellen i distribusjonsfasen.
Utplassering
I distribusjonsfasen sender du datautvinningsfunnene dine til daglige forretningsdrifter.
- Kunnskapen eller informasjonen som oppdages under datautvinningsprosessen bør gjøres enkel å forstå for ikke-tekniske interessenter.
- En detaljert distribusjonsplan for frakt, vedlikehold og overvåking av datautvinningsfunn opprettes.
- Det lages en sluttprosjektrapport med erfaringer og nøkkelerfaringer i løpet av prosjektet. Dette er med på å forbedre organisasjonens forretningspolitikk.
Dataminingsteknikker

1. Klassifisering
Denne analysen brukes til å hente viktig og relevant informasjon om data, og metadata. Denne datautvinningsmetoden hjelper til med å klassifisere data i forskjellige klasser.
2. Clustering
Clustering-analyse er en datautvinningsteknikk for å identifisere data som er like hverandre. Denne prosessen bidrar til å forstå forskjellene og likhetene mellom dataene.
3. Regresjon
Regresjonsanalyse er data mining-metoden for å identifisere og analysere forholdet mellom variabler. Den brukes til å identifisere sannsynligheten for en spesifikk variabel, gitt tilstedeværelsen av andre variabler.
4. Foreningsregler
Denne data mining-teknikken hjelper til med å finne assosiasjonen mellom to eller flere elementer. Den oppdager et skjult mønster i datasettet.
5. Ytre deteksjon
Denne typen datautvinningsteknikk refererer til observasjon av dataelementer i datasettet som ikke samsvarer med et forventet mønster eller forventet oppførsel. Denne teknikken kan brukes i en rekke domener, som for eksempel inntrenging, deteksjon, svindel eller feildeteksjon osv. Ytre deteksjon kalles også Outlier Analysis eller Outlier mining.
6. Sekvensielle mønstre
Denne datautvinningsteknikken hjelper til med å oppdage eller identifisere lignende mønstre eller trender i transaksjonsdata for en bestemt periode.
7. Prediksjon
Prediction har brukt en kombinasjon av de andre teknikkene for data mining som trender, sekvensielle mønstre, klynging, klassifisering, etc. Den analyserer tidligere hendelser eller forekomster i riktig sekvens for å forutsi en fremtidig hendelse.
Utfordringer ved implementering av datagruve
- Dyktige eksperter er nødvendig for å formulere data mining-spørsmålene.
- Overtilpasning: På grunn av liten treningsdatabase kan det hende at en modell ikke passer i fremtidige tilstander.
- Data mining trenger store databaser som noen ganger er vanskelige å administrere
- Forretningspraksis må kanskje endres for å bestemme å bruke informasjonen som avdekkes.
- Hvis datasettet ikke er mangfoldig, kan det hende at datautvinningsresultatene ikke er nøyaktige.
- Integreringsinformasjon som trengs fra heterogene databaser og globale informasjonssystemer kan være kompleks
Eksempler på datautvinning
La oss nå i dette Data Mining-kurset lære om Data Mining med eksempler:
Eksempel 1:
Vurder en markedsføringssjef for telekomtjenester som ønsker å øke inntektene fra langdistansetjenester. For høy avkastning på hans salgs- og markedsføringsinnsats er kundeprofilering viktig. Han har en enorm datapool av kundeinformasjon som alder, kjønn, inntekt, kreditthistorikk, etc. Men det er umulig å fastslå karakteristika for personer som foretrekker langdistansesamtaler med manuell analyse. Ved å bruke data mining-teknikker kan han avdekke mønstre mellom langdistanseanropsbrukere og deres egenskaper.
For eksempel kan han lære at hans beste kunder er gifte kvinner mellom 45 og 54 år som tjener mer enn $80,000 XNUMX per år. Markedsføringstiltak kan målrettes mot slike demografiske.
Eksempel 2:
En bank ønsker å finne nye måter å øke inntektene fra kredittkortvirksomheten. De ønsker å sjekke om bruken ville dobles dersom avgiftene ble halvert.
Banken har flere års rekord på gjennomsnittlig kredittkortsaldo, betalingsbeløp, kredittgrensebruk og andre nøkkelparametere. De lager en modell for å sjekke virkningen av den foreslåtte nye næringspolitikken. Dataresultatene viser at halvering av avgiftene for en målrettet kundebase kan øke inntektene med 10 millioner dollar.
Datautvinningsverktøy
Følgende er 2 populære Datautvinningsverktøy mye brukt i industrien
R-språk:
R språk er et åpen kildekodeverktøy for statistisk databehandling og grafikk. R har et bredt utvalg av statistiske, klassiske statistiske tester, tidsserieanalyser, klassifisering og grafiske teknikker. Den tilbyr effektiv håndtering og lagring av data.
Oracle Datautvinning:
Oracle Data Mining populært kjent som ODM er en modul av Oracle Avansert analysedatabase. Dette datautvinningsverktøyet lar dataanalytikere generere detaljert innsikt og lage spådommer. Den hjelper til med å forutsi kundeadferd, utvikler kundeprofiler, identifiserer krysssalgsmuligheter.
Fordeler med Data Mining
- Data mining-teknikk hjelper bedrifter med å få kunnskapsbasert informasjon.
- Data mining hjelper organisasjoner med å gjøre de lønnsomme tilpasningene i drift og produksjon.
- Data mining er en kostnadseffektiv og effektiv løsning sammenlignet med andre statistiske dataapplikasjoner.
- Data mining hjelper med beslutningsprosessen.
- Forenkler automatisert prediksjon av trender og atferd samt automatisert oppdagelse av skjulte mønstre.
- Det kan implementeres i nye systemer så vel som eksisterende plattformer
- Det er den raske prosessen som gjør det enkelt for brukerne å analysere enorme mengder data på kortere tid.
Ulemper med Data Mining
- Det er sjanser for at selskaper kan selge nyttig informasjon om sine kunder til andre selskaper for penger. For eksempel har American Express solgt kredittkortkjøp av sine kunder til de andre selskapene.
- Mange data mining-analyseprogramvare er vanskelige å betjene og krever forhåndstrening å jobbe med.
- Ulike data mining-verktøy fungerer på forskjellige måter på grunn av forskjellige algoritmer som brukes i deres design. Derfor er valg av riktig data mining-verktøy en svært vanskelig oppgave.
- Teknikkene for datautvinning er ikke nøyaktige, og kan derfor forårsake alvorlige konsekvenser under visse forhold.
Data Mining-applikasjoner
| Applikasjoner | bruk |
|---|---|
| kommunikasjon | Data mining-teknikker brukes i kommunikasjonssektoren for å forutsi kundeadferd for å tilby svært målrettede og relevante kampanjer. |
| Forsikring | Data mining hjelper forsikringsselskaper med å prise sine produkter lønnsomme og fremme nye tilbud til sine nye eller eksisterende kunder. |
| Utdanning | Data mining gir lærere tilgang til elevdata, forutsi prestasjonsnivåer og finner elever eller grupper av elever som trenger ekstra oppmerksomhet. For eksempel elever som er svake i mattefag. |
| Produksjon | Ved hjelp av Data Mining kan produsenter forutsi slitasje på produksjonsmidler. De kan forutse vedlikehold som hjelper dem å redusere dem for å minimere nedetiden. |
| Banking | Data mining hjelper finanssektoren med å få et overblikk over markedsrisikoer og administrere regelverksoverholdelse. Det hjelper bankene med å identifisere sannsynlige misligholdere for å avgjøre om de skal utstede kredittkort, lån osv. |
| Detaljhandel | Data Mining-teknikker hjelper kjøpesentre og dagligvarebutikker med å identifisere og ordne mest salgbare varer i de mest oppmerksomme posisjonene. Det hjelper butikkeiere med å komme med tilbudet som oppmuntrer kundene til å øke forbruket. |
| Service Providers | Tjenesteleverandører som mobiltelefon- og verktøyindustri bruker Data Mining for å forutsi årsakene til at en kunde forlater selskapet. De analyserer faktureringsdetaljer, kundeserviceinteraksjoner, klager til selskapet for å tildele hver kunde en sannsynlighetsscore og tilbyr insentiver. |
| E-handel | Nettsteder for netthandel bruker Data Mining for å tilby krysssalg og oppsalg gjennom nettsidene deres. Et av de mest kjente navnene er Amazon, som bruker datautvinningsteknikker for å få flere kunder inn i e-handelsbutikken deres. |
| Supermarkeder | Data Mining lar supermarkeds utvikle regler for å forutsi om kundene deres sannsynligvis ventet. Ved å evaluere kjøpsmønsteret deres kunne de finne kvinnelige kunder som mest sannsynlig er gravide. De kan begynne å målrette produkter som babypulver, babybutikk, bleier og så videre. |
| Kriminalitetsetterforskning | Data Mining hjelper kriminalitetsetterforskningsbyråer med å distribuere politiansatte (hvor er det mest sannsynlig at en forbrytelse skjer og når?), hvem skal søke ved en grenseovergang osv. |
| bioinformatikk | Data Mining hjelper til med å utvinne biologiske data fra massive datasett samlet innen biologi og medisin. |
Sammendrag
- Data Mining-definisjon: Data Mining handler om å forklare fortiden og forutsi fremtiden via Dataanalyse.
- Data mining hjelper til med å trekke ut informasjon fra enorme sett med data. Det er prosedyren for å utvinne kunnskap fra data.
- Data mining-prosessen inkluderer forretningsforståelse, dataforståelse, dataforberedelse, modellering, evolusjon, distribusjon.
- Viktige datautvinningsteknikker er klassifisering, klynging, regresjon, assosiasjonsregler, ytre deteksjon, sekvensielle mønstre og prediksjon
- R-språk og Oracle Data mining er fremtredende data mining verktøy og teknikker.
- Data mining-teknikk hjelper bedrifter med å få kunnskapsbasert informasjon.
- Den største ulempen med data mining er at mange analyseprogramvare er vanskelige å betjene og krever forhåndstrening å jobbe med.
- Data mining brukes i forskjellige bransjer som kommunikasjon, forsikring, utdanning, produksjon, bank, detaljhandel, tjenesteleverandører, e-handel, supermarkeder bioinformatikk.
