Hva er datavitenskap? Introduksjon, grunnleggende Concepts & Prosess
Hva er datavitenskap?
data Science er studieomrรฅdet som involverer รฅ trekke ut innsikt fra enorme mengder data ved hjelp av ulike vitenskapelige metoder, algoritmer og prosesser. Det hjelper deg รฅ oppdage skjulte mรธnstre fra rรฅdataene. Begrepet datavitenskap har dukket opp pรฅ grunn av utviklingen av matematisk statistikk, dataanalyse og store data.
Data Science er et tverrfaglig felt som lar deg trekke ut kunnskap fra strukturerte eller ustrukturerte data. Datavitenskap lar deg oversette et forretningsproblem til et forskningsprosjekt og deretter oversette det tilbake til en praktisk lรธsning.
Hvorfor datavitenskap?
Her er betydelige fordeler ved รฅ bruke dataanalyseteknologi:
- Data er oljen for dagens verden. Med de riktige verktรธyene, teknologiene, algoritmene kan vi bruke data og konvertere dem til en tydelig forretningsfordel
- Data Science kan hjelpe deg med รฅ oppdage svindel ved hjelp av avanserte maskinlรฆringsalgoritmer
- Det hjelper deg รฅ forhindre betydelige รธkonomiske tap
- Gjรธr det mulig รฅ bygge intelligensevne i maskiner
- Du kan utfรธre sentimentanalyse for รฅ mรฅle kundemerkelojalitet
- Det lar deg ta bedre og raskere beslutninger
- Det hjelper deg รฅ anbefale det riktige produktet til den rette kunden for รฅ forbedre virksomheten din

Datavitenskapskomponenter
Statistikk
Statistikk er den mest kritiske enheten for grunnleggende datavitenskap, og det er metoden eller vitenskapen for รฅ samle inn og analysere numeriske data i store mengder for รฅ fรฅ nyttig innsikt.
Visualisering
Visualiseringsteknikk hjelper deg med รฅ fรฅ tilgang til enorme mengder data i lett forstรฅelige og fordรธyelige bilder.
Maskinlรฆring
Maskinlรฆring utforsker bygging og studier av algoritmer som lรฆrer รฅ lage spรฅdommer om uforutsette/fremtidige data.
Dyp lรฆring
Dyp lรฆring metode er ny maskinlรฆringsforskning der algoritmen velger analysemodellen som skal fรธlges.
Datavitenskapsprosess
Nรฅ i dette Opplรฆring i datavitenskap, vil vi lรฆre datavitenskapsprosessen:
1. Oppdagelse
Oppdagelsestrinnet involverer innhenting av data fra alle identifiserte interne og eksterne kilder, noe som hjelper deg med รฅ svare pรฅ forretningsspรธrsmรฅlet.
Dataene kan vรฆre:
- Logger fra webservere
- Data samlet inn fra sosiale medier
- Folketelling datasett
- Data strรธmmet fra nettkilder ved hjelp av APIer
2. Forberedelse
Data kan ha mange inkonsekvenser som manglende verdier, tomme kolonner, et feil dataformat, som mรฅ renses. Du mรฅ behandle, utforske og betinge data fรธr modellering. Jo renere dataene dine er, desto bedre er spรฅdommene dine.
3. Modellplanlegging
I dette stadiet mรฅ du bestemme metoden og teknikken for รฅ tegne forholdet mellom inngangsvariabler. Planlegging for en modell utfรธres ved รฅ bruke ulike statistiske formler og visualiseringsverktรธy. SQL-analysetjenester, R og SAS/tilgang er noen av verktรธyene som brukes til dette formรฅlet.
4. Modellbygging
I dette trinnet starter selve modellbyggingsprosessen. Her distribuerer Data scientist datasett for opplรฆring og testing. Teknikker som assosiasjon, klassifisering og clustering brukes pรฅ treningsdatasettet. Modellen, nรฅr den er klargjort, testes mot "testing"-datasettet.
5. Operationalisere
Du leverer den endelige basismodellen med rapporter, kode og tekniske dokumenter i dette stadiet. Modellen distribueres inn i et produksjonsmiljรธ i sanntid etter grundig testing.
6. Kommuniser resultater
I denne fasen blir de viktigste funnene formidlet til alle interessenter. Dette hjelper deg med รฅ avgjรธre om prosjektresultatene er en suksess eller en fiasko basert pรฅ input fra modellen.
Data Science Jobs Roller
De mest fremtredende jobbtitlene for Data Scientist er:
- Dataforsker
- Data Engineer
- Data analytiker
- statistiker
- Data Architect
- Dataadmin
- Business Analyst
- Data/Analytics Manager
La oss finne ut hva hver rolle innebรฆrer i detalj:
Dataforsker
rolle: En dataforsker er en profesjonell som administrerer enorme mengder data for รฅ komme opp med overbevisende forretningsvisjoner ved รฅ bruke ulike verktรธy, teknikker, metoder, algoritmer, etc.
sprรฅk: R, SAS, Python, SQL, Hive, Matlab, Pig, Spark
Data Engineer
Rolle: Rollen til en dataingeniรธr er รฅ jobbe med store mengder data. Han utvikler, konstruerer, tester og vedlikeholder arkitekturer som storskala prosesseringssystemer og databaser.
sprรฅk: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C++ og Perl
Data analytiker
Rolle: En dataanalytiker er ansvarlig for รฅ utvinne enorme mengder data. De vil se etter relasjoner, mรธnstre, trender i data. Later han eller hun vil levere overbevisende rapportering og visualisering for รฅ analysere dataene for รฅ ta de mest levedyktige forretningsbeslutningene.
sprรฅk: R, Python, HTML, JS, C, C++, SQL
statistiker
Rolle: Statistikeren samler inn, analyserer og forstรฅr kvalitative og kvantitative data ved hjelp av statistiske teorier og metoder.
sprรฅk: SQL, R, Matlab, Tableau, Python, Perl, Spark, og Hive
Dataadministrator
Rolle: Dataadministrator bรธr sรธrge for at database er tilgjengelig for alle relevante brukere. Han sรธrger ogsรฅ for at den fungerer riktig og beskytter den mot hacking.
sprรฅk: Ruby on Rails, SQL, Java, C# og Python
Business Analyst
Rolle: Denne profesjonelle trenger รฅ forbedre forretningsprosesser. Han/hun er et mellomledd mellom bedriftsledelsen og IT-avdelingen.
sprรฅk: SQL, Tableau, Power BI og, Python
Les ogsรฅ Data Science Intervju Spรธrsmรฅl og Svar: Klikk her
Verktรธy for datavitenskap
| Dataanalyse | Datavarehus | Datavisualisering | Maskinlรฆring |
|---|---|---|---|
| R, Spark, Python og SAS | Hadoop, SQL, Hive | R, Tableau, Rรฅ | Spark, Azure ML studio, Mahout |
Forskjellen mellom datavitenskap med BI (Business Intelligence)
| Parametre | Business Intelligence | data Science |
|---|---|---|
| Perception | Ser bakover | Ser frem |
| Datakilder | Strukturerte data. For det meste SQL, men en tid Data Warehouse) | Strukturerte og ustrukturerte data. Som logger, SQL, NoSQL eller tekst |
| Tilnรฆrming | Statistikk og visualisering | Statistikk, maskinlรฆring og graf |
| Vektlegging | Fortid nรฅtid | Analyse og nevro-lingvistisk programmering |
| verktรธy | Pentaho. Microsoft Bl, QlikView, | R, tensorflow |
Les ogsรฅ forskjellen mellom Data Science vs Machine: Klikk her
Anvendelser av datavitenskap
Noen anvendelser av datavitenskap er:
Internett-sรธk
Google-sรธk bruker datavitenskapelig teknologi for รฅ sรธke etter et spesifikt resultat innen en brรธkdel av et sekund
Anbefalingssystemer
For รฅ lage et anbefalingssystem. For eksempel ยซforeslรฅtte vennerยป pรฅ Facebook eller foreslรฅtte videoer pรฅ YouTube, alt gjรธres ved hjelp av Data Science.
Bilde- og talegjenkjenning
Tale gjenkjenner systemer som Siri, Google Assistant og Alexa som kjรธrer pรฅ datavitenskapsteknikken. Dessuten gjenkjenner Facebook vennen din nรฅr du laster opp et bilde med dem, ved hjelp av Data Science.
Spillverden
EA Sports, Sony, Nintendo bruker datavitenskapsteknologi. Dette forbedrer spillopplevelsen din. Spill er nรฅ utviklet ved hjelp av maskinlรฆringsteknikker, og de kan oppdatere seg selv nรฅr du gรฅr til hรธyere nivรฅer.
Online prissammenligning
PriceRunner, Junglee, Shopzilla jobber med datavitenskapsmekanismen. Her hentes data fra de aktuelle nettsidene ved hjelp av APIer.
Utfordringer ved datavitenskapsteknologi
- Et stort utvalg av informasjon og data er nรธdvendig for nรธyaktig analyse
- Ikke tilstrekkelig datavitenskapelig talentmasse tilgjengelig
- Ledelsen gir ikke รธkonomisk stรธtte til et datavitenskapsteam
- Utilgjengelighet/vanskelig tilgang til data
- Bedriftsbeslutningstakere bruker ikke datavitenskapelige resultater effektivt
- Det er vanskelig รฅ forklare datavitenskap for andre
- Privatlivs problemer
- Mangel pรฅ betydelig domeneekspert
- Hvis en organisasjon er veldig liten, kan den ikke ha et Data Science-team
Sammendrag
- Datavitenskap er studieomrรฅdet som involverer รฅ trekke ut innsikt fra enorme mengder data ved รฅ bruke ulike vitenskapelige metoder, algoritmer og prosesser.
- Statistikk, visualisering, dyp lรฆring, maskinlรฆring er viktige datavitenskapskonsepter.
- Datavitenskapsprosessen gรฅr gjennom oppdagelse, dataforberedelse, modellplanlegging, modellbygging, Operationalisere, kommunisere resultater.
- Viktige jobbroller for dataforsker er: 1) dataforsker 2) dataingeniรธr 3) dataanalytiker 4) statistiker 5) data Architect 6) Data Admin 7) Business Analyst 8) Data/Analytics Manager.
- R, SQL, Python, SaS er viktige datavitenskapelige verktรธy.
- Spรฅdommene til Business Intelligence ser bakover, mens for Data Science ser den fremover.
- Viktige anvendelser av datavitenskap er 1) Internettsรธk 2) Anbefalingssystemer 3) Bilde- og talegjenkjenning 4) Spillverden 5) Prissammenligning pรฅ nett.
- Det store utvalget av informasjon og data er den stรธrste utfordringen ved datavitenskapsteknologi.



