Mitä datatiede on? Johdanto, Perus Concepts & Käsitellä asiaa
Mikä on tietotiede?
data Science on tutkimusalue, johon liittyy oivallusten poimiminen valtavista tietomääristä käyttämällä erilaisia tieteellisiä menetelmiä, algoritmeja ja prosesseja. Se auttaa sinua löytämään piilotetut kuviot raakatiedoista. Termi Data Science on syntynyt matemaattisten tilastojen, data-analyysin ja evoluution vuoksi big data.
Tietotiede on monitieteinen ala, jonka avulla voit poimia tietoa strukturoidusta tai jäsentämättömästä tiedosta. Datatieteen avulla voit kääntää liiketoimintaongelman tutkimusprojektiksi ja sitten kääntää sen takaisin käytännölliseksi ratkaisuksi.
Miksi tietotiede?
Tässä on Data Analytics -tekniikan käytön merkittäviä etuja:
- Data on öljyä nykymaailmalle. Oikeilla työkaluilla, teknologioilla ja algoritmeilla voimme käyttää dataa ja muuntaa sen selkeäksi liiketoiminnaksi
- Data Science voi auttaa sinua havaitsemaan petokset kehittyneiden koneoppimisalgoritmien avulla
- Se auttaa sinua estämään merkittäviä rahallisia menetyksiä
- Mahdollistaa älykkyyden rakentamisen koneissa
- Voit suorittaa mielipideanalyysin arvioidaksesi asiakkaiden brändiuskollisuutta
- Sen avulla voit tehdä parempia ja nopeampia päätöksiä
- Se auttaa sinua suosittelemaan oikeaa tuotetta oikealle asiakkaalle liiketoimintasi tehostamiseksi

Datatieteen komponentit
tilastotiedot
Tilastot on tietotieteen perusteiden kriittisin yksikkö, ja se on menetelmä tai tiede, jolla kerätään ja analysoidaan suuria määriä numeerista tietoa hyödyllisten näkemysten saamiseksi.
Visualisointi
Visualisointitekniikan avulla pääset käsiksi valtaviin tietomääriin helposti ymmärrettävissä ja sulavassa kuvassa.
Koneen oppiminen
Koneen oppiminen tutkii sellaisten algoritmien rakentamista ja tutkimista, jotka oppivat ennustamaan odottamattomia/tulevia tietoja.
Deep Learning
Deep Learning menetelmä on uusi koneoppimistutkimus, jossa algoritmi valitsee noudatettavan analyysimallin.
Tietojenkäsittelyprosessi
Nyt tässä Datatieteen opetusohjelma, opimme tietotiedeprosessin:
1. Löytäminen
Löytövaihe sisältää tietojen hankkimisen kaikista tunnistetuista sisäisistä ja ulkoisista lähteistä, mikä auttaa sinua vastaamaan liiketoimintakysymykseen.
Tiedot voivat olla:
- Lokit verkkopalvelimista
- Sosiaalisesta mediasta kerätty data
- Väestön aineistot
- Data suoratoistettu verkkolähteistä sovellusliittymien avulla
2. Valmistautuminen
Tiedoissa voi olla monia epäjohdonmukaisuuksia, kuten puuttuvia arvoja, tyhjiä sarakkeita, virheellinen tietomuoto, joka on puhdistettava. Sinun täytyy käsitellä, tutkia ja käsitellä tietoja ennen mallintamista. Mitä puhtaampia tietosi ovat, sitä paremmat ovat ennustuksesi.
3. Mallin suunnittelu
Tässä vaiheessa sinun on määritettävä menetelmä ja tekniikka syötemuuttujien välisen suhteen piirtämiseksi. Mallin suunnittelu suoritetaan käyttämällä erilaisia tilastollisia kaavoja ja visualisointityökalut. SQL-analyysipalvelut, R ja SAS/access ovat joitain tähän tarkoitukseen käytettäviä työkaluja.
4. Mallirakennus
Tässä vaiheessa varsinainen mallinrakennusprosessi alkaa. Täällä Data Science jakaa tietojoukkoja koulutusta ja testausta varten. Tekniikoita, kuten assosiaatio, luokittelu ja klusterointi, sovelletaan harjoitustietojoukkoon. Kun malli on valmisteltu, se testataan "testaus" -tietojoukon kanssa.
5. Operakansallistaa
Tässä vaiheessa toimitat lopullisen perusmallin, jossa on raportteja, koodia ja teknisiä asiakirjoja. Malli otetaan käyttöön reaaliaikaisessa tuotantoympäristössä perusteellisen testauksen jälkeen.
6. Kommunikoi tulokset
Tässä vaiheessa tärkeimmät havainnot välitetään kaikille sidosryhmille. Tämä auttaa sinua päättämään, ovatko projektin tulokset onnistuneita vai epäonnistuneita mallin syötteiden perusteella.
Tietotieteen työtehtävien roolit
Tunnetuimmat Data Scientist -työnimikkeet ovat:
- Tiedon tutkija
- Data Engineer
- Data Analyst
- Tilastotieteilijä
- Päiväys Architect
- Tietojen järjestelmänvalvoja
- Business Analyst
- Data/Analytics Manager
Opitaan, mitä kukin rooli sisältää yksityiskohtaisesti:
Tiedon tutkija
Rooli: Data Scientist on ammattilainen, joka hallitsee valtavia tietomääriä luodakseen vakuuttavia liiketoimintanäkemyksiä käyttämällä erilaisia työkaluja, tekniikoita, menetelmiä, algoritmeja jne.
kielet: R, SAS, Python, SQL, Hive, Matlab, Pig, Spark
Data Engineer
Rooli: Rooli a tietotekniikka on työskennellyt suurten tietomäärien kanssa. Hän kehittää, rakentaa, testaa ja ylläpitää arkkitehtuureja, kuten suuria prosessointijärjestelmiä ja tietokantoja.
kielet: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C ++ ja Perl
Data Analyst
Rooli: Dataanalyytikko on vastuussa valtavien tietomäärien louhinnasta. He etsivät suhteita, malleja ja trendejä tiedoista. Later hän toimittaa vakuuttavia raportteja ja visualisointeja, joiden avulla voidaan analysoida tietoja kannattavimpien liiketoimintapäätösten tekemiseksi.
kielet: R, Python, HTML, JS, C, C++, SQL
Tilastotieteilijä
Rooli: Tilastomies kerää, analysoi ja ymmärtää laadullisia ja kvantitatiivisia tietoja käyttämällä tilastollisia teorioita ja menetelmiä.
kielet: SQL, R, Matlab, Tableau, Python, Perl, Sparkja Hive
Tietojen ylläpitäjä
Rooli: Tietojen järjestelmänvalvojan tulee varmistaa, että tietokanta on kaikkien asiaankuuluvien käyttäjien saatavilla. Hän myös varmistaa, että se toimii oikein ja pitää sen turvassa hakkerointi.
kielet: Ruby on Rails, SQL, Java, C# ja Python
Business Analyst
Rooli: Tämän ammattilaisen on parannettava liiketoimintaprosesseja. Hän toimii välittäjänä yritysjohtoryhmän ja IT-osaston välillä.
kielet: SQL, Tableau, Power BI ja Python
Lue myös Data Science -haastattelun kysymykset ja vastaukset: Klikkaa tästä
Työkalut datatieteeseen
| Data Analysis | Tietovarastointi | Tietojen visualisointi | Koneen oppiminen |
|---|---|---|---|
| R, Spark, Python ja SAS | Hadoop, SQL, Hive | R, Kuvaelma, Raaka | Spark, Azure ML studio, Mahout |
Ero datatieteen ja BI:n (Business Intelligence) välillä
| parametrit | Business Intelligence | data Science |
|---|---|---|
| Havainto | Katse taaksepäin | Katse Eteenpäin |
| Tietolähteet | Strukturoitu data. Enimmäkseen SQL, mutta jonkin aikaa Data Warehouse) | Strukturoitu ja jäsentämätön data. Kuten lokit, SQL, NoSQL tai teksti |
| Lähestymistapa | Tilastot ja visualisointi | Tilastot, koneoppiminen ja kaavio |
| painotus | Menneisyys ja nykyisyys | Analyysi ja neurolingvistinen ohjelmointi |
| Työkalut | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
Lue myös datatieteen ja koneen välinen ero: Klikkaa tästä
Datatieteen sovellukset
Jotkut datatieteen sovellukset ovat:
Internet-haku
Google-haku käyttää Data Science -tekniikkaa tietyn tuloksen hakemiseen sekunnin murto-osassa
Suositusjärjestelmät
Suositusjärjestelmän luominen. Esimerkiksi "ehdotetut ystävät" Facebookissa tai ehdotetut videot YouTube, kaikki tehdään Data Sciencen avulla.
Kuvan ja puheentunnistus
Puhe tunnistaa järjestelmät, kuten Siri, Google Assistant ja Alexa, jotka toimivat Data science -tekniikalla. Lisäksi Facebook tunnistaa ystäväsi, kun lataat kuvan heidän kanssaan Data Sciencen avulla.
Pelimaailma
EA Sports, Sony ja Nintendo käyttävät tietotekniikkatekniikkaa. Tämä parantaa pelikokemustasi. Pelejä kehitetään nyt koneoppimistekniikoilla, ja ne voivat päivittää itsensä, kun siirryt korkeammalle tasolle.
Hintavertailu verkossa
PriceRunner, Junglee, Shopzilla työskentelevät tietotieteen mekanismin parissa. Täällä tiedot haetaan asiaankuuluvilta verkkosivustoilta API:iden avulla.
Tietotekniikan haasteet
- Tarkkaa analyysiä varten tarvitaan paljon erilaisia tietoja
- Riittämätöntä datatieteen lahjakkuutta ei ole saatavilla
- Johto ei tarjoa taloudellista tukea datatieteiden tiimille
- Tietojen saatavuus / vaikea pääsy tietoihin
- Liiketoiminnan päättäjät eivät käytä datatieteen tuloksia tehokkaasti
- Datatieteen selittäminen muille on vaikeaa
- Tietosuojakysymykset
- Merkittävän toimialueen asiantuntijan puute
- Jos organisaatio on hyvin pieni, sillä ei voi olla Data Science -tiimiä
Yhteenveto
- Tietotiede on tutkimusalue, joka sisältää oivalluksia valtavista tietomääristä käyttämällä erilaisia tieteellisiä menetelmiä, algoritmeja ja prosesseja.
- Tilastot, visualisointi, syväoppiminen ja koneoppiminen ovat tärkeitä datatieteen käsitteitä.
- Tietotiedeprosessi käy läpi löytämisen, tietojen valmistelun, mallisuunnittelun, mallin rakentamisen, Operarationalisoi, kommunikoi tulokset.
- Tärkeitä datatutkijan työtehtäviä ovat: 1) Data Scientist 2) Data Engineer 3) Data Analyst 4) Statistician 5) Data Architect 6) Data Admin 7) Business Analyst 8) Data/Analytics Manager.
- R, SQL, Python, SaS ovat tärkeitä tietotieteen työkaluja.
- Business Intelligencen ennusteet katsovat taaksepäin, kun taas Data Sciencen ennusteet katsovat eteenpäin.
- Tietotieteen tärkeitä sovelluksia ovat 1) Internet-haku 2) suositusjärjestelmät 3) kuvan ja puheen tunnistus 4) pelimaailma 5) online-hintavertailu.
- Tiedon ja datan suuri valikoima on datatiedeteknologian suurin haaste.



