Mi az adattudomány? Bevezetés, Alap Concepts & Folyamat
Mi az adattudomány?
Data Science az a kutatási terület, amely magában foglalja a betekintést hatalmas mennyiségű adatból különböző tudományos módszerek, algoritmusok és folyamatok segítségével. Segít felfedezni a rejtett mintákat a nyers adatokból. Az adattudomány kifejezés a matematikai statisztika, az adatelemzés és az evolúció miatt jelent meg big adatok.
Az adattudomány egy interdiszciplináris terület, amely lehetővé teszi a tudás kinyerését strukturált vagy strukturálatlan adatokból. Az adattudomány lehetővé teszi, hogy egy üzleti problémát kutatási projektté alakítson, majd visszafordítsa gyakorlati megoldássá.
Miért az adattudomány?
Íme a Data Analytics technológia használatának jelentős előnyei:
- Az adatok a mai világ olaja. A megfelelő eszközökkel, technológiákkal, algoritmusokkal az adatokat felhasználhatjuk és kifejezetten üzleti előnyökké alakíthatjuk
- A Data Science fejlett gépi tanulási algoritmusok segítségével segíthet felderíteni a csalásokat
- Segít megelőzni a jelentős pénzügyi veszteségeket
- Lehetővé teszi az intelligencia képesség kiépítését a gépekben
- Érzelemelemzést végezhet az ügyfelek márkahűségének felmérésére
- Lehetővé teszi, hogy jobb és gyorsabb döntéseket hozzon
- Segít abban, hogy a megfelelő terméket ajánlja a megfelelő vásárlónak, hogy javítsa vállalkozását

Adattudományi komponensek
Statisztika
A statisztika az adattudományi alapismeretek legkritikusabb egysége, és a numerikus adatok nagy mennyiségben történő gyűjtésének és elemzésének módszere vagy tudománya, hogy hasznos betekintést nyerjünk.
Megjelenítés
A vizualizációs technika segítségével hatalmas mennyiségű adathoz férhet hozzá könnyen érthető és emészthető vizualizációban.
Gépi tanulás
Gépi tanulás olyan algoritmusok felépítését és tanulmányozását kutatja, amelyek megtanulnak előrejelezni az előre nem látható/jövőbeli adatokkal kapcsolatban.
Deep Learning
Deep Learning A módszer egy új gépi tanulási kutatás, ahol az algoritmus kiválasztja a követendő elemzési modellt.
Adattudományi folyamat
Most ebben Adattudományi oktatóanyag, megtanuljuk az adattudományi folyamatot:
1. Felfedezés
A felderítési lépés magában foglalja az összes azonosított belső és külső forrásból származó adatok beszerzését, ami segít megválaszolni az üzleti kérdést.
Az adatok lehetnek:
- Naplók webszerverekről
- A közösségi médiából gyűjtött adatok
- Népszámlálási adatkészletek
- Az API-k segítségével online forrásokból streamelt adatok
2. Készítmény
Az adatokban sok inkonzisztencia lehet, például hiányzó értékek, üres oszlopok, helytelen adatformátum, amelyet meg kell tisztítani. A modellezés előtt fel kell dolgozni, fel kell tárni és kondicionálni kell az adatokat. Minél tisztábbak az adatai, annál jobbak az előrejelzései.
3. Modelltervezés
Ebben a szakaszban meg kell határoznia a módszert és a technikát a bemeneti változók közötti kapcsolat megrajzolásához. A modell tervezése különböző statisztikai képletek és képletek felhasználásával történik vizualizációs eszközök. Az SQL elemzési szolgáltatások, az R és a SAS/access néhány olyan eszköz, amelyet erre a célra használnak.
4. Modellkészítés
Ebben a lépésben elindul a tényleges modellépítési folyamat. Itt a Data tudós adatkészleteket oszt ki képzéshez és teszteléshez. A betanítási adatkészletre olyan technikákat alkalmaznak, mint az asszociáció, osztályozás és klaszterezés. Az elkészített modellt teszteljük a „tesztelési” adatkészlettel.
5. Operaracionalizálni
Ebben a szakaszban szállítja le a végső alapmodellt jelentésekkel, kóddal és műszaki dokumentumokkal. A modell alapos tesztelés után valós idejű termelési környezetbe kerül.
6. Közölje az eredményeket
Ebben a szakaszban a legfontosabb megállapításokat minden érdekelt féllel közöljük. Ez segít eldönteni, hogy a projekt eredménye sikeres vagy kudarc a modell bemenetei alapján.
Adattudományi munkakörök
A Data Scientist legjelentősebb munkakörei a következők:
- Adat tudós
- Az adatok Engineer
- Data Analyst
- Statisztikus
- dátum Archikivédik
- Adatadminisztrátor
- Business Analyst
- Data/Analytics Manager
Tanuljuk meg részletesen, mit takarnak az egyes szerepek:
Adat tudós
Szerep: A Data Scientist olyan szakember, aki hatalmas mennyiségű adatot kezel, hogy lenyűgöző üzleti elképzeléseket alkosson különféle eszközök, technikák, módszertanok, algoritmusok stb. segítségével.
Nyelvek: R, SAS, Python, SQL, Hive, Matlab, Pig, Spark
Az adatok Engineer
Szerep: A szerepe a adatmérnök nagy mennyiségű adattal dolgozik. Olyan architektúrákat fejleszt, konstruál, tesztel és karbantart, mint a nagyméretű feldolgozórendszerek és adatbázisok.
Nyelvek: SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C + + és Perl
Data Analyst
Szerep: Egy adatelemző felelős hatalmas mennyiségű adat bányászatáért. Kapcsolatokat, mintákat, trendeket fognak keresni az adatokban. Later meggyőző jelentéseket és vizualizációkat fog készíteni az adatok elemzéséhez a legéletképesebb üzleti döntések meghozatalához.
Nyelvek: R, Python, HTML, JS, C, C++, SQL
Statisztikus
Szerep: A statisztikus statisztikai elméletek és módszerek segítségével gyűjti, elemzi és megérti a kvalitatív és kvantitatív adatokat.
Nyelvek: SQL, R, Matlab, Tableau, Python, Perl, Sparkés Hive
Adatkezelő
Szerep: Az adatadminisztrátornak biztosítania kell, hogy a adatbázis minden érintett felhasználó számára elérhető. Azt is biztosítja, hogy megfelelően működjön, és megóvja attól hacker.
Nyelvek: Ruby on Rails, SQL, Java, C# és Python
Business Analyst
Szerep: Ennek a szakembernek javítania kell az üzleti folyamatokat. Közvetítő a cégvezetői csapat és az informatikai részleg között.
Nyelvek: SQL, Tableau, Power BI és Python
Olvassa el a Data Science Interjú kérdések és válaszok című részt is: Kattints ide
Eszközök az adattudományhoz
| Az adatok elemzése | Adattárolás | Adatok megjelenítése | Gépi tanulás |
|---|---|---|---|
| R, Spark, Python és a SAS | Hadoop, SQL, Kaptár | R, Csoportkép, Nyers | Spark, Azure ML stúdió, Mahout |
Az adattudomány és a BI (üzleti intelligencia) közötti különbség
| paraméterek | Üzleti intelligencia | Data Science |
|---|---|---|
| Észlelés | hátranézett | Előretekintés |
| Adatforrások | Strukturált adatok. Többnyire SQL, de időnként Data Warehouse) | Strukturált és strukturálatlan adatok. Például naplók, SQL, NoSQL vagy szöveg |
| Megközelítés | Statisztika és vizualizáció | Statisztika, gépi tanulás és grafikon |
| Hangsúly | Múlt és jelen | Elemzés és neurolingvisztikai programozás |
| Eszközök | Pentaho. Microsoft Bl, QlikView, | R, TensorFlow |
Olvassa el a Data Science vs Machine közötti különbséget is: Kattints ide
Az adattudomány alkalmazásai
Az adattudomány néhány alkalmazása:
Internetes keresés
A Google keresés a Data Science technológiát használja, hogy a másodperc töredéke alatt megkeressen egy adott találatot
Ajánlórendszerek
Ajánlórendszer létrehozása. Például: „Barátok javasolt” a Facebookon vagy javasolt videók” a YouTube, minden a Data Science segítségével történik.
Kép- és beszédfelismerés
A beszéd olyan rendszereket ismer fel, mint a Siri, a Google Assistant és az Alexa, amelyek a Data science technikán futnak. Sőt, a Facebook a Data Science segítségével felismeri a barátodat, amikor feltöltöd vele a fényképet.
Játékvilág
Az EA Sports, a Sony és a Nintendo Data Science technológiát használ. Ez javítja a játékélményt. A játékokat ma már gépi tanulási technikákkal fejlesztik, és magasabb szintre lépve frissíthetik magukat.
Online ár-összehasonlítás
A PriceRunner, a Junglee, a Shopzilla az adattudományi mechanizmuson dolgozik. Itt API-k segítségével lekérik az adatokat a releváns webhelyekről.
Az adattudományi technológia kihívásai
- A pontos elemzéshez sokféle információra és adatra van szükség
- Nem áll rendelkezésre megfelelő adattudományi tehetségállomány
- A vezetőség nem nyújt pénzügyi támogatást egy adattudományi csapat számára
- Az adatok elérhetetlensége/nehéz hozzáférése
- Az üzleti döntéshozók nem használják hatékonyan az adattudomány eredményeit
- Nehéz elmagyarázni másoknak az adattudományt
- Adatvédelmi problémák
- Jelentős területi szakértő hiánya
- Ha egy szervezet nagyon kicsi, akkor nem lehet Data Science csapata
Összegzésként
- Az adattudomány az a kutatási terület, amely magában foglalja a betekintést hatalmas mennyiségű adatból különféle tudományos módszerek, algoritmusok és folyamatok segítségével.
- A statisztika, a vizualizáció, a mély tanulás és a gépi tanulás fontos adattudományi fogalmak.
- Az adattudományi folyamat felfedezés, adat-előkészítés, modelltervezés, modellépítés, Operaracionalizálja, kommunikálja az eredményeket.
- A fontos adattudós munkakörök a következők: 1) adattudós 2) adatmérnök 3) adatelemző 4) statisztikus 5) adatkezelő Architect 6) Data Admin 7) Business Analyst 8) Data/Analytics Manager.
- R, SQL, Python, az SaS alapvető adattudományi eszközök.
- Az üzleti intelligencia előrejelzései visszafelé tekintenek, míg a Data Science esetében előre tekintenek.
- Az adattudomány fontos alkalmazásai: 1) Internetes keresés 2) Ajánlórendszerek 3) Kép- és beszédfelismerés 4) Játékvilág 5) Online ár-összehasonlítás.
- Az információk és adatok sokfélesége az adattudományi technológia legnagyobb kihívása.



