50 parimat andmeteaduse intervjuu küsimust ja vastust (PDF)

Siin on Data Science'i intervjuu küsimused ja vastused nii värskematele kui ka kogenumatele kandidaatidele oma unistuste töökoha saamiseks.

 

Andmeteaduse intervjuuküsimused esmakursuslastele

1. Mis on andmeteadus?

Andmeteadus on uurimisvaldkond, mis hõlmab erinevate teaduslike meetodite, algoritmide ja protsesside abil teadmiste hankimist tohututest andmehulkadest. See aitab teil algandmetest peidetud mustreid avastada. Mõiste andmeteadus on tekkinud matemaatilise statistika, andmeanalüüsi ja suurandmete arengu tõttu.


2. Mis vahe on andmeteadusel ja masinõppel?

andmed Science on algoritmide, tööriistade ja masinõppetehnika kombinatsioon, mis aitab leida antud algandmetest levinumaid peidetud mustreid. Masinõpe on arvutiteaduse haru, mis tegeleb süsteemi programmeerimisega, et automaatselt õppida ja kogemustega täiustada.

andmed Science


3. Nimetage kolme tüüpi kõrvalekaldeid, mis võivad esineda valimi võtmisel

Valimi moodustamise protsessis on kolme tüüpi eelarvamusi, milleks on:

  • Valiku eelarvamus
  • Katvuse kallutatuse all
  • Ellujäämise eelarvamus

4. Arutage otsustuspuu algoritmi

Otsustuspuu on populaarne juhendatud masinõppe algoritm. Seda kasutatakse peamiselt regressiooni ja klassifitseerimise jaoks. See võimaldab jagada andmestiku väiksemateks alamhulkadeks. Otsustuspuu suudab käsitleda nii kategoorilisi kui ka arvulisi andmeid.


5. Mis on eelnev tõenäosus ja tõenäosus?

Eelnev tõenäosus on sõltuva muutuja osakaal andmekogumis, tõenäosus aga tõenäosus, et antud vaatleja klassifitseeritakse mõne muu muutuja olemasolul.


6. Selgitage Recommender Systems?

See on teabe filtreerimise tehnikate alamklass. See aitab teil ennustada eelistusi või hinnanguid, mida kasutajad tootele tõenäoliselt annavad.


7. Nimeta kolm lineaarse mudeli kasutamise puudust

Lineaarse mudeli kolm puudust on:

  • Vigade lineaarsuse eeldus.
  • Seda mudelit ei saa kasutada binaar- ega loendustulemuste jaoks
  • Seal on palju ülepaigutamisprobleeme, mida see lahendada ei suuda

8. Miks peate uuesti proovi võtma?

Proovide uuesti võtmine toimub järgmistel juhtudel:

  • Näidisstatistika täpsuse hindamine, joonistades juhuslikult, asendades andmepunktide komplekti või kasutades juurdepääsetavate andmete alamhulkadena
  • Andmepunktide siltide asendamine vajalike testide tegemisel
  • Mudelite valideerimine juhuslike alamhulkade abil

9. Loetlege sisse olevad raamatukogud Python kasutatakse andmete analüüsiks ja teaduslikeks arvutusteks.


10. Mis on võimsuse analüüs?

Võimsuse analüüs on eksperimentaalse disaini lahutamatu osa. See aitab teil määrata valimi suurust, mida on vaja, et selgitada välja antud suuruse mõju konkreetse kindlustasemega põhjusest. Samuti võimaldab see kasutada valimi suuruse piirangus konkreetset tõenäosust.


11. Selgitage koostööpõhist filtreerimist

Koostööfiltreerimine, mida kasutatakse õigete mustrite otsimiseks ühiste seisukohtade, mitme andmeallika ja erinevate agentide kaudu.


12. Mis on eelarvamus?

Eelarvamus on teie mudelisse lisatud viga masinõppe algoritmi liigse lihtsustamise tõttu. See võib viia alasobivuseni.


13. Arutage "naiivset" naiivse Bayesi algoritmis?

Naiivse Bayesi algoritmi mudel põhineb Bayesi teoreemil. See kirjeldab sündmuse tõenäosust. See põhineb eelnevatel teadmistel tingimuste kohta, mis võivad olla selle konkreetse sündmusega seotud.


14. Mis on lineaarne regressioon?

Lineaarne regressioon on statistiline programmeerimismeetod, kus muutuja 'A' skoor ennustatakse teise muutuja 'B' skoorist. B-d nimetatakse ennustavaks muutujaks ja A-d kriteeriumi muutujaks.


15. Märkige eeldatava väärtuse ja keskmise väärtuse erinevus

Neil pole palju erinevusi, kuid neid mõlemaid termineid kasutatakse erinevates kontekstides. Keskmisele väärtusele viidatakse tavaliselt siis, kui arutlete tõenäosusjaotuse üle, samas kui oodatavale väärtusele viidatakse juhusliku muutuja kontekstis.


16. Mis on A/B testimise eesmärk?

AB-testimist kasutatakse juhuslike katsete läbiviimiseks kahe muutujaga A ja B. Selle testimismeetodi eesmärk on välja selgitada muudatused veebilehel, et maksimeerida või suurendada strateegia tulemust.


17. Mis on ansambliõpe?

Ansambel on meetod, mille abil kombineeritakse erinevaid õppijaid, et improviseerida mudeli stabiilsuse ja ennustamisvõime üle. Ansambelõppe meetodid on kahte tüüpi:

Bagging

Kottimise meetod aitab teil rakendada sarnaseid õppijaid väikestes valimipopulatsioonides. See aitab teil teha lähemaid ennustusi.

Elavdamine

Suurendamine on iteratiivne meetod, mis võimaldab teil kohandada vaatluse kaalu sõltuvalt viimasest klassifikatsioonist. Suurendamine vähendab kallutatuse viga ja aitab teil luua tugevaid ennustavaid mudeleid.


18. Selgitage omaväärtust ja omavektorit

Omavektorid on mõeldud lineaarsete teisenduste mõistmiseks. Andmeteadlane peab arvutama kovariatsioonimaatriksi või korrelatsiooni omavektorid. Omaväärtused on suunad, mis kasutavad konkreetseid lineaarseid teisendustoiminguid tihendamise, pööramise või venitamise teel.


19. Defineerige mõiste ristvalideerimine

Ristvalideerimine on valideerimismeetod, mille abil hinnatakse, kuidas statistilise analüüsi tulemused sõltumatute andmekogumite puhul üldistavad. Seda meetodit kasutatakse taustal, kus eesmärk on prognoositud, ja tuleb hinnata, kui täpselt mudel saavutab.


20. Selgitage andmeanalüütika projekti samme

Järgmised on analüüsiprojektiga seotud olulised sammud.

  • Mõistke äriprobleemi
  • Uurige andmeid ja uurige neid hoolikalt.
  • Valmistage andmed ette modelleerimiseks, leides puuduvad väärtused ja teisendades muutujaid.
  • Alustage mudeli käitamist ja analüüsige suurandmete tulemust.
  • Kinnitage mudel uue andmekogumiga.
  • Rakendage mudel ja jälgige tulemust, et analüüsida mudeli toimivust konkreetsel perioodil.

21. Arutage tehisnärvivõrke

Tehisnärvivõrgud (ANN) on spetsiaalne algoritmide komplekt, mis on muutnud masinõppe. See aitab teil kohaneda vastavalt muutuvale sisendile. Seega loob võrk parima võimaliku tulemuse ilma väljundkriteeriume ümber kujundamata.


22. Mis on tagasipaljundamine?

Tagasi-levi on närvivõrgu treenimise olemus. See on meetod närvivõrgu kaalude häälestamiseks, mis sõltub eelmises epohhis saadud veamäärast. Õige häälestamine aitab teil vähendada veamäära ja muuta mudel usaldusväärseks, suurendades selle üldistust.


23. Mis on juhuslik mets?

Juhuslik mets on masinõppemeetod, mis aitab teil täita igat tüüpi regressiooni- ja klassifitseerimisülesandeid. Seda kasutatakse ka puuduvate väärtuste ja kõrvalekallete väärtuste käsitlemiseks.


24. Mis tähtsus on valiku erapoolikusel?

Valiku kallutatus ilmneb siis, kui üksikisikute või rühmade või analüüsitavate andmete valimisel ei saavutata spetsiifilist randomiseerimist. See viitab sellele, et antud valim ei esinda täpselt populatsiooni, mida kavatseti analüüsida.


25. Mis on K-keskmiste klasterdamismeetod?

K-keskmiste klasterdamine on oluline juhendamata õppemeetod. See on meetod andmete klassifitseerimiseks, kasutades teatud klastrite komplekti, mida nimetatakse K-klastriteks. Seda kasutatakse rühmitamiseks, et välja selgitada andmete sarnasus.


Andmeteadlase intervjuu küsimused kogenud inimestele

26. Selgitage andmeteaduse ja andmeanalüüsi erinevust

Andmeteadlased peavad andmeid tükeldama, et saada väärtuslikku teavet, mida andmeanalüütik saab reaalsete äristsenaariumide puhul rakendada. Peamine erinevus nende kahe vahel on see, et andmeteadlastel on rohkem tehnilisi teadmisi kui ärianalüütikutel. Pealegi ei pea nad andmete visualiseerimiseks vajalikust ärist aru saama.


27. Selgitage p-väärtust?

Kui teete statistikas hüpoteesi testi, võimaldab p-väärtus määrata tulemuste tugevuse. See on numbriline arv vahemikus 0 kuni 1. Väärtuse põhjal aitab see teil tähistada konkreetse tulemuse tugevust.


28. Defineerige mõiste sügav õppimine

Süvaõpe on masinõppe alamliik. See on seotud algoritmidega, mis on inspireeritud struktuurist, mida nimetatakse tehisnärvivõrkudeks (ANN).


29. Selgitage andmete kogumise ja analüüsimise meetodit, et kasutada sotsiaalmeediat ilmastikutingimuste ennustamiseks.

Sotsiaalmeedia andmeid saate koguda Facebooki, Twitteri, Instagrami API-de abil. Näiteks tweeteri jaoks saame koostada igast säutsist funktsiooni, nagu säutsumise kuupäev, retweets, jälgijate loend jne. Seejärel saate ilmastiku ennustamiseks kasutada mitme muutujaga aegrea mudelit.


30. Millal on vaja andmeteaduse algoritmi uuendada?

Algoritmi peate värskendama järgmises olukorras:

  • Soovite, et teie andmemudel areneks andmevoogudena, kasutades infrastruktuuri
  • Alusandmeallikas muutub, kui see on mittestatsionaarsus

31. Mis on normaaljaotus

Normaaljaotus on pideva muutuja kogum, mis on levinud üle normaalkõvera või kellukese kõvera kujul. Seda võib pidada pidevaks tõenäosusjaotuseks, mis on statistikas kasulik. Muutujaid ja nende seoseid on kasulik analüüsida, kui kasutame normaaljaotuse kõverat.


32. Milline keel on tekstianalüütika jaoks parim? R või Python?

Python sobib paremini tekstianalüütika jaoks, kuna see koosneb rikkalikust pandadest tuntud raamatukogust. See võimaldab teil kasutada kõrgetasemelist andmeanalüüsi tööriistad ja andmestruktuurid, samas kui R seda funktsiooni ei paku.


33. Selgitage andmeteadlaste statistika kasutamise eeliseid

Statistika aitab andmeteadlasel saada parema ülevaate kliendi ootustest. Statistilise meetodi abil saavad andmeteadlased saada teadmisi tarbija huvide, käitumise, kaasamise, säilitamise jms kohta. Samuti aitab see luua võimsaid andmemudeleid teatud järelduste ja ennustuste kinnitamiseks.


34. Nimetage erinevat tüüpi süvaõppe raamistikke

  • pütorch
  • Microsoft Kognitiivne tööriistakomplekt
  • TensorFlow
  • Kohv
  • Chainer
  • Keras

35. Selgitage automaatkodeerijat

Autoencoders on õppevõrgud. See aitab teil muuta sisendid väiksema vigade arvuga väljunditeks. See tähendab, et väljund on sisendile võimalikult lähedal.


36. Defineeri Boltzmanni masin

Boltzmanni masinad on lihtne õppealgoritm. See aitab teil avastada funktsioone, mis esindavad treeningandmete keerulisi seaduspärasusi. See algoritm võimaldab optimeerida antud probleemi kaalusid ja kogust.


37. Selgitage, miks andmete puhastamine on hädavajalik ja millist meetodit kasutate andmete puhaste säilitamiseks

Määrdunud andmed viivad sageli vale sisemuseni, mis võib kahjustada mis tahes organisatsiooni väljavaateid. Näiteks kui soovite läbi viia suunatud turunduskampaaniat. Kuid meie andmed näitavad teile valesti, et konkreetne toode on teie sihtrühma jaoks nõutud; kampaania ebaõnnestub.


38. Mis on viltune jaotus ja ühtlane jaotus?

Viltu jaotus ilmneb siis, kui andmed jaotatakse graafiku ükskõik millisele küljele, samas kui ühtlane jaotus tuvastatakse siis, kui andmed on jaotunud vahemikus.


39. Kui staatilises mudelis esineb alasobitamist?

Alasobitamine ilmneb siis, kui statistiline mudel või masinõppe algoritm ei suuda tabada andmete aluseks olevat trendi.


40. Mis on tugevdusõpe?

Tugevdusõpe on õppimismehhanism, kuidas kaardistada olukordi tegudega. Lõpptulemus peaks aitama teil binaarset tasu signaali suurendada. Selle meetodi puhul ei öelda õppijale, millist tegevust ta peab tegema, vaid ta peab avastama, milline tegevus pakub maksimaalset tasu. Kuna see meetod põhineb tasu/karistuse mehhanismil.


41. Nimetage sagedamini kasutatavad algoritmid.

Neli andmeteadlase kõige sagedamini kasutatavat algoritmi on:

  • Lineaarne regressioon
  • Logistiline regressioon
  • Juhuslik mets
  • KNN

42. Mis on täpsus?

Täpsus on kõige sagedamini kasutatav veamõõdik n klassifitseerimismehhanism. Selle vahemik on 0 kuni 1, kus 1 tähistab 100%


43. Mis on ühemõõtmeline analüüs?

Analüüsi, mida rakendatakse ühelegi atribuudile korraga, nimetatakse ühemõõtmeliseks analüüsiks. Boxsüžee on laialdaselt kasutatav, ühemõõtmeline mudel.


44. Kuidas saate oma leidudega seotud väljakutsetest üle?

Minu leidmise väljakutsete ületamiseks on vaja julgustada arutelu, näidata juhtimist ja austada erinevaid võimalusi.


45. Selgitage klastri valimi võtmise tehnikat andmeteaduses

Kobarvalimi meetodit kasutatakse siis, kui sihtpopulatsiooni jaotuse uurimine on keeruline ja lihtsat juhuslikku valimit ei saa rakendada.


46. ​​Määrake erinevus valideerimiskomplekti ja testikomplekti vahel

Valideerimiskomplekti peetakse enamasti koolituskomplekti osaks, kuna seda kasutatakse parameetrite valimiseks, mis aitab vältida ehitatava mudeli ülepaigutamist.

Testikomplekti kasutatakse treenitud masinõppemudeli toimivuse testimiseks või hindamiseks.


47. Selgitage mõistet binoomtõenäosuse valem?

"Binoomjaotus sisaldab iga võimaliku edu tõenäosust N katses sõltumatute sündmuste puhul, mille esinemise tõenäosus on π."


48. Mis on tagasikutsumine?

Tagasivõtmine on tegeliku positiivse määra ja tegeliku positiivse määra suhe. See on vahemikus 0 kuni 1.


49. Arutle normaaljaotuse üle

Võrdselt jaotunud normaaljaotus on keskmine, mediaan ja moodus võrdsed.


50. Kuidas saab andmestiku kallal töötades valida olulisi muutujaid? Selgitage

Saate kasutada järgmisi muutujate valiku meetodeid:

  • Enne oluliste muutujate valimist eemaldage korrelatsioonimuutujad
  • Kasutage lineaarset regressiooni ja valige muutujad, mis sõltuvad nendest p väärtustest.
  • Kasutage valikut tagasi, edasi ja astmelist valikut
  • Kasutage Xgboosti, Random Foresti ja joonistage muutuva tähtsuse diagramm.
  • Mõõtke antud funktsioonide komplekti teabe võimendust ja valige vastavalt n parimat funktsiooni.

51. Kas pideva ja kategoorilise muutuja vahelist korrelatsiooni on võimalik tabada?

Jah, pidevate ja kategooriliste muutujate vahelise seose tabamiseks saame kasutada kovariatsioonitehnika analüüsi.


52. Kategoorilise muutuja käsitlemine pideva muutujana annaks tulemuseks parema prognoosimudeli?

Jah, kategoorilist väärtust tuleks pidada pidevaks muutujaks ainult siis, kui muutuja on olemuselt järguline. Seega on see parem ennustav mudel.

Need intervjuu küsimused aitavad ka teie viva (suuline)

Võta see postitus kokku järgmiselt: