100% au considerat acest document util (1 vot)

64 vizualizări14 pagini

MongoDB Sem2

Documentul prezintă etapele fluxului de agregare în MongoDB (aggregation framework). Sunt descrise operatorii $match, $group, $project, $sort și $count, precum și exemple de utilizare a acestora pentru a construi fluxuri de prelucrare a datelor.

Încărcat de

msardaru

Drepturi de autor

Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

100% au considerat acest document util (1 vot)

64 vizualizări14 pagini

MongoDB Sem2

Încărcat de

msardaru

Drepturi de autor

Respectăm cu strictețe drepturile privind conținutul. Dacă suspectați că acesta este conținutul dumneavoastră, reclamați-l aici.

Formate disponibile

Descărcați ca PDF, TXT sau citiți online pe Scribd

Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI

Disciplina: Baze de date NoSQL

________________________________________________________________________________________________

- SEMINARUL 2 -
Aggregation framework

Aggregation framework definește un proces care manipulează documentele în diferite etape

(stages), le prelucrează în conformitate cu criteriile furnizate și apoi returnează rezultatele.
Procesul de prelucrare al MongoDB este modelat sub forma unui flux de tip pipeline
implementat prin metoda aggregate() în care o listă de operatori / condiții sunt aplicate datelor.

[Link]( [ { <stage1> }, { <stage2> },... ] )

• procesul de agregare se poate constitui din mai multe etape, denumite stages;
• procesul începe cu introducerea tuturor documentelor din cadrul colecției în prima etapă;
• documentele obținute în fiecare etapă devin input pentru etapa următoare;
• fiecare etapă transformă documentele pe măsură ce trec prin fluxul de prelucrare;
• etapele nu trebuie să producă un document de ieșire pentru fiecare document de intrare; de
exemplu, unele etape pot genera documente noi (de exemplu: $group), iar altele pot filtra
documente inițiale (de exemplu: $match).
• o etapă poate apărea de mai multe ori în flux, aceasta fiind repetată pentru a filtra documentele în
continuare.
Manualul de referință MongoDB prezintă detaliat etapele care pot apărea într-un flux de
agregare: [Link]
pipeline-operator-reference

Un flux de prelucrare a datelor poate fi reprezentat astfel:.

-1-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

Principalele etape ale fluxului de prelucrare

Etapele fluxului de prelucrare se specifică utilizându-se sintaxa:

{ $<stage> : { } }

Expresii de agregare: referințe la numele câmpurilor din documentele de intrare în diferite etape. Se
indică prin "$denumireCamp", denumirea câmpului fiind delimitată prin includere între " "

Exemple de utilizare:
{$match: {salariul: {$gt: 2500}}}
{$group: {_id: "$salariul"}}
{$sort: {nume: -1}}

$match
• utilizează interogările MongoDB standard în scopul filtrării documentelor
• nu efectuează modificări asupra structurii documentelor care vor fi returnate
• numai acele documente care îndeplinesc condițiile indicate explicit vor trece către următoarea
etapă din flux
• se recomandă ca etapa $match să fie utilizată cât mai devreme în fluxul de prelucrare, astfel
încât să se limiteze numărul documentelor care vor fi transmise următoarelor etape
• sintaxa generală este:
{$match: { <conditii>}}}

Ex. 1. Se returnează documentele care îndeplinesc condițiile de filtrare asupra câmpurilor salariul și
departament:

-2-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

$addFields
• adaugă câmpuri noi documentelor
• se utilizează în vederea determinării unor valori calculate
• produce modificări asupra structurii documentelor care vor fi returnate

Ex. 2. Se returnează toate documentele colecției, adăugându-se fiecăruia un nou câmp calculat pe
baza celor existente

$group
• permite gruparea datelor în funcție de anumite criterii
• fiecare grup distinct format va fi transmis către următoarea etapă sub forma unui document cu
un identificator unic (_id)
• sintaxa generală este:
{$group: {_id:<expresie>, <câmp>: {<[Link]>: <expresie>}}}

• operatorii de grupare sunt: $sum, $avg, $max, $min, $push

Exemple de utilizare:
{$group: {_id: "$departament"}}
{$group: {_id: {departament: "$departament",
functie: "$functie"}}

Ex. 3. Se efectuează o grupare a documentelor inițiale în funcție de valoarea câmpului departament

și se returnează documente noi, corespunzătoare fiecărui grup

-3-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

Ex. 4. Se efectuează o grupare a documentelor inițiale în funcție de departament și oraș și se

returnează documente noi, corespunzătoare fiecărui grup

Ex. 5. Se construiește un flux de prelucrări prin care:

− $match: se efectuează o filtrare a datelor în funcție de oraș
− $group: se efectuează o grupare a documentelor obținute din etapa anterioară în funcție de
departament și oraș și se returnează documente noi, corespunzătoare fiecărui grup

-4-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

Ex. 6. Se construiește un flux de prelucrări prin care:

− $group: se efectuează o grupare a tuturor documentelor colecției în funcție de departament și
oraș și se returnează documente noi, corespunzătoare fiecărui grup
− $match: se efectuează o filtrare a documentelor obținute din etapa anterioară în funcție de oraș

-5-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

$project
• documentelor intrate în această etapă le este modificată structura, în funcție de proiecția dorită
• sintaxa generală este:
{$project: {<camp>: <1|0>, <campNou>: <expresie>}}

• un câmp descris cu valoarea 1 sau true va apărea în documentele rezultate

• omiterea _id din lista specificațiilor va conduce la afișarea implicită a acestuia
• excluderea _id din documentele rezultate se va exprima prin valoare 0 sau false
• pot fi adăugate câmpuri noi sau pot fi redenumite unele existente prin indicarea unor valori
sau a unor expresii

Ex. 7. Se construiește un flux de prelucrări prin care:

− $match: se efectuează o filtrare a datelor în funcție de nume
− $project: se efectuează o proiecție asupra documentelor obținute din etapa anterioară și se
returnează documente noi, având ca și câmpuri numai nume și prenume

Ex. 8. Se construiește un flux de prelucrări prin care:

− $match: se efectuează o filtrare a datelor în funcție de salariu
− $project: se efectuează o proiecție asupra documentelor obținute din etapa anterioară și se
returnează documente noi, având ca și câmpuri nume, prenume și infoDepartament (construit în
urma unei restructurări a informațiilor din câmpurile existente)

-6-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

$sort
• aranjează documentele returnate în funcție de sensul indicat prin cheia de sortare
• etapa nu produce modificări în documente, ci doar le schimbă ordinea de returnare
• în cazul în care cheia de sortare are valoarea 1, ordonarea se va efectua ascendent
• în cazul în care cheia de sortare are valoarea -1, ordonarea se va efectua descendent
• sintaxa generală este:
{$sort: {<camp>: <-1|1>,...}}

Ex. 9. Se construiește un flux de prelucrări prin care:

− $match: se efectuează o filtrare a datelor în funcție de salariu
− $sort: se efectuează o sortare asupra documentelor obținute din etapa anterioară și se returnează
documente noi, având efectuată sortare după nume

-7-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

$count
• întoarce numărul de documente obținute din etapa anterioară
• se numără printre ultimele etape din flux
• sintaxa generală este:
{$count: "<denumire>"}

Ex. 10. Se construiește un flux de prelucrări prin care:

− $match: se efectuează o filtrare a datelor în funcție de oras
− $count: se efectuează o agregare și se returnează un document nou care conține un singur câmp,
calculat prin numărarea documentelor obținute din etapa anterioară

-8-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

Ex. 11. Se construiește un flux de prelucrări prin care:

− $group: se efectuează o grupare a tuturor documentelor colecției în funcție de departament și
oraș și se returnează documente noi, corespunzătoare fiecărui grup
− $count: se efectuează o agregare și se returnează un document nou care conține un singur câmp,
calculat prin numărarea documentelor obținute din etapa anterioară

Ex. 12. Se construiește un flux de prelucrări prin care:

− $match: se efectuează o filtrare a datelor în funcție de salariul
− $group: se efectuează o grupare a tuturor documentelor colecției în funcție de departament și se
returnează documente noi, corespunzătoare fiecărui grup
− $count: se efectuează o agregare și se returnează un document nou care conține un singur câmp,
calculat prin numărarea documentelor obținute din etapa anterioară

$unwind
• utilizarea de câmpuri cu valori dintr-un vector poate conduce la necesitatea prelucrărilor
individuale ale acestora, ca elemente componente
• fiecare document de ieșire are aceeași structură ca și cel de intrare, dar valoarea vectorului
este înlocuită prin elementele componente

-9-
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

• sintaxa generală este:

{$unwind: < denumireCampVector >}

Ex. 13. Se construiește un flux de prelucrări prin care:

− $unwind: se construiesc documente noi, prin descompunerea vectorului care conține
competențele
− $project: se solicită afișarea doar pentru anumite câmpuri din documentele obținute în etapa
anterioară

Ex. 14. Se construiește un flux de prelucrări prin care:

− $unwind: se construiesc documente noi, prin descompunerea vectorului care conține
competențele
− $group: se efectuează o grupare a documentelor obținute din etapa anterioară, în funcție de
competente și se returnează documente noi, corespunzătoare fiecărui grup

- 10 -
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

$out
• salvează documentele rezultate în urma procesului de prelucrare într-o colecție nouă
• atunci când se utilizează este întotdeauna ultima etapă din flux

Ex. 15. Se construiește un flux de prelucrări prin care:

− $group: se efectuează o grupare a tuturor documentelor colecției în funcție de departament, se
calculează salariul mediu și se returnează documente noi, corespunzătoare fiecărui grup
− $out: se salvează într-o colecție nouă documentele obținute din etapa anterioară

- 11 -
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

Operatorii de grupare (accumulator operators)

Operatorii de grupare se specifică utilizându-se sintaxa:

{$operatorGrupare: <expresie>}

Exemple de utilizare:
{total: {$sum: "$salariul"}}
{numar: {$sum: 1}}

$sum
• returnează suma valorilor numerice, ignorându-le pe cele nenumerice
• cel mai des este utilizată în etapa $group, dar poate fi folosită și în etapa $project
• utilizată în etapa $group, va returna suma tuturor valorilor numerice asociate unei chei
indicate la nivelul fiecărui grup
• utilizată în etapa $project, va produce un nou câmp cu valoarea obținută ca sumă a valorilor
expresiilor indicate
• sintaxa generală este:
{$sum: <expresie> }

Ex. 16. Se efectuează o grupare a tuturor documentelor colecției în funcție de departament, se

calculează numărul de angajați (contorizând fiecare document) și se returnează documente noi,
corespunzătoare fiecărui grup

$avg
• returnează media valorilor numerice, ignorându-le pe cele nenumerice
• cel mai des este utilizată în etapa $group

- 12 -
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

• utilizată în etapa $group, va returna media tuturor valorilor numerice asociate unei chei
indicate la nivelul fiecărui grup
• sintaxa generală este:
{$avg: < expresie > }

$max and $min

• returnează valorile maximă, respectiv minimă, dintr-un vector
• returnează 0 pentru câmpuri care nu există
• cel mai des sunt utilizate în etapa $group
• utilizate în etapa $group, vor returna maximul, respectiv minimul tuturor valorilor numerice
asociate unei chei indicate la nivelul fiecărui grup
• sintaxa generală este:
{$max: < expresie > } / {$min: < expresie > }

Ex. 17. Se efectuează o grupare a tuturor documentelor colecției în funcție de departament, se

calculează salariile total, mediu, minim și maxim și se returnează documente noi, corespunzătoare
fiecărui grup

$push
• returnează un vector conținând valori ale expresiei indicate
• poate apărea doar în etapa $group
• sintaxa generală este:
{$push: < expresie > }

- 13 -
Programul de masterat: BAZE DE DATE – SUPORT PENTRU AFACERI
Disciplina: Baze de date NoSQL
________________________________________________________________________________________________

Ex. 18. Se efectuează o grupare a tuturor documentelor colecției în funcție de departament, indicând
pentru fiecare grup și lista numelor angajaților (sub formă de vector)

Comparație a termenilor SQL-MongoDB

SQL MongoDB

SELECT $project

WHERE/HAVING $match

JOIN $lookup

LIMIT $limit

GROUP BY $group

ORDER BY $sort

COUNT() $sum

SUM() $sum

AVG() $avg

- 14 -

S-ar putea să vă placă și

PBD Laborator 03
Încă nu există evaluări
PBD Laborator 03
7 pagini
PBD Laborator 01
100% (1)
PBD Laborator 01
12 pagini
Grile Eabd Final
Încă nu există evaluări
Grile Eabd Final
46 pagini
Instrumente Utilizate Pentru Integrarea Datelor 6 PDF
100% (1)
Instrumente Utilizate Pentru Integrarea Datelor 6 PDF
35 pagini
Referat Integrarea Sistemelor ERP
Încă nu există evaluări
Referat Integrarea Sistemelor ERP
18 pagini
Curs 2 BigData (Spark)
100% (1)
Curs 2 BigData (Spark)
71 pagini
Stocarea Datelor in BD NOSQL-1
Încă nu există evaluări
Stocarea Datelor in BD NOSQL-1
26 pagini
Analiza Volumelor Mari de Date
Încă nu există evaluări
Analiza Volumelor Mari de Date
26 pagini
Lab 3
Încă nu există evaluări
Lab 3
3 pagini
Curs - 4 - BigData (Spark)
Încă nu există evaluări
Curs - 4 - BigData (Spark)
55 pagini
BIG DATA IN MRU
Încă nu există evaluări
BIG DATA IN MRU
48 pagini
Curs 4 - Introducere Big Data
Încă nu există evaluări
Curs 4 - Introducere Big Data
23 pagini
Baze de Date (NOSQL)
Încă nu există evaluări
Baze de Date (NOSQL)
17 pagini
Network 1
Încă nu există evaluări
Network 1
6 pagini
Tehnologia Data Warehouse
Încă nu există evaluări
Tehnologia Data Warehouse
70 pagini
Big Data
Încă nu există evaluări
Big Data
21 pagini
3 DI 02 Structuri de Date Si Algoritmi LICENTA C
Încă nu există evaluări
3 DI 02 Structuri de Date Si Algoritmi LICENTA C
4 pagini
Conceptul Big Data Și Oportunitățile Pentru Afaceri
100% (1)
Conceptul Big Data Și Oportunitățile Pentru Afaceri
16 pagini
Intr BD 2016.Ex1.RO Raspunsuri
Încă nu există evaluări
Intr BD 2016.Ex1.RO Raspunsuri
16 pagini
S3 - Analiza Datelor Organizate in MongoDB Utilizand Python
Încă nu există evaluări
S3 - Analiza Datelor Organizate in MongoDB Utilizand Python
15 pagini
SQL
Încă nu există evaluări
SQL
19 pagini
Proiectarea BD Limb SQL
Încă nu există evaluări
Proiectarea BD Limb SQL
95 pagini
1 - SGBD Si Integritatea Datelor
Încă nu există evaluări
1 - SGBD Si Integritatea Datelor
19 pagini
Baze de Date Access Curs Mocian Ioan
Încă nu există evaluări
Baze de Date Access Curs Mocian Ioan
241 pagini
BD9 - Baze de Date Distribuite
Încă nu există evaluări
BD9 - Baze de Date Distribuite
43 pagini
Big Data
100% (1)
Big Data
11 pagini
Teoria Bazelor de Date
Încă nu există evaluări
Teoria Bazelor de Date
43 pagini
SGBD An3 Idd Sem2-1
Încă nu există evaluări
SGBD An3 Idd Sem2-1
105 pagini
Curs Oracle Bun
Încă nu există evaluări
Curs Oracle Bun
189 pagini
BD Curs
Încă nu există evaluări
BD Curs
83 pagini
Sisteme de Baze de Date Distribuite
Încă nu există evaluări
Sisteme de Baze de Date Distribuite
31 pagini
Curs 3 Nosql
Încă nu există evaluări
Curs 3 Nosql
32 pagini
Tema Seminar3 MongoDB
Încă nu există evaluări
Tema Seminar3 MongoDB
5 pagini
Mega Shop DOCS
Încă nu există evaluări
Mega Shop DOCS
24 pagini
Baza de Date Universitate
Încă nu există evaluări
Baza de Date Universitate
8 pagini
Proiect - SGBD
Încă nu există evaluări
Proiect - SGBD
23 pagini
Proiect SGBD Luca Stefania
Încă nu există evaluări
Proiect SGBD Luca Stefania
19 pagini
Baze de Date
Încă nu există evaluări
Baze de Date
63 pagini
Baze de Date: Curs: Florin RĂDULESCU (3CB) Email: Florin - Radulescu@cs - Pub.ro Lab: Cf. Orar
Încă nu există evaluări
Baze de Date: Curs: Florin RĂDULESCU (3CB) Email: Florin - Radulescu@cs - Pub.ro Lab: Cf. Orar
58 pagini
FD - Algoritmi Si Structuri de Date
Încă nu există evaluări
FD - Algoritmi Si Structuri de Date
5 pagini
Intrebari Java
Încă nu există evaluări
Intrebari Java
49 pagini
Comenzi Uzuale MySQL
Încă nu există evaluări
Comenzi Uzuale MySQL
2 pagini
Teza Licenta
Încă nu există evaluări
Teza Licenta
5 pagini
Auditul Sistemelor de Gestiune A Bazelor de Date
Încă nu există evaluări
Auditul Sistemelor de Gestiune A Bazelor de Date
9 pagini
Cele 13 Reguli Ale Lui CODD
Încă nu există evaluări
Cele 13 Reguli Ale Lui CODD
3 pagini
Arhitecturi RAID
Încă nu există evaluări
Arhitecturi RAID
34 pagini
Poo 04
Încă nu există evaluări
Poo 04
120 pagini
Baze de Date Distribuite
Încă nu există evaluări
Baze de Date Distribuite
22 pagini
Subiecte Atestat Baze de Date 2019 PDF
Încă nu există evaluări
Subiecte Atestat Baze de Date 2019 PDF
6 pagini
Laborator3 Java
Încă nu există evaluări
Laborator3 Java
10 pagini
Bda 20040323
Încă nu există evaluări
Bda 20040323
219 pagini
Laborator 5 2s
Încă nu există evaluări
Laborator 5 2s
3 pagini
Tema1 Seminar (Petcu Ana-Maria)
Încă nu există evaluări
Tema1 Seminar (Petcu Ana-Maria)
13 pagini
Laborat 3
Încă nu există evaluări
Laborat 3
18 pagini
Proiect EABD
Încă nu există evaluări
Proiect EABD
11 pagini
Comenzi MongoDB
Încă nu există evaluări
Comenzi MongoDB
7 pagini
Proiect EABD Pischis Razvan
Încă nu există evaluări
Proiect EABD Pischis Razvan
11 pagini
SGBD - Lucrare Individuala nr.1-2
Încă nu există evaluări
SGBD - Lucrare Individuala nr.1-2
23 pagini
S2.1 - Interogarea Documentelor În MongoDB
Încă nu există evaluări
S2.1 - Interogarea Documentelor În MongoDB
13 pagini