Tutorial de procesare a limbajului natural: Ce este NLP? Exemple

Ce este procesarea limbajului natural?

Procesarea limbajului natural (NLP) este o ramurฤƒ a inteligenศ›ei artificiale care ajutฤƒ computerele sฤƒ รฎnศ›eleagฤƒ, sฤƒ interpreteze ศ™i sฤƒ manipuleze limbi umane precum engleza sau hindi pentru a analiza ศ™i a obศ›ine semnificaศ›ia acesteia. NLP รฎi ajutฤƒ pe dezvoltatori sฤƒ organizeze ศ™i sฤƒ structureze cunoศ™tinศ›ele pentru a efectua sarcini precum traducerea, rezumarea, recunoaศ™terea entitฤƒศ›ilor numite, extragerea relaศ›iilor, recunoaศ™terea vorbirii, segmentarea subiectelor etc.

Istoria NLP

Iatฤƒ evenimente importante din istoria procesฤƒrii limbajului natural:

1950- NLP a รฎnceput cรขnd Alan Turing a publicat un articol numit โ€žMaศ™inฤƒ ศ™i inteligenศ›ฤƒโ€.

1950- รŽncercฤƒrile de a automatiza traducerea รฎntre rusฤƒ ศ™i englezฤƒ

1960- Lucrฤƒrile lui Chomsky ศ™i alศ›ii despre teoria limbajului formal ศ™i sintaxa generativฤƒ

1990- Modelele probabilistice ศ™i bazate pe date deveniserฤƒ destul de standard

2000- O cantitate mare de date vorbite ศ™i textuale devin disponibile

รŽn continuare, รฎn acest tutorial NLP, vom afla cum funcศ›ioneazฤƒ NLP.

Cum funcศ›ioneazฤƒ NLP?

รŽnainte de a afla cum funcศ›ioneazฤƒ NLP, sฤƒ รฎnศ›elegem cum oamenii folosesc limbajul.

รŽn fiecare zi, spunem o mie de cuvinte pe care alศ›i oameni le interpreteazฤƒ pentru a face nenumฤƒrate lucruri. Noi, o considerฤƒm o simplฤƒ comunicare, dar ศ™tim cu toศ›ii cฤƒ cuvintele sunt mult mai adรขnci decรขt atรขt. Existฤƒ รฎntotdeauna un anumit context pe care รฎl derivฤƒm din ceea ce spunem ศ™i cum รฎl spunem., NLP รฎn Inteligenศ›a artificialฤƒ nu se concentreazฤƒ niciodatฤƒ pe modularea vocii; se bazeazฤƒ pe modele contextuale.

Exemplu:

Man is to woman as king is to __________?
Meaning (king) โ€“ meaning (man) + meaning ( woman)=?
The answer is-  queen

Aici, ne putem corelaศ›i cu uศ™urinศ›ฤƒ deoarece bฤƒrbatul este genul masculin ศ™i femeia este genul feminin. รŽn acelaศ™i mod, regele este genul masculin, iar genul sฤƒu feminin este regina.

Exemplu:

Is King to kings as the queen is to_______?
The answer is--- queens 

Aici, putem vedea douฤƒ cuvinte regi ศ™i regi, unde unul este singular ศ™i celฤƒlalt este plural. Prin urmare, cรขnd vine regina lumii, ea se coreleazฤƒ automat cu reginele din nou la singular plural.

Aici, cea mai mare รฎntrebare este cฤƒ de unde ศ™tim ce รฎnseamnฤƒ cuvintele? Sฤƒ spunem cine รฎi va numi regina?

Munca NLP

Rฤƒspunsul este cฤƒ รฎnvฤƒศ›ฤƒm cฤƒ acest gรขndeศ™te prin experienศ›ฤƒ. Cu toate acestea, aici รฎntrebarea principalฤƒ este cฤƒ cum computerul ศ™tie despre acelaศ™i lucru?

Trebuie sฤƒ oferim suficiente date pentru ca Maศ™inile sฤƒ รฎnveศ›e prin experienศ›ฤƒ. Putem furniza detalii precum

  • Majestatea Sa Regina.
  • Discursul Reginei รฎn timpul vizitei de stat
  • Coroana Reginei Elisabeta
  • Mama Reginei
  • Regina este generoasฤƒ.

Cu exemplele de mai sus, maศ™ina รฎnศ›elege entitatea Queen.

Maศ™ina creeazฤƒ vectori de cuvinte ca mai jos. Un vector de cuvinte este construit folosind cuvintele din jur.

Munca NLP

Maศ™ina creeazฤƒ aceศ™ti vectori

  • Pe mฤƒsurฤƒ ce รฎnvaศ›ฤƒ din mai multe seturi de date
  • Utilizaศ›i รฎnvฤƒศ›area automatฤƒ (de exemplu, algoritmi de รฎnvฤƒศ›are profundฤƒ)
  • Un vector de cuvinte este construit folosind cuvintele din jur.

Iatฤƒ formula:

Sensul (rege) โ€“ sensul (bฤƒrbatul) + sensul (femeia)=?

Aceasta รฎnseamnฤƒ efectuarea de operaศ›ii algebrice simple pe vectori de cuvinte:

Vector (rege) โ€“ vector (barbat) + vector (femeie)= vector(?)

La care aparatul rฤƒspunde reginei.

รŽn continuare, รฎn acest tutorial de procesare a limbajului natural, vom afla despre Componentele NLP.

Componentele NLP

Cinci componente principale ale procesฤƒrii limbajului natural รฎn AI sunt:

  • Analiza morfologicฤƒ ศ™i lexicalฤƒ
  • Analiza Sintacticฤƒ
  • Analiza semanticฤƒ
  • Integrarea discursului
  • Analiza pragmaticฤƒ
Componentele NLP
Componentele NLP

Analiza morfologicฤƒ ศ™i lexicalฤƒ

Analiza lexicalฤƒ este un vocabular care include cuvintele ศ™i expresiile sale. Acesta descrie analiza, identificarea ศ™i descrierea structurii cuvintelor. Include รฎmpฤƒrศ›irea unui text รฎn paragrafe, cuvinte ศ™i propoziศ›ii

Cuvintele individuale sunt analizate รฎn componentele lor, iar simbolurile non-cuvinte, cum ar fi semnele de punctuaศ›ie, sunt separate de cuvinte.

Analiza semanticฤƒ

Analiza semanticฤƒ este o structurฤƒ creatฤƒ de analizatorul sintactic care atribuie semnificaศ›ii. Aceastฤƒ componentฤƒ transferฤƒ secvenศ›e liniare de cuvinte รฎn structuri. Acesta aratฤƒ cum cuvintele sunt asociate รฎntre ele.

Semantica se concentreazฤƒ doar pe sensul literal al cuvintelor, frazelor ศ™i propoziศ›iilor. Aceasta face abstracศ›ie doar a sensului dicศ›ionarului sau a sensului real din contextul dat. Structurile atribuite de analizatorul sintactic au รฎntotdeauna un sens atribuit

De exemplu. โ€židee verde incolorฤƒโ€. Acest lucru ar fi respins de analiza Symantec ca incolor aici; verdele nu are niciun sens.

Analiza pragmaticฤƒ

Analiza pragmaticฤƒ se ocupฤƒ de conศ›inutul comunicativ ศ™i social general ศ™i de efectul acestuia asupra interpretฤƒrii. รŽnseamnฤƒ abstracศ›ia sau derivarea utilizฤƒrii semnificative a limbajului รฎn situaศ›ii. รŽn aceastฤƒ analizฤƒ, accentul principal este รฎntotdeauna pus pe ceea ce s-a spus รฎn reinterpretarea a ceea ce รฎnseamnฤƒ.

Analiza pragmaticฤƒ ajutฤƒ utilizatorii sฤƒ descopere acest efect dorit prin aplicarea unui set de reguli care caracterizeazฤƒ dialogurile de cooperare.

De exemplu, โ€žรฎnchideศ›i fereastra?โ€ ar trebui interpretat ca o cerere รฎn loc de un ordin.

Analiza sintaxei

Cuvintele sunt acceptate รฎn mod obiศ™nuit ca fiind cele mai mici unitฤƒศ›i de sintaxฤƒ. Sintaxa se referฤƒ la principiile ศ™i regulile care guverneazฤƒ structura propoziศ›iei oricฤƒrei limbi individuale.

Sintaxฤƒ se concentreazฤƒ asupra ordonฤƒrii corecte a cuvintelor care รฎi poate afecta sensul. Aceasta implicฤƒ analiza cuvintelor dintr-o propoziศ›ie urmรขnd structura gramaticalฤƒ a propoziศ›iei. Cuvintele sunt transformate รฎn structurฤƒ pentru a arฤƒta cum sunt legate รฎntre ele cuvintele.

Integrarea discursului

รŽnseamnฤƒ un simศ› al contextului. Sensul oricฤƒrei propoziศ›ii individuale care depinde de acele propoziศ›ii. De asemenea, are รฎn vedere sensul urmฤƒtoarei propoziศ›ii.

De exemplu, cuvรขntul โ€žaceaโ€ din propoziศ›ia โ€žEl a vrut astaโ€ depinde de contextul discursului anterior.

รŽn continuare, รฎn acest tutorial NLP, vom afla despre NLP ศ™i sistemele de scriere.

NLP ศ™i sisteme de scriere

Tipul de sistem de scriere utilizat pentru o limbฤƒ este unul dintre factorii decisivi รฎn determinarea celei mai bune abordฤƒri pentru preprocesarea textului. Sistemele de scriere pot fi

  1. Logografic: un numฤƒr mare de simboluri individuale reprezintฤƒ cuvinte. Exemplu japonezฤƒ, mandarinฤƒ
  2. Silabicฤƒ: simbolurile individuale reprezintฤƒ silabe
  3. Alfabetic: simbolurile individuale reprezintฤƒ sunetul

Majoritatea sistemelor de scriere folosesc sistemul silabic sau alfabetic. Chiar ศ™i engleza, cu sistemul sฤƒu de scriere relativ simplu bazat pe alfabetul roman, utilizeazฤƒ simboluri logografice care includ cifre arabe, simboluri valutare (S, ยฃ) ศ™i alte simboluri speciale.

Acest lucru ridicฤƒ urmฤƒtoarele provocฤƒri

  • Extragerea sensului (semanticii) dintr-un text este o provocare
  • NLP รฎn IA depinde de calitatea corpusului. Dacฤƒ domeniul este vast, este dificil de รฎnศ›eles contextul.
  • Existฤƒ o dependenศ›ฤƒ de setul de caractere ศ™i de limbฤƒ

Cum se implementeazฤƒ NLP

Mai jos, sunt prezentate metode populare utilizate pentru procesul natural de รฎnvฤƒศ›are:

รŽnvฤƒศ›are automatฤƒ: Procedurile de รฎnvฤƒศ›are nlp utilizate รฎn timpul รฎnvฤƒศ›ฤƒrii automate. Se concentreazฤƒ automat pe cele mai frecvente cazuri. Deci, atunci cรขnd scriem reguli de mรขnฤƒ, adesea nu este deloc corect preocupat de erorile umane.

Inferenศ›ฤƒ statisticฤƒ: NLP poate folosi algoritmi de inferenศ›ฤƒ statisticฤƒ. Vฤƒ ajutฤƒ sฤƒ produceศ›i modele care sunt robuste. de exemplu, care conศ›in cuvinte sau structuri care sunt cunoscute de toatฤƒ lumea.

Exemple de NLP

Astฤƒzi, tehnologia de รฎnvฤƒศ›are a proceselor naturale este o tehnologie utilizatฤƒ pe scarฤƒ largฤƒ.

Iatฤƒ tehnici comune de procesare a limbajului natural:

Gฤƒsirea informaศ›iilor ศ™i cฤƒutarea pe Web

Google, Yahoo, Bing ศ™i altele motoarele de cฤƒutare รฎศ™i bazeazฤƒ tehnologia de traducere automatฤƒ pe modele de รฎnvฤƒศ›are profundฤƒ NLP. Permite algoritmilor sฤƒ citeascฤƒ text pe o paginฤƒ web, sฤƒ interpreteze semnificaศ›ia acestuia ศ™i sฤƒ รฎl traducฤƒ รฎntr-o altฤƒ limbฤƒ.

Corecศ›ie gramaticalฤƒ:

Tehnica NLP este utilizatฤƒ pe scarฤƒ largฤƒ de software-ul de procesare de text precum MS-word pentru corectarea ortograficฤƒ ศ™i verificarea gramaticalฤƒ.

Corecศ›ie Gramaticalฤƒ

Rฤƒspuns la รฎntrebare

Introduceศ›i cuvinte cheie pentru a pune รฎntrebฤƒri รฎn limbaj natural.

Rezumarea textului

Procesul de rezumare a informaศ›iilor importante dintr-o sursฤƒ pentru a produce o versiune prescurtatฤƒ

Traducere automatฤƒ

Utilizarea aplicaศ›iilor computerizate pentru a traduce text sau vorbire dintr-o limbฤƒ naturalฤƒ รฎn alta.

Traducere automatฤƒ

Analiza sentimentelor

NLP ajutฤƒ companiile sฤƒ analizeze un numฤƒr mare de recenzii asupra unui produs. De asemenea, le permite clienศ›ilor lor sฤƒ ofere o recenzie a unui anumit produs.

Viitorul NLP-ului

  • Procesarea limbajului natural care poate fi cititฤƒ de om este cea mai mare problemฤƒ a Al-. Este aproape la fel ca rezolvarea problemei centrale a inteligenศ›ei artificiale ศ™i realizarea computerelor la fel de inteligente ca oamenii.
  • Viitoarele computere sau maศ™ini cu ajutorul NLP vor putea sฤƒ รฎnveศ›e din informaศ›iile online ศ™i sฤƒ le aplice รฎn lumea realฤƒ, totuศ™i, este nevoie de multฤƒ muncฤƒ รฎn acest sens.
  • Setul de instrumente pentru limbajul natural sau nltk devin mai eficiente
  • รŽn combinaศ›ie cu generarea limbajului natural, computerele vor deveni mai capabile sฤƒ primeascฤƒ ศ™i sฤƒ ofere informaศ›ii sau date utile ศ™i pline de resurse.

Limbajul natural versus limbajul computerului

Mai jos sunt principalele diferenศ›e dintre limbajul natural ศ™i limbajul computerizat:

Parametru Limbajul natural Limbajul computerului
Ambiguu Sunt ambigue รฎn naturฤƒ. Ele sunt concepute pentru a fi fฤƒrฤƒ ambiguitate.
Redundanลฃฤƒ Limbile naturale folosesc o mulศ›ime de redundanศ›ฤƒ. Limbile formale sunt mai puศ›in redundante.
Literalitate Limbile naturale sunt fฤƒcute din idiom ศ™i metaforฤƒ Limbile formale รฎnseamnฤƒ exact ceea ce vor sฤƒ spunฤƒ

Avantajele NLP

  • Utilizatorii pot pune รฎntrebฤƒri despre orice subiect ศ™i pot obศ›ine un rฤƒspuns direct รฎn cรขteva secunde.
  • Sistemul NLP oferฤƒ rฤƒspunsuri la รฎntrebฤƒri รฎn limbaj natural
  • Sistemul NLP oferฤƒ rฤƒspunsuri exacte la รฎntrebฤƒri, fฤƒrฤƒ informaศ›ii inutile sau nedorite
  • Acurateศ›ea rฤƒspunsurilor creศ™te odatฤƒ cu cantitatea de informaศ›ii relevante furnizate รฎn รฎntrebare.
  • Procesul NLP ajutฤƒ computerele sฤƒ comunice cu oamenii รฎn limba lor ศ™i scala alte sarcini legate de limbaj
  • Vฤƒ permite sฤƒ efectuaศ›i mai multe date bazate pe limbaj รฎn comparaศ›ie cu o fiinศ›ฤƒ umanฤƒ fฤƒrฤƒ obosealฤƒ ศ™i รฎntr-un mod imparศ›ial ศ™i consecvent.
  • Structurarea unei surse de date foarte nestructurate

Dezavantajele NLP

  • Limbajul de interogare complex - este posibil ca sistemul sฤƒ nu poatฤƒ oferi rฤƒspunsul corect la รฎntrebarea care este prost formulatฤƒ sau ambiguฤƒ.
  • Sistemul este construit pentru o singurฤƒ sarcinฤƒ specificฤƒ; nu se poate adapta la noi domenii ศ™i probleme din cauza funcศ›iilor limitate.
  • Sistemul NLP nu are o interfaศ›ฤƒ cu utilizatorul care nu are caracteristici care sฤƒ permitฤƒ utilizatorilor sฤƒ interacศ›ioneze รฎn continuare cu sistemul

Rezumat

  • Procesarea limbajului natural este o ramurฤƒ a AI care ajutฤƒ computerele sฤƒ รฎnศ›eleagฤƒ, sฤƒ interpreteze ศ™i sฤƒ manipuleze limbajul uman
  • NLP a รฎnceput cรขnd Alan Turing a publicat un articol numit โ€žMaศ™inฤƒ ศ™i inteligenศ›ฤƒโ€.
  • NLP nu se concentreazฤƒ niciodatฤƒ pe modularea vocii; se bazeazฤƒ pe modele contextuale
  • Cinci componente esenศ›iale ale procesฤƒrii limbajului natural รฎn inteligenศ›a artificialฤƒ sunt: โ€‹โ€‹1) Analiza morfologicฤƒ ศ™i lexicalฤƒ 2) Analiza sintacticฤƒ 3) Analiza semanticฤƒ 4) Integrarea discursului 5) Analiza pragmaticฤƒ
  • Trei tipuri de sistem de scriere proces natural sunt 1) Logografic 2) Silabic 3) Alfabetic
  • รŽnvฤƒศ›area automatฤƒ ศ™i inferenศ›a statisticฤƒ sunt douฤƒ metode de implementare a รฎnvฤƒศ›ฤƒrii proceselor naturale
  • Aplicaศ›iile esenศ›iale ale NLP sunt regฤƒsirea informaศ›iilor ศ™i cฤƒutarea pe web, rฤƒspunsul la รฎntrebฤƒri de corecศ›ie gramaticalฤƒ, rezumarea textului, traducerea automatฤƒ etc.
  • Viitoarele computere sau maศ™ini cu ajutorul NLP ศ™i ศ˜tiinศ›a datelor va putea sฤƒ รฎnveศ›e din informaศ›iile online ศ™i sฤƒ le aplice รฎn lumea realฤƒ, totuศ™i, este nevoie de multฤƒ muncฤƒ รฎn acest sens
  • NLP este ambiguu, รฎn timp ce limbajul de calculator open source este proiectat sฤƒ fie lipsit de ambiguitate
  • Cel mai mare avantaj al NLP รฎn sistemul de inteligenศ›ฤƒ artificialฤƒ este cฤƒ oferฤƒ rฤƒspunsuri exacte la รฎntrebฤƒri, fฤƒrฤƒ informaศ›ii inutile sau nedorite.
  • Cel mai mare dezavantaj al sistemului NLP este construit pentru o singurฤƒ sarcinฤƒ specificฤƒ, astfel รฎncรขt nu se poate adapta la noi domenii ศ™i probleme din cauza funcศ›iilor limitate

Rezumaศ›i aceastฤƒ postare cu: