SAADANE 2015 Diffusion
SAADANE 2015 Diffusion
Présentée par
Houda SAADANE
Le traitement automatique de
l’arabe dialectalisé : aspects
méthodologiques et
algorithmiques
Page 1
Page 2
Introduction générale
Page 3
Le Traitement automatique du langage naturel (TALN) regroupe à la fois la linguistique,
l’informatique et l’intelligence artificielle. Cette discipline est devenue un axe de recherche
essentiel pour analyser et traduire la grande masse d’informations disponible, qui évolue sans
cesse. De plus, les enjeux cognitifs du traitement automatique des langues sont importants, et
varient selon les applications. De nos jours, il existe plusieurs applications du traitement des
langues telles que la reconnaissance de l’écriture manuscrite (la détection de la langue), le
résumé automatique, le traitement de la parole, l’annotation sémantique, l’indexation et la
recherche de documents, l’extraction d’informations, la traduction, etc.
Le traitement morphosyntaxique automatisé de la langue arabe n’est pas récent, il a fait
l’objet depuis plusieurs décennies de travaux novateurs, en particulier en France par des
équipes de recherche qui se sont progressivement spécialisées dans le traitement de
l’information multilingue. En ce qui concerne la recherche d’informations, la problématique
de la recherche interlingue a été une motivation importante qui a conduit au développement
de projets tels que EMIR (European Multilingual Information Retrieval), et son extension à
l’arabe le projet ALMA (Arabic Language Multilingual Applications). Ainsi, comme nous
venons de le montrer, plusieurs projets européens ont porté sur le traitement de l’arabe. Plus
récemment, un réseau d’excellence européen a permis de regrouper la plupart des acteurs
européens pour échanger des informations et produire des ressources linguistiques
(dictionnaires, corpus étiquetés, logiciels) dans le cadre des projets NEMLAR (Network for
Euro-Mediterranean LAnguage Resources) puis MEDAR (Mediterranean Arabic Language
and Speech Technology).
Dans tous ces projets, le traitement automatique de la langue arabe écrite s’est focalisé,
de façon presque exclusive, sur l’arabe classique ou standard, laissant de côté les dialectes et
les phénomènes liés à l’usage dialectal de la langue arabe. Mais la prolifération de rédacteurs
de blogs sur Internet et les contributions diverses et variées sur les forums de discussion en
ligne a fait apparaître des usages langagiers de l’arabe standard fortement teintés de dialecte
local, ou mixés avec une langue étrangère comme le français ou l’anglais, ou encore
directement transcrits en lettres latines, ce qui nous conduit à nous poser des questions par
rapport à l’état de la recherche en la matière.
L’arabe moderne standard, qui est pratiqué dans les journaux écrits, radiodiffusés et
télévisés, a fait l’objet de nombreux travaux tant pour la reconnaissance de la parole que pour
l’analyse et la recherche d’informations. Toutefois, l’essentiel des échanges entre personnes
du monde arabe se fait dans le dialecte parlé localement. Même dans les émissions qui sont
censées n'utiliser que l’arabe moderne standard, un nombre non négligeable d’expressions
dialectales trahissent l’origine de la personne qui s’exprime. La prise en compte de l’arabe
dialectal concerne aussi bien les applications sécurité (terrorisme, drogue, trafic d’armes,
blanchiment) que les applications purement civiles comme l’analyse d’opinion, la
reconnaissance de la parole et d’une manière générale tout dialogue ou instruction donnée à
un appareil (téléphone ou autre) au moyen de la voix.
L’intérêt de traiter les dialectes a été reconnu depuis déjà un certain temps, toutefois la
difficulté réside dans le coût de constitution de corpus représentatifs, en particulier pour la
reconnaissance de la parole. La constitution de tels corpus est coûteuse aussi bien par la
difficulté de recueillir des sources représentatives, que par le travail nécessaire pour leur
transcription. La reconnaissance de l’origine communautaire de commentaires rédigés en
arabe dialectal apparait néanmoins l’objet d’une vague d’intérêt récente, et qui s’amplifie.
Page 4
Problématique du sujet :
En prenant en compte ces travaux, nous avons choisi de faire des recherches sur les
aspects peu étudiés jusqu’ici. La problématique de notre sujet de thèse concerne les traits
morphosyntaxiques et rédactionnels de l’arabe standard dialectalisé. Cela revient à poser
plusieurs questions : comment distinguer, dans les productions, les usages relevant de l’arabe
moderne, des usages relevant de l’arabe dialectal ? Comment reconnaître les traits spécifiques
à chaque dialecte arabe ?
Ces questions problématiques nous incitent à envisager plusieurs axes d’étude et
d’analyse :
1. Analyser les usages nouveaux introduits par le recours à la médiation de
l’ordinateur et aux téléphones portables dans l’écriture de messages de diverses
natures.
2. Établir pour chaque corpus d’arabe dialectal étudié les « écarts » observables par
rapport à la langue arabe standard, que ce soit du point de vue lexical ou
morphosyntaxique.
3. Identifier et définir des traits discriminants du corpus propre à chaque situation de
communication, notamment en référence à la région géographique des rédacteurs
(Maghreb vs Machrek, etc.).
La problématique de notre sujet porte donc à la fois sur la collecte de données d’étude par
des moyens automatisés, sur une analyse automatique des données collectées pour faire
apparaître les écarts par rapport à l’arabe standard et pour la mise en évidence du caractère
discriminant de certains de ces écarts pour une population localisée géographiquement. Elle a
aussi des liens évidents avec le problème plus général de l’évolution des modes d’interaction
introduits par les nouveaux outils de communication et par la pratique des réseaux sociaux et
autres communautés virtuelles.
Nous avons, dans cette perspective, constitué des corpus « locaux » pour mieux
comprendre le phénomène de l’influence des langues locales et des langues occidentales mais
aussi, vu l’origine des textes, l’influence des habitudes acquises par l’utilisation du web et des
nouvelles technologies sur la langue arabe moderne.
– Q1 : Quelles sont les sources qui pourraient être exploitées pour constituer des corpus
représentatifs de la langue utilisée dans les blogs et les forums de langue arabe ?
– Q2 : Comment peut-on identifier la région dont relève le dialecte considéré ; pouvoir
trier, classer et regrouper des productions langagières par origine géographique ?
– Q3 : Quelles sont les techniques scripturaires utilisées par les rédacteurs (écriture en
arabe, écriture latine de mots arabes, écriture simplifiée de type SMS, écriture mixte
relevant du code switching, etc.) ?
– Q4 : Comment traiter l’écart existant avec l’arabe standard moderne, en particulier
lorsqu’il relève du lexique ?
Page 5
Ces questions nécessitent une étude approfondie des traits morphosyntaxiques de l’arabe
standard et de l’arabe dialectal. C’est pourquoi nous allons constituer un corpus étendu et
comparé des productions écrites des rédacteurs de blogs, des interventions dans les forums ou
des messages courts sur les réseaux sociaux disponibles en langue arabe.
Ce corpus sera utilisé pour notre travail de thèse mais pourra être largement partagé pour
que la communauté des chercheurs sur les dialectes arabes, de même que les spécialistes de la
didactique de l’arabe, puissent réaliser d’autres investigations. Notre corpus sera traité par un
outil d’analyse automatique de l’arabe classique et standard qui fera dans un premier temps
ressortir le vocabulaire inconnu. L’étude de ce vocabulaire inconnu va permettre de classer les
mots suivant des critères permettant de les situer par rapport à l’arabe standard afin d’enrichir
le dictionnaire afférent du système automatique, avec des mots issus de l’arabe local de
chaque région, et des termes provenant d’autre langues (français, anglais, tamazight,…).
L’étude que nous menons vise à permettre la réalisation d’analyses automatiques
complètes des textes intégrant ces diverses variétés d’arabe. En effet, une fois les divers écarts
par rapport à l’arabe standard identifiés et normalisés, nous les intégrerons dans le système
d'analyse générale, et nous mettrons en place des méthodologies statistiques pour faire
ressortir les traits les plus discriminants. Nous avons proposé des méthodes linguistiques et
statistiques sur nos corpus pour identifier les origines géographiques des textes, qui pourront
ensuite être appliquées sur de nouveaux textes pour en déterminer l'origine.
Nous avons choisi comme point de départ de l’étude les pays suivants : pays du Maghreb
(Maroc, Algérie, Tunisie) et du Machrek (Égypte), l’objectif étant de donner un aperçu
suffisamment représentatif de la diversité des apports à l’arabe dialectalisé par d’autres
langues.
1
[Link]
Page 6
web 2.0...), de média (texte, parole) ou de langue et de système d’écriture (français, anglais,
arabe, russe…). Elle doit permettre de discriminer les informations sur des entités
homonymes. Elle doit aussi permettre d’attribuer un texte ou une parole à un auteur même si
ce texte n’est pas signé ou le locuteur authentifié. Les technologies utilisées feront un large
appel à des analyses linguistiques multilingues profondes, à une extraction et normalisation
inter-lingue d’informations structurées en fonction des besoins métiers et à une normalisation
des entités nommées (personnes, sociétés, lieux, dates, mesures).
Ce projet regroupe cinq partenaires : des industriels et des laboratoires de recherche.
Page 7
Organisation de la thèse
Ce manuscrit comprend cinq parties principales. La première partie théorique est
constituée de deux chapitres. Le premier chapitre présente la linguistique de la langue arabe
standard et sa morphologie, puis le deuxième chapitre présente la langue arabe dialectale.
Dans le chapitre 1, nous décrivons brièvement la linguistique de la langue arabe standard.
Le système d'écriture de la langue arabe est présenté. Nous présentons de même le lexique et
la grammaire ainsi que la morphologie flexionnelle. Par la suite, nous décrivons les problèmes
d'analyse qui posent le traitement automatique de la langue arabe.
Le chapitre 2 est dédié à une présentation de la langue arabe dialectale et de ses
spécificités. Nous avons commencé par présenter la langue arabe ainsi que ses variantes
utilisées, à savoir : l'arabe classique, l'arabe moderne standard (MSA) et l'arabe dialectal.
Ensuite, nous avons mis l'accent dans ce chapitre sur les variétés de l’arabe dialectal. Par la
suite, nous décrivons (une section y a été consacrée) un état de l'art sur la situation
linguistique de la langue dans le monde arabe. Cela nous a conduit à donner un aperçu
historique de l’arabe algérien. Finalement, nous faisons une étude qui compare l'arabe
algérien, tunisien, égyptien et l'arabe standard sur plusieurs niveaux : phonologique,
morphologique, orthographique, lexical et syntaxique.
La deuxième partie présente notre système d'analyse linguistique profonde de la langue
arabe, et est constituée de deux chapitres.
Dans le chapitre 3, nous décrivons notre système de l'analyse morphosyntaxique. Nous
passons en revue les travaux effectués pour le traitement automatique de l'arabe standard.
Ensuite, nous présentons le fonctionnement ainsi que les différentes étapes de notre analyseur
linguistique : la tokenisation ; l'analyse morphologique qui permet la segmentation des formes
agglutinées. La désambiguïsation ainsi que les transformations morphologiques sont présentés
dans ce chapitre. Finalement, nous décrivons la phase d'analyse syntaxique qui permet
d'identifier les relations syntaxiques dans les groupes nominaux et verbaux.
Le chapitre 4 est consacré au traitement des entités nommées (ENs) en arabe
(problématique de repérage et de typage des entités nommées en arabe). La typologie des
entités nommées ainsi que les principales applications qui utilisent les entités nommées sont
présentées dans ce chapitre. Par la suite, nous exposons les particularités de la langue arabe
liée à la détection des entités nommées. Nous décrivons ensuite un éventail des travaux ayant
comme focus la proposition de systèmes de reconnaissance des entités nommées en arabe.
Ces systèmes sont à base de règles, statistiques ou hybrides. Notre approche de détection et de
typage des entités nommées est décrite dans ce chapitre. Finalement, nous détaillons la
méthode de reconnaissance des noms propres de type personne, lieu et organisation ainsi que
la méthode de reconnaissance des expressions numériques.
Page 8
l'assimilation, la métathèse, l’emphase, l'épenthèse, l'élision, et le raccourcissement.
Dans le chapitre 6, nous présentons une étude détaillée de l'analyse morphologique
verbale, en comparant le MSA et l'arabe dialectal égyptien, tunisien et quelques particularités
de l'algérien. Nous décrivons les différentes classes de verbes : les verbes trilitères (les verbes
sonores, géminés, glottalisés et les verbes faibles) et les verbes quadrilatères. Puis, nous
exposons les différents traits de flexion utilisés en MSA et en arabe dialectal. Ces traits
comportent : l'aspect, le mode ainsi que la voix.
Page 9
reconnaissance et de typage des entités nommées, nous avons mis l'accent sur le phénomène
de la transcription/ translittération des mots et surtout les mots empruntés ou encore les noms
propres étrangers. Dans le même registre, nous notons qu'une forme transcrite peut donner
une indication sur l'origine de l'auteur (francophone ou anglo-saxonne). Afin de réduire
l'impact d'un tel problème, nous avons développé un système de transcription/translittération
des noms propres (et qui a été étendu et utilisé pour la transcription des mots). La
translittération connait un essor important en raison du caractère de plus en plus multilingue
de l’Internet et des besoins exponentiels dans le domaine de la recherche d’information
interlingue. Cela est d’autant plus vrai pour la recherche d’entités nommées (noms de
personnes, de lieux, de sociétés, d’organisations, etc.), mais ces dernières présentent une
pluralité de formes écrites, d’orthographes et de transcriptions selon les langues et les pays.
Le cas des noms propres en arabe illustre cette situation complexe et multiforme. Le meilleur
exemple pour montrer cette pluralité est le nom ( معمر القذافيMouammar Kadhafi) qui est
transcrit en latin par plus de 60 formes, parmi lesquelles : Muammar Qaddafi, Mo'ammar
Gadhafi, Muammer Kaddafi, Moammar El Kadhafi, etc. Ceci nous a mené à nous poser les
questions suivantes :
Dans le chapitre 10, nous étudions la translittération des noms arabes en écriture latine et
inversement. Nous présentons dans ce chapitre les différents aspects liés au sujet de la
translittération, à savoir l'aspect linguistique, l'aspect cognitif et dialectologique. Nous
dressons ensuite un état de l’art sur le domaine de la translittération (les principaux travaux
connexes au domaine de la translittération) suivi d’une description des approches que nous
avons utilisées pour développer notre système de translittération automatique des noms arabes
voyellés et non voyellés vers les différentes transcriptions possibles en écriture latine. Puis,
nous présentons notre méthode de transcription des noms arabes en écriture latine vers l'arabe.
Nous validons notre technique dans en présentant des expérimentations utilisant des moteurs
de recherche de référence.
Page
10
l'utilisent. Nous rappelons que l'annotation est faite au niveau des mots et des textes écrits en
arabe et en caractères latins (Arabizi). Nous présentons également notre interface
d'annotation, permettant de visualiser les résultats, et qui, par conséquent, facilite la validation
des résultats de notre analyse linguistique d'une part, et permet d'annoter manuellement les
mots hors vocabulaire afin d'enrichir nos dictionnaires initiaux d'autre part. Finalement, nous
exposons quelques traits extraits pour la reconnaissance automatique des dialectes arabes.
La cinquième partie de cette thèse est consacrée aux expérimentations et évaluations qui
ont été réalisées. Elle est constituée de trois chapitres
Ce chapitre est consacré à la présentation du système d'extraction de GEOLSemantics.
Nous décrivons par la suite la chaine de traitement qui est divisée en trois modules
complémentaires. Les deux premiers modules reposent sur une expertise acquise depuis des
années dans le domaine du traitement automatique des langues. A partir d’un texte en langage
naturel donné en entrée (la langue arabe dans notre cas), nous procédons à une analyse
syntaxique profonde afin d’identifier les relations syntaxiques entre les différents unités de la
phrase. Vient par la suite, l’extraction de connaissances consistant à formaliser ces relations
sous forme sémantique. A l’issue de ces deux modules, nous disposons d’une extraction des
connaissances formalisée en RDF. L’étape de mise en cohérence complète le traitement. Elle
aide à pallier quelques lacunes dans le résultat RDF dues au traitement intraphrase des deux
analyses précédentes.
Pour estimer l’efficacité de notre système, nous avons mené deux types d’évaluations :
une évaluation quantitative concernant la phase de segmentation et la phase d’extraction
d’entités nommées, et une évaluation qualitative de l'extraction de connaissances. Une
comparaison de notre outil à un autre outil de segmentation a été réalisée. Les résultats
montrent que notre outil est aussi performant que l'autre outil au niveau de la segmentation.
La particularité de notre outil est qu’il est beaucoup plus rapide et analyse toutes les entrées
lexicales. Ensuite, nous avons effectué nos expériences sur notre système d’extraction
d’entités nommées. Finalement, une évaluation qualitative a été effectuée pour estimer la
performance de nos règles d'extraction de connaissances.
Avant de passer à la phase de reconnaissance des dialectes, nous avons d'abord procéder à
la vérification des résultats établis lors de la construction de nos ressources linguistiques, ce
que nous avons développé comme lexiques dialectaux. Une série d'expérimentations et de
tests d'évaluation de la couverture des ressources linguistiques développées pour les quatre
dialectes a été effectuée dans le deuxième chapitre.
Le deuxième aspect concerne l’identification du dialecte aussi bien sur de l’arabe
dialectal écrit en écriture latine qu’en écriture arabe. Notre approche consiste à utiliser des
dictionnaires, en particulier des dictionnaires des mots les plus discriminants. Elle permet plus
facilement de donner une valeur de rejet si le texte n’appartient à aucune des langues ou
dialectes considérés. Elle permet aussi de déterminer les changements de langue.
Page
11
– une évaluation manuelle comparant les résultats de notre aligneur de mots par rapport à
un alignement de référence,
– une évaluation de l’impact de cet alignement sur la qualité de traduction du système de
traduction automatique statistique Moses
Les résultats obtenus montrent que la translittération améliore aussi bien la qualité de
l’alignement que celle de la traduction.
Page
12
Partie I : description de
l’arabe standard et dialectal
Page
13
Chapitre 1 La Linguistique
de la langue arabe
Page
14
Introduction
Ce chapitre est consacré à la définition et à la présentation de la langue arabe moderne
standard (MSA) et de ses spécificités. Dans la section 1.1, nous avons commencé par une
présentation générale de la langue arabe. Nous présenterons également le système d’écriture
de l’arabe dans la section 1.2. La section 1 .3 est dédiée à une présentation du lexique et de la
grammaire de la langue arabe. Nous exposons ensuite la morphologie flexionnelle dans la
section 1.4. Finalement, la section 1.5 est consacrée à exposer les problèmes d'analyse du
traitement automatique de la langue arabe
A l’origine, les peuples de la péninsule arabe tenait le monopole de cette langue qui est
sémitique (comme l’hébreu ou l’araméen), mais du fait qu’elle est la langue du coran elle
s’est étendue au-delà du golfe arabo-persique, atteignant l’Afrique du nord et l’Asie mineur.
De plus, l’expansion territoriale de l’empire musulman a fait de l’arabe une langue
d’administration, de culture et de sciences à travers son utilisation dans la définition et la
rédaction des contrats et des lois, la rédaction de manuscrits et de livres, la transmission et la
formation, etc. Par ailleurs, la diversité des populations arabes et de leurs cultures ont fait
émerger différentes variantes de l’arabe allant de l’arabe classique utilisé dans le coran, à
l’arabe standard moderne (ASM) – sur lequel nous avons focalisé notre étude dans ce chapitre
- représentant l’arabe officiel employé actuellement dans la presse, les documents officiels,
etc; en passant par l’arabe dialectal influencé par les spécificités historiques et culturelles
locales des populations constituant le monde arabe.
Historiquement, l’arabe tient ses origines au 2ème siècle et malgré son utilisation les premières
traces écrites comme on la connait actuellement remontent au 6ème siècle. Ce fait peut être
expliqué par l’analphabétisme des populations de l’époque qui communiquaient plus
oralement que par écrits. L’apparition de l’islam a fait sortir l’arabe de son territoire d’origine
et lui a donné une dimension internationale, en raison de son utilisation comme langue seule
et unique pour tous les devoirs et rituels religieux, et du fait que le coran, comme texte sacré,
ne peut être lu ou écrit qu’en arabe. Cette nouvelle dimension a multiplié considérablement
l’utilisation de l’arabe dans les communications et échanges oraux et surtout écrits.
Cette expansion à la fois géographique et fonctionnelle a rapidement généré des
réflexions sur la structuration et l’organisation de cette langue, mais aussi des intégrations et
des emprunts de mots depuis et vers d’autres langues comme le français, le perse, le turc, etc.
Vers le 9ème siècle, deux écoles linguistiques sont apparues en Irak et ont mis en place les
bases d’une science du langage basée sur l’arabe. La controverse entre ces deux écoles, en
occurrence celle de Basra (drivé par al-Mazini et al-Mubarrid) et celle de Kufa (mené par al-
Kisä’i et la’lab), a permis de développer la grammaire de l’arabe2.
2
Voir : [Link]
Page
15
1.2. Système d’écriture de l’arabe
Comme mentionné dans la section précédente, l’arabe est classé sous le groupe des
langues sémitiques contemporaines qui s'écrit de droite à gauche. Son système graphique se
compose d'un alphabet arabe de type abjad constitué de 28 lettres. Cet alphabet contient 25
consonnes et 3 voyelles longues « «و,» »اet « »ي. L’écriture arabe comporte aussi des
voyelles courtes qui sont généralement facultative mais essentielles dans les textes religieux
(Coran, Hadith, etc.). Il existe de plus, une série d'autres diacritiques dont les plus courants
comme l’indication de l'absence de voyelle ( سكون- sukun) et la gémination des consonnes ( شدة
- shadda). En arabe les mots indéfinis, qui ne sont pas associé à des articles ou à des
compléments du nom, prennent les désinences (nounatation ou tanwine) notées par des
diacritiques spéciaux.
Page
16
b. Les dérivés : sont les noms formés à partir d’une racine verbale. Le statut de cette
dernière détermine la nature et le nombre de ces formes. Nous trouvons dans cette
catégorie les participes actifs ( – ٌاربِ ض
َ celui qui frappe), les participes passif ( – مضروب
frappé), les noms de lieux ou de temps ( – ُ َمضْ ِربlieu de frappe), le nom d’instrument
( ٌ ِمضْ َرب- raquette), le nom d’une fois ( – ضربةune frappe), etc.
c. Les nombres : ce sont les numéros simples représentant les unités (de ‘– ’صفرsifr :
zéro- à ‘– ’تسعةtis’at : neuf-), les dizaines (‘– عشرونishruwn :vingt-) et les centaines
(‘ ’مئة- : cent-), etc ; et les numéros composés comme les cardinaux, par exemple ‘ ستة
– ’عشرseize.
1.3.2. Verbe
Est une entité portant un sens dépendant du temps et qui exprime une action, ou un
événement. Les verbes arabes sont formés sur des radicaux de trois consonnes comme le
verbe "( " َد َخ َلdakhala - entrer) et encore sur quatre consonnes comme le verbe "( "لَ ْملَ َمlamlama
- …). Ces racines peuvent donner naissance à d’autres schèmes ou patrons à travers des
transformations morphologiques, comme le redoublement d’une consonne ou allongement
d'une voyelle, donnant lieux à ce que nous appelons les racines à schème augmentées. Selon
ces racines nous avons la classification de verbe suivante :
Verbe à racine simple : verbe à trois consonnes et associer au schème "( "فَ َع َلfa'ala).
Si le verbe ne contient pas une voyelle longue, on l'appelle verbe sain ()صحيح. Dans le
cas contraire, appelé verbe (معتلmou3tale), nous distinguons les cas suivants en
fonction de la voyelle longue et de sa position :
verbe mahmouz ( )مهموز: si l'une des consonnes radicales est le glide "( "أhamza),
quel que soit sa position dans le verbe ;
verbe assimilé ( مثال- mithal) : si la 1ère consonne radicale est le glide "( "وw -
wâw) ou "( "يy – yâ’)
verbe creux ( أجوف- ajwaf) : si la 2ème consonne radicale est "( "وw) ou "( "يy)
verbe défectueux ( ناقص- naâqis) : si la 3ème consonne radicale est l’un des glides
"( "وw) ou "( "يy)
Par ailleurs, une autre classe de verbe existe et s’appelle verbe redoublé ( مضاعف-
mudaâ'if). Elle est caractérisée par la présence dans un verbe de deux consonnes
identiques en deuxième et troisième position du radical
verbe à racine augmentée : ce type de verbe est obtenu, comme indiqué ci-dessus,
par des opérations morphologiques appliquées à des racines simples afin de donner un
sens particulier. Il existe différentes opérations utilisées, mais au final ces opérations
intègrent une ou plusieurs lettres de l’ensemble rassemblé dans le mot ( س َأ ْل ُم ُتونِيهَا
َ -
saaltemouniha). Parmi les fonctions morphologiques utilisées, nous citons :
le redoublement : qui consiste généralement à redoubler la deuxième consonne
radicale du verbe, les verbes obtenus suivent le schème « ( »فَ َّع َلfa’’ala)
l’allongement : cette opération est réalisée par l’ajout du glide "( "اalif) à la
première consonne radicale, ce qui donne le nouveau schème « ( »فَاع ََلfaâ’ala)
l’adjonction : cette opération permet d’ajouter une ou plusieurs lettres à la racine
radicale dans des positions différentes tel que :
adjonction d’un morphème des trois consonnes " َ( "اِسْتista) au début de la
racine radicale du verbe. Cette opération donne naissance à nouveau schème
qui a la forme « ( »اِ ْستَ ْف َع َلistaf’ala)
adjonction du glide "( "اalif) au début de la racine radicale et l’ajout du
morphème consonantique "( "تt) après la première consonne, les verbes
Page
17
obtenus suivent le nouveau schème « ( »اِ ْف َت َع َلifta’ala)
adjonction du morphème consonantique "( "تt) pour les verbes à racine
quadratique (racine de quatre lettres) donnant le schème « ( »تَفَ ْعلَ َلtafa’lala)
adjonction du glide "( "اalif) au début de la racine quadratique et l’ajout du
morphème consonantique "( "نn) après la deuxième consonne. Cette opération
morphologique produit le schème « ( »اِ ْف َع ْنلَ َلif’alala)
1.3.3. Pronoms
En arabe, les noms invariables sont appelés des pronoms, et ils possèdent une structure
et une flexion uniques quelle que soit leur place dans la phrase. Ils contiennent un type
particulier et jouent une fonction syntaxique précise dans la langue. Nous citons entre autres
les types suivants :
o Les pronoms personnels : sont des noms utilisés pour remplacer un nom ou désigner
une personne ou un objet qu’ils soient absents, auditeurs ou locuteurs. Dans notre
travail, nous étudions les pronoms personnels isolés et collés.
a. Pronoms personnels isolés ( )ضمائر منفصلة: Il s'agit des pronoms qui ne collent pas
ni aux noms ni aux verbes. Ils s'écrivent seuls et détachés du nom. Nous classons
ces pronoms dans les trois catégories résumées dans le tableau suivant :
Page
18
démonstratifs d'éloignement par exemple’ ’(أُولَئِكûuwlaâyika - ceux-là). Le tableau ci-
après résume l’ensemble de ces pronoms démonstratifs.
o Les pronoms relatifs ( – أسماء موصولةasmaâ' mawsuwla) : Il s'agit d'un nom placé
avant une phrase appelée lien de conjonction contenant une information qui complète
le sens de la phrase principale. L’ensemble de ces pronoms sont résumés dans le
tableau suivant :
Page
19
mots, mais qui permettant d’appliquer des modifications sur un lemme afin de dénoter des
traits grammaticaux souhaités. Elle possède deux catégories : la déclinaison pour le système
nominal et la conjugaison pour les verbes. Toute langue utilisant cette opération est appelée
langue flexionnelle, et l’arabe en est une. En arabe, la flexion se concrétise par l’ajout des
suffixes et préfixes (Blachère et Gaudefroy, 1966) aux lemmes pour refléter des indices
d’aspects, de mode, de temps, de personne, de genre, etc. Dans la suite de cette section nous
détaillons ces opérations selon les deux axes : déclinaison et conjugaison.
Genre du verbe
Transitif
Intransitif
Voix Active Voix Passive
Paradigme de conjugaison
Page
20
Il existe trois modes en arabe pour la conjugaison des verbes : accompli, l'inaccompli et
l’impératif. Ces modes sont caractérisés par l’ajout de suffixe ou de préfixes traduisant les
marques de personnes, genre et le nombre. Cependant, nous signalons que le mode accompli
est caractérisé par l’ajout seulement de suffixes ce qui n’est pas le cas des deux autres modes.
L’accompli ( )الماضي: indique un fait ou une action qui s'est accompli ou effectué au
passé ou au moment où on parle. Les verbes dans ce paradigme sont conjugués en
ajoutant à la racine des suffixes permettant d’exprimer le type de personne, le genre, le
nombre et le mode du sujet. Par exemple le verbe '( 'ش ََر َحcharaha – expliquer), se
conjugue pour la 2ème personne au duel par l’ajout le suffixe ' 'تُ َماpour obtenir la forme
( َش َرحْ تُ َماcharahtoûma – vous avez expliqué (duel)). Le tableau suivant donne
l’ensemble des suffixes utilisés de manière générale, en prenant le verbe ' ' َش َر َحcomme
exemple.
''أَنَا ' ُ'نَ ْحن ' َ'أَ ْنت ِ 'أَ ْنتُ َما' 'أَ ْن
'ت ''أَ ْنتُ ْم ' َ'أَ ْن ُّتن ''هُو '' ِه َي '' ُه َما '' ُه ْم ' َّ'هُن
(je) (nous) (tu) (tu) (vous-2) (vous) (vous) (il) (elle) (ils-2) (ils) (elles)
تُ ْش ََرحْ نَا ش ََرح َش ََرحْ ت ت
ِ َْح ر َ
ش َش َرحْ تُ َما َش َرحْ تُ ْم َش َرحْ تُ َّن َش َر َح تْ َش َر َحا َش َر َح َش َر ُحوا ََش َرحْ ن
L’inaccompli ( )المضارع: Il sert à exprimer tout fait ou action qui n'est pas écoulé,
c'est-à-dire le présent ou le futur. Il dispose de préfixes et de suffixes à ajouter à la
racine du verbe. Ce paradigme se caractérise par le fait que les marques de personne,
genre, nombre et mode sont constituées de préfixe ainsi qu'une ou plusieurs infixations
(due à des transformation) à travers des transformations morphologiques, comme le
redoublement d’une consonne ou substitution des voyelles, comme c’est le cas du
verbe َّ َمسmassa ‘toucher’ conjugué en ُّ نَ َمسnamassu ‘nous touchons’, َتَ ْم َس ْسن
tamsasna ‘vous touchez’. Nous distinguons les variantes suivantes de ce paradigme :
Inaccompli indicatif ( )مرفوع: ce paradigme est du mode réel où le locuteur énonce
le caractère réel (réalisé, devant être réalisé, en cours de réalisation, etc.) du
procès-verbal qui désigne le déroulement dans le temps de la situation décrite par
le verbe et il correspond soit à un état, soit à un processus, soit à un évènement. Il
est structuré sur la voyelle /u/ qui indique par défaut l'indicatif.
L'inaccompli futur : correspond à une action qui se déroulera au futur et est
marqué par l’ajout de la lettre ' سsa’ ou de la particule سوفsawfa au début du
verbe conjugué à l’inaccompli indicatif. Par exemple, pour le verbe کتبkataba
écrire) nous obtenons سيکتبsayaktubu pour ‘il écrira’ ou يکتب سوفsawfa
yaktubu qui signifie ‘il va écrire’.
Inaccompli subjonctif ( )منصوبet apocopé ( )مجزوم: ces deux paradigmes sont de
mode potentiel (sauf pour les deux négations لَ ْمet )لَ ْنoù le locuteur se contente
d'en énoncer la nature possible ou virtuelle du procès-verbal (Blachère et
Gaudefroy, 1966). Il est nécessaire de préciser que la voyelle finale /a/ caractérise
le subjonctif et l'absence de voyelle finale ou soukoun pour l’apocopé.
L’impératif : il est utilisé pour exprimer un ordre, donner un conseil ou faire une
suggestion ou une recommandation. Ce paradigme ne se conjugue qu'à la 2ème
personne au singulier, duel et pluriel. La voyelle finale /i/ caractérise l'impératif (est
structuré sur le soukoun) ou sur l'élimination du noun et de la lettre défectueuse du
verbe non sain. Dans le tableau suivant nous donnons un exemple de conjugaison pour
َ َكت.
le verbe 'écrire' kataba ’َب
‘ ’ َت’ ‘ أَ ْنت
ِ ‘ أَ ْن ’أَ ْنتُّنَ ’ ‘ أَ ْنتُ ْم’ ‘ أَ ْنتُ َما
Page
21
(tu) (tu) (vous-2) (vous) (vous)
ْأُ ْكتُب أُ ْكتُبِي أُ ْكتُبَا أُ ْكتُبُوا َأُ ْكتُ ْبن
Page
22
nounatation et prennent la même marque à l’accusatif et au génitif, à savoir la
fatha ' َ'. Ils existent des règles permettant de reconnaître ces noms, et dans le
tableau suivant nous donnons certaines de ces règles accompagnées d’exemple :
Règle Exemple
Noms propres féminins ()ال َعلَم ال ُمؤنَّث (هُدَىHouda), ُ(زَ ْينَبZaynab), ُج َّدة
(Jeddah)
Un nom propre masculin, mais se terminant ُ( َح ْم َزةHamza), ُ(أُ َسا َمةOussama), ُطَ ْل َحة
ْ ٌ
par le signe du féminin () َعلَ ٌم ُمؤنَّث لِل ُم َس َم ال ُم َذ َّك ِر (Talha)
Adjectifs et couleurs de schèmes af’alu (أَ ْكبَ ُرplus grand), (أَ ْس َو ُدnoir), أَحْ َم ُر
ْ َ
(الو ْز ِن أف َع ُل
َ صفَة ولَوْ ٌن َعلَى
ِ ) (rouge)
Adjectifs de schèmes fa’lan ( صفة َعلى ال َوز ِن ْ َ ٌ َ ِ ُ( َكس ََْلنparesseux), َُطشَان ْ (عassoiffé)
ُ)فَع ََْلن
Les noms propres “Etrangers” ()ال َعلَم اِلَ ْع َج ِمي ُاريس ِ َ(بParis), (إِ ْد َور ُدEdouard)
Tableau 1. 5. Certaines règles de déclinaison de diptote
Déclinaison des cinq noms : c’est un ensemble de cinq exceptions bilitères qui se
caractérisent par l’allongement de leur seconde syllabe lorsqu'ils sont définis par
annexion. Autrement ils prennent les marques traditionnelles. Ces mots sont : أب
(père), (أخfrère), (حمbeau-père), (فوbouche), (ذوpossesseur). Dans le tableau
suivant nous donnons quelques exemples de flexion de ces mots :
Page
23
(‘assawAn) et pour les autres cas le mot َص َويْن
َ ‘(عassawayn).
Pour le pluriel de pénurie, les quatre patrons suivant ont été établis : أَ ْف ِعلَة، أَ ْف َعاْل، فِ ْعلَة،أَ ْف ُعل, (aaf-
‘ilah, aaf-‘aal, fi‘-lah, aaf-‘ul), par exemple : (aaT-‘imah, Aliments) ط ِع َمة ْ َأ, (aab-
wab,portes) أَب َْواب, (Sib-yah, Garçons) ص ْبيَة ِ , (aan-hur, riviéres) أَ ْنهُر. Pour le pluriel de
multiplicité il existe 35 patrons du pluriel comme : (suhuwl, plaines) ُسهُولselon le patron
(fu‘uwl) فُعُوْ لet (bul-daan, Pays) ب ُْلدَانsuivant le patron (fu‘-laan) فُعَْلن.
Page
24
d’un traitement automatique. En plus des phénomènes classiques, comme l’ambiguïté, la
coordination ou l’anaphore, nous trouvons aussi dans le cas de l’arabe d’autres phénomènes
propres aux langues sémitiques tel que l’absence de voyelles, l’agglutination et l’ordre des
mots dans une phrase. Dans la présente section, nous présentons les phénomènes que nous
considérons les plus importants pour l’arabe.
‘( علمlm)
Verbe
Nom
Transitif Intransitif
‘alamun
‘ilmun
Impérati Indicatif
‘drapeau’ f
‘savoir’
ُعلِ َم َعلِ َم
ُعلِّ َم
Dans cet exemple, nous voyons que le mot non voyellé ‘ ’علمpeut avoir sept
voyellations différentes ayant pour chacune un sens particulier, réparties sur des catégories
grammaticales différentes. Ceci engendre plusieurs cas d'ambiguïté lexicale comparable à
celles posées par l'accentuation multiple des mots français non accentués. Pour illustrer cette
comparaison, prenons le mot en français non accentué, eleve. Il peut être interprété comme
élève (nom masculin ou Verbe, Présent de l’indicatif, Voix active, 1ère et 3ème personne,
masculin/féminin, au singulier ou Verbe, Présent de l’impératif 2 ème personne), ou élevé
(adjectif masculin ou participe passé du verbe ‘élever’).
A travers ces différents exemples, nous voyons très bien les ambigüités que peut
Page
25
engendrer ce type de phénomène, mais selon des études statistiques sur l’occurrence
d’apparition de ce phénomène en français et en arabe, il a été démontré que ce phénomène est
très fréquent en arabe par rapport à une faible fréquence en français (Debili et Achour, 1998) :
91.7% des mots du lexique français ne sont pas ambigües avec une moyenne de 1.1
accentuation possible par mot (El-Bèze, 1994), contre 19% des mots du corpus ne sont pas
ambigües avec une moyenne de 6 voyellisations par mot (Debili, 2001; Ouersighni, 2002).
Ces statistiques montrent qu’il est indispensable de prendre en compte cette problématique
dans le cas d’un traitement automatique de l’arabe.
1.5.2. Agglutination
La langue arabe est une langue fortement agglutinée dans le sens où les mots peuvent
être formés à partir d’une base à laquelle nous pouvons rajouter des affixes (préfixes et/ou
suffixes) et des clitiques (enclitiques et/ou proclitiques). Dans le schéma suivant nous
donnons une structuration globale d’un mot graphique en arabe, proposée par D. Cohen :
Mot minimal
## Mot maxima. l ##
Page
26
Figure 1. 3. Pyramide d’ambiguité (Attia, 2008)
Pour illustrer ce constat, nous prenons l’exemple de la racine ‘ ’كتبqui peut être
interprétée en ‘il a écrit’ ou ‘des livres’ ou ‘il a été écrit’, et lorsque des clitiques lui sont
ajoutées, l'ambiguïté est réduite : pour le mot ‘ ’(يكتبajout d’affixe seulement) nous avons
deux possibilités : ‘il écrit’ ou ‘il s’écrit’ et pour le mot ‘ ’(يكتبهajout d’affixe et de clitique)
nous avons que l’interprétation ‘il l’écrit’.
Pour certains mots, l’agglutination peut entraîner une ambigüité morphologique au cours
de l’analyse lorsqu’un clitique peut être assimilé à un caractère appartenant à la racine du mot.
C’est le cas par exemple de la lettre ‘ ’(فf) qui fait partie du mot ‘ ’(فجرaube, a fait exploser)
et qui peut être aussi considérer comme un clitique collé au verbe ‘ ’(جرa tracté).
Dans le reste de cette section, nous allons décrire les clitiques (les proclitiques et les
enclitiques) qui peuvent être collés à un mot minimal pour produire un mot maximal (ou la
forme agglutinée).
Cette classification n’omet pas le fait qu’il existe certaines exceptions de proclitiques
qui peuvent jouer différents rôles, comme pour le proclitique ‘ ’(وwa) utilisé généralement
comme particule de liaison (conjonction de subordination et de coordination), mais également
peut être utilisé comme particule d'accompagnement ( )واو المعيةou de serment ()واو القسم.
Comme nous avons déjà mentionné les proclitiques peuvent se combiner entre eux et
forment par conséquent des proclitique composé (’… ولك, ول, أفل, أفب,أفa-fa-li, ’a-fa-bi, ’a-fa,
wa-li, wa-la-ka). Selon [Mesfar, ] et [Habash, 2010], il existe quatre niveaux de clitisation
selon la possibilité de leur apparition dans un proclitique composé, en respectant un ordre bien
définit comme suit :
Page
27
QST + [CNJ + [PRT + [DET + PRE + [BASE] + SUF + ENC ]]]]
Pour illustrer ce propos, nous exposons la forme agglutinante suivante et qui est composée
de plusieurs proclitiques en suivant leur position d’apparition : ‘ ’ت ِ أَفَبِالبَ ْيdécomposable en ‘ ت
ِ َب ْي
َ’ أ+ َ ف+ ب
ِ + ال+(aa + fa + bi + l + bayti – et + est ce qu+ à + la + maison ?).
Par ailleurs, nous signalons que la fusion des proclétiques n’est pas faite de façon
aléatoire, elle suit deux types de contraintes exprimées par une relation d’ordre et un ensemble
de règle de compatibilité comme suit :
Une relation d’ordre : cette relation est établie en fonction d’un vecteur d’ordre selon
(Dichy, 1984/89; 1994). Dans ce vecteur chaque proclitique est incompatible, à cause
de la relation d’ordre strict, avec un proclitique de même position, c’est le cas par
exemple des proclitiques wa et fa coordonnants ( فاء العطفet )واو العطفqui occupent
la position 2 dans le vecteur d’ordre. Nous notons aussi qu’un proclitique occupant
une position d’antériorité par apport à un autre n’a aucune chance de se retrouver
placé après ce dernier dans la construction d’un mot graphique. Par exemple,
l’interrogatif ’a- ( )همزة اَلستفهامoccupe toujours la première position dans un mot
graphique maximal et il est impossible de le trouver précédé par un autre proclitique.
Règles de compatibilité : pour des raisons syntaxiques et sémantiques, certains
proclitique ne sont pas compatibles entre eux, c’est le cas par exemple des lettres بet
(لbi- et li-) qui ne peuvent pas se combiner, car elles sont des prépositions ( حروف
)جرayant des sens différent (Dichy et Zmantar, 2009).
Les enclitiques à la première personne tels que "( "نِيniy – moi / mon) ou "( "ناnaa – nous/
notre) et ceux à la deuxième personne tels que "ك َ " (ka – toi/ton) ou "( " ُك ْمkum – vous/votre
[masculin pluriel]) ont une forme invariable, mais ceux de la troisième personne sont
variables et prennent différentes vocalisation suivants les règles suivantes :
Dans le cas des verbes, l'enclitique peut varier en fonction de l'aspect du verbe et du
pronom. La comptabilité entre les enclitiques et les verbes dépend de la propriété de
transitivité du verbe. Ainsi, les verbes intransitifs et ceux conjugués à la forme passive
ne prennent jamais des enclitiques. Par ailleurs, l’utilisation des enclitiques dans le cas
Page
28
des verbes peut être répartie selon l’aspect du verbe comme suit (Mesfar, 2008) :
Aspect Inaccompl
Inac- Inaccompl Accom
i Impé Accompli
compli i apocopé -pli Futur Pronoms
Proclitique Subjonctif -ratif Actif
Actif Actif Passif
Actif
ُ(هhu) X
(هُ َماhumaa) X 2éme personne,
(هُ ْمhum) X féminin, singulier
(ه َُّنhunna) X
( ِهhi) X
2ème ou 3ème
( ِه َماhimaa) X
personne, masculin
( ِه ْمhim) X
ou féminin duel
( ِه َّنhinaa) X
( ِهhi) X X X X X
( ِه َماhimaa) X X X X X 2ème personne,
( ِه ْمhim) X X X X X féminin singulier
( ِه َّنhinaa) X X X X X
ُ(هhu) X X X X X X
2ème ou 3ème
(هُ َماhumaa) X X X X X X
personne, masculin
(هُ ْمhum) X X X X X X
ou féminin, duel
(ه َُّنhunna) X X X X X X
Tableau 1. 6. Utilisation des enclitiques dans le cas des verbes
Dans le cas nominal, l’enclitique doit respecter une harmonie vocalique avec la
voyelle casuelle de la forme à laquelle il se rattache, et dans le cas des noms se
terminant par une voyelle double ou tanwine, ces derniers ne prennent jamais des
enclitiques. Seul le mode déterminé par annexion est susceptible de prendre des
enclitiques selon les règles suivantes :
Si le nom est fléchi au nominatif ou à l’accusatif, il nécessite l'utilisation des
enclitiques suivants : ُ[هPRON+3+m+s], [هُ َماPRON+3+m|f+d], هُ ْم
[PRON+3+m+p], [ه َُّنPRON+3+f+p]
Si le nom est fléchi au génitif, il nécessite l'utilisation des enclitiques suivants : ِه
[PRON+3+m+s], [ ِه َماPRON+3+m|f+d], [ ِه ْمPRON+3+m+p], [ ِه َّنPRON+3+f+p].
Par ailleurs, le problème ne réside pas dans l'analyse d'un langage ambigu en soi; mais
c'est plutôt au niveau de son traitement de façon robuste et réaliste. En effet, après une
première phase de segmentation du texte en unités lexicales, il est convenu de chercher dans
Page
29
le lexique les interprétations correspondant à chacune d'entre elles. A chaque interprétation,
nous associons une catégorie syntaxique reconnue par la grammaire.
L’un des aspects de la langue arabe qui cause cette ambiguïté, c’est le fait que beaucoup
de mots en arabe sont homographiques : une même forme orthographique peut avoir des
prononciations différentes. Cette homographie peut être accentuée lorsqu’elle est associée à
d'autres phénomènes (absence de voyellation, morphologie flexionnelle et agglutinante, etc)
ce qui donne des taux d'ambigüité assez élevés. Il a beaucoup de facteurs récurrents ayant
contribués à ce problème, nous citons entre autres (Attia, 2006):
Il existe dans l’arabe des mots homographes qui, sans flexion préalable, peuvent avoir
différentes prononciations, des sémantiques différentes, voir généralement des
catégories grammaticales différentes. C’est par exemple le cas du mot (ذهبdhb) qui a
deux interprétations ٌ( َذهَبdahab) : or et َب
َ ( َذهdahaba) : il est allé.
La flexion des verbes contient des opérations morphologiques et orthographiques
(suppression de caractères ou assimilation) qui produisent fréquemment des formes
fléchies homographes. Ces formes peuvent appartenir à deux ou plusieurs lemmes.
Dans l'exemple suivant nous montrons une forme verbale simple ( – يعدy’d) qui peut
être interprétée comme appartenant à cinq lemmes :
)أعاد (يُ ِعد )عاد (يَعُد )وعد (ي ِعد )يَ ُع ّد (عد )يُ ِع ّد (عد
yu'id, aa'âda ya'ud, 'âda ya'id, wa'ada ya'udd, 'adda yu'idd, aa'adda
il refait il retourne il promet il compte il prépare
Le redoublement des lettres, au moyen de la lettre Shadda, crée des lemmes différents,
sans que cela ne soit explicite à l'écrit. Le redoublement de la syllabe du milieu du mot
درس.(drs) donne les deux lemmes suivants س َ (د ََرdarasa) et َّس
َ ( َدرdarrasa) ayant les
interprétations ‘il a étudié’ et ‘il a enseigné’ respectivement.
Plusieurs opérations de flexion induisent des changements légers dans la
prononciation des mots sans que cela ait un effet orthographique explicit dû au
manque de diacritique. Nous citons par exemple les ambigüités au niveau des formes
fléchies du verbe (كتبتktbt) :
ْ َكتَب
ْت ِ َكتَ ْب
ت ََكتَبْت ُ َكتَب
ْت
katabtu – j’ai katabti – tu as écrit katabta – tu as écrit katabat – elle a écrit
écrit (féminin) (masculin)
Page
30
composants d’une phrase. Pour illustrer cette propriété prenons les phrases suivantes :
Verbe + sujet + complément :
(تأهلت الجزائر إلى كأس العالم- L’Algérie s’est qualifiée pour la coupe du monde)
Sujet + verbe + complément :
(الجزائر تأهلت إلى كأس العالم- C’est l’Algérie qui s’est qualifiée en coupe du monde)
Complément + verbe + sujet
(إلى كأس العالم تأهلت الجزائر- C’est pour la coupe du monde que l’Algérie s’est qualifiée)
Page
31
Chapitre 2 Introduction aux
dialectes arabes
Page
32
Introduction
La langue arabe est l’une des langues les plus parlées et utilisées dans le monde, elle
occupe actuellement la cinquième place (Chung, 2008; Lewis, Simons et Fennig, 2013) avec
plus de 330 millions d’arabophones, tout en devenant la langue officielle de plus de 22 pays,
présentés dans la figure 1, répartis sur les régions suivantes :
Péninsule arabique (en arabe شبه الجزيرة العربيةšibh al-jazīra al-ʻarabīya ou جزيرة العرب
jazīrat al-ʻarab ) : est une vaste péninsule au sud-ouest de l’Asie, à la jonction entre ce
continent et l’Afrique. Elle comprend les sept États suivants : l’Arabie saoudite, le
Yémen, Oman, le Qatar, les Émirats Arabes Unis, le Koweït et le Bahreïn;
Moyen-Orient (en arabe الشرق اِلوسطAsh-Shark al-awssat ) : cette région est comprise
entre la rive orientale de la mer Méditerranée et la ligne tracée par la frontière entre
l’Iran d’une part, le Pakistan et l’Afghanistan d’autre part. Cette région se trouve
essentiellement en Asie mais est parfois étendue à l’Afrique du Nord. Elle comprend
l’Irak, la Jordanie, le Liban, la Palestine et la Syrie. L’Égypte, avec sa péninsule du
Sinaï en Asie, est généralement considérée comme faisant partie du Moyen-Orient
Afrique du Nord ou le Maghreb (en arabe : المغربal-Maghreb ) : cette région inclut les
états du Maghreb, à savoir l’Algérie, le Maroc, la Tunisie, la Mauritanie, la Libye, le
Soudan, Djibouti et la Somalie.
Elle est par ailleurs la langue de la religion musulmane, ce qui étend son utilisation à tous les
continents du globe constituant ainsi une communauté estimée à plus de 1 milliard et demi de
croyants musulman. La langue arabe constitue ainsi un élément principal dans la culture et la
pensée d’une partie importante de l’humanité et du patrimoine mondial.
D’un autre côté, l’arabe est une langue sémitique, comme l’hébreu et l’araméen, et en terme
de nombre de parlers elle est actuellement la langue sémitique la plus parlée. De plus, l’arabe
est une des langues naturelles les plus riches dans le monde en termes d’inflexion
morphologique et de dérivation. Elle est caractérisée par le fait que l’arabe écrit diffère d’une
manière non négligeable des différentes variétés parlées de la langue arabe ce qui a produit
une situation diglossique où nous assistons à l’utilisation de deux variétés linguistiques d’une
seule langue à savoir : l’arabe littéraire appelé ‘variété élevée’ et l’arabe dialectal appelé
‘variété basse’.
Selon (Farghaly et Shaalan, 2009), l’arabe littéraire se divise en deux catégories :
l’arabe classique et l’arabe moderne standard (MSA). L’arabe classique est utilisé pour les
Page
33
textes et rituels religieux ainsi que les productions littéraires. Elle constitue la base de l’arabe
moderne standard qui en constitue une forme moderne. L’arabe moderne (MSA) est utilisé
dans les médias, les journaux et l’administration. Elle est aussi enseignée dans les écoles à
partir du primaire.
Cependant, les locuteurs du monde arabe parlent en dialecte qui est une variante
linguistique de l’arabe classique ayant des traits propres par pays ou par région, ces traits sont
la conséquence d’une succession d’influences linguistiques, venues d’ailleurs comme le turc,
le français, l’italien, et l’espagnol ou l’anglais, ou grâce à un mélange à des langues des
peuples autochtones comme le berbère et le copte. Nous pouvons aussi considérer le dialecte
comme un mélange homogène entre l’arabe moderne classique et l’arabe dialectal parlé par la
population avec quelques différences d’une région à une autre et quelquefois au sein d’une
même ville. Par conséquent, d’un point de vue scientifique, les dialectes peuvent être
considérés comme des langues distinctes dans leur propre droit, un peu comme langues
germaniques du Nord (Norvège, Suède, Danemark) et les langues slaves de l’Ouest (tchèque,
slovaque, polonais) (Zaidan et Callison-Burch, 2014).
Par ailleurs, le MSA est la seule variété de l’arabe littéraire qui est normalisé,
réglementé (standardisé). Elle est devenue indispensable pour la communication écrite et
officielle. Quant aux dialectes, ils sont utilisés principalement pour la communication orale de
tous les jours. Ils ne sont pas enseignés dans les écoles, et restent absent dans les
communications écrites officielles. Cependant, il est possible de produire le dialectal en texte
arabe, en utilisant les lettres utilisées dans le MSA et les mêmes règles d’orthographe du
MSA, qui sont pour la plupart phonétique.
Ce chapitre est consacré à la définition et à la présentation de la langue arabe dialectale
et de ses spécificités. La section 2.1 présente la langue arabe ainsi que ses variantes utilisées :
l’arabe classique, l’arabe moderne standard (MSA) et l’arabe dialectal. Nous présenterons
également les variétés de l’arabe dialectal dans la section 2.2. La section 2.3 est dédiée à une
présentation de la situation linguiste de la langue dans le monde arabe. Nous donnerons
ensuite un aperçu historique de l’arabe algérien dans la section 2.4. Enfin la section 2.5 est
consacrée à une étude qui compare l’arabe algérien, égyptien et tunisien avec l’arabe moderne
standard (MSA) sur plusieurs niveaux : phonologique, morphologique, orthographique,
lexical et syntaxique.
Page
34
4. Le familier des éclairés (9aamiyyat al-mutanawwiriin - )عامية المتنورين,
5. Le familier des analphabètes (9aamiyyat al-?ummiyyiin - )عامية اِلميين.
Cette classification a évolué entre temps, et son initiateur a proposé dans (Badawi, 1985), de
nouvelles appellations aux variantes citées précédemment comme suit : 1. arabe classique, 2.
arabe standard moderne, 3. arabe parle des instruits, 4. arabe parle des semi-instruits, et 5.
arabe parle des analphabètes.
A l’époque moderne, l’arabe contient généralement au moins trois variétés qui coexistent
côte à côte, à savoir l’arabe classique, l’arabe standard et l’arabe dialectal. La suite de cette
section sera consacrée à la description de ces variétés.
2.1.1 L’arabe Classique
L’arabe classique est la variété la plus prestigieuse comme elle est la langue du Coran.
C’est avec l’avènement de l’islam que la langue arabe a connu un véritable essor. Rappelons
que pour les musulmans, la langue arabe classique est la langue sacrée de l’islam, de par le
fait que le Coran a été révélé au prophète Mahomet par Dieu à travers l’archange Gabriel, en
arabe classique, morceau par morceau, dans un arc de temps de 21 ou 22 ans et sous forme
définitive. Selon (Djili, 2011), cette révélation du Coran en langue classique a marqué la
naissance de cette dernière, et cette époque était appelée par certains linguistes et historiens, la
première métamorphose de la langue arabe. La langue arabe est devenue une langue officielle
du monde musulman en 685 quand le calife Oumeya Abd Al Malik Ibn Marwan arriva à
Damas la capitale du monde musulman, avec pour objectif de centraliser son pouvoir
politique : il a imposé donc l’arabe comme unique langue officielle. Le calife entreprend des
réformes de l’écriture par la suite et prend de grandes décisions concernant les signes écrits. À
partir du VIIIe siècle une codification au niveau de la grammaire fixa la langue dans sa forme
classique définitive et facilita la diffusion de la langue par l’enseignement partout où la
nouvelle religion ‘l’islam’ a pu pénétrer. C’est à cette époque que les premiers traités et
dictionnaires sont apparus. Par conséquent, cette variété est bien définie, parce qu’elle a été
codifiée par les premiers grammairiens arabes.
Elle s’est par ailleurs développée au fil du temps à travers son utilisation dans le
développement des sciences et techniques, et dans la traduction des manuscrits grecs, de
philosophie et de sciences, entre le VIIIe et le Xe siècle. Elle était aussi utilisée dans
l’enseignement au sein des universités que ce soit à l’est de l’empire musulman, comme la
maison de la sagesse à Baghdad, ou à l’ouest comme en Andalousie. Cette utilisation pour la
science et la traduction a signé la seconde métamorphose de la langue arabe qui a fait d’elle
une langue de civilisation qui a duré plus de quatorze siècles, et était arrivée jusqu’en
occident.
Cet aspect a produit, au fil de l’histoire, un passage de la langue du Coran, comme
expression de l’intelligence divine, et donc intouchable, inimitable et intraduisible, à la langue
arabe comme expression de la perfection. A nos jours, il existe un consensus parmi les
grammairiens arabes que la grammaire de l’arabe classique est complète comme elle décrit un
corpus fermé contenant le patrimoine religieux et littéraire arabe.
2.1.2 L’arabe standard (MSA)
L’arabe moderne standard (MSA) est une forme de l’arabe, un peu différenciée de l’arabe
classique, qui est utilisée chez les locuteurs arabes instruits dans les situations formelles. Le
MSA est fondé syntaxiquement, morphologiquement et phonologiquement sur l’arabe
classique avec un lexique plus récent. L’arabe moderne standard, appelé aussi arabe formel,
est la forme de l’arabe utilisée dans la plupart des écrits administratifs, médiatiques,
scientifiques, techniques, littéraires ainsi que dans la majorité des articles de presse et les
journaux télévisés. Le MSA, constitue la langue écrite de tous les pays arabophones et de ce
Page
35
fait elle est retenue comme langue officielle de ces pays, sans être la langue maternelle des
populations de ces pays qui est généralement le dialecte. Cependant, le MSA n’est pas une
variété bien définie car il n’a pas été complètement élucidé et décrit comme l’arabe classique.
Le MSA se distingue de l’arabe dialectal par son système grammatical qu’il partage avec
l’arabe classique, même s’il existe des constructions fréquentes dans l’un et qui sont
considérées comme rares par l’autre.
Le MSA est donc la langue de communication non spontanée. Par conséquent, nous
assistons, d’un point de vue sociologique selon (El Kassas, 2005) à deux mouvements en
opposition. D’une part, l’apparition d’un langage des jeunes accentuant l’écart entre dialectes
et normes de la langue, et d’autre part, un attachement à la langue classique et une envie de lui
donner vie en tant que langue parlée. S’ajoute à cela, la globalisation qui donnera peut-être
naissance à un futur MSA.
D’un autre côté, dire langue arabe, c’est donc parler d’un ensemble complexe dans lequel
se déploient des variétés écrites et orales répondant à un spectre très diversifié d’usages
sociaux, des plus savants aux plus populaires. Mais au-delà de cette diversité, les sociétés
arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène. Elles
sont farouchement attachées à l’intégrité de leur langue, d’où l’importance du MSA. Ce
dernier constitue un terrain commun pour cette large population. Cet attachement est
matérialisé de diverses manières : la multiplication des chaînes de télévision arabes par
satellites et les sites arabes sur Internet ont contribué à augmenter la valeur et l’importance du
MSA au sein de la société. Cette importance est augmentée d’avantage à travers la
scolarisation, la constitution de grandes métropoles urbaines, les migrations interarabes, etc.
Tous ces éléments constituent des facteurs qui ne font qu’accélérer le mouvement
d’homogénéisation et d’harmonisation linguistique de l’arabe via la variante MSA. (El
Kassas, 2005).
Le MSA possède par ailleurs des variations régionales. Par conséquent, nous pouvons
détecter l’origine d’un texte marocaine, égyptienne ou en provenance des pays du Golfe. Cette
variation est due à plusieurs facteurs parmi lesquels nous citons : i) les différences introduites
par la création de nouveaux vocabulaires, ii) l’influence de l’histoire coloniale propres aux
régions sur la syntaxe et la stylistique du MSA employé dans chaque région : les pays du
Maghreb sont influencés par la littérature française alors que ceux du moyen orient sont
influencés majoritairement par la littérature anglaise. Par exemple, الوزير اِلولalwaziir alawal
‘le premier ministre’ traduit du français est le terme utilisé au Maghreb pour désigner le terme
fréquent رئيس الوزراءraʕiis alwuzaaraaʕ ‘le président des ministres’ utilisé par ailleurs.
2.1.3 L’arabe dialectal
L’arabe dialectal est une autre forme de la langue arabe utilisé dans les communications
quotidiennes, généralement appelée ‘āmmiyya “langue commune” ou dārija “langue
courante”. Cette variété possède également d’autres noms, parmi lesquels nous citons “
l’arabe vernaculaire ” -proposée par (Smith, 1917)- et “l’arabe parlé” (Salib, 1981). Elle est
définie selon (Al-Toma, 1969) comme étant “la langue courante des activités quotidiennes,
elle est généralement parlé, bien qu’elle soit parfois écrite. Elle varie non seulement d’un
territoire arabe à un autre, mais aussi d’une région à une autre au sein du même territoire”.
Les dialectes populaires sont également bien définis; non pas parce qu’ils sont entièrement
codifiée, mais parce qu’ils sont acquis naturellement par leurs locuteurs natifs.
Ainsi, presque tous les pays arabes ont leurs propres dialectes qui sont plus ou moins
différents les uns des autres au sein du même pays, et plus naturellement, de ceux des autres
pays. Ces différences dépendent considérablement de l’histoire de chaque pays et de son
emplacement géographique. Prenons par exemple l’Algérie qui était une colonie française
Page
36
après avoir été placée sous souveraineté de l’Empire ottoman. En dialecte algérien, le mot
table emprunté du français et est dit طابلةTaAblaħ en dialecte algérien, de même pour le mot
سكارجيsukaArjiy emprunté du turque qui signifie ‘ivrogne’. Le dialecte algérien comprend
également plusieurs termes qui dérivent du berbère comme par exemple ڨرجومةQarjuwmaħ
pour dire ‘gorge’. Les systèmes grammaticaux des différents dialectes affichent de nettes
divergences avec celui du MSA. Cependant, nous signalons que pour deux pays arabes
frontaliers, les populations qui vivent des deux côtés de la frontière parlent des dialectes très
proches partageant une bonne partie de leur syntaxe et lexique. Par exemple, dans la région
qui se situe au Nord-Est de l’Algérie, regroupant les villes de Souk Ahras, Tébessa et Annaba;
utilise un dialecte plus proche du dialecte tunisien que du dialecte algérien.
Par ailleurs, le dialecte, comme toute autre langue, se développe et s’adapte à chaque
époque. Nous avons donc souvent de nouveaux termes qui apparaissent et qui peuvent dériver
d’autres langues, sous la forme d’emprunt, comme mentionné dans les exemples ci-dessus.
L’internet et les nouvelles technologies d’information et de communication ont aussi
influencé les dialectes qui sont devenus de par leur utilisation de plus en plus comme langue
d’écriture de ces supports. Les populations arabes utilisent le dialecte pour les échanges sur
les forums, les SMS, le chat voir aussi les messages électroniques. Ces communications sont
formulées soit en caractères arabes, ou aussi en caractères latins (arabe translittéré), selon les
habitudes des utilisateurs avec les claviers arabes ou latins. Même s’il est écrit, le dialecte
reste de l’arabe informel. En dialecte arabe, nous notons l’utilisation de plus des caractères
arabes, des graphies qui n’appartiennent pas à la langue arabe, comme la lettre ‘g’ en dialecte
tunisien ou algérien. Ces graphies sont utilisées pour écrire généralement des noms propres de
villes ou de personnes. Les échanges sur les réseaux sociaux et les SMS ont aussi introduit
l’utilisation des chiffres pour formuler certaines lettres arabe sans équivalent graphématique
dans l’écriture latine, comme par exemple la lettre حH qui est translittérée en chiffre ‘7’, la
lettre ‘ صS’ qui est translittérée en chiffre ‘9’.
D’un point de vue historique, selon (Farghali, 2010), il existe autant de théories sur
l’origine des dialectes arabes modernes que des vues divergentes sur le nombre de premières
langues arabe. Beaucoup de linguistes, comme (Versteegh, 1997), supposent que les dialectes
arabes modernes se sont développés à partir d’un premier arabe dialectal parlé pendant les
premiers jours des conquêtes arabes. La conquête islamique a étendu l’arabe à une vaste aire
où diverses langues étaient parlées. Si les habitants des terres conquises ont parfois adopté la
langue des conquérants, ils ont aussi été à l’origine d’un processus qui a conduit à
l’émergence des dialectes.
D’autres grammairiens pensent que les dialectes modernes sont issus de l’arabe classique.
A titre d’exemple, les gens qui ne savent pas comment parler correctement l’arabe classique,
ont eu tendance à baisser les terminaisons de cas qui sont de ce fait prononcées avec un accent
en introduisant de l’innovation lexicale. Un autre point de vue, qui est celui de (Ferguson,
1959b), réfute l’hypothèse précédente faisant un lien descendant/ascendant entre les dialectes
et l’arabe classique. Il appuie son point de vue par l’énumération de quatorze caractéristiques
linguistiques, essentiellement des traits phonologiques et morphologiques, que tous les
dialectes partagent mais qui manquent en arabe classique. Il propose que tous les dialectes
arabes proviennent d’une forme de l’arabe parlé, lors des contacts entre les populations des
territoires conquis et les parlers des camps de bases militaires arabes positionnés dans ces
territoires.
Enfin, nous signalons qu’il existe un grand nombre de différences linguistiques entre le
MSA et l’arabe dialectal. Certaines de ces différences n’apparaissent pas sous une forme
écrite mais ils sont au niveau voyelles courtes, qui sont omis dans le texte arabe de toute
façon. D’autres différences se manifestent textuellement au niveau morphologique et
Page
37
grammatical. La morphologie du MSA est plus riche que celle des dialectes en raison de la
disparition des cas et des modes de flexion dans les dialectes. Par exemple, le MSA a une
forme duale en plus des formes singulières et plurielles, alors que dans les dialectes manquent
la plupart du temps la forme duale. Aussi, le MSA a deux formes plurielles, un masculin et un
féminin, alors que de nombreux dialectes ne font souvent aucune distinction de genre au
pluriel ou au singulier pour certains dialectes. D’autre part, les dialectes ont un système de
cliticisation plus complexe que celui du MSA, ce qui permet la négation affixés (circonfixe),
et l’attachement des pronoms aux objets qui agissent comme des objets indirects. Au niveau
de la grammaire, le MSA dispose d’un système de cas complexe qui n’est pas présent dans les
dialectes.
2.2. Les variétés dialectales de la langue arabe
La classification des dialectes arabes a intéressé les chercheurs et les observateurs depuis
plusieurs années. Plusieurs classifications ont été proposées pour la répartition de ces dialectes
au cours des années selon certains critères à savoir le critère géographique (horizontal) et le
critère social (vertical). De ce fait, plusieurs grands groupes de dialectes, correspondant
environ aux divers principes linguistiques, ont été proposés. Ces groupes répondent souvent à
des divisions géographiques naturelles. Ce dernier constat est appuyé aussi par (Versteegh,
2011), qui avance que : ‘les critères des classifications courantes ne sont pas toujours clairs.
Dans une certaine mesure, ils semblent souvent ne refléter qu’une répartition géographique’.
Cette classification géographique, selon (Embarki, 2008), est relativement récente par rapport
à d’autres classifications, comme la classification sociologique. La dialectologie arabe
distingue généralement deux grandes zones ou familles principales de dialectes (Cohen, 1973;
Barkat, 2000; Embarki, 2008; Saâdane et al., 2013, Baccouche, 1998) :
• La zone occidentale (l’Afrique du Nord, le Maghreb) : contient le groupe du Maghreb
qui comporte l’Algérie, le Maroc, la Tunisie, la Libye et la Mauritanie,
• La zone orientale (le Machrek) : contient le groupe du Machrek comportant l’Égypte,
la Syrie et les autres pays du Moyen-Orient (l’Irak, les Etats du Golfe, Yémen, Oman,
Jordanie, etc.).
Selon (Baccouche, 1998) ces groupes sont séparés géographiquement et approximativement
par l’Est libyen (du Sallûm au Tchad) et présentant plusieurs traits distinctifs morpho-
phonologiques et lexico-sémantiques. Cependant ce découpage a été affiné, et la typologie qui
en est issue, recueillant l’adhésion de plusieurs chercheurs, (Versteegh, 1997 et 2001; Habash,
2010), classe les parlers arabes modernes en cinq grandes aires dialectales (cf. Fig. 1), de l’Est
à l’Ouest comme suit :
2.2.1 Les dialectes de la péninsule arabique (Golf)
Pour des raisons historiques le dialecte du golfe est le plus proche du MSA, étant
donné que cette région constitue le berceau de la langue arabe d’une part, et d’autre
part le MSA a évolué à partir d’une variété arabe originaire de la région du Golfe. Le
dialecte du Golf conserve plus de traits du MSA par rapport aux autres dialectes,
comme l’usage productif de la quatrième forme verbale ou le passif interne (Versteegh
2001). Cependant, le Golfe contient aussi des aspects le différenciant du MSA.
Page
38
prépositions, la conjugaison des verbes et la prononciation (Mitchell, 1990). D’un
point de vue géographique, ce dialecte est utilisé par la population des bassins du Tigre
et de l’Euphrate (Dajla et Alfwrat), en d’autres termes les parlers du nord de l’Irak et
de l’Anatolie et ceux du sud de l’Irak. Nous signalons que plus nous nous rapprochons
du sud de cette région plus les dialectes utilisés sont proches de ceux de la côte
orientale d’Arabie.
2.2.3 Les dialectes levantins
Ce dialecte est utilisé par les parlers des pays suivants le Liban, la Syrie, la Jordanie et
la Palestine. Cette région est connue aussi pour être un des bastions de la langue arabe
depuis longtemps, elle fait partie des premières régions à être arabisée selon un
processus rapide facilité par une forte présence arabe dans la région, et ce, dès avant
l’islam. Les dialectes de cette région diffèrent quelque peu dans la prononciation et
l’intonation, mais sont largement équivalent en écriture, et selon (Bassiouney, 2009)
ils sont étroitement liés à l’araméen. Selon (Meillet et Cohen, 1981), les dialectes de
cette catégorie peuvent être classés en trois groupes comme suit :
i. Les dialectes libanais qui concernent le dialecte de Beyrouth et celui de la
Syrie (incluant celui de Damas),
ii. Les dialectes du nord de la Syrie, comme celui d’Alep par exemple,
iii. Les dialectes palestino-jordaniens, contenant certains dialectes de villageois et
de citadins de la Jordanie et de la Palestine ainsi que ceux de certains parlers
du sud de la Syrie.
2.2.4 Les dialectes égyptiens
Ces dialectes concernent l’Egypte essentiellement et constituent les dialectes les plus
largement compris. Ce fait est dû essentiellement à l’influence politique de l’Egypte
dans le monde arabe, surtout dans le 20ème siècle, ainsi que l’industrie
cinématographique et télévisuelle de ce pays qui est très abondante, variée et
massivement distribuée dans le monde arabe (Haeri, 2003). Les dialectes de cette
catégorie sont classés par les dialectologues en quatre groupes :
i. Les dialectes du delta du Nil, qui se subdivisent eux-mêmes en dialecte de l’est
et dialecte de l’ouest;
ii. Le dialecte du Caire considéré comme le dialecte le plus prestigieux comme
c’est la langue de la capitale où se trouvent les bureaux de l’administration
gouvernementale, c’est aussi la langue du cinéma, du théâtre et des divers
médias. Ce dialecte est généralement parlé par un grand nombre de personnes
instruites et cultivées.
iii. Les dialectes de la Moyenne-Égypte, s’étendant de Gizhz à Asyut,
iv. Les dialectes de la Haute -Égypte, qui s’étendent de Asyut jusqu’au sud du
pays. Il convient d’ajouter également les parlers tchado-soudanais qui sont
inclus dans l’aire égyptienne, particulièrement dans le sud de l’Égypte (Meillet
et Cohen, 1981; Cohen, 2002).
Page
39
Les dialectes de cette catégorie sont caractérisés par une forte influence des langues
française et berbère. La plupart des dialectes considérés peuvent être inintelligible par
l’orateur dans d’autres régions du Moyen-Orient, en particulier sous forme orale. La
géographie du Maghreb lui procure une grande région, de ce fait elle présente une plus
grande variation de dialecte, plus importante que celle perçue dans d’autres régions
comme le Levant ou le Golfe. Elle peut être aussi divisée en d’autres sous-catégories.
Page
40
Le changement au niveau vocalique du système verbal. Pour le MSA, nous trouvons
surtout une alternance vocalique, a/i et i/a dans l’opposition accompli/inaccompli, alors
que pour les dialectes il y a une certaine similitude entre les deux : la voyelle de la
deuxième consonne est l’élément le plus stable du schème et du mot;
La variation syllabique du dialectal. Cette variation a entraîné une plus grande variation
schématique ce qui introduit une souplesse structurelle plus étendue dans les mots et
une possibilité d’intégration des emprunts et des néologismes.
Compte tenu des éléments introduits ci-dessus, nous pouvons dire que l’arabe dialectal
possède un lexique très riche, surtout en vocables étrangers, en plus d’une morphologie et
syntaxe simplifiées ce qui le distingue de l’arabe standard.
Comme mentionné, la société arabe utilise deux variantes de la même langue, ce qui
constitue une ‘diglossie’ qui est un phénomène connu dans la littérature linguistique introduit
pour la première fois par le linguiste (Marçais, 1930) dans le cadre des études faites pour
caractériser la situation linguistique du monde arabe. Ce terme a été emprunté par la suite et
défini par le linguiste (Ferguson, 1959a) dans un article intitulé « Diglossia » comme étant:
« Une situation de langagière relativement stable dans laquelle, en plus des dialectes
primaires de la langue (qui peuvent inclure une ou plusieurs normes régionales), il existe une
variété superposée, très divergente, hautement codifiée (souvent plus complexe du point de
vue grammatical), elle véhicule d’une grande quantité de la littérature écrite vaste et
respectée, soit à une époque antérieure soit dans une communauté linguistique. Cette variété
est apprise essentiellement par l’enseignement et est utilisée pour la plupart des fonctions
écrites et des fonctions orales à caractère formel, mais n’est pratiquée par aucun groupe de
la communauté pour les conversations ordinaires. »
Dans les situations diglossiques, les deux variétés linguistiques d’une seule langue sont
baptisées : variété H (High, élevée) et variété L (Low, basse). La variété H est généralement
utilisée dans le système éducatif, religieux et littéraire (les livres littéraires ou scolaires, les
journaux, les publications gouvernementales, etc.) de par le fait qu’elle est standardisée,
codifiée et normalisée. Elle jouit d’un statut social prestigieux et elle est très valorisée dans la
société. Quant à la variété L, elle constitue le moyen de communication de vie quotidienne
employée dans les conversations informelles, la littérature orale, les interviews, etc. Elle est
généralement la langue maternelle acquise naturellement (sans apprentissage). Cependant, elle
ne possède pas le même statut prestigieux et la même valorisation dont bénéficie la langue H.
Le tableau suivant résume l’ensemble des domaines d’usage de ces variétés proposés par
(Calvet, 1987) illustrant une situation diglossique :
Page
41
Littérature populaire +
Tableau 2. 1. Cas d’usage des situations diglossiques
En conclusion, la situation sociolinguistique de la langue arabe s’inscrit amplement dans
une conception diglossique, dans la mesure où il existe deux variantes de la langue arabe :
d’une part, l’arabe standard moderne MSA (variété H), qui est une langue prestigieuse,
valorisée, standardisée et reconnue comme langue officielle, et d’autre part, l’arabe dialectal
(variété L), qui est réservée aux échanges informels de la vie quotidienne en plus du fait
qu’elle est généralement la langue maternelle des arabophones.
3
La translitération arabe est présentée dans (Habash et al., 2007). La transcription phonologique est présentée entre /…/ mais
utilise les formes HSB (les schèmes Habash-Soudi-Buckwalter) des consonnes quand c’est possible afin de minimiser la
confusion que peut engendrer les différents ensembles de symboles utilisés.
Page
42
géographie, est caractérisé par la coexistence de plusieurs variétés langagières – du substrat
berbère aux différentes langues étrangères qui l’ont plus ou moins marquée en passant par la
langue arabe, vecteur de l’islamisation et de l’arabisation de l’Afrique du Nord.». De ce fait,
le dialecte algérien ne peut pas être présenté comme un système linguistique homogène, mais
il possède de multiples variétés linguistiques. Selon (Queffélec et al., 2002) nous distinguons
quatre variétés linguistiques pour le dialecte algérien :
i. L’Oranais : cette variété est parlée dans l’ouest de l’Algérie, précisément depuis la
frontière algéro-marocaine jusqu’aux limites de la ville de Ténès,
ii. L’Algérois : cette variété est largement répandue dans la zone centrale de l’Algérie
jusqu’à Bejaia,
iii. Le rural : les locuteurs de cette variété sont situés dans l’est de l’Algérie comme
Constantine, Annaba ou Sétif. Nous signalons aussi que les locuteurs situés plus à l’est,
c’est-à-dire de Constantine à la frontière algéro-tunisienne, sont aussi considérés dans
cette catégorie. Il est aussi à signaler qu’il existe des déclinaisons de cette variante propre
à certaines villes, comme c’est le cas pour les villes d’Annaba et de Constantine.
iv. Le Saharien : est considéré comme le dialecte la population algérienne habitant la
partie sud de l’Algérie, à partir de l’Atlas saharien.
Par ailleurs, nous signalons aussi que le dialecte AA est enrichi par les langues des
groupes ayant colonisé ou géré la population algérienne au cours de l’histoire du pays. Parmi
les langues de ces groupes, nous citons : le turc, l’espagnol, l’italien et plus récemment le
français. Nous pouvons considérer de ce fait le dialecte AA comme une fertilisation croisée de
nombreuses langues avec l’arabe du fait de l’histoire de l’Algérie, qui a fait de cette dernière
un carrefour de multiples civilisations et une terre d’accueil. Le métissage linguistique qui a
résulté de ce brassage des langues (Arabe, Berbère, Phénicien, Andalou, Mudéjar, Romain,
Espagnol, Turc, Sicilien, Français, etc.), depuis des siècles, a donné lieu à une grande palette
de variétés pour le dialecte Algérien. Cette palette prend des couleurs régionales, provinciales
voir même locales. Ces variétés sont matérialisées par la présence de mots étrangers dans le
dialecte et de systèmes de prononciation différents variant sensiblement d’une région à une
autre. En plus des mots d’emprunt et l’intégration de certains d’entre eux dans la
morphophonologie du dialecte algérien, l’influence des langues sur le AA a été matérialisée
également par l’alternance codique (le code switching) souvent dans les conversations
quotidiennes, en particulier du français, par exemple, ‘lycée’, ‘salon’, ‘quartier’, ‘normal’, etc.
L’utilisation de ces mots est réalisée sans aucune adaptation de la phonologie.
Ceci crée une situation linguistique assez complexe. En effet, ce mélange de la langue a
été étudié par de nombreux sociolinguistiques comme (Morsly, 1986; Ibrahimi, 1997;
Benrabah, 1999; Arezki, 2008). Ils ont décrit le paysage linguistique de l’Algérie comme
‘multilinguisme’ ou ‘poly-glossique’ où plusieurs langues et variétés de langues coexistent. En
d’autres termes, le dialecte AA présente le meilleur exemple d’une situation sociolinguistique
complexe (Morsly, 1986).
Ce brassage de langues peut être expliqué d’un point de vue historique comme suit.
D’abord, le berbère était la langue maternelle de la population du Maghreb en général et de
l’Algérie en particulier avant la conquête islamique. La langue berbère est la langue
maternelle d’une partie de la population algérienne. Le berbère intègre quelques mots arabes
en raison des échanges commerciaux entre les populations locales d’Afrique du Nord et les
arabes qui sont venus de l’Orient. L’arabisation des algériens a commencé avec les conquêtes
islamiques qui ont introduit la langue arabe comme moyen de communication de base quelle
que soit le domaine : la religion, l’économie, l’apprentissage, etc. Au XVIe siècle, les
Page
43
Ottomans ont aidé l’Algérie contre l’invasion espagnole qui occupait les zones dans l’ouest de
l’Algérie (Oran) (Guella, 2011). L’occupation espagnole, pendant trois siècles, a été la
principale raison de l’existence de certains mots espagnols dans le dialecte algérien (ALG), et
surtout dans l’ouest. Il était aussi le facteur de l’allégeance de l’Algérie à Ottoman Khalifa
afin de déloger l’Espagne de l’ouest du pays. Par cette allégeance, Algérie est devenue une
province ottomane où le turc est introduit dans différent domaine notamment dans
l’administration, politique et des échanges économiques. L’arabe a continué à utiliser, mais
progressivement, de nombreux mots turcs ont été introduits dans de nombreux domaines de la
vie quotidienne, comme la nourriture, l’habillement, le commerce, etc. L’année 1830 marque
le début de la colonisation française qui a tenté d’imposer le français comme l’unique moyen
de communication pendant 132 années. Cette situation a provoqué une baisse significative de
la langue arabe au détriment du dialecte, caractérisé par une grande influence du français et de
l’introduction de certaines autres langues comme l’italien et l’espagnol en raison des flux
migratoires en provenance de l’Europe, principalement d’Italie (installé dans la t côte Est ) et
d’Espagne (installé à l’ouest), en plus bien évidemment de la France.
Page
44
o k post-palatal : ce son est une particularité du dialecte AA que nous ne
trouvons pas dans les autres dialectes d’Afrique du Nord. Ce son est utilisé
dans les localités rurales et certaines villes comme la Kabylie, Jijel, Msirda et
Trara.
En plus de ces types de sons, il existe quelques exceptions de prononciations ne pouvant
pas être casées dans l’une des catégories citées ci-dessus. C’est le cas des mots où la
prononciation est toujours la même quel que soit le dialecte n’utilisant pas la glottale sourde
/?/, comme pour le mot بڨرةbagraħ ‘vache’ qui se prononce de la même manière en utilisant la
consonne palatale sonore bagra. Nous avons aussi quelques cas où la prononciation crée des
paires minimales surtout dans les dialectes urbains, par exemple : قرونqruwn /qru:n/ ‘siècles’
et /gru: n/ ‘cornes’. Le phonème non standard /g/ est également utilisé dans de nombreux mots
dialectaux qui ne disposent pas d’équivalent en MSA, à titre d’exemple بالقداbiAlqdA /bilgda:/
‘très bien’.
La consonne interdentale en MSA ( )ث/θ/ peut être prononcée ( )ت/t/, dans les trois
dialectes AA, TA et EA comme pour le mot ثومθuwm ‘ail’ qui est prononcé توم/tuwm/.
Cette consonne est également prononcé /θ/ dans certains dialectes algériens et
tunisiens urbains comme dans le mot ثومθuwm. Elle est aussi prononcée ( )ف/f/
comme dans les dialectes nomades de Mostaganem où par exemple le mot ثانيθaAniy
‘également’ est prononcé فانيfaAniy; ou ( )س/s/ dans certains cas dans le dialecte EA,
par exemple, le mot ثابتθaAbit ‘fixe’ est prononcé سابتsaabit.
Page
45
Une autre consonne interdentale en MSA a également des prononciations spéciales; il
s’agit de la consonne ( )ذ/ð/. Dans le dialecte EA, elle peut être prononcée ( )د/d/,
comme le mot ذهبðhab ‘or’ qui est prononcé دهبdhab, ou ( )ز/z/, par exemple le mot
‘ ذكيintelligent’ est prononcé zakiy. Toutefois, dans le dialecte AA et TA, la consonne
( )ذ/ð/ a l’une des prononciations suivantes: ( )ذ/ð/ ou ( )د/d/. Par exemple le mot ذراع
‘bras’ peut être prononcé ðraAς ou draAς. En outre, dans certaines régions en Algérie,
comme Mostaganem, cette consonne est prononcée ( )ڢ/v/, comme pour le mot ذهب
ðhab ‘or’ est prononcé dans ces régions ڢهبvhab.
Le dialecte AA comme la plupart des autres dialectes arabes, change et néglige les
voyelles courtes, surtout quand elles sont placées à la fin d’une syllabe. Par exemple,
le mot ٌ بابbaAb-un ‘la porte’ est transformé en ْ بابbaAb /ba:b/ en dialecte. Nous
signalons, qu’en règle générale, la suppression de la première voyelle change la
structure syllabique des unités lexicales, qui tendent à devenir pour certains mots
monosyllabiques.
Page
46
comme dans le verbe en MSA قتل/qatal/ ‘il a tué’ (et EA /’atal/) devient en AA et TA
/qtal/.
Commencer des mots par des consonnes ‘neutres’, sans voyelles (avec un sukun) est
l’une des caractéristiques marquantes de l’arabe dialectal maghrébin et qui le distingue
à la fois du littéral et des dialectes orientaux. Par exemple en dialecte nous avons le
mot ْكتَبktab (il a écrit) au lieu de َب َ َكتkataba en MSA. Cette particularité est
particulièrement remarquable au niveau des prénoms comme ْب َرا ِهيمbrahim au lieu de
اِب َْرا ِهيمIbrahim; ْسلِي َمانslimân au lieu de ُسلَي َمانSulayman.
Les dialectes AA et TA sont aussi caractérisés par la prononciation, dans certains mots,
de la voyelle longue /a:/ du MSA comme /e:/ et dans d’autres mots comme /a:/. Par
exemple, le mot ْ َج َمال/jam:al/ ‘beauté’ avec cette signification est prononcé avec /a:/
mais il est réalisé avec /e:/ dans le mot /jme:l/ signifiant ‘chameaux’.
Page
47
Le dialecte AA modifie la forme interne des verbes quand il fait sa flexion sous la
forme imparfaite et impérative. Il introduit la gémination dans la première lettre et le
déplacement de la voyelle de la seconde consonne du radical vers la première
consonne du même radical. Cette modification est appliquée seulement pour former le
pluriel et la 2ème personne du singulier au féminin. Pour illustrer cet aspect, la flexion
en AA du verbe ‘remercier’ à la 3ème personne du singulier au masculin est ْ يُ ْش ُكرyu-
škur ‘il remercie’ et pour la 3ème personne du pluriel au masculin nous avons يُ ُّش ْكرُوا
yuš~ukr-uwA ‘ils remercient’, cependant, en dialecte EA et TA le même cas est
formulé en يُ ْش ُكرُواyuškur-uwA. Ce dernier exemple montre bien l’absence de la
gémination dans les autres dialectes, ce qui fait d’elle un aspect propre à l’algérien.
Le dialecte AA utilise seulement, comme les autres dialectes arabes, le suffixe ين/yn/
pour former le pluriel régulier. Cependant, les dialectes AA et TA élident les voyelles
courtes dans des formes plurielles, comme dans les exemples suivants : ُم ْل َح ْدmulHad
‘incroyant’, au pluriel ُم ْلحْ ِدينmulHdiyn, ْ ُمهَ ْن ِدسmuhandis ‘ingénieur’, pl. ين
ْ ُمهَ ْن ْد ِس
muhandsiyn. Mais il existe une exception pour le participe actif [Faa3iL] → [Faa3L-
iyn] où l’élision au niveau de cette exception est maintenu quel que soit le dialecte
comme pour le mot صايِ ْم
َ SaAyim ‘fasting’ → ين ْ صا ْي ِم َ SaAymiyn.
Le suffixe emphatique تيك/-tiyk/, décrit par (Cohen, 1912), en tant que caractéristique
du dialecte d’Alger qui est utilisé pour exprimer les adverbes se terminant par /-a/,
comme pour les mots ڨاناgana ‘également’ qui devient ganaAtiyk, زعماzaςma ‘soi-
disant’ qui devient zaςmaAtiyk.
Pour la forme “ استفعلAistaf3al”, qui existe dans les différents dialectes, le dialecte AA
introduit une nouvelle variante de cette forme. Cette variante est ‘ سفعلssa-f3al’ et elle
est employée essentiellement dans les parlers de l’ouest algérien. A ce sujet (Marçais,
1902) indique la réduction de la séquence [st] classique à [ss] que nous entendons
fréquemment en un seul /s/. Par exemple, prenons le verbe ف ْ َ اِ ْستَ ْكلAistaklaf ‘s’occuper
de’ peut également être utilisé comme ف ْ
ْ َ َّسكلssaklaf ou ف ْ
ْ َ َسكلsaklaf.
La voix passive existe aussi dans la variété dialectale mais avec quelques différences
significatives par rapport à cette même voix dans le MSA. En MSA, la voix passive
est le résultat d’un changement interne des voyelles du verbe, tandis qu’en dialecte,
cette voix est ainsi formée par l’introduction de nouveaux morphèmes, généralement
le [t-] et parfois, dans les dialectes AA et EA, le morphème [n-]. Ces morphèmes
ajoutés sont préfixés à la forme perfective et infixés à la forme imperfective. Par
exemple, le dialecte tunisien marque la voix passive du verbe exprimé en MSA par ُكتِب
Page
48
kutiba ‘il a été écrit’, par تِكتِبtiktib. Plus en détails, la forme passive dans le dialecte
algérien est obtenue en faisant précéder le verbe avec l’un des éléments suivants:
o t- / tt-, par exemple : تبنىtabnaý ‘il a été construit’, ترفدttarfad ‘il a été relevé’
o n-, par exemple : نفتحnftah ‘il a été ouvert’
o /tn- / ou /nt/, e.g., نتكلntkal ‘il a été mangé’, تنقتلtnaqtal ‘il a été tué’. Nous
notons que ce dernier élément est spécifique pour le dialecte AA.
Plusieurs dialectes introduisent de nouveaux clitiques qui n’existent pas dans le MSA,
comme la négation circonfixe ما+ mA+ + ش+š qui est exprimée en MSA avec diverses
particules comme : ماmA, لمlam, لنlan ‘ne … pas’. Par exemple ما قريتشmA qriyteš
‘je n’ai pas lu’. Un autre exemple spécifique au dialecte TA est le clitique
d’interrogation verbale qui est exprimé en MSA par أÂa et la particule هلhal. Ces
clitiques sont substitués en TA par le clitique شيšiy.
Le dialecte AA a perdu en général les formes duelles nominales, qui sont remplacées
par le mot zudwj /zu:dj/ ‘deux’ suivi du nom au pluriel. Par exemple, la forme duelle
كتابينkitaAbayn en MSA est exprimée par la forme زوج كتبzuwdj ktub ‘deux livres’ en
dialecte AA. Les dialectes tunisien et marocain utilisent le même procédé pour
exprimer le duel avec l’utilisation du mot زوزzuwz /zu:z/ et جوجjuwj /ju:j/
respectivement.
Page
49
šarbuh ‘il l’a bu’. Enfin, les voyelles longues raccourcies peuvent être prononcées longues ou
courtes. A titre d’exemple, شفوها/ شافوهاšAfw+hA/ šfw+hA ‘ils l’ont vu’, et مجابشmajaAbaš ‘il
n’a pas apporté’ qui peut être prononcé aussi ماجابشmAjaAbaš. Le dernier exemple est
particulier où la particule ماmA en MSA, qui est la source du proclitique ma-, possède une
autre orthographe en dialecte comme suit : ما جابشmA jaAbaš (en d’autres termes deux mots
distincts). (Zribi et al, 2014) précise que pour le dialecte tunisien un certain nombre
d’adverbes possèdent de multiples formes, par exemple, l’adverbe interrogatif آشĀš ‘quoi’
apparaît parfois comme un proclitique + ش+š et dans certains cas il est transcrit comme un
mot séparé reflétant différentes prononciations, par exemple شقالšqaAl et آش قالĀšqaAl.
[Link]. La dérivation
La dérivation dans la grammaire arabe est un phénomène régulier et utilisé pour
construire à partir d’une racine consonantique plusieurs éléments et paradigmes exprimant
l’agent, le patient, le locatif, les noms prédicatifs (masdar), le superlatif, etc. Cette
construction ou dérivation est faite en suivant des schèmes préétablis avec l’implication d’une
variation vocalique et l’ajout de certains éléments consonantiques. Pour les dialectes, la
régularité de la dérivation constitue la colonne vertébrale du système morphologique dialectal.
Selon (Mejri et al., 2009), la dérivation est néanmoins enrichie dans les dialectes par une
présence relativement importante du système affixal qui concerne également la forme littérale
moderne. Cet enrichissement est continu et est matérialisé, à titre indicatif, par l’incorporation
dérivationnelle (Sfar, 2005 & 2006) ou l’ajout d’un certain nombre d’affixes spécifiques
comme جيjiy qui indique la profession (Baccouche, 1994) : قهواجيqahwaAjiy ‘celui qui tient
un café’, بنكاجيbankaAjiy ‘banquier’. Par conséquent la dérivation au niveau des dialectes
diffère de celle de l’arabe standard au niveau quantitatif. De plus, nous notons que dans les
dialectes, un autre type de dérivation est utilisé, non basé sur des schèmes spécifiques mais
plutôt en combinant les schèmes aux affixes. C’est le cas par exemple du mot كوارجي
kawwarjiy ‘footballeur’ qui ajoute au schème [Fa33aL], qui donne à partir de كورةkuwra
‘ballon’ le mot كوارkawwaAr le suffixe جيjiy utilisé pour exprimer une profession, ou du mot
حيطيستHiTist qui incarne l’ajout du suffixe يستist, emprunté du français pour exprimer une
profession, afin de qualifier une personne dont la profession est d’adosser les murs (une
manière ironique pour dire chômeur).
[Link]. L’emprunt
L’emprunt est aussi une autre caractéristique lexicale fortement présente dans les
dialectes arabes. D’un point de vue qualitatif et quantitatif, l’emprunt présente un dynamisme
assez intéressant. Par ailleurs, l’emprunt est le reflet de l’influence des autres langues sur les
dialectes, pour toutes les raisons citées auparavant, où dans les dialectes nous trouvons
beaucoup de mots issus des différentes langues comme l’anglais, le français, le turc,
l’espagnol, etc. Sur le plan qualitatif, (Mejri et al., 2009) avance qu’il existe trois points à
retenir : l’introduction de nouveaux suffixes empruntés à d’autres langues, l’intégration
systématique des unités empruntées dans les paradigmes construits par schèmes et l’impact
phonologique qui agit par le bais de l’emprunt sur le système phonologique du dialecte.
En ce qui concerne l’introduction de nouveau suffixe, ces derniers sont issus des autres
langues, comme le turc ou le français, afin d’exprimer certains paradigmes comme une
profession. C’est le cas du suffixe turque جيjiy ou français يستist décrits dans la section
Page
50
précédente. Quant à l’intégration des emprunts par le biais des schèmes, nous signalons qu’à
partir d’un mot emprunté, nous pouvons obtenir toutes les unités répondant à tous les schèmes
disponibles en dialectal. Par conséquent, cette particularité reflète une grande capacité à la
fois d’intégration et de création lexicale. Par exemple, à partir du mot emprunté ‘business’ en
dialecte tunisien, et maghrébins en général, nous obtenons les mots suivants :
Le verbe بزنسbaznas ‘il a fait un biseness’
L’agent بزناسbaznaAs ‘celui qui fait du biseness’ avec un pluriel بزناسةbaznaAsa
Le Masdar تبزنيسtbazniys ‘action de faire des biseness’
Pour ce qui est de l’impact phonologique des emprunts sur les dialectes, nous citons par
exemple l’introduction de voyelles nasales dans le dialecte maghrébin. Cet impact est
matérialisé par la coexistence d’une nasalisation de la voyelle doublée et d’une présence assez
timide de la consonne [n], comme c’est le cas pour le mot ɛlɛktisyɛ ‘électricien’.
Nous terminons cette section par donner, dans le tableau (2.2), quelques exemples
d’emprunts de mots, de différentes origines (berbère, turc, italien, espagnol et français), dans
le dialecte algérien AA.
Mots Traduction Translittération Origine
فكرون tortue Fakruwn
شَلغم Moustache šliAγam Berbère
ڨرجومة gorge Qarjuwmaħ
تقاشير Chaussettes tqaAšiyr
سكارجي Ivrogne sukaArjiy Turc
زردة Festin Zardaħ
فيشطة Fête fiyšTaħ
زبلة Faute Zablaħ Italien
صوردي Money Suwrdiy
سيمانة Semaine siymaAnaħ
سبردينة Espadrille Spardiynaħ Espagnol
سُكويلة Ecole Sukwiylaħ
طابلة Table TaAblaħ
تيليفون Téléphone Tiyliyfuwn Français
فرملي infirmier Farmliy
Tableau 2. 2. Origine et sens de quelques mots empruntés utilisés dans le dialecte algérien
Page
51
phrase suivante :
( ضرب الرجل الطّفلl’homme frappe l’enfant)
Daraba ?al-rajul ?at-tifl
frapper-[accompli]-l’homme-l’enfant
Dans la grammaire arabe, cette phrase donne lieu à deux interprétations différentes selon les
marques casuelles, comme suit :
َ ّضرب الرج ُل الط
1. فل َ (l’homme a frappé l’enfant)
daraba ?al-rajul-u ?at-tifl-a
frapper-[accompli]-l’homme-[nominatif]-l’enfant-[accusatif])
Au niveau des contraintes liées à l’ordre des mots, le dialecte partage avec le français les
mêmes contraintes. Cet ordre est réalisé de deux manières différentes selon le type de la
phrase, comme suit :
Verbales :
o ْ ضربْ الراجلْ الطّفل l’homme a frappé l’enfant
o ْ ضربْ الطّفلْ الراجل l’enfant a frappé l’homme
Nominales :
o الطّفل ضرب الجار l’enfant a frappé le voisin
o الجار ضرب الطّفل le voisin a frappé l’enfant
Dans certaines phrases dans le dialecte, nous faisons recours à la préposition [fi] «dans»
afin de marquer l’accusatif qui ne peut pas être marqué seulement par la position du mot dans
la phrase. Pour illustrer ce cas, prenons cette phrase en MSA :
MSA
( يأكل الطّف ُل الطماط َمl’enfant mange la tomate)
ya?kulu ?at-tifl-u ?aT-TamaATim-a
ème
manger-inaccompli-3 personne singulier- le-enfant-la-tomate
Dialecte AA
( ياكل الطّفلْ في الطماط َمl’enfant mange la tomate)
yaAkul t-tful T-TmaATam
manger-inaccompli-3ème personne singulier- le-enfant-dans-la-tomate
Page
52
اَلوَلد كتبوا الدروس
?al-AwlaAd-u katabuwA ?ad-duruws-a
Les enfants écriventmascPlural les leçons
EGY
1) Verbe Sujet Objet
كتبو اَلوَلد الدروس
katabuw ?il-AwlaAd ?id-duruws
écriventmascPluriel les enfants les leçons
2) Sujet Verbe Objet
اَلوَلد كتبو الدروس
?il-AwlaAd katabuw ?id-duruws
Les enfants écriventmascPluriel les leçons
Dans le même registre, la construction possessive ‘ إضافةIdafa’ est une autre différence
notable entre le dialecte et le MSA à signaler. Cette construction est réalisée dans le dialecte
avec l’utilisation d’une particule entre le premier et le deuxième mot. Cette particule diffère
largement entre les dialectes. Quant au MSA, la construction possessive est faite grâce à
l’article défini attaché au deuxième mot. Prenons l’exemple suivant :
Page
53
Partie II : Analyse
Linguistique de la langue
arabe
Page
54
Chapitre 3 Analyse
morphosyntaxique
Page
55
Introduction
Ce chapitre est consacré à présenter les démarches suivies pour le développement de
notre analyseur morpho-syntaxique dédié à l'arabe standard. Nous avons commencé par
présenter un aperçu des travaux réalisés sur le traitement automatique de l'arabe dans la
section 3.1. La section 3.2 est dédiée à présenter les démarches et les étapes effectués pour le
développement de notre système d'analyse linguistique (proposé). Enfin, la section 3.3 est
consacrée à présenter l'analyse syntaxique effectuée lors de cette analyse, tout en exposant les
relations syntaxiques dans des phrases verbales et nominales.
Page
56
théorique. De son côté, (Ghenima, 1998) consacre sa thèse de doctorat au problème de la
voyellation, mais son analyse morphosyntaxique est loin de permettre une reconnaissance du
mot écrit en arabe. La proposition de (Zaafrani, 1997) est plus convaincante parce qu’elle ne
vise pas le « mot » mais les traits morphologiques de l’arabe,
Ensuite, concernant l’aspect sémantique de notre sujet, les études consacrées au
traitement automatique de l’arabe ont été marquées au cours des deux dernières décennies par
une concentration des travaux sur l’étude statistique du vocabulaire. Seul (Abbas-Mekki,
1998) a proposé une description des unités linguistiques en vue de l’indexation automatique,
mais ses travaux ont porté exclusivement sur les textes écrits en arabe classique. Plus
récemment, les synthèses proposées par (Abbès, 2002) et par (Abbès et Dichy, 2008)
constituent une référence en matière de traitement statistique du vocabulaire arabe classique.
Le premier a développé un fréquenceur (AraFreq) permettant le calcul de fréquences sur des
formes dérivées ou non de l’arabe (lemmes) ; le second a utilisé le logiciel « AraConc » pour
réaliser l’extraction automatique des fréquences à partir d’un corpus journalistique.
Il est clair cependant que la principale préoccupation des chercheurs durant cette
période a été le développement d’outils permettant de constituer des bases de données
lexicales, très recherchées pour l’arabe. (Ezzahid, 1996) avait proposé des pistes très
intéressantes en se basant sur la théorie Sens-Texte d’Igor Mel’cuk. Suivant ces pistes, (Dichy,
1997) a fait l’inventaire des spécificateurs du mot en arabe et développé une base de données
(DIINAR 1.0) enrichie de spécifications morphosyntaxiques, même si elle reste
exclusivement axée sur l’arabe classique. À partir de cette base, il a été possible de mener des
études locales concernant notamment les verbes en arabe classique en vue de l’enseignement
(Abu Al-Chay, 1988) ou encore les verbes en arabe moderne en vue de la traduction (Franjié,
2003). Mais malgré cette diversification des objectifs, des problèmes de fond sont restés sans
solution.
4
RDI : Research and Development International (Egypt)
Page
57
les suffixes, par un traitement qui produit la racine de chaque mot par des règles dérivées
automatiquement et statistiquement. Ce système comporte deux modules principaux : le
premier utilise une liste de pairs en arabe (mot-racine) afin d’obtenir une liste des préfixes et
suffixes, de construire des modèles de dérivation et de calculer l’apparition d’une
vraisemblance à un préfixe, un suffixe, ou un modèle. Le second module prend en entrée les
mots arabes, les tentatives de constructions possibles des combinaisons préfixe-suffixe-
modèle, et renvoie en sortie une liste de classement des racines possibles.
D’autres méthodes ont été aussi proposées pour effectuer ces analyses comme
l'alignement des étiquettes morphologiques et syntaxiques. (Lee, 2004) propose d’utiliser
l’alignement des étiquettes morphologiques et syntaxiques du texte en arabe segmenté avec
des étiquettes morphologiques et syntaxiques des textes en anglais, pour statuer sur la prise en
compte des segmentations valables.
L’outil AMIRA développée par (Diab, 2009) implémente une approche différente
basée sur la réalisation de la séparation des clitiques indépendamment de l’étiquetage
morphosyntaxique et adopte l’apprentissage supervisé utilisant les Séparateurs à Vaste Marge
(SVM).
Nous citons aussi MADA (Morphological Analysis and Disambiguation for Arabic)
développé par (Habash, Rambow et Roth, 2009), qui est un outil d’analyse morphologique et
de désambiguïsation pour la langue arabe. Cet outil effectue en premier lieux une
translittération du texte arabe en entrée en utilisant l'encodage proposé par (Buckwalter,
2002). Il effectue un ensemble de traitements pour produire une liste d’analyses
morphologiques potentielles de chaque mot du texte en entrée, indépendamment du contexte.
Les segmentations possibles du mot sous la forme préfixe-racine-suffixe sont engendrées et
les règles définies par la base de données BAMA (Buckwalter, 2004) sont employées pour
vérifier la compatibilité bilatérale. Après la segmentation, MADA détermine l’analyse la plus
probable d’un mot étant donné son contexte. Pour y parvenir, MADA s’appuie sur des scores
calculés pour les analyses proposées, et ce calcul utilise 19 paramètres : 14 prédits par des
modèles SVM (Support Vector Machines), 2 paramètres prédits avec l’outil SRILM 5 (Stolcke,
2002), 1 paramètre prédit à partir du modèle unigramme, et 2 heuristiques supplémentaires.
Par ailleurs, l’adaptation des outils de segmentation des autres langues à l’arabe est
aussi un axe envisageable. Des travaux dans cette direction ont donné lieux à plusieurs
résultats, comme l’outil MorphTagger (Mansour, 2010) qui était dédié initialement pour
l’étiquetage morphosyntaxique de l’hébreu (Mansour, Sima’an et Winter, 2007) et qui
s’appuie également sur l’analyseur morphologique BAMA. MorphTagger segmente l’arabe
en se basant sur les modèles de Markov cachés (HMM). En termes de performance, il est plus
rapide que MADA. L’étape de segmentation ainsi que quelques règles de normalisation ont
été ajoutées à l’outil. L’architecture de MorphTagger est similaire à celle de MADA étant
donné qu’il utilise la base de données BAMA ainsi que l’outil SRILM pour la
désambiguïsation.
D’un point de vue opérationnel, MorphTagger prend en entrée un texte en arabe et il le
fait passer à travers l’analyseur morphologique BAMA. Cette première étape produit pour
chaque mot, toutes les analyses possibles ainsi que leurs étiquettes morphosyntaxiques puis la
séquence d’étiquettes la plus probable en fonction du modèle. La sélection de l’analyse
correcte est réalisée en choisissant le morphème le plus probable tout en tenant compte de
l’étiquette morphosyntaxique. Afin de résoudre certains problèmes d’ambiguïtés au niveau
des sorties, MorphTagger utilise l’outil SRILM. Enfin, nous signalons que ce segmenteur peut
5
SRILM : The SRI Language Modeling Toolkit ([Link]
Page
58
effectuer éventuellement quelques étapes de normalisation de textes afin d’obtenir les formes
correctes des mots.
Dans le même registre, (Gahbiche-Braham et al., 2012) ont proposé un analyseur
morphosyntaxique permettant de segmenter le texte en arabe et de séparer les proclitiques.
Cet outil est basé sur les champs markoviens conditionnels CRF. Leur approche procède de la
manière suivante : les textes en arabe sont tout d’abord translittérés en utilisant l’encodage de
(Buckwater, 2002). Ensuite, la prédiction des étiquettes morphosyntaxiques et de la
segmentation est effectuée avec des modèles de prédiction construits à l'aide de l'outil
Wapiti (Lavergne et al., 2010) permettant de construire des modèles intégrant un très grand
nombre de descripteurs. L'étape de prédiction est suivie d’une étape de normalisation.
Finalement des règles de segmentation ont été développées afin de segmenter le texte en
arabe et séparer les proclitiques de la forme de base.
Les approches à base de règle ont été aussi investies pour effectuer l'analyse morpho-
grammaticale comme c’est le cas de l’arabe G-LexAr proposé par (Debili et al., 2002). Ce
système prend en entrée des textes voyellés ou non voyellés et procède de la manière suivante
: i) il segment le texte d'entrée en unités morphologiques, ii) il filtre les chaînes de caractères
qui ne relèvent pas de l’analyse morphologique de l’arabe, iii) il analyse les unités
morphologiques indépendamment de leur contexte et iv) il produit en sortie pour chaque unité
lexicale ses segmentations, voyellations, lemmatisations et étiquettes grammaticales possibles
sous la forme d’un arbre.
AraParse est un analyseur morphosyntaxique des textes arabes (voyellé, semi ou non
voyellé). Il est basé sur des ressources linguistiques à large couverture et utilise un lexique de
lemmes généré à partir du dictionnaire DIINAR.1 (Ouersighni, 2002). Pour remédier au
problème des mots inconnus, le système utilise une technique d’appariement approximatif
implémentée avec le formalisme 'AGFL' et emploie l’opérateur de priorité entre les
alternatives d’une règle et les expressions régulières.
De leur côté, (El Isbihani et al., 2006) proposent trois méthodes de segmentation de la
langue arabe : 1) à base d’apprentissage supervisé, 2) à base des fréquences, et 3) à base des
automates à états finis. Ils démontrent que l’utilisation de la troisième approche donne les
meilleurs résultats et qu’elle est adaptable à différentes tâches. C’est la raison pour laquelle
nous avons développé aussi un analyseur morphosyntaxique à base de règle et fondé sur les
automates à états finis.
On ce qui concerne l'analyse syntaxique de la langue arabe, nous citons principalement
les travaux de (Bahou et al., 2005) qui ont proposé un analyseur syntaxique de textes arabes
non voyellés. Pour réaliser ce système, ils ont eu recours à l'adaptation et l’implémentation
des grammaires HPSG pour la réalisation du système baptisé « SYNTAXE ». Ce système se
compose de trois modules à savoir, le module de prétraitement qui construit les matrices
attribut/valeur HPSG qui seront stockées dans l’Agenda (une structure de pile), le module
d’unification qui sert à tester l’accord entre les constituants et le module d’analyse qui
interagit et le module d’unification pour produire comme résultat les arborescences
syntaxiques du texte. Ces arborescences seront stockées dans un fichier XML.
(El Kassas et Kahane, 2004) utilisent un arbre de dépendance afin de présenter la
structure syntaxique des phrases en arabe. Les travaux de thèse de (El Kassas, 2005) visent le
développement des systèmes de production d’énoncés cohérents, valides, compréhensibles et
grammaticalement corrects. Les travaux ont porté sur l'analyse syntaxique de l'arabe moderne
et sa correspondance avec la sémantique dans une interface syntaxique-sémantique bilingue
(arabe – français). Elle a choisi la théorie Sens-Texte (TST) créée par I. Mel’čuk et A.
Žolkovskij pour l’élaboration des données langagières.
Page
59
3.2. Système d’analyse linguistique proposé
L'analyse linguistique profonde est nécessaire pour assurer une extraction
d'informations sûre, pertinente et complète. Par exemple lier des éléments qui peuvent être
éloignés dans une phrase. Nous pouvons avoir différentes définitions pour l’analyse
linguistique, par exemple : selon (Laporte, 2000) : "l'analyse morphosyntaxique est l'ensemble
des techniques qui concourent à passer d'un texte brut, exempt d'informations linguistique, à
une séquence des mots étiquetés par des informations linguistiques". L'analyse que nous
avons mise au point se divise en plusieurs étapes allant du découpage en lexèmes jusqu'aux
relations que ceux-ci entretiennent au sein d'une phrase. Les principales étapes de cette
analyse sont décrites par le schéma suivant :
Repérage des
Entrée du texte Négation
relations SVC
Repérage des
Tokenisation relations non Passif
contigues
En Traitement Automatique de Langues, nous classons les langues, par rapport à leur
système d’écriture, en deux groupes : les langues avec séparateurs et les langues sans
séparateurs. Les langues avec séparateurs sont celles qui disposent d’un système d’écriture
segmentée : des écritures délimitées par des espaces et où les mots sont nettement séparés par
des délimiteurs (espace, signes de ponctuation, caractères spéciaux, ...). C'est le cas pour le
français ou l’anglais. Quant aux langues dites sans séparateurs, elles s’appuient sur des
systèmes d’écritures non segmentées où les mots ne sont pas séparés par des espaces avec des
mots ayant des frontières qui ne sont pas explicites (elles ne sont pas nettes). C’est le cas du
japonais, le chinois et le thaï.
Page
60
Pour ce qui est de l’arabe, elle présente un système d’écriture combinant à la fois les
propriétés des deux groupes présentés dessus (voir figure 3.2). C’est un système d’écriture
composé d’une écriture segmentée, et d’une autre non segmentée dans laquelle des mots
graphiques arabes correspondent à des mots minimaux séparés par des délimiteurs.
Cependant, une partie des mots graphiques arabes sont composés d’une suite d’unités
lexicales agglutinées pouvant être décomposée en termes de mots minimaux et de clitiques.
Ces mots et clitiques doivent apparaître dans le résultat de la segmentation de ces mots
composés.
Ecriture arabe
Dans le reste de la présente section, nous focalisons notre présentation sur ce que nous
avons réalisé au niveau de la segmentation lexicale ou tokenisation qui, encore une fois,
consiste à structurer le texte en passant d’un ensemble continu de caractères à une suite
discrète d’items lexicaux. Ces items ou tokens peuvent être un mot, une expression de
plusieurs mots, un chiffre ou un signe de ponctuation. Ces segments sont appelés ‘les
segments principaux’ et ils sont séparés soit par des signes de ponctuation ou par des espaces
dans un texte analysé.
L’étude des corpus nous a permis d’identifier toutes les unités lexicales permettant de
segmenter les textes. Parmi ces unités nous citons : l’espace, le point, les deux points, le
point-virgule, le point d’interrogation, le point d’exclamation, parenthèse ouvrante, parenthèse
fermante, crochet ouvrant, crochet fermant, le tiret, les guillemets, retour à la ligne, début de
Page
61
ligne, tabulation, les chiffres arabes et les chiffres romains. En plus des chiffres arabes et
romains, une bonne partie des pays arabes utilise les chiffres indiens que nous devons
considérer aussi dans notre analyse. Des signes de ponctuation supplémentaires propre à la
langue arabe tel que la virgule ‘،’, le point d'interrogation ‘ ’؟et le point-virgule ‘’؛. La
tokenisation ne permet pas d’avoir des tokens ayant pour l'instant qu'une position de début et
de fin. Elle prend aussi en compte les balises, les dates abrégées et les abréviations, etc. Pour
illustrer cette segmentation, montrons dans le tableau suivant l’ensemble des tokens que nous
obtenons de la phrase en entrée :
Entrée : . كل وعاء يضيق بما جعل فيه إَل وعاء العلم؛ فإنه يتسع به
Sortie : . فيه إَل وعاء العلم فإنه يتسع به جعل يضيق بما كل وعاء
Cette étape d’analyse morphologique est d’autant plus importante et plus complexe à
appréhender dans le cas de la langue arabe, car rappelons-le que l’une des particularités de
cette langue est la présence des formes agglutinées (formes avec des proclitiques et des
enclitiques). Ces formes ne sont pas présentes dans le dictionnaire des formes fléchies. Pour
identifier ces formes et les traiter correctement, nous avons ajouté un segmenteur secondaire
qui consiste à découper et séparer les formes agglutinées (segmentation morphologique),
implémenté sous forme de transducteurs à état finis (grammaires morphologiques HTFST). Ce
système a pour objectif de reconnaître toutes les segmentations possibles du mot en identifiant
la forme canonique du mot et les différents affixes et clitiques qui lui sont collés. Cette
analyse est encore complexifiée par l’absence ou la présence des voyelles dans les textes
Page
62
analysés. Pour ceux qui sont semi voyellés ou non voyellés, une consultation du lexique
permet de récupérer les formes voyellées correspondantes, c'est à dire leurs alternatives
orthographiques lorsqu'elles existent. Dans le cas par exemple du mot non voyellé ‘ ’مدرسةla
recherche dans le dictionnaire donne les deux alternatives orthographiques suivantes: "Ecole"
(Nom commun féminin singulier) et "Institutrice" (Nom commun féminin singulier). Notons
aussi que cette analyse des expressions idiomatiques afin de grouper certains mots pour les
considérer comme une seule unité ( سكة الحديد: Chemin de fer). Cette reconnaissance se fait à
l'aide de règles et de dictionnaires. Notons que les expressions idiomatiques et les mots
composés sont inclut dans le dictionnaire général et analysés automatiquement au cours de la
consultation du dictionnaire.
Segment principal
Vérification des
compatibilités
Informations linguistiques
associées à la forme reconnue
Page
63
L'attachement des clitiques à des formes de mots n'est pas un processus de
concaténation simple. Il y a plusieurs règles d'ajustement orthographiques et morphologiques
qui sont appliqués sur les mots.
[Link]. La désambiguïsation
Parfois, certains mots restent inidentifiables ou inconnus après les étapes d’analyse
morphologique. Par conséquent, le système lui attribue une (des) catégorie(s) par défaut, en
s’appuyant sur des informations révélées par sa forme de surface. Par exemple, s’il s’agit d’un
mot en caractères latins majuscules, comme ONU, il sera étiqueté comme nom propre.
Dans le cas du traitement de la langue arabe, la majorité des mots restent ambigus à
cause de l'absence des voyelles courtes arabes dans les textes (Debili et Suissi, 1998), ce qui
est moins prononcé pour les autres langues. Cette ambiguïté, à la fois lexicale et
grammaticale, constitue un problème majeur rencontré dans cette phase d’analyse. Il découle
du fait que lorsqu'un mot est reconnu, l'analyseur morphologique peut fournir plusieurs
interprétations qui renvoient à plusieurs catégories syntaxiques ou à plusieurs sens. Le rôle du
désambiguïseur morphosyntaxique qui intervient par la suite, est de réduire le nombre des
ambiguïtés grammaticales en utilisant des matrices de désambiguïsation.
Pour réaliser cette analyse nous nous appuyons sur un dictionnaire utilisé pour la
segmentation. Il contient 167423 couples ayant la forme (mot, catégorie) et peut être associé
à un poids. Les couples ayant au plus une occurrence dans le corpus sont dépourvus de
Page
64
pondération. Le tableau (3.2) présente un extrait de ce corpus où la première colonne est un
mot, la deuxième colonne représente la catégorie grammaticale du mot et la dernière colonne
indique le poids associé au couple (mot, catégorie). Ce poids se base sur le nombre
d'occurrences du couple (mot, catégorie) dans le corpus d'apprentissage. Il est calculé par la
formule suivante :
Où Σ(wi, catj) désigne le nombre d'occurrence du mot wi avec la catégorie catj dans le
corpus d'apprentissage.
Le modèle de langue s’applique sur des textes étiquetés et utilise des matrices de bi-
grammes et trigrammes de catégories morphosyntaxiques obtenues à partir d'un corpus
d'apprentissage LDC (Arabic Treebank, 6.0, 2007). Ce corpus est étiqueté et désambiguïsé
manuellement. Ces n-grammes sont établis à partir du corpus, et permettent d'attribuer une
pondération aux séquences de catégories afin de calculer la catégorie la plus probable d'un
mot en contexte. Afin d’optimiser ce processus de désambiguïsation, nous avons modifié le
corpus LDC avec un jeu de catégories morphosyntaxiques défini par notre équipe.
Nous notons que les probabilités des différents chemins possibles sont calculées afin
de résoudre les ambiguïtés de segmentation et de catégorisation. Le résultat de l’application
des n-grammes nous permet d’obtenir la suite de couples mot-catégories la plus probable : à
l'issu de ce traitement, seul le meilleur chemin est renvoyé par l'automate. L'ambiguïté
lexicale est conservée à ce niveau afin d’être traitée plus tard.
Page
65
[Link]. Transformation morphologique (Règles réécriture)
Lors de la description du traitement des formes agglutinées, nous avons mentionné que
si le radical n’existe pas dans le dictionnaire, des transformations morphosyntaxiques sont
appliquées. Ces transformations sont formalisées dans des règles morphosyntaxiques
appliquées aux différentes segmentations. Ces règles ont pour objectif la réalisation de la
correspondance entre un radical traité non reconnu, et un mot du dictionnaire. Cette
correspondance est effectuée par un ensemble de règles de réécriture à appliquer au radical ou
à la segmentation afin d’arriver à une forme fléchie dans le dictionnaire. Par conséquent, la
consultation du lexique des formes du dictionnaire est nécessaire tout au long du processus de
la transformation.
Les règles de réécriture que nous proposons prennent en considération les contraintes
morphologiques et orthographiques caractérisant la grammaire arabe. Parmi ces contraintes
nous citons : l'ajout de lettres, la suppression ou la substitution. Pour chaque contrainte nous
lui avons associé une règle de réécriture comme suit :
a) Ajout de lettre : cette règle permet d’ajouter une lettre au radical identifié. Nous
appliquons cette règle dans le cas des verbes se terminant avec le ‘Waw de pluriel’.
Cette règle consiste à effectuer une opération de concaténation entre le verbe et la
lettre ‘Alif â’. La validation de cette segmentation passe par la prise en compte de
certaines propriétés morphosyntaxiques comme :
o le verbe doit être conjugué à la forme active et non pas à la forme passive
o le verbe doit être transitif
o le verbe doit être conjugué à la 3ème personne, masculin au pluriel
Cette règle d'analyse morphologique d’une forme, comme le mot 'ُ'ض َربُوه َ (Darabuwhu
– ils l'ont frappé), nécessite la restitution de la voyelle longue finale avant la
consultation du dictionnaire. L’application de la règle de l’ajout se déroule comme suit
:
o 1ère étape : segmentation de la forme : en verbe + suffixe : 'ُ ه+ ض َربُوَ ' (Darabuw
+ hu)
o 2ème étape : ajout de la voyelle longue finale ' 'اau radical : 'ض َربُوَ ' (Darabuw)
→ on obtient ض َربُوا
َ (Darabuwâ)
o 3ème étape : la consultation de la forme obtenue dans le dictionnaire : ض َربُوا َ et ُه
' (Darabuwâ + hu) où 'ض َربُوا
َ ' est la forme fléchie à la troisième personne,
masculin, pluriel, à l'accompli, voix active et ' ُ 'هet un pronom personnel.
b) Suppression de lettre : comme son nom l’indique, cette règle consiste à effectuer une
opération de suppression de lettres. Là aussi, la prise en compte de certaines propriétés
morphosyntaxiques est nécessaire pour la validation de cette segmentation. Les
contraintes que nous considérons sont :
o le verbe doit être conjugué à la forme active et non pas à la forme passive
o le verbe doit être est transitif
o le verbe doit être conjugué à la 2ème personne, masculin au pluriel
Le processus de suppression de lettre d’une forme, comme celle du mot 'ض َر ْبتُ ُموهن َ '
(Darabtumuwhun – ils l'ont frappé), nécessite la restitution de la voyelle longue finale
avant la consultation du dictionnaire. La règle de la suppression sur ce mot s’applique
en trois étapes :
o 1ère étape : segmentation de la forme : en verbe + suffixe : 'ه ُّن+ ض َر ْبتُ ُمو
َ '
Page
66
(Darabtumuw + hun)
o 2ème étape : suppression de deux voyelles ' ( ' ُوuw) : 'ض َر ْبتُ ُمو
َ ' (Darabtumuw) →
ُ
on obtient ض َر ْبتم
َ (Darabtum)
o 3ème étape : consultation de la forme obtenue dans le dictionnaire : ض َر ْبتُم َ et 'هُ ّن
ُ
(Darabuwâ + hu) où 'ض َر ْبتم َ ' est la forme fléchie à la deuxième personne,
masculin, pluriel, à l'accompli, voix active et ' ُ 'هet un pronom personnel.
Cependant, dans le cas des particules et prépositions se terminant par Alif maksoura, la
règle de substitution consiste à restituer la dernière voyelle longue de '' (Y – yâ') en 'ى
(Y – yaa maksura) en suivant le même processus. Pour illustrer ce cas, prenons
l'analyse morphologique de la forme ''( ' َعلَي ِهalayhi – sur lui). Cette analyse se déroule
comme suit :
o 1ère étape : segmentation de la forme : en préposition + suffixe : ' ِه+ ( 'إِلَيIlay +
hi)
o 2ème étape : substitution de la voyelle longue '( 'يy - yaa) en '( 'ىY – yaa
maksura) : '( 'إِلَيIlay) → on aura ( إِلَىIlaY).
o 3ème étape : consultation de la forme obtenue dans le dictionnaire : إِلَىet ' ِه
(kasay + hmu) où ' 'إِلَىest préposition, et ' ' ِهet un pronom personnel.
Page
67
maktabati – ...) nécessite les étapes suivantes :
o 1 ère étape : segmentation de la forme : َم ْكتَبَ ِة+ ْ ل+ 'ل
ِ (li+l+maktabati)
o 2 ème étape : restitution de l'article défini ' ْ 'لen ' ال
o 3ème étape : consultation de la forme obtenue dans le dictionnaire.
ii. 2ème cas : Lettre solaire : l'analyse morphologique de la forme 'ب ِ ( 'لِلّ ِعli-ll'ibi –
...) nécessite les étapes suivantes :
o 1 ère étape : reconnaissance de la préposition ( ِلli) et la segmentation de la
forme : + ب ِ لّ ِع+ ( ' ِلli+ll'ibi)
o 2 ème étape : suppression de la gémination qui occulte (implicite) une autre
transformation liée à la restitution de l'article défini ' ' الcomme un proclitique
o 3ème étape : la consultation de la forme obtenue dans le dictionnaire
f) Hamza : ce cas concerne les formes nominales qui se terminent par la lettre ' '( 'ء-
hamza). La règle de réécriture dans ce cas consiste à substituer la lettre supportant la
hamza, waw ou yaa, par la lettre ' '( 'ء- hamza). L’identification des cas à substituer
passe par la détection de la lettre casuelle qui détermine la lettre supportant la hamza.
Cette règle tient compte aussi de la fonction grammaticale du mot. Par exemple,
l’application de cette règle sur les deux formes ( د ََوائِهdawa’ihu) et ُ َد َوا ُؤهdawa’uhu,
donne la forme ( َد َوا ٌءdawa’un - médicament). D'une manière générale :
o Si la hamza est accompagnée par une 'ض َّمة َ - ُ ' (u – damma), elle prend la
forme '( 'ؤw – hamza 'alaa al-wâw); c'est le cas du nominatif.
o Si la hamza est accompagnée par une ' فَت َحة- َ ' (a – fatha), elle prend la forme ''أ
(a – hamza) ou '( 'ءhamza 'alaa es-satir); c'est l'accusatif.
o Si la hamza est accompagnée par une ' َك ْس َرة- ِ ' (i – kasra), elle prend la forme
'( 'ئy – hamza 'la-ya'); c'est le génitif;
o Si la hamza est accompagnée par une ' ُس ُكون- ْْ ' (sukun – signe de quiescence),
elle prend la forme '( 'ءhamza 'alaa es-satir).
Page
68
lettres assimilées à des verbes, اِلحرف المشبّهة بالفعل, peuvent engendrer deux écritures
différentes en se combinant avec un même enclitique, comme c’est le cas de la lettre
( لَ َع َّلla'alla – peut-être) + '( 'نِيniy - ) qui donne les deux formes : '( 'لَ َعلَّنِيla'allaniy – je
pourrai) et '( 'لَ َعلِّيla'alliy – je pourrai).
Page
69
Les structures de dépendances (arbre de dépendance), auxquelles nous nous
intéressons dans cette étude, sont plus anciennes que les structures syntagmatiques. En effet
leur usage remonte à l’antiquité. Les grammairiens arabes du 8 ème siècle, comme Sibawayh,
distinguaient gouverneur et gouverné en syntaxe et utilisaient cette distinction pour formuler
des règles d'ordre des mots et de rection (kahnane, 2001). Au 19ème siècle, les grammaires
scolaires de l’anglais ont enseigné l’analyse de la phrase sous forme de diagramme basé sur la
dépendance. Lucien Tesnière fut un des premiers à mettre en place dans les années 30 une
théorie linguistique basée sur la dépendance, et fut publiée quelques temps après sa mort en
1959 sous le nom de « Eléments de syntaxe structurale».
Un arbre de dépendance syntaxique est enrichi avec un étiquetage des dépendances par
des fonctions syntaxiques. Cet étiquetage sert comme complément à l’arbre afin d’encoder
l’organisation syntaxique des phrases. Une fonction ou relation syntaxique permet de
distinguer les dépendants d’un même mot et de rassembler les dépendants qui ont un
comportement syntaxique similaire. Par « relation », on réfère au lien entre gouverneur et
dépendant et par « fonction », on réfère au rôle rempli par un dépendant dans le régime du
gouverneur. La notion de fonction syntaxique est universelle mais sa déclinaison au niveau
des langues donne des fonctions propres à chaque langue. Le recensement et l’énumération de
ces fonctions reste à la charge des grammairiens, à ce sujet (Kahane, 2001) expose sur la
difficulté de cette tâche :
« L'une des principales difficultés pour décider combien de fonctions syntaxiques il est
nécessaire de considérer est qu'on peut toujours attribuer une propriété particulière à la
catégorie du dépendant ou du gouverneur (comme le font les grammaires syntagmatiques)
plutôt qu'à l'étiquette de la relation de dépendance entre eux. Quitte à multiplier les
catégories syntaxiques, il est formellement possible de limiter l'étiquetage des relations à un
simple numérotage (il faut quand même garder un minimum pour distinguer entre eux les
différents compléments du verbe). Il semble donc difficile d'établir des critères exacts pour
décider si deux dépendances doivent ou non correspondre à la même fonction et il est
nécessaire de prendre en compte l'économie générale du système en cherchant à limiter à la
fois le nombre de catégories syntaxiques et le nombre de fonctions syntaxiques et à chercher
la plus grande simplicité dans les règles grammaticales. On attribuera donc à la catégorie
syntaxique les propriétés intrinsèques d'une lexie (c'est-à-dire qui ne dépendent pas de la
position syntaxique) et à la fonction les propriétés intrinsèques d'une position syntaxique
(c'est-à-dire qui ne dépendent pas de la lexie qui l'occupe). »
Page
70
syntaxique entre deux mots de la phrase par la mise en avant d’une relation syntaxique entre
la tête (gouverneur) et le mot dépendant (régie). Quant à l’étiquetage, il consiste à regrouper
les dépendants syntaxiques et annoter la relation identifiée par un nom référant à une famille
(ou type) de constructions syntaxiques d’une langue donnée.
Dans cette section, nous procédons en deux étapes : 1) traiter les syntagmes nominaux, puis 2)
présenter les relations sujet-verbe-complément. L'analyse effectuée est une analyse de
dépendance, et comme nous utilisons le langage HTFST pour la partie implémentation, le
fichier analysé en entrée n’est que ligne par ligne, et nous ne reconnaissons que des chaînes de
caractères. Les relations ne sont pas représentées sous leur forme arborescente, mais elles sont
« aplaties » et représentées sous forme de paires « tête-dépendant », auxquelles peuvent être
ajoutés des éléments appelés indications linguistiques, tels que les déterminants, les
prépositions, etc.
Chaque relation est typée selon des catégories choisies par les linguistes parmi lesquelles nous
citons :
SV pour les relations sujet-verbe;
VC (verbe-complément) : cette relation regroupe à la fois les relations verbe-objet et
les relations qu'entretient le verbe avec les compléments circonstanciels ;
GD, uniquement dans les groupes nominaux, relie des éléments dont la tête est à
gauche du dépendant ;
DG, uniquement dans les groupes nominaux également, relie des éléments dont la tête
est à droite du dépendant ;
CIRONSTANT : relie les compléments circonstanciels à l'attribut d'une relation
ATTRS.
Une étude linguistique spécifique de la langue arabe nous a permis de définir et d’écrire des
règles dans le but d'établir des relations de dépendance (contiguës et non contiguës) entre les
mots au sein du syntagme nominal dans le but de définir le rôle sémantique des mots. Ces
relations permettent ensuite de reconnaître les mots composés présents dans une phrase. Nous
avons passé en revue les différentes relations syntaxiques régies par le nom, l’adjectif et les
mots outils que nous présentons par les relations syntaxiques suivantes :
En considérant tous ces aspects, nous présentons quelques relations syntaxiques gouvernées
par le nom. En particulier nous présentons les sept relations suivantes : la modification, la
relation complément de nom, la relation complément d’objet indirect, l’apposition, la
corroboration, la quantification numérale et la coordination.
[Link].1. La modification
La modification est la relation qui permet de lier un mot à un nom. Ce mot, désigné par
modifieur, associera à travers cette relation une caractéristique au nom auquel il est rattaché.
Ce rôle joué par le modifieur permet de déduire que le mot lié au nom est un adjectif. Nous
pouvons représenter cette relation comme suit :
Page
71
(N)-modif→(ADJ) …(1)
En général, le terme modifieur désigne une adjonction au nom et il est toujours placé après le
déterminant. Il peut être libre, quand il est facultatif (ex : Kamel a acheté deux voitures
blanches), et il peut être lié quand il est obligatoire (ex : Michael Schumacher est dans un état
critique). Par défaut, un modifieur est un adjectif qui s’accord en genre (féminin, masculin),
nombre (singulier, duel ou pluriel), définitude (défini ou indéfini) et cas (nominatif, accusatif
ou génitif) avec le nom qu’il qualifie conformément au tableau suivant :
L’opération de modification dans la grammaire arabe est aussi la fonction dite na't ( ) نعتou
sifaa () صفة. Elle peut être exprimée par un adjectif à valeur, un participe actif ‘’إسم الفاعل
(suivant le schème ‘ فَا ِعلfaa'il’), un participe passif ‘( ’إسم المفعولrespectant le schème
‘ َم ْفعُولmaf'uul’), un comparatif ‘( ’إسم التفضيلrégi par le schème ‘ أَ ْف َعلaaf'al’) ou encore un
superlatif. Pour illustrer ces propriétés prenons les exemples suivants :
‘ً( ’كان محم ٌد رسوَلً أَحْ َسناMuhammad était un messager le plus vertueux)
Page
72
kaana muhammad+u+n rassul+a+n –modif → ʔhsan+a+n
(V)PASSE (N)+NOM+INDEF (N)+ACC+INDEF (ADJcomparatif)+ACC+INDEF
(N)-compN→(N)GEN …(2)
En plus de ces propriétés syntaxiques, un complément de nom peut appartenir aux types
suivants :
a. Nom défini : par exemple :
( جاء وزي ُر الدول ِةle ministre d’état est venu)
jaa' waziir+u –compN → al+dawlat+i
(V)PASSE (N)+NOM DEF+(N)+GEN
Page
73
Cette relation possède les propriétés syntaxiques suivantes :
i. La structure est itérative car plusieurs compléments de nom peuvent être utilisés dans
la même phrase comme dans la phrase suivante :
( ترجمةٌ من الفرنسي ِة إلى العربي ِةUne traduction du français vers l’arabe)
tarʤamat+u+n-PREP→ mina-compI→al+firinsijat+i -PREP→ʔilaa-compI→
al+ʕarabijat+i
(N)+NOM (PREP) DEF+(N)+GEN (PREP)
DEF+(N)+INDEF
ii. Comme le complément d’objet direct, le complément indirect peut être aussi un
constituant coordonné, et pour illustrer ce cas de figure, prenons l’exemple de la
phrase :
( ترجمةٌ من الفرنسي ِة والعربي ِةUne traduction du français et de l’arabe)
tarʤamat+u+n-PREP→ mina-compI→al+firinsijat+i wa#al+ʕarabijat+i
(N)+NOM+IND (PREP) DEF+(N)+GEN (COORD)#DEF+(N)+GEN
[Link].4. L’apposition
L’apposition est la relation permettant de rattacher un mot, considéré comme dépendant de la
relation et appelé appositif, à un nom afin de lui apporter un complément d’information. Ce
complément concerne une qualité ou une nature. Cette relation formalise en arabe le
phénomène dit albadal, ( ‘ البدلla substitution’). Nous pouvons représenter cette relation
comme suit :
(N)-appos→(N)DEF|NEUTRE …(4)
Page
74
Par ailleurs, la relation d’apposition est parfois complexe, car dans certains cas nous trouvons
des noms coordonnés dont chacun apporte une identification différente, par exemple la phase
:
) ًجنبك هللا أمرين فقراً و هرماALLAH t’a épargné deux choses, pauvreté et vieillesse)
janabaka Allahu 'amrajn-appos→ [faqr+a+n wa#ham+a+n]
(V)PASSE NP (N,masc)[Link] (N,masc)[Link]
(COORD)#(N,masc)[Link]
Sur un autre registre, L’apposition possède plusieurs variantes selon l’étendu du sens qu’il
apporte au nom qu’il suit. Ces variantes sont au nombre de trois : apposition du tout ''بدل الكل,
apposition de la partie ''بدل الجزء, apposition d'inclusion ''بدل اإلشتمال.
Nous remarquons bien dans cet exemple que la terre représente une partie matérielle
de Palestine, et que l’apposition contient bien un pronom qui référence la Palestine.
Page
75
sur le premier. Le deuxième mot s’appel dans le cadre de cette relation le corroboratif. Nous
schématisons cette relation comme suit :
Il existe deux sortes de corroboration : formelle (lafzi : )لفظيet sémantique (ma'nawiy )معنوي.
La corroboration formelle est caractérisée par la répétition du mot, en d’autres termes le mot
et son corroboratif sont les mêmes. Par exemple :
‘ َ( ’هَ ْيهَاتَ هَ ْيهَاتَ لِ َما تُو َع ُدونloin loin ce qu’on vous promet)
hayhAt+a -appos→ hayhAt+a lima tu’ad+un+n
(N)+ACC+INDEF (N)+ ACC+INDEF PART V(PREST)
(تفوق المجتهدان كَلهماles deux studieux ont gagné tous les deux)
tafawaqa al+mujtahidaan-appos→kilaa#humaa
(V)PASSE DEF+(N)[Link] (N)[Link]#(PRO)
Page
76
[Link].6. La quantification numérale
Cette relation syntaxique présente un cardinal suivi d'un nom singulier mis à l’accusatif
indéfini. Dans ce cas, le gouverneur de cette relation est le nom et le dépendant est le
cardinal. La quantification permet le repérage des mesures dans les textes. Nous pouvons
présenter cette relation par la règle suivante :
(CARD)-quant-num→(N)INDEF …(6)
Le cardinal peut aussi être un complément d’objet direct comme dans cette phrase :
( قتل المجاه ُد خمسةَ ُجنُو ٍدle combattant a tué cinq soldats)
jaa' al+mujahid+u khamssat+a-quant-num→junuud+i+n
(V)[Link] DEF+(N)+NOM (CARD)ACC+INDEF
(N)PL+GEN+INDEF
Dans la grammaire arabe, en fonction du nombre véhiculé par le cardinal nous distinguons les
trois cas de figure suivants :
Si le cardinal représente un nombre compris entre 3 et 10, alors le gouverneur, qui est
ْ doit être au pluriel quel que soit son genre : masculin ou
le nom dénombré ()ال َم ْعدُو ُد,
féminin. Le nombre prend différents cas suivant sa situation dans la phrase. De plus, il
doit être indéfini et mis au génitif. Nous signalons aussi que le genre du nombre dans
ce cas est opposé à celui du dénombré : si le dénombré est masculin alors le nombre
doit être mis au féminin et vice versa. Nous utilisons les exemples suivant pour
démontrer ces propriétés :
ت
ٍ ( جاء سب ُع فتياsept filles sont venues)
Jaa’ sab+'uunun-tnauq- fatayaat+iu+
(V)PASSE (CARD)MASC+NOM (N)FEM+SG+GEN+INDEF
Si le cardinal représente un nombre compris entre 11 et 99, alors le nom dénombré est
au singulier, à l’accusatif et généralement à l’indéfini. Par ailleurs, le nombre prend
différents cas suivant sa situation dans la phrase. La phrase suivante montre ces
propriétés :
ً( رأى يوسفُ أح َد ع َش َر كوكباYoussef a vu onze planètes)
ra'a yussuf+u+n ahda 'achar+a-quant-num→kawkab+a+n
(V)[Link] (N)+NOM+INDEF (CARD)ACC+NEUTRE
(N)SG+ACC+INDEF
Si le cardinal représente un nombre compris entre 100 et 1000, alors le nom dénombré
est toujours mis au singulier, généralement indéfini et mis au génitif. A titre illustratif,
prenons cet exemple :
Page
77
( عاش جدي مائة سن ٍةmon grand-père a vécu cent ans)
‘acha jad+i#i mi'at+a-quant-num→ sanat+i+n
V(PASSE) (N)+NOM#PRO (CARD)ACC (N)SG+GEN+INDEF
En plus des quantificateurs décrit jusque-là, il existe des unités lexicales qui indiquent le sens
du nombre mais qui ne sont pas des nombres. Par conséquent, la quantité indiquée par ces
entités est indéterminée. Nous notons que le nom dénombré par ces unités est mis au cas
accusatif et avec certaines unités (bidh3o) a toujours un genre opposé à celui du cardinal. Par
exemple :
(N1)-(CONJ_COOR)-conj-coord→(N2) …(7)
…(1)
Pour illustrer cette définition, prenons la phrase suivante :
( جاء التلمي ُذ واِلستا ُذIls sont venus l’élève et le professeur)
Jaa+a al+tilmid+u -COORD→ waa# al+’ustaaD+u
V(PASSE) DEF +(N)+NOM (Coord) DEF+(N)+NOM
Cette relation est valable aussi entre deux cardinaux. Les cardinaux de 21 à 99 sont composés
d'une manière analytique par une coordination suivant la règle suivante :
(CARD)-(CONJ_COOR)-conj-coord→(CARD) …(8)
…(1)
Exemple :
( خمسةٌ وخمسون طالباcinquante-cinq étudiants)
khamsat+u+n-COORD→ waa# khams+u+n talib+n+n
(CARD) (COORD) (CARD) (N)+ACC+INDEF
[Link]. Les relations syntaxiques gouvernées par un adjectif
Rappelons qu’un adjectif est un mot qui associe à un nom, auquel il s’adjoint, une
caractéristique ou une qualité. Il partage avec le nom les catégories grammaticales suivantes :
Le genre : masculin (MASC) et féminin (FEM).
Le nombre: singulier (SG), duel (DUEL) et pluriel (PL)
Le cas : nominatif (NOM), accusatif (ACC) et génitif (GEN).
La définitude : défini (DEF), indéfini (INDEF) et neutre (NEUTRE)
De part ces catégories et du fait que l’adjectif est joint à un nom, des règles d’accord
morphologiques entre l’adjectif et le nom s’imposent. Bien entendu, l’adjectif reçoit le genre,
le nombre, le cas et la définitude par le phénomène de l’accord du support auquel il se
rapporte. Les règles d’accord sont diversifiées et complexes; par exemple si le nom est un
Page
78
pluriel brisé, l’adjectif sera au féminin singulier même si le nom est masculin comme c’est le
ca de cette phrase :
( العقاربُ السامةles scorpions venimeux)
al+’aqaarib+u al+saamat+u
DEF+(N)[Link]+NOM DEF+(ADJ)[Link]+NOM
Nous décrivons sommairement les principales règles de l'accord entre le nom et l'adjectif
comme suit :
Si le nom est un cas de référents humains, l'adjectif s'accorde en genre et nombre avec
lui, par exemple :
الروح
ِ ُ( محم ٌد خفيفMohammed a un esprit léger)
Muhammad+u+n [khafiif+u] al+ruuH+i
(NP)[Link]+NOM+INDEF (ADJ)[Link]+NOM DEF+(N)+GEN
Si le nom est un cas de référents non humain et au singulier alors l'adjectif doit
s'accorder en genre et en nombre avec lui, c’est le cas des exemples suivants :
( القط كثير المواءle chat qui miaule beaucoup)
al+qiT+u [kathiir+u] al+miwaa’+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN
Si le nom est un cas de référents nom humain et il est au pluriel alors dans ce cas, le
genre de l'adjectif est au féminin et elle est au singulier
Page
79
relations syntaxiques sont représentées : le complément de l’adjectif, le modifieur, le
comparatif, le superlatif et la conjonction de coordination. Pour chaque relation, comme nous
l’avons fait pour le nom, nous donnons le dépendant prototypique avec des exemples à
l’appui sans aborder exhaustivement les propriétés syntaxiques.
(ADJ)NEUTRE-compAdj→(N) …(9)
Cette relation peut avoir des variantes. Une de ces variantes consiste à associer une particule,
qui est le dépendant dans ce cas, à un adjectif afin de nier l’information véhiculée par ce
dernier. Cette variante est généralement suivie par une conjonction de coordination pour
Page
80
ajouter un autre adjectif. Considérons la phrase suivante pour illustrer cette variante :
( رج ٌل َل غن ٌي وَل فقي ٌرun homme n’est ni riche ni pauvre)
rajul+u+n laa←modif-ghaniy+u+n wa#laa
faqir+u+n
(N)+NOM+INDEF (ADV) (ADJ) (COORD)#(ADV) (ADJ)
Exemple :
‘القطار
ِ ُ ( ’الطائرةُ أسرL’avion est plus rapide que le train)
ع من
al+Ta'irat+u ʔasra'+u min al+qiTar+i
DEF+(N)+NOM+INDEF (ADJcomparative)+NOM (PREP)
DEF+(N)+GEN+INDEF
Toutefois, l’utilisation des superlatifs n’est pas toujours possible pour certains mots. C’est le
cas de certains verbes ou des phrases où nous voulons exprimer un degré supérieur des
adjectifs de couleurs ou de particularités physiques ayant déjà la forme d’un élatif ()إسم التفضيل.
Dans ce cas-là nous faisons appel à un élatif à sens vague (، أكثر، أقل، )أكبر أشدsuivi d’un nom
indéfini au cas accusatif, de la couleur ou de la particularité physique. Par exemple :
( كريم أقلُّ صمما ً من أنيسKarim est moins sourd que Aniss)
Karim+u+n ʔaqall+u samam+a+n min ʔanii+u+n
(NP)+NOM (ADJ)+NOM (ADJ)+ACC+INDEF (PREP) (NP)+GEN
ً
( الثل ُج أش ُّد بياضا من اللب ِنla neige est plus blanche que le lait)
Al+Talj+u ʔachad+u bayadh+a+n min al+laban+i
DEF+(N)+NOM (ADJ)+NOM (ADJ)+ACC+INDEF (PREP) DEF+
(N)+GEN
(ADJ)NEUTRE-supertlatif→(N) …(12)
Le dépendant d’une relation superlative est par défaut un nom mis au génitif indéfini. De plus
ce dépendant est appelé dans cette relation élatif ( )إسم التفضيلet il est invariable en genre et en
nombre. Il peut être employé comme premier terme d’une annexion, et dans ce cas-là deux
constructions sont alors possibles :
Construction faisant appel à un complément de nom singulier indéterminé
( بَل ٌل أجم ُل رج ٍلBilel est le plus beau des hommes)
Page
81
bilal+u+n ʔajmal+u-supertlatif→ raʤul+i+n
(NP)+NOM (ADJcomparative)+NOM (N)+GEN+INDEF
Construction faisant appel à un complément de nom déterminé au pluriel
‘( ’ال ِّربَا أَ ْعظَ ُم ال َكبَائِ ِرl’adultère est le plus grand des péchés capitaux)
Al+riba’ ʔaDam+u al+kaba’ir+i
DEF+(N)+NOM (ADJsuperlatif)+NOM (N)+GEN+INDEF
Enfin, nous notons qu’en plus des cas mentionnés dessus, il existe aussi deux adjectifs qui ne
sont pas sous la forme de ''أَ ْف َعل, qui sont les mots ( َخ ْي ٌرbien) et (شَرmal). Ces mots sont utilisés
sous cette forme pour exprimer le comparatif et le superlatif. Pour illustrer ces cas, voici
quelques phrases explicatives :
‘وم ِ َّصَلَةُ خَي ٌر منَ الن َّ ( ’الla prière est meilleure que le sommeil)
Al+salat+u khayr+u+n min al+nawm+i
DEF+(N)+NOM (ADJcomparative)+NOM (PREP) DEF+(N)+GEN
‘الخلق
ِ َُّرش ُيطان َّ
ش ’ال (le diable est la pire des créatures)
Al+shaytAn+u charr+u al+nawm+i
DEF+(N)+NOM (ADJsuperlatif)+NOM DEF+(N)+GEN
…(1)
ٌ(أيا ٌم صعبةٌ وحزينةdes jours durs et tristes)
'ayam+un sa'bat+u+n-COORD→ waa# haziinat+u+n
(N)+NOM+INDEF (ADJ)+NOM+INDEF (Coord)
(ADJ)+NOM+INDEF
La grammaire de tradition arabe permet une coordination effectuée d'une façon asyndétique,
autrement dit ; une succession des adjectives sans l'utilisation d'une coordination. Cette
fonction permet de générer une chaîne d'adjectif. Voici une phrase où cette fonction est mise
en œuvre :
Page
82
autres que les trois classes majeures, à savoir : verbe, nom et adjectif. Les relations
concernées par la présentation de cette section sont : l’interjection, la préposition, la
conjonction, la jonction et l’exception.
(INTERJ)-interj-appel→(N)…(14)
Page
83
( اإلعجاز في القرآ ِنle miracle dans le coran)
Al+’iajaaz+u fii –prép→ al+qur'aan+i
DEF+(N)+NOM (PREP) DEF+(N)+GEN
Un autre exemple !!!
(CONJ_SUB)-conj-sub→(V) …(16)
Le verbe qui suit ce type de conjonction doit être conjugué à l’inaccompli et son cas dépend
du type de la conjonction :
Si la conjonction est du groupe ( )حروف نصبalors le verbe sera au subjonctif. Les
particule faisant partie de ce groupe sont : ( لَنlan)، ( َحتَّىhatta)، ( أَ ْنann)، ( َكيkay) ، َلم
( التعليلlaam al-ta’lil)، ‘( إِذاiDana) ، ( الجحود َلمlaam al-juHud) فاء، ( السببيةfaa al-
sababiya). Exemple :
يتزوج
َ ( يري ُد أَ ْنIl veut se marier)
Yurid+u ‘an–Conj_Sub→ yatazawaj+a
(V)+PRESENT+IND (CONJ_SUB) (V)+ PRESENT+SUBJ
(CONJ_COOR)-conj-coord→(V) …(17)
Les particules de coordination sont traditionnellement nommées huruuf alʕatfi ()حروف العطف,
et selon les grammairiens arabes il existe neuf particules de coordination :
ال َوا ُوwaa (et) : peut exprimer plusieurs sens : i) la successivité sans référence à un
Page
84
intervalle temporel, et ii) la simultanéité.
الفـــاءfaa (ensuite) : exprime un ordre séquentiel sans intervalle temporel. il indique
un enchaînement entre deux actions afin de mettre en avant l’ordre seulement.
ُث ّمθumma (ensuite) : utilisé pour indiquer un ordre séquentiel avec intervalle
temporel entre le coordonné à lui et le coordonné.
حتّىhattaa (y compris, même) : utilisé pour faire la coordination dans le but
d’exprimer l’objectif.
''أو ْ ʔaw (ou) : c’est le connecteur standard de disjonction
' 'أَ ْمʔam (ou exclusif) : c’est aussi un connecteur de disjonction mais contrastif utilisé
généralement pour lier des propositions interrogatives
‘ ’لكنlakin (mais) : utilisé pour coordonner des constituants non verbaux
' 'بَلbal (plutôt) : c’est un connecteur de rectification liant une proposition affirmative
à une proposition négative
Voici quelques exemples de ces conjonctions :
ُ
مررت وزهير بخال ٍد
ٍ (Je suis passé auprès de Khalid et Zuhaïr)
Marart+u bi# khalid+i+n COORD→waa# zahiir+i+n
V(PASSE) PRE# (NP)+GEN Coord (NP)+GEN
[Link].5. L'exception
L’exception est exprimé en arabe à travers l’utilisation de la particule ''إَل, qui signifie sauf ou
hormis, dans une phrase affirmative gouverne en général le cas direct. L’emploi de l’exception
nécessite l’engagement de deux éléments importants : l’entité exceptée ( )المستثنىmise en
générale à l’accusatif et le terme général ()المستثنى منه. La relation d’exception peut être
représentée par la règle suivante :
(EXCEP)-excep→(N) …(18)
ii. Cas où elle est mise soit à l’accusatif, soit au même cas que le terme général, et cela
quand la proposition est négative, et le terme général est mentionné, par exemple :
ً
( ما جاء اِلوَل ُد إَِل محمداtous les enfants ne sont pas venus sauf Mohammed)
Maa jaa al+’awlad+u EXCEP→ ‘ilaa Mohammed+a+n
PART V(PASSE) DEF+(N)[Link]+NOM Excep (N)MAS +ACC
( ما جاء اِلوَل ُد إَِل محم ٌدtous les enfants ne sont pas venus sauf Mohammed)
Maa jaa al+’awlad+u EXCEP→ ‘ilaa Mohammed+u+n
Page
85
PART V(PASSE) DEF+(N)[Link]+NOM Excep (N)MAS +NOM
En plus des aspects de conjugaison, il existe un concept, emprunté aux chimistes, et projeté
sur les verbes qui est la valence. A l’origine, la valence correspond au nombre d'atomes avec
lequel un atome donné peut se combiner à l'intérieur d'une molécule. C’est Tesnière qui a
adapté ce concept au verbe (Tesnière, 1965), et cela en donnant la définition suivante : « le
nombre d’actants qu’un verbe est susceptible de régir » en considérant les actants comme : «
êtres ou les choses qui, à un titre quelconque et de quelque façon que ce soit, même au titre de
simples figurants et de la façon la plus passive, participent au procès ». Pour les circonstants,
il s’agit de : « circonstances de temps, lieu, manière, etc. dans lesquelles se déroule le procès
». En détails, cette définition oppose les actants aux circonstants et distingue parmi les actants,
le prime actant, le second actant et le tiers actant que nous pouvons assimiler au sujet, l’objet
et le complément d’objet (COI) respectivement.
Par ailleurs, en fonction du nombre d’actants régis par un verbe, Tesnière propose une
typologie de valence pouvant elle-même considérée comme une classification de verbe
comme suit :
Verbe avalent : verbe n’ayant pas d’actants, donc sans aucune valence. Ces verbes
sont plus souvent connus sous le nom de verbes impersonnels.
Verbe monovalent : verbe ayant un seul actant et connus sous le nom de verbes neutres
ou de verbes intransitifs.
Verbe bivalent : verbe à deux actants appelé aussi verbe divalent.
Page
86
Verbe trivalent : représente la classe des verbes ayant trois actants.
Dans le reste de cette section nous détaillons les relations syntaxiques gouvernées par un
verbe.
Page
87
najaha-sujet→ [khamsat+u tulaab+i+n]
(V)[Link] (CARD)+NOM (N,masc)+GEN+INDEF
ْ ُُوا لَوْ َكان
َوا ُم ْسلِ ِمين ْ ( يَ َو ُّد الَّ ِذينَ َكفَرCeux qui ne croient pas, veulent s'ils étaient musulmans)
Pronom
jawaddu-sujet→ allaðiina kafaruu {humu} law kaanuu {humu} muslimiin
Relatif (V)PRESENT (Pron-Rela) (V)[Link] (CONJ) (V)PASSE (N)MAS+PL+GEN
Notons que le sujet peut dans certains cas être omis, c’est le cas des verbes intransitif mis à la
voix passive. Par exemple, les verbes ( نامdormir) et ( نشأgrandir) prennent en voix active un
sujet et n’ont pas de complément d’objet direct, cependant ce sujet est omis lorsque ces verbes
sont transformés à la voix passive comme suit :
( نامdormir)
( نام الطف ُل على السريرL’enfant a dormi sur le lit)
Forme Active Naama ―sujet→ al+Tifl+u ‘ala al+sarir+i
(V)[Link] DEF+(N)+NOM (PREP) DEF+(N)+GEN
( نيم على السريرIl a été dormi sur le lit)
Forme Passive Niima ‘ala al+sarir+i
(V)[Link] (PREP) DEF+(N)+GEN
( نشأgrandir)
( نَشَأ ُ الول ُد على الطاع ِةL’enfant a grandi sur la docilité)
Forme Active Nacha’a ―sujet→ al+walad+u ‘ala al+taa’at+i
(V)[Link] DEF+(N)+NOM (PREP) DEF+(N)+GEN
( نُ ِش َئ على الطاع ِةIl a été grandi sur la docilité)
Forme Passive Nuchi’a ‘ala al+taa’at+i
(V)[Link] (PREP) DEF+(N)+GEN
Page
88
En arabe, un verbe transitif peut avoir besoin de plus d’un complément d’objet dans une
phrase : certains verbes régissent deux compléments et d’autres trois. La structure des phrases
utilisant ce type de verbe est généralement de la forme un verbe, un sujet, un complément
d'objet 1 et éventuellement un complément d'objet II. Cette structure peut même être étendue
à un troisième complément dans le cas des verbes : ‘( أنبأanba’a – informer) , ( نَبَّأnabba’a –
annoncer) , ‘( أخب َرakhbara – apprendre) , ( خبّرkhabbara - avertir) ,ث َ ( ح ّدhaddatha – raconter)
, ‘( أعل َمa’lama – faire part) , ‘( أرىara – montrer). Voici une phrase employant un verbe
utilisant trois compléments :
ً أريت سعيداً اِلم َر واضحا
ُ (j’ai démontré à Said la question clairement)
‘araytu Sa’id+a+n al+’amr+a waDih+a+n
COD1
(V)PASSE (NP)+ACC DEF+(N)+ACC (N)+ACC+INDEF
Les verbes nécessitants deux compléments sont répartis dans différentes classes :
Les verbes attributifs : cette catégorie a besoin de deux compléments où le second est
appelé attributif et a pour rôle de compléter le sens de la phrase. Par conséquent, il
n’est pas possible de supprimer l’un des deux compléments. Trois types sont
considérés dans cette classe : pensée, changement d’état et certitude (ou de doute).
Nous pouvons résumer la liste des verbes de cette classe dans le tableau suivant :
Verbe transitif
Les verbes non-attributifs : sont des verbes ayant deux compléments mais ne
comportant pas une phrase nominale sous-jacente. L’un des deux compléments est
indispensable pour compléter le sens de la phrase ce qui n’est pas le cas de l’autre.
Par conséquent, nous pouvons supprimer l’un des deux sans toucher à l’intégrité du
sens de la phrase. Parmi les verbes de cette catégorie, nous citons : ( أعطىa’ta –
donner) ، ( سألsa’ala – demander)، ( منحmanaha – octroyer) ، ( منعmana’a – interdire)
، كسا/( ألبسkasa/’albassa – habiller)، ‘( علّمallama – enseigner)
Avant de détailler les différents types de complément considérés dans notre étude, nous
terminons cette présentation par les exemples d’utilisation suivants :
Page
89
( اتخذ هللا إبراهيم خليَلDieu a pris Ibrahim pour ami privilégié)
ItakhaDa Allah+u ibrahi+m khalil+a+n
COD1
(V)PASSE (NP)+NOM (NP)+ACC (N)+ACC+INDEF
Complément absolu
Ce complément joue pratiquement le même rôle que celui du complément de manière, la
différence c’est que le complément absolu est un ( مصدرmaṣdar) du verbe employé afin de
renforcer l’action et décrire la manière de son déroulement. Il est connu sous le nom de
maf’uul muTlaq ()مفعول مطلق. Il convient de mentionner, que la grammaire arabe ne possède
pas d’adverbes proprement dit. La phrase suivante donne un exemple d’application pour ce
Page
90
type de complément :
(V)PASSE (N)+ACC+INDEF
(V)PASSE (N)+ACC+INDEF
Page
91
ْ ( اِ ْشتَ َرى َرIl a acheté un demi-kilo de blé)
طَلً قم ًحا
ʔishtara raTl+a+n qamh+a+n
(V)PASSE (N)+ACC+INDEF (N)+ACC+INDEF
Page
92
l'action représentant le premier actant sémantique du verbe, et le nom mis après le verbe est le
complément d'objet correspondant au deuxième actant sémantique. L’usage de ce type de
relation était limité dans l’arabe classique ce qui n’est pas le cas avec l’ASM où ces tournures
sont très répandues dû probablement au contact et influence des langues indo-européennes
(ref Dina). Nous pouvons formaliser cette relation par la règle suivante :
(V)PASSIF–agent-prép→(PREP) …(04)
Les phrases suivantes présentent des cas d’application de cette relation :
ِ ( يُموّ ل باريس سان جرمان ِمنْ طَ َرLe Paris Saint Germain est sponsorisé par Al-
ف الخليفي
Khelaïfi)
Yumawwalu Paris San Jirman [min taraf+i] Al-Khelaïfi
(V)[Link] (NP)+NOM [(PREP)Loc_PREP (NP)+GEN
[Link].5. L’attribut
Par définition, une copule en linguistique correspond à un mot dont la fonction est de lier
l'attribut au sujet d'une proposition. En arabe cette copule peut être assimilée à un exposant
verbal, mis en tête de phrase. Ces verbes sont kana 'كانKana' et ses analogues ( ، أضحى،أصبح
ليس، صار، ما دام، ما فتئ، ما زال، ما انفك، ما برح، بات، أمسى،)ظل. Les phrases utilisant ces verbes sont
incomplètes si nous nous contentons seulement d’un nom au nominatif, appelé aussi sujet
(isme kana), en plus du verbe, elles nécessitent un autre élément, qui est χabar de kaana,
pour assurer la cohérence grammaticale de la proposition. D’ailleurs, c’est pour cette raison
que ces verbes sont appelés verbes incomplets. Le χabar de kaana correspond littéralement à
l’information attribut du sujet (خ َبر َ )الet elle est un adjectif indéfini fléchi à l’accusatif. Il peut
être aussi une préposition, proposition au présent de l’indicatif. Il s’accorde en genre et en
nombre avec son sujet ()المبتدأ. La règle suivante résume cette relation :
(V)–attr→(ADJ) …(05)
Page
93
(V)PASSE DEF+(N)[Link]+NOM (PREP) DEF+(N)[Link]+GEN
Page
94
Introduction generale
Chapitre 4 Identification et
typage des entités nommées
Page
95
Introduction
Dans le but d’aborder la problématique d’extraction d’information un ensemble de
conférences a été initié en 1987 sous l’intitulé Message Understanding Coferences (MUC).
Ces conférences ont été financées par l’agence pour les projets de recherches avancées de
défense DARPA (Defense Advanced Research Projects Agency). Le but de ces conférences est
de rassembler le maximum d’efforts autour des problématiques d’extraction et de la
compréhension automatique des messages, et notamment dans le domaine militaire, et
d’évaluer les solutions proposées à travers l’organisation de compétitions entre les
participants autours d’un corpus d’entrainement et un autre de test.
Lors des deux premières conférences, à savoir MUC 1 et MUC 2, l’objectif était
d’explorer le terrain de recherche et d’aborder un certain nombre d’axes de recherche. Ces
conférences ont abouti à la définition des principales tâches à faire dans le cadre d’une
opération d’extraction. S’en suit trois autres conférences MUC 3, 4 et 5 qui ont mis l’accent
sur les différentes tâches définies lors des précédentes conférences. Ces conférences ont
contribué à un développement sophistiqué des différentes tâches d’analyse ce qui les a
rendues plus complexes et a créé ainsi la nécessité de fragmenter chacune de ces tâches en des
fonctionnalités indépendantes et plus maîtrisables. Les deux conférences MUC 6 et 7 ont
repris ce besoins d’affinement des tâches en fonctionnalités indépendantes ce qui a donné
naissance à de nouvelles tâches et à la transformation de certains modules impliqués dans le
processus d’extraction en modules indépendants d’analyse de textes, ce qui a amené à la tâche
de reconnaissance des entités nommées (Named Entities). Ces conférences, et notamment la
MUC 6, ont fait énormément de progrès au niveau du traitement de ce type d’entités avec des
performances et des taux de précisions assez élevés lors de l’évaluation. D’autres conférences
en parallèle autour de l’extraction des entités nommées ont eu lieu, comme la Multilingual
Entity Task (MET) qui a fait émerger des systèmes de reconnaissance d’entités nommées pour
l’espagnol, le japonais et le chinois.
Dans ce chapitre, nous nous intéressons au traitement des ENs en arabe. Un système
de détection et de typage d'ENs pour l'arabe a été développé. Ce chapitre est consacré à la
problématique de repérage et typage des entités nommées en arabe. La suite du chapitre est
organisée comme suit.
Nous commençons par présenter la typologie des entités nommées ainsi que les
principales applications qui utilisent les entités nommées dans les sections 4.1 et 4.2
respectivement. La section 4.3 est consacrée à exposer les particularités de la langue arabe
liée à la détection des entités nommées. La section 4.4 est dédiée à présenter un aperçu sur les
travaux réalisés sur les systèmes de reconnaissance des entités nommées en arabe. Notre
approche de détection et de typage des entités nommées est décrite dans la section 4.5. La
section 4.6 est consacrée a détailler la méthode de reconnaissance des noms propres
(ENAMEX) de type personne, lieu et organisation. Nous présentons dans la section 4.7 la
reconnaissance des expressions numériques (NUMEX).
Page
96
économiques, etc. Lors de la conférence MUC-6, l’extraction et la reconnaissance des entités
étaient focalisées sur les trois types d’entités suivants :
NAMEX : cette classe contient les noms propres qui peuvent être classé dans l’une
des catégories suivantes :
◦ Personnes : noms d’une personne comme جُون كنيديguwn kinydy ‘John Kennedy’
◦ Organisation : raison sociale d’une société, banques, associations, universités, etc.
à titre d’illustration nous citons يُونِي ْس ُكوyuwniskuw ‘Unesco’, etc.;
◦ Localisations : cette catégorie concerne les toponymes tels que les noms de pays,
villes, états, mers, océans, montagnes, fleuves, etc. Par exemple, ال َجزَ ائِرAljaza'ir
‘Algérie’, اريس ِ َ بbaâriys ‘Paris’, البَحْ ر اِلَبْيض ال ُمتَوسّطel bahr elaabyad elmutawassit
‘La mer méditerranée’.
NUMEX : contient les entités formalisées dans des expressions numériques de
pourcentage, taille, expressions monétaires, etc.
TIMEX : concerne les entités exprimant le temps, la date ou une durée.
Nous pouvons résumer cette classification dans le schéma suivant :
Entités nommées
4.2. Applications
L’utilisation de la reconnaissance des entités nommées diffère d’une application à une
autre : elle est parfois utilisée comme un module interne d’un outil de TAL servant à d’autres
modules, pour faire de l’analyse syntaxique ou de la désambigüisation lexicale par exemple ;
comme elle peut être utilisée comme une partie d’une chaîne de traitement avec une
application directe particulière. A titre d’illustration, voici quelques exemples d’applications
employant l’analyse des entités nommées :
Page
97
Recherche d’Information (RI): RI est la tâche qui consiste à identifier et récupérer les
documents pertinents depuis une base de données selon une requête utilisateur
(Benajiba et al., 2009). L’utilisation de l’identification des entités nommées dans la RI
doit être faite par la reconnaissance de l’EN au niveau de la requête et au niveau des
documents à renvoyer. Les entités nommées sont extrêmement discriminantes et leur
présence dans une question est gage de résultat précis.
Traduction Automatique (TA). TA est l’opération permettant de traduire
automatiquement un texte d’une langue naturelle source à une autre langue cible. Le
traitement des ENs est requis afin de faire une traduction correcte. Ainsi, la qualité de
la traduction des ENs devient une partie autonome qui améliore considérablement les
performances du système de TA. A titre indicatif, certaines entités nommées et des
mots possèdent la même forme orthographique mais ne jouent pas le même rôle dans
la phrase ce qui signifie que pour les mots une traduction intégrale du mot est requise
ce qui n’est pas le cas pour les ENs où seulement une translitération est nécessaire. Par
exemple, si nous voulons traduire le mot arabe ‘ ’خالدen Français, s’il s’agit d’un mot il
sera traduit en ‘éternel’ et s’il s’agit d’une EN il sera transcrit en ‘Khaled’. Nous
précisons que dans le cas où l’EN comprend un nom commun comme Mont Saint-
Michel, dans ce cas Mont est traduit alors que Saint-Michel est translittéré.
Analyse syntaxique. Cette analyse est une étape primordiale dans n’importe quelle
analyse de texte. Elle peut tirer profit de la reconnaissance des ENs (REN) à différents
niveaux de l’analyse, considérant ainsi cette reconnaissance comme un module dans la
chaine de traitement du texte. Au niveau de l’étiquetage morphosyntaxique et de la
segmentation la REN peut être utilisée pour identifier certaines entités complexes
contenant parfois des signes de ponctuation, ce qui entraîne un gain en temps et en
précision. Cette REN peut permettre aussi de diminuer les erreurs au niveau de
l’analyse syntaxique proprement dite, et notamment celles liées à la coordination des
entités. Enfin, les relations grammaticales (dépendances syntaxiques) peuvent être
enrichies en sémantique grâce aux ENs, par exemple dans la phrase ‘Ils se sont
rencontrés à Alger’, la détection de l’entité Alger permet de construire la
dépendance Localisation entre le verbe rencontrer et Alger à travers l’information
géographique qu’elle contient.
Page
98
4.3. Particularité de la langue arabe liée à la détection des entités
nommées
Les systèmes de reconnaissance des ENs en arabe sont confrontés à plusieurs chalenges.
La reconnaissance est d’autant plus difficile dans le cas de la langue arabe en raison de ses
particularités rendant l’identification des ENs plus difficile que pour les langues latines. Nous
décrivons ci-après, les principales caractéristiques menant à compliquer le traitement des ENs
et donnant un trait particulier pour les systèmes de REN pour l'arabe :
Absence des voyelles courtes et ambiguïté : les signes diacritiques ou ce que nous
appelons les voyelles courtes sont nécessaires pour la prononciation des mots en arabe.
L'arabe moderne est caractérisé par l'absence de ces signes diacritiques au sein des
textes ce qui est fréquent dans les articles de presse, livres, etc. Par conséquent une
forme de mot en arabe peut être voyellée de multiples façons, avec des significations
différentes en fonction du contexte où elle apparaît. Ce problème de la non-
vocalisation des textes peut engendrer un haut degré d'ambiguïté affectant les systèmes
de reconnaissance des entités nommées. En effet, les vocalisations acceptées pour une
forme d’un texte peuvent désigner des mots (déclencheurs) introduisant différents
types d'entités nommées. Par exemple, la forme non voyellée « »منظمةpeut avoir les
vocalisations suivantes avec des interprétations différentes :
« » ُمنَظَ َمةmunaDamat ‘l'organisation’ : mot déclencheur d'un nom d'organisation;
« » ُمنَظِّ َمةmunaDDimat ‘l'organisatrice’ : mot déclencheur d'un nom de personne.
Page
99
adjectif superlatif (le plus généreux). Par ailleurs, selon (Mesfar, 2008) il existe des
cas d'ambiguïté où l'entité nommée peut être confondue avec un nom composé ou un
fragment d'une phrase verbale. C’est le cas de la séquence «( »حافظ اِلسدhaâfiz al-asad)
qui peut donner lieu aux trois analyses suivantes :
Le nom d'une personne politique : ' 'الرئيس السوري حافظ اِلسدal-rayiys al-suwriy haâfiz
al-asad ‘le Président Syrien Hafedh Al-Asad’;
Un nom composé :' 'نطّف حافظ اِلسد القفصnazzafa haâfiz al-asad al-qafasa ‘Le gardien
du lion a nettoyé la cage’;
Un fragment d'une phrase verbale :' 'حافظ اِلسد على هيبتهhaâfaza al-asad 'ala haybatihi
‘Le lion a préservé sa dignité’.
Selon (MacDonald, 1996) la classification d’un nom propre fait émerger deux types de
preuves complémentaires : interne (internal evidence) et externe (external evidence). Ces
deux types découlent des exigences de la sensibilité au contexte et permettent de détecter une
entité nommée dans un texte.
Page
100
[Link]. Les preuves internes
Elles sont dérivées de l'intérieur de la séquence de mots qui contiennent l'entité
nommée. Ce sont des mots (ou groupe de mots) indices correspondant à des abréviations, des
prénoms ou des sigles, appelés des « marqueurs lexicaux» ou « mots déclencheurs ». Ces
indices accompagnent et entourent les entités nommées et permettent généralement de
provoquer leurs catégorisation et prédire leurs présences. Elles peuvent être définies et
contenues dans des listes appelées gazetteers.
Voici quelques exemples illustratifs de ce type de preuve interne :
(هدى سعدانHouda Sâadane)
محمدIII (Mohamed III)
(جبل عرفةle Mont Arafa)
(بنك سوسيته جنرالla Banque Société Génerale)
(شارع َلس فيغاسl'avenue de Las-Végas)
La preuve externe est nommée aussi contexte droit ou contexte gauche selon où elle se
trouve par rapport au nom propre dans le texte (à droite ou à gauche). Par exemple :
(مدينة باريسLa ville de Paris – à droite du nom propre)
(بوتفليقة الرئيس الجزائريBouteflika le président algérien – à gauche du nom propre)
De ce fait, les preuves externes se basent sur les relations syntaxiques au sein d'une phrase
pour attribuer la catégorie d'une telle entité. Cette catégorisation utilise les informations
morphosyntaxiques fournies par l'étape d'analyse morphologique. Elles sont nécessaires pour
de haute précision pour remédier au fait que les listes des mots prédéfinis ne peuvent jamais
être complètes.
Page
101
l’approche hybride. Ces approches apportent des explications supplémentaires sur les
systèmes de reconnaissance des entités nommées. Dans la suite de cette section nous passons
en revue les différents systèmes ainsi que les principaux travaux réalisés pour la
reconnaissance des entités nommées en arabe.
Les premiers travaux sur la reconnaissance des ENs en arabe selon l’approche à base
de règles, datent de 1998 où (Maloney et Niv, 1998) ont développé un outil baptisé
'TAGARAB' qui repère les noms propres (Personne, Organisation, Lieu, Nombre et Heure)
selon une technique combinant un module filtrage par motif (pattern-matching) avec un
analyseur morphologique pour améliorer les performances. Les résultats des tests de cet outil
sur un ensemble de données aléatoires, issues du journal AI-Hayat, montrent que la
combinaison de la détection des ENs avec un analyseur morphologique permet d’améliorer
significativement la précision de la reconnaissance des ENs.
(Abuleil, 2004) a développé de son côté un système d'extraction des noms propres en
arabe fondé sur l'utilisation de règles écrites à la main et les déclencheurs. Le système
commence par sélectionner les phrases qui peuvent inclure des noms propres, ensuite il
construit des graphes qui représentent les mots de ces phrases et les relations entre eux et,
enfin, les règles sont appliquées pour repérer et classer les noms propres avant de les
enregistrer dans une base de données. Cette base de données peut servir au sein de systèmes
de questions-réponses par exemple. Le système d’Abuleil a été évalué sur un corpus de 500
articles de presse du journal Alraya donnant lieux à une précision moyenne avoisinant les
92%.
(Traboulsi, 2006) a présenté un modèle de reconnaissance des entités nommées, appelé
NExtract, utilisant la grammaire locale et les dictionnaires. Il a montré des résultats
satisfaisant de l’application de son outil sur une petite échelle avec le corpus Reuters. Cette
approche a été améliorée dans (Traboulsi, 2009) en combinant cette fois-ci la grammaire
locale avec des automates à état finis.
Les travaux de (Mesfar, 2007) ont permis la mise au point d’une composante arabe
sous un environnement linguistique, dénoté NooJ, pour traiter des textes arabes et faire la
reconnaissance des ENs. Cette composante effectue les traitements suivants : la tokenisation,
l'analyse morphologique et la détection des ENs. Le détecteur des ENs exploite un ensemble
de gazetteers et de listes d'indicateurs pour soutenir la construction de règles. Le système
identifie les ENs de type: personne, lieu, organisation et expressions temporelles. Il utilise
également les informations morphologiques pour extraire les noms propres inconnus et
améliorer ainsi la performance globale du système.
L'approche à base de règles pour la REN est aussi adoptée dans les travaux de
Page
102
(Shaalan et Raza, 2007) qui ont développé le système PERA. PERA est basé sur la grammaire
qui est construite pour identifier les noms de personnes dans les textes arabe avec un degré
élevé de précision. PERA est composé de trois éléments: des gazetteers, des grammaires
locales et le mécanisme de filtration. Les listes blanches de noms de personne sont fournies
dans le composant 'gazetteer' afin d'en extraire les noms correspondants indépendamment des
grammaires. Par la suite, le texte d'entrée est analysé par la grammaire donnant des
expressions régulières pour identifier le reste des entités nommées de type Personne. Enfin, le
mécanisme de filtrage est appliqué sur les ENs détectées par des règles grammaticales afin
d'exclure celles qui sont invalides. PERA a donné des résultats satisfaisants lorsqu'il était
appliqué sur les corpus ACE et Treebank.
Le système NERA (Shaalan et Raza, 2008; 2009) est une prolongation des travaux
précédents permettant de reconnaître d’avantage de types d’ENs. Il est aussi fondé sur des
règles et capable de reconnaître 10 types différents d’ENs : personne, localisation,
organisation, date, heure, ISBN, prix, mesure, numéros de téléphone et les noms de fichiers.
NERA a été mis en œuvre dans le cadre de la plateforme FAST ESP où le système comprend,
comme PERA, trois composants ayant les mêmes fonctionnalités pour couvrir les 10 types
d'ENs. De plus, les auteurs ont construit leur propre corpus de différentes ressources afin de
disposer d'un nombre représentatif de cas pour chaque type d’EN.
(Elsebai et al., 2009) ont proposé un système de REN intégrant le filtrage par motif (en
anglais pattern matching) associé avec l'analyse morphologique afin d’extraire les noms de
personne à partir des textes arabes. Le moteur de filtrage par motif utilise des listes de mots-
clés sans utiliser pour autant des listes prédéfinies de noms de personnes.
Les systèmes à base de règles ont été aussi investigués dans les travaux de (Zaghouani,
2012) qui a proposé le système RENAR pour extraire les entités nommées de type : personne,
lieu et organisation. RENAR est composé de trois phases: 1) prétraitement morphologique, 2)
la recherche des ENs connues et 3) l'utilisation de la grammaire locale pour extraire les ENs
inconnues. Les expérimentations ont montré que RENAR dépasse les performances de
ANERsys 1.0 (Benajiba et al., 2007), ANERsys 2.0 (Benajiba et Rosso, 2007) et LingPipe7
pour l'extraction des entités nommées de type Lieu lorsqu'il est appliqué sur l' ensemble de
données du corpus ANERcorp, tandis que LingPipe donne de meilleurs résultats que RENAR
lorsqu’il s’agit de l'extraction des ENs de type personne et organisation.
(Benajiba et al ., 2007) ont mis au point une première version d’un système de
7
LingPipe est un logiciel libre disponible sur [Link]
Page
103
reconnaissance des ENs pour l'arabe, appelé ANERsys. Ce système est basé sur une méthode
d'apprentissage statistique qui utilise un étiquetage fondé sur le maximum d'entropie (ME).
Les auteurs ont construit leurs propres ressources linguistiques qu’ils ont nommé ANERcorp
(corpus annoté) et ANERgazet (gazetteers). Le système utilise des traits lexicaux et
contextuels ainsi que des gazetteers. Il peut reconnaître quatre types d’ENs : personne, lieu,
organisation et divers. L'apprentissage automatique embarqué dans ANERsys a été effectué
sur un corpus de 125 000 mots. Dans le but d'améliorer les performances du système,
l’approche adoptée a été combinée à un lexique qui a été construit manuellement à partir de
plusieurs sites de nouvelles en ligne. Le lexique considéré comprend 1950 noms de lieux,
1920 noms de personnes et 262 noms d'organisations.
Cependant, cette version d’ANERsys présente des difficultés pour détecter les entités
nommées qui sont composées de plus d'un token. Pour résoudre ces difficultés, (Benajiba et
Rosso, 2007) ont développé une nouvelle version ANERsys 2.0, qui utilise un mécanisme de
prédiction pour la reconnaissance des ENs. Ce mécanisme est effectué en deux étapes : 1) la
détection des frontières (point du début et de la fin) de chaque EN en introduisant des
catégories morphosyntaxiques (POS), et 2) classification des entités nommées détectées en
précisant leurs types. (Benajiba et Rosso, 2008) ont introduit dans ANERsys l’application du
CRF à la place de EM afin d’améliorer les performances. Ce nouveau système basé sur les
CRF a permis d'explorer l'intégration de l'ensemble des traits dans un modèle unique et qui
mène à des résultats plus élevés en termes de précision.
Un autre système basé sur les CRF a été proposé dans (Abdul-Hamid et Darwish,
2010) pour la reconnaissance de trois types d’ENs : personne, lieu et organisation. Il intègre
un ensemble de traits intra-mots : n-grammes, la position des mots, la longueur des mots, la
probabilité de uni-gramme des mots, les mots précédant et succédant les n-grammes et la
probabilité des n-grammes. Cependant, le système ne tient pas compte de tout autre type de
traits. Le système proposé a été évalué à l'aide des corpus ANERcorp et ACE 2005. Les
résultats obtenus montrent que le système présente des précisions plus importantes que le
système de reconnaissance des entités nommées basée sur les CRF proposé par (Benajiba et
Rosso, 2008).
L’utilisation des SVM (Support Vector Machines) pour la reconnaissance des ENs a
été proposé dans (Benajiba et al., 2008a). Le système proposé emploie des traits contextuels,
lexicaux et morphologiques ainsi que des gazetteers, POS-tags et BPC. Il utilise également la
nationalité et la capitalisation correspondante en anglais. Le système a été évalué en utilisant
le corpus ACE et ANERcorp. Les meilleurs résultats sont obtenus lorsque tous les traits sont
pris en considération, et met en avant l'efficacité d'un prétraitement des textes pour segmenter
les différentes constituants d'un mot (proclitiques, lemmes et enclitiques).
Une autre approche combinant les deux méthodes d'apprentissage SVM et CRF a été
proposée dans (Benajiba et al., 2008b). En outre, le système utilise des traits lexicaux,
syntaxiques et morphologiques et une approche multi-classificateur où chaque classificateur
est conçu pour marquer une classe d’EN séparément en utilisant une des techniques SVM ou
CRF. Ce système a aussi été utilisé pour étudier la sensibilité des différents types d'EN par
rapport à plusieurs types de caractéristiques. L’évaluation de cette approche a été faite sur des
ensembles de données du corpus ACE et a obtenu une F-mesure de 83,5%. Un des principaux
résultats obtenus est le fait que nous ne pouvons pas trancher sur la supériorité d’une
technique sur une autre parmi celle utilisée (SVM et CRF) en matière de reconnaissance des
ENs. D'autres études, en l’occurrence (Benajiba et al, 2009a; 2009b) ont confirmé ainsi
Page
104
l'importance de tenir compte des caractéristiques spécifiques de la langue en arabe pour la
reconnaissance des ENs.
Une autre étude comparative des techniques d’apprentissage type Machine Learning
(ML) a été présentée dans les travaux de thèse de (Benajiba, 2009). Cette étude concerne la
reconnaissance des ENs en arabe et compare les approches telles que l'entropie maximale
(EM), Support Vector Machines (SVM) et Conditional Random Fields (CRF) en utilisant le
système ANERsys. Cette étude a conclu qu'aucune approche ML n’est considérée comme
meilleur que l'autre et que les meilleurs résultats ont été obtenus quand il a utilisé une
approche multi-classificateur où chaque classificateur utilise la meilleure technique de ML
pour la classe d'entité nommée spécifique.
Quant aux travaux de (AbdelRahman et al., 2010), ils ont intégré deux approches de
systèmes statistiques pour traiter les ENs arabe incluant le CRF et la reconnaissance des
formes d'amorçage. L’ensemble des caractéristiques utilisées avec le classificateur CRF inclut
des spécificités au niveau des mots, des POS tag, des BPC, les gazetteers et des
caractéristiques morphologiques. Le système est conçu pour extraire les 10 types d’EN :
personne, lieu, organisation, le travail, dispositif, voiture, numéro de téléphone portable,
devise, la date et l'heure. Les résultats des évaluations sur les données du corpus ANERcorp
montrent que le système proposé présente des performances meilleures que celle obtenues par
le système LingPipe.
L'approche hybride consiste à combiner les techniques des systèmes à base de règles et
les techniques des systèmes statistiques. Cette combinaison a pour objectif de tirer profit des
avantages des techniques présentées dessus et d'optimiser la performance globale du système
(Petasis et al., 2001). Ces systèmes ont pour but l'enrichissement automatique des dictionnaires
avec des corpus beaucoup plus petits que ceux dont ont besoin les systèmes statistiques. La
direction du flux de traitements peut être du système à base de règles vers le système statistique
ou vice versa. Nous considérons trois systèmes hybrides pour la reconnaissance des entités
nommées mis au point récemment.
Le premier est développé par (Abdallah et al., 2012) offrant la capacité d'identifier les
entités nommées de types suivants : personne, lieu et organisation. Ce système comporte deux
composants : le premier est à base de règles qui est une ré-implémentation du système de
NERA (Shaalan et Raza, 2008) utilisant l'outil GATE, le deuxième est une composante-ML
utilisant des arbres de décision pour construire le classificateur des entités nommées. Chaque
token est représenté par un vecteur de caractéristiques incluant les décisions issues des règles
sous forme de propriétés. Les autres caractéristiques prise en compte sont : la taille du mot,
POS tag, indice du nom (une fonction binaire utilisée pour tester si un POS tag est un nom ou
pas), les gazetteers, marqueur de fin de proposition, les propriétés de préfixe et suffixe. Les
résultats expérimentaux, en utilisant les données du corpus ANERcorp, montrent que le
système hybride présente des performances meilleures que le système de reconnaissance des
ENs basé sur les CRF et construit par (Benajiba et Rosso, 2008).
Page
105
heure, prix, pourcentage, numéro de téléphone, mesure, ISBN et le nom d’un fichier avec un
degré de précision assez élevé. Ce système utilise trois approches statistiques différentes,
incluant les arbres de décision selon (Orphanos et al., 1999), SVM introduite dans (Vapnik,
1995) et la régression logistique présentée dans (Hastie et al., 2009). Ces approches
s’appuient sur différents caractéristiques, incluant l'information contextuelle et
morphologique, utilisées pour former différentes combinaisons afin de trouver les ensembles
de traits avec des performances optimales.
Une représentation BIO (Begin, Inside, Outside) est utilisée pour limiter les frontières
d'EN et le modèle développé prédit à chaque position une des dix balises différentes. Le
système est capable de segmenter le texte, repérer les ENs et proposer des traductions de ces
EN à partir de dictionnaires bilingues. Les expériences ont été réalisées sur le corpus ANER
(benajiba et al., 2007). Une adaptation non supervisée de NERAr a été également explorée
afin d'adapter l'outil de détection des ENs au type de données traitées.
À l'instar des autres systèmes de repérage des ENs à base de règles mentionnés
précédemment, l'extraction et le typage des ENs avec notre système est fondée principalement
sur un lexique, sous forme de dictionnaires, et sur un ensemble de règles de repérage, sous
forme d'expressions régulières faites à la main. En plus de ces opérations conventionnelles,
notre système effectue une analyse syntaxique supplémentaire afin de regrouper les éléments
qui composent l’EN et à typer celle-ci. Cette étape exploite les relations syntaxiques de
dépendance et sur les ENs simple typées. Elle implique les opérations suivantes :
l'attachement et l'étiquetage. Nous rappelons que l’attachement concerne la détermination si
deux mots (ou entités nommées) sont connectés directement ou pas, en d’autre termes, c’est
l’identification d’un lien direct de dépendance syntaxique entre deux mots de la phrase par la
mise en avant d’une relation syntaxique entre la tête (gouverneur) et le mot dépendant (régie).
Quant à l’étiquetage, il consiste à regrouper les dépendants syntaxiques et annoter la relation
identifiée par un nom référant à une famille (ou type) de constructions syntaxiques d’une
langue donnée.
Page
106
Tokenization
Un mot du texte
Informations linguistiques
associées à la forme reconnue
Analyseur syntaxique
Le système commence par une phase classique de saisie du texte à analyser qui est introduit
sous une forme brute. Le texte introduit subit ensuite les traitements suivants :
une tokenization du texte
une segmentation des formes agglutinée en morphèmes
la désambiguïsation
à un étiquetage morphosyntaxique.
Ces différentes opérations forment l’analyse morphologique que reçoit le texte en entrée,
et renvoient en sortie des formes canoniques segmentées, à travers l’identification des
proclitiques et des enclitiques rattachés à ces formes et ainsi que la forme normalisée de
chaque mot du texte : par exemple les verbes sont normalisés dans leur forme à l'infinitif, les
noms au singulier, les adjectifs au masculin singulier, etc. Ces formes sont fournies avec
version étiquetée. L'étiquetage a pour objectif de produire les catégories grammaticales d'un
mot ou d'un groupe de mots dans une phrase donnée (noms, verbes, conjonctions) en plus des
informations morphologiques (genre, nombre, personne) associé à cette forme.
Page
107
Ensuite, les formes produites par analyse morphologique passent dans notre système
d'analyse syntaxique. Les automates syntaxiques établissent des relations syntaxiques de
dépendance typées entre les mots, en s'appuyant surtout sur leurs catégories et sur leurs
propriétés. En ce qui concerne, les entités nommées, ils mettent en évidence les liens entre les
mots au sein des groupes nominaux, permettant ensuite d'identifier une entité nommée, même
lorsque son annonceur est éloigné du nom propre. Nous avons spécifié quelques types de
relations afin de mieux repérer les entités nommées. Par exemple :
PrenomNP : elle désigne les relations entre un prénom et un nom de personne, avec la
tête le nom de famille et le prénom étant le dépendant de la relation.
هُدَى َس ْعدَان
Houda Sâadane
(Prenom) (NP)
AnnpNP entre un annonceur et un prénom ou un nom propre, comme une tête le nom
propre seulement s'il s'agit d'un nom de personne dans les autres cas c'est l'annonceur
qui est considéré comme la tête.
ُ َ ُ(ال ُد ْكتle docteur Houda)
ورة هدَى
al+dukturat+u Houda
DEF+(annp)+NOM (Prenom)
AnnpAdj désigne les relations entre un annonceur et un adjectif, comme une tête
l'annonceur et l'adjectif est le dépendant de la relation syntaxique.
ُّ( ال َّرئِيسُ ال َج َزائِ ِريle président algérien)
al+ra'iss+u al+jazaA'iriyy+u
DEF+(annp)+NOM DEF+(ADJ)+NOM
AnnpRelNom (complément de nom) désigne une relation entre un annonceur et un
nom (complément d'un nom), par exemple :
(وزي ُر الدول ِةle ministre d’état)
waziir+u –compN → al+dawlat+i
(annp)+NOM DEF+(N)+GEN
Outre les informations morphosyntaxiques associées aux formes obtenues et aux relations
syntaxiques détectées, notre système, à l’instar des autres systèmes de REN à base de règles,
exploite deux types de ressources linguistiques :
Page
108
réparties dans des dictionnaires appropriés à ces catégories. Parmi ces dictionnaires,
nous citons :
d. Noms de personnes : contient les prénoms arabes et prénoms étrangers transcrits;
e. Noms de lieux : stocke les noms de pays, villes, états, mers, océans, fleuves, etc.
f. Nom d'organisation : mémorise les noms d'organisations, d’associations
internationales, d’universités, de télévisions, etc.
g. Expressions monétaires : dédié aux noms de monnaies et leurs subdivisions;
h. Expressions temporelles : contient les noms de jour, plusieurs listes de noms de
mois, etc.
Les règles : ce sont des règles écrites manuellement et décrites par des expressions
régulières (Regular Expression). Elles sont utilisées pour la détection des ENs en se
basant sur les marqueurs, déclencheurs et annonceurs, provenant des Gazetteers pour
retourner en sortie des informations linguistiques comme le type de l'entité nommées
identifiée (nom de personne, lieu, etc.) Permettre ensuite le typage des ENs et elles
permettent aussi l'identification des bornes (dites aussi frontières) des ENs complexes.
Ces règles regroupent aussi l'ensemble des éléments d'une même entité nommée,
permettant de représenter des séquences de mots formant une EN.
La phase finale consiste à regrouper les éléments qui composent l'EN et à typer celle-ci.
Cette étape repose sur l'exploitation des relations syntaxiques de dépendance typées au sein
des syntagmes nominaux lors de l'analyse syntaxique et sur les ENs simple typées lors de la
reconnaissance des entités nommées. Dans un premier temps, un automate repère un nom
propre ou un annonceur dans la phrase donnée. Un autre automate parcourt toutes les relations
qui ont comme tête ce nom propre ou cet annonceur en prenant en compte les types des
relations syntaxiques et la position du nom propre ou de l'annonceur dans celle-ci. Nous les
récupérons jusqu'à rencontrer un nom propre, un annonceur, ou bien une frontière de groupe
nominal. Il convient de signaler que certains types de relations ne peuvent pas faire partie
d'une entité nommée, comme les relations identifiées entre un sujet et un verbe.
Nous notons que l’ordre d’application de ces règles est très important afin de bien repérer
les ENs simples ou complexes. Notre stratégie de repérage se base sur l’application d’abord
des règles concernant les entités les plus longues et plus complexes, ensuite l’application de
celles concernant les entités simples. Cette stratégie est motivée par le fait de détecter les ENs
complexes en premier nous évite les cas de repérage partiel de ces ENs. L’ordre d’application
concerne aussi le type des entités : par exemple nous détectons en premier les ENs de type
personnes qui figurent déjà dans le dictionnaire de noms et de prénoms. Ce choix
d’application est due au fait que trouver en même temps le nom et le prénom d'une personne
dans le dictionnaire, nous donne la certitude que l'EN en question est bien détectée. Il y a
aussi le problème de chevauchement de règles entre les règles des noms de personnes et celui
des organisations qui justifie aussi notre approche d’application des règles. Enfin nous
signalons que pour l’identification des entités de type numérique et temporel, nous les
repérons dans une étape ultérieure séparée pour des raisons techniques liées à notre système
de détection des ENs.
Page
109
[Link]. Structure des noms de personnes :
On sait à cet égard que le nom d’une personne contient plusieurs éléments en arabe. Il est
constitué en principe de six composants principaux (Zaghouani, 2009; Saâdane et al., 2012):
La « Sifa » (titre) : il s'agit d'un titre honorifique, par exemple Imam ()إمام,
Sheikh,()الشيخ, Lalla ()َللة, Sidi ( )سيديetc..
La « Kunya » (particule d’usage) : généralement composée de « Abou » (père de…),
suivi du nom d’un enfant ou bien de « Oum » (mère de + nom d’un enfant de la
famille). Exemple : « Abou Omar » (Père d’Omar), «Oum Mohamed» (Mère de
Mohamed), etc.
Le « Ism » (Prénom) : il peut être simple ou composé, par exemple, Omar, Ali,
Mohamed, Khaled, Abd allah, etc. Il indique parfois l’origine ethnique ou
confessionnelle de celui qui le porte : par exemple, « Omar » est un prénom
typiquement sunnite ; « Rustam » est un prénom typiquement iranien ; « Arslan » est
typiquement turc, etc.
Le « Nasab » (particule généalogique) : chaque nom est précédé par « Ibn » ou
«Bin/Ben» («Bint/Bent» pour les femmes). Il indique la filiation généalogique exacte
de l’individu concerné. Les Arabes remontent parfois très loin dans l’indication des
ancêtres pour éviter les confusions entre personnes : ex. Muhammad Bin Abdallah Bin
Salih Bin Said, etc.
La « Nisba » (suffixe d’origine) : ce suffixe renvoie en principe à la tribu ou au clan
dans la généalogie ancienne mais aujourd’hui, il désigne surtout le lieu de naissance
des individus : Maghribi (né au Maroc), Libi (né en Libye), Masri (né en Égypte), etc.
La « Nisba » est toujours précédée de l’article « Al-» et se termine par le suffixe « i ».
Elle indique la résidence territoriale initiale des personnes, ou encore leur nationalité.
Il existe des règles de formation de la Nisba qui sont plus complexes comme dans le cas
où les noms communs composés de deux ou trois lettres. Prenons les exemples suivants :
▪ Le nom commun حيHay ‘vivant’ se transforme en la Nisba الحيويHayawi ‘le
vivant’.
▪ Le nom propre '(عليalyi) se transforme en la Nisba العلويAl-alawiy ‘celui qui
appartient à la secte des Alaouites’, avec l'ajout de la lettre Iwl et la voyelle courte
Ii/.
Le « Laqab » (nom de famille) : C’est un mot attribué à une famille pour la distinguer
parmi les autres familles. Dans la langue arabe, le Laqab réfère généralement, en plus
du nom de famille, à une classe sociale ou simplement à une description physique ou
morale d'une famille donnée. Par exemple le nom de famille اِلكحلAl-akHal qui veut
dire ‘le noir’ ou حافي راسوHAfi-Rassou qui signifie ‘celui qui est le crâne rasé’.
Page
110
autant permettre la délimitation ou la catégorisation de l’EN.
Outre les entrées simple, ce dictionnaire contient aussi les formes composées telles que :
نُور الدِّين `نُور الدِّين+prenom'`+m'
َعبْد الرَّح َمن ` َعبْد الرَّح َمن+prenom'`+m'
Pour la reconnaissance des compositions de prénoms, souvent présentes dans les prénoms
arabes introduits par les éléments lexicaux tels que (ibn – le fils de), (bin – le fils de), etc.,
nous avons construit une règle qui identifie la particule (ibn, bin, etc.) suivi par le prénom afin
d'extraire l'EN.
En ce qui concerne les annonceurs nous avons construit une liste de mots utilisés pour le
repérage des noms de personnes tels que les noms de professions, les titres, etc. Ces listes sont
utilisées pour la reconnaissance des noms de personnes ainsi que la catégorisation de celles-ci.
Cette liste des mots déclencheurs a été créée manuellement sur la base de nos connaissances
linguistiques et de nos observations faites sur des corpus. Par exemple, la présence d'une
mention à une fonction politique tel que الواليAl-walyi ‘le préfet’ avant un nom de personne
nous confirme la présence d'un syntagme nominal désignant un nom de personne même en
cas d'omission ou d’absence de son prénom qui lui correspond dans le dictionnaire des
prénoms.
La détection des noms de personnes a nécessité le plus grand nombre de règles à écrire
par rapport aux autres types d’EN. La raison de cette complexité est principalement due aux
8
Téléchargeable depuis le site : [Link]
9 [Link]
10
[Link]
Page
111
nombreuses possibilités de combinaisons entre les différents annonceurs et déclencheurs. Les
règles écrites décrivent aussi bien les contextes potentiels de droite que de gauche.
Les règles de détection exploitent aussi le dictionnaire des adjectifs de nationalité utilisés
dans des expressions telles que الرئيس الجزائري عبد العزيز بوتفليقةAlra’iys Al-gazaâ’iriy 'abd al-
'aziyz buwtafliqah ‘le président algérien Abdelaziz Bouteflika’. Une nationalité isolée, se
trouvant sans un prénom ou un nom propre, ne peut pas être utilisée pour identifier un nom
propre.
Une étude effectuée par (Mesfar, 2008) sur les articles journalistiques du journal (Le
Monde Diplomatique), a remonté les statistiques suivantes au sujet des noms de personnes
comme suit :
1. 70% des noms de personnes sont accompagnés d'un contexte droit ou gauche, sous
forme interne ou externe, contenant une civilité, un titre, un nom de profession ou un
gentilé.
L'entité nommée est accompagnée d'un contexte droit uniquement : cette situation
représente 60% des cas.
L'entité nommée est accompagnée d'un contexte gauche uniquement : à titre
d'exemple : ‘معمر القذافي؛ الزعيم الليبيMu'amar ghadhaffi; le leader libyen’.
L'entité nommée est accompagnée d'un contexte droit et un contexte gauche
2. 18% des noms de personnes n'ayant pas de contextes descriptibles contiennent un
annonceur apporté par un prénom appartenant aux dictionnaires
3. 11% des noms de personnes sont sans contexte. Ces noms sont principalement ceux de
personnes déjà citées dans le texte ou ceux de personnes très connues pour lesquels
l'auteur du texte estime qu'il n'est pas nécessaire de préciser ni le prénom, ni le titre, ni
la profession tel est le cas pour Picasso ou Mozart.
Nous illustrons dans ce qui suit quelques exemples de règles d’extraction des noms de
personnes. Ces illustrations sont faites en utilisant les expressions régulières pour faciliter la
lecture et la compréhension des règles.
Page
112
éléments liés avec l’annonceur sont parcourus après par l’automate jusqu'à ce qu'il
trouve un nom propre (dans ce cas, il s'agit d'une EN), ou bien qu'il n'y ait plus de
relation. L’analyse syntaxique de la phrase citée donne le schéma de la figure (4.3).
Les relations détectées sont
AnnpAdj : désigne la relation modificative entre l’annonceur ( الرئيس- le
président) et l’adjectif ( الجزائري- algérien), tout en considérant l’annonceur
comme la tête de la relation syntaxique et l’adjectif étant le dépendant.
PrenomNP : relation entre le prénom ( عبد العزيزAbdAziz) et le NP بوتفليقة
(Bouteflika) avec le NP comme tête de la relation
AnnpNP : désigne la relation syntaxique qui relie l'annonceur (président) avec
le NP (Bouteflika) avec comme tête le nom Bouteflika
AnnpNP
PrenomNP AnnpAdj
+prénom +adj+nat
Figure 4. 3. Analyse syntaxique de la phrase الرئيس الجزائري عبد العزيز بوتفليقة
Page
113
Figure 4. 4. Les résultats d’application de règle d’extraction sur la phrase
الرئيس الجزائري عبد العزيز بوتفليقة
Page
114
4.6.2. Identification des lieux
Pour la reconnaissance des noms de lieu, nous suivons la même stratégie que celle utilisée
pour les noms de personnes. Tout d'abord, nous commençons par recueillir la liste des preuves
internes (noms de lieux) en se basant sur les mêmes ressources déjà mentionnées. Nous
notons que les ressources concernant les lieux géographiques dans le monde sont plutôt stables
et généralement il convient de construire une liste des noms de lieux les plus connus, comme les
noms de pays et ceux des principales villes dans le monde. Dans notre dictionnaire nous avons
considéré en plus des noms de pays et de villes les noms de montagnes, de rivières, etc. En plus
de cette liste de lieux, nous avons ajouté la liste de gentilés déjà utilisée pour la
reconnaissance des noms de personnes. Voici quelques exemples de lieux issus de notre
dictionnaire :
Ensuite, nous avons énuméré une liste de 85 annonceurs de lieux (mots déclencheurs)
comme : دَوْ لَةdawlat ‘pays’, َم ِدينَةmadiynat ‘ville’, َارع
ِ شšaAri' ‘Avenue’, َسا َحةsaHat ‘Place’,
نَهْرnahr ‘fleuve’, َجبَلjabal ‘mont’, etc. Ces marqueurs lexicaux sont utilisés comme des
éléments dans les règles de reconnaissance.
Les noms de lieux avec preuve interne uniquement : tels que : فَ َر ْن َساfaransa ‘France’.
Les noms de lieux avec preuve externe : tels que : َم ِدينَة َو ْه َران ال َج َزائِ ِريَّةmadiynat
wahran al-jaza'iriya ‘la ville algérienne d'Oran’, République Démocratique de Congo.
Les noms de lieux accompagnés d'un point cardinal : tel que : جنوب شرق آسياjanuwb
šarq AsyaA ‘Sud-Est de l’Asie’.
Les noms de lieux accompagnés de noms de personnes : tels que : حي فضيلة سعدانHay
FaDiylah SaadaAn ‘Cité de Fadhela Saâdane’, شارع محمد البوعزيزيšaAri’ MuHamad
al-bu3ziyziy ‘Avenue Mohamed Bouazizi’.
Les noms de lieux accompagnés de dates 532. ماي7 حة َ َساsaHat 8 mai 1945 ‘Place du
8 mai 1945’.
L’utilisation de ces noms d’organisation peut être avec ou sans annonceur. Ceci
entraîne une alternance entre l'usage d'une forme longue et d'une forme courte de son
Page
115
nom. Par exemple (mwunaZamat aalaaumam al muttahidal « Organisation des Nations
Unies» qui est une forme longue, peut exister dans un autre texte avec une forme plus
courte comme /alaaumam aalmuttahidal « les Nations Unies ».
La structure des noms d'organisation en arabe, à l'instar des autres langues, peut être
simple (contenant un seul mot) ou complexe (contenant deux mots ou plus).
Les noms d’organisation en arabe peuvent combiner dans leur structure des mots
arabes avec des mots en provenance d’autres langues (essentiellement du français ou
de l’anglais). C’est le cas du nom de l’organisation رأس الخيمة سيراميكسRaas aal khay-
mat siramyiks.
Dans le tableau suivant, (Zaghouani, 2009) a résumé des cas d'utilisation des noms
d’organisations dans les textes arabes.
L'identification des noms d'organisations, des compagnies et des noms des gouvernements
commence par l'élaboration d'un dictionnaire contenant environ 1000 noms d'organisations
telles que سوناطراكsounaAtraAk ‘Sonatrach’ ou جامعة الدول العربيةjaAmi’at al-duwal al-
‘arabiya ‘Organisation des Nations Unies’. Ces noms sont reconnaissables par le bais de
l'étiquette <NP+ORG>. La forme des références contenues dans notre dictionnaire sont
comme suit :
رويترز `رويترز+np'`+org'
سي5بي5بي سي5بي5`بي+np'`+org'
La seconde étape consiste à recenser une liste de déclencheurs (au nombre de 48). Parmi
ces déclencheurs nous citons : منظمةmunaDamat ‘organisation’, مؤسسةmuwassassat
Page
116
‘compagnie’, شركةšarikat ‘société’, جمعيةjam'iyyat ‘association’, etc. Ces déclencheurs sont
utilisés pour la description des règles de reconnaissance. Parmi les cas identifiés par ces règles
nous citons :
les noms d'organisations avec une preuve externe simple tel que : شركة ألستومšarikat
Alstom ‘La compagnie Alstom’;
Les noms d'établissement institutionnels (école, universités, instituts, facultés, etc.), tel
que : كلية الطبkulliyyat aT-Tibb ‘Faculté de Médecine’ ;
les noms de ministères et d'organisations internationales tel que : المنظمة العالمية للصحةal-
MunaDDamat al-‘aAlamiyyat lil-Sihat ‘Organisation Mondiale de la Santé’;
Les noms d'organisations accompagnés d'un nom de personne tel que : جامعة باجي مختار
jaAmi’at Baajiy Mokhtar ‘Université de Badji Mokhtrar’ ;
Les noms d'organisations accompagnés d'un nom de lieu tels quelconque comme dans
: اريس
ِ َ َجا ِم َعة بJaAmi'at baAriys ‘Université de Paris’ ;
Les noms d'organisations accompagnés d'un sigle tel que : آس5آر5آن5 مركز سيmarkaz al-
[Link] ‘le centre C.N.R.C : Centre National de la Recherche Nationale’.
Les textes arabes sont caractérisés par l’utilisation de deux systèmes d’écriture des
nombres : les chiffres arabes et les chiffres indiens. Dans les pays d'Afrique du Nord les
chiffres arabes sont utilisés contrairement au pays arabes du Moyen-Orient en plus de l'Égypte
et de l'Arabie Saoudite qui utilisent majoritairement les chiffres indiens. Toutefois quel que
soit le système de chiffres, ces derniers s'écrivent de gauche à droite et se lisent de droite à
gauche. Cette particularité doit être prise en compte lors des traitements automatiques de
l’arabe sinon nous risquons d’avoir des difficultés lors de la construction des règles.
Une autre forme de transcription des nombres en arabe consiste à les écrire en lettres et
non pas en utilisant les systèmes décrits ci-dessus. Cette utilisation des lettres pour écrire les
nombres complique leur identification. Les règles définies dans cette section traitent ce
deuxième cas du moment que l’identification des nombres écrits dans les systèmes des
chiffres est très simple. Les règles définies permettent d’identifier d’abord ces chiffres écrits
en lettres et déterminer leur valeur correspondante. Par exemple le chiffre transcrit ‘ مائتان وسبعة
’وثَلثينmaA'ataAn wa-sab'atun wa-thalaAthyn correspond au nombre ayant la valeur 237.
La reconnaissance des cardinaux écrits en toutes lettres est basée sur un lexique
résumé dans le tableau suivant :
Page
117
Chiffre écrit en lettres Valeur
ص ْفرِ , احد َ إِ ْثنَان, ثَ َالثَة, أَ ْربَ َعة, سة
ِ و, َ ستَّة
َ خ ْم, َ , ثَ َمانِيَة, س َعة
ِ , س ْب َعة ْ ِت 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
َعش ََرة, ش ُرون ُ َ َ
ْ ِع, ثالثون, أ ْربَ ُعون, سون َ َ
ُ خ ْم, ستُّون, ِ س ْب ُعون َ , ثَ َمانُون, 10, 20, 30, 40, 50, 60, 70, 80, 90
س ُعون ْ ِت
َمائَة, َمائَتَان, ثَ َالثَ َمائَة, … 100, 200, 300, ….
أَ ْلف, ِم ْليُون, ِم ْليَار, َب ْليُون 1000, 1000000, 1000000000,
1012
Ce lexique est stocké dans le dictionnaire utilisé par les règles qui contient en plus toutes
les formes fléchies de ces nombres. A titre exemple, le cardinal اثنانithnaAni ‘deux’) est
représenté en إِ ْثنَانithnaAni ‘deux, au nominatif,’ masculin, إِ ْثنَتَانithnataAni ‘deux, au
nominatif, féminin’, إِ ْثنَيْنithnayni ‘deux, accusatif, masculin’ et إِ ْثنَتَيْنithnatayni ‘deux,
accusatif, féminin’. En ce qui concerne les chiffres composés ne sont pas stockés dans le
dictionnaire et leur reconnaissance est faite à l’aide de règles linguistiques. Voici quelques
exemples des entrées de notre dictionnaire :
ص ْفرِ \0`+card'
احد
ِ َو 1`+card'
إِ ْثنَان 2`+card'
ثَ ََلثَة 3`+card'
أَرْ بَ َعة 4`+card'
أَ ْلف 1\0\0\0`+card'
ِم ْليُون 1\0\0\0\0\0\0`+card'
ِم ْليَار 1\0\0\0\0\0\0\0\0\0`+card'
بَ ْليُون 1\0\0\0\0\0\0\0\0\0\0\0\0`+card'
Pour la détection des nombres nous avons établi un ensemble de règles en fonction du
type du nombre :
Cardinaux simples : ces règles détectent les nombres unitaires par consultation du
dictionnaire décrit dessus.
Les dizaines : les règles développées pour cette catégorie concernent les déterminants
compris entre 11 et 99. Lorsqu'il s'agit d'un nombre de dizaine ayant un chiffre d'unité
non nul (dont la valeur n’est pas divisible par 10), une conjonction de coordination
assure la liaison entre les deux. Pour exprimer les nombres de dizaines composés, nous
faisons appel aux règles des cardinaux simples et nous concaténons les résultats tout
en ignorant la conjonction.
Les centaines : cette troisième catégorie concerne les déterminants compris entre 100
et 999. Cette règle fait appel aux autres règles précédentes pour déterminer les
dizaines et les cardinaux simples.
Le reste des cardinaux : cette catégorie inclue les cardinaux des milliers, millions et
milliards. Les règles développées pour cette catégorie font appel aux règles des
précédentes catégories tout en concaténant à chaque fois les résultats obtenus.
Les entités numériques incluent principalement les systèmes de mesures (poids, distance, volume,
vitesse), les pourcentages, ainsi que les devises. La liste des entités numériques peut être plus longue
Page
118
selon les définitions ; pour les besoins de ce -mémoire, nous nous contenterons des trois principales
entités numériques, qui sont les systèmes de mesures, les devises et les pourcentages.
Les unités de mesure : ayant le mètre comme unité de base. A ce niveau, nous avons
répertorié les unités de mesure en regroupement tous les multiples ainsi que les sous-
multiples tels que ِكيلُو ِم ْترkiyluwmitre ‘kilomètre, km’, ِميلِي ِم ْترmilliymitr ‘millimètre,
mm’, etc. Ces entrées lexicales servent pour la reconnaissance des distances simples
(longueurs, largeurs, profondeurs, hauteurs, etc.) ainsi que les mesures composées
telles que les mesures de volumes au moyen du mot clé ُم َكعَّبmuka''ab ‘cube’. Notons
aussi dans cet égard, que l'utilisation des abréviations des unités de mesure est
fréquente, 5 كلمet 20 طن, etc.
Les unités de pourcentages : Les règles de reconnaisse de ce type d'expressions sont
les plus simples à mettre en œuvre puisqu'elles sont formées à l'aide d'un cardinal ou
d'un nombre écrit en chiffre en arabe suivi du symbole de pourcentages « % » ou de la
forme بالمائةbil miyat ‘pour cent’.
Les unités monétaires : En ce qui concerne ce type d'expressions, nous avons
construit une liste des unités incluant des devises telles que ِدينَارdiynar ‘Dinar’ ou ُوَلر َ د
duwlaar ‘Dollar’ ainsi que leurs subdivisons telles que َس ْنتِيمsantiym ‘Centimes’ ou ِميلِّيم
milliym ‘Millimes’. Dans les textes arabes, ces expressions monétaires sont
caractérisées aussi par l'emploi des signes des symboles monétaires comme $ pour le
dollar, ¥ pour le Yen et € pour l'euro.
Dans ce qui suit, nous illustrerons une des règles qui permet de repérer dans cet exemple une
entité numérique.
$number $measure <en entype = "mes">
Dans la règle ci-dessus, l'expression number permet de repérer un nombre précédant l'unité de
mesure, tandis que l'expression measure entre accolades renvoi à la liste d'expressions de
mesure que nous avons préalablement compilée. Cette règle simple permet de repérer
systématiquement des expressions comme : 85 kg.
Voici un exemple illustratif de notre analyse. ‘ ثمانون ألف متر مربعquatre-vingt mille mètre
carré’.
<en entype="mes"><relation
reltype="mesure"><head><posBeg><POS=18></posBeg><lemma>< ِم ْتر ُم َربَع/lemma><catPos
index="no">+unitmes</catPos><mCat>S</mCat><posEnd><POS=26></posEnd></head><
dept><posBeg><POS=6></posBeg><lemma>80000</lemma><catPos
index="no">+card</catPos><mCat>Num</mCat><prop
index="no">+adjnom</prop><posEnd><POS=17></posEnd></dept></relation></en>
Page
119
Partie III : Traitement des
dialectes arabes
Page
120
Chapitre 5 Analyse
phonologique
Page
121
Introduction
L’étude et la compréhension de la morphologie dialectale de la langue arabe, ou d’une
autre langue, passe nécessairement par une bonne compréhension de sa phonologie. De plus,
les différences phonologiques entre l'arabe dialectal et l'arabe standard portent essentiellement
sur le système vocalique et consonantique de la langue. C’est la raison pour laquelle nous
présentons et discutons dans cette section les préliminaires phonologiques qui s’appuient
essentiellement sur des systèmes consonantiques et vocaliques. De ce fait, nous présentons et
comparons dans la section 5.1 les systèmes consonantiques de l’arabe standard (MSA) et de
l’arabe dialectal, ensuite nous mettons en avant leurs systèmes vocaliques qui doivent être
distingués dans 5.2. Finalement, nous passons en revue dans la section 5.3, les alternances
phonologiques, appelées aussi les variations ou dégradations phonologiques à savoir :
l'assimilation, métathèse, l’emphase, épenthèse, élision, le raccourcissement.
MSA EA Traduction
aman(-un) taman Prix
ðahab(-un) dahab Or
aabit(-un) saabit Fixe
ðakiyy(-un) zaki Intelligent
Tableau 5. 1. Exemple de changement des interdentales entre le MSA et le EA
Cet exemple illustre les modifications et les altérations que peut subir le système
consonantique de l'arabe dans les dialectes. Ces modifications ne datent pas forcément
d’aujourd’hui mais existent depuis longtemps et elles étaient même repérées par les
grammairiens arabes dans les dialectes de leur temps. Toutefois, il est à noter aussi que
certaines modifications sont dues aux récents progrès technologiques caractérisés par une
utilisation des moyens de communications multi-langages, voir au dernières compagnes
coloniales marquées par une influence de la culture et la langue du colonisateur (le français au
Maghreb et l’anglais pour le Machrek) sur les dialectes des populations colonisées. Dans le
reste de cette section, nous donnons une description détaillée de la prononciation des deux
consonnes قqaf ‘q’ et جjim ‘j’ massivement utilisées dans les dialectes orientaux et
maghrébins. Nous illustrons ces prononciations dans différents dialectes : égyptien, algériens,
tunisiens, etc.
Page
122
‘g’ dans d'autres dialectes, ce qui est le cas des dialectes d’Annaba, de Sétif, ou celui de
Gafsa; ou glottale sourde ?( ء,’), comme c’est le cas dans les dialectes égyptien et celui de
Tlemcen. Notons dans le cas des dialectes n’utilisant pas la consonne occlusive glottale
sourde, il existe quelques mots qui sont prononcés de la même façon quel que soit le dialecte,
par exemple le mot «vache » est toujours prononcé بَ ْڨ َرةbagra.
Ces variations peuvent être aussi considérées, selon (Lajmi, 2009), comme une
propriété qui traduit un clivage sociogéographique entre parler citadin et parler rural et encore
parler bédouin. Selon ce clivage, (Cantineau, 1960) propose une classification des parlers
pour les dialectes modernes comme suit :
Les parlers sédentaires : les parlers dans lesquels l'ancien qâf est représenté par
une sourde (q, k, ’). Nous pouvons géographiquement les répartir en trois groupes,
suivant que le qâf est prononcé q, ', ou bien k :
o Les parlers ayant un qâf vélaire, donc q, couvrent des surfaces assez
importantes, notamment en Syrie et en Afrique du Nord : c'est le cas du
Sahel tunisien, des villes de Tunis et de Constantine, Milla, et la majeure
partie de Skikda. Cette prononciation est aussi utilisée à Alger, Cherchel,
Dellys, Blida, Miliana, Média, Ténès voir dans l’ouest algérien à
Mostaganem. Nous trouvons aussi cette prononciation dans une grande
partie du Maroc.
o Les parlers ayant un qâf réduit à une simple occlusion glottale ‘?’ sont
surtout des parlers citadins comme les habitants d'Alep, Lattaquié, Hama,
Homs et Damas en Syrie, Tripoli, Beyrouth, Saîda et quelques régions
montagnardes au Liban, Safed, Haïfa, Jaffa, Jérusalem, Hébron et Ghaza
en Palestine, Alexandrie et Le Caire en Egypte, Tlemcen en Algérie ; et
Fès au Maroc.
o Les parlers ayant un qâf prononcé k postpalatal sont ceux qui ont
également une altération inconditionnée du kâf : par un processus tout à
fait analogue d'avancement du point d'articulation, le qâf vélaire est
devenu un k postpalatal. Ces parlers disent kalb ‘’cœur' (de qalb-), kâl
‘dire’ (de qâla), kahwa ‘café’ (de qahwat-), etc. Ces parlers sont ceux des
sédentaires de Palestine, de l'oasis de Sukhne en Syrie, de la Petite
Kabylie, Jijel, des Msirda et des Trara au Nord de Tlemcen en Algérie.
Les parlers nomades : les parlers dans lesquels il est représenté par une sonore
(g). Nous distinguons pour ces parlers plusieurs groupes comme suit :
o Un premier groupe possède un gâf très en arrière, presque vélaire, mais
non en toute position. Ces parlers sont assez rares on les retrouve dans
l'Arabie du Nord et le Sud tunisien.
o Un autre groupe a un gâf post-palatal en toute position. Ce groupe
contient les parlers nomades d’Algérie, Maroc et Tunisie ; et en orient les
populations nomades de l’ouest de l’Irak et l’est de la Jordanie ainsi
qu’une majeur partie du Yémen et Oman.
o Un troisième groupe, celui des parlers de nomades nord-arabiques, a un
traitement du gâf absolument parallèle à celui du kâf, c’est-à-dire que le
gâf se maintient au voisinage des voyelles postérieures u, o, a mais subit
des altérations conditionnées au voisinage des voyelles antérieures i, e, ä,
passant aux affriquées g (==dj) chez les petits nomades syro-
mésopotamiens, et g (==dz) dans les grandes tribus arabiques. Ces
affriquées sont senties comme des variantes combinatoires de g et forment
avec lui un phonème unique.
Page
123
L’avantage de cette répartition est qu’elle ne souffre pas de véritables exceptions. Si
ces exceptions existent, comme pour certains mots des parlers nomades de l'Afrique du Nord
ayant un qâf sourd : qrâ ‘il a écrit’ ou bqâ ‘il est resté’, elles paraissent des emprunts soit à la
langue classique, soit à la langue des villes. De même les parlers sédentaires de la même
région contiennent tous quelques mots ayant un gâf sonore, comme pour gnîn ‘lapin’ ou
gorba ‘outre’, qui paraissent des emprunts aux parlers ruraux.
Les parlers maghrébins, tant de sédentaires que de nomades, ont en général, en face du
qâf classique, deux phonèmes : un q vélaire sourd et un g post-palatal. Naturellement un seul
de ces phénomènes : q chez les sédentaires, g chez les nomades, représente dans le dialecte en
question l'évolution phonétique normale du qâf ancien; l'autre phonème n'apparaissant que
dans des emprunts. De ce fait les prononciations q et g servent parfois à différencier deux sens
d'un même mot formant ainsi pour ces mots des doublets ou des paires de mots, l'un ayant un
q l'autre un g; c'est ainsi que nous aurons begra et baqra ‘vache’, gubba et qobba ‘coupole de
marabout; alcôve’, zreg ‘gris (chevaux)’ et zroq ‘bleu’ ; sherg ‘l'orient’ shorq ‘le pèlerinage’,
gleb ‘vomir’ et qleb ‘renverser’, bgâ ‘être exténué de fatigue’ et bqâ ‘rester ‘, etc. Au
contraire, dans les parlers orientaux, des doublets de ce genre ne se produisent pas.
Sur un autre registre, un qâf ancien peut se dissimiler en k devant un t. Par exemple,
pour beaucoup de parlers, tant orientaux que maghrébins, le verbe ‘tuer’, cl. qatala est passé à
katal au Maghreb ou Ktäl.
Au moyen orient, la variante ğ est très répandue au Yémen, en Irak, dans le désert syrien,
dans les campagnes palestiniennes, syriennes et transjordaniennes. La variante ž quant à
elle est considéré comme une prononciation citadine très utilisée à Damas, Beyrouth,
Haïfa, Naplouse, Jérusalem, Jaffa, Ghazza. Elle-même la plus utilisée de tout le Liban.
Page
124
L’application de ce principe donne les cas remontés dans les sections suivantes.
Au Maghreb, les faits se présentent d'une manière analogue, c'est-à-dire que certains
parlers de sédentaires peuvent avoir des interdentales, en dépit du principe posé ci-dessus,
mais que l'inverse ne paraît guère se produire. C'est ainsi qu'en Tunisie, les parlers sédentaires
du Sahel (type de Takrouna) ont des spirantes interdentales ainsi que la ville de Tunis. En
Algérie, à Constantine, les spirantes interdentales sont souvent devenues occlusives dans toute
la zone des parlers sédentaires qui couvre la commune de Collo, Skikda et Constantine, El-
Milia, Jijel, Bougie.
Dans la wilaya d’Alger, les communes à parler sédentaires, à l’exception d’Alger, les
spirantes interdentales sont conservées à cause probablement de l'influence des parlers de
nomades, nous pouvons de ce fait qualifier cette conservation de restitution. Ce constat est
mis en exergue dans les travaux de (Cantineau, 1960), et identifié dans les villes Cherchel,
Blida, Médéa, Miliana et Ténès. Dans la ville d’Alger les spirantes interdentales sont
occlusives. Dans la wilaya d'Oran les spirantes interdentales sont passées aux occlusives à
Tlemcen seulement au Nord de la ville. C’est le cas aussi au Maroc où les parlers de
sédentaires, citadins comme montagnards, font passer les spirantes interdentales aux
occlusives. Il est à noter aussi que dans certains endroits en Algérie, comme pour les parlers
nomades de la wilaya de Mostaganem, les spirantes interdentales passent aux spirantes
labiodentales, à titre indicatif prenons les exemples suivants : ṯâni ‘aussi’ > fâni, ḏhab ‘or’ >
vhab, ḓalma ‘obscurité’ > valma.
Un autre fait important caractérisant les parlers sédentaires du Maghreb dans leur
traitement des interdentales, c’est l'emphatique ḓ au lieu de passer ḍ s'assourdit en ṭ comme
dans les mots ṭahro ‘son dos’; ṭlêla ‘ombre’, byaṭ ‘blanc’, mrêṭ ‘malade’, ṭofro ‘son ongle’,
etc. Ce phénomène a une extension moins grande que la réduction des spirantes interdentales,
et il n'est presque jamais réalisé complètement. Il est contraint par des limitations dues, soit à
l’arabe classique, soit aux parlers de nomades avoisinants.
Nous pouvons aussi signaler une autre caractéristique des spirantes interdentales due à
des altérations combinatoires de ces dernières. Elle consiste en une emphase de la sonore ḏ en
ḓ au voisinage d'une emphatique ou d'une vélaire. Cette caractéristique peut s’expliquer par
des causes phonétiques régulières, l’influence des consonnes voisines, voir l’influence de la
langue berbère. Cette caractéristique est très présente en Algérie où nous trouvons les
exemples suivants : fḫaḓ ‘cuisse’ (cl. fḫaḏ); ḫḓa ‘prendre’ (cl. 'aḫaḏa), ḓörwok ‘maintenant’
(ḏâl-waqt). (Marçais, 1908).
Enfin, dans certaines villes, comme Saïda en Algérie, les spirantes interdentales
Page
125
s'assimilent très fréquemment à un t qui les suit, pour illustrer cette propriété nous citons les
exemples suivants : ḩrôtt ‘j'ai labouré’ (<haraṯtu), gböttäh ‘je l'ai saisi’ (cl. qabadtuhu).
5.1.4. Traitement du hamza
La lettre hamza, peut être considérée comme un élément discriminant des deux
groupes de parlers, ceux du Machrek et ceux du Maghreb. Nous donnons dans cette section
l'évolution phonétique et les changements qu’a subit cette consonne chez les deux groupes de
parlers.
Concernant les parler du Machrek, nous mentionnons les travaux de (Cantineau, 1960)
sur ce sujet où l’auteur considère que : « le hamza, quoique affaibli, est resté un phénomène
au sens phonologique du mot, un élément constitutif important du système consonantique de
ces parlers. ». Donc, en fonction de la position de cette lettre dans un mot, elle peut avoir
plusieurs états : inchangeable, modifiable ou supprimable. Nous illustrons dans les exemples
suivants les différents cas selon la position de ce Hamza :
A l'initiale du mot, le hamza est généralement conservé. Cette conservation affirme
qu'elle garde généralement sa valeur d'une consonne radicale, par exemple : 'arnabe
‘lièvre’, 'asba3 ‘doigt’ ; les pluriels de 'arâneb et 'asâbe3. Cependant, il existe des cas
exceptionnels où il est changé en semi-voyelle w ou y comme c’est le cas des mots :
wallaf ‘il plia bagage’, waddab ‘il corrigea’.
A l'intérieur du mot, le hamza est, contrairement à la première position, rarement
maintenu et souvent il a disparu pour faire place à un allongement de voyelle, comme
dans les exemples suivants : râs ‘tête’ ([Link]'s), bîr ‘puits’ ([Link]'r), mara ‘femme’
([Link]'at). Il passe aussi à w ou à y à l’instar des mots : iTTâwab ‘bâiller’
([Link]â'aba), lâyam ‘convenir de’ (cl.lâ'ama), malyân ‘plein’ (cl. mal'ân), Mîye ‘cent’
(cl. mi'at). Il existe toutefois un cas démonstratif où cette lettre est maintenue, il s’agit
du verbe sa'al ‘demander’.
A la fin d’un mot le hamza peut avoir disparu parfois sans laisser de traces, ou être
transformé, donnant ainsi plusieurs cas de figure comme suit :
o Le hamza supprimé : par exemple ghadâ ‘déjeuner’ ([Link]â'), samâ ‘ciel’
([Link]â')
o Le hamza remplacé par la semi-voyelle « y » : c’est le cas des verbes à 3ème
radicale hamza sont tous devenus des verbes à 3ème radicale y.
o Le hamza assimilé à une consonne précédente : comme dans le mot daww
‘lumière’.
Quant aux parlers du Maghreb, le fait marquant est que le hamza a presque disparu et
que les occlusives glottales, que nous pouvons entendre, n'apparaissent que dans des emprunts
à la langue littéraire. Ainsi, dans les différents dialectes maghrébins, le hamza est soit tombé
en complètement désuétude (disparu), soit remplacé comme dans les parlers du Machrek par
une semi-voyelle w ou y. De ce fait le hamza subit différentes opérations en fonction de sa
position dans le mot comme suit :
A l'initiale, le hamza perd généralement toute valeur consonantique propre, générant
par conséquent plusieurs cas de figure comme suit :
o Le hamza est totalement tombé, prenons les exemples suivants : bell ‘chameaux’
(cl. 'ibil), bra ‘aiguille’ (cl. 'ibrat-), Nous pouvons admettre que dans ces mots, le
hamza existe virtuellement; mais il n'est nullement prononcé. Selon (Marçais,
1902), lorsque l'accent portant sur une syllabe subséquente, la voyelle à laquelle
était rattaché le hamza initial disparait aussi, qu'elle fut contenue dans une
syllabe ouverte ou fermée : ابراهيمbrâhim, briq ‘ ابريقaiguière’, أمارةmâra
‘signe’. La conservation virtuelle du hamza sous forme de simple voyelle, bien
Page
126
qu'il n'ait pas l'accent dans les mots : islâm, imâm, amân, amer (cf. sur
l'allongement de a) s'explique par des influences de la langue littéraire. Dans un
certain nombre de mots, il s'est réduit à une simple voyelle a, u, i; sous cette
forme il s'est maintenu, là où il portait l'accent : أصلÂsl ‘origine’, أرضÂrD
‘terre’, أناÂna ‘moi’, أمانÂmân ‘sécurité’, أخرىukhra ‘autre’, etc.
o Le hamza peut donner naissance à une semi-voyelle ‘w’ ou ‘y’ dans les mots où
il portait l'accent. A titre illustratif prenons les mots suivants : و ّكلwukkel ‘faire
manger’ du verbe أَ َّك َلÂkkal, ولَّفwullef ‘habituer’ du َ أَلَّفÂllaf, يبرةyebra
‘aiguille’ du إبرةIbrah, ينسyens ‘espèce humaine’ du إنسIns, يامسyâmes ‘hier’
du أمسÂms
o Le hamza est remplacé avec un ‘l’ initial dans une forme indéterminée dérivée
d'une forme déterminée. Voici quelques exemples لَ ْف َعىlef'a ‘vipère’, ْ لَ ْن َجاصlenjâs
‘poire’, ْ لَرْ ضlarD ‘terre’.
o Le hamza est renforcé en ‘h’ comme dans les mots هَجَّالةhajjâla ‘veuve’ du mot
أَجَّالةÂjjâla (de même dans tout le Maghreb), ou comme dans la locution
conjonctive ه ّماَلhammâla ‘cependant’, أ ّماَلÂmmâla.
En fin du mot, le hamza est soit tombé, comme pour le mot ُشركاءšorka ‘partenaires’,
soit réduit à une voyelle longue, par exemple : brâ ‘guérir’ du bari'a, qrâ ‘lire’ du
verbe qara'a, smâ ‘ciel’ du samâ', soit il s'assimile à une consonne précédente comme
: Daw(w) ‘lumière’ du mot Daw', šay ‘chose’ du mot šay’, ou donne un y qui
finalement se déconsonnantise en y, c’est le cas du mot bennây du mot بنّاءbinnâ'.
Page
127
wujj et ّ وشwušš.
Permutation du sin, Sad, Zad. Nous constatons qu’en tlemcenien des permutations
des sifflantes sad, sin, zad existent. Nous en trouvons en arabe classique et dans la
plupart des dialectes. Certaines sont dues à des causes phonétiques comme
l'influence de la consonne voisine, par exemple فازدةfâzda ‘corrompue’ au lieu de
فاسدةfâsda, زدمzdam ‘heurter’ au lieu de صدمSdem, سدرsder ‘poitrine’ à la place
de صدرSder. Ce phénomène a été expliqué par des influences vocaliques
secondaires comme pour le mot Sêf ‘sabre’ au lieu de sîf.
Concernant le système vocalique des dialectes, (Barkat, 2000) a établi une typologie
dialectale fondée sur l'opposition : parlers maghrébins et parler orientaux. Cette étude a
montré que l'espace vocalique des parlers maghrébins est plus centralisé que celui des parlers
orientaux, avec une différence de durée entre voyelles brèves et longues. Cette étude confirme
l’hypothèse soutenue dans plusieurs travaux de recherches qui est que le système vocalique de
l'orient est plus enrichi de timbre vocalique que son homologue (du Maghreb) qui est
composé de trois voyelles cardinales ainsi que le schwa.
De ce fait, le système vocalique des dialectes arabes modernes des parlers d'Orient est
composé de huit voyelles : trois brèves */i, u, a/ et cinq longues */ī, ū, ē, ō, ā/. (ii, uu, ee, oo,
aa). L'émergence de nouvelles voyelles intermédiaires longues illustrent bien que les
anciennes diphtongues /ay/ et /aw/ ont évolué dans les langues arabes dialectales
respectivement en /ē/ et /ō/.
Dans la même optique, il a été observé que "le vocalisme bref se réduit de façon croissante
d’Est en Ouest" (Marçais, 1977) jusqu’à devenir - dans certains parlers - de simples points
vocaliques ultra-brefs, aboutissant ainsi à des réalisations ultra-brèves des voyelles, c’est le
cas des parlers marocains.
Le tableau (5.2) présente les voyelles utilisées dans le système vocalique de l’arabe
standard AS et celui de l’arabe dialectal du l’Egypte AE :
Courte Longue
Avant Central Arrière Avant Central Arrière
Haut I U ii uu
Milieu ee+11 oo+
Bas A Aa
Tableau 5. 2. Les voyelles dans MSA & AE
11
(+) = Trouvé dans AE seulement.
Page
128
Dans les dialectes arabes les séquences /ay/ et /aw/ sont transformées en /ee/ et /oo/,
respectivement. Nous pouvons observer cette transformation dans les exemples suivants :
MSA AD Traduction
bayt(-un) beet maison
ShayTanat(-un) SheeTana diable
Shaykh(un) Sheekh vieux
naw3(un) noo3 espèce
lawn(-un) loon couleur
lawH(-un) looH tableau/ plaque
Les exemples montrent que les deux timbres /ee/ et /oo/ proviennent d'un waw et d'un
yay classique. A cet égard, nous soulignons que pour la majorité des dialectes arabes la
diphtongue disparaît dans tout un paradigme d’unités au profit d’une voyelle longue. Il est
important de signaler, qu'il existe quelques régions du Maghreb où cette diphtongue est
conservée, c’est le cas par exemple des parlers de la ville d’Annaba de l’est de l’Algérie. En
plus de cette exception, nous remarquons qu’il existe aussi deux cas d’utilisation où la
diphtongue est conservée sans changement. Tout d'abord, lorsque la voyelle est suivie d'une
gémination. Linguistiquement, ce phénomène est appelé "inaltérabilité des géminées"
(Gadalla, 2000). Voici quelques exemples illustratifs de ces cas :
MSA AE Traduction
mayyit(-un) mayyit mort
bayyaD(-a) bayyaD à la chaux, à peindre
bawwaab(-un) bawwaab un portier
Sawwar(-a) Sawwar photographier
MSA AE Traduction
?awTaan(-un) ?awTaan pays
mawluud(-un) mawluud nouveau-né
?aymaan(-un) ?aymaan serments
Saydal-at(-un) Saydal-a science pharmaceutique
En ce qui concerne l’allongement vocalique, (Mejri et al., 2009) avance que « Le système
vocalique du dialectal se distingue par un enrichissement des degrés d’aperture. Si l’arabe
littéral ne comporte que trois voyelles brèves doublées de leurs correspondantes longues, le
dialectal tunisien connaît une extension de l’action de la durée vocalique dans ce sens qu’on
assiste à l’émergence de nouvelles paires minimales fondées sur un allongement vocalique
non réalisé dans le littéral.». Toutefois, nous signalons que ce phénomène concerne à la fois
des unités n'appartenant pas aux mêmes parties du discours, comme par exemple : ْ ِسرsir
Page
129
‘secret’ qui a une catégorie grammaticale ‘nom’ et ْ ِسيرsiir ‘marcher’ qui est un verbe à
l’impératif, et des paires appartenant à la même partie du discours comme par exemple : les
deux verbes ْ ْي ِسلysil ‘tirer’ et ْ ي ِْسيلysiil ‘couler’. Ce phénomène est fréquent dans les dialectes
maghrébins.
Il est à noter que le système vocalique des dialectes diffère d'une région à une autre comme
par exemple le dialecte Sfaxien qui se caractérise par rapport au dialecte sahélien par une
voyelle finale longue dans des mots qui portent l'accent sur la dernière syllabe. Le tableau
suivant illustre cette caractéristique :
Nous pouvons identifier plusieurs types d’allongement par l’accent, en voici quelques
exemples :
L'allongement de la voyelle terminale dans les mots provenant de racine défectueuse
ou possédant la lettre hamza comme la dernière radicale, comme pour les mots : rDâ
‘s’est contenté’, qrâ ‘il a étudié’, hlû ‘sucré’, jdî ‘chevreau’, etc.
L'allongement de la voyelle des impératifs de verbes concaves, que nous trouvons
dans tous les dialectes maghrébin. A titre d’exemple nous citons : قولqôl ‘dis’, زيدzîd
‘continue’, باتbât ‘passe la nuit’. Nous trouvons cet allongement aussi dans le cas
des mots provenant de racines assimilées ou ayant la première radicale hamza,
comme تيقةtîqa ‘confiance’, جيهةjîha ‘côté’, نيفnîf ‘nez’, etc.
L'allongement de la voyelle dans la dernière syllabe du parfait à la 3ème personne au
féminin des verbes, quand s'y adjoignent les suffixes vocaliques. Par exemple ضرباتك
Darbâtek ‘elle t'a frappé’.
D'un allongement de voyelle brève ou de semi-voyelle déconsonnantisée, par contre-
accent : Amân ‘sûreté’, يهودIhûd ‘Juifs’.
Le système vocalique des dialectes arabes est caractérisé aussi par l’absence des voyelles
brèves : elle consiste en une disparition des désinences casuelles dans les noms et des flexions
finales dans les verbes. Les différents dialectes arabes négligent les voyelles courtes en
particulier quand ils se trouvent à la fin d'une syllabe. Voici quelques exemples montrant la
différence de la prononciation des mots en dialecte et en arabe standard :
Par ailleurs, des différences existent au niveau de l’allongement entre les dialectes
maghrébins et orientaux. A cet effet, le système phonétique des dialectales du Maghreb
possède une caractéristique intéressante pour la reconnaissance (Saâdane et al., 2013) : il
présente une succession de deux consonnes au début du mot. Cette caractéristique est
beaucoup moins marquée dans le système phonétique des dialectes orientaux. Ceci se traduit
Page
130
par une particularité notable dans le schème verbal « f ̒el » au Maghreb à la place de « fa ̒ al»
au Machrek par exemple :
« dreb » (frapper, algérien); « darab » (égyptien)
« sket » (se taire); « sakat »
« b ̒ed » (s'éloigner); « ba ̒ad »
D’un autre côté, l’arabe dialectal diffère du standard par le fait que l’arabe standard permet
d’avoir deux ou plusieurs voyelles longues en un mot phonologique, contrairement à l’arabe
dialectal où elle ne permet d’en avoir qu’une seule. Par exemple, le mot ‘clés’ /mafaatiih >
mafatiih/.
Page
131
5.3.1. Assimilation ()اإل ْد َغا ْم
ِ
En linguistique, le terme assimilation désigne un phénomène par lequel deux phonèmes
tendent à devenir identiques ou à acquérir des caractères communs : par exemple -dt- > -tt-. Il
existe deux types d'assimilation, ا ِإل ْدغَا ْمiddigâm ‘une assimilation complète’ et ‘partielle’.
L'assimilation partielle est aussi appelée ' إقَلبqlâb ‘accommodation’.
Dans la langue arabe, l’assimilation complète des consonnes juxtaposées est manifestée
dans certains cas. C’est le cas de l'assimilation complète de la consonne latérale /l/ de l'article
défini, qui devient identique à la consonne initiale du mot si elle est l'une des lettres dites
الحروف الشمسيّةal-Huruf šamsiyya ‘lettres solaire’, contrairement aux lettres dites consonnes
الحروف القمريّةal-Huruf qamariyya ‘lettres lunaires’ où cette assimilation n'est pas réalisée. Ce
cas est très répandu dans l’arabe standard.
L'assimilation de la lettre /l/ de l'article défini peut être formalisée par une règle appelée
«l-assimilation» et représentée comme suit :
Ci
l [+def] Ci / ( ) ….. (l-assimilation)
+𝑠𝑜𝑙
Cette règle indique que la lettre /l/ de l'article défini est assimilée à la consonne suivante
si elle est solaire. Pour voir illustrer l’application de cette règle et mettre en exergue la
différence entre l'assimilation et la non assimilation de la lettre /l/, voici quelques exemples :
Il existe aussi un autre type d’assimilations appelé assimilation par contact. Notons que
le « l » de l'article, s'assimile non seulement avec les consonnes solaires, mais aussi à d'autres
consonne. Dans cette optique, les grammairiens traitent le cas de l'assimilation ou non du « l »
de l'article à la lettre جjim ‘j’. Quand le جest prononcé comme une chuintante sonore j
(considérée aussi comme une lettre de frontière entre lettre solaire et lunaire) elle n'assimile
pas le «l» de l'article en MSA, mais l'assimile dans la plupart des dialectes. Nous nous
référons aux travaux de (Marçais et Jellouli, 1933), où l’auteur signale que dans les parler
d'El-Hamma de Gabès; l'assimilation n'est obligatoire que si la lettre j est l'élément initial d'un
complexe consonantique : par exemple ej-jbal ‘la montagne’; par contre, quand le «j» est la
lettre initiale d'un mot déterminé est suivi d'une voyelle, l’assimilation du «l» de l'article
devient facultative, par exemple, on trouve ej-jar à côté de el-jar.
Dans la même optique, nous soutenons les propos (Cantineau, 1960), qui signalent que
l'assimilation de l'article ne se fait pas au Maghreb (voir rarement); contrairement au Machrek
où elle paraît être la règle comme pour le mot eg-gabal ‘la montagne’. (Gadalla, 2000)
confirme dans son livre qu'en Égypte, le processus d'assimilation de l'article « l » avec les
lettres solaires se produit avec l'ajout d'autre lettres comme la lettre /g/ ou très rarement la
lettre /k/. Toutefois, cette assimilation du /l/ reste facultative. Pour illustrer ces propos, voici
quelques exemples :
Page
132
o /il+kursi/ /?ik-kursi ~ ?il-kursi/ ‘chaise’.
Cependant, (Cantineau, 1960) note que dans les villes, les gens instruit