0% ont trouvé ce document utile (0 vote)

507 vues384 pages

SAADANE 2015 Diffusion

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

507 vues384 pages

SAADANE 2015 Diffusion

Transféré par

Mdjitengue Ahmed

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

THÈSE

Pour obtenir le grade de

DOCTEUR DE LA COMMUNAUTE UNIVERSITÉ
GRENOBLE ALPES
Spécialité : Informatique et Science du Langage
Arrêté ministériel : 7 août 2006

Présentée par

Houda SAADANE

Thèse dirigée par Prof. Mathieu GUIDERE

préparée au sein du Laboratoire de Linguistique et Didactique

des Langues Etrangères et Maternelles (LIDILEM – EA 609),
dans l'École Doctorale Langues, Littératures et Sciences
Humaines.

Le traitement automatique de
l’arabe dialectalisé : aspects
méthodologiques et
algorithmiques

Thèse soutenue publiquement le 14 décembre 2015,

devant le jury composé de :
Madame Lamia Hadrich Belguith
Professeur, Université de Sfax (Rapporteur)
Madame Lynne Franjié
Professeure, Université de Lille 3 (Rapporteur, Présidente)
Monsieur Olivier Kraif
MCF (HDR), Université de Grenoble 3 (Examinateur)
Monsieur Christian Fluhr
Directeur Scientifique, GEOLSemantics (Examinateur)
Monsieur Nasredine Semmar
Chercheur, CEA-LIST (Examinateur)
Monsieur Mathieu Guidère
Professeur, Université de Toulouse 2 (Directeur)
SOMMAIRE
INTRODUCTION GENERALE------------------------------------------------------------------------------------ 3
PARTIE I : DESCRIPTION DE L’ARABE STANDARD ET DIALECTAL ----------------------------------- 13
CHAPITRE 1 LA LINGUISTIQUE DE LA LANGUE ARABE ------------------------------------------------ 14
CHAPITRE 2 INTRODUCTION AUX DIALECTES ARABES ----------------------------------------------- 32
PARTIE II : ANALYSE LINGUISTIQUE DE LA LANGUE ARABE ----------------------------------------- 54
CHAPITRE 3 ANALYSE MORPHOSYNTAXIQUE ---------------------------------------------------------- 55
CHAPITRE 4 IDENTIFICATION ET TYPAGE DES ENTITES NOMMEES ------------------------------- 95
PARTIE III : TRAITEMENT DES DIALECTES ARABES --------------------------------------------------- 120
CHAPITRE 5 ANALYSE PHONOLOGIQUE ---------------------------------------------------------------- 121
CHAPITRE 6 ANALYSE MORPHOLOGIQUE VERBALE ------------------------------------------------ 142
CHAPITRE 7 ANALYSE MORPHOLOGIQUE NOMINALE --------------------------------------------- 191
CHAPITRE 8 ANALYSE MORPHOLOGIQUE ADJECTIVALE ------------------------------------------- 224
PARTIE IV : CONTEXTE ET MATERIEL / GENERATION AUTOMATIQUES DES RESSOURCES 246
CHAPITRE 9 CREATION DES LEXIQUES ------------------------------------------------------------------ 247
CHAPITRE 10 TRANSLITTERATION DES NOMS PROPRES ARABES ------------------------------- 266
CHAPITRE 11 CONSTITUTION DES CORPUS ----------------------------------------------------------- 285
PARTIE V : RESULTATS EXPERIMENTAUX ET EVALUATION ---------------------------------------- 322
CHAPITRE 12 SYSTEME D’EVALUATION ET D’EXTRACTION DE CONNAISSANCES DU MSA 323
CHAPITRE 13 SYSTEME D’EVALUATION DE LA TRANSLITTERATION DES NOMS PROPRES 341
CONCLUSION GENERALE ----------------------------------------------------------------------------------- 352
BIBLIOGRAPHIE----------------------------------------------------------------------------------------------- 358

Page 1
Page 2
Introduction générale

Page 3
Le Traitement automatique du langage naturel (TALN) regroupe à la fois la linguistique,
l’informatique et l’intelligence artificielle. Cette discipline est devenue un axe de recherche
essentiel pour analyser et traduire la grande masse d’informations disponible, qui évolue sans
cesse. De plus, les enjeux cognitifs du traitement automatique des langues sont importants, et
varient selon les applications. De nos jours, il existe plusieurs applications du traitement des
langues telles que la reconnaissance de l’écriture manuscrite (la détection de la langue), le
résumé automatique, le traitement de la parole, l’annotation sémantique, l’indexation et la
recherche de documents, l’extraction d’informations, la traduction, etc.
Le traitement morphosyntaxique automatisé de la langue arabe n’est pas récent, il a fait
l’objet depuis plusieurs décennies de travaux novateurs, en particulier en France par des
équipes de recherche qui se sont progressivement spécialisées dans le traitement de
l’information multilingue. En ce qui concerne la recherche d’informations, la problématique
de la recherche interlingue a été une motivation importante qui a conduit au développement
de projets tels que EMIR (European Multilingual Information Retrieval), et son extension à
l’arabe le projet ALMA (Arabic Language Multilingual Applications). Ainsi, comme nous
venons de le montrer, plusieurs projets européens ont porté sur le traitement de l’arabe. Plus
récemment, un réseau d’excellence européen a permis de regrouper la plupart des acteurs
européens pour échanger des informations et produire des ressources linguistiques
(dictionnaires, corpus étiquetés, logiciels) dans le cadre des projets NEMLAR (Network for
Euro-Mediterranean LAnguage Resources) puis MEDAR (Mediterranean Arabic Language
and Speech Technology).
Dans tous ces projets, le traitement automatique de la langue arabe écrite s’est focalisé,
de façon presque exclusive, sur l’arabe classique ou standard, laissant de côté les dialectes et
les phénomènes liés à l’usage dialectal de la langue arabe. Mais la prolifération de rédacteurs
de blogs sur Internet et les contributions diverses et variées sur les forums de discussion en
ligne a fait apparaître des usages langagiers de l’arabe standard fortement teintés de dialecte
local, ou mixés avec une langue étrangère comme le français ou l’anglais, ou encore
directement transcrits en lettres latines, ce qui nous conduit à nous poser des questions par
rapport à l’état de la recherche en la matière.
L’arabe moderne standard, qui est pratiqué dans les journaux écrits, radiodiffusés et
télévisés, a fait l’objet de nombreux travaux tant pour la reconnaissance de la parole que pour
l’analyse et la recherche d’informations. Toutefois, l’essentiel des échanges entre personnes
du monde arabe se fait dans le dialecte parlé localement. Même dans les émissions qui sont
censées n'utiliser que l’arabe moderne standard, un nombre non négligeable d’expressions
dialectales trahissent l’origine de la personne qui s’exprime. La prise en compte de l’arabe
dialectal concerne aussi bien les applications sécurité (terrorisme, drogue, trafic d’armes,
blanchiment) que les applications purement civiles comme l’analyse d’opinion, la
reconnaissance de la parole et d’une manière générale tout dialogue ou instruction donnée à
un appareil (téléphone ou autre) au moyen de la voix.
L’intérêt de traiter les dialectes a été reconnu depuis déjà un certain temps, toutefois la
difficulté réside dans le coût de constitution de corpus représentatifs, en particulier pour la
reconnaissance de la parole. La constitution de tels corpus est coûteuse aussi bien par la
difficulté de recueillir des sources représentatives, que par le travail nécessaire pour leur
transcription. La reconnaissance de l’origine communautaire de commentaires rédigés en
arabe dialectal apparait néanmoins l’objet d’une vague d’intérêt récente, et qui s’amplifie.

Page 4
Problématique du sujet :
En prenant en compte ces travaux, nous avons choisi de faire des recherches sur les
aspects peu étudiés jusqu’ici. La problématique de notre sujet de thèse concerne les traits
morphosyntaxiques et rédactionnels de l’arabe standard dialectalisé. Cela revient à poser
plusieurs questions : comment distinguer, dans les productions, les usages relevant de l’arabe
moderne, des usages relevant de l’arabe dialectal ? Comment reconnaître les traits spécifiques
à chaque dialecte arabe ?
Ces questions problématiques nous incitent à envisager plusieurs axes d’étude et
d’analyse :
1. Analyser les usages nouveaux introduits par le recours à la médiation de
l’ordinateur et aux téléphones portables dans l’écriture de messages de diverses
natures.
2. Établir pour chaque corpus d’arabe dialectal étudié les « écarts » observables par
rapport à la langue arabe standard, que ce soit du point de vue lexical ou
morphosyntaxique.
3. Identifier et définir des traits discriminants du corpus propre à chaque situation de
communication, notamment en référence à la région géographique des rédacteurs
(Maghreb vs Machrek, etc.).
La problématique de notre sujet porte donc à la fois sur la collecte de données d’étude par
des moyens automatisés, sur une analyse automatique des données collectées pour faire
apparaître les écarts par rapport à l’arabe standard et pour la mise en évidence du caractère
discriminant de certains de ces écarts pour une population localisée géographiquement. Elle a
aussi des liens évidents avec le problème plus général de l’évolution des modes d’interaction
introduits par les nouveaux outils de communication et par la pratique des réseaux sociaux et
autres communautés virtuelles.
Nous avons, dans cette perspective, constitué des corpus « locaux » pour mieux
comprendre le phénomène de l’influence des langues locales et des langues occidentales mais
aussi, vu l’origine des textes, l’influence des habitudes acquises par l’utilisation du web et des
nouvelles technologies sur la langue arabe moderne.

Pistes d’investigation empiriques :

Pour étudier cette problématique dans une perspective de traitement automatique, nous
allons constituer divers types de corpus et répondre à plusieurs questions touchant le
traitement informatique de ces corpus :

– Q1 : Quelles sont les sources qui pourraient être exploitées pour constituer des corpus
représentatifs de la langue utilisée dans les blogs et les forums de langue arabe ?
– Q2 : Comment peut-on identifier la région dont relève le dialecte considéré ; pouvoir
trier, classer et regrouper des productions langagières par origine géographique ?
– Q3 : Quelles sont les techniques scripturaires utilisées par les rédacteurs (écriture en
arabe, écriture latine de mots arabes, écriture simplifiée de type SMS, écriture mixte
relevant du code switching, etc.) ?
– Q4 : Comment traiter l’écart existant avec l’arabe standard moderne, en particulier
lorsqu’il relève du lexique ?

Page 5
Ces questions nécessitent une étude approfondie des traits morphosyntaxiques de l’arabe
standard et de l’arabe dialectal. C’est pourquoi nous allons constituer un corpus étendu et
comparé des productions écrites des rédacteurs de blogs, des interventions dans les forums ou
des messages courts sur les réseaux sociaux disponibles en langue arabe.
Ce corpus sera utilisé pour notre travail de thèse mais pourra être largement partagé pour
que la communauté des chercheurs sur les dialectes arabes, de même que les spécialistes de la
didactique de l’arabe, puissent réaliser d’autres investigations. Notre corpus sera traité par un
outil d’analyse automatique de l’arabe classique et standard qui fera dans un premier temps
ressortir le vocabulaire inconnu. L’étude de ce vocabulaire inconnu va permettre de classer les
mots suivant des critères permettant de les situer par rapport à l’arabe standard afin d’enrichir
le dictionnaire afférent du système automatique, avec des mots issus de l’arabe local de
chaque région, et des termes provenant d’autre langues (français, anglais, tamazight,…).
L’étude que nous menons vise à permettre la réalisation d’analyses automatiques
complètes des textes intégrant ces diverses variétés d’arabe. En effet, une fois les divers écarts
par rapport à l’arabe standard identifiés et normalisés, nous les intégrerons dans le système
d'analyse générale, et nous mettrons en place des méthodologies statistiques pour faire
ressortir les traits les plus discriminants. Nous avons proposé des méthodes linguistiques et
statistiques sur nos corpus pour identifier les origines géographiques des textes, qui pourront
ensuite être appliquées sur de nouveaux textes pour en déterminer l'origine.
Nous avons choisi comme point de départ de l’étude les pays suivants : pays du Maghreb
(Maroc, Algérie, Tunisie) et du Machrek (Égypte), l’objectif étant de donner un aperçu
suffisamment représentatif de la diversité des apports à l’arabe dialectalisé par d’autres
langues.

Contexte de mes travaux de recherche

Le travail de recherche dans ce manuscrit vise à construire des systèmes automatiques
d'analyse linguistique de l'arabe standard afin de réaliser une extraction de connaissances dans
des textes arabes. Il vise aussi le développement de ressources linguistiques et d'outils pour
les dialectes arabes. Le développement d'une approche de reconnaissance du dialecte
s’appuyant sur des dictionnaires de termes propres à chaque dialecte prépare de futurs travaux
sur l’analyse linguistique du contenu de ces dialectes.
Les travaux de recherche présentés dans cette thèse se sont déroulés dans le cadre d'une
bourse CIFRE (Conventions Industrielles de Formation par la REcherche), menés au sein du
Laboratoire de Linguistique et Didactique des Langues Etrangères etMaternelles (Lidilem),
Axe 1 « Descriptions linguistiques : syntaxe, sémantique, pragmatique et traitement
automatique de la langue (TAL) » et de la société GEOLSemantics. Ils s’inscrivent dans le
cadre de la mise en place d’une analyse morphosyntaxique de l'arabe standard et dialectal.
Les travaux de la thèse font partie de deux projets :
Le projet SAIMSI (Suivi Adaptatif Interlingue et MultiSource des
Informations)
Le projet SAIMSI1., financé par l’ANR, conduit à développer une plateforme
d’intégration d’informations multi-sources ouvertes multilingues concernant des entités
nommées pour la détection de signaux faibles dans le cadre des missions de protection des
citoyens face aux menaces intérieures ou extérieures. La plateforme agrège des informations
de toutes sources (base de données existante, rapports, publication ou flux public internet,

1
[Link]

Page 6
web 2.0...), de média (texte, parole) ou de langue et de système d’écriture (français, anglais,
arabe, russe…). Elle doit permettre de discriminer les informations sur des entités
homonymes. Elle doit aussi permettre d’attribuer un texte ou une parole à un auteur même si
ce texte n’est pas signé ou le locuteur authentifié. Les technologies utilisées feront un large
appel à des analyses linguistiques multilingues profondes, à une extraction et normalisation
inter-lingue d’informations structurées en fonction des besoins métiers et à une normalisation
des entités nommées (personnes, sociétés, lieux, dates, mesures).
Ce projet regroupe cinq partenaires : des industriels et des laboratoires de recherche.

 GEOLSemantics est le leader du projet, développe le text mining interlingue, des

bases de données textuelles et du traitement de la parole.
 Cassidian est l’architecte du système basé sur la plate-forme Weblab. Il est aussi
l’intégrateur des différents modules et en fournit certains.
 Mondeca est en charge de la construction de la base de connaissance, des
raisonnements automatiques, de la gestion et de l’utilisation de la base de
connaissance.
 Le LIP6 est en charge des technologies de reconnaissance de l’auteur ainsi que des
méthodes d’évaluation.
 L’IREENAT est en charge des aspects juridiques et déontologiques du projet.
 SAIMSI Partenariat : biométrie vocale d’Agnitio, transcription de parole Vocapia
research

Le projet ORELO (Origine des Rédacteurs et des Locuteurs)

Le projet ORELO a été financé dans le cadre du programme RAPID par la DGA et la
DGE. Ce projet a pour but de mettre au point des techniques d'identification de l'origine
dialectale arabe d'un texte écrit en caractères arabes ou en écriture latine ou d'une parole.
Cette reconnaissance permet d’apprécier l’origine géographique et communautaire des
internautes de langue maternelle arabe. Ce travail est une étape indispensable pour permettre
ultérieurement de suivre leurs échanges afin de recueillir les traces de leur parcours sur
Internet.
De plus, les ressources linguistiques ainsi constituées (corpus et dictionnaires) sont une
première étape vers une analyse du contenu des textes écrits en dialecte. En effet, la
constitution de corpus de textes arabes en écriture latine, donc phonétique, permet de
constituer à faible coût des modèles de langage pour la reconnaissance de la parole. D’autre
part, l’approche de reconnaissance du dialecte proposée par GEOLSemantics s’appuyant sur
des dictionnaires de termes propres à chaque dialecte prépare de futurs travaux sur l’analyse
linguistique du contenu de ces dialectes.
Le projet ORELO est l’œuvre d’une réflexion commune entre GEOLSemantics, société
spécialisée dans le traitement sémantique multilingue pour la sécurité, et la société Vocapia
Research et le laboratoire LIMSI qui sont tous deux reconnus dans le domaine de la
transcription automatique de la parole multilingue.
Le cadre des projets SAIMSI et ORELO a permis de mettre en place un contexte précis
pour mes recherches qui se sont focalisées essentiellement sur le traitement automatique de la
langue arabe standard et dialectal, ainsi que sur la construction et l’amélioration des systèmes
d’analyse automatique complète des textes intégrant ces diverses variétés d’arabe.

Page 7
Organisation de la thèse
Ce manuscrit comprend cinq parties principales. La première partie théorique est
constituée de deux chapitres. Le premier chapitre présente la linguistique de la langue arabe
standard et sa morphologie, puis le deuxième chapitre présente la langue arabe dialectale.
Dans le chapitre 1, nous décrivons brièvement la linguistique de la langue arabe standard.
Le système d'écriture de la langue arabe est présenté. Nous présentons de même le lexique et
la grammaire ainsi que la morphologie flexionnelle. Par la suite, nous décrivons les problèmes
d'analyse qui posent le traitement automatique de la langue arabe.
Le chapitre 2 est dédié à une présentation de la langue arabe dialectale et de ses
spécificités. Nous avons commencé par présenter la langue arabe ainsi que ses variantes
utilisées, à savoir : l'arabe classique, l'arabe moderne standard (MSA) et l'arabe dialectal.
Ensuite, nous avons mis l'accent dans ce chapitre sur les variétés de l’arabe dialectal. Par la
suite, nous décrivons (une section y a été consacrée) un état de l'art sur la situation
linguistique de la langue dans le monde arabe. Cela nous a conduit à donner un aperçu
historique de l’arabe algérien. Finalement, nous faisons une étude qui compare l'arabe
algérien, tunisien, égyptien et l'arabe standard sur plusieurs niveaux : phonologique,
morphologique, orthographique, lexical et syntaxique.
La deuxième partie présente notre système d'analyse linguistique profonde de la langue
arabe, et est constituée de deux chapitres.
Dans le chapitre 3, nous décrivons notre système de l'analyse morphosyntaxique. Nous
passons en revue les travaux effectués pour le traitement automatique de l'arabe standard.
Ensuite, nous présentons le fonctionnement ainsi que les différentes étapes de notre analyseur
linguistique : la tokenisation ; l'analyse morphologique qui permet la segmentation des formes
agglutinées. La désambiguïsation ainsi que les transformations morphologiques sont présentés
dans ce chapitre. Finalement, nous décrivons la phase d'analyse syntaxique qui permet
d'identifier les relations syntaxiques dans les groupes nominaux et verbaux.
Le chapitre 4 est consacré au traitement des entités nommées (ENs) en arabe
(problématique de repérage et de typage des entités nommées en arabe). La typologie des
entités nommées ainsi que les principales applications qui utilisent les entités nommées sont
présentées dans ce chapitre. Par la suite, nous exposons les particularités de la langue arabe
liée à la détection des entités nommées. Nous décrivons ensuite un éventail des travaux ayant
comme focus la proposition de systèmes de reconnaissance des entités nommées en arabe.
Ces systèmes sont à base de règles, statistiques ou hybrides. Notre approche de détection et de
typage des entités nommées est décrite dans ce chapitre. Finalement, nous détaillons la
méthode de reconnaissance des noms propres de type personne, lieu et organisation ainsi que
la méthode de reconnaissance des expressions numériques.

La troisième partie de cette thèse est consacrée à l'étude complète et approfondie de la

morphologie dialectale de la langue arabe. Cette partie a été inspirée de deux références
principales (Gadalla, 2000) et (Marçais, 1902). Elle est constituée de quatre chapitres.
Le chapitre 5 est dédié à une analyse phonologique de la langue arabe (standard et
dialectale). Nous présentons les principaux préliminaires phonologiques, qui sont répartis
dans les systèmes consonantiques et vocaliques. De ce fait, nous présentons et comparons les
systèmes consonantiques de l’arabe standard (MSA) et de l’arabe dialectal. Ensuite nous
décrivons leurs systèmes vocaliques. Finalement, nous passons en revue les alternances
phonologiques, appelées aussi les variations ou dégradations phonologiques à savoir :

Page 8
l'assimilation, la métathèse, l’emphase, l'épenthèse, l'élision, et le raccourcissement.
Dans le chapitre 6, nous présentons une étude détaillée de l'analyse morphologique
verbale, en comparant le MSA et l'arabe dialectal égyptien, tunisien et quelques particularités
de l'algérien. Nous décrivons les différentes classes de verbes : les verbes trilitères (les verbes
sonores, géminés, glottalisés et les verbes faibles) et les verbes quadrilatères. Puis, nous
exposons les différents traits de flexion utilisés en MSA et en arabe dialectal. Ces traits
comportent : l'aspect, le mode ainsi que la voix.

Le chapitre 7 est consacré à une présentation de l'analyse morphologique nominale d'une

part en arabe standard (MSA), et d'autre part en arabe dialectal (égyptien et algérien). Nous
décrivons les principales classes des noms : les noms primaires qui sont directement dérivés
de la racine, et les noms déverbaux qui sont, eux, dérivés des verbes. Ensuite, nous exposons
les formes des racines des noms primaires ainsi que les modèles des noms déverbaux. Par la
suite, nous présentons la différence entre les noms définis et indéfinis. Finalement, nous
décrivons les différents traits de flexion des noms, à savoir : le cas, le genre et le nombre.
Dans le chapitre 8, nous présentons la morphologie des adjectifs en MSA et arabe
égyptien (AE) et arabe algérien (AA). Nous décrivons les formes des racines adjectivales
ainsi que la différence entre les adjectifs définis et indéfinis. Ensuite, nous exposons les
différents traits de la flexion des adjectifs, à savoir : le cas, le genre et le nombre. Puis, nous
présentons les différents degrés de la flexion. Finalement, nous présentons les adjectifs
relationnels.
La quatrième partie présente essentiellement nos contributions à la constitution des
ressources, et est constituée de trois chapitres. Chaque chapitre permet de répondre à l'une ds
questions que nous nous sommes posées tout au long de cette thèse. Comme nous l'avons déjà
mentionné, depuis plus d'une décennie, la constitution des lexiques et des corpus dialectaux
constitue un champ d'investigation très animé, qui a attiré l'attention de nombreux chercheurs.
Cette tâche a pour objectif de pallier la carence en ressources en arabe dialectal, nécessaires
pour le développement d’outils de traitement automatique des langues. Cette constitution des
ressources linguistiques est la principale tâche à laquelle nous nous sommes intéressés et que
nous avons traitée dans ce manuscrit. La première question que nous nous sommes posées
était donc :
Q1 : Quelles sont les sources qui pourraient etre exploitees pour constituer des
lexiques dialectaux ?

Le chapitre 9 répond à cette question en décrivant notre méthode de constitution des

lexiques dialectaux à partir des lexiques MSA et à partir des mots translittérés en écriture
latine. D’une part, l’approche de constitution de lexiques dialectaux a été décrite en détails.
D’autre part, Nous présentons deux méthodes différentes pour la constitution de ces lexiques.
La première méthode consiste à dériver à partir des ressources MSA des lemmes dialectaux,
alors que la deuxième approche consiste à utiliser des dictionnaires et des corpus écrits en
latin, et de proposer une approche de translittération afin d'exploiter cette source. Lors de cette
tâche de transcription, nous avons été confronté à la problématique d'absence de convention
de transcription admise par la communauté scientifique. À ce sujet, il convient de signaler
qu'il n'existe pas de norme commune ni de stratégie unifiée pour la transcription automatique
du dialecte. Pour résoudre cette carence, nous avons développé une convention d’écriture
nommée CODA (Saâdane et Nizar, 2015). Ensuite, nous avons décrit les principales lignes
directrices de CODA (la Convention Orthographique des Dialecte).
Lors de la constitution des lexiques dialectaux ainsi que lors de la tâche de la

Page 9
reconnaissance et de typage des entités nommées, nous avons mis l'accent sur le phénomène
de la transcription/ translittération des mots et surtout les mots empruntés ou encore les noms
propres étrangers. Dans le même registre, nous notons qu'une forme transcrite peut donner
une indication sur l'origine de l'auteur (francophone ou anglo-saxonne). Afin de réduire
l'impact d'un tel problème, nous avons développé un système de transcription/translittération
des noms propres (et qui a été étendu et utilisé pour la transcription des mots). La
translittération connait un essor important en raison du caractère de plus en plus multilingue
de l’Internet et des besoins exponentiels dans le domaine de la recherche d’information
interlingue. Cela est d’autant plus vrai pour la recherche d’entités nommées (noms de
personnes, de lieux, de sociétés, d’organisations, etc.), mais ces dernières présentent une
pluralité de formes écrites, d’orthographes et de transcriptions selon les langues et les pays.
Le cas des noms propres en arabe illustre cette situation complexe et multiforme. Le meilleur
exemple pour montrer cette pluralité est le nom ‫( معمر القذافي‬Mouammar Kadhafi) qui est
transcrit en latin par plus de 60 formes, parmi lesquelles : Muammar Qaddafi, Mo'ammar
Gadhafi, Muammer Kaddafi, Moammar El Kadhafi, etc. Ceci nous a mené à nous poser les
questions suivantes :

Q2 : Quelle est la strategie des pays arabe dans le domaine de la translitteration ?

Q3 : Y a-t-il une strategie arabe unifiee en ce domaine ?
Q4 : Existe-t-il une strategie de translitteration au niveau de chaque pays arabe?

Dans le chapitre 10, nous étudions la translittération des noms arabes en écriture latine et
inversement. Nous présentons dans ce chapitre les différents aspects liés au sujet de la
translittération, à savoir l'aspect linguistique, l'aspect cognitif et dialectologique. Nous
dressons ensuite un état de l’art sur le domaine de la translittération (les principaux travaux
connexes au domaine de la translittération) suivi d’une description des approches que nous
avons utilisées pour développer notre système de translittération automatique des noms arabes
voyellés et non voyellés vers les différentes transcriptions possibles en écriture latine. Puis,
nous présentons notre méthode de transcription des noms arabes en écriture latine vers l'arabe.
Nous validons notre technique dans en présentant des expérimentations utilisant des moteurs
de recherche de référence.

D'autres questions nous intéressent :

Q5 : Quelles sont les sources qui pourraient etre exploitees pour constituer des
corpus representatifs de la langue utilisee dans les blogs et les forums de langue arabe ?
Q6 : Comment peut-on identifier la region dont releve le dialecte considere ?
Comment trier, classer et regrouper des productions langagieres par origine
geographique ?

Le chapitre 11 répond à ces questions en décrivant notre système de constitution des

corpus dialectaux rédigés à la fois en écriture arabe et latine. Nous présentons un éventail de
travaux ayant comme focus la constitution des corpus pour les dialectes arabes. Ensuite, nous
détaillons les différentes étapes et démarches suivies pour la constitution de ces corpus. Nous
commençons par effectuer une étude sur les sites identifiés et exploités pour la constitution
des corpus. Par la suite, nous décrivons les outils utilisés pour la récupération des données,
ainsi que les étapes d'extraction des données. Nous présentons par la suite la démarche
adoptée pour l'annotation des corpus et l'identification des dialectes, autrement dit
l'identification de l'origine dialectale des internautes. Nous présentons dans ce chapitre un
aperçu sur les difficultés de l'identification des dialectes, ainsi que les applications qui

Page
10
l'utilisent. Nous rappelons que l'annotation est faite au niveau des mots et des textes écrits en
arabe et en caractères latins (Arabizi). Nous présentons également notre interface
d'annotation, permettant de visualiser les résultats, et qui, par conséquent, facilite la validation
des résultats de notre analyse linguistique d'une part, et permet d'annoter manuellement les
mots hors vocabulaire afin d'enrichir nos dictionnaires initiaux d'autre part. Finalement, nous
exposons quelques traits extraits pour la reconnaissance automatique des dialectes arabes.

La cinquième partie de cette thèse est consacrée aux expérimentations et évaluations qui
ont été réalisées. Elle est constituée de trois chapitres
Ce chapitre est consacré à la présentation du système d'extraction de GEOLSemantics.
Nous décrivons par la suite la chaine de traitement qui est divisée en trois modules
complémentaires. Les deux premiers modules reposent sur une expertise acquise depuis des
années dans le domaine du traitement automatique des langues. A partir d’un texte en langage
naturel donné en entrée (la langue arabe dans notre cas), nous procédons à une analyse
syntaxique profonde afin d’identifier les relations syntaxiques entre les différents unités de la
phrase. Vient par la suite, l’extraction de connaissances consistant à formaliser ces relations
sous forme sémantique. A l’issue de ces deux modules, nous disposons d’une extraction des
connaissances formalisée en RDF. L’étape de mise en cohérence complète le traitement. Elle
aide à pallier quelques lacunes dans le résultat RDF dues au traitement intraphrase des deux
analyses précédentes.
Pour estimer l’efficacité de notre système, nous avons mené deux types d’évaluations :
une évaluation quantitative concernant la phase de segmentation et la phase d’extraction
d’entités nommées, et une évaluation qualitative de l'extraction de connaissances. Une
comparaison de notre outil à un autre outil de segmentation a été réalisée. Les résultats
montrent que notre outil est aussi performant que l'autre outil au niveau de la segmentation.
La particularité de notre outil est qu’il est beaucoup plus rapide et analyse toutes les entrées
lexicales. Ensuite, nous avons effectué nos expériences sur notre système d’extraction
d’entités nommées. Finalement, une évaluation qualitative a été effectuée pour estimer la
performance de nos règles d'extraction de connaissances.

Avant de passer à la phase de reconnaissance des dialectes, nous avons d'abord procéder à
la vérification des résultats établis lors de la construction de nos ressources linguistiques, ce
que nous avons développé comme lexiques dialectaux. Une série d'expérimentations et de
tests d'évaluation de la couverture des ressources linguistiques développées pour les quatre
dialectes a été effectuée dans le deuxième chapitre.
Le deuxième aspect concerne l’identification du dialecte aussi bien sur de l’arabe
dialectal écrit en écriture latine qu’en écriture arabe. Notre approche consiste à utiliser des
dictionnaires, en particulier des dictionnaires des mots les plus discriminants. Elle permet plus
facilement de donner une valeur de rejet si le texte n’appartient à aucune des langues ou
dialectes considérés. Elle permet aussi de déterminer les changements de langue.

Dans la perspective d’évaluer l’impact de l’utilisation de la translittération de noms

propres sur la qualité d’un lexique bilingue français-arabe produit par l’outil d’alignement de
mots intégrant la translittération, nous présentons dans le troisième chapitre, d’une part un
outil d’alignement de mots simples et composés à partir de corpus de textes parallèles
français-arabe, et d’autre part, les résultats d’évaluation de ce lexique bilingue selon deux
approches différentes :

Page
11
– une évaluation manuelle comparant les résultats de notre aligneur de mots par rapport à
un alignement de référence,
– une évaluation de l’impact de cet alignement sur la qualité de traduction du système de
traduction automatique statistique Moses
Les résultats obtenus montrent que la translittération améliore aussi bien la qualité de
l’alignement que celle de la traduction.

Nous concluons ce mémoire de recherche en rappelant l’ensemble des contributions

réalisées, puis nous exposons les différentes perspectives ouvertes par nos travaux.

Page
12
Partie I : description de
l’arabe standard et dialectal

Page
13
Chapitre 1 La Linguistique
de la langue arabe

Page
14
Introduction
Ce chapitre est consacré à la définition et à la présentation de la langue arabe moderne
standard (MSA) et de ses spécificités. Dans la section 1.1, nous avons commencé par une
présentation générale de la langue arabe. Nous présenterons également le système d’écriture
de l’arabe dans la section 1.2. La section 1 .3 est dédiée à une présentation du lexique et de la
grammaire de la langue arabe. Nous exposons ensuite la morphologie flexionnelle dans la
section 1.4. Finalement, la section 1.5 est consacrée à exposer les problèmes d'analyse du
traitement automatique de la langue arabe

1.1. Présentation de la langue arabe

La langue arabe est l’une des langues les plus parlées et utilisées dans le monde. Elle
est la langue officielle de plus de 22 pays parlée par plus de 320 millions de personnes et elle
est utilisée comme vecteur de transmission religieux pour tous les croyants musulmans au
nombre de 1 milliard et demi à travers les cinq continents du globe. Elle constitue ainsi un
élément principal dans la culture et la pensée d’une partie importante de l’humanité et du
patrimoine mondial.

A l’origine, les peuples de la péninsule arabe tenait le monopole de cette langue qui est
sémitique (comme l’hébreu ou l’araméen), mais du fait qu’elle est la langue du coran elle
s’est étendue au-delà du golfe arabo-persique, atteignant l’Afrique du nord et l’Asie mineur.
De plus, l’expansion territoriale de l’empire musulman a fait de l’arabe une langue
d’administration, de culture et de sciences à travers son utilisation dans la définition et la
rédaction des contrats et des lois, la rédaction de manuscrits et de livres, la transmission et la
formation, etc. Par ailleurs, la diversité des populations arabes et de leurs cultures ont fait
émerger différentes variantes de l’arabe allant de l’arabe classique utilisé dans le coran, à
l’arabe standard moderne (ASM) – sur lequel nous avons focalisé notre étude dans ce chapitre
- représentant l’arabe officiel employé actuellement dans la presse, les documents officiels,
etc; en passant par l’arabe dialectal influencé par les spécificités historiques et culturelles
locales des populations constituant le monde arabe.
Historiquement, l’arabe tient ses origines au 2ème siècle et malgré son utilisation les premières
traces écrites comme on la connait actuellement remontent au 6ème siècle. Ce fait peut être
expliqué par l’analphabétisme des populations de l’époque qui communiquaient plus
oralement que par écrits. L’apparition de l’islam a fait sortir l’arabe de son territoire d’origine
et lui a donné une dimension internationale, en raison de son utilisation comme langue seule
et unique pour tous les devoirs et rituels religieux, et du fait que le coran, comme texte sacré,
ne peut être lu ou écrit qu’en arabe. Cette nouvelle dimension a multiplié considérablement
l’utilisation de l’arabe dans les communications et échanges oraux et surtout écrits.
Cette expansion à la fois géographique et fonctionnelle a rapidement généré des
réflexions sur la structuration et l’organisation de cette langue, mais aussi des intégrations et
des emprunts de mots depuis et vers d’autres langues comme le français, le perse, le turc, etc.
Vers le 9ème siècle, deux écoles linguistiques sont apparues en Irak et ont mis en place les
bases d’une science du langage basée sur l’arabe. La controverse entre ces deux écoles, en
occurrence celle de Basra (drivé par al-Mazini et al-Mubarrid) et celle de Kufa (mené par al-
Kisä’i et la’lab), a permis de développer la grammaire de l’arabe2.

2
Voir : [Link]

Page
15
1.2. Système d’écriture de l’arabe
Comme mentionné dans la section précédente, l’arabe est classé sous le groupe des
langues sémitiques contemporaines qui s'écrit de droite à gauche. Son système graphique se
compose d'un alphabet arabe de type abjad constitué de 28 lettres. Cet alphabet contient 25
consonnes et 3 voyelles longues « ‫ «و‬,» ‫ »ا‬et « ‫»ي‬. L’écriture arabe comporte aussi des
voyelles courtes qui sont généralement facultative mais essentielles dans les textes religieux
(Coran, Hadith, etc.). Il existe de plus, une série d'autres diacritiques dont les plus courants
comme l’indication de l'absence de voyelle ( ‫سكون‬- sukun) et la gémination des consonnes ( ‫شدة‬
- shadda). En arabe les mots indéfinis, qui ne sont pas associé à des articles ou à des
compléments du nom, prennent les désinences (nounatation ou tanwine) notées par des
diacritiques spéciaux.

Voyelle courte Transcription Nom

‫ـَـ‬ A Fatha
‫ـُـ‬ U Damma
‫ـِـ‬ I Kasra
‫ـْـ‬ E Sukun
‫ـّـ‬ Doublement Shadda
‫ـًـ‬ Aa Fathatan
‫ـٌـ‬ Uu Dammatan
‫ـٍـ‬ Ii Kasratan
Tableau 1. 1. Les voyelles courtes en arabe

Nous signalons également que les notions de lettres majuscules et de lettres

minuscules n'existent pas dans la langue arabe (l'écriture est donc monocamérale). Aussi,
l’arabe est semi cursive dans le sens où son alphabet est unique mais la forme des lettres
change en fonction de la position qu’elles occupent dans le mot. Chaque lettre possède une
forme spécifique en fonction de sa position dans un mot (au début, au milieu ou à la fin) ou si
elles sont utilisées de façon isolée.

1.3. Lexique et grammaire

Dans cette section nous donnons une présentation sommaire du lexique et grammaire
de la langue arabe, tout en mettant l’accent sur les éléments qui seront pris en charge en
priorité dans notre étude. Nous trouvons différentes structuration du lexique de l’arabe, basées
essentiellement sur les sous-ensembles : noms, verbes et particules, et augmentées avec
d’autres sous-ensemble afin d’avoir suffisamment d’éléments pour un traitement automatique
de la langue. Nous trouvons entre autres les classifications de (Kouloughli, 1991) et (khoja et
al., 2001). Nous considérons dans étude une classification proche de celle de (khoja et al.,
2001) ayant les éléments suivants :
1.3.1. Nom
Est une entité ou un élément qui exprime un sens indépendamment du temps pour
désigner un objet ou un être. Nous pouvons répartir les noms en trois catégories selon le
système morphologique comme suit :
a. Les primitifs : sont les noms qui constituent le glossaire fondamental de la langue
arabe, et représentent les noms qui ne peuvent pas être rattachés à une racine verbale.
Cette catégorie inclue aussi les noms propres, les noms communs et les racine
bilitères. Par exemple, nous citons ‫ رأس‬raa’s ‘tête’, ‫‘ محمد‬Mohammed’ et ‫ فم‬fam
‘bouche’.

Page
16
b. Les dérivés : sont les noms formés à partir d’une racine verbale. Le statut de cette
dernière détermine la nature et le nombre de ces formes. Nous trouvons dans cette
catégorie les participes actifs ( – ٌ‫ارب‬ِ ‫ض‬
َ celui qui frappe), les participes passif ( – ‫مضروب‬
frappé), les noms de lieux ou de temps ( – ُ‫ َمضْ ِرب‬lieu de frappe), le nom d’instrument
( ٌ‫ ِمضْ َرب‬- raquette), le nom d’une fois ( – ‫ضربة‬une frappe), etc.
c. Les nombres : ce sont les numéros simples représentant les unités (de ‘– ’‫صفر‬sifr :
zéro- à ‘– ’‫تسعة‬tis’at : neuf-), les dizaines (‘– ‫عشرون‬ishruwn :vingt-) et les centaines
(‘ ’‫مئة‬- : cent-), etc ; et les numéros composés comme les cardinaux, par exemple ‘ ‫ستة‬
– ’‫عشر‬seize.
1.3.2. Verbe
Est une entité portant un sens dépendant du temps et qui exprime une action, ou un
événement. Les verbes arabes sont formés sur des radicaux de trois consonnes comme le
verbe "‫( " َد َخ َل‬dakhala - entrer) et encore sur quatre consonnes comme le verbe "‫( "لَ ْملَ َم‬lamlama
- …). Ces racines peuvent donner naissance à d’autres schèmes ou patrons à travers des
transformations morphologiques, comme le redoublement d’une consonne ou allongement
d'une voyelle, donnant lieux à ce que nous appelons les racines à schème augmentées. Selon
ces racines nous avons la classification de verbe suivante :

 Verbe à racine simple : verbe à trois consonnes et associer au schème "‫( "فَ َع َل‬fa'ala).
Si le verbe ne contient pas une voyelle longue, on l'appelle verbe sain (‫)صحيح‬. Dans le
cas contraire, appelé verbe ‫(معتل‬mou3tale), nous distinguons les cas suivants en
fonction de la voyelle longue et de sa position :
 verbe mahmouz (‫ )مهموز‬: si l'une des consonnes radicales est le glide "‫( "أ‬hamza),
quel que soit sa position dans le verbe ;
 verbe assimilé ( ‫مثال‬- mithal) : si la 1ère consonne radicale est le glide "‫( "و‬w -
wâw) ou "‫( "ي‬y – yâ’)
 verbe creux ( ‫أجوف‬- ajwaf) : si la 2ème consonne radicale est "‫( "و‬w) ou "‫( "ي‬y)
 verbe défectueux ( ‫ناقص‬- naâqis) : si la 3ème consonne radicale est l’un des glides
"‫( "و‬w) ou "‫( "ي‬y)

Par ailleurs, une autre classe de verbe existe et s’appelle verbe redoublé ( ‫مضاعف‬-
mudaâ'if). Elle est caractérisée par la présence dans un verbe de deux consonnes
identiques en deuxième et troisième position du radical

 verbe à racine augmentée : ce type de verbe est obtenu, comme indiqué ci-dessus,
par des opérations morphologiques appliquées à des racines simples afin de donner un
sens particulier. Il existe différentes opérations utilisées, mais au final ces opérations
intègrent une ou plusieurs lettres de l’ensemble rassemblé dans le mot ( ‫س َأ ْل ُم ُتونِيهَا‬
َ -
saaltemouniha). Parmi les fonctions morphologiques utilisées, nous citons :
 le redoublement : qui consiste généralement à redoubler la deuxième consonne
radicale du verbe, les verbes obtenus suivent le schème « ‫( »فَ َّع َل‬fa’’ala)
 l’allongement : cette opération est réalisée par l’ajout du glide "‫( "ا‬alif) à la
première consonne radicale, ce qui donne le nouveau schème « ‫( »فَاع ََل‬faâ’ala)
 l’adjonction : cette opération permet d’ajouter une ou plusieurs lettres à la racine
radicale dans des positions différentes tel que :
 adjonction d’un morphème des trois consonnes " َ‫( "اِسْت‬ista) au début de la
racine radicale du verbe. Cette opération donne naissance à nouveau schème
qui a la forme « ‫( »اِ ْستَ ْف َع َل‬istaf’ala)
 adjonction du glide "‫( "ا‬alif) au début de la racine radicale et l’ajout du
morphème consonantique "‫( "ت‬t) après la première consonne, les verbes

Page
17
obtenus suivent le nouveau schème « ‫( »اِ ْف َت َع َل‬ifta’ala)
 adjonction du morphème consonantique "‫( "ت‬t) pour les verbes à racine
quadratique (racine de quatre lettres) donnant le schème « ‫( »تَفَ ْعلَ َل‬tafa’lala)
 adjonction du glide "‫( "ا‬alif) au début de la racine quadratique et l’ajout du
morphème consonantique "‫( "ن‬n) après la deuxième consonne. Cette opération
morphologique produit le schème « ‫( »اِ ْف َع ْنلَ َل‬if’alala)

1.3.3. Pronoms
En arabe, les noms invariables sont appelés des pronoms, et ils possèdent une structure
et une flexion uniques quelle que soit leur place dans la phrase. Ils contiennent un type
particulier et jouent une fonction syntaxique précise dans la langue. Nous citons entre autres
les types suivants :
o Les pronoms personnels : sont des noms utilisés pour remplacer un nom ou désigner
une personne ou un objet qu’ils soient absents, auditeurs ou locuteurs. Dans notre
travail, nous étudions les pronoms personnels isolés et collés.
a. Pronoms personnels isolés (‫ )ضمائر منفصلة‬: Il s'agit des pronoms qui ne collent pas
ni aux noms ni aux verbes. Ils s'écrivent seuls et détachés du nom. Nous classons
ces pronoms dans les trois catégories résumées dans le tableau suivant :

Type de la personne Genre Pronom

1ère personne Singulier '‫( 'أَنَا‬anaâ - je)
(‫ال ُمتَ َكلِّم‬-El motakalim : locuteur) Pluriel ' ُ‫( 'نَحْ ن‬nahnu - nous).
2ème personne Masculin ' َ‫( 'أَ ْنت‬âanta – tu)
Singulier
( ‫ال ُم َخاطَب‬-Elmokhatab : Féminin ِ ‫( 'أَ ْن‬âanti – tu)
'‫ت‬
auditeur) Duel '‫( 'أَ ْنتُ َما‬ântimaâ – vous)
Masculin '‫( 'أَ ْنتُ ْم‬âantum – vous)
Pluriel
Féminin ' َ‫( 'أَ ْنتُّن‬âantunna – vous)
3ème personne Masculin '‫( 'هُو‬huwa – il)
Singulier
( ‫ال َغائِب‬- El gha’ib : absent) Féminin '‫( ' ِه َي‬hiya – elle)
Duel '‫( 'هُ َما‬humaâ – ils)
Masculin '‫( 'هُ ْم‬hum – ils)
Pluriel
Féminin '‫( 'ه َُّن‬hunna – elles)
Tableau 1. 2. Les pronoms personnels isolés
b. Pronoms personnels collés (‫ص َلة‬ِ َّ‫ض َمائِر ال ُمت‬
َّ ‫ )ال‬: les pronoms de ce type se trouvent
collés à la fin des noms ou des verbes. Parmi ces pronoms nous citons :
 Ha’ El gha’yba (‫ )هاء الغائبة‬: en français peut désigner son, sa, ses.
 Kaf el khitab ( ‫ )كاف الخطاب‬: en français peut désigner ton, ta, tes, votre ,
vos.
 Ya’ El motakalim (‫ )ياء المتكلم‬: en français peut désigner mon, ma, mes.
 Noun El motakallimine ( ‫ )نون المتكلمين‬: en français peut désigner notre,
nos, nous (quand c’est collé à un verbe).

o Les pronoms démonstratifs ( – ‫أسماء اإلشارة‬asmaâ' ichaâra) : ces pronoms sont

utilisés pour indiquer une ou plusieurs entités. Cette indication permet de situer l’entité
dans l’espace, le temps ou tout simplement dans les textes et cela en fonction du
contexte de la phrase. Ces pronoms ne sont déclinables qu’au duel. Les pronoms
démonstratifs sont classés en deux classes selon la distance qu'ils désignent, les
démonstratifs de proximité ((hawulaâ - ceux-ci) ‫هَؤ ََُلء‬, et ‫(هَ َذا‬hadaâ – lui-ci) et les

Page
18
démonstratifs d'éloignement par exemple’ ’‫(أُولَئِك‬ûuwlaâyika - ceux-là). Le tableau ci-
après résume l’ensemble de ces pronoms démonstratifs.

Démonstratif de proximité Démonstratifs d’éloignement Caractéristiques

‫ هُنَالِك‬/‫هُنَاك‬ ‫هُنَا‬ Propre au lieu
Subjonctif & génitif Nominatif Subjonctif & génitif Nominatif Cas du nom
‫ ذلك‬/ ‫ذاك‬ ‫ ذلك‬/ ‫ذاك‬ ‫هذا‬ ‫هذا‬ Singulier
‫ذينك‬ ‫ذانك‬ ‫هذين‬ ‫هذان‬ Duel Masculin
‫أوَللك‬/‫أولئك‬ ‫أوَللك‬/‫أولئك‬ ‫هؤَلء‬ ‫هؤَلء‬ Pluriel
‫تلك‬ ‫تلك‬ ‫هذه‬ ‫هذه‬ Singulier
‫تينك‬ ‫تانّك‬ ‫هاتين‬ ‫هاتان‬ Duel Féminin
‫أوَللك‬/‫أولئك‬ ‫أوَللك‬/‫أولئك‬ ‫هؤَلء‬ ‫هؤَلء‬ Pluriel
Tableau 1. 3. Les pronoms démonstratifs

o Les pronoms relatifs ( – ‫أسماء موصولة‬asmaâ' mawsuwla) : Il s'agit d'un nom placé
avant une phrase appelée lien de conjonction contenant une information qui complète
le sens de la phrase principale. L’ensemble de ces pronoms sont résumés dans le
tableau suivant :

Nominatif Subjonctif & génitif Cas du nom

‫الَّذي‬ ‫الَّذي‬ Singulier
‫اللَّ َذان‬ ‫اللَّ َذين‬ Duel Masculin
‫اللَّ ِذين‬ ‫اللَّ ِذين‬ Pluriel
Pronom
‫الَّتِي‬ ‫الَّتِي‬ Singulier
‫الَّلَتَان‬ ‫الَّلَتَين‬ Duel Féminin
‫ الََّلئي‬/ ‫الَّ ََلتِي‬ ‫ الََّلئي‬/ ‫الَّ ََلتِي‬ Pluriel
Tableau 1. 4. Les pronoms relatifs

1.3.4. Les mots outils

Sont des entités ou des particules clés employées pour situer des objets et des faits par
rapport au temps et à l’espace et assurer ainsi un enchainement cohérent du texte. De plus, ils
constituent des éléments importants dans l’interprétation du sens d’une phrase. Nous
distinguons plusieurs types de ces mots, comme introduction, explication, conséquence, en
fonction de leur sémantique et rôle dans la phrase. Parmi ces mots nous citons à titre
d’exemple les éléments suivants :
 Les prépositions : ‫ فَوْ ق‬,‫فِي‬
 Les particules : ‫ لَ ْن‬,‫ لَ ْم‬, َ‫َك ْيف‬
 Les conjonctions de coordination : ‫ أَ ْم‬,‫ َو‬,‫ثُ ّم‬
 Les conjonctions de subordination : ‫ بَ ْينَ َما‬,‫ح ْيثُ َما‬,
َ
 Les quantificateurs : ‫ ُك ّل‬,‫بَعْض‬
 Les adverbes : ‫خي ًرا‬ ِ َ‫ أ‬,‫أَبَدًا‬

1.4. Morphologie flexionnelle:

La flexion en linguistique est une opération de dérivation, qui ne crée pas de nouveaux

Page
19
mots, mais qui permettant d’appliquer des modifications sur un lemme afin de dénoter des
traits grammaticaux souhaités. Elle possède deux catégories : la déclinaison pour le système
nominal et la conjugaison pour les verbes. Toute langue utilisant cette opération est appelée
langue flexionnelle, et l’arabe en est une. En arabe, la flexion se concrétise par l’ajout des
suffixes et préfixes (Blachère et Gaudefroy, 1966) aux lemmes pour refléter des indices
d’aspects, de mode, de temps, de personne, de genre, etc. Dans la suite de cette section nous
détaillons ces opérations selon les deux axes : déclinaison et conjugaison.

1.4.1. Flexions des verbes (conjugaison)

Les verbes possèdent une forme particulière de variation, que l'on appelle la
conjugaison. La plupart des mots en arabe, dérivent d'un verbe de trois lettres, par conséquent
chaque verbe est la racine d'une famille de mots. Ces mots sont obtenus en en ajoutant des
suffixes ou des préfixes à leur racine. Le paradigme de la conjugaison est déterminé par
certaine valeurs liées au genre, mode et structure morphosyntaxique du verbe. Ces valeurs
peuvent être résumées comme suit :
Le temps (accompli, inaccompli)
Le nombre du sujet (singulier, duel, pluriel)
Le genre du sujet (masculin, féminin)
La personne (première, deuxième et troisième)
Le mode (actif, passif).
Nous présentons dans le tableau suivant une idée globale sur la répartition de ces valeurs de
conjugaison.

Genre du verbe

Transitif
Intransitif
Voix Active Voix Passive

Paradigme de conjugaison

Accompli Inaccompli Impératif

[Link]. Genre du verbe : Trait grammatical

En arabe, un verbe peut se contenter seulement d’un sujet pour accomplir le sens de la
phrase, comme dans Aspect
la phrase → ‫الطفل‬ Modalités
‫نام‬l'enfant a dormi,Temporalité
dans ce cas-là nous l’appelons
verbe intransitif, le cas échéant nous l’appelons verbe transitif. Toutefois, les verbes transitifs
peuvent avoir besoin de un ou plusieurs compléments pour compléter le sens de la phrase, par
exemple dans la phrase → ‫كتب الشاعر قصيدة‬l'écrivain a écrit un poème, nous trouvons un seul
complément, contrairement à la phrase → ‫سأل الصحافي الوزير سؤاَل‬le journaliste a posé une
question au ministre, qui comporte deux compléments nécessaires pour la compréhension de
la phrase. Quel que soit le verbe, il est conjugué dans la forme active, sauf pour les verbes
transitifs, de par leur besoin d’un complément, qui peuvent être exprimés dans la forme
passive où l’agent est éliminé et le complément du verbe actif devient pro-sujet. Par exemple :
la phrase dans la forme active, → َ‫أَ َك َل الول ُد التفاحة‬l'enfant a mangé la pomme, devient dans la
forme passive : → ُ‫ت التفاحة‬ْ َ‫أُ ِكل‬la pomme a été mangée.

[Link]. Paradigme de conjugaison du verbe

Page
20
Il existe trois modes en arabe pour la conjugaison des verbes : accompli, l'inaccompli et
l’impératif. Ces modes sont caractérisés par l’ajout de suffixe ou de préfixes traduisant les
marques de personnes, genre et le nombre. Cependant, nous signalons que le mode accompli
est caractérisé par l’ajout seulement de suffixes ce qui n’est pas le cas des deux autres modes.

 L’accompli (‫ )الماضي‬: indique un fait ou une action qui s'est accompli ou effectué au
passé ou au moment où on parle. Les verbes dans ce paradigme sont conjugués en
ajoutant à la racine des suffixes permettant d’exprimer le type de personne, le genre, le
nombre et le mode du sujet. Par exemple le verbe '‫( 'ش ََر َح‬charaha – expliquer), se
conjugue pour la 2ème personne au duel par l’ajout le suffixe '‫ 'تُ َما‬pour obtenir la forme
‫( َش َرحْ تُ َما‬charahtoûma – vous avez expliqué (duel)). Le tableau suivant donne
l’ensemble des suffixes utilisés de manière générale, en prenant le verbe '‫ ' َش َر َح‬comme
exemple.

'‫'أَنَا‬ ' ُ‫'نَ ْحن‬ ' َ‫'أَ ْنت‬ ِ ‫'أَ ْنتُ َما' 'أَ ْن‬
'‫ت‬ '‫'أَ ْنتُ ْم‬ ' َ‫'أَ ْن ُّتن‬ '‫'هُو‬ '‫' ِه َي‬ '‫' ُه َما‬ '‫' ُه ْم‬ ' َّ‫'هُن‬
(je) (nous) (tu) (tu) (vous-2) (vous) (vous) (il) (elle) (ils-2) (ils) (elles)
‫ت‬ُ ْ‫ش ََرحْ نَا ش ََرح‬ َ‫ش ََرحْ ت‬ ‫ت‬
ِ َْ‫ح‬ ‫ر‬ َ
‫ش‬ ‫َش َرحْ تُ َما‬ ‫َش َرحْ تُ ْم‬ ‫َش َرحْ تُ َّن‬ ‫َش َر َح‬ ‫ت‬ْ ‫َش َر َحا َش َر َح‬ ‫َش َر ُحوا‬ َ‫َش َرحْ ن‬

 L’inaccompli (‫ )المضارع‬: Il sert à exprimer tout fait ou action qui n'est pas écoulé,
c'est-à-dire le présent ou le futur. Il dispose de préfixes et de suffixes à ajouter à la
racine du verbe. Ce paradigme se caractérise par le fait que les marques de personne,
genre, nombre et mode sont constituées de préfixe ainsi qu'une ou plusieurs infixations
(due à des transformation) à travers des transformations morphologiques, comme le
redoublement d’une consonne ou substitution des voyelles, comme c’est le cas du
verbe َّ‫ َمس‬massa ‘toucher’ conjugué en ُّ‫ نَ َمس‬namassu ‘nous touchons’, َ‫تَ ْم َس ْسن‬
tamsasna ‘vous touchez’. Nous distinguons les variantes suivantes de ce paradigme :
 Inaccompli indicatif (‫ )مرفوع‬: ce paradigme est du mode réel où le locuteur énonce
le caractère réel (réalisé, devant être réalisé, en cours de réalisation, etc.) du
procès-verbal qui désigne le déroulement dans le temps de la situation décrite par
le verbe et il correspond soit à un état, soit à un processus, soit à un évènement. Il
est structuré sur la voyelle /u/ qui indique par défaut l'indicatif.
L'inaccompli futur : correspond à une action qui se déroulera au futur et est
marqué par l’ajout de la lettre ' ‫س‬sa’ ou de la particule ‫ سوف‬sawfa au début du
verbe conjugué à l’inaccompli indicatif. Par exemple, pour le verbe ‫ کتب‬kataba
écrire) nous obtenons ‫سيکتب‬sayaktubu pour ‘il écrira’ ou ‫يکتب سوف‬sawfa
yaktubu qui signifie ‘il va écrire’.
 Inaccompli subjonctif (‫ )منصوب‬et apocopé (‫ )مجزوم‬: ces deux paradigmes sont de
mode potentiel (sauf pour les deux négations ‫لَ ْم‬et ‫ )لَ ْن‬où le locuteur se contente
d'en énoncer la nature possible ou virtuelle du procès-verbal (Blachère et
Gaudefroy, 1966). Il est nécessaire de préciser que la voyelle finale /a/ caractérise
le subjonctif et l'absence de voyelle finale ou soukoun pour l’apocopé.

 L’impératif : il est utilisé pour exprimer un ordre, donner un conseil ou faire une
suggestion ou une recommandation. Ce paradigme ne se conjugue qu'à la 2ème
personne au singulier, duel et pluriel. La voyelle finale /i/ caractérise l'impératif (est
structuré sur le soukoun) ou sur l'élimination du noun et de la lettre défectueuse du
verbe non sain. Dans le tableau suivant nous donnons un exemple de conjugaison pour
َ ‫ َكت‬.
le verbe 'écrire' kataba ’‫َب‬

‘ ’ َ‫ت’ ‘ أَ ْنت‬
ِ ‫‘ أَ ْن‬ ’‫أَ ْنتُّنَ ’ ‘ أَ ْنتُ ْم’ ‘ أَ ْنتُ َما‬

Page
21
(tu) (tu) (vous-2) (vous) (vous)
ْ‫أُ ْكتُب‬ ‫أُ ْكتُبِي‬ ‫أُ ْكتُبَا‬ ‫أُ ْكتُبُوا‬ َ‫أُ ْكتُ ْبن‬

[Link]. Trait grammatical

Par définition un trait grammatical, appelé aussi valeur, est une catégorie définie pour
décrire les flexions morphologiques des mots variables. Ces traits concernent la nature (verbe,
noms, adjectif), le genre (masculin, féminin), etc. Dans notre étude de la flexion des verbes
en arabe, nous nous intéressons aux valeurs suivantes :
 Aspectuelle : cette valeur donne des informations sur la manière de déroulement du
procès ou de l’état véhiculé par le verbe par rapport au moment où le procès a lieu, et
non par rapport au moment où l'on parle. En arabe, cette valeur donne le caractère
achevé ou inachevé du verbe indépendamment du moment où l’on parle. Exemple :
‘ َ‫ك هَ ِذ ِه ال ِّر َسالَةَ ِِلَسْأَلَك‬
َ َ‫أَ ْكتُبُ ل‬Je t’écris cette lettre pour te demander …’ : processus en cours,
inachevé. ‘ َ‫ك هَ ِذ ِه الرِّ َسالَة‬ َ َ‫َبت ل‬
ُ ‫لَقَد َكت‬Je t’ai bel et bien écrit cette lettre : processus accompli
et achevé.
 Modale : cette valeur dénote la manière dont l’action exprimée par le verbe est conçue
et présentée. elle exprime l’attitude du locuteur par rapport à ce qu’il dit (incertitude,
souhait, etc.) ou à son destinataire (ordre). Sa combinaison avec la sémantique des
verbes crée les aspects tel que : l’indicatif, le subjonctif, l’infinitif, etc.
 Temporelle : elle indique le moment où le procès a lieu. Elle permet d’exprimer la
relation du déroulement du procès au temps passé, présent ou futur, par rapport au
moment où l’on parle et à différents éléments du contexte ou de la situation.
Exemples : ‘ ‫ َسأَرْ ِج ُع‬je reviendrai’ (futur), ‘ ‫ْت‬ ُ ‫ َر َجع‬je suis revenue’ (passé).

1.4.2. Flexions des noms

La déclinaison des noms en arabe est concrétisée en trois principaux cas : nominatif
( ‫ َمرْ فوع‬- marfu3), accusatif ( ‫ َم ْنصُوب‬- mansub), génitif ( ‫ َمجْ رُور‬- majrur). Ces déclinaisons sont
ُ
faites en fonction du rôle du mot dans la phrase, à l’exception de certains cas particuliers. Les
noms qui sont déclinable en arabe sont dits ‫(معربة‬mu’araba). Ces déclinaisons sont traduites
d’un point de vue graphique par un élément adjoint à la fin des formes nominales. La
déclinaison est influencée par la forme du nom (simple ou diptote) et le nombre (singulier,
duel ou pluriel) ainsi que le genre (féminin ou masculin). Dans la suite de cette partie, nous
classons la flexion des noms en trois catégories selon le nombre de la forme comme suit :

[Link]. Les déclinaisons au singulier

Selon la forme et la position dans la phrase du mot à décliner, nous distinguons les cas
suivants :
 Le nom à décliner est défini par un article (‘’‫ )ال‬ou par annexion (‘’‫)إضافة‬, les
désinences ou suffixes sont dhamma ' ُ' pour le cas nominatif; la fatha ' ُ' à
l'accusatif et la kasra ' ُ' pour le génitif.
 Le nom est indéfini, la déclinaison se concrétise par la nounatation (tanwin) par les
trois signes ' ُ' ( - un), ' ُ' ( - an) et ' ُ' ( - in) pour les trois déclinaison
respectivement. Notons que pour l’accusatif, la nounatation est associés avec un
alif '‫ 'ا‬sauf pour les noms se terminant par la lettre '‫( 'ة‬at) ou par '‫'اء‬. A titre
d’exemple, le nom '‫( 'درس‬dars – leçon), à l'accusatif nous obtenons '‫( 'درسًا‬darsäâ)
contre le nom '‫( 'إمرأة‬imraât – femme) qui produit 'ً‫( 'إمرأة‬imraâtän – femme) à
l’accusatif.
 Le diptote ( ‫الممنوع من الصرف‬: al-mamnuʻ min aṣ-ṣarf) est un nom qui ne respecte
pas les règles de déclinaisons quand il est indéfini. Ces noms n’acceptent pas la

Page
22
nounatation et prennent la même marque à l’accusatif et au génitif, à savoir la
fatha ' َ'. Ils existent des règles permettant de reconnaître ces noms, et dans le
tableau suivant nous donnons certaines de ces règles accompagnées d’exemple :

Règle Exemple
Noms propres féminins (‫)ال َعلَم ال ُمؤنَّث‬ ‫(هُدَى‬Houda), ُ‫(زَ ْينَب‬Zaynab), ُ‫ج َّدة‬
(Jeddah)
Un nom propre masculin, mais se terminant ُ‫( َح ْم َزة‬Hamza), ُ‫(أُ َسا َمة‬Oussama), ُ‫طَ ْل َحة‬
ْ ٌ
par le signe du féminin (‫) َعلَ ٌم ُمؤنَّث لِل ُم َس َم ال ُم َذ َّك ِر‬ (Talha)
Adjectifs et couleurs de schèmes af’alu ‫(أَ ْكبَ ُر‬plus grand), ‫(أَ ْس َو ُد‬noir), ‫أَحْ َم ُر‬
ْ َ
(‫الو ْز ِن أف َع ُل‬
َ ‫صفَة ولَوْ ٌن َعلَى‬
ِ ) (rouge)
Adjectifs de schèmes fa’lan ( ‫صفة َعلى ال َوز ِن‬ ْ َ ٌ َ ِ ُ‫( َكس ََْلن‬paresseux), ُ‫َطشَان‬ ْ ‫(ع‬assoiffé)
ُ‫)فَع ََْلن‬
Les noms propres “Etrangers” (‫)ال َعلَم اِلَ ْع َج ِمي‬ ُ‫اريس‬ ِ َ‫(ب‬Paris), ‫(إِ ْد َور ُد‬Edouard)
Tableau 1. 5. Certaines règles de déclinaison de diptote

 Déclinaison des cinq noms : c’est un ensemble de cinq exceptions bilitères qui se
caractérisent par l’allongement de leur seconde syllabe lorsqu'ils sont définis par
annexion. Autrement ils prennent les marques traditionnelles. Ces mots sont : ‫أب‬
(père), ‫(أخ‬frère), ‫(حم‬beau-père), ‫(فو‬bouche), ‫(ذو‬possesseur). Dans le tableau
suivant nous donnons quelques exemples de flexion de ces mots :

Indéfini Annexion Indéfini défini par annexion

l’article
ٌ‫أَب‬ ‫أَبُو بَ ْك ٍر‬ ‫أَ ٌخ‬ ‫اِلَ ُخ‬ ‫أَ ُخو ُم َح َّم ٍد‬
‫أَبًا‬ ‫أَبَا بَ ْك ٍر‬ ‫أَ ًخا‬ ‫اِلَ َخ‬ ‫أَ َخا ُم َح َّم ٍد‬
ٍ َ‫أ‬
‫ب‬ ‫أَبـِي بَ ْك ٍر‬ ٍ َ‫أ‬
‫خ‬ ِ َ‫اِل‬
‫خ‬ ‫أَ ِخي ُم َح َّم ٍد‬

[Link]. Les déclinaisons au duel

Le duel est une sous-catégorie grammaticale pour représenter un ensemble de deux choses
ou de deux personnes. C’est une catégorie qui se situe entre le singulier et le pluriel et qui
possède les déclinaisons suivantes :
 Pour le mot indéfini ou défini par l'article, la suffixation est gérée par deux cas (‫)ان‬
pour le nominatif, et (‫ )يْن‬pour le génitif et l’accusatif. Par exemple, le duel du nom
masculin ‫( َرجُل‬rajül -homme) prend la forme ‫( َرج ََُلن‬rajülAn - deux hommes) au
nominatif ou ‫( َر ُجلَ ْي ِن‬rajül ayn - deux hommes) à l’accusatif et au génitif
 Pour le mot féminin (se terminant par la lettre ‫ )ة‬une modification morphologique sera
effectuée avant d'ajouter les suffixes. Cette modification consiste à transformer la
lettre (‫ )ة‬en (‫ )ت‬afin d'ajouter les suffixes (‫ )ان‬pour le cas nominatif ou (‫ )يْن‬pour le
génitif et l'accusatif.
 Pour le mot se terminant par l'un des glides suivants ((‫( )ا‬alif – â), '‫( 'و‬wâw- w) et (‫)ي‬
(yâ' - y), des transformations seront appliquées sur ces glides pour obtenir le duel avec
les suffixes décrit ci-dessus. Par exemple, le duel du mot ‫( َم ْلهَى‬malha) est obtenu en
transformant la lettre (‫ « )ى‬alif maksoura » en ( ‫ي‬- yaa) ensuite nous ajoutons les
suffixations pour obtenir ‫( َم ْلهَيَان‬cas nominatif) et ‫ َم ْلهَيَيْن‬pour les autres cas. Et pour le
mot ‫'(عصا‬asaâ – bâton) nous remplaçons d’abord le glide '‫ 'ا‬par '‫( 'و‬wâw - w) ensuite
nous ajoutons les suffixes ce qui donne pour le cas nominatif le mot ‫ص َوان‬ َ ‫َع‬

Page
23
(‘assawAn) et pour les autres cas le mot ‫َص َويْن‬
َ ‫‘(ع‬assawayn).

[Link]. Les déclinaisons au pluriel

Dans cette section nous présentons les deux types de pluriels suivants :
[Link].1. Le pluriel externe ou régulier :
Pour cette classe, le pluriel est obtenu par l’ajout d’un suffixe au singulier sans aucun
changement au niveau de la structure du mot. Ces changements dépendent du genre du mot
féminin ou masculin :
[Link].2. Le pluriel externe masculin : ‫الجمع المذكر السالم‬
La flexion est réalisée par l’addition du suffixe '‫( 'ون‬uwna) dans le cas nominatif et du suffixe
'‫( 'ين‬iyna) dans les cas accusatif et génitif. Par ailleurs, nous notons que si le mot est défini par
annexion, nous supprimons la lettre '‫( 'ن‬noun) dans tous les cas. Dans le tableau suivant nous
exhibons quelques exemples de ce type de flexion.

‫المعرفة‬Défini ‫معرف باإلضافة‬Défini par annexion ‫النكرة‬Indéfini ‫الجمع المذكر السالم‬

َ‫ال ُم َعلَّ ُمون‬ ‫ُم َعلَّ ُمو الرّياضيات‬ َ‫ُم َعلَّ ُمون‬ Nominatif
َ‫ال ُم َعلَّ ِمين‬ ‫ُم َعلَّ ِمي الرّياضيات‬ َ‫ُم َعلَّ ِمين‬ Accusatif & génitif

[Link].3. Le pluriel externe féminin : ‫الجمع المؤنث السالم‬

A ce niveau la déclinaison au pluriel est réalisée par l’ajout du morphème ‘ ’‫اث‬au singulier
féminin après la suppression de la lettre ‘’‫ة‬. Ensuite nous ajoutons la désinence dhamma ' َ'
pour le cas nominatif et la kasra ' َ' à l'accusatif et au génitif. Le pluriel du mot ‘ ’‫سيارة‬
(sayArah - voiture) est donné dans le tableau suivant :

‫المعرفة‬Défini ‫النكرة‬Indéfini ‫الجمع المؤنث السالم‬

ُ
‫َّارات‬ ‫ال َسي‬ ٌ
‫َّارات‬ ‫َسي‬ Nominatif
ِ ‫ال َّسيَّارا‬
‫ت‬ ‫ت‬
ِ ‫َسيَّارا‬ Accusatif & génitif

[Link].4. Le pluriel interne ou brisé (‫)جمع التكسير‬

Contrairement au pluriel interne où le singulier ne subit pas des transformations majeures, le
pluriel externe brise la structure interne du mot au singulier suivant une diversité de règles
complexes et dépendant du nom considéré. Par conséquent, les formes de ce pluriel sont
nombreuses et généralement imprévisibles. De plus, pour certains mots nous trouvons deux
types de pluriels : pluriel de multiplicité (‫ )جمع الكثرة‬et pluriel pénurie (‫)جمع القلّة‬. Des travaux
ont été menés pour cadrer le pluriel interne, ce qui a donné des patrons pour les pluriels de
pénurie et de multiplicité.

Pour le pluriel de pénurie, les quatre patrons suivant ont été établis : ‫ أَ ْف ِعلَة‬،‫ أَ ْف َعاْل‬،‫ فِ ْعلَة‬،‫أَ ْف ُعل‬, (aaf-
‘ilah, aaf-‘aal, fi‘-lah, aaf-‘ul), par exemple : (aaT-‘imah, Aliments) ‫ط ِع َمة‬ ْ َ‫أ‬, (aab-
wab,portes) ‫أَب َْواب‬, (Sib-yah, Garçons) ‫ص ْبيَة‬ ِ , (aan-hur, riviéres) ‫أَ ْنهُر‬. Pour le pluriel de
multiplicité il existe 35 patrons du pluriel comme : (suhuwl, plaines) ‫ ُسهُول‬selon le patron
(fu‘uwl) ‫فُعُوْ ل‬et (bul-daan, Pays) ‫ب ُْلدَان‬suivant le patron (fu‘-laan) ‫فُعَْلن‬.

1.5. Les problèmes d'analyse du traitement automatique de la langue

arabe
L’arabe, comme toutes les langues naturelles, est caractérisée par un ensemble de
phénomènes créant des difficultés et des problèmes qu’il faut prendre en considération lors

Page
24
d’un traitement automatique. En plus des phénomènes classiques, comme l’ambiguïté, la
coordination ou l’anaphore, nous trouvons aussi dans le cas de l’arabe d’autres phénomènes
propres aux langues sémitiques tel que l’absence de voyelles, l’agglutination et l’ordre des
mots dans une phrase. Dans la présente section, nous présentons les phénomènes que nous
considérons les plus importants pour l’arabe.

1.5.1. L’absence de voyelle – voyellation –

Nous trouvons plusieurs définitions pour décrire le phénomène de la voyellation
(Dichy, 1997 ; Debili et al., 2002), qui est concrétisée par l’absence des voyelles courtes,
appelées aussi les diacritiques, dans les textes en arabe. Cette absence génère plusieurs cas
d’ambiguïté compliquant ainsi le traitement automatique. Ces ambiguïtés lexicales sont dues
essentiellement au fait que chaque consonne peut prendre l’une des sept voyelles de l’arabe,
ce qui crée des combinaisons de mots dont le nombre diffère d’un mot non voyellé à un autre
en fonction de l’existence de la combinaison obtenue dans le vocabulaire ou pas. Selon
(Chalabi, 2000), l'absence de diacritiques en arabe entraîne une complexité de calcul d’un
ordre de grandeur plus grand que la manipulation de ses homologues langues latines. Ce
problème est d’autant plus complexe qu’un mot en arabe peut avoir différentes prononciations
sans aucun effet orthographique en l’absence de diacritiques comme dans l’exemple suivant :

‫‘( علم‬lm)

Verbe
Nom

Transitif Intransitif

‫ِع ْل ٌم‬ ‫َعلَ ٌم‬ Passif Actif Passif Actif

‘alamun
‘ilmun
Impérati Indicatif
‘drapeau’ f
‘savoir’
‫ُعلِ َم‬ ‫َعلِ َم‬
‫ُعلِّ َم‬

‘ullima ‘ulima ‘alima

‫َعلِّ ْم‬ ‫َعلَّ َم‬
‘est enseigné’ ‘a été su’ ‘a su’
‘allim ‘allama
‘enseigne’ ‘enseigna’

Figure 1. 1. Ambiguïté causée par le manque de diacritiques (Attia, 2008)

Dans cet exemple, nous voyons que le mot non voyellé ‘ ’‫علم‬peut avoir sept
voyellations différentes ayant pour chacune un sens particulier, réparties sur des catégories
grammaticales différentes. Ceci engendre plusieurs cas d'ambiguïté lexicale comparable à
celles posées par l'accentuation multiple des mots français non accentués. Pour illustrer cette
comparaison, prenons le mot en français non accentué, eleve. Il peut être interprété comme
élève (nom masculin ou Verbe, Présent de l’indicatif, Voix active, 1ère et 3ème personne,
masculin/féminin, au singulier ou Verbe, Présent de l’impératif 2 ème personne), ou élevé
(adjectif masculin ou participe passé du verbe ‘élever’).
A travers ces différents exemples, nous voyons très bien les ambigüités que peut

Page
25
engendrer ce type de phénomène, mais selon des études statistiques sur l’occurrence
d’apparition de ce phénomène en français et en arabe, il a été démontré que ce phénomène est
très fréquent en arabe par rapport à une faible fréquence en français (Debili et Achour, 1998) :
91.7% des mots du lexique français ne sont pas ambigües avec une moyenne de 1.1
accentuation possible par mot (El-Bèze, 1994), contre 19% des mots du corpus ne sont pas
ambigües avec une moyenne de 6 voyellisations par mot (Debili, 2001; Ouersighni, 2002).
Ces statistiques montrent qu’il est indispensable de prendre en compte cette problématique
dans le cas d’un traitement automatique de l’arabe.

1.5.2. Agglutination
La langue arabe est une langue fortement agglutinée dans le sens où les mots peuvent
être formés à partir d’une base à laquelle nous pouvons rajouter des affixes (préfixes et/ou
suffixes) et des clitiques (enclitiques et/ou proclitiques). Dans le schéma suivant nous
donnons une structuration globale d’un mot graphique en arabe, proposée par D. Cohen :

Proclitique # Préfixe + Base + Suffixe # Enclitique

Mot minimal

## Mot maxima. l ##

## : frontière du mot graphique

Lire : # : frontière faible de morphème

Figure 1. 2. Schéma général du mot graphique en arabe

Dans ce schéma nous voyons qu’un mot graphique contient essentiellement :
 Une base : qui représente la racine du mot à partir de laquelle l’agglutination est
effectuée
 Un mot minimal : qui correspond à la forme fléchi de la base obtenue par la
concaténation des préfixes et des suffixes à cette base
 Un mot maximal : unité décomposable en proclitiques, préfixes, base, suffixes et
enclitiques. Elle peut être aussi analysé en proclitiques, mot minimal et enclitiques.
Ce mécanisme d’agglutination en arabe peut générer des mots qui peuvent être transcrits
en une phrase complète en français. Par exemple la forme agglutinée '‫'أسنكفيكه ْم‬
(asanakfikuhum) qui peut être traduite en ‘est ce que nous allons vous épargner de leur mal ?’.
Les travaux de (Attia, 2008) supposent que le caractère riche et complexe des inflexions de
l'arabe et l'agglutination des affixes et des clitiques permet de réduire l'ambiguïté plutôt que de
l'augmenter en produisant une pyramide d’ambigüité reflétant les taux d’ambiguïté en
fonction des structures du mot introduites ci-dessus, présentée dans la figure suivante :

Page
26
Figure 1. 3. Pyramide d’ambiguité (Attia, 2008)
Pour illustrer ce constat, nous prenons l’exemple de la racine ‘ ’‫كتب‬qui peut être
interprétée en ‘il a écrit’ ou ‘des livres’ ou ‘il a été écrit’, et lorsque des clitiques lui sont
ajoutées, l'ambiguïté est réduite : pour le mot ‘ ’‫(يكتب‬ajout d’affixe seulement) nous avons
deux possibilités : ‘il écrit’ ou ‘il s’écrit’ et pour le mot ‘ ’‫(يكتبه‬ajout d’affixe et de clitique)
nous avons que l’interprétation ‘il l’écrit’.

Pour certains mots, l’agglutination peut entraîner une ambigüité morphologique au cours
de l’analyse lorsqu’un clitique peut être assimilé à un caractère appartenant à la racine du mot.
C’est le cas par exemple de la lettre ‘ ’‫(ف‬f) qui fait partie du mot ‘ ’‫(فجر‬aube, a fait exploser)
et qui peut être aussi considérer comme un clitique collé au verbe ‘ ’‫(جر‬a tracté).

Dans le reste de cette section, nous allons décrire les clitiques (les proclitiques et les
enclitiques) qui peuvent être collés à un mot minimal pour produire un mot maximal (ou la
forme agglutinée).

[Link]. Les proclitiques

Les proclitiques permettent de donner des traits syntaxiques (coordonnant, déterminant
…) pouvant accompagner un mot arabe. Leur nombre est fini et peuvent se combiner entre
eux pour être utilisés comme préfixes rattachés au ‘mot minimal’ ou détachés comme c’est le
cas des conjonctions de coordination.
Lorsqu’un proclitique est rattaché à un verbe il dépend exclusivement de son aspect
verbal, ainsi ils prennent tous les pronoms et par conséquent ils sont compatible avec tous les
préfixes pris par l’aspect. Dans le cas des noms, les proclitiques dépendent du mode et du cas
de déclinaison (Abbès, 2004). Nous pouvons répartir les proclitiques dans les catégories
suivantes :
 Les proclitiques réservés aux noms et adjectifs :
 L'article défini '‫( 'ال‬al- le)
 L a préposition ‫ب‬ ِ (bi - avec), ‫( ِل‬li - pour), ‫(ك‬ka - comme)
 Les proclitiques réservés aux verbes :
 La particule du subjonctif : nasb ‫( ِل‬li - pour)
 la particule du futur ‫س‬ َ (sa)
 La particule de l'apocopé ‫( ِل‬li - pour)
 Les proclitiques généraux utilisés indépendamment de la catégorie des mots auxquels
ils s'attachent :
 Les conjonctions de coordination ‫(ف‬fa - et), et ‫(و‬wa - et)
 L'article d'interrogation َ‫(أ‬a - est ce que)
 Le marquer de corroboration ‫( َل‬la)

Cette classification n’omet pas le fait qu’il existe certaines exceptions de proclitiques
qui peuvent jouer différents rôles, comme pour le proclitique ‘ ’‫(و‬wa) utilisé généralement
comme particule de liaison (conjonction de subordination et de coordination), mais également
peut être utilisé comme particule d'accompagnement (‫ )واو المعية‬ou de serment (‫)واو القسم‬.

Comme nous avons déjà mentionné les proclitiques peuvent se combiner entre eux et
forment par conséquent des proclitique composé (’… ‫ ولك‬,‫ ول‬,‫ أفل‬,‫ أفب‬,‫أف‬a-fa-li, ’a-fa-bi, ’a-fa,
wa-li, wa-la-ka). Selon [Mesfar, ] et [Habash, 2010], il existe quatre niveaux de clitisation
selon la possibilité de leur apparition dans un proclitique composé, en respectant un ordre bien
définit comme suit :

Page
27
QST + [CNJ + [PRT + [DET + PRE + [BASE] + SUF + ENC ]]]]

1. QST : représente l’article d’interrogation ‘ ’‫أ‬

2. CNJ : représente les conjonctions de coordination ‘ ’‫(و‬wa – et) et ‘ ’ ‫(ف‬fa, alors
3. PRT : représente l’ensemble de particules suivantes :
 Les prépositions : ‫ب‬ ِ (bi - avec), ‫( ِل‬li – avec) et ‫(ك‬ka – comme)
 La particule du subjonctif ‘ ’‫(نصب‬nasb) : ‫( ِل‬li – pour)
 La particule du futur : ‘ ’‫س‬ َ (sa)
 Le marqueur de corroboration ‘ ’‫(تأكيد‬taakiyd) : ‫( َل‬la)
 La particule de l’apocopé ‘ ’‫(جزم‬gazm) : ‫( ِل‬li)
4. DET: représente l'article défini ‫(ال‬Al – el)

Pour illustrer ce propos, nous exposons la forme agglutinante suivante et qui est composée
de plusieurs proclitiques en suivant leur position d’apparition : ‘ ’‫ت‬ ِ ‫أَفَبِالبَ ْي‬décomposable en ‘ ‫ت‬
ِ ‫َب ْي‬
َ’‫ أ‬+ َ‫ ف‬+ ‫ب‬
ِ + ‫ ال‬+(aa + fa + bi + l + bayti – et + est ce qu+ à + la + maison ?).

Par ailleurs, nous signalons que la fusion des proclétiques n’est pas faite de façon
aléatoire, elle suit deux types de contraintes exprimées par une relation d’ordre et un ensemble
de règle de compatibilité comme suit :
 Une relation d’ordre : cette relation est établie en fonction d’un vecteur d’ordre selon
(Dichy, 1984/89; 1994). Dans ce vecteur chaque proclitique est incompatible, à cause
de la relation d’ordre strict, avec un proclitique de même position, c’est le cas par
exemple des proclitiques wa et fa coordonnants ( ‫فاء العطف‬et ‫ )واو العطف‬qui occupent
la position 2 dans le vecteur d’ordre. Nous notons aussi qu’un proclitique occupant
une position d’antériorité par apport à un autre n’a aucune chance de se retrouver
placé après ce dernier dans la construction d’un mot graphique. Par exemple,
l’interrogatif ’a- (‫ )همزة اَلستفهام‬occupe toujours la première position dans un mot
graphique maximal et il est impossible de le trouver précédé par un autre proclitique.
 Règles de compatibilité : pour des raisons syntaxiques et sémantiques, certains
proclitique ne sont pas compatibles entre eux, c’est le cas par exemple des lettres ‫ب‬et
‫(ل‬bi- et li-) qui ne peuvent pas se combiner, car elles sont des prépositions ( ‫حروف‬
‫ )جر‬ayant des sens différent (Dichy et Zmantar, 2009).

[Link]. Les enclitiques

Les enclitiques présentent les pronoms suffixes qui s'attachent toujours à la fin du mot
graphique, leur liste est constituée des 17 éléments suivants : ‫ك ُك َما ُك ْم ُك َّن هُ هَا هُ َما هُ ْم ه َُّن ِه‬
ِ ‫ك‬
َ ‫نِي ي نَا‬
‫ ِه َما ِه ْم ِه َّن‬. Un mot graphique ne contient qu’un seul enclitique à la fois. Ils s'attachent aux
verbes comme étant un complément-objet et aux noms et aux prépositions comme un
complément du nom ou complément d'objet indirect. Leurs utilisations est régie par certaines
restrictions.

Les enclitiques à la première personne tels que "‫( "نِي‬niy – moi / mon) ou "‫( "نا‬naa – nous/
notre) et ceux à la deuxième personne tels que "‫ك‬ َ " (ka – toi/ton) ou "‫( " ُك ْم‬kum – vous/votre
[masculin pluriel]) ont une forme invariable, mais ceux de la troisième personne sont
variables et prennent différentes vocalisation suivants les règles suivantes :

 Dans le cas des verbes, l'enclitique peut varier en fonction de l'aspect du verbe et du
pronom. La comptabilité entre les enclitiques et les verbes dépend de la propriété de
transitivité du verbe. Ainsi, les verbes intransitifs et ceux conjugués à la forme passive
ne prennent jamais des enclitiques. Par ailleurs, l’utilisation des enclitiques dans le cas

Page
28
des verbes peut être répartie selon l’aspect du verbe comme suit (Mesfar, 2008) :

Aspect Inaccompl
Inac- Inaccompl Accom
i Impé Accompli
compli i apocopé -pli Futur Pronoms
Proclitique Subjonctif -ratif Actif
Actif Actif Passif
Actif
ُ‫(ه‬hu) X
‫(هُ َما‬humaa) X 2éme personne,
‫(هُ ْم‬hum) X féminin, singulier
‫(ه َُّن‬hunna) X
‫( ِه‬hi) X
2ème ou 3ème
‫( ِه َما‬himaa) X
personne, masculin
‫( ِه ْم‬him) X
ou féminin duel
‫( ِه َّن‬hinaa) X
‫( ِه‬hi) X X X X X
‫( ِه َما‬himaa) X X X X X 2ème personne,
‫( ِه ْم‬him) X X X X X féminin singulier
‫( ِه َّن‬hinaa) X X X X X
ُ‫(ه‬hu) X X X X X X
2ème ou 3ème
‫(هُ َما‬humaa) X X X X X X
personne, masculin
‫(هُ ْم‬hum) X X X X X X
ou féminin, duel
‫(ه َُّن‬hunna) X X X X X X
Tableau 1. 6. Utilisation des enclitiques dans le cas des verbes

 Dans le cas nominal, l’enclitique doit respecter une harmonie vocalique avec la
voyelle casuelle de la forme à laquelle il se rattache, et dans le cas des noms se
terminant par une voyelle double ou tanwine, ces derniers ne prennent jamais des
enclitiques. Seul le mode déterminé par annexion est susceptible de prendre des
enclitiques selon les règles suivantes :
 Si le nom est fléchi au nominatif ou à l’accusatif, il nécessite l'utilisation des
enclitiques suivants : ُ‫[ه‬PRON+3+m+s], ‫[هُ َما‬PRON+3+m|f+d], ‫هُ ْم‬
[PRON+3+m+p], ‫[ه َُّن‬PRON+3+f+p]
 Si le nom est fléchi au génitif, il nécessite l'utilisation des enclitiques suivants : ‫ِه‬
[PRON+3+m+s], ‫[ ِه َما‬PRON+3+m|f+d], ‫[ ِه ْم‬PRON+3+m+p], ‫[ ِه َّن‬PRON+3+f+p].

Par ailleurs, certain mots nécessitent des transformations morphologiques avant de

leur rattacher des enclitiques, c’est le cas des noms se terminant par une hamza, une "‫ "ى‬ou
une "‫( "ي‬y). Par exemple la forme ‫( َم ْلهَى‬malha - un manège), nécessite une transformation de
celle-ci en "‫ "ا‬avant sa suffixation pour produire la forme agglutinée ُ‫( َم ْلهَاه‬malhAhu - son
manège).

1.5.3. Ambiguïté lexicale et syntaxique

L’un des problèmes centraux de l’analyse morphosyntaxique de l'arabe est l’ambiguïté
lexicale et syntaxique, ce qui complique le travail des analyseurs lexico-syntaxique. Ces
complications sont dues d’une part à la richesse des constructions et d’autre part à l'ambiguïté
des segmentations en unités lexicales et à l'homographie polycatégorielle (Attia, 2006). Le
traitement de ces ambiguïtés d’un point de vue informatique est alourdi par la combinatoire
qu’elle engendre pour les analyseurs.

Par ailleurs, le problème ne réside pas dans l'analyse d'un langage ambigu en soi; mais
c'est plutôt au niveau de son traitement de façon robuste et réaliste. En effet, après une
première phase de segmentation du texte en unités lexicales, il est convenu de chercher dans

Page
29
le lexique les interprétations correspondant à chacune d'entre elles. A chaque interprétation,
nous associons une catégorie syntaxique reconnue par la grammaire.

L’un des aspects de la langue arabe qui cause cette ambiguïté, c’est le fait que beaucoup
de mots en arabe sont homographiques : une même forme orthographique peut avoir des
prononciations différentes. Cette homographie peut être accentuée lorsqu’elle est associée à
d'autres phénomènes (absence de voyellation, morphologie flexionnelle et agglutinante, etc)
ce qui donne des taux d'ambigüité assez élevés. Il a beaucoup de facteurs récurrents ayant
contribués à ce problème, nous citons entre autres (Attia, 2006):
 Il existe dans l’arabe des mots homographes qui, sans flexion préalable, peuvent avoir
différentes prononciations, des sémantiques différentes, voir généralement des
catégories grammaticales différentes. C’est par exemple le cas du mot ‫(ذهب‬dhb) qui a
deux interprétations ٌ‫( َذهَب‬dahab) : or et ‫َب‬
َ ‫( َذه‬dahaba) : il est allé.
 La flexion des verbes contient des opérations morphologiques et orthographiques
(suppression de caractères ou assimilation) qui produisent fréquemment des formes
fléchies homographes. Ces formes peuvent appartenir à deux ou plusieurs lemmes.
Dans l'exemple suivant nous montrons une forme verbale simple ( – ‫يعد‬y’d) qui peut
être interprétée comme appartenant à cinq lemmes :

‫)أعاد (يُ ِعد‬ ‫)عاد (يَعُد‬ ‫)وعد (ي ِعد‬ ‫)يَ ُع ّد (عد‬ ‫)يُ ِع ّد (عد‬
yu'id, aa'âda ya'ud, 'âda ya'id, wa'ada ya'udd, 'adda yu'idd, aa'adda
il refait il retourne il promet il compte il prépare

 Le redoublement des lettres, au moyen de la lettre Shadda, crée des lemmes différents,
sans que cela ne soit explicite à l'écrit. Le redoublement de la syllabe du milieu du mot
‫درس‬.(drs) donne les deux lemmes suivants ‫س‬ َ ‫(د ََر‬darasa) et ‫َّس‬
َ ‫( َدر‬darrasa) ayant les
interprétations ‘il a étudié’ et ‘il a enseigné’ respectivement.
 Plusieurs opérations de flexion induisent des changements légers dans la
prononciation des mots sans que cela ait un effet orthographique explicit dû au
manque de diacritique. Nous citons par exemple les ambigüités au niveau des formes
fléchies du verbe ‫(كتبت‬ktbt) :

ْ ‫َكتَب‬
‫ْت‬ ِ ‫َكتَ ْب‬
‫ت‬ َ‫َكتَبْت‬ ُ ‫َكتَب‬
‫ْت‬
katabtu – j’ai katabti – tu as écrit katabta – tu as écrit katabat – elle a écrit
écrit (féminin) (masculin)

 Les préfixes et les suffixes peuvent accidentellement produire une forme

homographique avec un autre mot plein. Par exemple : le mot ‫‘(أسد‬asd) qui peut
signifier ‫سد أَ ُس ّد‬+‫(أ‬aasuddu - je bloque) ou ‫(أَ َس ٌد‬aasadun - un lion).
 De même les proclitiques peuvent aussi accidentellement engendrer deux formes
homographiques, comme c’est le cas de l’exemple suivant : ‫'(علمي‬lmy) qui donne
suite à l’ajout des proclitiques ‫'(علمي‬ilmiyy – scientifique) ou ‫ ي‬+ ‫'(علمي ((علم‬ilm + y
- mes connaissances)

1.5.4. Irrégularité de l'ordre des mots dans la phrase

La construction des phrases en arabe est flexible, dans le sens où l’ordre des mots dans
une phrase donnée est relativement libre. Généralement, un mot placé au début de la phrase
est un terme sur lequel nous voulons attirer l’attention, s’en suit le terme le plus long ou le
plus riche en sens ou en sonorité. Cette flexibilité provoque des ambiguïtés syntaxiques
artificielles due à la prise en compte de toutes les règles de combinaison possibles des

Page
30
composants d’une phrase. Pour illustrer cette propriété prenons les phrases suivantes :
 Verbe + sujet + complément :
‫(تأهلت الجزائر إلى كأس العالم‬- L’Algérie s’est qualifiée pour la coupe du monde)
 Sujet + verbe + complément :
‫(الجزائر تأهلت إلى كأس العالم‬- C’est l’Algérie qui s’est qualifiée en coupe du monde)
 Complément + verbe + sujet
‫(إلى كأس العالم تأهلت الجزائر‬- C’est pour la coupe du monde que l’Algérie s’est qualifiée)

Page
31
Chapitre 2 Introduction aux
dialectes arabes

Page
32
Introduction
La langue arabe est l’une des langues les plus parlées et utilisées dans le monde, elle
occupe actuellement la cinquième place (Chung, 2008; Lewis, Simons et Fennig, 2013) avec
plus de 330 millions d’arabophones, tout en devenant la langue officielle de plus de 22 pays,
présentés dans la figure 1, répartis sur les régions suivantes :
 Péninsule arabique (en arabe ‫ شبه الجزيرة العربية‬šibh al-jazīra al-ʻarabīya ou ‫جزيرة العرب‬
jazīrat al-ʻarab ) : est une vaste péninsule au sud-ouest de l’Asie, à la jonction entre ce
continent et l’Afrique. Elle comprend les sept États suivants : l’Arabie saoudite, le
Yémen, Oman, le Qatar, les Émirats Arabes Unis, le Koweït et le Bahreïn;
 Moyen-Orient (en arabe ‫ الشرق اِلوسط‬Ash-Shark al-awssat ) : cette région est comprise
entre la rive orientale de la mer Méditerranée et la ligne tracée par la frontière entre
l’Iran d’une part, le Pakistan et l’Afghanistan d’autre part. Cette région se trouve
essentiellement en Asie mais est parfois étendue à l’Afrique du Nord. Elle comprend
l’Irak, la Jordanie, le Liban, la Palestine et la Syrie. L’Égypte, avec sa péninsule du
Sinaï en Asie, est généralement considérée comme faisant partie du Moyen-Orient
 Afrique du Nord ou le Maghreb (en arabe : ‫ المغرب‬al-Maghreb ) : cette région inclut les
états du Maghreb, à savoir l’Algérie, le Maroc, la Tunisie, la Mauritanie, la Libye, le
Soudan, Djibouti et la Somalie.

Figure 2. 1. Le monde arabe

Elle est par ailleurs la langue de la religion musulmane, ce qui étend son utilisation à tous les
continents du globe constituant ainsi une communauté estimée à plus de 1 milliard et demi de
croyants musulman. La langue arabe constitue ainsi un élément principal dans la culture et la
pensée d’une partie importante de l’humanité et du patrimoine mondial.
D’un autre côté, l’arabe est une langue sémitique, comme l’hébreu et l’araméen, et en terme
de nombre de parlers elle est actuellement la langue sémitique la plus parlée. De plus, l’arabe
est une des langues naturelles les plus riches dans le monde en termes d’inflexion
morphologique et de dérivation. Elle est caractérisée par le fait que l’arabe écrit diffère d’une
manière non négligeable des différentes variétés parlées de la langue arabe ce qui a produit
une situation diglossique où nous assistons à l’utilisation de deux variétés linguistiques d’une
seule langue à savoir : l’arabe littéraire appelé ‘variété élevée’ et l’arabe dialectal appelé
‘variété basse’.
Selon (Farghaly et Shaalan, 2009), l’arabe littéraire se divise en deux catégories :
l’arabe classique et l’arabe moderne standard (MSA). L’arabe classique est utilisé pour les

Page
33
textes et rituels religieux ainsi que les productions littéraires. Elle constitue la base de l’arabe
moderne standard qui en constitue une forme moderne. L’arabe moderne (MSA) est utilisé
dans les médias, les journaux et l’administration. Elle est aussi enseignée dans les écoles à
partir du primaire.
Cependant, les locuteurs du monde arabe parlent en dialecte qui est une variante
linguistique de l’arabe classique ayant des traits propres par pays ou par région, ces traits sont
la conséquence d’une succession d’influences linguistiques, venues d’ailleurs comme le turc,
le français, l’italien, et l’espagnol ou l’anglais, ou grâce à un mélange à des langues des
peuples autochtones comme le berbère et le copte. Nous pouvons aussi considérer le dialecte
comme un mélange homogène entre l’arabe moderne classique et l’arabe dialectal parlé par la
population avec quelques différences d’une région à une autre et quelquefois au sein d’une
même ville. Par conséquent, d’un point de vue scientifique, les dialectes peuvent être
considérés comme des langues distinctes dans leur propre droit, un peu comme langues
germaniques du Nord (Norvège, Suède, Danemark) et les langues slaves de l’Ouest (tchèque,
slovaque, polonais) (Zaidan et Callison-Burch, 2014).
Par ailleurs, le MSA est la seule variété de l’arabe littéraire qui est normalisé,
réglementé (standardisé). Elle est devenue indispensable pour la communication écrite et
officielle. Quant aux dialectes, ils sont utilisés principalement pour la communication orale de
tous les jours. Ils ne sont pas enseignés dans les écoles, et restent absent dans les
communications écrites officielles. Cependant, il est possible de produire le dialectal en texte
arabe, en utilisant les lettres utilisées dans le MSA et les mêmes règles d’orthographe du
MSA, qui sont pour la plupart phonétique.
Ce chapitre est consacré à la définition et à la présentation de la langue arabe dialectale
et de ses spécificités. La section 2.1 présente la langue arabe ainsi que ses variantes utilisées :
l’arabe classique, l’arabe moderne standard (MSA) et l’arabe dialectal. Nous présenterons
également les variétés de l’arabe dialectal dans la section 2.2. La section 2.3 est dédiée à une
présentation de la situation linguiste de la langue dans le monde arabe. Nous donnerons
ensuite un aperçu historique de l’arabe algérien dans la section 2.4. Enfin la section 2.5 est
consacrée à une étude qui compare l’arabe algérien, égyptien et tunisien avec l’arabe moderne
standard (MSA) sur plusieurs niveaux : phonologique, morphologique, orthographique,
lexical et syntaxique.

2.1. Les variantes de langues arabes

La langue arabe est un terme vague qui fait référence aux nombreuses variétés existantes
de la langue arabe. En effet, l’arabe possède plusieurs variantes depuis ses débuts. Il est à
noter de ce fait que même à l’époque préislamique, l’arabe possédait déjà des dialectes
distincts en un nombre considérable, comme c’était le cas entre des dialectes des tributs de
Qahtane, Adnane et Himyar. Selon (Farghaly, 2010), il n’y a pas d’accord sur le nombre de
variétés réellement utilisées aujourd’hui, et par conséquent il existe plusieurs classifications
pour ces variétés. Par exemple (Ferguson, 1959a) définit deux variétés : la variété élevée ou
l’arabe classique et la variété basse utilisée dans la communication quotidienne des
arabophones (les dialectes). Nous citons aussi certaines classifications faites de manière locale
comme celle du sociolinguiste (Badawi, 1973) réalisée pour l’arabe en Egypte qui met en
avant les cinq variétés suivantes :
1. L’arabe classique patrimonial (fuSha al-turaa‫) فصحى التراث‬,
2. L’arabe classique contemporain (fuSha al-9aSr - ‫)فصحى القصر‬,
3. Le familier des éduqués (9aamiyyat al-muaqqafiin - ‫ )عامية المثقفين‬,

Page
34
4. Le familier des éclairés (9aamiyyat al-mutanawwiriin - ‫)عامية المتنورين‬,
5. Le familier des analphabètes (9aamiyyat al-?ummiyyiin - ‫)عامية اِلميين‬.
Cette classification a évolué entre temps, et son initiateur a proposé dans (Badawi, 1985), de
nouvelles appellations aux variantes citées précédemment comme suit : 1. arabe classique, 2.
arabe standard moderne, 3. arabe parle des instruits, 4. arabe parle des semi-instruits, et 5.
arabe parle des analphabètes.
A l’époque moderne, l’arabe contient généralement au moins trois variétés qui coexistent
côte à côte, à savoir l’arabe classique, l’arabe standard et l’arabe dialectal. La suite de cette
section sera consacrée à la description de ces variétés.
2.1.1 L’arabe Classique
L’arabe classique est la variété la plus prestigieuse comme elle est la langue du Coran.
C’est avec l’avènement de l’islam que la langue arabe a connu un véritable essor. Rappelons
que pour les musulmans, la langue arabe classique est la langue sacrée de l’islam, de par le
fait que le Coran a été révélé au prophète Mahomet par Dieu à travers l’archange Gabriel, en
arabe classique, morceau par morceau, dans un arc de temps de 21 ou 22 ans et sous forme
définitive. Selon (Djili, 2011), cette révélation du Coran en langue classique a marqué la
naissance de cette dernière, et cette époque était appelée par certains linguistes et historiens, la
première métamorphose de la langue arabe. La langue arabe est devenue une langue officielle
du monde musulman en 685 quand le calife Oumeya Abd Al Malik Ibn Marwan arriva à
Damas la capitale du monde musulman, avec pour objectif de centraliser son pouvoir
politique : il a imposé donc l’arabe comme unique langue officielle. Le calife entreprend des
réformes de l’écriture par la suite et prend de grandes décisions concernant les signes écrits. À
partir du VIIIe siècle une codification au niveau de la grammaire fixa la langue dans sa forme
classique définitive et facilita la diffusion de la langue par l’enseignement partout où la
nouvelle religion ‘l’islam’ a pu pénétrer. C’est à cette époque que les premiers traités et
dictionnaires sont apparus. Par conséquent, cette variété est bien définie, parce qu’elle a été
codifiée par les premiers grammairiens arabes.
Elle s’est par ailleurs développée au fil du temps à travers son utilisation dans le
développement des sciences et techniques, et dans la traduction des manuscrits grecs, de
philosophie et de sciences, entre le VIIIe et le Xe siècle. Elle était aussi utilisée dans
l’enseignement au sein des universités que ce soit à l’est de l’empire musulman, comme la
maison de la sagesse à Baghdad, ou à l’ouest comme en Andalousie. Cette utilisation pour la
science et la traduction a signé la seconde métamorphose de la langue arabe qui a fait d’elle
une langue de civilisation qui a duré plus de quatorze siècles, et était arrivée jusqu’en
occident.
Cet aspect a produit, au fil de l’histoire, un passage de la langue du Coran, comme
expression de l’intelligence divine, et donc intouchable, inimitable et intraduisible, à la langue
arabe comme expression de la perfection. A nos jours, il existe un consensus parmi les
grammairiens arabes que la grammaire de l’arabe classique est complète comme elle décrit un
corpus fermé contenant le patrimoine religieux et littéraire arabe.
2.1.2 L’arabe standard (MSA)
L’arabe moderne standard (MSA) est une forme de l’arabe, un peu différenciée de l’arabe
classique, qui est utilisée chez les locuteurs arabes instruits dans les situations formelles. Le
MSA est fondé syntaxiquement, morphologiquement et phonologiquement sur l’arabe
classique avec un lexique plus récent. L’arabe moderne standard, appelé aussi arabe formel,
est la forme de l’arabe utilisée dans la plupart des écrits administratifs, médiatiques,
scientifiques, techniques, littéraires ainsi que dans la majorité des articles de presse et les
journaux télévisés. Le MSA, constitue la langue écrite de tous les pays arabophones et de ce

Page
35
fait elle est retenue comme langue officielle de ces pays, sans être la langue maternelle des
populations de ces pays qui est généralement le dialecte. Cependant, le MSA n’est pas une
variété bien définie car il n’a pas été complètement élucidé et décrit comme l’arabe classique.
Le MSA se distingue de l’arabe dialectal par son système grammatical qu’il partage avec
l’arabe classique, même s’il existe des constructions fréquentes dans l’un et qui sont
considérées comme rares par l’autre.
Le MSA est donc la langue de communication non spontanée. Par conséquent, nous
assistons, d’un point de vue sociologique selon (El Kassas, 2005) à deux mouvements en
opposition. D’une part, l’apparition d’un langage des jeunes accentuant l’écart entre dialectes
et normes de la langue, et d’autre part, un attachement à la langue classique et une envie de lui
donner vie en tant que langue parlée. S’ajoute à cela, la globalisation qui donnera peut-être
naissance à un futur MSA.
D’un autre côté, dire langue arabe, c’est donc parler d’un ensemble complexe dans lequel
se déploient des variétés écrites et orales répondant à un spectre très diversifié d’usages
sociaux, des plus savants aux plus populaires. Mais au-delà de cette diversité, les sociétés
arabes ont une conscience aiguë d’appartenir à une communauté linguistique homogène. Elles
sont farouchement attachées à l’intégrité de leur langue, d’où l’importance du MSA. Ce
dernier constitue un terrain commun pour cette large population. Cet attachement est
matérialisé de diverses manières : la multiplication des chaînes de télévision arabes par
satellites et les sites arabes sur Internet ont contribué à augmenter la valeur et l’importance du
MSA au sein de la société. Cette importance est augmentée d’avantage à travers la
scolarisation, la constitution de grandes métropoles urbaines, les migrations interarabes, etc.
Tous ces éléments constituent des facteurs qui ne font qu’accélérer le mouvement
d’homogénéisation et d’harmonisation linguistique de l’arabe via la variante MSA. (El
Kassas, 2005).
Le MSA possède par ailleurs des variations régionales. Par conséquent, nous pouvons
détecter l’origine d’un texte marocaine, égyptienne ou en provenance des pays du Golfe. Cette
variation est due à plusieurs facteurs parmi lesquels nous citons : i) les différences introduites
par la création de nouveaux vocabulaires, ii) l’influence de l’histoire coloniale propres aux
régions sur la syntaxe et la stylistique du MSA employé dans chaque région : les pays du
Maghreb sont influencés par la littérature française alors que ceux du moyen orient sont
influencés majoritairement par la littérature anglaise. Par exemple, ‫ الوزير اِلول‬alwaziir alawal
‘le premier ministre’ traduit du français est le terme utilisé au Maghreb pour désigner le terme
fréquent ‫ رئيس الوزراء‬raʕiis alwuzaaraaʕ ‘le président des ministres’ utilisé par ailleurs.
2.1.3 L’arabe dialectal
L’arabe dialectal est une autre forme de la langue arabe utilisé dans les communications
quotidiennes, généralement appelée ‘āmmiyya “langue commune” ou dārija “langue
courante”. Cette variété possède également d’autres noms, parmi lesquels nous citons “
l’arabe vernaculaire ” -proposée par (Smith, 1917)- et “l’arabe parlé” (Salib, 1981). Elle est
définie selon (Al-Toma, 1969) comme étant “la langue courante des activités quotidiennes,
elle est généralement parlé, bien qu’elle soit parfois écrite. Elle varie non seulement d’un
territoire arabe à un autre, mais aussi d’une région à une autre au sein du même territoire”.
Les dialectes populaires sont également bien définis; non pas parce qu’ils sont entièrement
codifiée, mais parce qu’ils sont acquis naturellement par leurs locuteurs natifs.
Ainsi, presque tous les pays arabes ont leurs propres dialectes qui sont plus ou moins
différents les uns des autres au sein du même pays, et plus naturellement, de ceux des autres
pays. Ces différences dépendent considérablement de l’histoire de chaque pays et de son
emplacement géographique. Prenons par exemple l’Algérie qui était une colonie française

Page
36
après avoir été placée sous souveraineté de l’Empire ottoman. En dialecte algérien, le mot
table emprunté du français et est dit ‫ طابلة‬TaAblaħ en dialecte algérien, de même pour le mot
‫ سكارجي‬sukaArjiy emprunté du turque qui signifie ‘ivrogne’. Le dialecte algérien comprend
également plusieurs termes qui dérivent du berbère comme par exemple ‫ ڨرجومة‬Qarjuwmaħ
pour dire ‘gorge’. Les systèmes grammaticaux des différents dialectes affichent de nettes
divergences avec celui du MSA. Cependant, nous signalons que pour deux pays arabes
frontaliers, les populations qui vivent des deux côtés de la frontière parlent des dialectes très
proches partageant une bonne partie de leur syntaxe et lexique. Par exemple, dans la région
qui se situe au Nord-Est de l’Algérie, regroupant les villes de Souk Ahras, Tébessa et Annaba;
utilise un dialecte plus proche du dialecte tunisien que du dialecte algérien.
Par ailleurs, le dialecte, comme toute autre langue, se développe et s’adapte à chaque
époque. Nous avons donc souvent de nouveaux termes qui apparaissent et qui peuvent dériver
d’autres langues, sous la forme d’emprunt, comme mentionné dans les exemples ci-dessus.
L’internet et les nouvelles technologies d’information et de communication ont aussi
influencé les dialectes qui sont devenus de par leur utilisation de plus en plus comme langue
d’écriture de ces supports. Les populations arabes utilisent le dialecte pour les échanges sur
les forums, les SMS, le chat voir aussi les messages électroniques. Ces communications sont
formulées soit en caractères arabes, ou aussi en caractères latins (arabe translittéré), selon les
habitudes des utilisateurs avec les claviers arabes ou latins. Même s’il est écrit, le dialecte
reste de l’arabe informel. En dialecte arabe, nous notons l’utilisation de plus des caractères
arabes, des graphies qui n’appartiennent pas à la langue arabe, comme la lettre ‘g’ en dialecte
tunisien ou algérien. Ces graphies sont utilisées pour écrire généralement des noms propres de
villes ou de personnes. Les échanges sur les réseaux sociaux et les SMS ont aussi introduit
l’utilisation des chiffres pour formuler certaines lettres arabe sans équivalent graphématique
dans l’écriture latine, comme par exemple la lettre ‫ ح‬H qui est translittérée en chiffre ‘7’, la
lettre ‫‘ ص‬S’ qui est translittérée en chiffre ‘9’.
D’un point de vue historique, selon (Farghali, 2010), il existe autant de théories sur
l’origine des dialectes arabes modernes que des vues divergentes sur le nombre de premières
langues arabe. Beaucoup de linguistes, comme (Versteegh, 1997), supposent que les dialectes
arabes modernes se sont développés à partir d’un premier arabe dialectal parlé pendant les
premiers jours des conquêtes arabes. La conquête islamique a étendu l’arabe à une vaste aire
où diverses langues étaient parlées. Si les habitants des terres conquises ont parfois adopté la
langue des conquérants, ils ont aussi été à l’origine d’un processus qui a conduit à
l’émergence des dialectes.
D’autres grammairiens pensent que les dialectes modernes sont issus de l’arabe classique.
A titre d’exemple, les gens qui ne savent pas comment parler correctement l’arabe classique,
ont eu tendance à baisser les terminaisons de cas qui sont de ce fait prononcées avec un accent
en introduisant de l’innovation lexicale. Un autre point de vue, qui est celui de (Ferguson,
1959b), réfute l’hypothèse précédente faisant un lien descendant/ascendant entre les dialectes
et l’arabe classique. Il appuie son point de vue par l’énumération de quatorze caractéristiques
linguistiques, essentiellement des traits phonologiques et morphologiques, que tous les
dialectes partagent mais qui manquent en arabe classique. Il propose que tous les dialectes
arabes proviennent d’une forme de l’arabe parlé, lors des contacts entre les populations des
territoires conquis et les parlers des camps de bases militaires arabes positionnés dans ces
territoires.
Enfin, nous signalons qu’il existe un grand nombre de différences linguistiques entre le
MSA et l’arabe dialectal. Certaines de ces différences n’apparaissent pas sous une forme
écrite mais ils sont au niveau voyelles courtes, qui sont omis dans le texte arabe de toute
façon. D’autres différences se manifestent textuellement au niveau morphologique et

Page
37
grammatical. La morphologie du MSA est plus riche que celle des dialectes en raison de la
disparition des cas et des modes de flexion dans les dialectes. Par exemple, le MSA a une
forme duale en plus des formes singulières et plurielles, alors que dans les dialectes manquent
la plupart du temps la forme duale. Aussi, le MSA a deux formes plurielles, un masculin et un
féminin, alors que de nombreux dialectes ne font souvent aucune distinction de genre au
pluriel ou au singulier pour certains dialectes. D’autre part, les dialectes ont un système de
cliticisation plus complexe que celui du MSA, ce qui permet la négation affixés (circonfixe),
et l’attachement des pronoms aux objets qui agissent comme des objets indirects. Au niveau
de la grammaire, le MSA dispose d’un système de cas complexe qui n’est pas présent dans les
dialectes.
2.2. Les variétés dialectales de la langue arabe
La classification des dialectes arabes a intéressé les chercheurs et les observateurs depuis
plusieurs années. Plusieurs classifications ont été proposées pour la répartition de ces dialectes
au cours des années selon certains critères à savoir le critère géographique (horizontal) et le
critère social (vertical). De ce fait, plusieurs grands groupes de dialectes, correspondant
environ aux divers principes linguistiques, ont été proposés. Ces groupes répondent souvent à
des divisions géographiques naturelles. Ce dernier constat est appuyé aussi par (Versteegh,
2011), qui avance que : ‘les critères des classifications courantes ne sont pas toujours clairs.
Dans une certaine mesure, ils semblent souvent ne refléter qu’une répartition géographique’.
Cette classification géographique, selon (Embarki, 2008), est relativement récente par rapport
à d’autres classifications, comme la classification sociologique. La dialectologie arabe
distingue généralement deux grandes zones ou familles principales de dialectes (Cohen, 1973;
Barkat, 2000; Embarki, 2008; Saâdane et al., 2013, Baccouche, 1998) :
• La zone occidentale (l’Afrique du Nord, le Maghreb) : contient le groupe du Maghreb
qui comporte l’Algérie, le Maroc, la Tunisie, la Libye et la Mauritanie,
• La zone orientale (le Machrek) : contient le groupe du Machrek comportant l’Égypte,
la Syrie et les autres pays du Moyen-Orient (l’Irak, les Etats du Golfe, Yémen, Oman,
Jordanie, etc.).
Selon (Baccouche, 1998) ces groupes sont séparés géographiquement et approximativement
par l’Est libyen (du Sallûm au Tchad) et présentant plusieurs traits distinctifs morpho-
phonologiques et lexico-sémantiques. Cependant ce découpage a été affiné, et la typologie qui
en est issue, recueillant l’adhésion de plusieurs chercheurs, (Versteegh, 1997 et 2001; Habash,
2010), classe les parlers arabes modernes en cinq grandes aires dialectales (cf. Fig. 1), de l’Est
à l’Ouest comme suit :
2.2.1 Les dialectes de la péninsule arabique (Golf)
Pour des raisons historiques le dialecte du golfe est le plus proche du MSA, étant
donné que cette région constitue le berceau de la langue arabe d’une part, et d’autre
part le MSA a évolué à partir d’une variété arabe originaire de la région du Golfe. Le
dialecte du Golf conserve plus de traits du MSA par rapport aux autres dialectes,
comme l’usage productif de la quatrième forme verbale ou le passif interne (Versteegh
2001). Cependant, le Golfe contient aussi des aspects le différenciant du MSA.

2.2.2 Les dialectes mésopotamiens (Irakien)

Ce dialecte est considéré parfois comme une variante du Golfe. Toutefois, il possède
ses propres caractéristiques le distinguant du Golfe, notamment celles concernant les

Page
38
prépositions, la conjugaison des verbes et la prononciation (Mitchell, 1990). D’un
point de vue géographique, ce dialecte est utilisé par la population des bassins du Tigre
et de l’Euphrate (Dajla et Alfwrat), en d’autres termes les parlers du nord de l’Irak et
de l’Anatolie et ceux du sud de l’Irak. Nous signalons que plus nous nous rapprochons
du sud de cette région plus les dialectes utilisés sont proches de ceux de la côte
orientale d’Arabie.
2.2.3 Les dialectes levantins
Ce dialecte est utilisé par les parlers des pays suivants le Liban, la Syrie, la Jordanie et
la Palestine. Cette région est connue aussi pour être un des bastions de la langue arabe
depuis longtemps, elle fait partie des premières régions à être arabisée selon un
processus rapide facilité par une forte présence arabe dans la région, et ce, dès avant
l’islam. Les dialectes de cette région diffèrent quelque peu dans la prononciation et
l’intonation, mais sont largement équivalent en écriture, et selon (Bassiouney, 2009)
ils sont étroitement liés à l’araméen. Selon (Meillet et Cohen, 1981), les dialectes de
cette catégorie peuvent être classés en trois groupes comme suit :
i. Les dialectes libanais qui concernent le dialecte de Beyrouth et celui de la
Syrie (incluant celui de Damas),
ii. Les dialectes du nord de la Syrie, comme celui d’Alep par exemple,
iii. Les dialectes palestino-jordaniens, contenant certains dialectes de villageois et
de citadins de la Jordanie et de la Palestine ainsi que ceux de certains parlers
du sud de la Syrie.
2.2.4 Les dialectes égyptiens
Ces dialectes concernent l’Egypte essentiellement et constituent les dialectes les plus
largement compris. Ce fait est dû essentiellement à l’influence politique de l’Egypte
dans le monde arabe, surtout dans le 20ème siècle, ainsi que l’industrie
cinématographique et télévisuelle de ce pays qui est très abondante, variée et
massivement distribuée dans le monde arabe (Haeri, 2003). Les dialectes de cette
catégorie sont classés par les dialectologues en quatre groupes :
i. Les dialectes du delta du Nil, qui se subdivisent eux-mêmes en dialecte de l’est
et dialecte de l’ouest;
ii. Le dialecte du Caire considéré comme le dialecte le plus prestigieux comme
c’est la langue de la capitale où se trouvent les bureaux de l’administration
gouvernementale, c’est aussi la langue du cinéma, du théâtre et des divers
médias. Ce dialecte est généralement parlé par un grand nombre de personnes
instruites et cultivées.
iii. Les dialectes de la Moyenne-Égypte, s’étendant de Gizhz à Asyut,
iv. Les dialectes de la Haute -Égypte, qui s’étendent de Asyut jusqu’au sud du
pays. Il convient d’ajouter également les parlers tchado-soudanais qui sont
inclus dans l’aire égyptienne, particulièrement dans le sud de l’Égypte (Meillet
et Cohen, 1981; Cohen, 2002).

2.2.5 Les dialectes maghrébins

Page
39
Les dialectes de cette catégorie sont caractérisés par une forte influence des langues
française et berbère. La plupart des dialectes considérés peuvent être inintelligible par
l’orateur dans d’autres régions du Moyen-Orient, en particulier sous forme orale. La
géographie du Maghreb lui procure une grande région, de ce fait elle présente une plus
grande variation de dialecte, plus importante que celle perçue dans d’autres régions
comme le Levant ou le Golfe. Elle peut être aussi divisée en d’autres sous-catégories.

Figure 2. 2. Classification des parlers arabes modernes en aires dialectale

En plus de la géographie, le critère social est aussi proposé par certains chercheurs pour
la stratification des dialectes, comme celle qui répartie les dialectes en deux groupes : groupes
citadins et groupes bédouins. Cette classification est soutenue dans (Embarki, 2008) qui
explique : ‘les linguistes et autres observateurs de l’aire arabophone ont montré depuis
longtemps que la plus petite localité comme la région la plus étendue sont traversées par une
division entre ʿarab (nomades) vs ḥaḍar (sedentaires). Le terme ḥaḍar correspond à une
population sédentaire, de type citadin ou villageois; quant à ʿarab, il englobe des populations
nomades et semi-nomades’. Ceci porte le nombre de classes dialectales à trois : 1) parlers
bédouins nomades, 2) parlers bédouins sédentaires, et 3) parlers citadins.

2.3. La situation linguistique de la langue arabe

Linguistiquement parlant, la situation de la langue dans le monde arabe est caractérisée
principalement par l’utilisation de deux variétés de l’arabe : l’arabe standard (MSA) et l’arabe
dialectal. L’arabe standard est la langue de la littérature utilisée essentiellement dans la lecture
et dans l’écriture des contenus des journaux, des revues, etc.; avec une utilisation quasi nulle
dans les communications orales. Cependant, le dialecte est la langue de relations sociales
quotidiennes, utilisée essentiellement pour les communications orales, elle est de ce fait la
langue maternelle des populations du monde arabe.
Ces deux variétés partagent une grande partie de leur lexique, cependant il existe
plusieurs indicateurs permettant, pour un lecteur/auditeur, de faire la distinction et d’identifier
la variante utilisée. Parmi ces indicateurs, nous avons certains préfixes verbaux, la
construction négative, la construction démonstrative et beaucoup de mots spécifiques à
chaque variante, etc. Nous signalons à ce niveau que les mots spécifiques marquent une
rupture nette entre le MSA et le dialecte. De plus les écarts entre les deux variantes peuvent
aussi être illustrés, selon (Boukadida, 2008) par les éléments suivants :
 La disparition des désinences flexionnelles dans les dialectes;

Page
40
 Le changement au niveau vocalique du système verbal. Pour le MSA, nous trouvons
surtout une alternance vocalique, a/i et i/a dans l’opposition accompli/inaccompli, alors
que pour les dialectes il y a une certaine similitude entre les deux : la voyelle de la
deuxième consonne est l’élément le plus stable du schème et du mot;
 La variation syllabique du dialectal. Cette variation a entraîné une plus grande variation
schématique ce qui introduit une souplesse structurelle plus étendue dans les mots et
une possibilité d’intégration des emprunts et des néologismes.

Compte tenu des éléments introduits ci-dessus, nous pouvons dire que l’arabe dialectal
possède un lexique très riche, surtout en vocables étrangers, en plus d’une morphologie et
syntaxe simplifiées ce qui le distingue de l’arabe standard.

Comme mentionné, la société arabe utilise deux variantes de la même langue, ce qui
constitue une ‘diglossie’ qui est un phénomène connu dans la littérature linguistique introduit
pour la première fois par le linguiste (Marçais, 1930) dans le cadre des études faites pour
caractériser la situation linguistique du monde arabe. Ce terme a été emprunté par la suite et
défini par le linguiste (Ferguson, 1959a) dans un article intitulé « Diglossia » comme étant:
« Une situation de langagière relativement stable dans laquelle, en plus des dialectes
primaires de la langue (qui peuvent inclure une ou plusieurs normes régionales), il existe une
variété superposée, très divergente, hautement codifiée (souvent plus complexe du point de
vue grammatical), elle véhicule d’une grande quantité de la littérature écrite vaste et
respectée, soit à une époque antérieure soit dans une communauté linguistique. Cette variété
est apprise essentiellement par l’enseignement et est utilisée pour la plupart des fonctions
écrites et des fonctions orales à caractère formel, mais n’est pratiquée par aucun groupe de
la communauté pour les conversations ordinaires. »
Dans les situations diglossiques, les deux variétés linguistiques d’une seule langue sont
baptisées : variété H (High, élevée) et variété L (Low, basse). La variété H est généralement
utilisée dans le système éducatif, religieux et littéraire (les livres littéraires ou scolaires, les
journaux, les publications gouvernementales, etc.) de par le fait qu’elle est standardisée,
codifiée et normalisée. Elle jouit d’un statut social prestigieux et elle est très valorisée dans la
société. Quant à la variété L, elle constitue le moyen de communication de vie quotidienne
employée dans les conversations informelles, la littérature orale, les interviews, etc. Elle est
généralement la langue maternelle acquise naturellement (sans apprentissage). Cependant, elle
ne possède pas le même statut prestigieux et la même valorisation dont bénéficie la langue H.
Le tableau suivant résume l’ensemble des domaines d’usage de ces variétés proposés par
(Calvet, 1987) illustrant une situation diglossique :

Situations Variété haute Variété basse

Sermons, culte +
Ordre des ouvriers, serviteurs +
Lettres personnelles +
Discours politiques, assemblées +
Cours universitaires +
Conversations privées +
Informations sur les médias +
Feuilleton +
Textes des dessins humoristiques +
Poésie +

Page
41
Littérature populaire +
Tableau 2. 1. Cas d’usage des situations diglossiques
En conclusion, la situation sociolinguistique de la langue arabe s’inscrit amplement dans
une conception diglossique, dans la mesure où il existe deux variantes de la langue arabe :
d’une part, l’arabe standard moderne MSA (variété H), qui est une langue prestigieuse,
valorisée, standardisée et reconnue comme langue officielle, et d’autre part, l’arabe dialectal
(variété L), qui est réservée aux échanges informels de la vie quotidienne en plus du fait
qu’elle est généralement la langue maternelle des arabophones.

2.4. Aperçu historique de l’arabe algérien (AA)

Les dialectes arabes ou langue vernaculaires constituent les langues maternelles des
arabophones. Comme présenté ci-dessus, la dialectologie arabe distingue trois groupes
différents de dialectes à l’intérieur du grand ensemble géographique que constitue le monde
arabe. D’abord, les dialectes du Maghreb (le groupe de l’Ouest) où l’on trouve : l’Algérie, la
Mauritanie, le Maroc, la Tunisie et la Libye. Ensuite, les dialectes du Machrek (le groupe de
l’Est) où l’on trouve : l’Egypte, la Syrie, le Liban, la Jordanie et la Palestine. Enfin, les
dialectes du Golfe où l’on trouve l’Arabie Saoudite, le Yémen, Oman, les Émirats arabes unis,
le Qatar, le Bahreïn, le Koweït et l’Irak. Mais à l’intérieur de ces familles de géolectes, nous
trouvons aussi bien des dialectes nationaux (natiolectes) que des dialectes régionaux
(régiolectes) et même des dialectes locaux (topolectes), parlés sur un espace limité (village,
localité) (Saâdane, 2011).
Le dialecte algérien, noté AA, est l’un des dialectes du Maghreb parlé en Algérie. Ce
dialecte est aussi appelé ‫ دارجة‬daArjaħ3, ‫ جزايري‬jazaAyriy ou ‫ دزيري‬dziyriy signifiant
simplement ‘algérien’. Ce dialecte est considéré comme un langage de basse variété (Faible
variété). Ceci signifie que l’AA est faiblement normalisé et standardisé. Il est utilisé dans la
presse, la télévision, la communication sociale, les échanges Internet, SMS, etc. Il est à
mentionner que seules les communications officielles en lecture et en écriture n’utilisent pas
le dialecte AA. Cependant, même si AA est parlé par la population de l’Algérie, estimée à 40
millions de personnes, il est caractérisé par une variation de ce même dialecte en fonction de
l’emplacement géographique des locuteurs de l’AA. Ces variations ne créent généralement
pas d’obstacles à comprendre le dialecte. En plus de AA, la population algérienne parle aussi
le Berbère mais avec des rapports différents: AA est utilisé par 70 à 80% de la population,
cependant la langue berbère est la langue maternelle d’une communauté importante de la
population algérienne : 25% à 30% d’algériens sont des natifs berbérophones. La langue
berbère est utilisée principalement dans le centre de l’Algérie (Alger et la Kabylie), l’Est de
l’Algérie (Béjaia et Sétif), dans les Aurès (le chaoui), dans le Mzab (nord du Sahara) et il est
utilisé par les Touaregs basés dans le sud du Sahara (Hoggar).
De plus, le dialecte AA est influencé principalement par trois langues : l’arabe, le berbère
et le français. A ce titre, nous citons la définition du célèbre humoriste et comédien algérien,
Mohamed Fellag, qui décrit le AA comme suit : « L’algérien de la rue est une langue
trilingue, un mélange de français, d’arabe et de berbère. ». Cette diversité a contribué à avoir
un paysage linguistique à la fois complexe et riche en Algérie comme l’avance (Taleb
Ibrahimi, 2006) «le paysage linguistique de l’Algérie, produit de son histoire et de sa

3
La translitération arabe est présentée dans (Habash et al., 2007). La transcription phonologique est présentée entre /…/ mais
utilise les formes HSB (les schèmes Habash-Soudi-Buckwalter) des consonnes quand c’est possible afin de minimiser la
confusion que peut engendrer les différents ensembles de symboles utilisés.

Page
42
géographie, est caractérisé par la coexistence de plusieurs variétés langagières – du substrat
berbère aux différentes langues étrangères qui l’ont plus ou moins marquée en passant par la
langue arabe, vecteur de l’islamisation et de l’arabisation de l’Afrique du Nord.». De ce fait,
le dialecte algérien ne peut pas être présenté comme un système linguistique homogène, mais
il possède de multiples variétés linguistiques. Selon (Queffélec et al., 2002) nous distinguons
quatre variétés linguistiques pour le dialecte algérien :
i. L’Oranais : cette variété est parlée dans l’ouest de l’Algérie, précisément depuis la
frontière algéro-marocaine jusqu’aux limites de la ville de Ténès,
ii. L’Algérois : cette variété est largement répandue dans la zone centrale de l’Algérie
jusqu’à Bejaia,
iii. Le rural : les locuteurs de cette variété sont situés dans l’est de l’Algérie comme
Constantine, Annaba ou Sétif. Nous signalons aussi que les locuteurs situés plus à l’est,
c’est-à-dire de Constantine à la frontière algéro-tunisienne, sont aussi considérés dans
cette catégorie. Il est aussi à signaler qu’il existe des déclinaisons de cette variante propre
à certaines villes, comme c’est le cas pour les villes d’Annaba et de Constantine.
iv. Le Saharien : est considéré comme le dialecte la population algérienne habitant la
partie sud de l’Algérie, à partir de l’Atlas saharien.
Par ailleurs, nous signalons aussi que le dialecte AA est enrichi par les langues des
groupes ayant colonisé ou géré la population algérienne au cours de l’histoire du pays. Parmi
les langues de ces groupes, nous citons : le turc, l’espagnol, l’italien et plus récemment le
français. Nous pouvons considérer de ce fait le dialecte AA comme une fertilisation croisée de
nombreuses langues avec l’arabe du fait de l’histoire de l’Algérie, qui a fait de cette dernière
un carrefour de multiples civilisations et une terre d’accueil. Le métissage linguistique qui a
résulté de ce brassage des langues (Arabe, Berbère, Phénicien, Andalou, Mudéjar, Romain,
Espagnol, Turc, Sicilien, Français, etc.), depuis des siècles, a donné lieu à une grande palette
de variétés pour le dialecte Algérien. Cette palette prend des couleurs régionales, provinciales
voir même locales. Ces variétés sont matérialisées par la présence de mots étrangers dans le
dialecte et de systèmes de prononciation différents variant sensiblement d’une région à une
autre. En plus des mots d’emprunt et l’intégration de certains d’entre eux dans la
morphophonologie du dialecte algérien, l’influence des langues sur le AA a été matérialisée
également par l’alternance codique (le code switching) souvent dans les conversations
quotidiennes, en particulier du français, par exemple, ‘lycée’, ‘salon’, ‘quartier’, ‘normal’, etc.
L’utilisation de ces mots est réalisée sans aucune adaptation de la phonologie.
Ceci crée une situation linguistique assez complexe. En effet, ce mélange de la langue a
été étudié par de nombreux sociolinguistiques comme (Morsly, 1986; Ibrahimi, 1997;
Benrabah, 1999; Arezki, 2008). Ils ont décrit le paysage linguistique de l’Algérie comme
‘multilinguisme’ ou ‘poly-glossique’ où plusieurs langues et variétés de langues coexistent. En
d’autres termes, le dialecte AA présente le meilleur exemple d’une situation sociolinguistique
complexe (Morsly, 1986).
Ce brassage de langues peut être expliqué d’un point de vue historique comme suit.
D’abord, le berbère était la langue maternelle de la population du Maghreb en général et de
l’Algérie en particulier avant la conquête islamique. La langue berbère est la langue
maternelle d’une partie de la population algérienne. Le berbère intègre quelques mots arabes
en raison des échanges commerciaux entre les populations locales d’Afrique du Nord et les
arabes qui sont venus de l’Orient. L’arabisation des algériens a commencé avec les conquêtes
islamiques qui ont introduit la langue arabe comme moyen de communication de base quelle
que soit le domaine : la religion, l’économie, l’apprentissage, etc. Au XVIe siècle, les

Page
43
Ottomans ont aidé l’Algérie contre l’invasion espagnole qui occupait les zones dans l’ouest de
l’Algérie (Oran) (Guella, 2011). L’occupation espagnole, pendant trois siècles, a été la
principale raison de l’existence de certains mots espagnols dans le dialecte algérien (ALG), et
surtout dans l’ouest. Il était aussi le facteur de l’allégeance de l’Algérie à Ottoman Khalifa
afin de déloger l’Espagne de l’ouest du pays. Par cette allégeance, Algérie est devenue une
province ottomane où le turc est introduit dans différent domaine notamment dans
l’administration, politique et des échanges économiques. L’arabe a continué à utiliser, mais
progressivement, de nombreux mots turcs ont été introduits dans de nombreux domaines de la
vie quotidienne, comme la nourriture, l’habillement, le commerce, etc. L’année 1830 marque
le début de la colonisation française qui a tenté d’imposer le français comme l’unique moyen
de communication pendant 132 années. Cette situation a provoqué une baisse significative de
la langue arabe au détriment du dialecte, caractérisé par une grande influence du français et de
l’introduction de certaines autres langues comme l’italien et l’espagnol en raison des flux
migratoires en provenance de l’Europe, principalement d’Italie (installé dans la t côte Est ) et
d’Espagne (installé à l’ouest), en plus bien évidemment de la France.

2.5. Comparaison entre l’arabe algérien, égyptien, tunisien et le MSA

Dans cette section, nous présentons un ensemble de différences entre les dialectes
suivants : l’arabe algérien (AA), l’arabe égyptien (EA), l’arabe tunisien (TN) et l’arabe
standard moderne (MSA). Les différences entre ces dialectes sont nombreuses mais celles
mises en exergue dans cette section concernent les niveaux phonologique, morphologique,
orthographique et lexical. Cette présentation est basée sur les travaux effectués dans (Habash,
2010) et (Zribi et al., 2014) et (Saâdane et Habash, 2015). Nous renvoyons le lecteur à ces
travaux pour d’avantage éléments sur la comparaison effectuée.
2.5.1 Variations phonologiques
Dans la liste ci-dessous, nous introduisons les principales différences phonologiques
entre AA et les variétés EA, TA et MSA :
 La consonne (‫ )ق‬/q/ en MSA est l’un des sons qui méritent une attention particulière.
Ce son a de nombreuses variétés de prononciation dans le dialecte algérien. Ces
variations peuvent être perçue entre les régions, les villes, et même entre les localités
de l’Algérie. Ainsi, la prononciation du "q" de l’arabe standard peut être réalisée en
tant que [q, g, ʔ , ou k] dans les dialectes arabes. Ces différentes prononciations sont
décrites comme suit :
o uvulaire sourde «‫[ » ق‬q] : comme au Maroc et en Tunisie, cette prononciation
est présente en AA dans différentes localités à l’instar de certaines villes
urbaines comme Alger ou Constantine. Toutefois, nous signalons que cette
prononciation et pratiquement inexistante en EA sauf pour certaines exceptions
comme le mot ‫ القاهرة‬qaAhra ‘le Caire’.
o palatale sonore « ‫[ » ڨ‬g] : ce son est également utilisé à la fois au Maroc et
dans les dialectes tunisiens tout comme pour le dialecte algérien. L’utilisation
de ce son en Algérie est limitée dans certaines villes comme Annaba et Sétif,
en plus des zones rurales (dialectes bédouins) où ce son est très répandu. Ce
son est également présent dans le dialecte égyptien afin d’exprimer la
consonne ‫ ج‬j du MSA, et dans certaines provinces comme la Haute-Egypte
(‫ )صعيد مصر‬pour prononcer la consonne q ‫ق‬.
o glottale sourde /?/ : la présence de ce son est limitée à la seule ville de Tlemcen
en Algérie contrairement en Egypte où il est très utilisé. Pour le reste des
dialectes et la majorité de l’algérien, ce son est inexistant.

Page
44
o k post-palatal : ce son est une particularité du dialecte AA que nous ne
trouvons pas dans les autres dialectes d’Afrique du Nord. Ce son est utilisé
dans les localités rurales et certaines villes comme la Kabylie, Jijel, Msirda et
Trara.
En plus de ces types de sons, il existe quelques exceptions de prononciations ne pouvant
pas être casées dans l’une des catégories citées ci-dessus. C’est le cas des mots où la
prononciation est toujours la même quel que soit le dialecte n’utilisant pas la glottale sourde
/?/, comme pour le mot ‫ بڨرة‬bagraħ ‘vache’ qui se prononce de la même manière en utilisant la
consonne palatale sonore bagra. Nous avons aussi quelques cas où la prononciation crée des
paires minimales surtout dans les dialectes urbains, par exemple : ‫ قرون‬qruwn /qru:n/ ‘siècles’
et /gru: n/ ‘cornes’. Le phonème non standard /g/ est également utilisé dans de nombreux mots
dialectaux qui ne disposent pas d’équivalent en MSA, à titre d’exemple ‫ بالقدا‬biAlqdA /bilgda:/
‘très bien’.

 Il y aussi la prononciation de la consonne (‫ )ج‬/j/ qui possède différentes formes

spécifiques à une localité ou à un groupe de parlers, surtout en Afrique du nord. Cette
consonne est prononcée [dj] à Alger et dans la plus grande partie du centre de
l’Algérie comme dans le mot ‫ نجاح‬ndjaH ‘succès’, mais quand la consonne (‫ )ج‬/j/
précède la consonne (‫ )د‬/d/ elle est prononcée avec l’allophone [j] comme pour le mot
‫ جديد‬jdid ‘nouveau’. En Égypte, cette consonne est prononcée comme /g/ palatale
sonore. En Tunisie, Tlemcen et les habitants de l’est de l’Algérie, (‫ )ج‬est réalisée en
tant que /j/ ou /z/ lorsque le mot contient la consonne (‫ )س‬/s/ ou (‫ )ز‬/z/ comme dans les
mots ‫ جبس‬jibs ou djibs ‘plâtre’ qui devient ‫ زبس‬zebs; et ‫ عجوز‬ςadjuwz ‘vieille femme’
qui devient ‫ عزوز‬ςzuwz.

 La consonne en MSA (‫ )غ‬/γ/ est prononcée de manière différente selon certaines

catégories de parlers. Dans l’est du Sahara algérien, comme M’sila et Bousaada, /γ/ est
prononcée (‫ )ق‬/q/, par exemple, les mots ‫ غالي‬γaAliy ‘cher’ et ‫ صغيرة‬sγayraħ ‘petite’,
sont prononcées respectivement /qaAliy/ et /sqayra/. Parfois, elle est même prononcée
(‫ )خ‬/x/, comme pour les locuteurs tunisiens et ceux de l’est de l’Algérie qui
prononcent, par exemple, le mot ‫‘ غسل‬lavé’, /xssel/ ou /γssel/.

 Il existe aussi d’autres prononciations qui consistent en l’assimilation de consonnes,

comme pour la consonne (‫ )س‬/s/ qui est assimilée à (‫ )ز‬/Z/ et la consonne (‫ )ص‬/S/, qui
est assimilée à (‫ )س‬/s/ dans certains dialectes, et prononcée (‫ )ز‬/Z/ dans d’autres. C’est
le cas du mot ‫ فازدة‬faAzdaħ ‘corrompue’ au lieu de ‫ فاسدة‬faAsdaħ et le mot ‫ سدر‬sder
‘poitrine’ au lieu de ‫ صدر‬Sder. Cette assimilation peut être expliquée par certaines
causes phonétiques comme l’influence de la consonne voisine. D’un point de vue
géographique, nous trouvons cette assimilation de consonnes dans certaines villes
d’Algérie comme Tlemcen et à Annaba et la Tunisie.

 La consonne interdentale en MSA (‫ )ث‬/θ/ peut être prononcée (‫ )ت‬/t/, dans les trois
dialectes AA, TA et EA comme pour le mot ‫ ثوم‬θuwm ‘ail’ qui est prononcé ‫ توم‬/tuwm/.
Cette consonne est également prononcé /θ/ dans certains dialectes algériens et
tunisiens urbains comme dans le mot ‫ ثوم‬θuwm. Elle est aussi prononcée (‫ )ف‬/f/
comme dans les dialectes nomades de Mostaganem où par exemple le mot ‫ ثاني‬θaAniy
‘également’ est prononcé ‫ فاني‬faAniy; ou (‫ )س‬/s/ dans certains cas dans le dialecte EA,
par exemple, le mot ‫ ثابت‬θaAbit ‘fixe’ est prononcé ‫ سابت‬saabit.

Page
45
 Une autre consonne interdentale en MSA a également des prononciations spéciales; il
s’agit de la consonne (‫ )ذ‬/ð/. Dans le dialecte EA, elle peut être prononcée (‫ )د‬/d/,
comme le mot ‫ ذهب‬ðhab ‘or’ qui est prononcé ‫ دهب‬dhab, ou (‫ )ز‬/z/, par exemple le mot
‫‘ ذكي‬intelligent’ est prononcé zakiy. Toutefois, dans le dialecte AA et TA, la consonne
(‫ )ذ‬/ð/ a l’une des prononciations suivantes: (‫ )ذ‬/ð/ ou (‫ )د‬/d/. Par exemple le mot ‫ذراع‬
‘bras’ peut être prononcé ðraAς ou draAς. En outre, dans certaines régions en Algérie,
comme Mostaganem, cette consonne est prononcée (‫ )ڢ‬/v/, comme pour le mot ‫ذهب‬
ðhab ‘or’ est prononcé dans ces régions ‫ ڢهب‬vhab.

 Le phonème de la glottale sourde, qui apparaît dans de nombreux mots en MSA,

possède dans le dialecte AA les différentes formes de prononciation suivantes :
o la glottale sourde devient longue : cette prononciation est également présente
dans les autres dialectes TA et EA. Nous pouvons donner comme exemple les
mots : ‫ فأس‬faÂs /fa’s/ → /fa:s/ ‫ فاس‬faAs ‘pioche’, ‫ ذئب‬Diŷb /Di’b/ → /Di:b/ ‫ذيب‬
diyb ‘loup’, et ‫ مؤمن‬muŵmin /mu’men/ → /mumin/ ‫ مومن‬muwmin ‘croyant’.
o la disparition de la glottale sourde : elle consiste à retirer simplement la glotte
en prononçant le mot. Cette forme est également utilisée dans les dialectes TA
et EA. Par exemple, prenons le mot suivant : ‫ زرقاء‬zarqaA’ /zarqa:’/ → /zarqa:/
‫ زرقا‬zarqA ‘bleu’.
o la glottale sourde est remplacée par une semi-voyelle /w/ ou /y/ : cette
prononciation est présente dans les dialectes AA et TA et non pas dans le
dialecte EA. Elle est utilisée par exemple dans le cas des mots ‫ أ ّكل‬/Âak~al/
‘faire manger’ → ‫ و ّكل‬wuk~al, ‫ أمس‬/Âams/ ‘hier’ → ‫ يامس‬yaAmas.
o la glottale sourde est remplacée par la lettre /l/ : cette forme est également
utilisée uniquement dans les dialectes AA et TA contrairement à leur
homologue égyptien EA. C’est le cas des exemples suivants : ‫ أفعى‬/Âafςa/
‘vipère’ → ‫ لفعى‬/lafςa/, ‫ أرض‬/ÂaarD/ ‘terre’ → ‫ لرض‬/larD/. Nous notons que
les exemples donnés sont également des exceptions qui possèdent la même
forme à la fois dans le cas défini et indéfini.
o la glottale sourde est remplacée par la lettre /h/ : les dialectes AA et TA
utilisent cette forme pour prononcer dans certaines cas la glottale sourde, par
exemple dans le mot ‫ أجَّالة‬Âaj~aAlaħ /Âajja:la/ ‘veuve’ → ‫ هجَّالة‬hajjaAlaħ
/hajja:la/, ‫ أ ّماَل‬Âam~aAlaA /Âamma:laA/ ‘cependant’ → ‫ ه ّماَل‬ham~aAlaA
/hamma:laA/. Cette forme de prononciation est inexistante dans le dialecte EA.

 Le dialecte AA comme la plupart des autres dialectes arabes, change et néglige les
voyelles courtes, surtout quand elles sont placées à la fin d’une syllabe. Par exemple,
le mot ٌ‫ باب‬baAb-un ‘la porte’ est transformé en ْ‫ باب‬baAb /ba:b/ en dialecte. Nous
signalons, qu’en règle générale, la suppression de la première voyelle change la
structure syllabique des unités lexicales, qui tendent à devenir pour certains mots
monosyllabiques.

 Contrairement au dialecte égyptien, le dialecte algérien et tunisien élident de

nombreuses voyelles courtes dans des contextes non stressées. Cette caractéristique est
également présente dans les autres dialectes du Maghreb. C’est le cas des mots
suivants : MSA ‫ جمل‬jamal ‘Camel’ (et EA /gamal/) devient en AA /jmal/. En outre,
cette caractéristique introduit un élément intéressant pour distinguer les dialectes
maghrébins du dialecte EA. Il s’agit de la présence d’une succession de deux
consonnes au début du mot. Ceci se traduit par une particularité notable dans le
schème verbal des dialectes AA et TA ‘fςal’ à la place de ‘faςal’ dans le dialecte EA,

Page
46
comme dans le verbe en MSA ‫ قتل‬/qatal/ ‘il a tué’ (et EA /’atal/) devient en AA et TA
/qtal/.

 Commencer des mots par des consonnes ‘neutres’, sans voyelles (avec un sukun) est
l’une des caractéristiques marquantes de l’arabe dialectal maghrébin et qui le distingue
à la fois du littéral et des dialectes orientaux. Par exemple en dialecte nous avons le
mot ‫ ْكتَب‬ktab (il a écrit) au lieu de ‫َب‬ َ ‫ َكت‬kataba en MSA. Cette particularité est
particulièrement remarquable au niveau des prénoms comme ‫ ْب َرا ِهيم‬brahim au lieu de
‫ اِب َْرا ِهيم‬Ibrahim; ‫ ْسلِي َمان‬slimân au lieu de ‫ ُسلَي َمان‬Sulayman.

 Les diphtongues ay et aw utilisées en MSA sont généralement réduites uniformément

dans les dialectes à /i:/ et /u:/ respectivement. Par exemple, prenons les mots : ‫حيط‬
/hayT/ ‘mur’ qui devient en dialecte /hi:T/, ‫ لون‬/lawn/ ‘couleur’ qui devient en dialecte
/lu:n/. Nous notons aussi que cette particularité se trouve chez la jeune génération des
parlers; cependant, les locuteurs les plus âgés et les parlers ruraux conservent encore
les diphtongues ay et aw dans certains mots et contextes, par exemple le mot ‫ عود‬est
encore prononcé /ςawd/ ‘cheval’ par certains vieux parlers.

 Les dialectes AA et TA sont aussi caractérisés par la prononciation, dans certains mots,
de la voyelle longue /a:/ du MSA comme /e:/ et dans d’autres mots comme /a:/. Par
exemple, le mot ْ‫ َج َمال‬/jam:al/ ‘beauté’ avec cette signification est prononcé avec /a:/
mais il est réalisé avec /e:/ dans le mot /jme:l/ signifiant ‘chameaux’.

 Les dialectes AA et TA utilisent la particule ‘n’ pour la première personne du singulier

comme les autres dialectes du Maghreb. Cette particule est généralement absente dans
les dialectes du Machrek comme le dialecte EA. Dans ces dialectes la particule ‘n’ est
remplacé par le ‘a’ comme le montre l’exemple suivant : ‫ نكتب‬/naktab/ ‘J’écris’ dans le
dialecte AA est réalisé en EA comme ‫ اكتب‬/Aaktib/.

2.5.2 Variations Morphologiques

Sur le plan morphologique, il existe plusieurs différences entre les dialectes, et
principalement le dialecte AA, et le MSA au niveau de plusieurs aspects. Il est à noter aussi
que les dialectes maghrébins possèdent en général des aspects morphologiques assez proches
et qui consistent essentiellement en une simplification de certaines inflexions et l’inclusion de
nouveaux clitiques comme suit :
 En termes d’inflexion dans le dialecte AA, comme les autres dialectes arabes, les cas
des terminaisons dans les noms et les modes des verbes sont perdus. Nous notons que
l’indicatif est utilisé par défaut, contrairement aux autres modes qui ne sont pas
utilisés. En outre, le duel (masculin et féminin) et le pluriel féminin sont disparus; ils
sont assimilés au masculin pluriel. Par exemple, le mot ‫ َشكَرْ تُ َّن‬šakartun~a ‘vous
(féminin au pluriel) avez remercié’ est normalisé dans le dialecte AA en ‫ ْشكَرْ تُوا‬škar-
tuwaA ‘vous avez remercié’. En outre, la première et la deuxième personne du
singulier sont conjuguées de la même manière dans le dialecte, par exemple, dans le
MSA nous disons ‫ت‬ ُ ْ‫ َشكَر‬šakartu ‘J’ai remercié’ et َ‫ َشكَرْ ت‬šakarta ‘tu as remercié’, ces
deux formes sont normalisées en dialecte AA et TA dans la forme unique suivante :
‫ت‬ْ ْ‫ ْشكَر‬škart ‘j’ai/ tu as remercié’ et en dialecte EA ‫ت‬ ْ ْ‫ َشكَر‬šakart. Cette simplification
peut conduire, de ce fait, à des ambiguïtés dans les dialectes.

Page
47
 Le dialecte AA modifie la forme interne des verbes quand il fait sa flexion sous la
forme imparfaite et impérative. Il introduit la gémination dans la première lettre et le
déplacement de la voyelle de la seconde consonne du radical vers la première
consonne du même radical. Cette modification est appliquée seulement pour former le
pluriel et la 2ème personne du singulier au féminin. Pour illustrer cet aspect, la flexion
en AA du verbe ‘remercier’ à la 3ème personne du singulier au masculin est ْ‫ يُ ْش ُكر‬yu-
škur ‘il remercie’ et pour la 3ème personne du pluriel au masculin nous avons ‫يُ ُّش ْكرُوا‬
yuš~ukr-uwA ‘ils remercient’, cependant, en dialecte EA et TA le même cas est
formulé en ‫ يُ ْش ُكرُوا‬yuškur-uwA. Ce dernier exemple montre bien l’absence de la
gémination dans les autres dialectes, ce qui fait d’elle un aspect propre à l’algérien.

 Le dialecte AA utilise seulement, comme les autres dialectes arabes, le suffixe ‫ ين‬/yn/
pour former le pluriel régulier. Cependant, les dialectes AA et TA élident les voyelles
courtes dans des formes plurielles, comme dans les exemples suivants : ‫ ُم ْل َح ْد‬mulHad
‘incroyant’, au pluriel ‫ ُم ْلحْ ِدين‬mulHdiyn, ْ‫ ُمهَ ْن ِدس‬muhandis ‘ingénieur’, pl. ‫ين‬
ْ ‫ُمهَ ْن ْد ِس‬
muhandsiyn. Mais il existe une exception pour le participe actif [Faa3iL] → [Faa3L-
iyn] où l’élision au niveau de cette exception est maintenu quel que soit le dialecte
comme pour le mot ‫صايِ ْم‬
َ SaAyim ‘fasting’ → ‫ين‬ ْ ‫صا ْي ِم‬ َ SaAymiyn.

 Le suffixe emphatique ‫ تيك‬/-tiyk/, décrit par (Cohen, 1912), en tant que caractéristique
du dialecte d’Alger qui est utilisé pour exprimer les adverbes se terminant par /-a/,
comme pour les mots ‫ ڨانا‬gana ‘également’ qui devient ganaAtiyk, ‫ زعما‬zaςma ‘soi-
disant’ qui devient zaςmaAtiyk.

 Pour la forme ‫“ استفعل‬Aistaf3al”, qui existe dans les différents dialectes, le dialecte AA
introduit une nouvelle variante de cette forme. Cette variante est ‫‘ سفعل‬ssa-f3al’ et elle
est employée essentiellement dans les parlers de l’ouest algérien. A ce sujet (Marçais,
1902) indique la réduction de la séquence [st] classique à [ss] que nous entendons
fréquemment en un seul /s/. Par exemple, prenons le verbe ‫ف‬ ْ َ‫ اِ ْستَ ْكل‬Aistaklaf ‘s’occuper
de’ peut également être utilisé comme ‫ف‬ ْ
ْ َ‫ َّسكل‬ssaklaf ou ‫ف‬ ْ
ْ َ‫ َسكل‬saklaf.

 Une autre caractéristique du dialecte AA, inexistante dans le système morphologique

du MSA et généralement présente dans les dialectes, consiste en l’insertion de la
voyelle /i:/ entre la racine et les suffixes consonantiques de la forme perfective du
verbe géminé primaire. Cette caractéristique traduit l’écart entre l’arabe dialectal et
l’arabe standard au niveau de la suffixation consonantique à la forme perfective
(accomplie) du verbe géminé. Par exemple, dans le MSA, le verbe ‫شددت‬/‫ش ّد‬
šad~a/šadadtu ‘il/j’ai tiré’ devient dans le dialecte AA ‫شديت‬/‫ ش ّد‬šad~/šad~iyt. Cette
caractéristique est également présente dans les autres dialectes arabes, comme indiqué
précédemment, mais avec quelques modifications, comme c’est le cas avec le dialecte
EA où l’insertion de la voyelle /ee/ est effectuée à la place de la voyelle /i:/.

 La voix passive existe aussi dans la variété dialectale mais avec quelques différences
significatives par rapport à cette même voix dans le MSA. En MSA, la voix passive
est le résultat d’un changement interne des voyelles du verbe, tandis qu’en dialecte,
cette voix est ainsi formée par l’introduction de nouveaux morphèmes, généralement
le [t-] et parfois, dans les dialectes AA et EA, le morphème [n-]. Ces morphèmes
ajoutés sont préfixés à la forme perfective et infixés à la forme imperfective. Par
exemple, le dialecte tunisien marque la voix passive du verbe exprimé en MSA par ‫ُكتِب‬

Page
48
kutiba ‘il a été écrit’, par ‫ تِكتِب‬tiktib. Plus en détails, la forme passive dans le dialecte
algérien est obtenue en faisant précéder le verbe avec l’un des éléments suivants:
o t- / tt-, par exemple : ‫ تبنى‬tabnaý ‘il a été construit’, ‫ ترفد‬ttarfad ‘il a été relevé’
o n-, par exemple : ‫ نفتح‬nftah ‘il a été ouvert’
o /tn- / ou /nt/, e.g., ‫ نتكل‬ntkal ‘il a été mangé’, ‫ تنقتل‬tnaqtal ‘il a été tué’. Nous
notons que ce dernier élément est spécifique pour le dialecte AA.
 Plusieurs dialectes introduisent de nouveaux clitiques qui n’existent pas dans le MSA,
comme la négation circonfixe ‫ ما‬+ mA+ +‫ ش‬+š qui est exprimée en MSA avec diverses
particules comme : ‫ ما‬mA, ‫ لم‬lam, ‫ لن‬lan ‘ne … pas’. Par exemple ‫ ما قريتش‬mA qriyteš
‘je n’ai pas lu’. Un autre exemple spécifique au dialecte TA est le clitique
d’interrogation verbale qui est exprimé en MSA par ‫ أ‬Âa et la particule ‫ هل‬hal. Ces
clitiques sont substitués en TA par le clitique ‫ شي‬šiy.

 A l’instar de plusieurs dialectes (EA et TA), le dialecte AA comprend un ensemble de

clitiques qui sont des formes réduites des mots MSA. A ce titre, le proclitique
démonstrative +‫ ه‬ha+ qui précède strictement l’article défini +‫ ال‬Al+ utilisé en dialecte
correspondent aux pronoms démonstratifs du MSA ‫ هذا‬haðaA et ‫ هذه‬haðihi, par
exemple la phrase ‫ هذه الدنيا‬haðihi AldunyaA est exprimée en dialecte par haAldinyaA
‘cette vie’. Il y aussi le proclitique +‫ ع‬ςa+ utilisé dans les dialectes qui est une forme
réduite de la préposition ‫ على‬/ςalaý/ ‘sur’, comme dans l’exemple suivant : la phrase
en MSA ‫ على الطاولة‬/ςalaý AlTaAwilaħ/ est formulée en dialecte AA ‫عالمايدة‬
ςaAlmaAydaħ ςaAlmaAydaħ ‘sur la table’. La même remarque est valable pour les
proclitiques + ‫ ف‬+fa et + ‫ م‬m+; qui sont la forme réduite des prépositions ‫ في‬fiy ‘dans’
et ‫ من‬min ‘de’ ou de la conjonction de la coordination ‫ مع‬maςa ‘avec’ respectivement.
Par exemple (MSA → AA) ‫ في الدار‬fiy AldaAr → ‫ فالدار‬fiAldaAr ‘dans la maison’, et la
phrase en MSA ‫ من المدرسة‬mina Almadrasaħ donne dans le dialecte AA ‫مالمسيد‬
miAlmsiyd ‘de l’école’.

 Le dialecte AA a perdu en général les formes duelles nominales, qui sont remplacées
par le mot zudwj /zu:dj/ ‘deux’ suivi du nom au pluriel. Par exemple, la forme duelle
‫ كتابين‬kitaAbayn en MSA est exprimée par la forme ‫ زوج كتب‬zuwdj ktub ‘deux livres’ en
dialecte AA. Les dialectes tunisien et marocain utilisent le même procédé pour
exprimer le duel avec l’utilisation du mot ‫ زوز‬zuwz /zu:z/ et ‫ جوج‬juwj /ju:j/
respectivement.

2.5.3 Variations Orthographiques

La variation orthographique dans l’écriture des mots en dialectes arabes est dû
principalement à deux raisons: i) la non-existence d’une norme orthographique pour les
dialectes arabes ces derniers ne sont pas codifiées et normalisées, et ii) les différences
phonologiques entre le MSA et les dialectes arabes en générale, voir même au sein d’un
même dialecte. Pour ces dialectes les mots peuvent être écrits phonétiquement ou
étymologiquement en utilisant leurs formes correspondantes en MSA. Ce fait crée une
certaine incohérence entre les écrivains des dialectes. Par exemple, le mot correspondant à
‘or’ peut être écrit ‫ دهب‬dhab ou ‫ ذهب‬Dhab. En outre, dans certains cas, la phonologie ou la
morphologie sous-jacente se traduit par une écriture d’assimilation phonologique régulière,
par exemple, ‫ طوموبيل‬Tuwmuwbiyl ‘voiture’ est aussi écrite ‫ طونوبيل‬Tuwnuwbiyl, ‫إسماعيل‬
IsmaA’iyl ‘Ismaël’ est aussi écrit ‫ إسماعين‬IsmaA’iyn, ‫ من بعد‬men ba3d ‘après’ est également écrit
‫ مم بعد‬mem ba3d.
De plus, ces différentes orthographes peuvent conduire à une certaine confusion
sémantique, comme pour le mot ‫ شربو‬šrbw qui peut être ‫ شربوا‬šarbuwA ‘ils buvaient’ ou ‫شربه‬

Page
49
šarbuh ‘il l’a bu’. Enfin, les voyelles longues raccourcies peuvent être prononcées longues ou
courtes. A titre d’exemple, ‫شفوها‬/‫ شافوها‬šAfw+hA/ šfw+hA ‘ils l’ont vu’, et ‫ مجابش‬majaAbaš ‘il
n’a pas apporté’ qui peut être prononcé aussi ‫ ماجابش‬mAjaAbaš. Le dernier exemple est
particulier où la particule ‫ ما‬mA en MSA, qui est la source du proclitique ma-, possède une
autre orthographe en dialecte comme suit : ‫ ما جابش‬mA jaAbaš (en d’autres termes deux mots
distincts). (Zribi et al, 2014) précise que pour le dialecte tunisien un certain nombre
d’adverbes possèdent de multiples formes, par exemple, l’adverbe interrogatif ‫ آش‬Āš ‘quoi’
apparaît parfois comme un proclitique +‫ ش‬+š et dans certains cas il est transcrit comme un
mot séparé reflétant différentes prononciations, par exemple ‫ شقال‬šqaAl et ‫ آش قال‬ĀšqaAl.

2.5.4 Variations lexicales

Au niveau de la variation lexicale, il existe plusieurs aspects caractérisant les dialectes.
Nous avons choisi de focaliser la présente section sur la présentation de deux aspects très
répandus dans les dialectes, à savoir la dérivation et l’emprunt.

[Link]. La dérivation
La dérivation dans la grammaire arabe est un phénomène régulier et utilisé pour
construire à partir d’une racine consonantique plusieurs éléments et paradigmes exprimant
l’agent, le patient, le locatif, les noms prédicatifs (masdar), le superlatif, etc. Cette
construction ou dérivation est faite en suivant des schèmes préétablis avec l’implication d’une
variation vocalique et l’ajout de certains éléments consonantiques. Pour les dialectes, la
régularité de la dérivation constitue la colonne vertébrale du système morphologique dialectal.
Selon (Mejri et al., 2009), la dérivation est néanmoins enrichie dans les dialectes par une
présence relativement importante du système affixal qui concerne également la forme littérale
moderne. Cet enrichissement est continu et est matérialisé, à titre indicatif, par l’incorporation
dérivationnelle (Sfar, 2005 & 2006) ou l’ajout d’un certain nombre d’affixes spécifiques
comme ‫ جي‬jiy qui indique la profession (Baccouche, 1994) : ‫ قهواجي‬qahwaAjiy ‘celui qui tient
un café’, ‫ بنكاجي‬bankaAjiy ‘banquier’. Par conséquent la dérivation au niveau des dialectes
diffère de celle de l’arabe standard au niveau quantitatif. De plus, nous notons que dans les
dialectes, un autre type de dérivation est utilisé, non basé sur des schèmes spécifiques mais
plutôt en combinant les schèmes aux affixes. C’est le cas par exemple du mot ‫كوارجي‬
kawwarjiy ‘footballeur’ qui ajoute au schème [Fa33aL], qui donne à partir de ‫ كورة‬kuwra
‘ballon’ le mot ‫ كوار‬kawwaAr le suffixe ‫ جي‬jiy utilisé pour exprimer une profession, ou du mot
‫ حيطيست‬HiTist qui incarne l’ajout du suffixe ‫ يست‬ist, emprunté du français pour exprimer une
profession, afin de qualifier une personne dont la profession est d’adosser les murs (une
manière ironique pour dire chômeur).

[Link]. L’emprunt
L’emprunt est aussi une autre caractéristique lexicale fortement présente dans les
dialectes arabes. D’un point de vue qualitatif et quantitatif, l’emprunt présente un dynamisme
assez intéressant. Par ailleurs, l’emprunt est le reflet de l’influence des autres langues sur les
dialectes, pour toutes les raisons citées auparavant, où dans les dialectes nous trouvons
beaucoup de mots issus des différentes langues comme l’anglais, le français, le turc,
l’espagnol, etc. Sur le plan qualitatif, (Mejri et al., 2009) avance qu’il existe trois points à
retenir : l’introduction de nouveaux suffixes empruntés à d’autres langues, l’intégration
systématique des unités empruntées dans les paradigmes construits par schèmes et l’impact
phonologique qui agit par le bais de l’emprunt sur le système phonologique du dialecte.
En ce qui concerne l’introduction de nouveau suffixe, ces derniers sont issus des autres
langues, comme le turc ou le français, afin d’exprimer certains paradigmes comme une
profession. C’est le cas du suffixe turque ‫ جي‬jiy ou français ‫ يست‬ist décrits dans la section

Page
50
précédente. Quant à l’intégration des emprunts par le biais des schèmes, nous signalons qu’à
partir d’un mot emprunté, nous pouvons obtenir toutes les unités répondant à tous les schèmes
disponibles en dialectal. Par conséquent, cette particularité reflète une grande capacité à la
fois d’intégration et de création lexicale. Par exemple, à partir du mot emprunté ‘business’ en
dialecte tunisien, et maghrébins en général, nous obtenons les mots suivants :
 Le verbe ‫ بزنس‬baznas ‘il a fait un biseness’
 L’agent ‫ بزناس‬baznaAs ‘celui qui fait du biseness’ avec un pluriel ‫ بزناسة‬baznaAsa
 Le Masdar ‫ تبزنيس‬tbazniys ‘action de faire des biseness’
Pour ce qui est de l’impact phonologique des emprunts sur les dialectes, nous citons par
exemple l’introduction de voyelles nasales dans le dialecte maghrébin. Cet impact est
matérialisé par la coexistence d’une nasalisation de la voyelle doublée et d’une présence assez
timide de la consonne [n], comme c’est le cas pour le mot ɛlɛktisyɛ ‘électricien’.

Nous terminons cette section par donner, dans le tableau (2.2), quelques exemples
d’emprunts de mots, de différentes origines (berbère, turc, italien, espagnol et français), dans
le dialecte algérien AA.
Mots Traduction Translittération Origine
‫فكرون‬ tortue Fakruwn
‫شَلغم‬ Moustache šliAγam Berbère
‫ڨرجومة‬ gorge Qarjuwmaħ
‫تقاشير‬ Chaussettes tqaAšiyr
‫سكارجي‬ Ivrogne sukaArjiy Turc
‫زردة‬ Festin Zardaħ
‫فيشطة‬ Fête fiyšTaħ
‫زبلة‬ Faute Zablaħ Italien
‫صوردي‬ Money Suwrdiy
‫سيمانة‬ Semaine siymaAnaħ
‫سبردينة‬ Espadrille Spardiynaħ Espagnol
‫سُكويلة‬ Ecole Sukwiylaħ
‫طابلة‬ Table TaAblaħ
‫تيليفون‬ Téléphone Tiyliyfuwn Français
‫فرملي‬ infirmier Farmliy

Tableau 2. 2. Origine et sens de quelques mots empruntés utilisés dans le dialecte algérien

2.5.5 La variation syntaxique

Dans cette section, nous essayons de présenter l’écart entre l’arabe MSA et les dialectes
au niveau syntaxique où à ce niveau la rupture avec le littéral est plus marquante et grande.
Nous rappelons que les dialectes arabes se caractérisent par la disparition des marqueurs
flexionnels : les cas nominatif, accusatif et génitif pour les noms, ainsi que la perte de la
distinction entre l’indicatif, le subjonctif et le jussif (impératif) pour les verbes. Cette perte
pose un problème pour définir les fonctions syntaxiques des unités lexicales dans une phrase
donnée. Ce fait que nous constatons est renforcé par les propos de (Merji, 2009) où il avance
que « Si le littéral relève des langues casuelles, qui, grâce aux flexions, marque les fonctions
syntaxiques des unités lexicales dans le cadre de la phrase, il n’en est pas de même du
dialectal qui substitue au marquage casuel une rigidité très contrainte dans l’ordre des mots
et qui compense dans certains cas la disparition des formes fléchies par un recours plus
important aux éléments prépositionnels ». Afin d’illustrer ces propos, prenons l’exemple de la

Page
51
phrase suivante :
 ‫( ضرب الرجل الطّفل‬l’homme frappe l’enfant)
Daraba ?al-rajul ?at-tifl
frapper-[accompli]-l’homme-l’enfant

Dans la grammaire arabe, cette phrase donne lieu à deux interprétations différentes selon les
marques casuelles, comme suit :
َ ّ‫ضرب الرج ُل الط‬
1. ‫فل‬ َ (l’homme a frappé l’enfant)
daraba ?al-rajul-u ?at-tifl-a
frapper-[accompli]-l’homme-[nominatif]-l’enfant-[accusatif])

2. ‫( ضرب الرج َل الطّف ُل‬l’enfant a frappé l’homme)

daraba ?al-rajul-a ?at-tifl-u
frapper-[accompli]-l’homme-[accusatif]-l’enfant -[nominatif]

Au niveau des contraintes liées à l’ordre des mots, le dialecte partage avec le français les
mêmes contraintes. Cet ordre est réalisé de deux manières différentes selon le type de la
phrase, comme suit :
 Verbales :
o ْ‫ ضربْ الراجلْ الطّفل‬ l’homme a frappé l’enfant
o ْ‫ ضربْ الطّفلْ الراجل‬ l’enfant a frappé l’homme

 Nominales :
o ‫ الطّفل ضرب الجار‬ l’enfant a frappé le voisin
o ‫ الجار ضرب الطّفل‬ le voisin a frappé l’enfant

Dans certaines phrases dans le dialecte, nous faisons recours à la préposition [fi] «dans»
afin de marquer l’accusatif qui ne peut pas être marqué seulement par la position du mot dans
la phrase. Pour illustrer ce cas, prenons cette phrase en MSA :
 MSA
‫( يأكل الطّف ُل الطماط َم‬l’enfant mange la tomate)
ya?kulu ?at-tifl-u ?aT-TamaATim-a
ème
manger-inaccompli-3 personne singulier- le-enfant-la-tomate

 Dialecte AA
‫( ياكل الطّفلْ في الطماط َم‬l’enfant mange la tomate)
yaAkul t-tful T-TmaATam
manger-inaccompli-3ème personne singulier- le-enfant-dans-la-tomate

L’accord entre le verbe et le sujet en fonction de la position du verbe dans la phrase

constitue un autre écart entre le MSA et l’arabe dialectal. En MSA, nous avons deux types
d’accords entre le verbe et le sujet : total et partiel. Cependant, en arabe dialectal, il existe
seulement un accord complet quel que soit la position du verbe. Par exemple, pour la phrase :
‫‘ كتب اَلوَلد الدروس‬les enfants écrivent les leçons’ nous avons les présentations suivantes :
 MSA
1) Verbe Sujet Objet (accord Partiel)
‫كتب اَلوَلد الدروس‬
kataba ?al-AwlaAd-u ?ad-duruws-a
écritmascSing les enfants les leçons
2) Sujet Verbe Objet (accord Complet)

Page
52
‫اَلوَلد كتبوا الدروس‬
?al-AwlaAd-u katabuwA ?ad-duruws-a
Les enfants écriventmascPlural les leçons
 EGY
1) Verbe Sujet Objet
‫كتبو اَلوَلد الدروس‬
katabuw ?il-AwlaAd ?id-duruws
écriventmascPluriel les enfants les leçons
2) Sujet Verbe Objet
‫اَلوَلد كتبو الدروس‬
?il-AwlaAd katabuw ?id-duruws
Les enfants écriventmascPluriel les leçons

Dans le même registre, la construction possessive ‫‘ إضافة‬Idafa’ est une autre différence
notable entre le dialecte et le MSA à signaler. Cette construction est réalisée dans le dialecte
avec l’utilisation d’une particule entre le premier et le deuxième mot. Cette particule diffère
largement entre les dialectes. Quant au MSA, la construction possessive est faite grâce à
l’article défini attaché au deuxième mot. Prenons l’exemple suivant :

 MSA : Nom1 de Nom2

‫( ملك المغرب‬le roi du Maroc)
Malik ?al-maghrib
roi le-Maroc
 Dialecte : Nom1 <particule> Nom2
AA : ‫الملك ديال المغرب‬
?al-malik dyaAl ?al-maghrib
Le-roi appartenant le-Maroc
 LEV : ‫الملك تبع المغرب‬
?al-malik taba’ ?al-maghrib

Enfin, nous signalons une dernière différence concernant la modification de la position de

l’article démonstratif. En MSA, le pronom démonstratif est placé en première position avant
le nom, contrairement aux dialectes où il est placé en deuxième position après le nom, comme
l’illustre l’exemple suivant :
 MSA : ‫ هذا الرجل‬haDaA ?ar-rajul ‘cet homme’
 AE : ‫? الراجل ده‬ir-raAguil dah ‘homme cet’
 AA : ‫? الراجل هادا‬ir-raAgil haAdaA ‘homme cet’

Page
53
Partie II : Analyse
Linguistique de la langue
arabe

Page
54
Chapitre 3 Analyse
morphosyntaxique

Page
55
Introduction
Ce chapitre est consacré à présenter les démarches suivies pour le développement de
notre analyseur morpho-syntaxique dédié à l'arabe standard. Nous avons commencé par
présenter un aperçu des travaux réalisés sur le traitement automatique de l'arabe dans la
section 3.1. La section 3.2 est dédiée à présenter les démarches et les étapes effectués pour le
développement de notre système d'analyse linguistique (proposé). Enfin, la section 3.3 est
consacrée à présenter l'analyse syntaxique effectuée lors de cette analyse, tout en exposant les
relations syntaxiques dans des phrases verbales et nominales.

3.1. Etat de l’art sur le traitement automatique de l’arabe

Les premières recherches sur le traitement automatique de l’arabe ont commencé vers
les années 1970 (Cohen, 1970) et concernaient notamment le lexique et la morphologie.
Le traitement morphosyntaxique par ordinateur de la langue arabe n’est pas récent, il a
fait l’objet depuis plusieurs décennies de travaux novateurs, en particulier en France par des
équipes de recherche qui se sont progressivement spécialisées dans le traitement de
l’information multilingue. En effet, dès le milieu des années 1970, les travaux de chercheurs
tels que Yahya Hlal, puis ceux de Fathi Debili dans les années 1980, ont montré la possibilité
d’un traitement automatique de la langue arabe. Dans les années 1990, on peut également
citer aussi, toujours en France, les travaux de Joseph Dichy notamment dans le cadre du
projet européen DIINAR-MBC (Dictionnaire informatisé de l’arabe, multilingue et basé sur
corpus).
Plusieurs projets européens ont porté sur le traitement de l’arabe. Plus récemment un
réseau d’excellence européen a permis de regrouper la plupart des acteurs européens pour
échanger des informations et produire des ressources linguistiques (dictionnaires, corpus
étiquetés, logiciels, dans le cadre des projets NEMLAR (Network for Euro-Mediterranean
LAnguage Resources) puis MEDAR (MEDAR (Mediterranean Arabic Language and Speech
Technology). La recherche sur le TAL arabe a été confrontée à de nombreuses difficultés qui
relèvent de niveaux différents directement en lien avec notre sujet de thèse.
Tout d’abord, le niveau morphologique a posé des problèmes spécifiques en raison du
système particulier de création lexicale et de dérivation de l’arabe standard. (Roman, 1999)
démontre que le système syllabique de la langue arabe, constitué de sous-ensembles de
consonnes et de sous-ensembles de voyelles permet l’attribution de fonctions différentes aux
consonnes et aux voyelles dans la production langagière. Il démontre aussi que la langue
arabe a construit son « système de nomination » sur des racines de consonnes et qu’elle a
fondé son « système de communication » sur ses voyelles brèves, qui sont utilisées en fait
comme des désinences casuelles. Dans cette étude de la morphologie de l’arabe, André
ROMAN présente les oppositions entre les formes nominales et verbales de l’arabe dans la
langue attestée par des textes de différentes époques mais n’aborde pas du tout les réalisations
orales ou oralisées de l’arabe moderne.
Concernant la question de la dérivation qui constitue le cœur de son analyse, (Roman,
1999) oppose le couple {res - modus} dans la nomination et le couple {première voix –
seconde voix} dans la communication, alors que les productions contemporaines observées
notamment sur les forums et autres blogs montrent un mélange de ces deux systèmes couplés
dans les réalisations langagières des locuteurs natifs de l’arabe.
Plusieurs chercheurs ont essayé d’apporter des solutions à cette spécificité
morphologique pour le traitement automatique de l’arabe, mais c’est la question de l’écrit -et
en particulier de la voyellation de l’écrit- qui a concentré l’essentiel des travaux. Ainsi,
(Grainger, 2003) consacre une étude approfondie à « la reconnaissance du mot écrit en arabe
», mais son « approche expérimentale » ne tient pas compte des productions effectives des
locuteurs et part du système de la langue pour proposer une méthode de reconnaissance

Page
56
théorique. De son côté, (Ghenima, 1998) consacre sa thèse de doctorat au problème de la
voyellation, mais son analyse morphosyntaxique est loin de permettre une reconnaissance du
mot écrit en arabe. La proposition de (Zaafrani, 1997) est plus convaincante parce qu’elle ne
vise pas le « mot » mais les traits morphologiques de l’arabe,
Ensuite, concernant l’aspect sémantique de notre sujet, les études consacrées au
traitement automatique de l’arabe ont été marquées au cours des deux dernières décennies par
une concentration des travaux sur l’étude statistique du vocabulaire. Seul (Abbas-Mekki,
1998) a proposé une description des unités linguistiques en vue de l’indexation automatique,
mais ses travaux ont porté exclusivement sur les textes écrits en arabe classique. Plus
récemment, les synthèses proposées par (Abbès, 2002) et par (Abbès et Dichy, 2008)
constituent une référence en matière de traitement statistique du vocabulaire arabe classique.
Le premier a développé un fréquenceur (AraFreq) permettant le calcul de fréquences sur des
formes dérivées ou non de l’arabe (lemmes) ; le second a utilisé le logiciel « AraConc » pour
réaliser l’extraction automatique des fréquences à partir d’un corpus journalistique.
Il est clair cependant que la principale préoccupation des chercheurs durant cette
période a été le développement d’outils permettant de constituer des bases de données
lexicales, très recherchées pour l’arabe. (Ezzahid, 1996) avait proposé des pistes très
intéressantes en se basant sur la théorie Sens-Texte d’Igor Mel’cuk. Suivant ces pistes, (Dichy,
1997) a fait l’inventaire des spécificateurs du mot en arabe et développé une base de données
(DIINAR 1.0) enrichie de spécifications morphosyntaxiques, même si elle reste
exclusivement axée sur l’arabe classique. À partir de cette base, il a été possible de mener des
études locales concernant notamment les verbes en arabe classique en vue de l’enseignement
(Abu Al-Chay, 1988) ou encore les verbes en arabe moderne en vue de la traduction (Franjié,
2003). Mais malgré cette diversification des objectifs, des problèmes de fond sont restés sans
solution.

Enfin sur le plan méthodologique, le tournant intervient progressivement au cours des

années 1990 grâce à un changement de perspective. En effet, on assiste à un passage des
travaux théoriques sur la langue arabe en tant que système linguistique, aux travaux
empiriques basés sur des corpus d’usages attestés et de productions effectives dans des
situations réelles. Ce changement de perspective a été impulsé par l’intérêt suscité par
l’Internet pour la recherche d’information, d’abord en mode monolingue arabe, puis en mode
interlingue avec l’arabe. Les travaux de (Fluhr, 1997 & 1998) sont un signal fort de ce
tournant, en particulier pour les études spécifiques consacrées au traitement « crosslingue » de
l’arabe.
Dans la même optique, (Guidère, 2003 & 2005) propose un système de recherche
d’information multilingue intégrant l’arabe et donne des recommandations précises pour la
constitution de corpus arabes, l’alignement d’unités du discours, et l’élaboration d’ontologies
en vue de la détection automatique d’entités nommées.
Les travaux de (Attia, 2000) sont parmi les premiers à adopter cette dimension
empirique dans l’analyse morphologique à travers la proposition d’une approche hybride
combinant à la fois règles de conjonction et statistiques, et propose de ce fait l’utilisation
d’une liste de préfixes, suffixes et modèles pour la transformation d'une forme dérivée (stem)
à une racine (root). Les combinaisons possibles entre préfixe-suffixe-modèle sont construites
pour chaque mot afin d'en dériver les possibles racines. Ce système a été implémenté par le
RDI4 dans le développement du logiciel MORPHO3. Dans la ligné de l’analyseur
MORPHO3, (Darwish, 2002) propose une approche de traitement plus automatique,
implémentée dans «Sebawai », qui remplace le traitement manuelle, qui construit les règles et

4
RDI : Research and Development International (Egypt)

Page
57
les suffixes, par un traitement qui produit la racine de chaque mot par des règles dérivées
automatiquement et statistiquement. Ce système comporte deux modules principaux : le
premier utilise une liste de pairs en arabe (mot-racine) afin d’obtenir une liste des préfixes et
suffixes, de construire des modèles de dérivation et de calculer l’apparition d’une
vraisemblance à un préfixe, un suffixe, ou un modèle. Le second module prend en entrée les
mots arabes, les tentatives de constructions possibles des combinaisons préfixe-suffixe-
modèle, et renvoie en sortie une liste de classement des racines possibles.
D’autres méthodes ont été aussi proposées pour effectuer ces analyses comme
l'alignement des étiquettes morphologiques et syntaxiques. (Lee, 2004) propose d’utiliser
l’alignement des étiquettes morphologiques et syntaxiques du texte en arabe segmenté avec
des étiquettes morphologiques et syntaxiques des textes en anglais, pour statuer sur la prise en
compte des segmentations valables.
L’outil AMIRA développée par (Diab, 2009) implémente une approche différente
basée sur la réalisation de la séparation des clitiques indépendamment de l’étiquetage
morphosyntaxique et adopte l’apprentissage supervisé utilisant les Séparateurs à Vaste Marge
(SVM).

Nous citons aussi MADA (Morphological Analysis and Disambiguation for Arabic)
développé par (Habash, Rambow et Roth, 2009), qui est un outil d’analyse morphologique et
de désambiguïsation pour la langue arabe. Cet outil effectue en premier lieux une
translittération du texte arabe en entrée en utilisant l'encodage proposé par (Buckwalter,
2002). Il effectue un ensemble de traitements pour produire une liste d’analyses
morphologiques potentielles de chaque mot du texte en entrée, indépendamment du contexte.
Les segmentations possibles du mot sous la forme préfixe-racine-suffixe sont engendrées et
les règles définies par la base de données BAMA (Buckwalter, 2004) sont employées pour
vérifier la compatibilité bilatérale. Après la segmentation, MADA détermine l’analyse la plus
probable d’un mot étant donné son contexte. Pour y parvenir, MADA s’appuie sur des scores
calculés pour les analyses proposées, et ce calcul utilise 19 paramètres : 14 prédits par des
modèles SVM (Support Vector Machines), 2 paramètres prédits avec l’outil SRILM 5 (Stolcke,
2002), 1 paramètre prédit à partir du modèle unigramme, et 2 heuristiques supplémentaires.

Par ailleurs, l’adaptation des outils de segmentation des autres langues à l’arabe est
aussi un axe envisageable. Des travaux dans cette direction ont donné lieux à plusieurs
résultats, comme l’outil MorphTagger (Mansour, 2010) qui était dédié initialement pour
l’étiquetage morphosyntaxique de l’hébreu (Mansour, Sima’an et Winter, 2007) et qui
s’appuie également sur l’analyseur morphologique BAMA. MorphTagger segmente l’arabe
en se basant sur les modèles de Markov cachés (HMM). En termes de performance, il est plus
rapide que MADA. L’étape de segmentation ainsi que quelques règles de normalisation ont
été ajoutées à l’outil. L’architecture de MorphTagger est similaire à celle de MADA étant
donné qu’il utilise la base de données BAMA ainsi que l’outil SRILM pour la
désambiguïsation.
D’un point de vue opérationnel, MorphTagger prend en entrée un texte en arabe et il le
fait passer à travers l’analyseur morphologique BAMA. Cette première étape produit pour
chaque mot, toutes les analyses possibles ainsi que leurs étiquettes morphosyntaxiques puis la
séquence d’étiquettes la plus probable en fonction du modèle. La sélection de l’analyse
correcte est réalisée en choisissant le morphème le plus probable tout en tenant compte de
l’étiquette morphosyntaxique. Afin de résoudre certains problèmes d’ambiguïtés au niveau
des sorties, MorphTagger utilise l’outil SRILM. Enfin, nous signalons que ce segmenteur peut

5
SRILM : The SRI Language Modeling Toolkit ([Link]

Page
58
effectuer éventuellement quelques étapes de normalisation de textes afin d’obtenir les formes
correctes des mots.
Dans le même registre, (Gahbiche-Braham et al., 2012) ont proposé un analyseur
morphosyntaxique permettant de segmenter le texte en arabe et de séparer les proclitiques.
Cet outil est basé sur les champs markoviens conditionnels CRF. Leur approche procède de la
manière suivante : les textes en arabe sont tout d’abord translittérés en utilisant l’encodage de
(Buckwater, 2002). Ensuite, la prédiction des étiquettes morphosyntaxiques et de la
segmentation est effectuée avec des modèles de prédiction construits à l'aide de l'outil
Wapiti (Lavergne et al., 2010) permettant de construire des modèles intégrant un très grand
nombre de descripteurs. L'étape de prédiction est suivie d’une étape de normalisation.
Finalement des règles de segmentation ont été développées afin de segmenter le texte en
arabe et séparer les proclitiques de la forme de base.

Les approches à base de règle ont été aussi investies pour effectuer l'analyse morpho-
grammaticale comme c’est le cas de l’arabe G-LexAr proposé par (Debili et al., 2002). Ce
système prend en entrée des textes voyellés ou non voyellés et procède de la manière suivante
: i) il segment le texte d'entrée en unités morphologiques, ii) il filtre les chaînes de caractères
qui ne relèvent pas de l’analyse morphologique de l’arabe, iii) il analyse les unités
morphologiques indépendamment de leur contexte et iv) il produit en sortie pour chaque unité
lexicale ses segmentations, voyellations, lemmatisations et étiquettes grammaticales possibles
sous la forme d’un arbre.

AraParse est un analyseur morphosyntaxique des textes arabes (voyellé, semi ou non
voyellé). Il est basé sur des ressources linguistiques à large couverture et utilise un lexique de
lemmes généré à partir du dictionnaire DIINAR.1 (Ouersighni, 2002). Pour remédier au
problème des mots inconnus, le système utilise une technique d’appariement approximatif
implémentée avec le formalisme 'AGFL' et emploie l’opérateur de priorité entre les
alternatives d’une règle et les expressions régulières.
De leur côté, (El Isbihani et al., 2006) proposent trois méthodes de segmentation de la
langue arabe : 1) à base d’apprentissage supervisé, 2) à base des fréquences, et 3) à base des
automates à états finis. Ils démontrent que l’utilisation de la troisième approche donne les
meilleurs résultats et qu’elle est adaptable à différentes tâches. C’est la raison pour laquelle
nous avons développé aussi un analyseur morphosyntaxique à base de règle et fondé sur les
automates à états finis.
On ce qui concerne l'analyse syntaxique de la langue arabe, nous citons principalement
les travaux de (Bahou et al., 2005) qui ont proposé un analyseur syntaxique de textes arabes
non voyellés. Pour réaliser ce système, ils ont eu recours à l'adaptation et l’implémentation
des grammaires HPSG pour la réalisation du système baptisé « SYNTAXE ». Ce système se
compose de trois modules à savoir, le module de prétraitement qui construit les matrices
attribut/valeur HPSG qui seront stockées dans l’Agenda (une structure de pile), le module
d’unification qui sert à tester l’accord entre les constituants et le module d’analyse qui
interagit et le module d’unification pour produire comme résultat les arborescences
syntaxiques du texte. Ces arborescences seront stockées dans un fichier XML.
(El Kassas et Kahane, 2004) utilisent un arbre de dépendance afin de présenter la
structure syntaxique des phrases en arabe. Les travaux de thèse de (El Kassas, 2005) visent le
développement des systèmes de production d’énoncés cohérents, valides, compréhensibles et
grammaticalement corrects. Les travaux ont porté sur l'analyse syntaxique de l'arabe moderne
et sa correspondance avec la sémantique dans une interface syntaxique-sémantique bilingue
(arabe – français). Elle a choisi la théorie Sens-Texte (TST) créée par I. Mel’čuk et A.
Žolkovskij pour l’élaboration des données langagières.

Page
59
3.2. Système d’analyse linguistique proposé
L'analyse linguistique profonde est nécessaire pour assurer une extraction
d'informations sûre, pertinente et complète. Par exemple lier des éléments qui peuvent être
éloignés dans une phrase. Nous pouvons avoir différentes définitions pour l’analyse
linguistique, par exemple : selon (Laporte, 2000) : "l'analyse morphosyntaxique est l'ensemble
des techniques qui concourent à passer d'un texte brut, exempt d'informations linguistique, à
une séquence des mots étiquetés par des informations linguistiques". L'analyse que nous
avons mise au point se divise en plusieurs étapes allant du découpage en lexèmes jusqu'aux
relations que ceux-ci entretiennent au sein d'une phrase. Les principales étapes de cette
analyse sont décrites par le schéma suivant :

Repérage des
Entrée du texte Négation
relations SVC

Repérage des
Tokenisation relations non Passif
contigues

Repérage des Détection des

Analyse
relations entités
morphologique
contigues nommées

Figure 3. 1. Les étapes de l’analyse linguistique.

3.2.1. Segmentation locale (Tokenisation)

La tokenisation fait partie d’un processus global appelé segmentation. La
segmentation est une étape nécessaire et non négligeable dans le traitement de la langue
naturelle car elle est "étroitement liée à l'analyse morphologique" (Chanod et Tapanainen,
1996). C'est encore plus le cas avec les langues à morphologie riche et complexe comme
l'arabe. Elle est considérée comme une étape primordiale dans un processus de traitement des
corpus, des documents ou des textes permettant le découpage en unités lexicales ayant
plusieurs niveaux de granularité : texte, phrase et mot. Ces unités sont aussi baptisées « les
tokens ou les segments ». La segmentation a besoin de connaître la liste de toutes les limites
des mots, tels que des espaces blancs et des signes de ponctuation, etc.

En Traitement Automatique de Langues, nous classons les langues, par rapport à leur
système d’écriture, en deux groupes : les langues avec séparateurs et les langues sans
séparateurs. Les langues avec séparateurs sont celles qui disposent d’un système d’écriture
segmentée : des écritures délimitées par des espaces et où les mots sont nettement séparés par
des délimiteurs (espace, signes de ponctuation, caractères spéciaux, ...). C'est le cas pour le
français ou l’anglais. Quant aux langues dites sans séparateurs, elles s’appuient sur des
systèmes d’écritures non segmentées où les mots ne sont pas séparés par des espaces avec des
mots ayant des frontières qui ne sont pas explicites (elles ne sont pas nettes). C’est le cas du
japonais, le chinois et le thaï.

Page
60
Pour ce qui est de l’arabe, elle présente un système d’écriture combinant à la fois les
propriétés des deux groupes présentés dessus (voir figure 3.2). C’est un système d’écriture
composé d’une écriture segmentée, et d’une autre non segmentée dans laquelle des mots
graphiques arabes correspondent à des mots minimaux séparés par des délimiteurs.
Cependant, une partie des mots graphiques arabes sont composés d’une suite d’unités
lexicales agglutinées pouvant être décomposée en termes de mots minimaux et de clitiques.
Ces mots et clitiques doivent apparaître dans le résultat de la segmentation de ces mots
composés.

Ecriture arabe

Systèmes d’écritures Systèmes d’écritures non

segmentées segmentées

Unités lexicales Unités lexicales

(mots minimaux, clitiques, mots outils, etc.) (mots maximaux)

Figure 3. 2. Les groupes de langues par segmentation.

Nous distinguons plusieurs niveaux de segmentation selon le degré de granularité

souhaité. Pour cela il existe trois types suivants :
o La segmentation lexicale (tokenization) : qui représente le découpage d’un texte en
segments lexicaux (tokens). Ce type de segmentation est aussi appelé itémisation.
o La segmentation morphologique : ce type a pour but d’isoler les différents
constituants des items lexicaux en unités distinctes, plus petites, qui sont les
morphèmes.
o La segmentation syntaxique : ce type de segmentation permet d’identifier les
différents constituants du texte en unités indépendantes, plus important que les mots,
comme les propositions, les syntagmes, etc. Ce type de segmentation est aussi appelé
chunking.

Dans le reste de la présente section, nous focalisons notre présentation sur ce que nous
avons réalisé au niveau de la segmentation lexicale ou tokenisation qui, encore une fois,
consiste à structurer le texte en passant d’un ensemble continu de caractères à une suite
discrète d’items lexicaux. Ces items ou tokens peuvent être un mot, une expression de
plusieurs mots, un chiffre ou un signe de ponctuation. Ces segments sont appelés ‘les
segments principaux’ et ils sont séparés soit par des signes de ponctuation ou par des espaces
dans un texte analysé.
L’étude des corpus nous a permis d’identifier toutes les unités lexicales permettant de
segmenter les textes. Parmi ces unités nous citons : l’espace, le point, les deux points, le
point-virgule, le point d’interrogation, le point d’exclamation, parenthèse ouvrante, parenthèse
fermante, crochet ouvrant, crochet fermant, le tiret, les guillemets, retour à la ligne, début de

Page
61
ligne, tabulation, les chiffres arabes et les chiffres romains. En plus des chiffres arabes et
romains, une bonne partie des pays arabes utilise les chiffres indiens que nous devons
considérer aussi dans notre analyse. Des signes de ponctuation supplémentaires propre à la
langue arabe tel que la virgule ‘،’, le point d'interrogation ‘‫ ’؟‬et le point-virgule ‘‫’؛‬. La
tokenisation ne permet pas d’avoir des tokens ayant pour l'instant qu'une position de début et
de fin. Elle prend aussi en compte les balises, les dates abrégées et les abréviations, etc. Pour
illustrer cette segmentation, montrons dans le tableau suivant l’ensemble des tokens que nous
obtenons de la phrase en entrée :

Entrée : . ‫كل وعاء يضيق بما جعل فيه إَل وعاء العلم؛ فإنه يتسع به‬
Sortie : . ‫فيه إَل وعاء العلم فإنه يتسع به‬ ‫جعل‬ ‫يضيق بما‬ ‫كل وعاء‬

Tableau 3. 1. Un exemple sur les segments principaux.

3.2.2. Analyse morphologique

Comme décrit précédemment, la tokenisation permet d’obtenir, à partir d’un texte en
entrée, des unités ou segments principaux. Ces résultats doivent être ensuite traités et analysés
afin de détecter le rôle de chacun et leur structuration dans le texte ainsi que les règles
régissant cette structuration. Cette étape du traitement du texte est du ressort du domaine de la
morphologie qui étudie des mots considérés isolement (hors contexte), appelés morphèmes,
sous le double aspect de la nature et les variations qu'ils peuvent subir ainsi que la façon dont
ces derniers se combinent pour former des lemmes (flexion et dérivation).

La fonction principale de l'analyseur morphologique consiste à retrouver la forme de

surface d'un mot stocké dans le lexique à partir de la forme canonique (lemmatisation) de ce
dernier (infinitif du verbe, masculin singulier d'un adjectif, etc...) et d'attribuer à ces unités
lexicales simples ou complexes divers types d'informations à partir de deux types d'étiquettes,
d'une part l' étiquette syntaxique concernant les catégories grammaticales (nom, verbes, etc.)
et d'autre part, l'étiquette morphologique concernant les traits morphologiques (genre,
nombre, la voix, le mode, ...etc.). C'est à ce niveau, que l'ambiguïté morphologique se
manifeste le plus souvent, lorsque l'analyse assigne à une unité lexicale plusieurs
informations. Cette étape est primordiale lors de l'analyse linguistique. Elle se divise à son
tour en plusieurs étapes : la consultation du dictionnaire des formes fléchies d'une part pour
récupérer la normalisation du mot et d'autre part, pour permettre de récupérer les informations
linguistiques (genre, nombre, catégorie grammaticale, etc.) concernant les mots à reconnaître.
Cette analyse morphologique s’intègre comme étape essentielle dans un très grand nombre
d'applications en traitement automatique des langues comme le résumé automatique,
l'alignement des phrases dans des systèmes de TAO.

Cette étape d’analyse morphologique est d’autant plus importante et plus complexe à
appréhender dans le cas de la langue arabe, car rappelons-le que l’une des particularités de
cette langue est la présence des formes agglutinées (formes avec des proclitiques et des
enclitiques). Ces formes ne sont pas présentes dans le dictionnaire des formes fléchies. Pour
identifier ces formes et les traiter correctement, nous avons ajouté un segmenteur secondaire
qui consiste à découper et séparer les formes agglutinées (segmentation morphologique),
implémenté sous forme de transducteurs à état finis (grammaires morphologiques HTFST). Ce
système a pour objectif de reconnaître toutes les segmentations possibles du mot en identifiant
la forme canonique du mot et les différents affixes et clitiques qui lui sont collés. Cette
analyse est encore complexifiée par l’absence ou la présence des voyelles dans les textes

Page
62
analysés. Pour ceux qui sont semi voyellés ou non voyellés, une consultation du lexique
permet de récupérer les formes voyellées correspondantes, c'est à dire leurs alternatives
orthographiques lorsqu'elles existent. Dans le cas par exemple du mot non voyellé ‘‫ ’مدرسة‬la
recherche dans le dictionnaire donne les deux alternatives orthographiques suivantes: "Ecole"
(Nom commun féminin singulier) et "Institutrice" (Nom commun féminin singulier). Notons
aussi que cette analyse des expressions idiomatiques afin de grouper certains mots pour les
considérer comme une seule unité (‫ سكة الحديد‬: Chemin de fer). Cette reconnaissance se fait à
l'aide de règles et de dictionnaires. Notons que les expressions idiomatiques et les mots
composés sont inclut dans le dictionnaire général et analysés automatiquement au cours de la
consultation du dictionnaire.

[Link]. Segmentation des formes agglutinées

Rappelons d’une forme agglutinée en arabe est constituée d’une racine (lemme) à qui
nous rajoutons des clitiques. Ces clitiques peuvent être enchaînées l'un après l'autre, ce qui les
rend plus difficiles à manipuler et analyser. Un verbe, par exemple, peut avoir jusqu'à quatre
segments secondaires : une conjonction, un complément, un lemme de verbe et un pronom
d'objet. De même un nom peut comporter jusqu'à cinq segments secondaires : conjonction,
préposition, l’article défini, lemme et pronom.
Nous définissons quatre degrés de cliticisation qui sont applicables dans un ordre strict
à base de texte: QST + [CNJ+ [PRT+ [DET+ [BASE] +SUF = ENC] ] ] ] (Habash, 2010),
où :
o DET+ BASE +SUF + ENC : la base peut avoir soit un article défini (+ Al + ‫ )ال‬ou un
membre de la classe des enclitiques pronominaux, par exemple : ‫هن‬ ُ hm 'leur / eux.
o PRT : classe de proclitiques de particules comme +‫ ل‬l+ 'à / pour'.
o CNJ: le proclitique de conjonction comme + ‫ و‬w + 'et'.
o QST : la particule de question

Segment principal

Découpage des formes

agglutinées
Grammaires
morphologiques
Application des règles
Lexique formes morphosyntaxiques
simples fléchies

Vérification des
compatibilités

Informations linguistiques
associées à la forme reconnue

Figure 3. 3. Le schéma du processus d’analyse des formes agglutinées.

Page
63
L'attachement des clitiques à des formes de mots n'est pas un processus de
concaténation simple. Il y a plusieurs règles d'ajustement orthographiques et morphologiques
qui sont appliqués sur les mots.

Le processus de segmentation des formes agglutinées, schématisé dans la figure (3.3),

se déroule de la manière suivante :
1. Recherche de toutes les compositions possibles entre les clitiques (proclitique,
enclitique) et le radical en utilisant les dictionnaires des proclitiques, enclitiques et
formes fléchies.
2. Chaque radical est ensuite recherché dans le dictionnaire des formes fléchies. Si ce
radical n’existe pas dans le dictionnaire, des transformations morphologiques sont
appliquées avant leur suffixation en se basant sur des règles morphosyntaxiques
(règles de réécriture qui seront détaillées dans les sections suivantes), enfin le radical
résultat est de nouveau recherché dans le dictionnaire des formes fléchies. Par
exemple, considérons la forme agglutinée «‫( »بسيارته‬avec sa voiture) et les clitiques
inclus dans cette forme (‫ ه‬,‫)ب‬. Le radical récupéré «‫ »سيارت‬n’existe pas dans le
dictionnaire des formes fléchies. Mais après l’application de la règle de réécriture
transformant la lettre «‫ »ت‬en «‫ »ة‬en fin de mot, le radical modifié «‫( »سيارة‬voiture) est
trouvé dans le dictionnaire des formes fléchies et la forme agglutinée «‫ »بسيارته‬est
découpée en proclitique + radical + enclitique comme suit : ‫ ب = بسيارته‬+ ‫ سيارة‬+ ‫( ه‬avec
sa voiture).
3. Une étape supplémentaire permet de vérifier la relation d'ordre au sein d'une
représentation des formants du mot sur un vecteur ordonné (Zmantar et Dichy, 2009).
La principale propriété de celui-ci est que chaque proclitique est incompatible avec un
proclitique de même position, en raison de la relation d’ordre strict qui régit les
formants du mot graphique. Exemples : wa et fa coordonnants (‫ فاء‬et ‫)واو العطف‬, qui
occupent tous les deux la même position sur le vecteur d’ordre, sont incompatibles
entre eux (ils ne peuvent pas apparaître dans un même mot). Cette étape doit aussi
vérifier les règles, syntaxiques mais aussi sémantiques, de comptabilité et
d'incompatibilité entre les proclitiques et les enclitiques.
4. Vérification de la compatibilité entre les étiquettes morphosyntaxiques des trois
composants de la forme agglutinée après découpage (proclitique, radical, enclitique).
Seules les segmentations valides sont gardées.

[Link]. La désambiguïsation
Parfois, certains mots restent inidentifiables ou inconnus après les étapes d’analyse
morphologique. Par conséquent, le système lui attribue une (des) catégorie(s) par défaut, en
s’appuyant sur des informations révélées par sa forme de surface. Par exemple, s’il s’agit d’un
mot en caractères latins majuscules, comme ONU, il sera étiqueté comme nom propre.
Dans le cas du traitement de la langue arabe, la majorité des mots restent ambigus à
cause de l'absence des voyelles courtes arabes dans les textes (Debili et Suissi, 1998), ce qui
est moins prononcé pour les autres langues. Cette ambiguïté, à la fois lexicale et
grammaticale, constitue un problème majeur rencontré dans cette phase d’analyse. Il découle
du fait que lorsqu'un mot est reconnu, l'analyseur morphologique peut fournir plusieurs
interprétations qui renvoient à plusieurs catégories syntaxiques ou à plusieurs sens. Le rôle du
désambiguïseur morphosyntaxique qui intervient par la suite, est de réduire le nombre des
ambiguïtés grammaticales en utilisant des matrices de désambiguïsation.
Pour réaliser cette analyse nous nous appuyons sur un dictionnaire utilisé pour la
segmentation. Il contient 167423 couples ayant la forme (mot, catégorie) et peut être associé
à un poids. Les couples ayant au plus une occurrence dans le corpus sont dépourvus de

Page
64
pondération. Le tableau (3.2) présente un extrait de ce corpus où la première colonne est un
mot, la deuxième colonne représente la catégorie grammaticale du mot et la dernière colonne
indique le poids associé au couple (mot, catégorie). Ce poids se base sur le nombre
d'occurrences du couple (mot, catégorie) dans le corpus d'apprentissage. Il est calculé par la
formule suivante :

poids(wi, catj) = -log(Σ(wi, catj)) … (eq01)

Où Σ(wi, catj) désigne le nombre d'occurrence du mot wi avec la catégorie catj dans le
corpus d'apprentissage.

Mot Catégorie Poids

‫إداري‬ jda+ 45.623239.9265.2-
‫موظفين‬ mon+ 0-
‫نعلم‬ evrev+ 05639529570..332.-
‫اقتراف‬ mon+ 0-
‫نجيب‬ erv+nom 05639529570..332.-
‫جولدشتاين‬ me+ 0-
‫مثلما‬ erve+ 0-
‫أين‬ ejrp+ 556032993542925-

Tableau 3. 2. Un exemple de couples (mot, catégorie) pondérés.

Le modèle de langue s’applique sur des textes étiquetés et utilise des matrices de bi-
grammes et trigrammes de catégories morphosyntaxiques obtenues à partir d'un corpus
d'apprentissage LDC (Arabic Treebank, 6.0, 2007). Ce corpus est étiqueté et désambiguïsé
manuellement. Ces n-grammes sont établis à partir du corpus, et permettent d'attribuer une
pondération aux séquences de catégories afin de calculer la catégorie la plus probable d'un
mot en contexte. Afin d’optimiser ce processus de désambiguïsation, nous avons modifié le
corpus LDC avec un jeu de catégories morphosyntaxiques défini par notre équipe.

Uni-gramme 1 Uni-gramme 2 Uni-gramme 3 Poids

`+conjsubV' `+verbe' `+artd' -0
`+verbe' `+pron' `+annp' -1.09861228866811
`+nom' `+prondem' `+pointint' -0
`+nom' `+pronrel' `+guill' -0
`+prenom' `+np' `+2point' -2.19722457733622
`+verbe' `+prenom' `+np' -3.43398720448515
`+point' `+verbe' `+prep' -1.6094379124341
`+prepN' `+annp' `+np' -4.66343909411207

Tableau 3. 3. Un exemple de trigrammes de catégories.

Nous notons que les probabilités des différents chemins possibles sont calculées afin
de résoudre les ambiguïtés de segmentation et de catégorisation. Le résultat de l’application
des n-grammes nous permet d’obtenir la suite de couples mot-catégories la plus probable : à
l'issu de ce traitement, seul le meilleur chemin est renvoyé par l'automate. L'ambiguïté
lexicale est conservée à ce niveau afin d’être traitée plus tard.

Page
65
[Link]. Transformation morphologique (Règles réécriture)
Lors de la description du traitement des formes agglutinées, nous avons mentionné que
si le radical n’existe pas dans le dictionnaire, des transformations morphosyntaxiques sont
appliquées. Ces transformations sont formalisées dans des règles morphosyntaxiques
appliquées aux différentes segmentations. Ces règles ont pour objectif la réalisation de la
correspondance entre un radical traité non reconnu, et un mot du dictionnaire. Cette
correspondance est effectuée par un ensemble de règles de réécriture à appliquer au radical ou
à la segmentation afin d’arriver à une forme fléchie dans le dictionnaire. Par conséquent, la
consultation du lexique des formes du dictionnaire est nécessaire tout au long du processus de
la transformation.
Les règles de réécriture que nous proposons prennent en considération les contraintes
morphologiques et orthographiques caractérisant la grammaire arabe. Parmi ces contraintes
nous citons : l'ajout de lettres, la suppression ou la substitution. Pour chaque contrainte nous
lui avons associé une règle de réécriture comme suit :

a) Ajout de lettre : cette règle permet d’ajouter une lettre au radical identifié. Nous
appliquons cette règle dans le cas des verbes se terminant avec le ‘Waw de pluriel’.
Cette règle consiste à effectuer une opération de concaténation entre le verbe et la
lettre ‘Alif â’. La validation de cette segmentation passe par la prise en compte de
certaines propriétés morphosyntaxiques comme :
o le verbe doit être conjugué à la forme active et non pas à la forme passive
o le verbe doit être transitif
o le verbe doit être conjugué à la 3ème personne, masculin au pluriel
Cette règle d'analyse morphologique d’une forme, comme le mot 'ُ‫'ض َربُوه‬ َ (Darabuwhu
– ils l'ont frappé), nécessite la restitution de la voyelle longue finale avant la
consultation du dictionnaire. L’application de la règle de l’ajout se déroule comme suit
:
o 1ère étape : segmentation de la forme : en verbe + suffixe : 'ُ‫ ه‬+ ‫ض َربُو‬َ ' (Darabuw
+ hu)
o 2ème étape : ajout de la voyelle longue finale '‫ 'ا‬au radical : '‫ض َربُو‬َ ' (Darabuw)
→ on obtient ‫ض َربُوا‬
َ (Darabuwâ)
o 3ème étape : la consultation de la forme obtenue dans le dictionnaire : ‫ض َربُوا‬ َ et ُ‫ه‬
' (Darabuwâ + hu) où '‫ض َربُوا‬
َ ' est la forme fléchie à la troisième personne,
masculin, pluriel, à l'accompli, voix active et ' ُ‫ 'ه‬et un pronom personnel.

b) Suppression de lettre : comme son nom l’indique, cette règle consiste à effectuer une
opération de suppression de lettres. Là aussi, la prise en compte de certaines propriétés
morphosyntaxiques est nécessaire pour la validation de cette segmentation. Les
contraintes que nous considérons sont :
o le verbe doit être conjugué à la forme active et non pas à la forme passive
o le verbe doit être est transitif
o le verbe doit être conjugué à la 2ème personne, masculin au pluriel
Le processus de suppression de lettre d’une forme, comme celle du mot '‫ض َر ْبتُ ُموهن‬ َ '
(Darabtumuwhun – ils l'ont frappé), nécessite la restitution de la voyelle longue finale
avant la consultation du dictionnaire. La règle de la suppression sur ce mot s’applique
en trois étapes :
o 1ère étape : segmentation de la forme : en verbe + suffixe : '‫ه ُّن‬+ ‫ض َر ْبتُ ُمو‬
َ '

Page
66
(Darabtumuw + hun)
o 2ème étape : suppression de deux voyelles ' ‫( ' ُو‬uw) : '‫ض َر ْبتُ ُمو‬
َ ' (Darabtumuw) →
ُ
on obtient ‫ض َر ْبتم‬
َ (Darabtum)
o 3ème étape : consultation de la forme obtenue dans le dictionnaire : ‫ض َر ْبتُم‬ َ et ‫'هُ ّن‬
ُ
(Darabuwâ + hu) où '‫ض َر ْبتم‬ َ ' est la forme fléchie à la deuxième personne,
masculin, pluriel, à l'accompli, voix active et ' ُ‫ 'ه‬et un pronom personnel.

c) Substitution de lettres : cette règle consiste à effectuer une opération de substitution

de lettres. Elle est appliquée dans le cas des verbes et des noms se terminant par la
lettre ‘Alif maksoura’. Pour le cas des verbes, des propriétés morphosyntaxiques
doivent être prises en considération pour valider la segmentation obtenue :
o le verbe doit être conjugué à la forme active et non pas à la forme passive
o le verbe doit être transitif
o le verbe doit être conjugué à la 3ème personne, masculin au singulier
L'analyse morphologique pour la substitution de lettre dans une forme, par exemple
dans le mot '‫هم‬ َ ‫( ' َك‬kasaAhum – ils l'ont frappé), nécessite la substitution de la
ُ ‫سا‬
voyelle longue finale avant la consultation du dictionnaire en suivant les étapes
suivantes :
o 1ère étape : segmentation de la forme en (verbe + suffixe) ou (nom + suffixe) :
'‫هُم‬+ ‫( ' َك َسا‬kasaA + hum)
o 2ème étape : substitution de la voyelle longue '‫( 'ا‬A - alif) en '‫( 'ى‬Y – yaa
maksura) : '‫( ' َك َسا‬kasaA) → on aura ‫( َك َسى‬Kasay)
o 3ème étape : consultation de la forme obtenue dans le dictionnaire : ‫ َك َسى‬et ‫'هُم‬
(kasay + hmu) où '‫ ' َك َسى‬correspond à la forme fléchie à la deuxième personne,
masculin, singulier, à l'accompli, voix active et ' ‫ 'هُم‬et un pronom personnel.

Cependant, dans le cas des particules et prépositions se terminant par Alif maksoura, la
règle de substitution consiste à restituer la dernière voyelle longue de '' (Y – yâ') en ‫'ى‬
(Y – yaa maksura) en suivant le même processus. Pour illustrer ce cas, prenons
l'analyse morphologique de la forme '‫'( ' َعلَي ِه‬alayhi – sur lui). Cette analyse se déroule
comme suit :
o 1ère étape : segmentation de la forme : en préposition + suffixe : '‫ ِه‬+ ‫( 'إِلَي‬Ilay +
hi)
o 2ème étape : substitution de la voyelle longue '‫( 'ي‬y - yaa) en '‫( 'ى‬Y – yaa
maksura) : '‫( 'إِلَي‬Ilay) → on aura ‫( إِلَى‬IlaY).
o 3ème étape : consultation de la forme obtenue dans le dictionnaire : ‫ إِلَى‬et ‫' ِه‬
(kasay + hmu) où '‫ 'إِلَى‬est préposition, et '‫ ' ِه‬et un pronom personnel.

d) Restitution de l'article de définition : parmi ces contraintes, citons les phénomènes

de transformation morphologique qui affectent les mots en fonction de la nature de
leur lettre initiale. Ainsi, si le mot contient l’article AL (‫)ال‬, il faut faire la distinction
entre les lettres «solaires» et les lettres «lunaires». Les lettres solaires sont
caractérisées par une absence de la prononciation du «L» tout en doublant la lettre qui
le suit dans la prononciation et dans l’écriture (par le signe de gémination). Quant aux
lettres lunaires, le «L» de l’article se prononce et la lettre qui le suit n’est pas
dédoublée ni dans la prononciation ni dans l’écriture6.
i. 1er cas : Lettre lunaire : l'analyse morphologique de la forme '‫( 'لِ ْل َم ْكتَبَ ِة‬li-l-
6
Pour le détail des lettres «solaires» et «lunaires», voir la page suivante:
[Link]

Page
67
maktabati – ...) nécessite les étapes suivantes :
o 1 ère étape : segmentation de la forme : ‫ َم ْكتَبَ ِة‬+ ْ‫ ل‬+ ‫'ل‬
ِ (li+l+maktabati)
o 2 ème étape : restitution de l'article défini ' ْ‫ 'ل‬en ' ‫ال‬
o 3ème étape : consultation de la forme obtenue dans le dictionnaire.

ii. 2ème cas : Lettre solaire : l'analyse morphologique de la forme '‫ب‬ ِ ‫( 'لِلّ ِع‬li-ll'ibi –
...) nécessite les étapes suivantes :
o 1 ère étape : reconnaissance de la préposition ‫( ِل‬li) et la segmentation de la
forme : + ‫ب‬ ِ ‫ لّ ِع‬+ ‫( ' ِل‬li+ll'ibi)
o 2 ème étape : suppression de la gémination qui occulte (implicite) une autre
transformation liée à la restitution de l'article défini '‫ ' ال‬comme un proclitique
o 3ème étape : la consultation de la forme obtenue dans le dictionnaire

e) Ta-Marbouta : cette règle a pour objectif la transformation orthographique de la

forme agglutinée en substituant de la lettre '‫ 'ت‬en '‫'ة‬. L'analyse morphologique
effectuée dans ce cas sur une forme comme le mot '‫( ' َم ْد َر َستِ ِه‬madrasatihi – son école) se
déroule de la manière suivante :
o 1 ère étape : segmentation de la forme : en nom + enclitique : '‫ ِه‬+ ‫ت‬ ِ ‫' َم ْد َر َس‬
(madrasati + hi)
o 2 ème étape : substitution de la lettre ' ‫( ت‬t - Taa) en '‫( 'ة‬t –Taa marbuta) :
ِ ‫( ' َم ْد َر َس‬madrasati) → on obtient ‫( َم ْد َر َس ِة‬madrasati)
'‫ت‬
o 3ème étape : consultation de la forme obtenue dans le dictionnaire : ‫ َم ْد َر َس ِة‬et ‫' ِه‬
( madrasati + hi) où '‫ ' َم ْد َر َس ِة‬correspond à un nom, féminin au singulier mis au
génitif et '‫ ' ِه‬et un pronom personnel.

f) Hamza : ce cas concerne les formes nominales qui se terminent par la lettre '‫ '( 'ء‬-
hamza). La règle de réécriture dans ce cas consiste à substituer la lettre supportant la
hamza, waw ou yaa, par la lettre '‫ '( 'ء‬- hamza). L’identification des cas à substituer
passe par la détection de la lettre casuelle qui détermine la lettre supportant la hamza.
Cette règle tient compte aussi de la fonction grammaticale du mot. Par exemple,
l’application de cette règle sur les deux formes ‫( د ََوائِه‬dawa’ihu) et ُ‫ َد َوا ُؤه‬dawa’uhu,
donne la forme ‫( َد َوا ٌء‬dawa’un - médicament). D'une manière générale :
o Si la hamza est accompagnée par une '‫ض َّمة‬ َ - ُ ' (u – damma), elle prend la
forme '‫( 'ؤ‬w – hamza 'alaa al-wâw); c'est le cas du nominatif.
o Si la hamza est accompagnée par une ' ‫ فَت َحة‬- َ ' (a – fatha), elle prend la forme '‫'أ‬
(a – hamza) ou '‫( 'ء‬hamza 'alaa es-satir); c'est l'accusatif.
o Si la hamza est accompagnée par une ' ‫ َك ْس َرة‬- ِ ' (i – kasra), elle prend la forme
'‫( 'ئ‬y – hamza 'la-ya'); c'est le génitif;
o Si la hamza est accompagnée par une ' ‫ ُس ُكون‬- ْْ ' (sukun – signe de quiescence),
elle prend la forme '‫( 'ء‬hamza 'alaa es-satir).

g) Y-Shadda : cette règle concerne le remplacement d’une double consonne par la

chadda (dédoublement de la consonne). Elle est appliquée dans le cas des prépositions,
par exemple '‫( 'فِي‬fi) + '‫( 'ي‬y - ya') → '‫'فِ َّي‬. Ce remplacement est motivé par le fait que
l'enclitique '‫( 'ي‬y – ya') ne se combine qu'avec les mots outils ayant au moins trois
consonnes, le cas échéant, sa concaténation nécessite l'ajout de la chadda. Les
propositions suivantes représentent des cas d’application de cette règle :
o '‫'( 'ع َْن‬an - selon) + '‫( 'ي‬y - ya') → ‫'( َعنِّي‬anniy – selon moi)
o ' َ‫( ' ُدون‬duwna - sans) + '‫( 'ي‬y - ya') → '‫( 'دُونِي‬duwniy - sans moi)
Toutefois, nous signalons qu’il existe une exception dans cette règle. Elle concerne les

Page
68
lettres assimilées à des verbes, ‫اِلحرف المشبّهة بالفعل‬, peuvent engendrer deux écritures
différentes en se combinant avec un même enclitique, comme c’est le cas de la lettre
‫( لَ َع َّل‬la'alla – peut-être) + '‫( 'نِي‬niy - ) qui donne les deux formes : '‫( 'لَ َعلَّنِي‬la'allaniy – je
pourrai) et '‫( 'لَ َعلِّي‬la'alliy – je pourrai).

Nous pouvons résumer les règles présentées dans le tableau suivant :

Nom de la Condition Résultat Décomposition Forme Traduction

règle agglutinée
?' + '‫ 'ال‬+ '‫لل ل‬+ ll+ ‫ مسجد‬+ ‫ال‬ + ‫ للمسجد ل‬llmsjd A la mosquée
‫''ل‬ l+Al+msjd
Article défini l +Al + l?
‫ لجنة‬+ ‫ ال‬+ ‫ل‬ ‫للجنة‬ llajnat Au paradis
l+Al+lajnat
‫ة‬- -h + pron ‫ت‬- -t +pron
‫هم‬ + ‫مدرستهم مدرسة‬ Leur école
Ta-Marbuta
mdrsH+hm Mdrsthm
Alif- ‫ى‬- -y +pron ‫ا‬- -A +pron ‫ ه‬+ ‫ سقى‬sqY+h ‫ سقاه‬sqAh Il l’a irrigué
Maksura Exception ‫ي‬- -y ‫ ه‬+ ‫' على‬lY+h ‫' عليه‬lyh Sur lui
+pron
‫وا‬- - ‫و‬- -w ‫ ه‬+ ‫ ضربوا‬DrbwA+h ‫ضربوه‬ Ils l’ont
Waw-de- wA+pron Drbwh frappé
Pluriel ‫تم‬- -tm +pron ‫تمو‬- -tmw ‫ ه‬+ ‫ ضربتم‬Drbtm + h ‫ضربتموه‬ Vous l’avez
Drbtmwh frappé
‫ء‬- -' +pron ‫ئ‬- - ‫ ه‬+ ‫ سماء‬smA' +h ‫ سماؤه‬smAwh Son ciel
y+pron
Hamza
‫ؤ‬- -w+pron ‫ ه‬+ ‫ سماء‬smA' +h ‫ سمائه‬smAyh
‫ء‬- -' +pron ‫ ه‬+ ‫ سماء‬smA' +h ‫ سماءه‬smA'h
Y-Shadda ‫ ي‬+‫ ي‬- -y +y ‫ ي‬y ‫ ي‬+ ‫ قاضي‬qADy+y ‫ قاض ّي‬qADy Mon juge
‫ من‬mn + m/n ‫ م‬m +m/n ‫ ما‬+ ‫ من‬mn+mA ‫ مما‬mmA De
N- ‫' عن‬n +m/n ‫ ' ع‬+m/n ‫ من‬+ ‫' عن‬n+mn ‫' عمن‬mn De qui ?
Assimilation ‫ َل‬+ ‫ أن‬An+ ‫ ّأَل‬Ala ‫ َل‬+ ‫أن‬ An+lA ‫ ّأَل‬Ala Ne pas
lA

Tableau 3. 4. Les règles de réécriture morphosyntaxique.

3.2.3. L'analyse syntaxique

Une phrase est une suite de mots permettant de véhiculer un sens. La majorité des
théories linguistiques s’accordent sur le fait que les mots d’une phrase ne sont pas disposés de
façon aléatoire, au contraire ils suivent un système d’organisation ou une structure assez
rigide. Cette structure est appelée la structure syntaxique de la phrase. Il existe deux structure
de représentation :
 Structures syntagmatiques (PSG, de l’anglais Phrase Structure Grammar) : elle décrit
la façon dont les mots peuvent être groupés en des paquets de plus en plus gros en
d’autres termes les mots se rassemblent en constituants et que chaque constituant doit
avoir une tête.
 Structure de dépendance (DG, de l’anglais Dependency Grammar) : permet de mettre
en avant les relations entre les mots d’une phrase en se basant sur le principe que les
mots dans une phrase dépendent les uns des autres.

Page
69
Les structures de dépendances (arbre de dépendance), auxquelles nous nous
intéressons dans cette étude, sont plus anciennes que les structures syntagmatiques. En effet
leur usage remonte à l’antiquité. Les grammairiens arabes du 8 ème siècle, comme Sibawayh,
distinguaient gouverneur et gouverné en syntaxe et utilisaient cette distinction pour formuler
des règles d'ordre des mots et de rection (kahnane, 2001). Au 19ème siècle, les grammaires
scolaires de l’anglais ont enseigné l’analyse de la phrase sous forme de diagramme basé sur la
dépendance. Lucien Tesnière fut un des premiers à mettre en place dans les années 30 une
théorie linguistique basée sur la dépendance, et fut publiée quelques temps après sa mort en
1959 sous le nom de « Eléments de syntaxe structurale».

Un arbre de dépendance syntaxique est enrichi avec un étiquetage des dépendances par
des fonctions syntaxiques. Cet étiquetage sert comme complément à l’arbre afin d’encoder
l’organisation syntaxique des phrases. Une fonction ou relation syntaxique permet de
distinguer les dépendants d’un même mot et de rassembler les dépendants qui ont un
comportement syntaxique similaire. Par « relation », on réfère au lien entre gouverneur et
dépendant et par « fonction », on réfère au rôle rempli par un dépendant dans le régime du
gouverneur. La notion de fonction syntaxique est universelle mais sa déclinaison au niveau
des langues donne des fonctions propres à chaque langue. Le recensement et l’énumération de
ces fonctions reste à la charge des grammairiens, à ce sujet (Kahane, 2001) expose sur la
difficulté de cette tâche :

« L'une des principales difficultés pour décider combien de fonctions syntaxiques il est
nécessaire de considérer est qu'on peut toujours attribuer une propriété particulière à la
catégorie du dépendant ou du gouverneur (comme le font les grammaires syntagmatiques)
plutôt qu'à l'étiquette de la relation de dépendance entre eux. Quitte à multiplier les
catégories syntaxiques, il est formellement possible de limiter l'étiquetage des relations à un
simple numérotage (il faut quand même garder un minimum pour distinguer entre eux les
différents compléments du verbe). Il semble donc difficile d'établir des critères exacts pour
décider si deux dépendances doivent ou non correspondre à la même fonction et il est
nécessaire de prendre en compte l'économie générale du système en cherchant à limiter à la
fois le nombre de catégories syntaxiques et le nombre de fonctions syntaxiques et à chercher
la plus grande simplicité dans les règles grammaticales. On attribuera donc à la catégorie
syntaxique les propriétés intrinsèques d'une lexie (c'est-à-dire qui ne dépendent pas de la
position syntaxique) et à la fonction les propriétés intrinsèques d'une position syntaxique
(c'est-à-dire qui ne dépendent pas de la lexie qui l'occupe). »

Les grammaires se basent sur des critères morphologiques, positionnels, catégoriels et

sémantiques, afin de distinguer les différents types de fonctions syntaxiques. En français, la
cliticisation, à titre d’exemple, est une des opérations les plus utilisées pour déterminer
certaines fonctions syntaxiques. Par exemple, pour la phrase ‘Ziyad mange la galette’, on
définit la galette comme un élément de la phrase remplissant la fonction syntaxique
complément d’objet direct (COD) car il est remplaçable par le clitique objet la. Par contre,
dans Amel chante le soir, on ne définit pas le soir comme un élément remplissant la fonction
syntaxique COD car il n’est pas remplaçable par un pronom objet.

3.2.4. Les relations syntaxiques

L'annotation syntaxique, autrement dite processus d’identification d’une relation syntaxique,
dans le cadre d'une analyse de dépendance implique les décisions suivantes : l'attachement et
l'étiquetage. L’attachement concerne la détermination si deux mots sont connectés
directement ou pas, en d’autre termes, c’est l’identification d’un lien direct de dépendance

Page
70
syntaxique entre deux mots de la phrase par la mise en avant d’une relation syntaxique entre
la tête (gouverneur) et le mot dépendant (régie). Quant à l’étiquetage, il consiste à regrouper
les dépendants syntaxiques et annoter la relation identifiée par un nom référant à une famille
(ou type) de constructions syntaxiques d’une langue donnée.

Dans cette section, nous procédons en deux étapes : 1) traiter les syntagmes nominaux, puis 2)
présenter les relations sujet-verbe-complément. L'analyse effectuée est une analyse de
dépendance, et comme nous utilisons le langage HTFST pour la partie implémentation, le
fichier analysé en entrée n’est que ligne par ligne, et nous ne reconnaissons que des chaînes de
caractères. Les relations ne sont pas représentées sous leur forme arborescente, mais elles sont
« aplaties » et représentées sous forme de paires « tête-dépendant », auxquelles peuvent être
ajoutés des éléments appelés indications linguistiques, tels que les déterminants, les
prépositions, etc.

Chaque relation est typée selon des catégories choisies par les linguistes parmi lesquelles nous
citons :
 SV pour les relations sujet-verbe;
 VC (verbe-complément) : cette relation regroupe à la fois les relations verbe-objet et
les relations qu'entretient le verbe avec les compléments circonstanciels ;
 GD, uniquement dans les groupes nominaux, relie des éléments dont la tête est à
gauche du dépendant ;
 DG, uniquement dans les groupes nominaux également, relie des éléments dont la tête
est à droite du dépendant ;
 CIRONSTANT : relie les compléments circonstanciels à l'attribut d'une relation
ATTRS.

Une étude linguistique spécifique de la langue arabe nous a permis de définir et d’écrire des
règles dans le but d'établir des relations de dépendance (contiguës et non contiguës) entre les
mots au sein du syntagme nominal dans le but de définir le rôle sémantique des mots. Ces
relations permettent ensuite de reconnaître les mots composés présents dans une phrase. Nous
avons passé en revue les différentes relations syntaxiques régies par le nom, l’adjectif et les
mots outils que nous présentons par les relations syntaxiques suivantes :

[Link]. Les relations syntaxiques gouvernées par le nom

Avant d’introduire les règles syntaxiques, rappelons qu’en arabe le nom prend les marques
casuelles exprimées par des voyelles courtes. De ce fait, le nominatif est exprimé par le
suffixe /u/, l'accusatif par le suffixe /a/ et le génitif par le suffixe /i/. De plus, un nom peut être
défini (DEF) ou indéfini (INDEF), et en fonction du nombre du sujet qui lui est lié, il peut être
au singulier, duel et au pluriel.

En considérant tous ces aspects, nous présentons quelques relations syntaxiques gouvernées
par le nom. En particulier nous présentons les sept relations suivantes : la modification, la
relation complément de nom, la relation complément d’objet indirect, l’apposition, la
corroboration, la quantification numérale et la coordination.

[Link].1. La modification
La modification est la relation qui permet de lier un mot à un nom. Ce mot, désigné par
modifieur, associera à travers cette relation une caractéristique au nom auquel il est rattaché.
Ce rôle joué par le modifieur permet de déduire que le mot lié au nom est un adjectif. Nous
pouvons représenter cette relation comme suit :

Page
71
(N)-modif→(ADJ) …(1)

En général, le terme modifieur désigne une adjonction au nom et il est toujours placé après le
déterminant. Il peut être libre, quand il est facultatif (ex : Kamel a acheté deux voitures
blanches), et il peut être lié quand il est obligatoire (ex : Michael Schumacher est dans un état
critique). Par défaut, un modifieur est un adjectif qui s’accord en genre (féminin, masculin),
nombre (singulier, duel ou pluriel), définitude (défini ou indéfini) et cas (nominatif, accusatif
ou génitif) avec le nom qu’il qualifie conformément au tableau suivant :

N (déterminant) ADJ (modifieur)

genre = g (fem,masc) genre = g
Modification
nombre = nb (SG, DL,PL) nombre = nb

cas = c (NOM,ACC,GEN) cas = c
définitude = d (DEF, définitude = d
INDEF)

Afin de montrer cet accord, prenons l’exemple des phrases suivantes :

 ‘ ٌ‫( ’نجح ول ٌد نجيب‬un enfant brillant a réussi)

 najaha waladun – modif  najiibun
V(PASSE) (N,masc)SG+NOM+INDEF (ADJ,masc)SG+NOM+INDEF
 ‘ ُ‫( ’نجح الول ُد النجيب‬le brillant enfant a réussi)
 najaha alwaladun – modif  annajiibun
V(PASSE) (N,masc)SG+NOM+DEF (ADJ,masc)SG+NOM+DEF
 ‘‫( ’نجح ولدان نجيبان‬deux enfants brillants ont réussi)
 najaha waladani – modif najiibani
V(PASSE) (N,masc)DL+NOM+INDEF (ADJ,masc)DL+NOM+INDEF
 ‘‫( ’نجح اِلوَل ُد النجبا ُء‬les enfants brillants ont réussi)
 najaha alawladu – modif annujabaou
V(PASSE) (N,masc)PL+NOM+DEF (ADJ,masc)PL+NOM+DEF

L’opération de modification dans la grammaire arabe est aussi la fonction dite na't (‫ ) نعت‬ou
sifaa (‫) صفة‬. Elle peut être exprimée par un adjectif à valeur, un participe actif ‘‫’إسم الفاعل‬
(suivant le schème ‫‘ فَا ِعل‬faa'il’), un participe passif ‘‫( ’إسم المفعول‬respectant le schème
‫‘ َم ْفعُول‬maf'uul’), un comparatif ‘‫( ’إسم التفضيل‬régi par le schème ‫‘ أَ ْف َعل‬aaf'al’) ou encore un
superlatif. Pour illustrer ces propriétés prenons les exemples suivants :

 ‘ً‫( ’كان محم ٌد رسوَلً صادقا‬Muhammad était un messager honnête)

kaana muhammad+u+n rassul+a+n -modif → saadik+a+n
(V)PASSE (N)+NOM+INDEF (N)+ACC+INDEF (ADJparticipe active
)+ACC+INDEF

 ‘ً‫( ’كان محم ٌد رسوَلً َم ْبعُوثا‬Muhammad était un messager envoyé)

kaana muhammad+u+n rassul+a+n -modif → mab'uuth+a+n
(V)PASSE (N)+NOM+INDEF (N)+ACC+INDEF (ADJ participe
passive)+ACC+INDEF

 ‘ً‫( ’كان محم ٌد رسوَلً أَحْ َسنا‬Muhammad était un messager le plus vertueux)

Page
72
kaana muhammad+u+n rassul+a+n –modif → ʔhsan+a+n
(V)PASSE (N)+NOM+INDEF (N)+ACC+INDEF (ADJcomparatif)+ACC+INDEF

َ ‫( ’كان محم ٌد الرسو َل اِلَ ْف‬Muhammad était le meilleur messager)

 ‘‫ض َل‬
kaana muhammad+u+n al+rassul+a –modif → al+ʔafdal+a
(V)PASSE (N)+NOM+INDEF DEF+(N)+ACC DEF+(ADJsuperlatif)+ACC

[Link].2. Le complément de nom

Le complément de nom est un mot défini par un article (de définition) ou par annexion (nom
propre ou un pronom clitique), mis au génitif. Nous pouvons représenter cette relation par la
règle suivante :

(N)-compN→(N)GEN …(2)

Le complément de nom est caractérisé par les propriétés suivantes :

 Plusieurs compléments de noms peuvent s’enchaîner dans une phrase. Pour illustrer
cet enchaînement prenons l’exemple suivant :
‫( خاتم ابن ِة صديق ِة أختي‬la bague de la fille de l’amie de ma sœur)
kaatam+u+Ø compN → ibnati+Ø compN → sadiiqati+Ø compN → ʔukht+Ø#ii
(N)+NOM (N)+GEN (N)+GEN (N)GEN
#(PRO)
 Le complément de nom peut être composé par une coordination comme c’est le cas du
complément de la phrase ‫كريم‬ ٍ ‫( أبهرتني قصةُ محم ٍد و‬L’histoire de Mohammed et Karim
m’a éblouie) où :
abharat#nii qisat+u-compN→Muhammad+i+n wa#kariim+i+n
(V)PASSE#(PRO) (N)+NOM (N)+GEN+INDEF
(COORD)#(N)+GEN+INDEF

En plus de ces propriétés syntaxiques, un complément de nom peut appartenir aux types
suivants :
a. Nom défini : par exemple :
‫( جاء وزي ُر الدول ِة‬le ministre d’état est venu)
jaa' waziir+u –compN → al+dawlat+i
(V)PASSE (N)+NOM DEF+(N)+GEN

b. Nom propre : prenons la phrase :

‫( أبهرتني قصةُ محم ٍد‬l’histoire de Mohammed m’a éblouie)
abharat#nii qissat+u-compN → muhammad+i+n
(V)PASSE#(PRO) (N)+NOM+INDEF (N)+GEN+INDEF

c. Pronom clitique : comme c’est utilisé dans la phrase :

ُ‫(أبهرتني قصتُه‬son histoire m’a éblouie)
abharat#nii qissat+u-compN → #hu
(V)PASSE#(PRO) (N)+NOM #(PRO)

[Link].3. Le complément d'objet indirect

Ce type de relation est réalisé avec un constituant prépositionnel qui est suivie par un nom mis
au génitif. Nous pouvons représenter cette relation par la règle suivante :
(N)-PREP-compI→(N)GEN …(3)

Page
73
Cette relation possède les propriétés syntaxiques suivantes :
i. La structure est itérative car plusieurs compléments de nom peuvent être utilisés dans
la même phrase comme dans la phrase suivante :
‫( ترجمةٌ من الفرنسي ِة إلى العربي ِة‬Une traduction du français vers l’arabe)
tarʤamat+u+n-PREP→ mina-compI→al+firinsijat+i -PREP→ʔilaa-compI→
al+ʕarabijat+i
(N)+NOM (PREP) DEF+(N)+GEN (PREP)
DEF+(N)+INDEF

ii. Comme le complément d’objet direct, le complément indirect peut être aussi un
constituant coordonné, et pour illustrer ce cas de figure, prenons l’exemple de la
phrase :
‫( ترجمةٌ من الفرنسي ِة والعربي ِة‬Une traduction du français et de l’arabe)
tarʤamat+u+n-PREP→ mina-compI→al+firinsijat+i wa#al+ʕarabijat+i
(N)+NOM+IND (PREP) DEF+(N)+GEN (COORD)#DEF+(N)+GEN

[Link].4. L’apposition
L’apposition est la relation permettant de rattacher un mot, considéré comme dépendant de la
relation et appelé appositif, à un nom afin de lui apporter un complément d’information. Ce
complément concerne une qualité ou une nature. Cette relation formalise en arabe le
phénomène dit albadal, ( ‘ ‫البدل‬la substitution’). Nous pouvons représenter cette relation
comme suit :

(N)-appos→(N)DEF|NEUTRE …(4)

L’appositif peut avoir différents type :

 Nom défini : prenons l’exemple de cette phrase :
‫( محم ٌد الرسو ُل‬Mohammed le prophète)
Muhammad+u+n -appos→ al+rassul+a+u
(N)+NOM+INDEF DEF+(N)+NOM
 Nom indéfini : par exemple :
‫( أدهشنا محمداً صديقك‬Mohammed ton ami nous a surpris)
ʔadhachana muhamad+a+n–appos→ sadiq+a#ka
(V)PRESENT (N)+ACC+INDEF (N)+ACC#(PRO)
 Démonstratif : comme nous l’illustrons dans la phrase suivante :
‫( الفتاة هذه‬cette fille là)
al+fatat+u -appos → haDihi
DEF+(N)+NOM (DEI)
 Cardinal : comme c’est le cas de la phrase suivante :
‫( الفرد الثَلثون‬le trentième individu)
al+fard+u -appos→al+tthalathuuna
DEF+(N)+NOM DEF+(CARD)NOM
En terme de coordination, l'oppositif suit en nombre et en genre son gouverneur, par
exemple :
‘‫( ’داويت عمراً و خالداً الجريحين‬J’ai soigné Omar et Khaled les blessés)
daawajtu ‘umar+a+n wa#khalid+a+n-appos→ al+jarihajn
(V)PASSE (N,masc)ACC+INDEF (COORD)#(N,masc)+ACC+INDEF
DEF+(N,masc)[Link]

Page
74
Par ailleurs, la relation d’apposition est parfois complexe, car dans certains cas nous trouvons
des noms coordonnés dont chacun apporte une identification différente, par exemple la phase
:
) ً‫جنبك هللا أمرين فقراً و هرما‬ALLAH t’a épargné deux choses, pauvreté et vieillesse)
janabaka Allahu 'amrajn-appos→ [faqr+a+n wa#ham+a+n]
(V)PASSE NP (N,masc)[Link] (N,masc)[Link]
(COORD)#(N,masc)[Link]

Sur un autre registre, L’apposition possède plusieurs variantes selon l’étendu du sens qu’il
apporte au nom qu’il suit. Ces variantes sont au nombre de trois : apposition du tout '‫'بدل الكل‬,
apposition de la partie '‫'بدل الجزء‬, apposition d'inclusion '‫'بدل اإلشتمال‬.

 Apposition du tout : quand l’apposition désigne le nom suivi lui-même et l’égal au

sens, et n’a pas besoin par conséquent d’un pronom la liant au nom suivi. Pour illustrer
cette variante prenons la phrase :
َ‫ق عم ُر الخالفة‬
ُ ‫( تولى الفارو‬Omar le juste a pris la succession)
Tawalaa al+faruwk+u-appos→ ‘umar+u al+khilafat+a
(V)PASSE DEF+(N,masc)+NOM (N,masc)+NOM DEF+(N,masc)+ACC

Remarque : dans le cas où l’appositif est un nom propre ou un prénom, il devient la

tête de l’apposition et le nom qui le précède sera le dépendant de cette relation
syntaxique.

 L'apposition de la partie ou partitif : cette variante concerne les appositifs qui

réfèrent une partie matérielle des noms qu’ils suivent. Ces appositifs doivent être reliés
à un pronom qui fait référence au nom suivi et qui s’accorde avec lui en genre et en
nombre. A titre d’exemple, nous donnons la phrase suivante :

‫( ضاعت فلسطين أرضها‬a été perdue la terre de la Palestine)

Da'at falastin+u -appos→ 'arD+u#ha
(V)PASS (N)+NOM+INDEF N+NOM#PRO

Nous remarquons bien dans cet exemple que la terre représente une partie matérielle
de Palestine, et que l’apposition contient bien un pronom qui référence la Palestine.

 Apposition d'inclusion : l’appositif dans cette variante désigne une des

caractéristiques, ou propriétés morales, liées au nom auquel il est lié. Comme dans la
précédente variante, l’appositif doit être attaché à un pronom référençant le nom
auquel il est lié l’appositif.

‫( ضاعت كرامتهافلسطين‬a été perdue la dignité de la Palestine)

Da'at falastin+u -appos→ karamat+u#ha
(V)PASS (N)+NOM+INDEF (N)+NOM#PRO
Dans cet exemple, nous remarquons que le mot dignité n’est pas une partie matérielle
de la Palestine, mais c’est une propriété morale. De plus, nous voyons très bien que
l’appositif est lié à un pronom référençant la Palestine.

[Link].5. La corroboration (al-tawabi' – al-tawkîd)

Nous disons que deux mots dans une phrase en arabe sont liés par une relation de
corroboration si les deux mots se suivent et que le second est utilisé pour confirmer ou insister

Page
75
sur le premier. Le deuxième mot s’appel dans le cadre de cette relation le corroboratif. Nous
schématisons cette relation comme suit :

(N)- corrob→(N)DEF|NEUTRE …(5)

Il existe deux sortes de corroboration : formelle (lafzi : ‫ )لفظي‬et sémantique (ma'nawiy ‫)معنوي‬.
La corroboration formelle est caractérisée par la répétition du mot, en d’autres termes le mot
et son corroboratif sont les mêmes. Par exemple :
‘ َ‫( ’هَ ْيهَاتَ هَ ْيهَاتَ لِ َما تُو َع ُدون‬loin loin ce qu’on vous promet)
hayhAt+a -appos→ hayhAt+a lima tu’ad+un+n
(N)+ACC+INDEF (N)+ ACC+INDEF PART V(PREST)

La corroboration sémantique a la particularité d’utiliser l’une des unités lexicales suivantes :

nafs (‘ ‫نفس‬en personne’) , ʔajn (‘ ‫عين‬même’ ), ʤamiiʕu (‫‘ جميع‬tous’), 'amma (‘ ‫عامة‬entier’),
ʔaʤmaʕu kullu (‫‘ كل‬tout’), killa (‫) ’‘ كَل‬, killta (‫)’‘ كلتا‬, ainsi que leurs variantes
morphologiques possibles. Nous précisons que les unités kilâ et kiltâ sont spécifiques à la
corroboration du duel et sont fléchis à son cas. Il est obligatoire que ces unités lexicales se
joignent à un pronom qui s'accorde, en genre et en nombre, avec le corroboré, sauf pour les
variantes : ajma’un (‫‘ أجمع‬tous’), jama’aa’ (‫‘ جمعاء‬tous’), ‘ajma’un (‫‘ أجمعون‬tous’), juma’ (‫ُج َمع‬
‘tous’). Afin d’illustrer ce type de corroboration, voici quelques démonstrations :

 ‫(فاز المتسابق عينه‬le concurrent a gagné en personne)

faaʔza al+mutasabik+u -appos→'ayn+u#hu
(V)PASSE DEF+(N)SG+NOM (N)SG+NOM#(PRO)

 ‫( وصل الفائز نفسه‬le gagnant est arrivé en personne)

wassala al+fa'iz+u-appos→ nafs+u#hu
(V)PASSE DEF+(N)SG+NOM (N)SG+NOM#(PRO)

 ‫( وصل الفائزون أنفسهم‬les gagnants sont arrivés en personne)

wassala al+fa'izuuna-appos→ ʔanfus+u#humu
(V)PASSE DEF+(N)PL+NOM (N)PL+NOM#(PRO)

 ‫(تفوق المجتهدان كَلهما‬les deux studieux ont gagné tous les deux)
tafawaqa al+mujtahidaan-appos→kilaa#humaa
(V)PASSE DEF+(N)[Link] (N)[Link]#(PRO)

 ‫(سافر المعتمرون كلهم‬les pèlerins sont partis tous)

saaʔfara al+mu'tamur+u+un -appos→kull+u#humu
(V)PASSE DEF+(N)PL+NOM (N)PL+NOM#(PRO)

 ‫(حضر المدعون جميعهم‬les invités sont arrivés tous)

haDara al+mud’+u+un -appos→jamii’+u#humu
(V)PASSE DEF+(N)PL+NOM (N)PL+NOM#(PRO)

 ‫(استقبلنا الزائرين عامتهم‬nous avons reçu les visiteurs en leur globalité)

ʔistaqbal#na al+zaa’ir+iin-appos→ ʕaamat+u#hum
(V)PASSE#(PRO) DEF+(N)+NOM (N)+NOM#(PRO)

Page
76
[Link].6. La quantification numérale
Cette relation syntaxique présente un cardinal suivi d'un nom singulier mis à l’accusatif
indéfini. Dans ce cas, le gouverneur de cette relation est le nom et le dépendant est le
cardinal. La quantification permet le repérage des mesures dans les textes. Nous pouvons
présenter cette relation par la règle suivante :

(CARD)-quant-num→(N)INDEF …(6)

Le cardinal peut jouer les rôles suivants dans une phrase :

 Un cardinal peut être un sujet au nominatif, par exemple :
‫رجال‬
ٍ ُ‫( جاء خمسة‬Cinq hommes sont venus)
'jaa' khamssat+u-quant-num→rijaal+i+n
(V)[Link] (CARD)NOM+INDEF (N)PL+GEN+INDEF

 Le cardinal peut aussi être un complément d’objet direct comme dans cette phrase :
‫( قتل المجاه ُد خمسةَ ُجنُو ٍد‬le combattant a tué cinq soldats)
jaa' al+mujahid+u khamssat+a-quant-num→junuud+i+n
(V)[Link] DEF+(N)+NOM (CARD)ACC+INDEF
(N)PL+GEN+INDEF

Dans la grammaire arabe, en fonction du nombre véhiculé par le cardinal nous distinguons les
trois cas de figure suivants :
 Si le cardinal représente un nombre compris entre 3 et 10, alors le gouverneur, qui est
ْ doit être au pluriel quel que soit son genre : masculin ou
le nom dénombré (‫)ال َم ْعدُو ُد‬,
féminin. Le nombre prend différents cas suivant sa situation dans la phrase. De plus, il
doit être indéfini et mis au génitif. Nous signalons aussi que le genre du nombre dans
ce cas est opposé à celui du dénombré : si le dénombré est masculin alors le nombre
doit être mis au féminin et vice versa. Nous utilisons les exemples suivant pour
démontrer ces propriétés :

 ‫ت‬
ٍ ‫( جاء سب ُع فتيا‬sept filles sont venues)
Jaa’ sab+'uunun-tnauq- fatayaat+iu+
(V)PASSE (CARD)MASC+NOM (N)FEM+SG+GEN+INDEF

 ‫( جاء سبعةُ رجا ٍل‬sept hommes sont venus)

Jaa’ sab'at+u-quant-num→ rijaal+i+n
(V)PASSE (CARD)FEM+NOM (N) MASC +SG+GEN+INDEF

 Si le cardinal représente un nombre compris entre 11 et 99, alors le nom dénombré est
au singulier, à l’accusatif et généralement à l’indéfini. Par ailleurs, le nombre prend
différents cas suivant sa situation dans la phrase. La phrase suivante montre ces
propriétés :
ً‫( رأى يوسفُ أح َد ع َش َر كوكبا‬Youssef a vu onze planètes)
ra'a yussuf+u+n ahda 'achar+a-quant-num→kawkab+a+n
(V)[Link] (N)+NOM+INDEF (CARD)ACC+NEUTRE
(N)SG+ACC+INDEF

 Si le cardinal représente un nombre compris entre 100 et 1000, alors le nom dénombré
est toujours mis au singulier, généralement indéfini et mis au génitif. A titre illustratif,
prenons cet exemple :

Page
77
 ‫( عاش جدي مائة سن ٍة‬mon grand-père a vécu cent ans)
‘acha jad+i#i mi'at+a-quant-num→ sanat+i+n
V(PASSE) (N)+NOM#PRO (CARD)ACC (N)SG+GEN+INDEF

En plus des quantificateurs décrit jusque-là, il existe des unités lexicales qui indiquent le sens
du nombre mais qui ne sont pas des nombres. Par conséquent, la quantité indiquée par ces
entités est indéterminée. Nous notons que le nom dénombré par ces unités est mis au cas
accusatif et avec certaines unités (bidh3o) a toujours un genre opposé à celui du cardinal. Par
exemple :

 ً‫( حضر اَلحتفال كذا رجَل‬plusieurs hommes ont assisté à la cérémonie)

hjDjjra j l+ihtifaal+a unun-tnauq-Øaaaa+k rajulaa+u+
(V)PASSE DEF+(N)+ACC (CARD)ACC+NEUTRE (N)+ACC+INDEF

[Link].7. La conjonction de coordination

La conjonction est une relation qui permet de lier des éléments de la même classe. Les
conjoints partagent le même trait de définitude et portent la même marque de cas.
Mentionnons que dans ce type de relation, la tête et le dépendant sont reliés par l’élément
« indications linguistiques » qui est la conjonction de coordination. Nous pouvons représenter
cette relation comme suit :

(N1)-(CONJ_COOR)-conj-coord→(N2) …(7)

…(1)
Pour illustrer cette définition, prenons la phrase suivante :
 ‫( جاء التلمي ُذ واِلستا ُذ‬Ils sont venus l’élève et le professeur)
Jaa+a al+tilmid+u -COORD→ waa# al+’ustaaD+u
V(PASSE) DEF +(N)+NOM (Coord) DEF+(N)+NOM

Cette relation est valable aussi entre deux cardinaux. Les cardinaux de 21 à 99 sont composés
d'une manière analytique par une coordination suivant la règle suivante :

(CARD)-(CONJ_COOR)-conj-coord→(CARD) …(8)

…(1)
Exemple :
 ‫( خمسةٌ وخمسون طالبا‬cinquante-cinq étudiants)
khamsat+u+n-COORD→ waa# khams+u+n talib+n+n
(CARD) (COORD) (CARD) (N)+ACC+INDEF
[Link]. Les relations syntaxiques gouvernées par un adjectif
Rappelons qu’un adjectif est un mot qui associe à un nom, auquel il s’adjoint, une
caractéristique ou une qualité. Il partage avec le nom les catégories grammaticales suivantes :
 Le genre : masculin (MASC) et féminin (FEM).
 Le nombre: singulier (SG), duel (DUEL) et pluriel (PL)
 Le cas : nominatif (NOM), accusatif (ACC) et génitif (GEN).
 La définitude : défini (DEF), indéfini (INDEF) et neutre (NEUTRE)
De part ces catégories et du fait que l’adjectif est joint à un nom, des règles d’accord
morphologiques entre l’adjectif et le nom s’imposent. Bien entendu, l’adjectif reçoit le genre,
le nombre, le cas et la définitude par le phénomène de l’accord du support auquel il se
rapporte. Les règles d’accord sont diversifiées et complexes; par exemple si le nom est un

Page
78
pluriel brisé, l’adjectif sera au féminin singulier même si le nom est masculin comme c’est le
ca de cette phrase :
 ‫( العقاربُ السامة‬les scorpions venimeux)
al+’aqaarib+u al+saamat+u
DEF+(N)[Link]+NOM DEF+(ADJ)[Link]+NOM

Nous décrivons sommairement les principales règles de l'accord entre le nom et l'adjectif
comme suit :
 Si le nom est un cas de référents humains, l'adjectif s'accorde en genre et nombre avec
lui, par exemple :
 ‫الروح‬
ِ ُ‫( محم ٌد خفيف‬Mohammed a un esprit léger)
Muhammad+u+n [khafiif+u] al+ruuH+i
(NP)[Link]+NOM+INDEF (ADJ)[Link]+NOM DEF+(N)+GEN

 (Malika a un esprit léger)‫الروح‬

ِ ُ‫مليكةٌ خفيفة‬
Maliikat+u+n [khafiifat+u] al+ruuH+i
(NP)[Link]+NOM+INDEF (ADJ)[Link]+NOM DEF+(N)+GEN

 les hommes ont) ‫الروح‬

ِ ‫ الرجا ُل أ ِخفّا ُء‬un esprit léger)
al+rijaal+u ['akhifaa'+u] al+ruuH+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN

 les femmes ont‫الروح‬

ِ ُ
‫خفيفات‬ ‫ ( النسا ُء‬un esprit léger)
al+nissa'+u [khafiifAt+u] al+ruuH+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN

 Si le nom est un cas de référents non humain et au singulier alors l'adjectif doit
s'accorder en genre et en nombre avec lui, c’est le cas des exemples suivants :
 ‫( القط كثير المواء‬le chat qui miaule beaucoup)
al+qiT+u [kathiir+u] al+miwaa’+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN

 ‫( القطة كثيرة المواء‬la chatte qui miaule beaucoup)

al+qiTat+u [kathiirat+u] al+ miwaa’+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN

 Si le nom est un cas de référents nom humain et il est au pluriel alors dans ce cas, le
genre de l'adjectif est au féminin et elle est au singulier

 ‫( القطط كثيرة المواء‬les chats qui miaulent beaucoup )

al+qiTaT+u [kathiirat+u] al+miwaa’+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN

 ‫( القطات كثيرة المواء‬les chattes qui miaulent beaucoup)

al+qiTaat+u [kathiirat+u] al+ miwaa’+i
DEF+(N)[Link]+NOM (ADJ)[Link]+NOM DEF+(N)+GEN

[Link].1. Les relations syntaxiques de surface contrôlées par la valence de

l’adjectif
Nous présentons dans cette section les relations syntaxiques gouvernées par l’adjectif. Cinq

Page
79
relations syntaxiques sont représentées : le complément de l’adjectif, le modifieur, le
comparatif, le superlatif et la conjonction de coordination. Pour chaque relation, comme nous
l’avons fait pour le nom, nous donnons le dépendant prototypique avec des exemples à
l’appui sans aborder exhaustivement les propriétés syntaxiques.

[Link].2. La relation complément de l’adjectif

Le complément de l’adjectif, noté compAdj, est un nom défini et fléchi au génitif. Il suit
directement son gouverneur. Nous pouvons schématiser cette relation comme suit :

(ADJ)NEUTRE-compAdj→(N) …(9)

Voici quelques exemples pour illustrer cette relation :

 ‫ق طاردةُ العقو ِل‬ ُ ‫( المناط‬Les lieux expulsant les esprits)
al+manaatiq+u taridat+u+Ø -compAdj → al+'uquul+i
DEF+(N)+NOM (ADJ)+NOM+NEUTRE DEF+(N)+GEN
 ‫ب‬ ِ ‫( فاطمةُ طيبةُ القل‬Fatima a un bon cœur)
Fatimat+u+n tayyibat+u+Ø - compAdj→ al+qalb+i
(N)+NOM+INDEF (ADJ)+NOM+NEUTRE DEF+(N)+GEN
 ‫الخلق‬
ِ ُ‫حسن‬ ٌ
‫د‬ ‫محم‬ (Mohammad a de bonne manières)
Muhammad+u+n hassunn+u+Ø -compAdj→ al+khulq+i
(N)+NOM+INDEF (ADJ)+NOM+NEUTRE DEF+(N)+GEN

Pour des raisons syntaxiques et morphologiques, l’omission du complément de l’adjectif

entraîne un changement de détermination et conduit à un changement de sens dans
l’information. Pour illustrer cette propriété, nous omettons le complément d’objet des
exemples donnés dessus, ce qui donne les résultats suivants :
 ‫ق طارد‬ ُ ‫(ةٌ المناط‬Les lieux expulsifs)
al+manaatiq+u taridat+u+n
DEF+(N)+NOM (ADJ)+NOM+NEUTRE
 ٌ‫( فاطمةُ طيّبة‬Fatima est gentille)
Fatimat+u+n tayyibat+u+n
(N)+NOM+INDEF (ADJ)+NOM+NEUTRE
ٌ
 ‫حسن‬ ‫( محم ٌد‬Mohammad est joli)
Muhammad+u+n hassunn+u+n
(N)+NOM+INDEF (ADJ)+NOM+NEUTRE

[Link].3. La relation modificative

Dans le cadre l’adjectif, le dépendant ou le modifieur de la relation est un adverbe, comme le
mettons en avant dans la règle suivante :
(ADJ)-modif→(ADV) …(10)

Prenons cette phrase comme exemple pour illustrer cette relation :

 ً‫( البحا ُر عميقةٌ جدا‬les mers sont très profondes)
al+bihar+u 'amiirqt+u+n -modif → ʤidan
DEF+(N)+NOM (ADJ)+NOM+INDEF (ADV)

Cette relation peut avoir des variantes. Une de ces variantes consiste à associer une particule,
qui est le dépendant dans ce cas, à un adjectif afin de nier l’information véhiculée par ce
dernier. Cette variante est généralement suivie par une conjonction de coordination pour

Page
80
ajouter un autre adjectif. Considérons la phrase suivante pour illustrer cette variante :
 ‫( رج ٌل َل غن ٌي وَل فقي ٌر‬un homme n’est ni riche ni pauvre)
rajul+u+n laa←modif-ghaniy+u+n wa#laa
faqir+u+n
(N)+NOM+INDEF (ADV) (ADJ) (COORD)#(ADV) (ADJ)

[Link].4. La relation comparative

Comme toutes les grammaires, la grammaire arabe possède des constructions syntaxiques
permettant d’exprimer la comparaison entre deux entités. Cette comparaison est définie par un
adjectif comparatif nécessitant l'utilisation d'un schème « ‫»أَ ْف َع ُل‬, par exemple : (‫)أَجْ َم ُل → جميل‬
ou (‫)أَقَلُّ → قليل‬, et suivi de la préposition (‫)من‬, qui correspond à la préposition en français
‘que’. Dans ce cas, le dépendant de la relation syntaxique est la préposition min (‫ )من‬suivi
d’un nom fléchi au génitif. La règle suivante schématise la relation de comparaison :
(ADJ)-comparative→min+(N)GEN …(11)

Exemple :
 ‘‫القطار‬
ِ ُ ‫( ’الطائرةُ أسر‬L’avion est plus rapide que le train)
‫ع من‬
al+Ta'irat+u ʔasra'+u min al+qiTar+i
DEF+(N)+NOM+INDEF (ADJcomparative)+NOM (PREP)
DEF+(N)+GEN+INDEF

Toutefois, l’utilisation des superlatifs n’est pas toujours possible pour certains mots. C’est le
cas de certains verbes ou des phrases où nous voulons exprimer un degré supérieur des
adjectifs de couleurs ou de particularités physiques ayant déjà la forme d’un élatif (‫)إسم التفضيل‬.
Dans ce cas-là nous faisons appel à un élatif à sens vague (،‫ أكثر‬،‫ أقل‬،‫ )أكبر أشد‬suivi d’un nom
indéfini au cas accusatif, de la couleur ou de la particularité physique. Par exemple :
 ‫( كريم أقلُّ صمما ً من أنيس‬Karim est moins sourd que Aniss)
Karim+u+n ʔaqall+u samam+a+n min ʔanii+u+n
(NP)+NOM (ADJ)+NOM (ADJ)+ACC+INDEF (PREP) (NP)+GEN
ً
 ‫( الثل ُج أش ُّد بياضا من اللب ِن‬la neige est plus blanche que le lait)
Al+Talj+u ʔachad+u bayadh+a+n min al+laban+i
DEF+(N)+NOM (ADJ)+NOM (ADJ)+ACC+INDEF (PREP) DEF+
(N)+GEN

[Link].5. La relation superlative

Généralement la comparaison se fait entre deux entités, mais pour pouvoir faire la différence
entre un groupe contenant de nombreuses entités nous faisons appel au superlatif. Ce dernier
est utilisé pour désigner les extrêmes que nous exprimons par les mots : le meilleur, le
premier, le pire, le dernier, etc. Dans le cadre d’une relation superlative, le dépendant est par
défaut un nom mis au génitif indéfini. Nous résumons cette relation dans la règle suivante :

(ADJ)NEUTRE-supertlatif→(N) …(12)

Le dépendant d’une relation superlative est par défaut un nom mis au génitif indéfini. De plus
ce dépendant est appelé dans cette relation élatif (‫ )إسم التفضيل‬et il est invariable en genre et en
nombre. Il peut être employé comme premier terme d’une annexion, et dans ce cas-là deux
constructions sont alors possibles :
 Construction faisant appel à un complément de nom singulier indéterminé
 ‫( بَل ٌل أجم ُل رج ٍل‬Bilel est le plus beau des hommes)

Page
81
bilal+u+n ʔajmal+u-supertlatif→ raʤul+i+n
(NP)+NOM (ADJcomparative)+NOM (N)+GEN+INDEF
 Construction faisant appel à un complément de nom déterminé au pluriel
 ‘‫( ’ال ِّربَا أَ ْعظَ ُم ال َكبَائِ ِر‬l’adultère est le plus grand des péchés capitaux)
Al+riba’ ʔaDam+u al+kaba’ir+i
DEF+(N)+NOM (ADJsuperlatif)+NOM (N)+GEN+INDEF
Enfin, nous notons qu’en plus des cas mentionnés dessus, il existe aussi deux adjectifs qui ne
sont pas sous la forme de '‫'أَ ْف َعل‬, qui sont les mots ‫( َخ ْي ٌر‬bien) et ‫(شَر‬mal). Ces mots sont utilisés
sous cette forme pour exprimer le comparatif et le superlatif. Pour illustrer ces cas, voici
quelques phrases explicatives :
 ‘‫وم‬ ِ َّ‫صَلَةُ خَي ٌر منَ الن‬ َّ ‫( ’ال‬la prière est meilleure que le sommeil)
Al+salat+u khayr+u+n min al+nawm+i
DEF+(N)+NOM (ADJcomparative)+NOM (PREP) DEF+(N)+GEN
 ‘‫الخلق‬
ِ ُّ‫َر‬‫ش‬ ُ‫يطان‬ َّ
‫ش‬ ‫’ال‬ (le diable est la pire des créatures)
Al+shaytAn+u charr+u al+nawm+i
DEF+(N)+NOM (ADJsuperlatif)+NOM DEF+(N)+GEN

[Link].6. La relation conjonction de coordination

La conjonction est une relation, que nous considérons dans cette partie, permet de lier deux
adjectifs appelés aussi conjoints. Les conjoints ont aussi les mêmes propriétés que celles des
conjonctions des noms, à savoir partager le même trait de définitude et porter la même
marque de cas. Notons que dans ce type de relation, la conjonction de coordination (appelé
aussi indications linguistiques) lie la tête et le dépendant de la conjonction. La règle suivante
donne un schéma global de cette relation :
(ADJ)-(CONJ_COOR)-conj-coord→(ADJ) …(13)

…(1)
 ٌ‫(أيا ٌم صعبةٌ وحزينة‬des jours durs et tristes)
'ayam+un sa'bat+u+n-COORD→ waa# haziinat+u+n
(N)+NOM+INDEF (ADJ)+NOM+INDEF (Coord)
(ADJ)+NOM+INDEF

 ً‫(كان بَلل فَرحا ً وسعيدا‬Bilel était content et heureux)

kana Billel farih+a+n COORD→ waa# sa'iid+a+n
V(PASSE) (NP) (ADJ)+ACC+INDEF (Coord)
(ADJ)+ACC+INDEF

La grammaire de tradition arabe permet une coordination effectuée d'une façon asyndétique,
autrement dit ; une succession des adjectives sans l'utilisation d'une coordination. Cette
fonction permet de générer une chaîne d'adjectif. Voici une phrase où cette fonction est mise
en œuvre :

 ً‫(كان بَلل فَرحاً سعيدا‬Bilel était content heureux)

kana Billel farih+a+n sa'iid+a+n
V(PASSE) (NP) (ADJ)+ACC+INDEF (ADJ)+ACC+INDEF

[Link]. Les relations syntaxiques gouvernées par les mots outils

Dans cette section, nous présentons les relations syntaxiques régies par les mots outils
(appelés aussi les lexèmes fonctionnels). Ces mots outils représentent les unités lexicales

Page
82
autres que les trois classes majeures, à savoir : verbe, nom et adjectif. Les relations
concernées par la présentation de cette section sont : l’interjection, la préposition, la
conjonction, la jonction et l’exception.

[Link].1. L’interjection d’appel

Dans la grammaire arabe nous énumérons sept interjections d’appel qui sont : ( ‫يا ـ أيا ـ هيا ـ أي ـ‬
‫)الهمزة ـ وآ ـ وا‬. L’utilisation de ces interjections se fait dans une construction se composant de
l’interjection suivie d’un nom, neutre ou défini, fléchi au nominatif. Toutefois dans certain
cas, le nom qui suit l’interjection peut-être mis à l’accusatif indéfini. C’est le cas où ce nom
est une annexion au singulier. La construction obtenue est définie donc comme suit :
« interjection d’appel + interjeté (appelé) ». D’après les grammairiens arabes, cette
construction décrit une phrase verbale, dont le munaada ‘appelé’ est un cas de maf'uul bih
'‫( 'المفعول به‬complément d'objet direct) et le verbe d'appel, ʔunaadii ou ʔad'uu ‘j’appelle’ ( ‫أنادي‬
ou ‫ )أدعو‬est supprimé et remplacé par l'interjection. Nous résumons cette relation dans la règle
suivante :

(INTERJ)-interj-appel→(N)…(14)

Voici quelques exemples d’utilisation de l’interjection :

 ُ‫( أيها اإلنسان‬Oh l’homme)
ʔajuhaa–interj-appel→ al+'insan+u
(INTERJ) DEF+(N)+NOM
 ‫ق العرب ِة‬
َ ‫( يا سائ‬Oh conducteur du véhicule)
yaa interj-appel→ saa’iq+a al+’arabat+i
(INTERJ) (N)+ACC+INDEF DEF+(N)+GEN
[Link].2. La préposition
Une préposition est une unité lexicale faisant partie du groupe appelé (‫)حروف الجر‬. Elle a une
fonction syntaxique qui consiste à mettre un nom au cas génitif. Cette relation peut être
présentée par la règle suivante :
(PREP)-prép→(N)GEN …(15)

Ces prépositions peuvent être réparties dans les groupes suivants :

 Prépositions usuelles : ‫ ُم ْذ‬،‫ ُم ْن ُذ‬،‫ ِم ْن‬،‫ َم َع‬،‫ لَدَى‬،‫ لَد ُْن‬،‫ فِي‬،‫ ع َْن‬،‫ َعلَى‬،‫ َحتَّى‬،‫ إِلَى‬، َ‫ ف‬،‫ ِل‬، َ‫ ت‬،‫ب‬ ِ
 Quasi-préposition (de temps et de lieu) : ،َ‫ تِ َجاه‬، َ‫ تَحْ ت‬، َ‫ َب ْين‬،‫ بَعْد‬،‫ بَ َد َل‬،‫ أَ َما َم‬،‫ إِ َزا َء‬،‫ أَ ْثنَا َء‬، َ‫إِبَّان‬
،‫ يَ َسا َر‬،َ‫ َو َسط‬،‫ َو َرا َء‬،‫ نَحْ َو‬،‫ب‬ َ ْ‫ قُر‬،‫ قَ َرابَة‬،‫ قُ َّدام‬،‫ قَ ْب َل‬،‫ قبَا َل‬،‫ فَوْ ر‬،‫ ِع َوض‬،‫ َع ْب َر‬،‫ض َّد‬ ِ ،‫ َش َمال‬،‫ َر ْيثَ َما‬،‫ْث‬ َ ‫ َري‬،‫تِ ْلقَا َء‬
‫ناحيَة‬ِ ، ‫ ِجهَة‬،‫ ُمقَابِل‬،َ‫شَرْ ق‬،‫وب‬ َ ُ‫ َجن‬،‫ دَا ِخ َل‬،‫ ِخ ََل َل‬، َ‫ خَ ْلف‬،‫ار َج‬ ِ َ‫ خ‬، َ‫ ِح ْين‬،‫ َحوْ َل‬،‫ال‬ َ ‫ َح‬،‫ ِج َوا َر‬،‫ َج ْنب‬، َ‫يَ ِم ْين‬
 Locution prépositionnelles usuelles (préposition + nom) : ،‫ار‬ ِ ‫ بِ ِج َو‬،‫ب‬ ِ ِ‫ إِلَى َجان‬،‫إِلَى آ ِخ ِر ِه‬
ْ
‫ َعلَى‬،‫ َعلَى َج ْه ِل‬،‫ار‬ ِ َ‫ بِإ ِ ْنتِظ‬،‫ بَ ْينَ يَدَي‬،‫ بِ َوا ِسطَ ِة‬،‫ بِ َمثَابَ ِة‬،‫ بِفَضْ ِل‬،‫ بِشَأ ِن‬،‫ب‬ ِ َ‫ بِ َسب‬،‫ بِدُو ِن‬،‫ف‬ ِ ‫ بِ ِخ ََل‬،‫ُوص‬ ِ ‫ بِ ُخص‬،‫بِ َحضْ َرة‬
‫ فِي‬،‫ْق‬ َ َ َ َ
ِ ‫ َعلى ط ِري‬،‫ َعلى يَ ِد‬،‫ َعلى ُم ْست ََوى‬،‫ َعلى َمتن‬،‫ َعلى ق ْد ِر‬،‫ار‬ ْ َ َ َ ِ ‫ َعلى ِغ َر‬،‫ب‬ َ ْ َ
ِ ‫ َعلى ِعلم‬،‫ضوْ ِء‬ َ ‫ َعلَى‬،‫ب‬ ِ ‫َح َسا‬
،‫ح‬ ِ ‫ل‬ ‫ا‬ ‫ص‬
َ ِ ‫ل‬ ، ‫ل‬
ِ ْ‫ج‬َ ‫ِل‬ ِ ، ‫ر‬ َ ‫ظ‬َ ‫ن‬ ‫ي‬ ِ ‫ف‬ ، ‫ُون‬ ‫ض‬ ُ
‫غ‬ ‫ي‬ ِ ‫ف‬ ، ‫ن‬ ْ ‫َأ‬
‫ش‬ ‫ي‬ ‫ف‬
ِ ،‫ل‬ َ
‫َل‬ ‫خ‬
ِ ْ
‫ن‬ ‫م‬ِ ، ‫ُوص‬ ‫ص‬ ‫خ‬ ُ ‫ي‬ ِ ‫ف‬ ، ‫د‬
ِ ‫ُو‬‫د‬ ‫ح‬
ُ ‫ي‬ ِ ‫ف‬ ، ‫ة‬
ِ َ ‫ل‬ ‫ا‬ ‫ح‬
َ ‫ي‬ِ ‫ف‬ ، ‫ار‬ َ ‫ط‬ ‫إ‬ ‫ي‬ ِ ‫ف‬ ،‫أَ ْثنَا ِء‬
ِ ِ ِ ِ ِ ِ ِ
َ ْ ْ
‫ ِمن قب ِْل‬،‫ ِمن قِبَ ِل‬،‫ ِمن بَ ْع ِد‬،‫ِمن أجْ ِل‬ ْ َ ْ
 Locution prépositionnelles d'interrogation (préposition + particule
َّ َّ َّ
d'interrogation) : ‫ َعلى‬،‫ َحتى َم ْن‬،‫ َحتى َماذا‬،‫ َحتا َم‬،‫بِ َما‬،‫ بِ َم‬،‫ بِ َماذا‬،‫ بِ َك ْم‬،‫ إِ ََل َم‬،‫ إِلى َم ْن‬، َ‫ إِلَى أ ْين‬،‫إِلَى َمتَى‬
َ َ َ َ َ
، َ‫ ِم ْن أَ ْين‬،‫ ُم ْن ُذ َمتَى‬،‫ لَم‬،‫ لِ َما َذا‬،‫ فِي َما‬،‫ لِ َم ْن‬،‫فِي َم ْن‬،‫ فِي َم ِن‬،‫ فِي َما َذا‬،‫ َع َّم‬،‫ ع َْن َما َذا‬،‫ َع َّم ْن‬،‫ ع َََل َم‬،‫ َعلَى َم ْن‬،‫َما َذا‬
‫ ِم َّم ْن‬،‫ِم َّما‬

Prenons quelques exemples de phrases utilisant ces prépositions :

Page
83
 ‫( اإلعجاز في القرآ ِن‬le miracle dans le coran)
Al+’iajaaz+u fii –prép→ al+qur'aan+i
DEF+(N)+NOM (PREP) DEF+(N)+GEN
 Un autre exemple !!!

[Link].3. La conjonction de subordination

Dans le cas des mots outils, une conjonction de subordination est assimilée à une unité
lexicale faisant partie du groupe appelé en arabe h uruf nas bi wa#ʤ azmi almud aariʕ i
(‫)حروف نصب وجزم الفعل المضارع‬. Cette unité gouverne un verbe suivi d’une relation de
conjonction. Le rôle de cette conjonction est de permettre au verbe de remplir les fonctions du
verbe ou celle du nom. Nous pouvons présenter cette relation par la règle suivante :

(CONJ_SUB)-conj-sub→(V) …(16)

Le verbe qui suit ce type de conjonction doit être conjugué à l’inaccompli et son cas dépend
du type de la conjonction :
 Si la conjonction est du groupe (‫ )حروف نصب‬alors le verbe sera au subjonctif. Les
particule faisant partie de ce groupe sont : ‫( لَن‬lan)، ‫( َحتَّى‬hatta)، ‫( أَ ْن‬ann)، ‫( َكي‬kay) ، ‫َلم‬
‫( التعليل‬laam al-ta’lil)، ‫‘( إِذا‬iDana) ، ‫( الجحود َلم‬laam al-juHud) ‫فاء‬، ‫( السببية‬faa al-
sababiya). Exemple :
 ‫يتزوج‬
َ ‫( يري ُد أَ ْن‬Il veut se marier)
Yurid+u ‘an–Conj_Sub→ yatazawaj+a
(V)+PRESENT+IND (CONJ_SUB) (V)+ PRESENT+SUBJ

 Si la conjonction est du groupe (‫ )حروف جزم‬alors le verbe sera à l’apocope. Certain

particules faisant partie de ce groupe, qui sont : ‫( لَ ْم‬lam) ‫ لَ ّما‬، (lamma)، ‫( الم األمر‬laam
al-amr) ‫ ال الناهية‬، (laam al-nahiya), causent l’élision d’un verbe mais d’autres, en
occurrence : ‫إن‬ ْ (‘in) ، ‫( َم ْن‬man)، ‫( َما‬maa) ‫متى‬، (mata) ، ‫( مهما‬mahma) ‫أيّان‬، (‘ayyana)، ‫أين‬
(‘ayna)، ‫‘( أنّى‬anna)، ‫( حيثما‬hayTyma)، ‫ي‬ ّ ‫‘( أ‬ayy), causent l’élision de deux verbes.
comme dans la phrase suivante :
 ْ‫َل تسافر‬
laa–Conj_Sub→ tusaafir
(CONJ_SUB) (V)+ PRESENT+APOC

 ْ‫( َم ْن يدرسْ ينجح‬Celui qui étudies réussiras)

Man –Conj_Sub→ yadrus yanʤah
(CONJ_SUB) (V1)+ PRESENT+APOC (V2)+ PRESENT+APOC

[Link].4. La conjonction de coordination

La jonction est la relation permettant d’établir un lien de coordination entre plusieurs entités.
Elle est manifestée par l’utilisation d’une particule, parmi les particules de la coordination, qui
se place entre le coordonné à lui (‫ ) َم ْعطُوفٌ َعلَ ْي ِه‬et le coordonné ( ٌ‫) َم ْعطُوف‬. Notons que le
coordonné s’accorde avec le coordonné à lui dans son cas : nominatif (‫) َر ْفع‬, accusatif (‫صب‬ ْ َ‫)ن‬,
génitif (‫)ج ّر‬
ّ et apocope (‫م‬ ْ
‫ز‬ ‫)ج‬.
َ La règle suivante présente cette relation :

(CONJ_COOR)-conj-coord→(V) …(17)

Les particules de coordination sont traditionnellement nommées huruuf alʕatfi (‫)حروف العطف‬,
et selon les grammairiens arabes il existe neuf particules de coordination :
 ‫ال َوا ُو‬waa (et) : peut exprimer plusieurs sens : i) la successivité sans référence à un

Page
84
intervalle temporel, et ii) la simultanéité.
 ‫الفـــاء‬faa (ensuite) : exprime un ordre séquentiel sans intervalle temporel. il indique
un enchaînement entre deux actions afin de mettre en avant l’ordre seulement.
 ‫ ُث ّم‬θumma (ensuite) : utilisé pour indiquer un ordre séquentiel avec intervalle
temporel entre le coordonné à lui et le coordonné.
 ‫ حتّى‬hattaa (y compris, même) : utilisé pour faire la coordination dans le but
d’exprimer l’objectif.
 '‫'أو‬ ْ ʔaw (ou) : c’est le connecteur standard de disjonction
 '‫ 'أَ ْم‬ʔam (ou exclusif) : c’est aussi un connecteur de disjonction mais contrastif utilisé
généralement pour lier des propositions interrogatives
 ‘‫ ’لكن‬lakin (mais) : utilisé pour coordonner des constituants non verbaux
 '‫ 'بَل‬bal (plutôt) : c’est un connecteur de rectification liant une proposition affirmative
à une proposition négative
Voici quelques exemples de ces conjonctions :

ُ
 ‫مررت‬ ‫وزهير بخال ٍد‬
ٍ (Je suis passé auprès de Khalid et Zuhaïr)
Marart+u bi# khalid+i+n COORD→waa# zahiir+i+n
V(PASSE) PRE# (NP)+GEN Coord (NP)+GEN

 ‫( دخل الطَلبُ فاِلستا ُذ‬les élèves sont rentrés ensuite l’enseignant)

dakhala al+Tulab+u COORD→ faa al+'ustadh+u
V(PASSE) DEF+(N)[Link]+NOM Coord
DEF+(N)[Link]+NOM

[Link].5. L'exception
L’exception est exprimé en arabe à travers l’utilisation de la particule '‫'إَل‬, qui signifie sauf ou
hormis, dans une phrase affirmative gouverne en général le cas direct. L’emploi de l’exception
nécessite l’engagement de deux éléments importants : l’entité exceptée (‫ )المستثنى‬mise en
générale à l’accusatif et le terme général (‫)المستثنى منه‬. La relation d’exception peut être
représentée par la règle suivante :
(EXCEP)-excep→(N) …(18)

Deux cas d’exception en arabe peuvent être distingués :

i. Cas où elle est mise à l’accusatif, quand la proposition est à l’affirmatif, et quand le
terme général est mentionné.
 ً‫( جاء اِلوَل ُد إَِل محمدا‬tous les enfants ne sont pas venus sauf Mohammed)
Jaa al+’awlad+u EXCEP→ ‘ilaa
Mohammed+a+n
V(PASSE) DEF+(N)[Link]+NOM Excep (N)MAS
+ACC

ii. Cas où elle est mise soit à l’accusatif, soit au même cas que le terme général, et cela
quand la proposition est négative, et le terme général est mentionné, par exemple :
ً
 ‫( ما جاء اِلوَل ُد إَِل محمدا‬tous les enfants ne sont pas venus sauf Mohammed)
Maa jaa al+’awlad+u EXCEP→ ‘ilaa Mohammed+a+n
PART V(PASSE) DEF+(N)[Link]+NOM Excep (N)MAS +ACC

 ‫( ما جاء اِلوَل ُد إَِل محم ٌد‬tous les enfants ne sont pas venus sauf Mohammed)
Maa jaa al+’awlad+u EXCEP→ ‘ilaa Mohammed+u+n

Page
85
PART V(PASSE) DEF+(N)[Link]+NOM Excep (N)MAS +NOM

[Link]. Les relations syntaxiques gouvernée par le verbe

Rappelons que le verbe en arabe permet d’exprimer comme dans toute langue une action
effectuée par un sujet. Cette action peut être effectuée sur un axe de temps allant du passé au
futur en passant par le présent en prenant différentes formes : passive et active. Elle peut aussi
être utilisée pour exprimer des ordres dans un mode impératif tout. De ce fait la conjugaison
d’un verbe prend en compte plusieurs paramètres :
 Le temps (passé, présent, futur)
 Le mode (indicatif, subjonctif, apocope, impératif)
 La voix (passif, actif)
 Personne (1ère, 2ème, 3ème)
 Genre (masculin, féminin)
 Nombre (singulier, duel, pluriel)
Nous pouvons schématiser ces paramètres dans le tableau suivant :

Les grammèmes du verbe

Voix Actif Passif
Personne 1ère 2ème
3ème
Genre Masculin Féminin
Nombre Singulier Duel Pluriel
Indicatif
Mode Jussif Impératif Subjonctif
passé présent futur

Tableau 3. 5. Les paramètres de conjugaison d’un verbe.

En plus des aspects de conjugaison, il existe un concept, emprunté aux chimistes, et projeté
sur les verbes qui est la valence. A l’origine, la valence correspond au nombre d'atomes avec
lequel un atome donné peut se combiner à l'intérieur d'une molécule. C’est Tesnière qui a
adapté ce concept au verbe (Tesnière, 1965), et cela en donnant la définition suivante : « le
nombre d’actants qu’un verbe est susceptible de régir » en considérant les actants comme : «
êtres ou les choses qui, à un titre quelconque et de quelque façon que ce soit, même au titre de
simples figurants et de la façon la plus passive, participent au procès ». Pour les circonstants,
il s’agit de : « circonstances de temps, lieu, manière, etc. dans lesquelles se déroule le procès
». En détails, cette définition oppose les actants aux circonstants et distingue parmi les actants,
le prime actant, le second actant et le tiers actant que nous pouvons assimiler au sujet, l’objet
et le complément d’objet (COI) respectivement.

Par ailleurs, en fonction du nombre d’actants régis par un verbe, Tesnière propose une
typologie de valence pouvant elle-même considérée comme une classification de verbe
comme suit :
 Verbe avalent : verbe n’ayant pas d’actants, donc sans aucune valence. Ces verbes
sont plus souvent connus sous le nom de verbes impersonnels.
 Verbe monovalent : verbe ayant un seul actant et connus sous le nom de verbes neutres
ou de verbes intransitifs.
 Verbe bivalent : verbe à deux actants appelé aussi verbe divalent.

Page
86
 Verbe trivalent : représente la classe des verbes ayant trois actants.
Dans le reste de cette section nous détaillons les relations syntaxiques gouvernées par un
verbe.

[Link].1. Relation Sujet {(V) -sujet→(N)}

Selon la théorie de valence présentée dessus, le sujet correspond au prime actant. Dans la
grammaire arabe, le dépendant de la relation syntaxique est un nom mis au cas nominatif. Le
type de relation construite est 'SV' et suit la règle suivante :

(V) -sujet→(N) …(01)

Le sujet s’accorde en genre et en nombre avec un sujet pronominal (pronom précédant le

verbe) et en genre seulement avec un sujet lexical. De ce fait, l’identification du pronom est
déterminée par l’accord établi entre le sujet et le verbe. Aussi, le verbe est mis au duel ou au
pluriel quand le sujet est un pronom personnel; et il reste au masculin singulier s'il est encadré
par une lettre d'exclusion. Pour illustrer ces cas d’accord, prenons les exemples suivants :
 ‫( تخرَّج‬il est diplômé)
takharraja ―sujet→ {huwa}
(V)[Link] (PRO)[Link]
 ‫( تخرَّجوا‬Ils sont diplômés)
takharrajuu ―sujet→ {humu}
(V)[Link] (PRO)[Link]
 ‫( تخرَّج الول ُد‬Le garçon est diplômé)
takharraja ―sujet→ alwaladu
(V)[Link] (N,masc)SG
 ‫( تخرَّج اِلوَل ُد‬Les garçons sont diplômés)
takharraja ―sujet→ alʔawlaadu
(V)[Link] (N,masc)PL
 ‫( ما ذهب إَل البنات‬Il n'est parti que les filles)
Ma Dahaba ‘ilaa―sujet→ alʔawlaadu
(NEG) (V)[Link] (PARTexclusion) (N,femi)PL
 ‫( ذهبا‬Ils sont partis)
Dahab+A ―sujet→ {humA}
(V)[Link] (PRO)[Link]
Sur un autre registre, le sujet peut prendre différents genres parmi ceux données dans ce
tableau avec des exemples d’illustration :

Type de sujet Exemple

ٌ‫( تدرسُ فاطمة‬Fatima étudie)
Nom propre tadrusu -sujet→ faatimat+u+n
(V)PRESENT (NP)+NOM+INDEF
ُ
‫الطالبات‬ ُ‫( تدرس‬Les étudiantes étudient)
Nom commun tadrusu - sujet→ al+taalibaat+u
(V)PRESENT DEF+(NC)+NOM
‫( كان هذا رائعا‬Cela est magnifique)
Pronom
kaana-sujet→ haðaa raa’i’a+a+n
démonstratif
(V)PRESENT (DEI) (ADJ)+ACC+INDEF
Cardinal ٍ ‫نجح خمسةُ طَل‬
‫ب‬ َ (Cinq étudiants se sont réussis)

Page
87
najaha-sujet→ [khamsat+u tulaab+i+n]
(V)[Link] (CARD)+NOM (N,masc)+GEN+INDEF
ْ ُ‫ُوا لَوْ َكان‬
َ‫وا ُم ْسلِ ِمين‬ ْ ‫( يَ َو ُّد الَّ ِذينَ َكفَر‬Ceux qui ne croient pas, veulent s'ils étaient musulmans)
Pronom
jawaddu-sujet→ allaðiina kafaruu {humu} law kaanuu {humu} muslimiin
Relatif (V)PRESENT (Pron-Rela) (V)[Link] (CONJ) (V)PASSE (N)MAS+PL+GEN

Notons que le sujet peut dans certains cas être omis, c’est le cas des verbes intransitif mis à la
voix passive. Par exemple, les verbes ‫( نام‬dormir) et ‫( نشأ‬grandir) prennent en voix active un
sujet et n’ont pas de complément d’objet direct, cependant ce sujet est omis lorsque ces verbes
sont transformés à la voix passive comme suit :

‫( نام‬dormir)
‫( نام الطف ُل على السرير‬L’enfant a dormi sur le lit)
Forme Active Naama ―sujet→ al+Tifl+u ‘ala al+sarir+i
(V)[Link] DEF+(N)+NOM (PREP) DEF+(N)+GEN
‫( نيم على السرير‬Il a été dormi sur le lit)
Forme Passive Niima ‘ala al+sarir+i
(V)[Link] (PREP) DEF+(N)+GEN
‫( نشأ‬grandir)
‫( نَشَأ ُ الول ُد على الطاع ِة‬L’enfant a grandi sur la docilité)
Forme Active Nacha’a ―sujet→ al+walad+u ‘ala al+taa’at+i
(V)[Link] DEF+(N)+NOM (PREP) DEF+(N)+GEN
‫( نُ ِش َئ على الطاع ِة‬Il a été grandi sur la docilité)
Forme Passive Nuchi’a ‘ala al+taa’at+i
(V)[Link] (PREP) DEF+(N)+GEN

[Link].2. Le complément d’objet direct

Quand le verbe est transitif le complément d’objet représente principalement le 2 ème actant
sémantique, et il est appelé en arabe maf'uul bih (‫)مفعول به‬. Il est par défaut un nom sans
préposition fléchi à l’accusatif. Le type de la relation est de la forme 'VC' que nous pouvons
résumer dans la règle suivante :
(V)–COD→(N)ACC …(02)

Prenons la phrase suivante pour illustrer cette relation :

 ‫الصحفي المقا َل‬
ُّ ‫( نش َر‬Le journaliste a publié un article)
nashara al+sahafiyy+u al+maqaal+a
COD
(V)PASSE DEF+(N)+NOM DEF+(N)+ACC
Parfois un complément d’objet commute avec un pronom objet réalisé sous forme d’un
clitique ou d’un élément détaché, la forme clitique étant plus fréquente en ASM. Nous
illustrons cette propriété dans les phrases suivantes :
 ‫( ضربه اِلوَلد‬les enfants l’ont frappé)
Daraba -coDir→# hu al+ʔawlaad+u
(V)PASSE (PRO) DEF+(N)+NOM

 ‘‫( ’نعبد إيّاه‬nous l’adorons en personne)

naʕbudu {nah nu }-coDir→ ʔija#hu
(V)PRESENT (PRO)

Page
88
En arabe, un verbe transitif peut avoir besoin de plus d’un complément d’objet dans une
phrase : certains verbes régissent deux compléments et d’autres trois. La structure des phrases
utilisant ce type de verbe est généralement de la forme un verbe, un sujet, un complément
d'objet 1 et éventuellement un complément d'objet II. Cette structure peut même être étendue
à un troisième complément dans le cas des verbes : ‫‘( أنبأ‬anba’a – informer) , ‫( نَبَّأ‬nabba’a –
annoncer) , ‫‘( أخب َر‬akhbara – apprendre) , ‫( خبّر‬khabbara - avertir) ,‫ث‬ َ ‫( ح ّد‬haddatha – raconter)
, ‫‘( أعل َم‬a’lama – faire part) , ‫‘( أرى‬ara – montrer). Voici une phrase employant un verbe
utilisant trois compléments :
 ً ‫أريت سعيداً اِلم َر واضحا‬
ُ (j’ai démontré à Said la question clairement)
‘araytu Sa’id+a+n al+’amr+a waDih+a+n
COD1
(V)PASSE (NP)+ACC DEF+(N)+ACC (N)+ACC+INDEF

Les verbes nécessitants deux compléments sont répartis dans différentes classes :
 Les verbes attributifs : cette catégorie a besoin de deux compléments où le second est
appelé attributif et a pour rôle de compléter le sens de la phrase. Par conséquent, il
n’est pas possible de supprimer l’un des deux compléments. Trois types sont
considérés dans cette classe : pensée, changement d’état et certitude (ou de doute).
Nous pouvons résumer la liste des verbes de cette classe dans le tableau suivant :

Verbe transitif

Verbe de changement Verbe de certitude (de

Verbe de pensée
d’état doute)

‫ جعل‬،‫ زعم‬،‫ حسب‬،‫ خال‬،‫ظن‬ ‫ جعل‬،‫ َحوَّل‬،‫ اتخذ‬،‫ تَ ِخ َذ‬،‫ َر ّد‬،‫صيَّر‬

َ ‫ ألفى‬،‫ وجد‬،‫ علم‬،‫رأى‬

(zanna, khala, hasiba, (sayyara, radda, takhida), (‘ara, ‘alima, wajada,

za’ima, ja’ala) ‘ittakhada, hawwala, alfa)
ja’ala)
(croire, prétendre,
supposer) (rendre, laisser, prendre,
faire)

 Les verbes non-attributifs : sont des verbes ayant deux compléments mais ne
comportant pas une phrase nominale sous-jacente. L’un des deux compléments est
indispensable pour compléter le sens de la phrase ce qui n’est pas le cas de l’autre.
Par conséquent, nous pouvons supprimer l’un des deux sans toucher à l’intégrité du
sens de la phrase. Parmi les verbes de cette catégorie, nous citons : ‫( أعطى‬a’ta –
donner) ، ‫( سأل‬sa’ala – demander)، ‫( منح‬manaha – octroyer) ، ‫( منع‬mana’a – interdire)
، ‫كسا‬/‫( ألبس‬kasa/’albassa – habiller)، ‫‘( علّم‬allama – enseigner)
Avant de détailler les différents types de complément considérés dans notre étude, nous
terminons cette présentation par les exemples d’utilisation suivants :

Page
89
 ‫( اتخذ هللا إبراهيم خليَل‬Dieu a pris Ibrahim pour ami privilégié)
ItakhaDa Allah+u ibrahi+m khalil+a+n
COD1
(V)PASSE (NP)+NOM (NP)+ACC (N)+ACC+INDEF

 ً ‫( كسا هللاُ العظا َم لحما‬Dieu a revêtu les os de chaire)

Kassa Allah+u al+’iDam+a lahm+a+n
COD1

(V)PASSE (NP)+NOM DEF+(N)+ACC (N)+ACC+INDEF

Types du complément d’objet direct

Le complément d’objet direct ne peut pas être seulement un nom, il peut prendre d’autres
valeurs syntaxiques comme l’adjectif, l’attribut, l’adverbe, etc. Dans notre étude nous avons
considéré les types suivants :
 Complément circonstanciel :
Les compléments de ce type ont pour rôle la description des circonstances selon lesquelles ou
dans lesquelles se déroule l’action décrite par le verbe qui le gouverne. Ils correspondent
principalement à un adverbe circonstanciel de temps ou de lieu. Cette relation correspond
généralement au phénomène dit dans la grammaire arabe maf'uul fiih, ( ‫) َم ْف ُعو ٌل فِي ِه‬. Nous
distinguons deux classes de compléments circonstanciels :
o Complément circonstanciel de temps (pour exprimer le : (‫ان‬ ٌ ‫ف زَ َم‬ َ
ٌ ْ‫ظر‬
contexte temporel dans lequel l'action véhiculée du verbe s'est exécutée, en
: Par exemple .'?quand' e à la questiond'aure termes il permet de répondr
 ً‫( َسافَ َر الرّج ُل لَ ْيَل‬Il a voyagé de nuit)
o Complément circonstanciel de lieu (‫ان‬ ٌ ‫ف َم َك‬ َ ) : ce complément est utilisé
ٌ ْ‫ظر‬
pour situer où l’action du verbe s’est déroulée dans l’espace, ce qui
constitue une réponse à a question ‘où ?’. C’est le cas de la phrase :
 ‫ت‬ ِ ‫ار َج ْٱلبَ ْي‬
ِ ‫( َو َج َدهُ َخ‬Il l’a trouvé en dehors de la maison)

 Complément de manière ou d’état

Ce complément est utilisé pour exprimer les conditions ou les circonstances qui régissent le
moment où l’action du verbe a eu lieu. Il décrit donc un état transitoire ou permanent dans un
adjectif ou un nom au cas direct indéfini et accordé en genre et en nombre le verbe qu’il ne
précède jamais. Ce phénomène est noté en arabe ḥāl (‫) َحا ٌل‬, et en voici un exemple
d’utilisation :
 ً‫( سافر الول ُد مسرورا‬Le garçon a voyagé content)
Safara al+walad+u masrur+a+n
COD

(V)PASSE DEF+(N)+NOM (ADJ)+ACC+INDEF

 Complément absolu
Ce complément joue pratiquement le même rôle que celui du complément de manière, la
différence c’est que le complément absolu est un ‫( مصدر‬maṣdar) du verbe employé afin de
renforcer l’action et décrire la manière de son déroulement. Il est connu sous le nom de
maf’uul muTlaq (‫)مفعول مطلق‬. Il convient de mentionner, que la grammaire arabe ne possède
pas d’adverbes proprement dit. La phrase suivante donne un exemple d’application pour ce

Page
90
type de complément :

 ‫( فَ ِه َم فَ ْه ًما‬Il a parfaitement compris)

fahima fahma+a+n
COD

(V)PASSE (N)+ACC+INDEF

 Complément de but ou de cause

Ce type de complément est utilisé pour exprimer la cause et l’objectif à travers un nom verbal
(maṣdar) indéfini à l’accusatif, mentionné après le verbe qui le gouverne. Il permet de
répondre à la question ‘pourquoi ?’. Dans la grammaire arabe, ce complément est connu sous
le nom de maf’uul li’ajlihi (‫) َم ْفعُو ٌل ِِلجْ لِ ِه‬. Voici un exemple d’utilisation de ce complément :

 ‫اح أَلَ ًما‬

َ ‫ص‬َ (Il a crié à cause de la douleur)
saaha alam+a+n
COD

(V)PASSE (N)+ACC+INDEF

 ‫( هاجر طلبًا لألم ِن‬Il a voyagé en demandant la sécurité)

haajara Talab+a+n l+al+amn+i
COD
(V)PASSE (N)+ACC+INDEF
(PREP)+DEF+(N)+G

 Complément de nature (spécificatif)

C’est un substantif (nom ou masdar) utilisé pour spécifier et déterminer le terme ou la
proposition qui le précède. C’est un terme indéfini et mis à l’accusatif et peut être exprimé au
moyen de l’annexion ou de la préposition ‘‫’من‬. Nous trouvons le spécificatif essentiellement
après les entités lexicales suivantes :
 Un verbe à sens vague : le spécificatif permet de spécifier l’étendu ou le périmètre du
verbe utilisé, par exemple :
 ً‫‘( فاضت العين دمعا‬œil a débordé de larmes)
faad ati al+’ayn+u dam’+a+n
(V)PASSE DEF+(N)+NOM (N)+ACC+INDEF
 Un élatif à sens général : pour ce cas nous utilisons généralement le schème ‫أَ ْف َع ٌل‬pour
former l’élatif.
 ‫( كان محم ٌد أكثر تواضعًا‬Mohammed était le plus modeste)
kaana Mohammed+u+n ʔakθar+a tawaaDu'+a+n
(V)PASSE (N)+NOM+INDEF (ADJ)+ACC (N)SG+ACC+INDEF
 Un nom de mesure ou de poids : comme son nom l’indique, ce spécificatif désigne une
mesure ou un poids comme dans la phrase suivante :

Page
91
ْ ‫( اِ ْشتَ َرى َر‬Il a acheté un demi-kilo de blé)
 ‫طَلً قم ًحا‬
ʔishtara raTl+a+n qamh+a+n
(V)PASSE (N)+ACC+INDEF (N)+ACC+INDEF

 Un nom de nombre : nous illustrons cette utilisation dans la phrase suivante :

 ً‫( جاء عشرون شخصا‬vingt personnes sont venus)
Jaa ‘ichr+u+n chakhs+a+n
(V)PASSE (CARD)+NOM+INDEF (N)+ACC+INDEF

 Complément d’objet direct sans verbe

C’est des compléments utilisés dans des phrases et expressions utilisées couramment. Il s’agit
d’expressions courantes dans lesquelles le verbe est sous-entendu. C’est le cas des phrases :
 ! ‫ ُش ْك ًرا‬ Merci !
 ! ً‫ َم ْهَل‬ Doucement !
 ! ‫ َع ْف ًوا‬ Pardon !
 ! ً‫ أَ ْهَلً َو َس ْهَل‬ Bienvenu !

[Link].3. Le complément d’objet indirect

Si nous nous référons à la théorie de valence introduite au début de cette section, le
complément d’objet indirect correspond au 3ème actant sémantique. Le dépendant de cette
relation syntaxique est un nom fléchi au cas génitif relié avec le verbe (tête) par une
constituant prépositionnel ‘(PREP)-prép→(N)GEN’ appelé linguistique Indication. Ces
prépositions peuvent aussi se succéder dans une phrase. Cette relation peut être présentée par
la règle suivante :
(V)–COI→(PREP)|(N)GEN …(03)

Voici quelques exemples d’utilisation du complément d’objet indirect :

 ‫الرسول‬
ِ ‫( صلّى المسلمون على‬Les musulmans faisaient des prières pour le prophète)
Salla al+muslimu+u+na ʕalaa al+rasuul+i
(V)PASSE DEF+(N)+NOM (PREP) DEF+(N)+GEN
COI
LingIndication
 ‫( سافر الرئيس من دول ٍة إلى دول ٍة‬le président s’est déplacé d’un pays à un autre)
saafara al+ra'iis+u mina dawlat+i+n ʕalaa dawlat+i+n
(V)PASSE DEF+(N)+NOM (PREP) (N)+GEN+INDEF (PREP)
(N)+GEN+INDEF
COI
LingIndication LingIndication

[Link].4. L’agent prépositionnel

Dans ce type de relation, on souligne un emploi des tournures modernes du passif qui
expriment le complément d'agent, parmi ces locutions prépositionnelles : min taraf+i, ʕalaa
ِ ‫ ِم ْن طَ َر‬de la part de’). L’agent prépositionnel de
jad+i, min qibal+i (‘ ‫ ِم ْن قِبَل‬،‫ َعلَى يَد‬،‫ ِم ْن َجانِب‬،‫ف‬
cette relation syntaxique est le nom mis au génitif relié par l'une de ces locutions
prépositionnelles. Il faut souligner que l'utilisation de ces types de tournures nécessite le
changement des rôles sémantiques : le nom mis au génitif après la préposition est l'agent de

Page
92
l'action représentant le premier actant sémantique du verbe, et le nom mis après le verbe est le
complément d'objet correspondant au deuxième actant sémantique. L’usage de ce type de
relation était limité dans l’arabe classique ce qui n’est pas le cas avec l’ASM où ces tournures
sont très répandues dû probablement au contact et influence des langues indo-européennes
(ref Dina). Nous pouvons formaliser cette relation par la règle suivante :
(V)PASSIF–agent-prép→(PREP) …(04)
Les phrases suivantes présentent des cas d’application de cette relation :

ْ َ‫( أُ ْعتُقِل‬La jeune fille a été arrêtée par la police)

 ‫ت الفتاة َعلَى يَد الشرطة‬
u'tuqilat al+fatat+u [min yad+i] al+churTat+i
(V)[Link] DEF+(N)+NOM [(PREP)Loc_PREP DEF+(N)+GEN

ِ ‫( يُموّ ل باريس سان جرمان ِمنْ طَ َر‬Le Paris Saint Germain est sponsorisé par Al-
 ‫ف الخليفي‬
Khelaïfi)
Yumawwalu Paris San Jirman [min taraf+i] Al-Khelaïfi
(V)[Link] (NP)+NOM [(PREP)Loc_PREP (NP)+GEN

[Link].5. L’attribut
Par définition, une copule en linguistique correspond à un mot dont la fonction est de lier
l'attribut au sujet d'une proposition. En arabe cette copule peut être assimilée à un exposant
verbal, mis en tête de phrase. Ces verbes sont kana ‫'كان‬Kana' et ses analogues ( ،‫ أضحى‬،‫أصبح‬
‫ ليس‬،‫ صار‬،‫ ما دام‬،‫ ما فتئ‬،‫ ما زال‬،‫ ما انفك‬،‫ ما برح‬،‫ بات‬،‫ أمسى‬،‫)ظل‬. Les phrases utilisant ces verbes sont
incomplètes si nous nous contentons seulement d’un nom au nominatif, appelé aussi sujet
(isme kana), en plus du verbe, elles nécessitent un autre élément, qui est χabar de kaana,
pour assurer la cohérence grammaticale de la proposition. D’ailleurs, c’est pour cette raison
que ces verbes sont appelés verbes incomplets. Le χabar de kaana correspond littéralement à
l’information attribut du sujet (‫خ َبر‬ َ ‫ )ال‬et elle est un adjectif indéfini fléchi à l’accusatif. Il peut
être aussi une préposition, proposition au présent de l’indicatif. Il s’accorde en genre et en
nombre avec son sujet (‫)المبتدأ‬. La règle suivante résume cette relation :

(V)–attr→(ADJ) …(05)

 ً‫( كان الرج ُل قويا‬l’homme était fort)

kaana al+rajul+u qawiy+a+n
(V)PASSE DEF+(N)[Link]+NOM (ADJ)[Link]+ACC+INDEF

 ‫( كان الرجا ُل أقويا ًء‬les hommes étaient forts)

kaana al+rijaal+u 'aqwiyaa'+a+n
(V)PASSE DEF+(N)MAS .PL+NOM (ADJ)[Link]+ACC+INDEF

 ‫( كان الرج ُل في المسج ِد‬l’homme était dans la mosquée)

[Link] al+rajul+u [ fii al+masjid+I ]
(V)PASSE DEF+(N)[Link]+NOM (PREP) DEF+(N)[Link]+GEN

 ‫( كان الرج ُل يصلي‬l’homme était en train de prier)

[Link] al+rajul+u [ fii al+masjid+I ]

Page
93
(V)PASSE DEF+(N)[Link]+NOM (PREP) DEF+(N)[Link]+GEN

Page
94
Introduction generale

Chapitre 4 Identification et
typage des entités nommées

Page
95
Introduction
Dans le but d’aborder la problématique d’extraction d’information un ensemble de
conférences a été initié en 1987 sous l’intitulé Message Understanding Coferences (MUC).
Ces conférences ont été financées par l’agence pour les projets de recherches avancées de
défense DARPA (Defense Advanced Research Projects Agency). Le but de ces conférences est
de rassembler le maximum d’efforts autour des problématiques d’extraction et de la
compréhension automatique des messages, et notamment dans le domaine militaire, et
d’évaluer les solutions proposées à travers l’organisation de compétitions entre les
participants autours d’un corpus d’entrainement et un autre de test.

Lors des deux premières conférences, à savoir MUC 1 et MUC 2, l’objectif était
d’explorer le terrain de recherche et d’aborder un certain nombre d’axes de recherche. Ces
conférences ont abouti à la définition des principales tâches à faire dans le cadre d’une
opération d’extraction. S’en suit trois autres conférences MUC 3, 4 et 5 qui ont mis l’accent
sur les différentes tâches définies lors des précédentes conférences. Ces conférences ont
contribué à un développement sophistiqué des différentes tâches d’analyse ce qui les a
rendues plus complexes et a créé ainsi la nécessité de fragmenter chacune de ces tâches en des
fonctionnalités indépendantes et plus maîtrisables. Les deux conférences MUC 6 et 7 ont
repris ce besoins d’affinement des tâches en fonctionnalités indépendantes ce qui a donné
naissance à de nouvelles tâches et à la transformation de certains modules impliqués dans le
processus d’extraction en modules indépendants d’analyse de textes, ce qui a amené à la tâche
de reconnaissance des entités nommées (Named Entities). Ces conférences, et notamment la
MUC 6, ont fait énormément de progrès au niveau du traitement de ce type d’entités avec des
performances et des taux de précisions assez élevés lors de l’évaluation. D’autres conférences
en parallèle autour de l’extraction des entités nommées ont eu lieu, comme la Multilingual
Entity Task (MET) qui a fait émerger des systèmes de reconnaissance d’entités nommées pour
l’espagnol, le japonais et le chinois.

Dans ce chapitre, nous nous intéressons au traitement des ENs en arabe. Un système
de détection et de typage d'ENs pour l'arabe a été développé. Ce chapitre est consacré à la
problématique de repérage et typage des entités nommées en arabe. La suite du chapitre est
organisée comme suit.
Nous commençons par présenter la typologie des entités nommées ainsi que les
principales applications qui utilisent les entités nommées dans les sections 4.1 et 4.2
respectivement. La section 4.3 est consacrée à exposer les particularités de la langue arabe
liée à la détection des entités nommées. La section 4.4 est dédiée à présenter un aperçu sur les
travaux réalisés sur les systèmes de reconnaissance des entités nommées en arabe. Notre
approche de détection et de typage des entités nommées est décrite dans la section 4.5. La
section 4.6 est consacrée a détailler la méthode de reconnaissance des noms propres
(ENAMEX) de type personne, lieu et organisation. Nous présentons dans la section 4.7 la
reconnaissance des expressions numériques (NUMEX).

4.1. Typologie des entités nommées

L’intérêt des entités nommées réside dans le fait qu’elles sont présentes et fréquentes dans
tous les textes, tous types confondus, quel que soit le domaine. Elles constituent ainsi un
aspect essentiel à prendre en compte dans le traitement et l’extraction de l’information
contenue dans un texte. Dans la réalité, l’analyse d’un contenue de texte vise en général à
détecter les actants ainsi que les coordonnées les événements relatés. C’est le cas des analyses
de messages militaires ou des dépêches journalistiques portants sur des actes terroristes,

Page
96
économiques, etc. Lors de la conférence MUC-6, l’extraction et la reconnaissance des entités
étaient focalisées sur les trois types d’entités suivants :
 NAMEX : cette classe contient les noms propres qui peuvent être classé dans l’une
des catégories suivantes :
◦ Personnes : noms d’une personne comme ‫ جُون كنيدي‬guwn kinydy ‘John Kennedy’
◦ Organisation : raison sociale d’une société, banques, associations, universités, etc.
à titre d’illustration nous citons ‫يُونِي ْس ُكو‬yuwniskuw ‘Unesco’, etc.;
◦ Localisations : cette catégorie concerne les toponymes tels que les noms de pays,
villes, états, mers, océans, montagnes, fleuves, etc. Par exemple, ‫ال َجزَ ائِر‬Aljaza'ir
‘Algérie’, ‫اريس‬ ِ َ‫ ب‬baâriys ‘Paris’, ‫ البَحْ ر اِلَبْيض ال ُمتَوسّط‬el bahr elaabyad elmutawassit
‘La mer méditerranée’.
 NUMEX : contient les entités formalisées dans des expressions numériques de
pourcentage, taille, expressions monétaires, etc.
 TIMEX : concerne les entités exprimant le temps, la date ou une durée.
Nous pouvons résumer cette classification dans le schéma suivant :

Entités nommées

Noms propres Expressions Expressions

temporelles numériques

ENAMEX TIMEX NUMEX

Personnes Dates Mesures physiques

Organisations Heures Expressions

monétaires

Localisations Périodes Pourcentages

Figure 4. 1. Typologie des entités nommées (Mesfar, 2008)

4.2. Applications
L’utilisation de la reconnaissance des entités nommées diffère d’une application à une
autre : elle est parfois utilisée comme un module interne d’un outil de TAL servant à d’autres
modules, pour faire de l’analyse syntaxique ou de la désambigüisation lexicale par exemple ;
comme elle peut être utilisée comme une partie d’une chaîne de traitement avec une
application directe particulière. A titre d’illustration, voici quelques exemples d’applications
employant l’analyse des entités nommées :

Page
97
 Recherche d’Information (RI): RI est la tâche qui consiste à identifier et récupérer les
documents pertinents depuis une base de données selon une requête utilisateur
(Benajiba et al., 2009). L’utilisation de l’identification des entités nommées dans la RI
doit être faite par la reconnaissance de l’EN au niveau de la requête et au niveau des
documents à renvoyer. Les entités nommées sont extrêmement discriminantes et leur
présence dans une question est gage de résultat précis.
 Traduction Automatique (TA). TA est l’opération permettant de traduire
automatiquement un texte d’une langue naturelle source à une autre langue cible. Le
traitement des ENs est requis afin de faire une traduction correcte. Ainsi, la qualité de
la traduction des ENs devient une partie autonome qui améliore considérablement les
performances du système de TA. A titre indicatif, certaines entités nommées et des
mots possèdent la même forme orthographique mais ne jouent pas le même rôle dans
la phrase ce qui signifie que pour les mots une traduction intégrale du mot est requise
ce qui n’est pas le cas pour les ENs où seulement une translitération est nécessaire. Par
exemple, si nous voulons traduire le mot arabe ‘ ’‫خالد‬en Français, s’il s’agit d’un mot il
sera traduit en ‘éternel’ et s’il s’agit d’une EN il sera transcrit en ‘Khaled’. Nous
précisons que dans le cas où l’EN comprend un nom commun comme Mont Saint-
Michel, dans ce cas Mont est traduit alors que Saint-Michel est translittéré.

 Question-Réponse (QR). Les systèmes de QR peuvent être considérés comme une

application de recherche d’information avec des résultats sophistiqués. Ces systèmes
prennent en entrée des questions en langue naturelle et tentent de renvoyer en sortie
des réponses concises, précises et pertinentes. La reconnaissance des ENs peut être
utilisée dans ce système afin de mieux analyser les questions et d’identifier les d
réponses pertinents par rapport à la requêtes initiale. De ce fait, la prise en compte des
ENs est essentielle pour la compréhension de la question et le calcul de la réponse. Par
exemple, l’entité " ‫ "الشرق اِلوسط‬Aš-šarq Al-awsat" Moyen-Orient" peut être considérée
comme une Organisation (un nom de journal) ou comme un lieu en fonction du
contexte.

 Clustering de texte (TC). L’utilisation de la reconnaissance des ENs dans ce type

d’application peut être faite pour réaliser un classement des clusters générés en se
basant sur l’association du taux des entités associées avec chaque cluster. Cela permet
d’améliorer le processus d’analyse de la nature des clusters ainsi que l’approche de
clustering en fonction des caractéristiques sélectionnées.

 Analyse syntaxique. Cette analyse est une étape primordiale dans n’importe quelle
analyse de texte. Elle peut tirer profit de la reconnaissance des ENs (REN) à différents
niveaux de l’analyse, considérant ainsi cette reconnaissance comme un module dans la
chaine de traitement du texte. Au niveau de l’étiquetage morphosyntaxique et de la
segmentation la REN peut être utilisée pour identifier certaines entités complexes
contenant parfois des signes de ponctuation, ce qui entraîne un gain en temps et en
précision. Cette REN peut permettre aussi de diminuer les erreurs au niveau de
l’analyse syntaxique proprement dite, et notamment celles liées à la coordination des
entités. Enfin, les relations grammaticales (dépendances syntaxiques) peuvent être
enrichies en sémantique grâce aux ENs, par exemple dans la phrase ‘Ils se sont
rencontrés à Alger’, la détection de l’entité Alger permet de construire la
dépendance Localisation entre le verbe rencontrer et Alger à travers l’information
géographique qu’elle contient.

Page
98
4.3. Particularité de la langue arabe liée à la détection des entités
nommées
Les systèmes de reconnaissance des ENs en arabe sont confrontés à plusieurs chalenges.
La reconnaissance est d’autant plus difficile dans le cas de la langue arabe en raison de ses
particularités rendant l’identification des ENs plus difficile que pour les langues latines. Nous
décrivons ci-après, les principales caractéristiques menant à compliquer le traitement des ENs
et donnant un trait particulier pour les systèmes de REN pour l'arabe :

 Absence de la majuscule : la langue arabe, comme toute langue sémitique, est

caractérisée par le fait qu'elle ne dispose pas de la fonction de capitalisation, autrement
dit au niveau de son écriture elle ne fait pas la distinction entre les lettres majuscules et
les minuscules. Ce trait ne permet pas d’identifier facilement les ENs contrairement
aux langues latines où les ENs commencent généralement par une majuscule. Cette
absence de capitalisation en arabe n’empêche pas de l’utiliser lorsque nous
transcrivons ou nous traduisions des ENs écrites en arabe vers une langue latine
(comme le français ou l'anglais). Par conséquent, il faudra mettre la majuscule aux
noms propres de personnes, organisations, lieux, etc.

 Morphologie complexe et agglutination : la langue arabe a une structure

morphologique complexe. Elle est basée sur les systèmes de racines-schème et est
considérée comme une langue très flexionnelle et fortement agglutinée dans le sens où
un mot (lemme) peut être formé à partir d'une racine à laquelle nous pouvons ajouter
des préfixes, suffixes et des clitiques. Cette problématique doit être traitée afin de
faciliter le processus de détection des entités nommées dans les textes. A titre
d'exemple, les clitiques attachés au mot comme le proclitique '‫ 'و‬waw ‘et’ ou
l'enclitique '‫ 'ب‬bi ‘avec’ ou encore '‫ 'ل‬li ‘pour’ doivent passer par une étape de
prétraitement (analyse morphologique) pour segmenter les clitiques et extraire la
racine du mot.

 Absence des voyelles courtes et ambiguïté : les signes diacritiques ou ce que nous
appelons les voyelles courtes sont nécessaires pour la prononciation des mots en arabe.
L'arabe moderne est caractérisé par l'absence de ces signes diacritiques au sein des
textes ce qui est fréquent dans les articles de presse, livres, etc. Par conséquent une
forme de mot en arabe peut être voyellée de multiples façons, avec des significations
différentes en fonction du contexte où elle apparaît. Ce problème de la non-
vocalisation des textes peut engendrer un haut degré d'ambiguïté affectant les systèmes
de reconnaissance des entités nommées. En effet, les vocalisations acceptées pour une
forme d’un texte peuvent désigner des mots (déclencheurs) introduisant différents
types d'entités nommées. Par exemple, la forme non voyellée «‫ »منظمة‬peut avoir les
vocalisations suivantes avec des interprétations différentes :
 «‫ » ُمنَظَ َمة‬munaDamat ‘l'organisation’ : mot déclencheur d'un nom d'organisation;
 «‫ » ُمنَظِّ َمة‬munaDDimat ‘l'organisatrice’ : mot déclencheur d'un nom de personne.

 Problème de délimitation et polysémie : l'abondance dans les textes de mots

inconnus du dictionnaire demandant un découpage par l'analyseur morpho-lexicale,
c’est le cas des entités nommées, engendre des problèmes de délimitation des ENs. De
plus, cette difficulté est accentuée par la présence de formes polysémiques dans une
entité nommée. Pour illustrer ces propos, prenons la forme «‫( »أَ ْك َر ْم‬akram) qui peut
désigner un prénom masculin, une forme verbale fléchie (il a honoré) ainsi qu'un

Page
99
adjectif superlatif (le plus généreux). Par ailleurs, selon (Mesfar, 2008) il existe des
cas d'ambiguïté où l'entité nommée peut être confondue avec un nom composé ou un
fragment d'une phrase verbale. C’est le cas de la séquence «‫( »حافظ اِلسد‬haâfiz al-asad)
qui peut donner lieu aux trois analyses suivantes :

 Le nom d'une personne politique : '‫ 'الرئيس السوري حافظ اِلسد‬al-rayiys al-suwriy haâfiz
al-asad ‘le Président Syrien Hafedh Al-Asad’;
 Un nom composé :'‫ 'نطّف حافظ اِلسد القفص‬nazzafa haâfiz al-asad al-qafasa ‘Le gardien
du lion a nettoyé la cage’;
 Un fragment d'une phrase verbale :'‫ 'حافظ اِلسد على هيبته‬haâfaza al-asad 'ala haybatihi
‘Le lion a préservé sa dignité’.

 Variantes orthographiques : un autre facteur se manifeste, rendant la tâche de la

reconnaissance et typage des entités nommées plus difficile, réside dans l'absence
d'une norme commune (normalisation de l'orthographe) et d'une stratégie arabe unifiée
dans le domaine de la translittération des noms propres étrangers. Pour combler ce
manque, la prononciation des dialectes vernaculaires est utilisée comme base pour la
transcription des noms arabes. Par conséquent, un mot peut être transcrit en plusieurs
formes ayant un même sens et référençant le même mot. Ces différentes formes créent
bien évidemment des ambiguïtés supplémentaires pour le système des RENs. Par
exemple le mot ' ‫(جرام‬jrAm – Gram) peut être écrit aussi la forme ‫(غرام‬grAm) tout en
référençant toujours le même sens.

 Le manque de ressources linguistiques : la langue arabe se heurte au manque et

limitation du nombre de ressources linguistiques qui sont libres et à des fins de
recherche, et beaucoup de celles qui sont disponibles ne sont pas adaptées pour les
tâches de reconnaissance des entités nommées. Cette inadéquation est due à l'absence
d'annotation des entités nommées dans ces corpus ou à leur taille qui n’est pas parfois
suffisamment grande. Il y a également le problème de la rareté des Gazeeters arabes
qui sont généralement limités en taille. Pour contourner ces obstacles, les chercheurs
ont tendance à construire leurs propres ressources linguistiques afin d’alimenter et
évaluer les systèmes de reconnaissance des entités nommées en arabes.

4.4. État de l'art sur les systèmes de reconnaissance des entités

nommées en arabe
Les travaux sur la reconnaissance des entités nommées s'articulent autour de deux axes
: la détection de l'entité nommée (l'identification) et l’extraction de ces EN en les associant à
différents types prédéfinis. Dans cette section, nous présentons les deux axes en mettant en
avant pour la partie identification les indices manifestant la présence des ENs, ensuite nous
décrivons les principaux systèmes d’extraction de ces entités.

4.4.1. Identification des entités nommées

Selon (MacDonald, 1996) la classification d’un nom propre fait émerger deux types de
preuves complémentaires : interne (internal evidence) et externe (external evidence). Ces
deux types découlent des exigences de la sensibilité au contexte et permettent de détecter une
entité nommée dans un texte.

Page
100
[Link]. Les preuves internes
Elles sont dérivées de l'intérieur de la séquence de mots qui contiennent l'entité
nommée. Ce sont des mots (ou groupe de mots) indices correspondant à des abréviations, des
prénoms ou des sigles, appelés des « marqueurs lexicaux» ou « mots déclencheurs ». Ces
indices accompagnent et entourent les entités nommées et permettent généralement de
provoquer leurs catégorisation et prédire leurs présences. Elles peuvent être définies et
contenues dans des listes appelées gazetteers.
Voici quelques exemples illustratifs de ce type de preuve interne :
 ‫(هدى سعدان‬Houda Sâadane)
 ‫محمد‬III (Mohamed III)
 ‫(جبل عرفة‬le Mont Arafa)
 ‫(بنك سوسيته جنرال‬la Banque Société Génerale)
 ‫(شارع َلس فيغاس‬l'avenue de Las-Végas)

[Link]. Les preuves externes

La preuve externe est le critère de classification fournie par le contexte dans lequel le nom
propre apparaît. Les noms propres sont des façons de faire référence à des individus d’un
type spécifique (personne, église, groupe de rock, ...). Généralement, dans un entretien ou
discours, les auteurs enrichissent leurs textes avec des informations complémentaires sur les
personnes, lieux, organisations qu’ils citent afin d’aider les lecteurs et auditeurs à mieux
identifier ces entités. Par conséquent, ces informations peuvent alimenter et faciliter un
processus automatique de détermination de type d’un nom propre. C’est ainsi qu’un nom de
personne est souvent accompagné d’un titre ou d’un grade, et un nom d’organisation d’un
mot-clé de type classifiant comme c’est illustrer dans les exemples suivants :
 Mademoiselle Houda Saâdane
 Le professeur Mathieu Guidère
 Compagnie Air-Algérie

La preuve externe est nommée aussi contexte droit ou contexte gauche selon où elle se
trouve par rapport au nom propre dans le texte (à droite ou à gauche). Par exemple :
 ‫(مدينة باريس‬La ville de Paris – à droite du nom propre)
 ‫(بوتفليقة الرئيس الجزائري‬Bouteflika le président algérien – à gauche du nom propre)

De ce fait, les preuves externes se basent sur les relations syntaxiques au sein d'une phrase
pour attribuer la catégorie d'une telle entité. Cette catégorisation utilise les informations
morphosyntaxiques fournies par l'étape d'analyse morphologique. Elles sont nécessaires pour
de haute précision pour remédier au fait que les listes des mots prédéfinis ne peuvent jamais
être complètes.

En conclusion, la prise en compte de ces preuves internes et externes peut aider un

système de reconnaissance des entités nommées mais elle n'est pas suffisante. Un autre moyen
de compléter ces informations pour un système est le recours à des lexiques. Ces lexiques sont
des listes des mots auxquels sont associées des catégories sémantiques pour indiquer le type
de l'entité nommée (personne, lieu ou une organisation).

4.4.2. Systèmes de reconnaissance des entités nommées

Après l’identification des ENs, il faudra les extraire. Trois approches sont
couramment évoquées dans la littérature à savoir : l'approche à base de règle (appelé aussi
linguistique ou symbolique), l'approche statistique (dite aussi à base d'apprentissage) et

Page
101
l’approche hybride. Ces approches apportent des explications supplémentaires sur les
systèmes de reconnaissance des entités nommées. Dans la suite de cette section nous passons
en revue les différents systèmes ainsi que les principaux travaux réalisés pour la
reconnaissance des entités nommées en arabe.

[Link]. Les systèmes à base de règle

Cette approche est basée sur un ensemble de règles linguistiques et contextuelles

construites et écrites manuellement. De ce fait elle repose sur l’intuition humaine. Ces règles
prennent la forme de patrons d'extraction exprimés par une grammaire locale qui décrit les
modèles de correspondance pour les ENs. Ces modèles de correspondance utilisent d’une part
les preuves internes et externes fournies par le contexte où les ENs apparaissent, et d’autre
part exploitent les annotations fournies par l’étiquetage morphosyntaxiques en plus des
informations contenues dans des ressources comme les lexiques, dictionnaires ou encore
‘gazetteers’. Nous notons qu’il est nécessaire de savoir définir et attribuer les bonnes
frontières aux entités nommées. Les règles utilisées sont généralement formulées par des des
transducteurs à état finis (les expressions régulières).

Les premiers travaux sur la reconnaissance des ENs en arabe selon l’approche à base
de règles, datent de 1998 où (Maloney et Niv, 1998) ont développé un outil baptisé
'TAGARAB' qui repère les noms propres (Personne, Organisation, Lieu, Nombre et Heure)
selon une technique combinant un module filtrage par motif (pattern-matching) avec un
analyseur morphologique pour améliorer les performances. Les résultats des tests de cet outil
sur un ensemble de données aléatoires, issues du journal AI-Hayat, montrent que la
combinaison de la détection des ENs avec un analyseur morphologique permet d’améliorer
significativement la précision de la reconnaissance des ENs.

(Abuleil, 2004) a développé de son côté un système d'extraction des noms propres en
arabe fondé sur l'utilisation de règles écrites à la main et les déclencheurs. Le système
commence par sélectionner les phrases qui peuvent inclure des noms propres, ensuite il
construit des graphes qui représentent les mots de ces phrases et les relations entre eux et,
enfin, les règles sont appliquées pour repérer et classer les noms propres avant de les
enregistrer dans une base de données. Cette base de données peut servir au sein de systèmes
de questions-réponses par exemple. Le système d’Abuleil a été évalué sur un corpus de 500
articles de presse du journal Alraya donnant lieux à une précision moyenne avoisinant les
92%.
(Traboulsi, 2006) a présenté un modèle de reconnaissance des entités nommées, appelé
NExtract, utilisant la grammaire locale et les dictionnaires. Il a montré des résultats
satisfaisant de l’application de son outil sur une petite échelle avec le corpus Reuters. Cette
approche a été améliorée dans (Traboulsi, 2009) en combinant cette fois-ci la grammaire
locale avec des automates à état finis.
Les travaux de (Mesfar, 2007) ont permis la mise au point d’une composante arabe
sous un environnement linguistique, dénoté NooJ, pour traiter des textes arabes et faire la
reconnaissance des ENs. Cette composante effectue les traitements suivants : la tokenisation,
l'analyse morphologique et la détection des ENs. Le détecteur des ENs exploite un ensemble
de gazetteers et de listes d'indicateurs pour soutenir la construction de règles. Le système
identifie les ENs de type: personne, lieu, organisation et expressions temporelles. Il utilise
également les informations morphologiques pour extraire les noms propres inconnus et
améliorer ainsi la performance globale du système.
L'approche à base de règles pour la REN est aussi adoptée dans les travaux de

Page
102
(Shaalan et Raza, 2007) qui ont développé le système PERA. PERA est basé sur la grammaire
qui est construite pour identifier les noms de personnes dans les textes arabe avec un degré
élevé de précision. PERA est composé de trois éléments: des gazetteers, des grammaires
locales et le mécanisme de filtration. Les listes blanches de noms de personne sont fournies
dans le composant 'gazetteer' afin d'en extraire les noms correspondants indépendamment des
grammaires. Par la suite, le texte d'entrée est analysé par la grammaire donnant des
expressions régulières pour identifier le reste des entités nommées de type Personne. Enfin, le
mécanisme de filtrage est appliqué sur les ENs détectées par des règles grammaticales afin
d'exclure celles qui sont invalides. PERA a donné des résultats satisfaisants lorsqu'il était
appliqué sur les corpus ACE et Treebank.

Le système NERA (Shaalan et Raza, 2008; 2009) est une prolongation des travaux
précédents permettant de reconnaître d’avantage de types d’ENs. Il est aussi fondé sur des
règles et capable de reconnaître 10 types différents d’ENs : personne, localisation,
organisation, date, heure, ISBN, prix, mesure, numéros de téléphone et les noms de fichiers.
NERA a été mis en œuvre dans le cadre de la plateforme FAST ESP où le système comprend,
comme PERA, trois composants ayant les mêmes fonctionnalités pour couvrir les 10 types
d'ENs. De plus, les auteurs ont construit leur propre corpus de différentes ressources afin de
disposer d'un nombre représentatif de cas pour chaque type d’EN.
(Elsebai et al., 2009) ont proposé un système de REN intégrant le filtrage par motif (en
anglais pattern matching) associé avec l'analyse morphologique afin d’extraire les noms de
personne à partir des textes arabes. Le moteur de filtrage par motif utilise des listes de mots-
clés sans utiliser pour autant des listes prédéfinies de noms de personnes.

Les systèmes à base de règles ont été aussi investigués dans les travaux de (Zaghouani,
2012) qui a proposé le système RENAR pour extraire les entités nommées de type : personne,
lieu et organisation. RENAR est composé de trois phases: 1) prétraitement morphologique, 2)
la recherche des ENs connues et 3) l'utilisation de la grammaire locale pour extraire les ENs
inconnues. Les expérimentations ont montré que RENAR dépasse les performances de
ANERsys 1.0 (Benajiba et al., 2007), ANERsys 2.0 (Benajiba et Rosso, 2007) et LingPipe7
pour l'extraction des entités nommées de type Lieu lorsqu'il est appliqué sur l' ensemble de
données du corpus ANERcorp, tandis que LingPipe donne de meilleurs résultats que RENAR
lorsqu’il s’agit de l'extraction des ENs de type personne et organisation.

[Link]. Les systèmes Statistiques

L’objectif des systèmes à base d'apprentissage automatique (dits aussi statistiques) est
de réaliser le développement, l'analyse et l'implémentation de modèles d'analyse
automatisables par un processus d'apprentissage basé sur des volumes importants de données
(corpus annoté). Parmi les modèles les plus utilisés pour la reconnaissance des ENs nous
citons : l'entropie maximale (EM), les machines à vecteurs de support ou séparateurs à vaste
marge (en anglais Support Vector Machine, SVM), les arbres de décision, les règles logiques,
les modèles probabilistes, les chaînes de Markov cachées (HMM) ou encore les champs
aléatoires conditionnels (Conditional Random Field : CRF). Par exemple, un système
observant plusieurs fois la présence de l’abréviation «Mlle» devant un mot étiqueté comme
nom de personne dans le corpus d’apprentissage pourra facilement en déduire un modèle
d’analyse.

(Benajiba et al ., 2007) ont mis au point une première version d’un système de

7
LingPipe est un logiciel libre disponible sur [Link]

Page
103
reconnaissance des ENs pour l'arabe, appelé ANERsys. Ce système est basé sur une méthode
d'apprentissage statistique qui utilise un étiquetage fondé sur le maximum d'entropie (ME).
Les auteurs ont construit leurs propres ressources linguistiques qu’ils ont nommé ANERcorp
(corpus annoté) et ANERgazet (gazetteers). Le système utilise des traits lexicaux et
contextuels ainsi que des gazetteers. Il peut reconnaître quatre types d’ENs : personne, lieu,
organisation et divers. L'apprentissage automatique embarqué dans ANERsys a été effectué
sur un corpus de 125 000 mots. Dans le but d'améliorer les performances du système,
l’approche adoptée a été combinée à un lexique qui a été construit manuellement à partir de
plusieurs sites de nouvelles en ligne. Le lexique considéré comprend 1950 noms de lieux,
1920 noms de personnes et 262 noms d'organisations.

Cependant, cette version d’ANERsys présente des difficultés pour détecter les entités
nommées qui sont composées de plus d'un token. Pour résoudre ces difficultés, (Benajiba et
Rosso, 2007) ont développé une nouvelle version ANERsys 2.0, qui utilise un mécanisme de
prédiction pour la reconnaissance des ENs. Ce mécanisme est effectué en deux étapes : 1) la
détection des frontières (point du début et de la fin) de chaque EN en introduisant des
catégories morphosyntaxiques (POS), et 2) classification des entités nommées détectées en
précisant leurs types. (Benajiba et Rosso, 2008) ont introduit dans ANERsys l’application du
CRF à la place de EM afin d’améliorer les performances. Ce nouveau système basé sur les
CRF a permis d'explorer l'intégration de l'ensemble des traits dans un modèle unique et qui
mène à des résultats plus élevés en termes de précision.

Un autre système basé sur les CRF a été proposé dans (Abdul-Hamid et Darwish,
2010) pour la reconnaissance de trois types d’ENs : personne, lieu et organisation. Il intègre
un ensemble de traits intra-mots : n-grammes, la position des mots, la longueur des mots, la
probabilité de uni-gramme des mots, les mots précédant et succédant les n-grammes et la
probabilité des n-grammes. Cependant, le système ne tient pas compte de tout autre type de
traits. Le système proposé a été évalué à l'aide des corpus ANERcorp et ACE 2005. Les
résultats obtenus montrent que le système présente des précisions plus importantes que le
système de reconnaissance des entités nommées basée sur les CRF proposé par (Benajiba et
Rosso, 2008).

L’utilisation des SVM (Support Vector Machines) pour la reconnaissance des ENs a
été proposé dans (Benajiba et al., 2008a). Le système proposé emploie des traits contextuels,
lexicaux et morphologiques ainsi que des gazetteers, POS-tags et BPC. Il utilise également la
nationalité et la capitalisation correspondante en anglais. Le système a été évalué en utilisant
le corpus ACE et ANERcorp. Les meilleurs résultats sont obtenus lorsque tous les traits sont
pris en considération, et met en avant l'efficacité d'un prétraitement des textes pour segmenter
les différentes constituants d'un mot (proclitiques, lemmes et enclitiques).

Une autre approche combinant les deux méthodes d'apprentissage SVM et CRF a été
proposée dans (Benajiba et al., 2008b). En outre, le système utilise des traits lexicaux,
syntaxiques et morphologiques et une approche multi-classificateur où chaque classificateur
est conçu pour marquer une classe d’EN séparément en utilisant une des techniques SVM ou
CRF. Ce système a aussi été utilisé pour étudier la sensibilité des différents types d'EN par
rapport à plusieurs types de caractéristiques. L’évaluation de cette approche a été faite sur des
ensembles de données du corpus ACE et a obtenu une F-mesure de 83,5%. Un des principaux
résultats obtenus est le fait que nous ne pouvons pas trancher sur la supériorité d’une
technique sur une autre parmi celle utilisée (SVM et CRF) en matière de reconnaissance des
ENs. D'autres études, en l’occurrence (Benajiba et al, 2009a; 2009b) ont confirmé ainsi

Page
104
l'importance de tenir compte des caractéristiques spécifiques de la langue en arabe pour la
reconnaissance des ENs.

Une autre étude comparative des techniques d’apprentissage type Machine Learning
(ML) a été présentée dans les travaux de thèse de (Benajiba, 2009). Cette étude concerne la
reconnaissance des ENs en arabe et compare les approches telles que l'entropie maximale
(EM), Support Vector Machines (SVM) et Conditional Random Fields (CRF) en utilisant le
système ANERsys. Cette étude a conclu qu'aucune approche ML n’est considérée comme
meilleur que l'autre et que les meilleurs résultats ont été obtenus quand il a utilisé une
approche multi-classificateur où chaque classificateur utilise la meilleure technique de ML
pour la classe d'entité nommée spécifique.

Quant aux travaux de (AbdelRahman et al., 2010), ils ont intégré deux approches de
systèmes statistiques pour traiter les ENs arabe incluant le CRF et la reconnaissance des
formes d'amorçage. L’ensemble des caractéristiques utilisées avec le classificateur CRF inclut
des spécificités au niveau des mots, des POS tag, des BPC, les gazetteers et des
caractéristiques morphologiques. Le système est conçu pour extraire les 10 types d’EN :
personne, lieu, organisation, le travail, dispositif, voiture, numéro de téléphone portable,
devise, la date et l'heure. Les résultats des évaluations sur les données du corpus ANERcorp
montrent que le système proposé présente des performances meilleures que celle obtenues par
le système LingPipe.

[Link]. Les systèmes Hybrides

L'approche hybride consiste à combiner les techniques des systèmes à base de règles et
les techniques des systèmes statistiques. Cette combinaison a pour objectif de tirer profit des
avantages des techniques présentées dessus et d'optimiser la performance globale du système
(Petasis et al., 2001). Ces systèmes ont pour but l'enrichissement automatique des dictionnaires
avec des corpus beaucoup plus petits que ceux dont ont besoin les systèmes statistiques. La
direction du flux de traitements peut être du système à base de règles vers le système statistique
ou vice versa. Nous considérons trois systèmes hybrides pour la reconnaissance des entités
nommées mis au point récemment.

Le premier est développé par (Abdallah et al., 2012) offrant la capacité d'identifier les
entités nommées de types suivants : personne, lieu et organisation. Ce système comporte deux
composants : le premier est à base de règles qui est une ré-implémentation du système de
NERA (Shaalan et Raza, 2008) utilisant l'outil GATE, le deuxième est une composante-ML
utilisant des arbres de décision pour construire le classificateur des entités nommées. Chaque
token est représenté par un vecteur de caractéristiques incluant les décisions issues des règles
sous forme de propriétés. Les autres caractéristiques prise en compte sont : la taille du mot,
POS tag, indice du nom (une fonction binaire utilisée pour tester si un POS tag est un nom ou
pas), les gazetteers, marqueur de fin de proposition, les propriétés de préfixe et suffixe. Les
résultats expérimentaux, en utilisant les données du corpus ANERcorp, montrent que le
système hybride présente des performances meilleures que le système de reconnaissance des
ENs basé sur les CRF et construit par (Benajiba et Rosso, 2008).

Le deuxième système hybride proposé par (Oudah et Shaalan, 2012) traite la

problématique de la reconnaissance des ENs en largeur et en profondeur et nécessite des
investigations supplémentaires pour améliorer l’étendu des traitements et la performance
globale. Il est capable de reconnaître 11 types d’ENs dont : personne, lieu, organisation, date,

Page
105
heure, prix, pourcentage, numéro de téléphone, mesure, ISBN et le nom d’un fichier avec un
degré de précision assez élevé. Ce système utilise trois approches statistiques différentes,
incluant les arbres de décision selon (Orphanos et al., 1999), SVM introduite dans (Vapnik,
1995) et la régression logistique présentée dans (Hastie et al., 2009). Ces approches
s’appuient sur différents caractéristiques, incluant l'information contextuelle et
morphologique, utilisées pour former différentes combinaisons afin de trouver les ensembles
de traits avec des performances optimales.

Plus récemment (Gahbiche-Braham et al., 2013) ont aussi proposé un système de

reconnaissance des entités nommées (NERAr). Le système distingue trois types d'EN :
Personne, Lieu et Organisation. Il est basé sur des outils d'apprentissage automatique et utilise
le modèle des champs markoviens conditionnels (CRF), tels qu'implémenté dans l'outil
Wapiti. Cette implémentation permet d’utiliser de très gros modèles incorporant des centaines
d’étiquettes et des centaines de millions de descripteurs et de sélectionner les descripteurs les
plus utiles par le biais d'une pénalité L1.

Une représentation BIO (Begin, Inside, Outside) est utilisée pour limiter les frontières
d'EN et le modèle développé prédit à chaque position une des dix balises différentes. Le
système est capable de segmenter le texte, repérer les ENs et proposer des traductions de ces
EN à partir de dictionnaires bilingues. Les expériences ont été réalisées sur le corpus ANER
(benajiba et al., 2007). Une adaptation non supervisée de NERAr a été également explorée
afin d'adapter l'outil de détection des ENs au type de données traitées.

À l'instar des autres systèmes de repérage des ENs à base de règles mentionnés
précédemment, l'extraction et le typage des ENs avec notre système est fondée principalement
sur un lexique, sous forme de dictionnaires, et sur un ensemble de règles de repérage, sous
forme d'expressions régulières faites à la main. En plus de ces opérations conventionnelles,
notre système effectue une analyse syntaxique supplémentaire afin de regrouper les éléments
qui composent l’EN et à typer celle-ci. Cette étape exploite les relations syntaxiques de
dépendance et sur les ENs simple typées. Elle implique les opérations suivantes :
l'attachement et l'étiquetage. Nous rappelons que l’attachement concerne la détermination si
deux mots (ou entités nommées) sont connectés directement ou pas, en d’autre termes, c’est
l’identification d’un lien direct de dépendance syntaxique entre deux mots de la phrase par la
mise en avant d’une relation syntaxique entre la tête (gouverneur) et le mot dépendant (régie).
Quant à l’étiquetage, il consiste à regrouper les dépendants syntaxiques et annoter la relation
identifiée par un nom référant à une famille (ou type) de constructions syntaxiques d’une
langue donnée.

4.5. Approche proposée pour la reconnaissance des entités nommées

Afin de prendre en considération les contraintes imposées par les spécificités de la
langue arabe, nous avons développé un système de reconnaissance d'entités nommées basé sur
les automates à états finis pondérés. Ces automates effectuent plusieurs fonctions comme
l'analyse morphologique, l'analyse syntaxique des textes ainsi que la désambiguïsation.
L’architecture de notre système de reconnaissance est présentée dans la figure (4.2) comme
suit :

Page
106
Tokenization

Un mot du texte

Lexique des formes Analyseur Grammaire

simples fléchies morphologique morphologique

Informations linguistiques
associées à la forme reconnue

Analyseur syntaxique

Texte brute en arabe Identification des relations

syntaxiques

Gazetteers (lexique) Système de Application des règles

reconnaissance des EN

Entités nommées identifiées

Figure 4. 2. Processus de reconnaissance des ENs

Le système commence par une phase classique de saisie du texte à analyser qui est introduit
sous une forme brute. Le texte introduit subit ensuite les traitements suivants :
 une tokenization du texte
 une segmentation des formes agglutinée en morphèmes
 la désambiguïsation
 à un étiquetage morphosyntaxique.

Ces différentes opérations forment l’analyse morphologique que reçoit le texte en entrée,
et renvoient en sortie des formes canoniques segmentées, à travers l’identification des
proclitiques et des enclitiques rattachés à ces formes et ainsi que la forme normalisée de
chaque mot du texte : par exemple les verbes sont normalisés dans leur forme à l'infinitif, les
noms au singulier, les adjectifs au masculin singulier, etc. Ces formes sont fournies avec
version étiquetée. L'étiquetage a pour objectif de produire les catégories grammaticales d'un
mot ou d'un groupe de mots dans une phrase donnée (noms, verbes, conjonctions) en plus des
informations morphologiques (genre, nombre, personne) associé à cette forme.

Page
107
Ensuite, les formes produites par analyse morphologique passent dans notre système
d'analyse syntaxique. Les automates syntaxiques établissent des relations syntaxiques de
dépendance typées entre les mots, en s'appuyant surtout sur leurs catégories et sur leurs
propriétés. En ce qui concerne, les entités nommées, ils mettent en évidence les liens entre les
mots au sein des groupes nominaux, permettant ensuite d'identifier une entité nommée, même
lorsque son annonceur est éloigné du nom propre. Nous avons spécifié quelques types de
relations afin de mieux repérer les entités nommées. Par exemple :
 PrenomNP : elle désigne les relations entre un prénom et un nom de personne, avec la
tête le nom de famille et le prénom étant le dépendant de la relation.
‫هُدَى َس ْعدَان‬
Houda Sâadane
(Prenom) (NP)

 AnnpNP entre un annonceur et un prénom ou un nom propre, comme une tête le nom
propre seulement s'il s'agit d'un nom de personne dans les autres cas c'est l'annonceur
qui est considéré comme la tête.
ُ َ ُ‫(ال ُد ْكت‬le docteur Houda)
‫ورة هدَى‬
al+dukturat+u Houda
DEF+(annp)+NOM (Prenom)

 AnnpAdj désigne les relations entre un annonceur et un adjectif, comme une tête
l'annonceur et l'adjectif est le dépendant de la relation syntaxique.
ُّ‫( ال َّرئِيسُ ال َج َزائِ ِري‬le président algérien)
al+ra'iss+u al+jazaA'iriyy+u
DEF+(annp)+NOM DEF+(ADJ)+NOM
 AnnpRelNom (complément de nom) désigne une relation entre un annonceur et un
nom (complément d'un nom), par exemple :
‫(وزي ُر الدول ِة‬le ministre d’état)
waziir+u –compN → al+dawlat+i
(annp)+NOM DEF+(N)+GEN

Outre les informations morphosyntaxiques associées aux formes obtenues et aux relations
syntaxiques détectées, notre système, à l’instar des autres systèmes de REN à base de règles,
exploite deux types de ressources linguistiques :

 Les Gazetteers (lexique) : il s’agit d’un ensemble de dictionnaires proposant des

listes de marqueurs lexicaux. Ces marqueurs présentent des preuves internes et
externes, proposés par (McDonald, 1994), permettant l’identification d’une
potentielle EN dans un texte. Dans notre analyse nous nous intéressons au deux types
de marqueurs suivants :
 Les déclencheurs : ce sont des mots ou des catégories provoquant la détection
d'un nom propre. Ces déclencheurs sont définis dans notre système par une
liste finie de mots ou catégories intégrable dans les règles. Par exemple les
noms de familles sont considérés comme déclencheurs pour la détection des
prénoms.
 Les annonceurs : ce sont des mots suivant ou précédant un nom propre faisant
partie d'une EN. Ils peuvent être des mots qui désignent un métier, le titre d'une
personne, un type de lieu, d'organisation, etc. Ces annonceurs sont répertoriés
dans des listes spécifiques et possèdent une catégorie grammaticale « annp ».
Ces différents marqueurs sont utilisés pour identifier les types d’entités nommées

Page
108
réparties dans des dictionnaires appropriés à ces catégories. Parmi ces dictionnaires,
nous citons :
d. Noms de personnes : contient les prénoms arabes et prénoms étrangers transcrits;
e. Noms de lieux : stocke les noms de pays, villes, états, mers, océans, fleuves, etc.
f. Nom d'organisation : mémorise les noms d'organisations, d’associations
internationales, d’universités, de télévisions, etc.
g. Expressions monétaires : dédié aux noms de monnaies et leurs subdivisions;
h. Expressions temporelles : contient les noms de jour, plusieurs listes de noms de
mois, etc.
 Les règles : ce sont des règles écrites manuellement et décrites par des expressions
régulières (Regular Expression). Elles sont utilisées pour la détection des ENs en se
basant sur les marqueurs, déclencheurs et annonceurs, provenant des Gazetteers pour
retourner en sortie des informations linguistiques comme le type de l'entité nommées
identifiée (nom de personne, lieu, etc.) Permettre ensuite le typage des ENs et elles
permettent aussi l'identification des bornes (dites aussi frontières) des ENs complexes.
Ces règles regroupent aussi l'ensemble des éléments d'une même entité nommée,
permettant de représenter des séquences de mots formant une EN.

La phase finale consiste à regrouper les éléments qui composent l'EN et à typer celle-ci.
Cette étape repose sur l'exploitation des relations syntaxiques de dépendance typées au sein
des syntagmes nominaux lors de l'analyse syntaxique et sur les ENs simple typées lors de la
reconnaissance des entités nommées. Dans un premier temps, un automate repère un nom
propre ou un annonceur dans la phrase donnée. Un autre automate parcourt toutes les relations
qui ont comme tête ce nom propre ou cet annonceur en prenant en compte les types des
relations syntaxiques et la position du nom propre ou de l'annonceur dans celle-ci. Nous les
récupérons jusqu'à rencontrer un nom propre, un annonceur, ou bien une frontière de groupe
nominal. Il convient de signaler que certains types de relations ne peuvent pas faire partie
d'une entité nommée, comme les relations identifiées entre un sujet et un verbe.

Nous notons que l’ordre d’application de ces règles est très important afin de bien repérer
les ENs simples ou complexes. Notre stratégie de repérage se base sur l’application d’abord
des règles concernant les entités les plus longues et plus complexes, ensuite l’application de
celles concernant les entités simples. Cette stratégie est motivée par le fait de détecter les ENs
complexes en premier nous évite les cas de repérage partiel de ces ENs. L’ordre d’application
concerne aussi le type des entités : par exemple nous détectons en premier les ENs de type
personnes qui figurent déjà dans le dictionnaire de noms et de prénoms. Ce choix
d’application est due au fait que trouver en même temps le nom et le prénom d'une personne
dans le dictionnaire, nous donne la certitude que l'EN en question est bien détectée. Il y a
aussi le problème de chevauchement de règles entre les règles des noms de personnes et celui
des organisations qui justifie aussi notre approche d’application des règles. Enfin nous
signalons que pour l’identification des entités de type numérique et temporel, nous les
repérons dans une étape ultérieure séparée pour des raisons techniques liées à notre système
de détection des ENs.

4.6. Reconnaissance des noms propres – ENAMEX

4.6.1. Les noms de personnes
La première catégorie des noms propres que nous présentons concerne les noms de
personnes. Dans cette partie nous introduisons les différentes structures que peut prendre un
nom de personne en arabe ensuite nous exposons notre technique de détection de ce type
d’EN.

Page
109
[Link]. Structure des noms de personnes :
On sait à cet égard que le nom d’une personne contient plusieurs éléments en arabe. Il est
constitué en principe de six composants principaux (Zaghouani, 2009; Saâdane et al., 2012):
 La « Sifa » (titre) : il s'agit d'un titre honorifique, par exemple Imam (‫)إمام‬,
Sheikh,(‫)الشيخ‬, Lalla (‫)َللة‬, Sidi (‫ )سيدي‬etc..
 La « Kunya » (particule d’usage) : généralement composée de « Abou » (père de…),
suivi du nom d’un enfant ou bien de « Oum » (mère de + nom d’un enfant de la
famille). Exemple : « Abou Omar » (Père d’Omar), «Oum Mohamed» (Mère de
Mohamed), etc.
 Le « Ism » (Prénom) : il peut être simple ou composé, par exemple, Omar, Ali,
Mohamed, Khaled, Abd allah, etc. Il indique parfois l’origine ethnique ou
confessionnelle de celui qui le porte : par exemple, « Omar » est un prénom
typiquement sunnite ; « Rustam » est un prénom typiquement iranien ; « Arslan » est
typiquement turc, etc.
 Le « Nasab » (particule généalogique) : chaque nom est précédé par « Ibn » ou
«Bin/Ben» («Bint/Bent» pour les femmes). Il indique la filiation généalogique exacte
de l’individu concerné. Les Arabes remontent parfois très loin dans l’indication des
ancêtres pour éviter les confusions entre personnes : ex. Muhammad Bin Abdallah Bin
Salih Bin Said, etc.
 La « Nisba » (suffixe d’origine) : ce suffixe renvoie en principe à la tribu ou au clan
dans la généalogie ancienne mais aujourd’hui, il désigne surtout le lieu de naissance
des individus : Maghribi (né au Maroc), Libi (né en Libye), Masri (né en Égypte), etc.
La « Nisba » est toujours précédée de l’article « Al-» et se termine par le suffixe « i ».
Elle indique la résidence territoriale initiale des personnes, ou encore leur nationalité.
Il existe des règles de formation de la Nisba qui sont plus complexes comme dans le cas
où les noms communs composés de deux ou trois lettres. Prenons les exemples suivants :
▪ Le nom commun ‫حي‬Hay ‘vivant’ se transforme en la Nisba ‫الحيوي‬Hayawi ‘le
vivant’.
▪ Le nom propre ‫'(علي‬alyi) se transforme en la Nisba ‫العلوي‬Al-alawiy ‘celui qui
appartient à la secte des Alaouites’, avec l'ajout de la lettre Iwl et la voyelle courte
Ii/.
 Le « Laqab » (nom de famille) : C’est un mot attribué à une famille pour la distinguer
parmi les autres familles. Dans la langue arabe, le Laqab réfère généralement, en plus
du nom de famille, à une classe sociale ou simplement à une description physique ou
morale d'une famille donnée. Par exemple le nom de famille ‫اِلكحل‬Al-akHal qui veut
dire ‘le noir’ ou ‫حافي راسو‬HAfi-Rassou qui signifie ‘celui qui est le crâne rasé’.

[Link]. Identification des noms de personnes

Nous rappelons qu’une bonne partie des systèmes de reconnaissance des entités nommées
se basent sur l'utilisation de lexiques spécialisés. D'après (Fourour, 2002), ces lexiques sont
composés d’éléments pouvant jouer un ou plusieurs rôles dans une phrase :
 EN : entité nommée connue comme ONU, Djamel, etc.
 Mot déclencheur : élément faisant partie de l'entité nommée à l’instar des mots
Organisation, Avenue
 Contexte : représente l’élément appartenant au contexte gauche immédiat de l'EN,
mais ne faisant pas partie de celle-ci, comme c’est le cas des mots docteur, algérien,
etc.
 Fin d'EN : c’est l'élément qui est la dernière forme composant l'entité nommée :
handball, national, etc.
 Eléments d'EN : c’est tout élément lexical pouvant faire partie de l'EN, sans pour

Page
110
autant permettre la délimitation ou la catégorisation de l’EN.

La première étape de notre approche consiste à construire les ressources d’EN en

élaborant, manuellement et automatiquement, un dictionnaire à partir des ressources
textuelles (pages web par exemple), des listes issues des gazetteers ANERgazet2 8 proposées
par (Benajiba et Rosso, 2007), les ressources se trouvant dans la basse de données
géographique GeoNames9 qui contient des lieux géographiques contenant des noms de
personnes, et le lexique proposé par Attia10. Pour les deux premières ressources textuelles,
nous avons effectué une fouille manuelle des textes. Cette étape nous a permis de collecter et
de sélectionner dans une liste de noms et de prénoms potentiels qui seront triés
automatiquement par la suite afin d’éliminer les doublons. Nous avons utilisé aussi un
translittérateur des noms propres pour translittérer les noms propres qui proviennent d'autres
dictionnaires latins (essentiellement ceux utilisés au sein de l'entreprise GEOLSemantics).
Cette ressource est construite afin de faire l’association de chaque entité à une ou plusieurs
étiquette(s) sémantique(s) rendant compte de certaines caractéristiques du ou des référents
possibles de l’entité. Par exemple associer à l’entité Charles-de-Gaulle les étiquettes
suivantes : nom de personne, lieu, organisation, édifice. Cette étape, nous a permis
l'élaboration d'un dictionnaire de prénoms et de noms de famille qui contiennent 9000
prénoms arabes et prénoms étrangers transcrits reconnaissables par le biais de l'étiquette
<+Prenom> ou <+NP> respectivement. Les entrées de ce dictionnaire sont de la forme
suivante :
 ‫` ُح ْسنِي ُح ْسنِي‬+prenom'`+m'
 ‫`شَا ِهيْن شَا ِهيْن‬+prenom'`+m'
 ‫` َس ْعدَان َس ْعدَان‬+np'

Outre les entrées simple, ce dictionnaire contient aussi les formes composées telles que :
 ‫نُور الدِّين‬ ‫`نُور الدِّين‬+prenom'`+m'
 ‫َعبْد الرَّح َمن‬ ‫` َعبْد الرَّح َمن‬+prenom'`+m'

Pour la reconnaissance des compositions de prénoms, souvent présentes dans les prénoms
arabes introduits par les éléments lexicaux tels que (ibn – le fils de), (bin – le fils de), etc.,
nous avons construit une règle qui identifie la particule (ibn, bin, etc.) suivi par le prénom afin
d'extraire l'EN.

En ce qui concerne les annonceurs nous avons construit une liste de mots utilisés pour le
repérage des noms de personnes tels que les noms de professions, les titres, etc. Ces listes sont
utilisées pour la reconnaissance des noms de personnes ainsi que la catégorisation de celles-ci.
Cette liste des mots déclencheurs a été créée manuellement sur la base de nos connaissances
linguistiques et de nos observations faites sur des corpus. Par exemple, la présence d'une
mention à une fonction politique tel que ‫ الوالي‬Al-walyi ‘le préfet’ avant un nom de personne
nous confirme la présence d'un syntagme nominal désignant un nom de personne même en
cas d'omission ou d’absence de son prénom qui lui correspond dans le dictionnaire des
prénoms.

La détection des noms de personnes a nécessité le plus grand nombre de règles à écrire
par rapport aux autres types d’EN. La raison de cette complexité est principalement due aux

8
Téléchargeable depuis le site : [Link]
9 [Link]
10
[Link]

Page
111
nombreuses possibilités de combinaisons entre les différents annonceurs et déclencheurs. Les
règles écrites décrivent aussi bien les contextes potentiels de droite que de gauche.

Les règles de détection exploitent aussi le dictionnaire des adjectifs de nationalité utilisés
dans des expressions telles que ‫ الرئيس الجزائري عبد العزيز بوتفليقة‬Alra’iys Al-gazaâ’iriy 'abd al-
'aziyz buwtafliqah ‘le président algérien Abdelaziz Bouteflika’. Une nationalité isolée, se
trouvant sans un prénom ou un nom propre, ne peut pas être utilisée pour identifier un nom
propre.

Une étude effectuée par (Mesfar, 2008) sur les articles journalistiques du journal (Le
Monde Diplomatique), a remonté les statistiques suivantes au sujet des noms de personnes
comme suit :
1. 70% des noms de personnes sont accompagnés d'un contexte droit ou gauche, sous
forme interne ou externe, contenant une civilité, un titre, un nom de profession ou un
gentilé.
 L'entité nommée est accompagnée d'un contexte droit uniquement : cette situation
représente 60% des cas.
 L'entité nommée est accompagnée d'un contexte gauche uniquement : à titre
d'exemple : ‫‘معمر القذافي؛ الزعيم الليبي‬Mu'amar ghadhaffi; le leader libyen’.
 L'entité nommée est accompagnée d'un contexte droit et un contexte gauche
2. 18% des noms de personnes n'ayant pas de contextes descriptibles contiennent un
annonceur apporté par un prénom appartenant aux dictionnaires
3. 11% des noms de personnes sont sans contexte. Ces noms sont principalement ceux de
personnes déjà citées dans le texte ou ceux de personnes très connues pour lesquels
l'auteur du texte estime qu'il n'est pas nécessaire de préciser ni le prénom, ni le titre, ni
la profession tel est le cas pour Picasso ou Mozart.

Nous illustrons dans ce qui suit quelques exemples de règles d’extraction des noms de
personnes. Ces illustrations sont faites en utilisant les expressions régulières pour faciliter la
lecture et la compréhension des règles.

 $firstname+ $lastname+ → <en entype=’’pers’’>

Cette règle détecte les ENs qui commencent par un prénom suivi immédiatement par
un nom de famille et syntaxiquement liés par une relation de dépendance de type
PrenomNP. Le prénom et nom détectés sont référencés dans les dictionnaires des
prénoms et noms de familles, et leur recherche est faite dans ces dictionnaires par
l’appel des fonctions firstname et lastname respectivement.

 $title $adj_nationality? [$ firstname* $lastname ] → <en entype=’’pers’’>

Cette règle permet la détection des ENs complexes : l’EN identifiée par cette règle
commence par un annonceur de fonction politique suivi d’un éventuel adjectif de
nationalité et de zéro ou plusieurs prénoms et d’un nom de famille. Cette règle
identifie des ENs comme celle de la phrase suivante : ‫الرئيس الجزائري عبد العزيز بوتفليقة‬
Alra’iys Al-gazaâ’iriy 'abd al-'aziyz buwtafliqah ‘Le président algérien Abdelaziz
Bouteflika’. Pour investiguer l’EN de cette phrase, la règle linguistique commence par
chercher le prénom ‫(عبد العزيز‬Abdelaziz) dans le dictionnaire des prénoms, ensuite
cherche le nom suivant (Bouteflika) dans le dictionnaire des noms de famille.
L'automate vérifie s'il existe un annonceur de personne dans la phrase. Si c'est le cas,
l'automate parcourt la liste des mots de la phrase, pour récupérer toutes les relations
syntaxiques qui ont comme tête cet 'annonceur'. Ces relations remontées ainsi que les

Page
112
éléments liés avec l’annonceur sont parcourus après par l’automate jusqu'à ce qu'il
trouve un nom propre (dans ce cas, il s'agit d'une EN), ou bien qu'il n'y ait plus de
relation. L’analyse syntaxique de la phrase citée donne le schéma de la figure (4.3).
Les relations détectées sont
 AnnpAdj : désigne la relation modificative entre l’annonceur (‫ الرئيس‬- le
président) et l’adjectif (‫ الجزائري‬- algérien), tout en considérant l’annonceur
comme la tête de la relation syntaxique et l’adjectif étant le dépendant.
 PrenomNP : relation entre le prénom ‫( عبد العزيز‬AbdAziz) et le NP ‫بوتفليقة‬
(Bouteflika) avec le NP comme tête de la relation
 AnnpNP : désigne la relation syntaxique qui relie l'annonceur (président) avec
le NP (Bouteflika) avec comme tête le nom Bouteflika

AnnpNP

PrenomNP AnnpAdj

‫بوتفليقة‬ ‫عبد العزيز‬ ‫الجزائري‬ ‫الرئيس‬

Bouteflika AbdAziz Algérien Président

+prénom +adj+nat
Figure 4. 3. Analyse syntaxique de la phrase ‫الرئيس الجزائري عبد العزيز بوتفليقة‬

Le résultat de l’application de la règle est donné dans la figure (4.4).

 $ {title} $ {adj_nationality?} ${ firstname } ${unknown} → <en entype=’’pers’’>

Cette règle est appelée dans le cas où le nom de famille ne figure pas dans le
dictionnaire lors de l’application de la règle précédente. Par exemple, si dans la phrase
: ‘‫’الرئيس الجزائري عبد العزيز بوتفليقة‬, le nom de famille ‫( بوتفليقة‬Bouteflika) n’est pas
détecté dans le dictionnaire alors cette règle est appelée et commence par détecter
l’annonceur lexical de type titre (dans cette phrase c’est le mot ‫‘ الرئيس‬le président’,
ensuite la règle tente de détecter d’éventuel adjectif de nationalité (dans l’exemple
c’est le mot ‫( الجزائري‬algérien), après l'expression {firstname} permet de repérer un
prénom connu comme le prénom ‫عبد العزيز‬dans notre cas. Enfin, l'emploi de
l'expression de repérage des mots inconnus {unknown}, permet de repérer le nom de
famille Bouteflika et de terminer l'opération de repérage de cette EN.

Page
113
Figure 4. 4. Les résultats d’application de règle d’extraction sur la phrase
‫الرئيس الجزائري عبد العزيز بوتفليقة‬

Page
114
4.6.2. Identification des lieux
Pour la reconnaissance des noms de lieu, nous suivons la même stratégie que celle utilisée
pour les noms de personnes. Tout d'abord, nous commençons par recueillir la liste des preuves
internes (noms de lieux) en se basant sur les mêmes ressources déjà mentionnées. Nous
notons que les ressources concernant les lieux géographiques dans le monde sont plutôt stables
et généralement il convient de construire une liste des noms de lieux les plus connus, comme les
noms de pays et ceux des principales villes dans le monde. Dans notre dictionnaire nous avons
considéré en plus des noms de pays et de villes les noms de montagnes, de rivières, etc. En plus
de cette liste de lieux, nous avons ajouté la liste de gentilés déjà utilisée pour la
reconnaissance des noms de personnes. Voici quelques exemples de lieux issus de notre
dictionnaire :

 Les pays : ‫الج َزائِر‬َ ‫`ال َج َزائِر‬+NP'`+LOC'`+COUNTRY'

 Les villes : ‫َعنَابَة‬ ‫` َعنَابَة‬+NP'`+LOC''
 Les mers :‫البَحْ ر اِلَ ْبيَض ال ُمت ََوسِّط‬ ‫`البَحْ ر اِلَ ْبيَض ال ُمتَ َوسِّط‬+NP'`+LOC'`+MER'

Ensuite, nous avons énuméré une liste de 85 annonceurs de lieux (mots déclencheurs)
comme : ‫دَوْ لَة‬dawlat ‘pays’, ‫ َم ِدينَة‬madiynat ‘ville’, ‫َارع‬
ِ ‫ش‬šaAri' ‘Avenue’, ‫ َسا َحة‬saHat ‘Place’,
‫نَهْر‬nahr ‘fleuve’, ‫ َجبَل‬jabal ‘mont’, etc. Ces marqueurs lexicaux sont utilisés comme des
éléments dans les règles de reconnaissance.

Les règles de reconnaissances des lieux, éditées manuellement, permettent d’identifier et

typer les ENs quelle que soit la simplicité ou complexité de leur structure. Ces règles sont
basées sur les ressources décrites ci-dessus en plus et des relations syntaxiques. Voici les cas
d’EN pour lesquelles nous avons élaborées des règles de reconnaissance des ENs de lieux :

 Les noms de lieux avec preuve interne uniquement : tels que : ‫ فَ َر ْن َسا‬faransa ‘France’.
 Les noms de lieux avec preuve externe : tels que : ‫ َم ِدينَة َو ْه َران ال َج َزائِ ِريَّة‬madiynat
wahran al-jaza'iriya ‘la ville algérienne d'Oran’, République Démocratique de Congo.
 Les noms de lieux accompagnés d'un point cardinal : tel que : ‫ جنوب شرق آسيا‬januwb
šarq AsyaA ‘Sud-Est de l’Asie’.
 Les noms de lieux accompagnés de noms de personnes : tels que : ‫ حي فضيلة سعدان‬Hay
FaDiylah SaadaAn ‘Cité de Fadhela Saâdane’, ‫ شارع محمد البوعزيزي‬šaAri’ MuHamad
al-bu3ziyziy ‘Avenue Mohamed Bouazizi’.
 Les noms de lieux accompagnés de dates 532. ‫ ماي‬7 ‫حة‬ َ ‫ َسا‬saHat 8 mai 1945 ‘Place du
8 mai 1945’.

4.6.3. Les noms d'organisation

[Link]. Structure des noms d'organisation

Les noms d’organisation représentent une partie assez importante de l’ensemble des ENs
et sont caractérisés par leurs variétés et par leur durée d’utilisation (apparition et disparition)
qui dépend de la situation dans le monde. Ces caractéristiques rendent l’identification de ces
noms d’organisation assez difficile et par conséquent la tâche de reconnaissance des ENs de
type organisation semble délicate. Différents facteurs se conjuguent pour rendre l’identification
des ENs délicats, parmi lesquels nous citions :

 L’utilisation de ces noms d’organisation peut être avec ou sans annonceur. Ceci
entraîne une alternance entre l'usage d'une forme longue et d'une forme courte de son

Page
115
nom. Par exemple (mwunaZamat aalaaumam al muttahidal « Organisation des Nations
Unies» qui est une forme longue, peut exister dans un autre texte avec une forme plus
courte comme /alaaumam aalmuttahidal « les Nations Unies ».

 La structure des noms d'organisation en arabe, à l'instar des autres langues, peut être
simple (contenant un seul mot) ou complexe (contenant deux mots ou plus).

 Les noms d’organisation en arabe peuvent combiner dans leur structure des mots
arabes avec des mots en provenance d’autres langues (essentiellement du français ou
de l’anglais). C’est le cas du nom de l’organisation ‫ رأس الخيمة سيراميكس‬Raas aal khay-
mat siramyiks.

 Des noms d’organisation peuvent parfois être formés simplement du nom et du

prénom d’une personne, ce qui crée une ambiguïté sur la nature de l’EN. Sans
éléments contextuelles cette ambigüité est très difficile à résoudre.

Dans le tableau suivant, (Zaghouani, 2009) a résumé des cas d'utilisation des noms
d’organisations dans les textes arabes.

Modèle du nom propre Exemple avec Traduction littérale

d'une organisation translittération de l'arabe
Nom de personne ‫( منى إبراهيم‬muna ibrahiym) Mona Ibrahim
Nom de personne + type de ‫( المدني تايلورز‬aal madanyi tay- Les tailleurs Al Madani
profession en anglais lwurzl)
Nom commun simple ‫( تبريد‬tab-ryid) Refroidissement
Nom de personne + type ‫( رأس الخيمة سيراميكس‬Raas aal Les céramiques Ras Al
de produit khay-mat siramyiks) Khaima
Nom composé ‫( مطار دبي الدولي‬mataar dubay L'aéroport international de
complètement en arabe aal dualyi) Dubaï
Nom de personne + type ‫( محمد داوود بياس أوتو‬Muhamm- Mohamed Daoud pièces auto
de produit id dawud biyaas aauTu)
Usage de l'arabe et ‫( شركة حبة البركة و كو‬sharikat La société Habbat al baraka
l'anglais en même temps habbat aal barakat aand kwu) & compagnie

Tableau 4. 1. Illustration de quelques noms d'organisation en arabe

[Link]. Identification des noms d'organisation

L'identification des noms d'organisations, des compagnies et des noms des gouvernements
commence par l'élaboration d'un dictionnaire contenant environ 1000 noms d'organisations
telles que ‫ سوناطراك‬sounaAtraAk ‘Sonatrach’ ou ‫ جامعة الدول العربية‬jaAmi’at al-duwal al-
‘arabiya ‘Organisation des Nations Unies’. Ces noms sont reconnaissables par le bais de
l'étiquette <NP+ORG>. La forme des références contenues dans notre dictionnaire sont
comme suit :
 ‫رويترز‬ ‫`رويترز‬+np'`+org'
 ‫سي‬5‫بي‬5‫بي‬ ‫سي‬5‫بي‬5‫`بي‬+np'`+org'

La seconde étape consiste à recenser une liste de déclencheurs (au nombre de 48). Parmi
ces déclencheurs nous citons : ‫منظمة‬munaDamat ‘organisation’, ‫مؤسسة‬muwassassat

Page
116
‘compagnie’, ‫شركة‬šarikat ‘société’, ‫جمعية‬jam'iyyat ‘association’, etc. Ces déclencheurs sont
utilisés pour la description des règles de reconnaissance. Parmi les cas identifiés par ces règles
nous citons :

 les noms d'organisations avec une preuve externe simple tel que : ‫ شركة ألستوم‬šarikat
Alstom ‘La compagnie Alstom’;
 Les noms d'établissement institutionnels (école, universités, instituts, facultés, etc.), tel
que : ‫ كلية الطب‬kulliyyat aT-Tibb ‘Faculté de Médecine’ ;
 les noms de ministères et d'organisations internationales tel que : ‫ المنظمة العالمية للصحة‬al-
MunaDDamat al-‘aAlamiyyat lil-Sihat ‘Organisation Mondiale de la Santé’;
 Les noms d'organisations accompagnés d'un nom de personne tel que : ‫جامعة باجي مختار‬
jaAmi’at Baajiy Mokhtar ‘Université de Badji Mokhtrar’ ;
 Les noms d'organisations accompagnés d'un nom de lieu tels quelconque comme dans
: ‫اريس‬
ِ َ‫ َجا ِم َعة ب‬JaAmi'at baAriys ‘Université de Paris’ ;
 Les noms d'organisations accompagnés d'un sigle tel que : ‫آس‬5‫آر‬5‫آن‬5‫ مركز سي‬markaz al-
[Link] ‘le centre C.N.R.C : Centre National de la Recherche Nationale’.

4.7. Reconnaissance des expressions numériques – NUMEX

4.7.1. Identification des déterminants numériques

Les textes arabes sont caractérisés par l’utilisation de deux systèmes d’écriture des
nombres : les chiffres arabes et les chiffres indiens. Dans les pays d'Afrique du Nord les
chiffres arabes sont utilisés contrairement au pays arabes du Moyen-Orient en plus de l'Égypte
et de l'Arabie Saoudite qui utilisent majoritairement les chiffres indiens. Toutefois quel que
soit le système de chiffres, ces derniers s'écrivent de gauche à droite et se lisent de droite à
gauche. Cette particularité doit être prise en compte lors des traitements automatiques de
l’arabe sinon nous risquons d’avoir des difficultés lors de la construction des règles.

Type de chiffres Transcription des chiffres

Chiffres arabes (Tunisie, Algérie, Maroc) 0123456789
Chiffres indiens (Egypte, Arabie Saoudite, Moyen ٩ ٨ ٧ ٦ ٥ ٤ ٣ ٢ ١ ٠
Orient)

Tableau 4. 2. Les différents systèmes numériques utilisés en arabe

Une autre forme de transcription des nombres en arabe consiste à les écrire en lettres et
non pas en utilisant les systèmes décrits ci-dessus. Cette utilisation des lettres pour écrire les
nombres complique leur identification. Les règles définies dans cette section traitent ce
deuxième cas du moment que l’identification des nombres écrits dans les systèmes des
chiffres est très simple. Les règles définies permettent d’identifier d’abord ces chiffres écrits
en lettres et déterminer leur valeur correspondante. Par exemple le chiffre transcrit ‘ ‫مائتان وسبعة‬
‫ ’وثَلثين‬maA'ataAn wa-sab'atun wa-thalaAthyn correspond au nombre ayant la valeur 237.

La reconnaissance des cardinaux écrits en toutes lettres est basée sur un lexique
résumé dans le tableau suivant :

Page
117
Chiffre écrit en lettres Valeur
‫ص ْفر‬ِ , ‫احد‬ َ ‫إِ ْثنَان‬, ‫ثَ َالثَة‬, ‫أَ ْربَ َعة‬, ‫سة‬
ِ ‫و‬, َ ‫ستَّة‬
َ ‫خ ْم‬, َ , ‫ثَ َمانِيَة‬, ‫س َعة‬
ِ , ‫س ْب َعة‬ ْ ِ‫ت‬ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
‫ َعش ََرة‬, ‫ش ُرون‬ ُ َ َ
ْ ‫ ِع‬, ‫ثالثون‬, ‫أ ْربَ ُعون‬, ‫سون‬ َ َ
ُ ‫خ ْم‬, ‫ستُّون‬, ِ ‫س ْب ُعون‬ َ , ‫ثَ َمانُون‬, 10, 20, 30, 40, 50, 60, 70, 80, 90
‫س ُعون‬ ْ ِ‫ت‬
‫ َمائَة‬, ‫ َمائَتَان‬, ‫ثَ َالثَ َمائَة‬, … 100, 200, 300, ….
‫أَ ْلف‬, ‫ ِم ْليُون‬, ‫ ِم ْليَار‬, ‫َب ْليُون‬ 1000, 1000000, 1000000000,
1012

Ce lexique est stocké dans le dictionnaire utilisé par les règles qui contient en plus toutes
les formes fléchies de ces nombres. A titre exemple, le cardinal ‫اثنان‬ithnaAni ‘deux’) est
représenté en ‫إِ ْثنَان‬ithnaAni ‘deux, au nominatif,’ masculin, ‫إِ ْثنَتَان‬ithnataAni ‘deux, au
nominatif, féminin’, ‫إِ ْثنَيْن‬ithnayni ‘deux, accusatif, masculin’ et ‫إِ ْثنَتَيْن‬ithnatayni ‘deux,
accusatif, féminin’. En ce qui concerne les chiffres composés ne sont pas stockés dans le
dictionnaire et leur reconnaissance est faite à l’aide de règles linguistiques. Voici quelques
exemples des entrées de notre dictionnaire :

 ‫ص ْفر‬ِ \0`+card'
 ‫احد‬
ِ ‫َو‬ 1`+card'
 ‫إِ ْثنَان‬ 2`+card'
 ‫ثَ ََلثَة‬ 3`+card'
 ‫أَرْ بَ َعة‬ 4`+card'
 ‫أَ ْلف‬ 1\0\0\0`+card'
 ‫ِم ْليُون‬ 1\0\0\0\0\0\0`+card'
 ‫ِم ْليَار‬ 1\0\0\0\0\0\0\0\0\0`+card'
 ‫بَ ْليُون‬ 1\0\0\0\0\0\0\0\0\0\0\0\0`+card'

Pour la détection des nombres nous avons établi un ensemble de règles en fonction du
type du nombre :
 Cardinaux simples : ces règles détectent les nombres unitaires par consultation du
dictionnaire décrit dessus.
 Les dizaines : les règles développées pour cette catégorie concernent les déterminants
compris entre 11 et 99. Lorsqu'il s'agit d'un nombre de dizaine ayant un chiffre d'unité
non nul (dont la valeur n’est pas divisible par 10), une conjonction de coordination
assure la liaison entre les deux. Pour exprimer les nombres de dizaines composés, nous
faisons appel aux règles des cardinaux simples et nous concaténons les résultats tout
en ignorant la conjonction.
 Les centaines : cette troisième catégorie concerne les déterminants compris entre 100
et 999. Cette règle fait appel aux autres règles précédentes pour déterminer les
dizaines et les cardinaux simples.
 Le reste des cardinaux : cette catégorie inclue les cardinaux des milliers, millions et
milliards. Les règles développées pour cette catégorie font appel aux règles des
précédentes catégories tout en concaténant à chaque fois les résultats obtenus.

4.7.2. Identification des expressions numériques

Les expressions numériques sont généralement identifiables à l'aide de listes statistiques
de mots déclencheurs tels que les unités de distances et de poids, ainsi que les noms de
devises et leurs subdivisions potentielles, etc.

Les entités numériques incluent principalement les systèmes de mesures (poids, distance, volume,
vitesse), les pourcentages, ainsi que les devises. La liste des entités numériques peut être plus longue

Page
118
selon les définitions ; pour les besoins de ce -mémoire, nous nous contenterons des trois principales
entités numériques, qui sont les systèmes de mesures, les devises et les pourcentages.

 Les unités de mesure : ayant le mètre comme unité de base. A ce niveau, nous avons
répertorié les unités de mesure en regroupement tous les multiples ainsi que les sous-
multiples tels que ‫ ِكيلُو ِم ْتر‬kiyluwmitre ‘kilomètre, km’, ‫ ِميلِي ِم ْتر‬milliymitr ‘millimètre,
mm’, etc. Ces entrées lexicales servent pour la reconnaissance des distances simples
(longueurs, largeurs, profondeurs, hauteurs, etc.) ainsi que les mesures composées
telles que les mesures de volumes au moyen du mot clé ‫ ُم َكعَّب‬muka''ab ‘cube’. Notons
aussi dans cet égard, que l'utilisation des abréviations des unités de mesure est
fréquente, 5 ‫كلم‬et 20 ‫طن‬, etc.
 Les unités de pourcentages : Les règles de reconnaisse de ce type d'expressions sont
les plus simples à mettre en œuvre puisqu'elles sont formées à l'aide d'un cardinal ou
d'un nombre écrit en chiffre en arabe suivi du symbole de pourcentages « % » ou de la
forme ‫بالمائة‬bil miyat ‘pour cent’.
 Les unités monétaires : En ce qui concerne ce type d'expressions, nous avons
construit une liste des unités incluant des devises telles que ‫ ِدينَار‬diynar ‘Dinar’ ou ‫ُوَلر‬ َ ‫د‬
duwlaar ‘Dollar’ ainsi que leurs subdivisons telles que ‫ َس ْنتِيم‬santiym ‘Centimes’ ou ‫ِميلِّيم‬
milliym ‘Millimes’. Dans les textes arabes, ces expressions monétaires sont
caractérisées aussi par l'emploi des signes des symboles monétaires comme $ pour le
dollar, ¥ pour le Yen et € pour l'euro.

Dans ce qui suit, nous illustrerons une des règles qui permet de repérer dans cet exemple une
entité numérique.
$number $measure  <en entype = "mes">
Dans la règle ci-dessus, l'expression number permet de repérer un nombre précédant l'unité de
mesure, tandis que l'expression measure entre accolades renvoi à la liste d'expressions de
mesure que nous avons préalablement compilée. Cette règle simple permet de repérer
systématiquement des expressions comme : 85 kg.

Voici un exemple illustratif de notre analyse. ‫‘ ثمانون ألف متر مربع‬quatre-vingt mille mètre
carré’.

<en entype="mes"><relation
reltype="mesure"><head><posBeg><POS=18></posBeg><lemma>‫< ِم ْتر ُم َربَع‬/lemma><catPos
index="no">+unitmes</catPos><mCat>S</mCat><posEnd><POS=26></posEnd></head><
dept><posBeg><POS=6></posBeg><lemma>80000</lemma><catPos
index="no">+card</catPos><mCat>Num</mCat><prop
index="no">+adjnom</prop><posEnd><POS=17></posEnd></dept></relation></en>

Page
119
Partie III : Traitement des
dialectes arabes

Page
120
Chapitre 5 Analyse
phonologique

Page
121
Introduction
L’étude et la compréhension de la morphologie dialectale de la langue arabe, ou d’une
autre langue, passe nécessairement par une bonne compréhension de sa phonologie. De plus,
les différences phonologiques entre l'arabe dialectal et l'arabe standard portent essentiellement
sur le système vocalique et consonantique de la langue. C’est la raison pour laquelle nous
présentons et discutons dans cette section les préliminaires phonologiques qui s’appuient
essentiellement sur des systèmes consonantiques et vocaliques. De ce fait, nous présentons et
comparons dans la section 5.1 les systèmes consonantiques de l’arabe standard (MSA) et de
l’arabe dialectal, ensuite nous mettons en avant leurs systèmes vocaliques qui doivent être
distingués dans 5.2. Finalement, nous passons en revue dans la section 5.3, les alternances
phonologiques, appelées aussi les variations ou dégradations phonologiques à savoir :
l'assimilation, métathèse, l’emphase, épenthèse, élision, le raccourcissement.

5.1. Système consonantique

Rappelons que l'alphabet orthographique de l’arabe standard (MSA) comprend vingt-
huit lettres qui représentent vingt-huit consonnes, mais trois d'entre elles sont également
utilisées comme des voyelles. Ce n’est pas le cas généralement pour les dialectes, par exemple
le dialecte égyptien (EA) ne comprend que vingt-six de ces consonnes : les interdentales du
MSA, en l’occurence les /  / et /ð/, sont inexistantes dans l’EA, elles sont remplacées dans
certains mots par les arrêts dentaires correspondant /t/ et /d/, respectivement, et dans d'autres
mots par les correspondants alvéolaires fricatives /s/ et /z/, respectivement (voir tableau 5.1).

MSA EA Traduction
aman(-un) taman Prix
ðahab(-un) dahab Or
aabit(-un) saabit Fixe
ðakiyy(-un) zaki Intelligent
Tableau 5. 1. Exemple de changement des interdentales entre le MSA et le EA
Cet exemple illustre les modifications et les altérations que peut subir le système
consonantique de l'arabe dans les dialectes. Ces modifications ne datent pas forcément
d’aujourd’hui mais existent depuis longtemps et elles étaient même repérées par les
grammairiens arabes dans les dialectes de leur temps. Toutefois, il est à noter aussi que
certaines modifications sont dues aux récents progrès technologiques caractérisés par une
utilisation des moyens de communications multi-langages, voir au dernières compagnes
coloniales marquées par une influence de la culture et la langue du colonisateur (le français au
Maghreb et l’anglais pour le Machrek) sur les dialectes des populations colonisées. Dans le
reste de cette section, nous donnons une description détaillée de la prononciation des deux
consonnes ‫ ق‬qaf ‘q’ et ‫ ج‬jim ‘j’ massivement utilisées dans les dialectes orientaux et
maghrébins. Nous illustrons ces prononciations dans différents dialectes : égyptien, algériens,
tunisiens, etc.

5.1.1. Prononciation de la consonne qaf

La consonne ‫‘ ق‬q’ est l'un des sons qui présente une grande variété de prononciation
dans les dialectes arabes. Ces variations peuvent être perçue entre les régions, les villes, et
même entre les localités. Le son issue de la prononciation du « q » en arabe littéral, peut être
perçu comme : [q,ʾa, k, ou g]. Cette consonne occlusive peut être uvulaire sourde «‫‘ »ق‬q’ dans
certaines dialectes, comme ceux d’Alger, de Constantine, ou de Tunis ; palatale sonore «‫»ڨ‬

Page
122
‘g’ dans d'autres dialectes, ce qui est le cas des dialectes d’Annaba, de Sétif, ou celui de
Gafsa; ou glottale sourde ‫?( ء‬,’), comme c’est le cas dans les dialectes égyptien et celui de
Tlemcen. Notons dans le cas des dialectes n’utilisant pas la consonne occlusive glottale
sourde, il existe quelques mots qui sont prononcés de la même façon quel que soit le dialecte,
par exemple le mot «vache » est toujours prononcé ‫ بَ ْڨ َرة‬bagra.

Ces variations peuvent être aussi considérées, selon (Lajmi, 2009), comme une
propriété qui traduit un clivage sociogéographique entre parler citadin et parler rural et encore
parler bédouin. Selon ce clivage, (Cantineau, 1960) propose une classification des parlers
pour les dialectes modernes comme suit :
 Les parlers sédentaires : les parlers dans lesquels l'ancien qâf est représenté par
une sourde (q, k, ’). Nous pouvons géographiquement les répartir en trois groupes,
suivant que le qâf est prononcé q, ', ou bien k :
o Les parlers ayant un qâf vélaire, donc q, couvrent des surfaces assez
importantes, notamment en Syrie et en Afrique du Nord : c'est le cas du
Sahel tunisien, des villes de Tunis et de Constantine, Milla, et la majeure
partie de Skikda. Cette prononciation est aussi utilisée à Alger, Cherchel,
Dellys, Blida, Miliana, Média, Ténès voir dans l’ouest algérien à
Mostaganem. Nous trouvons aussi cette prononciation dans une grande
partie du Maroc.
o Les parlers ayant un qâf réduit à une simple occlusion glottale ‘?’ sont
surtout des parlers citadins comme les habitants d'Alep, Lattaquié, Hama,
Homs et Damas en Syrie, Tripoli, Beyrouth, Saîda et quelques régions
montagnardes au Liban, Safed, Haïfa, Jaffa, Jérusalem, Hébron et Ghaza
en Palestine, Alexandrie et Le Caire en Egypte, Tlemcen en Algérie ; et
Fès au Maroc.
o Les parlers ayant un qâf prononcé k postpalatal sont ceux qui ont
également une altération inconditionnée du kâf : par un processus tout à
fait analogue d'avancement du point d'articulation, le qâf vélaire est
devenu un k postpalatal. Ces parlers disent kalb ‘’cœur' (de qalb-), kâl
‘dire’ (de qâla), kahwa ‘café’ (de qahwat-), etc. Ces parlers sont ceux des
sédentaires de Palestine, de l'oasis de Sukhne en Syrie, de la Petite
Kabylie, Jijel, des Msirda et des Trara au Nord de Tlemcen en Algérie.
 Les parlers nomades : les parlers dans lesquels il est représenté par une sonore
(g). Nous distinguons pour ces parlers plusieurs groupes comme suit :
o Un premier groupe possède un gâf très en arrière, presque vélaire, mais
non en toute position. Ces parlers sont assez rares on les retrouve dans
l'Arabie du Nord et le Sud tunisien.
o Un autre groupe a un gâf post-palatal en toute position. Ce groupe
contient les parlers nomades d’Algérie, Maroc et Tunisie ; et en orient les
populations nomades de l’ouest de l’Irak et l’est de la Jordanie ainsi
qu’une majeur partie du Yémen et Oman.
o Un troisième groupe, celui des parlers de nomades nord-arabiques, a un
traitement du gâf absolument parallèle à celui du kâf, c’est-à-dire que le
gâf se maintient au voisinage des voyelles postérieures u, o, a mais subit
des altérations conditionnées au voisinage des voyelles antérieures i, e, ä,
passant aux affriquées g (==dj) chez les petits nomades syro-
mésopotamiens, et g (==dz) dans les grandes tribus arabiques. Ces
affriquées sont senties comme des variantes combinatoires de g et forment
avec lui un phonème unique.

Page
123
L’avantage de cette répartition est qu’elle ne souffre pas de véritables exceptions. Si
ces exceptions existent, comme pour certains mots des parlers nomades de l'Afrique du Nord
ayant un qâf sourd : qrâ ‘il a écrit’ ou bqâ ‘il est resté’, elles paraissent des emprunts soit à la
langue classique, soit à la langue des villes. De même les parlers sédentaires de la même
région contiennent tous quelques mots ayant un gâf sonore, comme pour gnîn ‘lapin’ ou
gorba ‘outre’, qui paraissent des emprunts aux parlers ruraux.

Les parlers maghrébins, tant de sédentaires que de nomades, ont en général, en face du
qâf classique, deux phonèmes : un q vélaire sourd et un g post-palatal. Naturellement un seul
de ces phénomènes : q chez les sédentaires, g chez les nomades, représente dans le dialecte en
question l'évolution phonétique normale du qâf ancien; l'autre phonème n'apparaissant que
dans des emprunts. De ce fait les prononciations q et g servent parfois à différencier deux sens
d'un même mot formant ainsi pour ces mots des doublets ou des paires de mots, l'un ayant un
q l'autre un g; c'est ainsi que nous aurons begra et baqra ‘vache’, gubba et qobba ‘coupole de
marabout; alcôve’, zreg ‘gris (chevaux)’ et zroq ‘bleu’ ; sherg ‘l'orient’ shorq ‘le pèlerinage’,
gleb ‘vomir’ et qleb ‘renverser’, bgâ ‘être exténué de fatigue’ et bqâ ‘rester ‘, etc. Au
contraire, dans les parlers orientaux, des doublets de ce genre ne se produisent pas.

Sur un autre registre, un qâf ancien peut se dissimiler en k devant un t. Par exemple,
pour beaucoup de parlers, tant orientaux que maghrébins, le verbe ‘tuer’, cl. qatala est passé à
katal au Maghreb ou Ktäl.

5.1.2. Prononciation de la consonne jim

Dans cette section nous nous intéressons à la prononciation de la lettre ‫ ج‬jim ‘j’ dans les
dialectes arabes modernes, en introduisant avec des illustrations les différentes variantes à
travers les régions du monde arabe. Les deux prononciations les plus fréquemment
attestées sont la prononciation ğ (= dj) et la prononciation ž (= j français). En plus des
variantes déjà citées, une autre prononciation se trouve en Egypte où le ‫ ج‬est prononcée
«g», et à titre d’exemple le mot gabal ‘montagne’ ou negma ‘étoile’ sont des
prononciations des mots arabes ‘‫ ’جبل‬et ‘‫ ’نجم‬respectivement.

Au moyen orient, la variante ğ est très répandue au Yémen, en Irak, dans le désert syrien,
dans les campagnes palestiniennes, syriennes et transjordaniennes. La variante ž quant à
elle est considéré comme une prononciation citadine très utilisée à Damas, Beyrouth,
Haïfa, Naplouse, Jérusalem, Jaffa, Ghazza. Elle-même la plus utilisée de tout le Liban.

En Afrique du Nord, la prononciation ž est de loin la plus répondue : nous la trouvons à

Tripoli, en Tunisie, au Maroc et une partie de l’Est algérien (Annaba, Guelma, Tebessa,
Souk-Ahras, etc.). Elle est aussi utilisée par la plupart des nomades. Pour ce qui est de la
prononciation ğ, elle est attestée d'une façon régulière que dans une partie de l'Algérie :
à Constantine, Sétif, Jijel, Barika, Bejaïa, Alger, tout le Tell, Oran, Mostaganem,
Mascara, et enfin la ville de Tlemcen. Nous la trouvons aussi dans certains endroits, pour
des cas de gémination, au Maroc comme à Tanger.

5.1.3. Prononciation des spirantes interdentales

Selon le principe suivant : les spirantes interdentales dans les dialectes modernes de
l’arabe sont conservées telles quelles : les ṯ , ḏ, ḑ, dans les parlers de nomades ou d'anciens
nomades; passent aux occlusives correspondantes t, d, ḍ, dans les parlers sédentaires.

Page
124
L’application de ce principe donne les cas remontés dans les sections suivantes.

En Orient, dans les villes ayant un parler de sédentaires ce principe est

particulièrement attesté. C’est le cas des villes : Le Caire, Alexandrie, Jérusalem, Damas,
Alep, Bagdad. Cependant il est moins appliqué dans les campagnes : les parlers campagnards
ayant une prononciation ‘q’ du ‫ق‬, donc essentiellement sédentaires, ont conservé les
interdentales. Nous trouvons cette tendance en Palestine, le sud du Liban; par contre l'inverse
ne paraît pas être vrai, et aucun parler de nomades se semble avoir perdu la prononciation
spirante des interdentales. Nous signalons aussi un phénomène de passage des spirantes
interdentales aux spirantes labiodentales dans certaines communes comme c’est le cas à
Palmyre, felğ au lieu de ṯelğ ‘neig’. Le phénomène inverse peut se produire : dans beaucoup
de parlers orientaux, ‘la bouche’ (cl. Fum) se dit ṯum ,pluriel du ṯmâm.

Au Maghreb, les faits se présentent d'une manière analogue, c'est-à-dire que certains
parlers de sédentaires peuvent avoir des interdentales, en dépit du principe posé ci-dessus,
mais que l'inverse ne paraît guère se produire. C'est ainsi qu'en Tunisie, les parlers sédentaires
du Sahel (type de Takrouna) ont des spirantes interdentales ainsi que la ville de Tunis. En
Algérie, à Constantine, les spirantes interdentales sont souvent devenues occlusives dans toute
la zone des parlers sédentaires qui couvre la commune de Collo, Skikda et Constantine, El-
Milia, Jijel, Bougie.

Dans la wilaya d’Alger, les communes à parler sédentaires, à l’exception d’Alger, les
spirantes interdentales sont conservées à cause probablement de l'influence des parlers de
nomades, nous pouvons de ce fait qualifier cette conservation de restitution. Ce constat est
mis en exergue dans les travaux de (Cantineau, 1960), et identifié dans les villes Cherchel,
Blida, Médéa, Miliana et Ténès. Dans la ville d’Alger les spirantes interdentales sont
occlusives. Dans la wilaya d'Oran les spirantes interdentales sont passées aux occlusives à
Tlemcen seulement au Nord de la ville. C’est le cas aussi au Maroc où les parlers de
sédentaires, citadins comme montagnards, font passer les spirantes interdentales aux
occlusives. Il est à noter aussi que dans certains endroits en Algérie, comme pour les parlers
nomades de la wilaya de Mostaganem, les spirantes interdentales passent aux spirantes
labiodentales, à titre indicatif prenons les exemples suivants : ṯâni ‘aussi’ > fâni, ḏhab ‘or’ >
vhab, ḓalma ‘obscurité’ > valma.

Un autre fait important caractérisant les parlers sédentaires du Maghreb dans leur
traitement des interdentales, c’est l'emphatique ḓ au lieu de passer ḍ s'assourdit en ṭ comme
dans les mots ṭahro ‘son dos’; ṭlêla ‘ombre’, byaṭ ‘blanc’, mrêṭ ‘malade’, ṭofro ‘son ongle’,
etc. Ce phénomène a une extension moins grande que la réduction des spirantes interdentales,
et il n'est presque jamais réalisé complètement. Il est contraint par des limitations dues, soit à
l’arabe classique, soit aux parlers de nomades avoisinants.

Nous pouvons aussi signaler une autre caractéristique des spirantes interdentales due à
des altérations combinatoires de ces dernières. Elle consiste en une emphase de la sonore ḏ en
ḓ au voisinage d'une emphatique ou d'une vélaire. Cette caractéristique peut s’expliquer par
des causes phonétiques régulières, l’influence des consonnes voisines, voir l’influence de la
langue berbère. Cette caractéristique est très présente en Algérie où nous trouvons les
exemples suivants : fḫaḓ ‘cuisse’ (cl. fḫaḏ); ḫḓa ‘prendre’ (cl. 'aḫaḏa), ḓörwok ‘maintenant’
(ḏâl-waqt). (Marçais, 1908).

Enfin, dans certaines villes, comme Saïda en Algérie, les spirantes interdentales

Page
125
s'assimilent très fréquemment à un t qui les suit, pour illustrer cette propriété nous citons les
exemples suivants : ḩrôtt ‘j'ai labouré’ (<haraṯtu), gböttäh ‘je l'ai saisi’ (cl. qabadtuhu).
5.1.4. Traitement du hamza
La lettre hamza, peut être considérée comme un élément discriminant des deux
groupes de parlers, ceux du Machrek et ceux du Maghreb. Nous donnons dans cette section
l'évolution phonétique et les changements qu’a subit cette consonne chez les deux groupes de
parlers.

Concernant les parler du Machrek, nous mentionnons les travaux de (Cantineau, 1960)
sur ce sujet où l’auteur considère que : « le hamza, quoique affaibli, est resté un phénomène
au sens phonologique du mot, un élément constitutif important du système consonantique de
ces parlers. ». Donc, en fonction de la position de cette lettre dans un mot, elle peut avoir
plusieurs états : inchangeable, modifiable ou supprimable. Nous illustrons dans les exemples
suivants les différents cas selon la position de ce Hamza :
 A l'initiale du mot, le hamza est généralement conservé. Cette conservation affirme
qu'elle garde généralement sa valeur d'une consonne radicale, par exemple : 'arnabe
‘lièvre’, 'asba3 ‘doigt’ ; les pluriels de 'arâneb et 'asâbe3. Cependant, il existe des cas
exceptionnels où il est changé en semi-voyelle w ou y comme c’est le cas des mots :
wallaf ‘il plia bagage’, waddab ‘il corrigea’.
 A l'intérieur du mot, le hamza est, contrairement à la première position, rarement
maintenu et souvent il a disparu pour faire place à un allongement de voyelle, comme
dans les exemples suivants : râs ‘tête’ ([Link]'s), bîr ‘puits’ ([Link]'r), mara ‘femme’
([Link]'at). Il passe aussi à w ou à y à l’instar des mots : iTTâwab ‘bâiller’
([Link]â'aba), lâyam ‘convenir de’ (cl.lâ'ama), malyân ‘plein’ (cl. mal'ân), Mîye ‘cent’
(cl. mi'at). Il existe toutefois un cas démonstratif où cette lettre est maintenue, il s’agit
du verbe sa'al ‘demander’.
 A la fin d’un mot le hamza peut avoir disparu parfois sans laisser de traces, ou être
transformé, donnant ainsi plusieurs cas de figure comme suit :
o Le hamza supprimé : par exemple ghadâ ‘déjeuner’ ([Link]â'), samâ ‘ciel’
([Link]â')
o Le hamza remplacé par la semi-voyelle « y » : c’est le cas des verbes à 3ème
radicale hamza sont tous devenus des verbes à 3ème radicale y.
o Le hamza assimilé à une consonne précédente : comme dans le mot daww
‘lumière’.

Quant aux parlers du Maghreb, le fait marquant est que le hamza a presque disparu et
que les occlusives glottales, que nous pouvons entendre, n'apparaissent que dans des emprunts
à la langue littéraire. Ainsi, dans les différents dialectes maghrébins, le hamza est soit tombé
en complètement désuétude (disparu), soit remplacé comme dans les parlers du Machrek par
une semi-voyelle w ou y. De ce fait le hamza subit différentes opérations en fonction de sa
position dans le mot comme suit :
 A l'initiale, le hamza perd généralement toute valeur consonantique propre, générant
par conséquent plusieurs cas de figure comme suit :
o Le hamza est totalement tombé, prenons les exemples suivants : bell ‘chameaux’
(cl. 'ibil), bra ‘aiguille’ (cl. 'ibrat-), Nous pouvons admettre que dans ces mots, le
hamza existe virtuellement; mais il n'est nullement prononcé. Selon (Marçais,
1902), lorsque l'accent portant sur une syllabe subséquente, la voyelle à laquelle
était rattaché le hamza initial disparait aussi, qu'elle fut contenue dans une
syllabe ouverte ou fermée : ‫ ابراهيم‬brâhim, briq ‫‘ ابريق‬aiguière’, ‫ أمارة‬mâra
‘signe’. La conservation virtuelle du hamza sous forme de simple voyelle, bien

Page
126
qu'il n'ait pas l'accent dans les mots : islâm, imâm, amân, amer (cf. sur
l'allongement de a) s'explique par des influences de la langue littéraire. Dans un
certain nombre de mots, il s'est réduit à une simple voyelle a, u, i; sous cette
forme il s'est maintenu, là où il portait l'accent : ‫ أصل‬Âsl ‘origine’, ‫ أرض‬ÂrD
‘terre’, ‫ أنا‬Âna ‘moi’, ‫ أمان‬Âmân ‘sécurité’, ‫ أخرى‬ukhra ‘autre’, etc.
o Le hamza peut donner naissance à une semi-voyelle ‘w’ ou ‘y’ dans les mots où
il portait l'accent. A titre illustratif prenons les mots suivants : ‫ و ّكل‬wukkel ‘faire
manger’ du verbe ‫ أَ َّك َل‬Âkkal, ‫ ولَّف‬wullef ‘habituer’ du َ‫ أَلَّف‬Âllaf, ‫ يبرة‬yebra
‘aiguille’ du ‫ إبرة‬Ibrah, ‫ ينس‬yens ‘espèce humaine’ du ‫ إنس‬Ins, ‫ يامس‬yâmes ‘hier’
du ‫ أمس‬Âms
o Le hamza est remplacé avec un ‘l’ initial dans une forme indéterminée dérivée
d'une forme déterminée. Voici quelques exemples ‫ لَ ْف َعى‬lef'a ‘vipère’, ْ‫ لَ ْن َجاص‬lenjâs
‘poire’, ْ‫ لَرْ ض‬larD ‘terre’.
o Le hamza est renforcé en ‘h’ comme dans les mots ‫ هَجَّالة‬hajjâla ‘veuve’ du mot
‫ أَجَّالة‬Âjjâla (de même dans tout le Maghreb), ou comme dans la locution
conjonctive ‫ ه ّماَل‬hammâla ‘cependant’, ‫ أ ّماَل‬Âmmâla.

 A l'intérieur du mot, le hamza disparaît pour laisser place à un allongement de voyelle

comme pour les mots : ‫ فاس‬fâs ‘pioche’ pour ‫ فأس‬fa's, ‫ راس‬râs ‘tête’ du ‫ رأس‬ra's, d’oùle
pluriel ‫ رووس‬rôs du ‫ رؤوس‬ru'ûs, ‫ ذيب‬dîb ‘chacal’ pour ‫ ذئب‬Di'b, ‫ بير‬bîr ‘puits’ pour ‫بئر‬
bi'r; pluriel du ‫ بيار‬byâr du mot ‫ بئار‬bi'ar et ‫ مومن‬mûmen ‘croyant’ pour ‫ مؤمن‬mu'min,
‫ توام‬twâm ‘jumeaux’ du ‫ توأم‬taw'am, ‫ مليان‬malyân ‘plein’ du ‫ مآلن‬mal'an, ‫ فواد‬fwâd
‘viscéres’ du mot ‫ فؤاد‬fu'âd. Il peut être aussi renforcé en ‫‘ ه‬H’ comme dans le mot ‫زهر‬
zhôr ‘rugir’ du mot ‫ زأر‬za'ar. Notons enfin qu’il existe une exception où le hamza est
conservé. Cette exception est le mot ‫ قرآن‬qor'ân ‘Coran’ et possède une très curieuse
prononciation proche de celle de l’arabe littéraire.

 En fin du mot, le hamza est soit tombé, comme pour le mot ‫ ُشركاء‬šorka ‘partenaires’,
soit réduit à une voyelle longue, par exemple : brâ ‘guérir’ du bari'a, qrâ ‘lire’ du
verbe qara'a, smâ ‘ciel’ du samâ', soit il s'assimile à une consonne précédente comme
: Daw(w) ‘lumière’ du mot Daw', šay ‘chose’ du mot šay’, ou donne un y qui
finalement se déconsonnantise en y, c’est le cas du mot bennây du mot ‫ بنّاء‬binnâ'.

5.1.5. Autres cas de prononciation particulière :

Nous terminons cette partie concernant le système consonantique par la présentation
d’un ensemble de cas de prononciation particulière :
 En Tunisie et dans l’est algérien et Tlemcen, la lettre ‫ غ‬Ghin ‘γ’ est remplacée par
un ‘kh’ dans certains mots, par exemple les mots γsal (laver), ou khsîl (linge
lavé).
 Dans beaucoup de dialectes, la lettre ‫ غ‬ghin est substituée par un ‫’ ع‬ayn ‘’’
comme c’est le cas dans la racine du mot ghamq ‘profond’ du mot ’amiiq.
 Dans certaines régions du nord-est du Sahara algérien, comme M’sila et
Bou’Saâda, la lettre ‘γ’ est remplacés par la lettre ‘q’. Par exemple les mots γaliy
‘cher’, γmazli ‘m’a clignoté’, sγayera ‘petite’, sont prononcés respectivement :
qali, qmazli et sqayera.
 La lettre ‫‘ ه‬h’ disparaît fréquemment dans la conjugaison du verbe (râ) avec les
pronoms (hu, hi hûm,) = (râhu, râhi, râhum); qui deviennent (râ, raî et raûm). Il
disparaît aussi dans la locution adverbiale ‫ منّا‬menna ‘par ici’ au lieu de ‫ من هنا‬min
hounna; dans le pluriel ‫ فواكي‬fwâki ‘fruits’ au lieu de ‫ فواكه‬fawâkih. Il y aussi le
mot ‫ و ّج‬wujj ‘visage’ du mot ‫ وجه‬wijh est à rapprocher des égyptiens et syriens ّ‫وج‬

Page
127
wujj et ّ‫ وش‬wušš.
 Permutation du sin, Sad, Zad. Nous constatons qu’en tlemcenien des permutations
des sifflantes sad, sin, zad existent. Nous en trouvons en arabe classique et dans la
plupart des dialectes. Certaines sont dues à des causes phonétiques comme
l'influence de la consonne voisine, par exemple ‫ فازدة‬fâzda ‘corrompue’ au lieu de
‫ فاسدة‬fâsda, ‫ زدم‬zdam ‘heurter’ au lieu de ‫ صدم‬Sdem, ‫ سدر‬sder ‘poitrine’ à la place
de ‫ صدر‬Sder. Ce phénomène a été expliqué par des influences vocaliques
secondaires comme pour le mot Sêf ‘sabre’ au lieu de sîf.

5.2. Système vocalique

A l'instar des autres phénomènes indiqués ci-dessus, nous décrivons dans cette partie
le système vocalique des dialectes qui est en quelque sorte une évolution du système
phonologique de l’arabe classique. Le système vocalique de l'arabe exhibe un système
triangulaire simple constitué de trois voyelles courtes et trois longues. D’un point de vue de
l’orthographe, les voyelles courtes sont représentées par des signes diacritiques au-dessus ou
en dessous de la lettre, tandis que les voyelles longues sont représentées par les trois lettres ‫أ‬
/?alif/, ‫ ي‬/yaa?/ ainsi que ‫ واو‬/waaw/. Les voyelles longues sont prononcées deux fois plus
longtemps que leurs homologues courts.

Concernant le système vocalique des dialectes, (Barkat, 2000) a établi une typologie
dialectale fondée sur l'opposition : parlers maghrébins et parler orientaux. Cette étude a
montré que l'espace vocalique des parlers maghrébins est plus centralisé que celui des parlers
orientaux, avec une différence de durée entre voyelles brèves et longues. Cette étude confirme
l’hypothèse soutenue dans plusieurs travaux de recherches qui est que le système vocalique de
l'orient est plus enrichi de timbre vocalique que son homologue (du Maghreb) qui est
composé de trois voyelles cardinales ainsi que le schwa.

De ce fait, le système vocalique des dialectes arabes modernes des parlers d'Orient est
composé de huit voyelles : trois brèves */i, u, a/ et cinq longues */ī, ū, ē, ō, ā/. (ii, uu, ee, oo,
aa). L'émergence de nouvelles voyelles intermédiaires longues illustrent bien que les
anciennes diphtongues /ay/ et /aw/ ont évolué dans les langues arabes dialectales
respectivement en /ē/ et /ō/.

Dans la même optique, il a été observé que "le vocalisme bref se réduit de façon croissante
d’Est en Ouest" (Marçais, 1977) jusqu’à devenir - dans certains parlers - de simples points
vocaliques ultra-brefs, aboutissant ainsi à des réalisations ultra-brèves des voyelles, c’est le
cas des parlers marocains.

Le tableau (5.2) présente les voyelles utilisées dans le système vocalique de l’arabe
standard AS et celui de l’arabe dialectal du l’Egypte AE :

Courte Longue
Avant Central Arrière Avant Central Arrière
Haut I U ii uu
Milieu ee+11 oo+
Bas A Aa
Tableau 5. 2. Les voyelles dans MSA & AE

11
(+) = Trouvé dans AE seulement.

Page
128
Dans les dialectes arabes les séquences /ay/ et /aw/ sont transformées en /ee/ et /oo/,
respectivement. Nous pouvons observer cette transformation dans les exemples suivants :

MSA AD Traduction
bayt(-un) beet maison
ShayTanat(-un) SheeTana diable
Shaykh(un) Sheekh vieux
naw3(un) noo3 espèce
lawn(-un) loon couleur
lawH(-un) looH tableau/ plaque
Les exemples montrent que les deux timbres /ee/ et /oo/ proviennent d'un waw et d'un
yay classique. A cet égard, nous soulignons que pour la majorité des dialectes arabes la
diphtongue disparaît dans tout un paradigme d’unités au profit d’une voyelle longue. Il est
important de signaler, qu'il existe quelques régions du Maghreb où cette diphtongue est
conservée, c’est le cas par exemple des parlers de la ville d’Annaba de l’est de l’Algérie. En
plus de cette exception, nous remarquons qu’il existe aussi deux cas d’utilisation où la
diphtongue est conservée sans changement. Tout d'abord, lorsque la voyelle est suivie d'une
gémination. Linguistiquement, ce phénomène est appelé "inaltérabilité des géminées"
(Gadalla, 2000). Voici quelques exemples illustratifs de ces cas :

MSA AE Traduction
mayyit(-un) mayyit mort
bayyaD(-a) bayyaD à la chaux, à peindre
bawwaab(-un) bawwaab un portier
Sawwar(-a) Sawwar photographier

D'autre part, lorsque la séquence de voyelles et de glissement se trouve dans la syllabe

initiale en forme de radical, comme en ces termes:

MSA AE Traduction
?awTaan(-un) ?awTaan pays
mawluud(-un) mawluud nouveau-né
?aymaan(-un) ?aymaan serments
Saydal-at(-un) Saydal-a science pharmaceutique

En dialecte tlemcenien (Algérie), la diphtongue provient du phénomène secondaire du

ressaut qui plus général en tlemcenien que dans le Maghreb oriental, donne des groupements
comme qahhawti ‘mon café’, meššeitek ‘ta marche’ proviennent de qahwa, mešya
respectivement. Ce phénomène n’est pas connu dans le tripolitain et le tunisien.

En ce qui concerne l’allongement vocalique, (Mejri et al., 2009) avance que « Le système
vocalique du dialectal se distingue par un enrichissement des degrés d’aperture. Si l’arabe
littéral ne comporte que trois voyelles brèves doublées de leurs correspondantes longues, le
dialectal tunisien connaît une extension de l’action de la durée vocalique dans ce sens qu’on
assiste à l’émergence de nouvelles paires minimales fondées sur un allongement vocalique
non réalisé dans le littéral.». Toutefois, nous signalons que ce phénomène concerne à la fois
des unités n'appartenant pas aux mêmes parties du discours, comme par exemple : ْ‫ ِسر‬sir

Page
129
‘secret’ qui a une catégorie grammaticale ‘nom’ et ْ‫ ِسير‬siir ‘marcher’ qui est un verbe à
l’impératif, et des paires appartenant à la même partie du discours comme par exemple : les
deux verbes ْ‫ ْي ِسل‬ysil ‘tirer’ et ْ‫ ي ِْسيل‬ysiil ‘couler’. Ce phénomène est fréquent dans les dialectes
maghrébins.

Il est à noter que le système vocalique des dialectes diffère d'une région à une autre comme
par exemple le dialecte Sfaxien qui se caractérise par rapport au dialecte sahélien par une
voyelle finale longue dans des mots qui portent l'accent sur la dernière syllabe. Le tableau
suivant illustre cette caractéristique :

Mot en français Prononciation en dialecte Prononciation en dialecte

Sfaxien Sahélien
Ciel «‫[ » ْس َما‬sma] «‫[ » ْس َماء‬smA]
Eau « ‫[ » َما‬ma] « ‫[ » َماء‬mA]

Tableau 5. 3. Exemple de différence du système vocalique entre les régions.

Nous pouvons identifier plusieurs types d’allongement par l’accent, en voici quelques
exemples :
 L'allongement de la voyelle terminale dans les mots provenant de racine défectueuse
ou possédant la lettre hamza comme la dernière radicale, comme pour les mots : rDâ
‘s’est contenté’, qrâ ‘il a étudié’, hlû ‘sucré’, jdî ‘chevreau’, etc.
 L'allongement de la voyelle des impératifs de verbes concaves, que nous trouvons
dans tous les dialectes maghrébin. A titre d’exemple nous citons : ‫ قول‬qôl ‘dis’, ‫ زيد‬zîd
‘continue’, ‫ بات‬bât ‘passe la nuit’. Nous trouvons cet allongement aussi dans le cas
des mots provenant de racines assimilées ou ayant la première radicale hamza,
comme ‫ تيقة‬tîqa ‘confiance’, ‫ جيهة‬jîha ‘côté’, ‫ نيف‬nîf ‘nez’, etc.
 L'allongement de la voyelle dans la dernière syllabe du parfait à la 3ème personne au
féminin des verbes, quand s'y adjoignent les suffixes vocaliques. Par exemple ‫ضرباتك‬
Darbâtek ‘elle t'a frappé’.
 D'un allongement de voyelle brève ou de semi-voyelle déconsonnantisée, par contre-
accent : Amân ‘sûreté’, ‫ يهود‬Ihûd ‘Juifs’.

Le système vocalique des dialectes arabes est caractérisé aussi par l’absence des voyelles
brèves : elle consiste en une disparition des désinences casuelles dans les noms et des flexions
finales dans les verbes. Les différents dialectes arabes négligent les voyelles courtes en
particulier quand ils se trouvent à la fin d'une syllabe. Voici quelques exemples montrant la
différence de la prononciation des mots en dialecte et en arabe standard :

Prononciation en MSA Prononciation en dialecte Traduction

ٌ‫اولَة‬
ِ َ‫[ ط‬TAwilapN] ‫[ طَاوْ لَة‬TAwlap] table
‫ق‬
َ ‫[ َس َر‬saraqa] ‫[ س َْر ْق‬sraq], saraq voler
َ‫[ َحلَف‬Halafa] ‫ف‬ ْ ِ‫[ حْ ل‬Hlif], ‫ف‬
ْ ِ‫[ ِحل‬Hilif] jurer

Par ailleurs, des différences existent au niveau de l’allongement entre les dialectes
maghrébins et orientaux. A cet effet, le système phonétique des dialectales du Maghreb
possède une caractéristique intéressante pour la reconnaissance (Saâdane et al., 2013) : il
présente une succession de deux consonnes au début du mot. Cette caractéristique est
beaucoup moins marquée dans le système phonétique des dialectes orientaux. Ceci se traduit

Page
130
par une particularité notable dans le schème verbal « f ̒el » au Maghreb à la place de « fa ̒ al»
au Machrek par exemple :
« dreb » (frapper, algérien); « darab » (égyptien)
« sket » (se taire); « sakat »
« b ̒ed » (s'éloigner); « ba ̒ad »

D’un autre côté, l’arabe dialectal diffère du standard par le fait que l’arabe standard permet
d’avoir deux ou plusieurs voyelles longues en un mot phonologique, contrairement à l’arabe
dialectal où elle ne permet d’en avoir qu’une seule. Par exemple, le mot ‘clés’ /mafaatiih >
mafatiih/.

D’autres phénomènes caractérisent aussi l’évolution du système phonologique des voyelles

dans le dialecte, il s’agit de la dénasalisation et la nasalisation des voyelles. Ces phénomènes
sont en rapport avec les mots empruntés qui tiennent une place importante dans le vocabulaire
des dialectes surtout au Maghreb. En général, ces mots ont été facilement et naturellement
incorporés dans leurs structures lexicales qui, elles, sont restées arabes de façon
prédominante (Guella, 2011). Ces emprunts sont toujours étudiés afin de déceler leur
intégration dans les différents niveaux, phonétique, morphologique et syntaxique dans
l'ensemble des dialectes maghrébins. Les phénomènes dénasalisation et de nasalisation dus à
cet emprunt sont contradictoires et ont les propriétés suivantes :
 La dénasalisation : intervient sur le processus d’intégration des mots empruntés où
nous assistons à un changement du mode d’articulation qui change la voyelle nasale en
une voyelle orale. Pour illustrer ce propos, prenons les exemples suivants :
o ‫ َك ْميُونَة‬kamyounah ‘camion’
o ‫يز‬ْ ِ‫ أَ ْن ْڨل‬lɛngliz ‘Angleterre’
o ‫ ڨِيرَّة‬girra ‘guerre’

 La nasalisation (ghounna) : est le résultat du voisinage de la nasale ‘n’ avec certains

phonèmes. Ce phénomène met en avant le trait nasal comme un élément distinctif par
rapport au littéral où les voyelles nasales n’ont pas de statut de phonème (ref : les unités
de traitement dans les atlas linguistiques). L'illustration suivante montre ce phénomène :
le mot ٌ‫ قُ ْنبُلَة‬qunbulatun en arabe MSA qui signifie ‘une bombe’ se transforme en ‫قُ ْن ْبلَة‬
qÕnbla dans le dialecte tunisien.

5.3. Les alternances phonologiques (variations ou dégradations

phonologiques)
Entre consonnes contiguës ou voisines nous pouvons identifier plusieurs phénomènes
d’alternance qui résultent de la phonétique combinatoire. En arabe standard ou dialectal, cinq
alternances phonologiques sont constatées : l'assimilation, métathèse, l’emphase, épenthèse,
élision, le raccourcissement. Ces alternances peuvent se produire dans les morphèmes voir
aux morphèmes et les limites des mots. La compréhension de ces processus est essentielle à
l'étude de la morphologie de cette langue. L’étude de ces alternances n’a pas été faite de la
même manière car les grammairiens arabes se sont peu occupés de la «métathèse» et de la «
dissimilation», contrairement à «l'assimilation partielle» ou « accommodation » où une plus
grande attention leur été accordée et ils les ont rangés parmi les différents phénomènes
dénommés ‫ بدل‬badal ou ‫ إبدال‬ibdal, ‫ قلب‬qalb ou ‫ إقَلب‬iqlâb ‘permutation de consonne’. Ils ont
mis l’accent aussi sur ‘l'assimilation complète’, dite ‫ إدغام‬iddgâm.

Page
131
5.3.1. Assimilation (‫)اإل ْد َغا ْم‬
ِ
En linguistique, le terme assimilation désigne un phénomène par lequel deux phonèmes
tendent à devenir identiques ou à acquérir des caractères communs : par exemple -dt- > -tt-. Il
existe deux types d'assimilation, ‫ ا ِإل ْدغَا ْم‬iddigâm ‘une assimilation complète’ et ‘partielle’.
L'assimilation partielle est aussi appelée ‫' إقَلب‬qlâb ‘accommodation’.

Dans la langue arabe, l’assimilation complète des consonnes juxtaposées est manifestée
dans certains cas. C’est le cas de l'assimilation complète de la consonne latérale /l/ de l'article
défini, qui devient identique à la consonne initiale du mot si elle est l'une des lettres dites
‫ الحروف الشمسيّة‬al-Huruf šamsiyya ‘lettres solaire’, contrairement aux lettres dites consonnes
‫ الحروف القمريّة‬al-Huruf qamariyya ‘lettres lunaires’ où cette assimilation n'est pas réalisée. Ce
cas est très répandu dans l’arabe standard.

L'assimilation de la lettre /l/ de l'article défini peut être formalisée par une règle appelée
«l-assimilation» et représentée comme suit :

Ci
l [+def]  Ci /  ( ) ….. (l-assimilation)
+𝑠𝑜𝑙

Cette règle indique que la lettre /l/ de l'article défini est assimilée à la consonne suivante
si elle est solaire. Pour voir illustrer l’application de cette règle et mettre en exergue la
différence entre l'assimilation et la non assimilation de la lettre /l/, voici quelques exemples :

o /al+šuruq(-u)/  /?aš-šuruq(-u)/ et non pas */?al-šuruq(-u)/ ‘’.

o /al+baHr(-u)/  /?al-baHr(-u)/ et non pas */?ab-bHr(-u)/ ‘’.

Il existe aussi un autre type d’assimilations appelé assimilation par contact. Notons que
le « l » de l'article, s'assimile non seulement avec les consonnes solaires, mais aussi à d'autres
consonne. Dans cette optique, les grammairiens traitent le cas de l'assimilation ou non du « l »
de l'article à la lettre ‫ ج‬jim ‘j’. Quand le ‫ ج‬est prononcé comme une chuintante sonore j
(considérée aussi comme une lettre de frontière entre lettre solaire et lunaire) elle n'assimile
pas le «l» de l'article en MSA, mais l'assimile dans la plupart des dialectes. Nous nous
référons aux travaux de (Marçais et Jellouli, 1933), où l’auteur signale que dans les parler
d'El-Hamma de Gabès; l'assimilation n'est obligatoire que si la lettre j est l'élément initial d'un
complexe consonantique : par exemple ej-jbal ‘la montagne’; par contre, quand le «j» est la
lettre initiale d'un mot déterminé est suivi d'une voyelle, l’assimilation du «l» de l'article
devient facultative, par exemple, on trouve ej-jar à côté de el-jar.

Dans la même optique, nous soutenons les propos (Cantineau, 1960), qui signalent que
l'assimilation de l'article ne se fait pas au Maghreb (voir rarement); contrairement au Machrek
où elle paraît être la règle comme pour le mot eg-gabal ‘la montagne’. (Gadalla, 2000)
confirme dans son livre qu'en Égypte, le processus d'assimilation de l'article « l » avec les
lettres solaires se produit avec l'ajout d'autre lettres comme la lettre /g/ ou très rarement la
lettre /k/. Toutefois, cette assimilation du /l/ reste facultative. Pour illustrer ces propos, voici
quelques exemples :

o /il+gabal/  /?ig-gabal ~ ?il-gabal/ ‘la montagne’.

Page
132
o /il+kursi/  /?ik-kursi ~ ?il-kursi/ ‘chaise’.

Cependant, (Cantineau, 1960) note que dans les villes, les gens instruit