1 . Introduction
Ce projet a été présenté pour la première fois lors du colloque “DHANT” qui s’est tenu à Grenoble du 2 au 4 septembre 2015, puis au “Forum de la Méditerranée” de Marseille, en mars 20161.
Il est encodé en TEI xml
et se présente sous la forme d’un index réversible grec-arabe. Actuellement, les textes sont tirés de la littérature technique médicale. L’encodage des données, réalisé avec un souci de grande précision, permettra de lancer des recherches par traité, thème, traduction ou traducteur selon des critères que chacun pourra choisir: corpus hippocratique, corpus galénique, traductions de Ḥunayn, traductions de Ḥubayš, etc.2
2 . Les données encodées
Le lexique ne comprend pas seulement des termes techniques; il comprend aussi toutes les particules grecques et leurs équivalents arabes; on espère ainsi mieux comprendre cet aspect du lexique arabe et de sa syntaxe. Pour cette même raison, sont également encodées toutes les formes des racines arabes. L’objectif est ici, par exemple, de tenter de mesurer les corrélations entre les différentes valeurs des formes des conjugaisons arabes et les voix du verbe grec (actif, moyen et passif).
3 . La littérature technique… et au-delà
Il faut également remarquer que la littérature technique comprend aussi les mots de la langue de tous les jours dans tous ses aspects. C’est le cas des Épidémies II d’Hippocrate, traité sur lequel le travail de saisie porte actuellement, mais aussi d’autres traités sur lesquels on souhaite travailler à moyen terme, comme le De sanitate tuenda de Galien qui a connu un grand succès dans le monde arabe au Moyen Âge. Le sujet est en effet en prise directe avec l’art de vivre et le raffinement qui caractérise le monde arabo-musulman durant cette période.
4 . La méthode suivie
On souhaite ici insister sur l’intérêt présenté par un travail d’encodage des lexiques réalisé au fur et à mesure que l’on progresse dans l’édition critique des textes qui fournissent les entrées des lexiques eux-mêmes. Cela est de la plus grande importance dans la mesure où le travail d’édition demande à l’éditeur de faire des choix, de les justifier, et donc de fournir un texte soigneusement examiné. Le lexique qui dérive de ce travail a des chances de se distinguer de ceux qui sont simplement dérivés des index fournis par les éditions existantes.
Une autre raison de promouvoir cette méthode de travail est qu’elle peut donner aux chercheurs et aux doctorants l’occasion d’ajouter de nouvelles entrées au lexique d’ensemble tout en progressant dans leurs travaux d’édition. Au-delà de l’intérêt présenté par la formation à ces techniques, se profile ainsi la possibilité de collaborer à la mise en ligne de ressources de grande envergure, qu’il s’agisse de dictionnaires, d’éditions critiques ou de constellations de données interconnectées à partir de différences sources. La possibilité de travailler à de nouvelles formes de présentation des textes est ainsi ouverte.
5 . Aspects techniques
Comme on l’a écrit plus haut, le lexique grec-arabe-grec suit les règles de la TEI xml
, et d’un schéma adapté au travail. Les mots grecs et arabes sont liés automatiquement aux dictionnaires en ligne du Perseus Project, à savoir le Greek-English Lexicon de Liddell, Scott et Jones et le Arabic-English Lexicon de E. D. Lane.
La présente communication a été faite, comme à Grenoble, à partir d’un extrait des Épidémies II d’Hippocrate (II, 1, 1). Le lexique correspondant peut être consulté en ligne. Toutefois, la version complète du lexique n’est pas encore ouverte au public. Elle est sensiblement différente de l’extrait présenté en ligne dans la mesure où elle inclut une série de moteurs de recherche qui donnent la possibilité de lancer des recherches simples ou complexes à la fois en grec et en arabe. Pour prendre ici un exemple, la version de développement permet de faire des recherches à partir des mots grecs ou des racines arabes, puis d’affiner les résultats en fonction de critères grammaticaux.
La mise à disposition du public de la première version du lexique interviendra après la publication des trois logiciels qui auront servi à la produire, à savoir:
-
arabluatex, pour l’encodage de la langue arabe (déjà publié);
-
ekdosis, pour l’encodage du texte critique au format
TEI xml
(en développement); -
dictionary, pour l’encodage du lexique au format
TEI xml
(en développement).
Tous ces logiciels sont ou seront publiés sous les termes de la licence GNU GPL v3 ou ultérieure.
- 1. Voir en ligne le document intitulé Panorama des recherches et études méditerranéennes en sciences humaines et sociales, Travaux présentés lors du Forum de la Méditerranée en sciences humaines et sociales, MuCEM, Villa Méditerranée, Marseille, 2016, p. 30.
- 2. Par rapport à la version en ligne du dictionnaire GALex, le présent lexique n’est qu’un projet d’envergure modeste, mais il est conçu dans un but différent: comme il est constitué de toutes les correspondances rencontrées au cours de l’édition des textes qui fournissent ses entrées, le nombre des références données pour chaque entrée ou sous-entrée n’est pas limité. Cela rapproche davantage ce lexique d’un index général assorti de définitions que d’un dictionnaire.