Herbert EISELE, André LE MEUR

Formation à la représentation formelle et à la gestion des arbres notionnels
en terminologie : méthodes
et nouveaux outils normalisés
Herbert Eisele (ISIT - PARIS)
André Le Meur (UMR CNRS 6590 - Université de Rennes 2)

1. Motivation du projet

1.1 Genèse

La terminologie lutte contre l'analphabétisme. On peut être analphabète en plusieurs langues ; on ne peut s'empêcher de l'être en une quantité de domaines. Comment combler cette lacune ?

La connaissance du domaine appartient à l'expert et c'est donc lui qu'il faudrait consulter. Cependant, il est la plupart du temps inaccessible. Il faut un intermédiaire sachant mobiliser l'expert pour le motiver à partager sa connaissance du domaine à qui voudrait et devrait l'utiliser, notamment les communicateurs que sont les médiateurs de la langue technique.

Entre l'expert qui détient la connaissance et, par exemple, le traducteur qui est contraint de s'en informer pour travailler en connaissance de cause il manque généralement une passerelle de compréhension. C'est le terminologue qui peut assurer cette fonction, car la terminologie est, avant tout, une science cognitive permettant une formation rapide à tout professionnel acculé à travailler en situation d'urgence en permanence, ce qui afflige notamment les traducteurs et interprètes. C'est pourquoi elle est entrée dans le cursus de formation des traducteurs comme discipline obligatoire ; à l'ISIT depuis 25 ans.

Pour obtenir le diplôme de fin d'études, tout étudiant doit produire chez nous un mémoire de terminologie en équipe avec un ou deux autres étudiants en 3 et parfois 4 langues sur un domaine de son choix et portant sur un volume de 30 termes principaux par personne, ce qui aboutit à une production de 150 à 200 termes par mémoire. La recherche documentaire aux fins d'exploitation (recensement, définition, annotation, illustration) se cristallise en une bibliographie analytique et critique (cote de fiabilité) aux fins de validation des entrées au fichier des termes. Cette validation est augmentée par la consultation d'experts du domaine (au moins un dans chaque langue) sous la houlette d'un commettant, également expert du domaine, qui s'engage par lettre à encadrer le travail de recherche et à l'utiliser professionnellement.

Cette production de mémoires terminologiques s'élève à plus de 300 depuis 1986 couvrant une très grande variété de sujets, de l'Agro-alimentaire avec 46 sujets en passant par l'Artisanat avec 43 sujets, l'Astronomie/Espace/Géoscience avec 30 sujets, le Bâtiment/Architecture avec 25 sujets, les Biosciences avec 62 sujets, la Bureautique (Informatique) avec 40 sujets, la Culture avec 27 sujets, le Droit et les Finances avec 8 sujets, l'Energie et l'Eau avec 20 sujets, jusqu'à l'Industrie avec 45 sujets.

Cette production terminologique continue et commence à être connue et appréciée en cercle fermé. Il s'est donc agi de voir si et comment on pouvait ouvrir ces greniers à une plus large population, notamment par les moyens de communication moderne.

A cet effet, il fallait d'abord assurer une plus grande homogénéité dans la collecte des données selon un format de saisie normalisé pour ensuite permettre une présentation facile à consulter et interchangeable, l'idée étant d'être présent sur internet.

1.2 Clé d'accès au Fonds des Connaissances

Chaque mémoire constitue en somme un guide multilingue pour un micro-domaine (par exemple, la fabrication du chapeau de feutre en poil de lapin ou le stockage des déchets nucléaires), la clé d'accès par excellence aux connaissances ainsi rassemblées étant le relevé systématique et structuré des notions propres au domaine.

En effet, l'une des tâches essentielles dans la confection du mémoire est l'élaboration des arbres notionnels, en somme la taxinomie du domaine, situant chaque notion à sa place dans son environnement notionnel le plus proche, appelé le Domaine d'appartenance ou DA par convenance, chaque DA constituant à son tour une parcelle organisée des connaissances et se reliant à d'autres DA pour aboutir, de proche en proche, à classer dans un ordre raisonné toutes les notions du sujet étudié.

Cette élaboration se fera toujours en entente avec les experts qui doivent approuver la version finale retenue pour l'incorporation dans le mémoire. On comprendra dès lors que les arbres notionnels constituent un accès privilégié au domaine et qu'il faut en soigner la présentation.

1.3 La formation à la présentation notionnelle

Les étudiants n'ayant pas de connaissances a priori du domaine doivent s'en former d'abord une idée en se documentant dans des sources disponibles (monographies, articles de la presse spécialisée, documents d'entreprises, modes d'emploi etc.) avant d'aller à la pêche d'experts. L'expert est la plus noble conquête du terminologue. Il faut bien s'y préparer en montrant primo l'intérêt qu'on a déjà pour le sujet et secundo l'intérêt que devrait avoir l'expert à se voir offrir un outil fort appréciable pour communiquer ses connaissances efficacement au monde extérieur et aux apprentis. Cette recette fonctionne très bien.

Voilà donc nos étudiants appelés à rassembler ces connaissances d'expert et à les mettre en ordre tant bien que mal. Souvent l'expert est peu rompu à l'exercice taxinomique, ce qui fait que les étudiants doivent proposer des ébauches d'arbres. Il est plus facile de discuter sur une base tangible.

Les notions apparaissant plus claires dans la convivialité, et surtout leurs relations se précisant dans la discussion, il en résulte progressivement un ordre du domaine consensuellement acceptable. Il s'agit en somme de réconcilier un ordre ontologique familier à l'expert avec l'ordre sémantique correspondant nécessaire à la communication.

Mais cet exercice de collationnement des deux ordres reste aléatoire donnant des résultats peu comparables, du fait que la méthode de collationnement laisse trop de marge à l'arbitraire.

Il fallait, par conséquent, trouver moyen pour systématiser davantage l'élaboration des arbres notionnels, ce qu'ambitionne le projet dont il est question ici.

2. Modélisation et mise en réseau

Objectifs

Le projet actuellement en cours et financé en partie par la DGLF a pour objectif de faire passer la production des mémoires de terminologie du " format papier " à un format électronique compatible. Ce travail a deux objectifs :

améliorer la gestion des données (production, mises à jour) et leur diffusion sur différents supports, et en un premier temps sur Internet ;

contribuer au développement des techniques en cours de normalisation au TC37 de l'ISO et qui visent à faciliter la coopération entre producteurs et utilisateurs de données terminologiques. Cette coopération passe par l'utilisation de formats communs (ici le format Geneter) sur des réseaux virtuels de banques de données réparties par l'intermédiaire de " méta-sites " :

Un méta site est un site internet qui permet des recherches simultanées sur plusieurs banques. Les bases de diffusion sont produites à partir de bases de travail ou à partir (c'est le cas de l'ISIT) d'éditeurs de texte. Dans les deux cas, des convertisseurs (CG) assurent la compatibilité des données en les transposant dans un format générique. Ces données sont gérées par des serveurs Z39.50, protocole qui permet un accès simultané à plusieurs bases. Dans tous les cas les requêtes et les données transitent par une passerelle qui assure l'interface Z39.50-HTTP.

Dans certaines conditions (quand la continuité notionnelle est assurée), le meta site peut effectuer des calculs d'équivalences entre bases.

Analyse des données

L'analyse de la structure des données terminologiques des mémoires sur papier a porté sur les catégories de données et sur leurs relations. Voici un exemple de " fiche " :

AU : AM/SM DE : 16/05/99 NF :F87

NV : 45. VE : Fil hélicoïdal (S.m.)

CT : Auparavant, pour la méthode d'extraction traditionnelle on employait du fil hélicoïdal.
SC : CDDTD14 p219

DA 8 : Débitage en atelier
DA 8.2 : Sciage
DA 8.2.1 : Sciage monotrait

Déf : Câble d'acier à 2 ou 3 brins torsadés, animé à la fois d'un mouvement de translation rapide entraînant de la grenaille (F88/T45.1) et d'un mouvement de descente dans le granit (F3/T3).
                                                                               SDéf : PDFTD4 p61
Ntec : C'est en fait l'abrasif, ici la grenaille (F88/T45.1), qui scie la roche par usure.
                                                                               SNtec : PDFTD4 p61
Nterm : On emploie souvent le syntagme "fil hélicoïdal" pour désigner par synecdoque
" scie à fil hélicoïdal ".
                                                                             SNterm: GDSTD7 p109
Syn : scie à fil hélicoïdal (S.f.)
                                                                             SSyn : GDSTD7 p109
All : Seilsäge (N.f.)
                                                                             SAll : DEMVall5 p682
Ang : wire saw (N.)
                                                                             SAng : SWOVang p595
CR : granit (F3/T3)
SR : grenaille (F88/T45.1)
ILL : 1. Sciage au fil hélicoïdal.
           2. Représentation schématique du système de sciage au fil hélicoïdal.
                                                                             SIll : 1. AM/SM
                                                                                       2. PDFTD4 p62

La première étape de la modélisation consiste à dégager les éléments de données et leurs dépendances. La structure des données peut alors être vue comme un arbre :

Une attention particulière a été accordée aux " Domaines d'application " et a débouché sur le principe de " l'externalisation " de l'arbre des domaines

Observons des exemples de fiches papier :

Terme : Granit
DA : Matériau de construction
Terme : Fil hélicoïdal
DA : Débitage en atelier/Sciage/Sciage monotrait

Dans cet exemple les concepts Granit et Fil hélicoïdal sont des concepts " opaques ", ils font donc l'objet d'une description (une " fiche "). Par contre Matériau de construction, Débitage en atelier, Sciage et Sciage monotrait sont des " concepts transparents " : ils ne font pas l'objet d'une " fiche ".

On en déduit l'arbre notionnel :

1 - Matériau de construction
          1.1 Granit
2 - Débitage en atelier
          2.1 Sciage
                    2.1 Sciage monotrait
                              2.1.1 Fil hélicoïdal

La saisie des données

La saisie de la description d'un concept opaque et de sa position dans l'arbre s'effectue en traitement de texte :

1 Matériaux de construction
1.1 <TERME>Granit
<Grammaire>N.m.

<Numéro>3
<Contexte>Entre deux failles voisines le granit est découpé en grands blocs pouvant atteindre 50 m3.<Source>PDFTD4 p59
<Définition>Toute roche éruptive grenue et très dure pouvant être polie et façonnée pour être utilisée dans le domaine de la construction, de la décoration ou de la voirie. <Source>CGLTD3 p42<Source>PDFTD4 p52
<Note terminologique>Le granit des métiers du bâtiment et des carrières s'écrit sans " e " et correspond à l'ensemble des roches éruptives sans distinction, alors que le granite des géologues désigne une roche plutonique de composition très précise. On observe une telle distinction en anglais, mais pas en allemand.<Source>PDFTD4 p52<Source>CGLTD3 p42 <Source>BGHSE1 p6
<Terme langue=DE>Granit
<Grammaire>N.m.
<Terme langue=EN>commercial granite
<Grammaire>S..
<Source>MMTVang3 p424<Source>GOGVang8 p486
<DATE>05/12/1998

On note que

- la structure de l'arbre (tous les concepts opaques ou transparents) est marquée par des styles de titre

- la description d'un concept opaque se fait au moyen de balises qui indiquent la nature de chaque élément

- les termes soulignés sont des renvois à d'autres concepts

La mise en réseau

La structure particulière des données de l'ISIT est conforme aux principes de description terminologique de la norme ISO 704. A ce titre elle peut être projetée dans une structure plus générale telle que le modèle Geneter (format Générique pour la Terminologie). La structure générale du format Geneter est décrite dans la communication du projet INTERLEX. Toute la documentation est accessible sur le site http://www.uhb.fr/geneter.

2.1.1. La projection dans le modèle GENETER

<terminological entry>	Concept
<LIL>	(niveau indépendant des langues)
<LIL-admin-G><origination><when>	Date
<LIL-descrip-G><non-textual-illustration>	Illustration
<LDL language=??>	(pour chaque langue)
<LDL-descrip-G>	(description du du concept)
<definition>	Definition
<note-descrip type=technical-note>	Note technique
<note-descrip type=linguistic-note>	Note terminologique
<LDL-rel-G>	(relation avec d'autres concepts)
<antonym>	Antonyme
<TL form-of-term>	(pour chaque désignation)
<term>	Terme
<TL-descrip-G>	(description de la désignation)
<grammar>	Grammaire
<term-provenance>	Note historique
<etymology>	Etymologie
<context>	Contexte
<Usage-G>	(usage de la désignation)
<note-usage>	Note d'usage

2.1.2. La transformation en SGML

Un programme (ici une macro-commande Word) est capable de transformer le texte, le document WORD, en un fichier SGML conforme à la DTD Geneter. Cette opération en cours de développement est complexe puisqu'elle génère, en plus du codage SGML des données,

toutes les informations nécessaires à la gestion des liens (liens entre les notions, liens entre les éléments de données et leur source, etc.) dans une base de données

l'arbre notionnel du domaine
2.1.3. La création d'une base de données

L'accès aux données sur Internet passe par la définition d'une base de données pour la consultation des notions et de l'arbre. Le choix s'est porté sur l'utilisation d'un moteur d'indexation WAIS (Wide Area Information Server) qui présente trois avantages :

le moteur d'indexation, le serveur WAIS et la passerelle qui effectue l'interface avec le protocole HTTP (pour l'interrogation par un client Netscape ou Explorer) sont du domaine public

les bases WAIS utilisent le protocole Z39.50 orienté vers la recherche multibase. Elles sont donc bien adaptées à des applications coopératives

l'Université de Rennes 2 a utilisé cette technique pour construire des prototypes dans le cadre de deux projets européens MLIS (INESTERM et PUBLISHNET) dans lesquels des producteurs de données (trois organismes de normalisation et trois éditeurs de dictionnaires multilingues) visent à commercialiser des données sur Internet.
2.1.4. Résultat

La base de démonstration de l'ISIT a été intégrée au prototype " Vnet " de l'Université de Rennes 2 (http://www.uhb.fr/geneter) qui donne également accès à des bases Z39.50 issues de projets européens MLIS (INESTERM, INTERLEX, NORD-TERM et DHYDRO). La recherche s'effectue à partir d'une langue source vers des langues cibles sur les termes (terme principal ou synonymes) et sur les domaines. Si une recherche est infructueuse, un mécanisme d'inférence permet de chercher une équivalence entre deux langues par l'intermédiaire d'une langue pivot (l'anglais). La continuité notionnelle est garantie par la vérification de l'appartenance à un même domaine d'application.

3. Conclusion et perspectives

La méthode adoptée permettra d'assurer l'homogénéité voulue dans la présentation des données, qui sont, ne l'oublions pas, des connaissances représentées par des notions structurées. La rigueur méthodologique joue au niveau de la formation des étudiants, qui devront se conformer au schéma prescrit, lequel présente pour eux à la fois un guide-fil dans l'explicitation de leur recherche et une garantie pour le succès de cette entreprise, ainsi qu'au niveau de la gestion et diffusion de ces données, assurant un maniement aisé et un large accès.

Il est à souhaiter que la méthode fasse son chemin, ce qui ne saurait manquer si elle prouve son utilité. Et ici comme en matière de langue, c'est l'usage qui règne en maître.

_retour à la page principale_