Formation
à la représentation formelle et à la gestion des
arbres notionnels
|
![]() ![]() |
||||||||||||||||||||||||||||||||||||||||||||
1. Motivation du projet 1.1 Genèse La terminologie lutte contre l'analphabétisme. On peut être analphabète en plusieurs langues ; on ne peut s'empêcher de l'être en une quantité de domaines. Comment combler cette lacune ? La connaissance du domaine appartient à l'expert et c'est donc lui qu'il faudrait consulter. Cependant, il est la plupart du temps inaccessible. Il faut un intermédiaire sachant mobiliser l'expert pour le motiver à partager sa connaissance du domaine à qui voudrait et devrait l'utiliser, notamment les communicateurs que sont les médiateurs de la langue technique. Entre l'expert qui détient la connaissance et, par exemple, le traducteur qui est contraint de s'en informer pour travailler en connaissance de cause il manque généralement une passerelle de compréhension. C'est le terminologue qui peut assurer cette fonction, car la terminologie est, avant tout, une science cognitive permettant une formation rapide à tout professionnel acculé à travailler en situation d'urgence en permanence, ce qui afflige notamment les traducteurs et interprètes. C'est pourquoi elle est entrée dans le cursus de formation des traducteurs comme discipline obligatoire ; à l'ISIT depuis 25 ans. Pour obtenir le diplôme de fin d'études, tout étudiant doit produire chez nous un mémoire de terminologie en équipe avec un ou deux autres étudiants en 3 et parfois 4 langues sur un domaine de son choix et portant sur un volume de 30 termes principaux par personne, ce qui aboutit à une production de 150 à 200 termes par mémoire. La recherche documentaire aux fins d'exploitation (recensement, définition, annotation, illustration) se cristallise en une bibliographie analytique et critique (cote de fiabilité) aux fins de validation des entrées au fichier des termes. Cette validation est augmentée par la consultation d'experts du domaine (au moins un dans chaque langue) sous la houlette d'un commettant, également expert du domaine, qui s'engage par lettre à encadrer le travail de recherche et à l'utiliser professionnellement. Cette production de mémoires terminologiques s'élève à plus de 300 depuis 1986 couvrant une très grande variété de sujets, de l'Agro-alimentaire avec 46 sujets en passant par l'Artisanat avec 43 sujets, l'Astronomie/Espace/Géoscience avec 30 sujets, le Bâtiment/Architecture avec 25 sujets, les Biosciences avec 62 sujets, la Bureautique (Informatique) avec 40 sujets, la Culture avec 27 sujets, le Droit et les Finances avec 8 sujets, l'Energie et l'Eau avec 20 sujets, jusqu'à l'Industrie avec 45 sujets. Cette production terminologique continue et commence à être connue et appréciée en cercle fermé. Il s'est donc agi de voir si et comment on pouvait ouvrir ces greniers à une plus large population, notamment par les moyens de communication moderne. A cet effet, il fallait d'abord assurer une plus grande homogénéité dans la collecte des données selon un format de saisie normalisé pour ensuite permettre une présentation facile à consulter et interchangeable, l'idée étant d'être présent sur internet. 1.2 Clé d'accès au Fonds des Connaissances Chaque mémoire constitue en somme un guide multilingue pour un micro-domaine (par exemple, la fabrication du chapeau de feutre en poil de lapin ou le stockage des déchets nucléaires), la clé d'accès par excellence aux connaissances ainsi rassemblées étant le relevé systématique et structuré des notions propres au domaine. En effet, l'une des tâches essentielles dans la confection du mémoire est l'élaboration des arbres notionnels, en somme la taxinomie du domaine, situant chaque notion à sa place dans son environnement notionnel le plus proche, appelé le Domaine d'appartenance ou DA par convenance, chaque DA constituant à son tour une parcelle organisée des connaissances et se reliant à d'autres DA pour aboutir, de proche en proche, à classer dans un ordre raisonné toutes les notions du sujet étudié. Cette élaboration se fera toujours en entente avec les experts qui doivent approuver la version finale retenue pour l'incorporation dans le mémoire. On comprendra dès lors que les arbres notionnels constituent un accès privilégié au domaine et qu'il faut en soigner la présentation. 1.3 La formation à la présentation notionnelle Les étudiants n'ayant pas de connaissances a priori du domaine doivent s'en former d'abord une idée en se documentant dans des sources disponibles (monographies, articles de la presse spécialisée, documents d'entreprises, modes d'emploi etc.) avant d'aller à la pêche d'experts. L'expert est la plus noble conquête du terminologue. Il faut bien s'y préparer en montrant primo l'intérêt qu'on a déjà pour le sujet et secundo l'intérêt que devrait avoir l'expert à se voir offrir un outil fort appréciable pour communiquer ses connaissances efficacement au monde extérieur et aux apprentis. Cette recette fonctionne très bien. Voilà donc nos étudiants appelés à rassembler ces connaissances d'expert et à les mettre en ordre tant bien que mal. Souvent l'expert est peu rompu à l'exercice taxinomique, ce qui fait que les étudiants doivent proposer des ébauches d'arbres. Il est plus facile de discuter sur une base tangible. Les notions apparaissant plus claires dans la convivialité, et surtout leurs relations se précisant dans la discussion, il en résulte progressivement un ordre du domaine consensuellement acceptable. Il s'agit en somme de réconcilier un ordre ontologique familier à l'expert avec l'ordre sémantique correspondant nécessaire à la communication. Mais cet exercice de collationnement des deux ordres reste aléatoire donnant des résultats peu comparables, du fait que la méthode de collationnement laisse trop de marge à l'arbitraire. Il fallait, par conséquent, trouver moyen pour systématiser davantage l'élaboration des arbres notionnels, ce qu'ambitionne le projet dont il est question ici.
2. Modélisation et mise en réseau Objectifs Le projet actuellement en cours et financé en partie par la DGLF a pour objectif de faire passer la production des mémoires de terminologie du " format papier " à un format électronique compatible. Ce travail a deux objectifs :
Analyse des données L'analyse de la structure des données terminologiques des mémoires sur papier a porté sur les catégories de données et sur leurs relations. Voici un exemple de " fiche " : AU : AM/SM DE : 16/05/99 NF :F87 NV : 45. VE : Fil hélicoïdal (S.m.) CT
: Auparavant, pour la méthode d'extraction traditionnelle on employait
du fil hélicoïdal. DA
8 : Débitage en atelier Déf
:
Câble d'acier à 2 ou 3 brins torsadés, animé
à la fois d'un mouvement de translation rapide entraînant
de la grenaille (F88/T45.1) et d'un mouvement de descente dans
le granit (F3/T3). La première étape de la modélisation consiste à dégager les éléments de données et leurs dépendances. La structure des données peut alors être vue comme un arbre :
Une attention particulière a été accordée aux " Domaines d'application " et a débouché sur le principe de " l'externalisation " de l'arbre des domaines Observons des exemples de fiches papier :
Dans cet exemple les concepts Granit et Fil hélicoïdal sont des concepts " opaques ", ils font donc l'objet d'une description (une " fiche "). Par contre Matériau de construction, Débitage en atelier, Sciage et Sciage monotrait sont des " concepts transparents " : ils ne font pas l'objet d'une " fiche ". On en déduit l'arbre notionnel :
La saisie des données La saisie de la description d'un concept opaque et de sa position dans l'arbre s'effectue en traitement de texte :
On note que
La mise en réseau La structure particulière des données de l'ISIT est conforme aux principes de description terminologique de la norme ISO 704. A ce titre elle peut être projetée dans une structure plus générale telle que le modèle Geneter (format Générique pour la Terminologie). La structure générale du format Geneter est décrite dans la communication du projet INTERLEX. Toute la documentation est accessible sur le site http://www.uhb.fr/geneter.
Un programme (ici une macro-commande Word) est capable de transformer le texte, le document WORD, en un fichier SGML conforme à la DTD Geneter. Cette opération en cours de développement est complexe puisqu'elle génère, en plus du codage SGML des données,
L'accès aux données sur Internet passe par la définition d'une base de données pour la consultation des notions et de l'arbre. Le choix s'est porté sur l'utilisation d'un moteur d'indexation WAIS (Wide Area Information Server) qui présente trois avantages :
La base de démonstration de l'ISIT a été intégrée au prototype " Vnet " de l'Université de Rennes 2 (http://www.uhb.fr/geneter) qui donne également accès à des bases Z39.50 issues de projets européens MLIS (INESTERM, INTERLEX, NORD-TERM et DHYDRO). La recherche s'effectue à partir d'une langue source vers des langues cibles sur les termes (terme principal ou synonymes) et sur les domaines. Si une recherche est infructueuse, un mécanisme d'inférence permet de chercher une équivalence entre deux langues par l'intermédiaire d'une langue pivot (l'anglais). La continuité notionnelle est garantie par la vérification de l'appartenance à un même domaine d'application.
3. Conclusion et perspectives La méthode adoptée permettra d'assurer l'homogénéité voulue dans la présentation des données, qui sont, ne l'oublions pas, des connaissances représentées par des notions structurées. La rigueur méthodologique joue au niveau de la formation des étudiants, qui devront se conformer au schéma prescrit, lequel présente pour eux à la fois un guide-fil dans l'explicitation de leur recherche et une garantie pour le succès de cette entreprise, ainsi qu'au niveau de la gestion et diffusion de ces données, assurant un maniement aisé et un large accès. Il est à souhaiter que la méthode fasse son chemin, ce qui ne saurait manquer si elle prouve son utilité. Et ici comme en matière de langue, c'est l'usage qui règne en maître.
|
|||||||||||||||||||||||||||||||||||||||||||||