La
terminologie juridique en langue portugaise - les mots dans les textes
Carlos MACIEL CNRS - INaLF - UPRESA 6039 (Bases, Corpus et Langage) Université de Nice - Sophia Antipolis |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Les principaux textes juridiques de tous les différents pays de langue portugaise constituent un ensemble de près de 2 400 000 occurrences, pour 34 000 différentes formes environ, qui constituent les entrées de notre dictionnaire. Tous les grands domaines sont couverts :
Deux différentes versions sont prévues : une version originale - dans laquelle toutes les différences orthographiques sont maintenues (entre le Portugal et le Brésil, entre le XIXe et le XXe siècles), - et une version normalisée (qui gomme ces différences ainsi que les marques d'édition, dont l'intérêt technique et linguistique est très limité, voire nul). Total pour les deux versions : environ 4 800 000 occurrences, ou unités de texte répertoriées. Voici les principaux aspects retenus, pour ce qui concerne les différences orthographiques :
I - la version "originale" Principales caractéristiques :
II - la version normalisée Dans ce cas, les différences disparaissent. Pour cette version, nous nous sommes inspirés (quoique de loin) des éléments qui figurent dans la dernière réforme proposée aux pays lusophones et dont on nous annonce l'entrée en vigueur Cette réforme n'est pas (encore ) adoptée et nous nous sommes en conséquence limités à "neutraliser" les différences (finalement peu nombreuses), marquées essentiellement par certains traits qui opposent les usages portugais aux usages brésiliens. La réforme proposée prévoit, par exemple, la disparition du "c" de acção ainsi que celle du "p" de adoptar En conséquence, Si l'usager fait appel à la version originale :
Si l'usager fait appel à la version normalisée :
Le cédérom Le cédérom a été conçu à Nice, à l'UPRES A Bases, Corpus et Langage (CNRS-INaLF). C'est le premier cédérom d'une série thématique dont la réalisation est prévue, dans le cadre des développements à venir de la base de données textuelles PORTEXT - dont les éléments essentiels sont disponibles à l'adresse http://floripa.unice.fr (pour obtenir le mot de passe, envoyez un message à l'adresse électronique donnée dans la fenêtre de dialogue). Ce cédérom fait largement appel aux données de la base en référence ; il est géré par le logiciel Hyperbase (dont la réalisation est due à Étienne BRUNET). Il s'agit d'une version spécialement conçue à cet effet. Image n° 1: Page d'ouverture du cédérom La
partie documentaire (en haut)
Image n° 2: le dictionnaire Il suffit de cliquer sur "caução", par exemple, pour accéder à toutes les différentes pages dans lesquelles se trouve cette forme.
Image n° 3: Un exemple concernant la forme "caução" - dans son contexte le plus large (page de la constitution brésilienne de 1988.
Image n° 4: Quelques cas de cooccurrence : les formes LIBERDADE et DEMOCRACIA sont associées, par exemple, dans la constitution angolaise (page 324), dans la constitution du Cap Vert (page 376), dans la constitution de Guinée-Bissau (page 553), ou encore dans la constitution du Mozambique (page 499). ![]()
Le logiciel utilisé permet d'accéder à des données relatives à des sous-ensembles spécifiques, par titre, domaine ou aire géographique. L'usager peut en conséquence isoler un certain nombre de textes et constituer un sous-corpus - qui devient alors le corpus de travail (par exemple, uniquement les textes concernant le Portugal, ou encore les constitutions africaines ). Dans ce cas, il est possible de comparer entre eux plusieurs sous-ensembles (Portugal et Brésil, par exemple). Dans la partie documentaire, l'usager peut accéder à des contextes, des concordances, des cooccurrences, etc., à l'intérieur de la totalité du corpus ou uniquement dans le corpus de travail préalablement constitué. Les fonctions statistiques permettent en outre d'obtenir des graphiques de distribution - pour un mot, par exemple, ou encore pour la totalité des formes mises en jeu. Tous les calculs statistiques - réalisés en amont - permettent par ailleurs à l'usager de connaître les données qui concernent la distribution des différentes formes ou unités, la structure du vocabulaire, la distribution des hapax, la richesse lexicale et, naturellement, le vocabulaire spécifique (ou caractéristique) de chaque texte ou sous-ensemble. Tous les textes ont été traités à Nice - notamment pour ce qui est de la normalisation orthographique et de la préparation des documents avant le traitement informatique. Sept textes ont toutefois été saisis au Portugal, à l'Universidade Nova de Lisboa (Centro de Estudos Comparados).
Image n° 5: Analyse factorielle. À partir du tableau des distances. Plusieurs groupes se constituent, manifestant leur cohérence : les textes portugais les plus récents sont à droite (1976, 1982), les constitutions africaines se trouvent sur l'axe horizontal, à droite. Les textes brésiliens républicains occupent le quart inférieur gauche, etc.
Richesse lexicale (données générales) Réel : vocabulaire mis en jeu dans chaque texte (formes différentes) Titre: en quatre lettres:
Vocabulaire spécifique B988 (Constitution brésilienne de 1988)
Pour plus de renseignements, faites parvenir un message au responsable scientifique de la base PORTEXT, à l'adresse suivante : [email protected]
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||