Carlos MACIEL

La terminologie juridique en langue portugaise - les mots dans les textes
Carlos MACIEL
CNRS - INaLF - UPRESA 6039 (Bases, Corpus et Langage)
Université de Nice - Sophia Antipolis

Les principaux textes juridiques de tous les différents pays de langue portugaise constituent un ensemble de près de 2 400 000 occurrences, pour 34 000 différentes formes environ, qui constituent les entrées de notre dictionnaire. Tous les grands domaines sont couverts :

le droit administratif (code administratif portugais) ;

le droit civil (code civil - Brésil et Portugal) ;

le droit commercial (Brésil / Portugal) ;

le droit constitutionnel
- tous les textes brésiliens (huit), disposés chronologiquement,
- tous les textes portugais (dix),
- et les constitutions des cinq pays africains lusophones ;
le droit pénal (code pénal portugais) ;

le droit du travail (Consolidação das Leis do Trabalho et Lei Geral do Trabalho) ;

le droit de la procédure.

Deux différentes versions sont prévues : une version originale - dans laquelle toutes les différences orthographiques sont maintenues (entre le Portugal et le Brésil, entre le XIXe et le XXe siècles), - et une version normalisée (qui gomme ces différences ainsi que les marques d'édition, dont l'intérêt technique et linguistique est très limité, voire nul). Total pour les deux versions : environ 4 800 000 occurrences, ou unités de texte répertoriées.

Voici les principaux aspects retenus, pour ce qui concerne les différences orthographiques :

I - la version "originale"

Principales caractéristiques :

- les marques d'édition (très instables, selon l'époque et l'éditeur), caractérisées par des usages tels que n°, n.° ou encore n. ou N. pour número ; dec-lei, dec.-lei, Dec.-Lei, Dec. Lei, DL, D.L., D-L, pour Decreto-Lei ; Art., art., Ar., pour artigo, etc.

- les marques qui concernent les variantes orthographiques :

1 - qui concernent les différentes réformes de l'orthographe qui ont caractérisé l'évolution de la langue portugaise écrite depuis le XIXe siècle. Ainsi, exempto (isento), paiz (país), assumpto (assunto), commetter (cometer), hierarchia (hierarquia), officialato (oficialato), reproduzil-as (reproduzi-las), delle (dele), nelle (nele), funcção (função), technica (técnica), paragrapho (parágrafo), acclamação (aclamação), princeza (princesa), aggressão (agressão), theor (teor), capitulo (capítulo), physica (física), dynastia (dinastia), etc.

2 - qui concernent les différences qui existent encore aujourd'hui. Ainsi,

Dans les textes portugais :

acção, acto, factor, sector, efectuar, etc.,

amnistia, indemnizar, etc.,

adoptar, adopção, etc.,

económico, autónomo, etc.

Dans les textes brésiliens :

ação, ato, fator, setor, efetuar, etc.,

anistia, indenizar, etc.,

adotar, adoção, etc.

econômico, autônomo, etc.

II - la version normalisée

Dans ce cas, les différences disparaissent. Pour cette version, nous nous sommes inspirés (quoique de loin) des éléments qui figurent dans la dernière réforme proposée aux pays lusophones et dont on nous annonce l'entrée en vigueur… Cette réforme n'est pas (encore…) adoptée et nous nous sommes en conséquence limités à "neutraliser" les différences (finalement peu nombreuses), marquées essentiellement par certains traits qui opposent les usages portugais aux usages brésiliens. La réforme proposée prévoit, par exemple, la disparition du "c" de acção ainsi que celle du "p" de adoptar…

En conséquence,

Si l'usager fait appel à la version originale :

- il aura accès à toutes les marques d'édition et aux caractéristiques orthographiques d'une époque ou encore d'une aire géographique donnée (par exemple, le Brésil).

Si l'usager fait appel à la version normalisée :

- il aura accès à un texte dans lequel auront disparu :

1 - les marques d'édition :

N°, N.°, n°, n.° ou encore N. sont remplacés par "número" ;

§, Par. et Par sont remplacés par "parágrafo", et ainsi de suite ;

2 - les caractéristiques orthographiques d'une époque disparaissent :

Exempto devient partout isento, paiz devient país, et ainsi de suite ;

3 - les différences (non fondamentales) d'usage (particulièrement Portugal/Brésil) sont "gommées" :

acção devient partout ação, adopção devient adoção, et ainsi de suite. Les oppositions ou différences du type facto / fato, registo / registro, qui ne sont naturellement pas de même nature, sont conservées.

Le cédérom

Le cédérom a été conçu à Nice, à l'UPRES A Bases, Corpus et Langage (CNRS-INaLF). C'est le premier cédérom d'une série thématique dont la réalisation est prévue, dans le cadre des développements à venir de la base de données textuelles PORTEXT - dont les éléments essentiels sont disponibles à l'adresse http://floripa.unice.fr (pour obtenir le mot de passe, envoyez un message à l'adresse électronique donnée dans la fenêtre de dialogue).

Ce cédérom fait largement appel aux données de la base en référence ; il est géré par le logiciel Hyperbase (dont la réalisation est due à Étienne BRUNET). Il s'agit d'une version spécialement conçue à cet effet.

Image n° 1: Page d'ouverture du cédérom

La partie documentaire (en haut)
Les fonctions statistiques (en colonne)

Image n° 2: le dictionnaire

Il suffit de cliquer sur "caução", par exemple, pour accéder à toutes les différentes pages dans lesquelles se trouve cette forme.

Image n° 3:

Un exemple concernant la forme "caução" - dans son contexte le plus large (page de la constitution brésilienne de 1988.

Image n° 4:

Quelques cas de cooccurrence : les formes LIBERDADE et DEMOCRACIA sont associées, par exemple, dans la constitution angolaise (page 324), dans la constitution du Cap Vert (page 376), dans la constitution de Guinée-Bissau (page 553), ou encore dans la constitution du Mozambique (page 499).

Le logiciel utilisé permet d'accéder à des données relatives à des sous-ensembles spécifiques, par titre, domaine ou aire géographique. L'usager peut en conséquence isoler un certain nombre de textes et constituer un sous-corpus - qui devient alors le corpus de travail (par exemple, uniquement les textes concernant le Portugal, ou encore les constitutions africaines…). Dans ce cas, il est possible de comparer entre eux plusieurs sous-ensembles (Portugal et Brésil, par exemple).

Dans la partie documentaire, l'usager peut accéder à des contextes, des concordances, des cooccurrences, etc., à l'intérieur de la totalité du corpus ou uniquement dans le corpus de travail préalablement constitué. Les fonctions statistiques permettent en outre d'obtenir des graphiques de distribution - pour un mot, par exemple, ou encore pour la totalité des formes mises en jeu. Tous les calculs statistiques - réalisés en amont - permettent par ailleurs à l'usager de connaître les données qui concernent la distribution des différentes formes ou unités, la structure du vocabulaire, la distribution des hapax, la richesse lexicale et, naturellement, le vocabulaire spécifique (ou caractéristique) de chaque texte ou sous-ensemble.

Tous les textes ont été traités à Nice - notamment pour ce qui est de la normalisation orthographique et de la préparation des documents avant le traitement informatique. Sept textes ont toutefois été saisis au Portugal, à l'Universidade Nova de Lisboa (Centro de Estudos Comparados).

Image n° 5:

Analyse factorielle.

À partir du tableau des distances. Plusieurs groupes se constituent, manifestant leur cohérence : les textes portugais les plus récents sont à droite (1976, 1982), les constitutions africaines se trouvent sur l'axe horizontal, à droite. Les textes brésiliens républicains occupent le quart inférieur gauche, etc.

Richesse lexicale (données générales)

Réel : vocabulaire mis en jeu dans chaque texte (formes différentes)

Titre: en quatre lettres:

CAAN = Constitution angolaise
P822 = Constitution portugaise de 1822

n°	réel	théo	écart	réduit	Hapax	réduit	Titre
1	2102	3682	-1580	-26.04	29	-4.17	CAAn
2	3487	5532	-2045	-27.49	75	-6.36	CAVe
3	1959	3382	-1423	-24.47	41	-1.13	CAGB
4	2043	3577	-1534	-25.65	45	-1.60	CAMo
5	1711	3114	-1403	-25.14	28	-1.61	CAST
6	2685	4086	-1401	-21.92	118	4.32	P822
7	1876	3168	-1292	-22.95	16	-3.81	P826
8	1658	3026	-1368	-24.87	33	-0.24	P838
9	2012	3547	-1535	-25.77	44	-1.58	P911
10	2145	3362	-1217	-20.99	21	-3.91	P933
11	2479	3796	-1317	-21.38	9	-7.08	P971
12	3289	5053	-1764	-24.82	21	-9.47	P976
13	3378	5280	-1902	-26.18	6	-11.37	P982
14	3549	5559	-2010	-26.96	6	-12.05	P989
15	3717	5852	-2135	-27.91	29	-10.98	P997
16	4135	5055	-920	-12.94	482	31.66	B824
17	2676	4265	-1589	-24.33	105	1.83	B891
18	3808	4963	-1155	-16.39	162	3.60	B934
19	3446	5435	-1989	-26.98	126	-1.80	B937
20	3003	4310	-1307	-19.91	26	-6.78	B946
21	3241	4847	-1606	-23.07	19	-9.08	B967
22	3500	5225	-1725	-23.86	33	-8.91	B969
23	4785	6458	-1673	-20.82	281	5.03	B988
24	8110	8910	-800	-8.48	676	14.12	CCBr
25	5082	6854	-1772	-21.40	366	8.62	ComB
26	3160	5080	-1920	-26.94	154	2.26	LF45
27	2009	3729	-1720	-28.17	187	15.51	EAEU
28	3199	5733	-2534	-33.47	102	-4.92	CEEU
29	3558	7738	-4180	-47.52	315	0.88	EMAS
30	9089	13432	-4343	-37.47	848	-4.24	LGTP
31	12351	15809	-3458	-27.50	1808	10.78	CadP
32	9367	11974	-2607	-23.82	849	3.72	CivP
33	12525	18124	-5599	-41.59	1325	-16.94	ComP
34	9107	10762	-1655	-15.95	1344	31.69	CpeP
35	6840	12398	-5558	-49.92	440	-13.60	DinP
Tot	32353				10169

Vocabulaire spécifique B988 (Constitution brésilienne de 1988)

N°	Ecart	Corpus	Texte	Mot
23	26.16	33	22	pesquisa
23	25.74	47	26	servidores
23	22.70	43	22	orçamentárias
23	19.21	28	15	federativa
23	13.90	963	81	justiça
23	12.96	736	65	defesa
23	11.96	351	39	ensino
23	11.76	93	18	rural
23	11.34	47	12	agrária
23	9.42	144	19	ambiente
23	7.92	326	27	saúde
23	7.85	1852	86	social
23	6.87	184	17	previdência
23	6.65	398	27	assistência
23	6.61	175	16	salário
23	6.19	73	9	democrático
23	6.02	755	39	desenvolvimento
23	5.41	289	19	educação
23	5.13	150	12	mulher
23	5.10	48	6	cidadania
23	5.06	79	8	empregos
23	5.01	64	7	advogado

Pour plus de renseignements, faites parvenir un message au responsable scientifique de la base PORTEXT, à l'adresse suivante : [email protected]

_retour à la page principale_