pagina principal DTIL

 

 

SISTEMA DIGESTO

(Sistema Integrado para o Tratamento da Informação Jurídica)

PONTO DE PARTIDA PARA UM ESTUDO TERMINOLÓGICO

Libânia Maria Romana Ângelo

Instituto de Informática (Ministério das Finanças), Lisboa (Portugal)

 

1 - Descrição do sistema Digesto

O Projecto DIGESTO foi instituído pela Resolução do Conselho de Ministros nº. 48/92, publicada no Diário da República I Série B, de 31 de Dezembro de 1992.

De acordo com a citada Resolução, o seu objectivo é "tornar a informação jurídica acessível aos operadores jurídicos, às instituições ligadas ao estudo e ao ensino do Direito, à Administração Pública, aos cidadãos e às empresas".

O DIGESTO como "sistema integrado para o tratamento da informação jurídica" funciona em rede, compreendendo áreas distintas, sendo composto pelas seguintes bases:

- Bases Legislativas (central e sectoriais)

- Bases Especiais

2 - Bases Legislativas

As bases legislativas contêm a legislação portuguesa publicada no Diário da República, I e II séries. O tratamento da legislação e posterior carregamento nas bases que integram este sistema é assegurado actualmente por três organismos da Administração Pública, que actuam de uma forma cooperativa, produzindo as seguintes bases:

2.1 - PCMLEX

A PCMLEX, base central do sistema, é produzida pela Secretaria-Geral da Presidência do Conselho de Ministros, designada pela sigla SG-PCM, que assegura o tratamento de todos os diplomas publicados na I série do Diário da República e parte dos publicados na II série;

2.2 - MFLEX

A MFLEX, uma das bases sectoriais do sistema, é produzida pela Secretaria-Geral do Ministério das Finanças, designada pela sigla SG-MF, que assegura o tratamento dos diplomas publicados no Diário da República II Série, da área das finanças;

2.3 - SOCIOLEX

A SOCIOLEX, a outra base sectorial do Digesto, é produzida pela Secretaria-Geral do Ministério da Qualificação e Emprego, designada pela sigla SG-MQE, que assegura o tratamento dos diplomas publicados no Diário da República II Série, das áreas do trabalho, emprego e formação profissional.

3 - Bases especiais

As bases especiais compreendem, tal como vem expresso na Resolução do Conselho de Ministro nº. 48/92, nº.4 na alínea b) "outra documentação de natureza jurídica emitida por entidades dotadas de poder normativo" e alínea c) "informação complementar considerada pertinente".

3.1 - REGTRAB - Regulamentação do Trabalho

A REGTRAB, uma das bases especiais do sistema, é produzida pela Secretaria-Geral do Ministério da Qualificação e Emprego (SG-MQE), que assegura o tratamento dos Instrumentos de Regulamentação Colectiva do Trabalho (IRCT), publicados no Boletim do Trabalho e Emprego (BTE) I Série.

3.2 - DGCP-DOUT - Doutrina da Contabilidade Pública

A DGCP-DOUT, a outra base especial do Digesto, é produzida pela Direcção-Geral do Orçamento que assegura o tratamento das circulares e pareceres jurídicos emanados desta Direcção-Geral.

4 - Papel do Instituto de Informática no Sistema DIGESTO

O Instituto de Informática é o hospedeiro (HOST) das bases de dados que integram o Sistema Digesto. De acordo com o definido no diploma já citado de criação do DIGESTO (Resolução do Conselho de Ministros nº. 48/92) foram-lhe atribuídas as seguintes funções:

- Disponibilizar as infra-estruturas tecnológicas de

suporte ao Sistema;

- Controlar e garantir as condições técnicas de acesso às

bases de dados que integram o Sistema;

- Proporcionar formação técnica aos produtores e

utilizadores do Sistema;

- Apresentar soluções tecnológicas que contribuam para o

desenvolvimento do Sistema;

- Administrar as bases de dados do Sistema de modo a

garantir a coerência da informação aí residente, tendo

em vista a compatibilidade informática;

- Promover o intercâmbio de estudos e experiências, no

domínio da informática jurídica, com instituições

nacionais e estrangeiras.

5 - Desenho informático do sistema Digesto1

O suporte lógico deste sistema é o UNIDAS (UNIsys Document Accessing System). Encontra-se instalado no Instituto de Informática, numa máquina Unisys 2200/500.

Cada documento em UNIDAS é composto de treze partes: umas formatadas, outras de texto livre e outras ainda contendo descritores.

As partes formatadas são constituídas por campos que contêm os elementos identificativos dos diplomas, nomeadamente o tipo de diploma (lei, decreto-lei, portaria, etc.), o seu número, a entidade emitente, a data da publicação, o nome da publicação (Diário da República, Boletim do Trabalho e Emprego, etc.) e a página. Os campos enumerados constituem a Parte 1 do documento.

As partes de texto livre contêm o resumo dos documentos e/ou o seu texto integral. Todos os documentos contêm um resumo (Parte 2), encontrando-se, porém, alguns em texto integral (Parte 13). No que concerne às bases de legislação as partes de texto livre ainda referem, em relação a cada diploma, o direito comunitário derivado (Parte 5), as aplicações: aplica e aplicado por (Partes 6 e 7), as modificações: modificações sofridas e modificações produzidas (Partes 8 e 9) e a jurisprudência associada (Parte 10).

As partes descritoras (Partes 3 e 4) contêm os descritores, pelos quais o documento pode ser pesquisado na base.

6 - Tratamento da informação

A unidade documental desta base é o diploma. A preparação dos diplomas com o fim de os introduzir nas bases de dados do sistema DIGESTO obedece a várias fases que se podem identificar da seguinte forma:

- análise jurídica

- análise documental

 

 

6.1 - Análise jurídica

A análise jurídica de cada diploma é feita na perspectiva de identificar as conexões existentes entre eles. Estas conexões são recíprocas e consubstanciam-se através das referências à norma habilitante "aplicações (aplica e aplicado por)" e às "modificações (modificações produzidas e sofridas)".

Poder-se-á citar como exemplo destas conexões a seguinte: O Despacho nº. 2/93, da PCM aplica a Resolução nº. 48/92 da PCM (esta informação será inscrita na parte 6 deste documento); a sua recíproca será: a Resolução nº. 48/92 da PCM é aplicada pelo Despacho nº. 2/93 da PCM (informação a constar na parte 7 deste último documento).

6.2 - Análise documental

Na fase de tratamento documental poderemos identificar duas etapas que são a catalogação e a indexação, tendo a primeira a ver com a extracção dos elementos formais dos diplomas e a segunda com a análise do seu conteúdo informativo. Assim:

6.2.1 - Catalogação

A catalogação implica a análise do documento no sentido de extrair os elementos formais que o identificam ("Regras Portuguesas de Catalogação, Lisboa: Instituto Português do Património Cultural, 1984). No caso da legislação e em relação a cada diploma fixa-se a indicação do seu tipo, número, data e entidade emitente assim como os dados referentes à publicação que o contém indicando o nome, número, data e página onde o mesmo se encontra publicado. Na base de dados de legislação estes dados são recolhidos na Parte 1 do documento.

6.2.2 - Indexação

A indexação implica uma análise já não dos elementos formais do documento mas do seu conteúdo informativo. A indexação, segundo a definição dada na "Norma portuguesa NP 3715 - Documentação: método para a análise de documentos, determinação do seu conteúdo e selecção de termos de indexação, ed. Instituto Português da Qualidade, Lisboa, 1989" é a "acção que consiste em descrever ou caracterizar um documento relativamente ao seu conteúdo, representando esse conteúdo numa linguagem documental".

É nesta fase da análise documental que são seleccionados, para cada diploma, os conceitos a reter e escolhidos os descritores considerados apropriados para a recuperação da informação. De acordo com a "Norma Portuguesa NP4036- Tesauros monolingues: directivas para a sua construção e desenvolvimento, ed. Instituto Português da Qualidade, Lisboa, 1993" descritor é o "termo que se utiliza na indexação para representar um determinado conceito, por vezes chamado termo preferencial".

Estes descritores são inscritos na parte 3 do documento, se for a base central a indexar, ou na parte 4 no caso de a indexação ser feita pelas bases sectoriais.

7 - Linguagem documental

O conceito de linguagem documental segundo Jacques Chaumier em "Les langages documentaires. Paris: Entreprise Moderne d'Edition, 1978" nasceu ao mesmo tempo de um novo tipo de utensílio de descrição dos documentos: os tesauros. A linguagem documental pode ser entendida como um sistema de representação do conteúdo dos documentos e das questões colocadas pelo utilizador, de forma a facilitar a pesquisa e consequente recuperação dos documentos, num sistema de informação.

8. Tesauros

Um dos instrumentos por excelência de suporte da linguagem documental é o tesauro.

Citando ainda a Norma Portuguesa NP4036-1992 "Tesauros monolingues: directivas para a sua construção e desenvolvimento" tesauro é definido como o "vocabulário de uma linguagem de indexação controlada, organizado formalmente de maneira a explicitar as relações estabelecidas a priori entre os conceitos, por exemplo relação genérica e específica".

O tesauro que tem vindo a ser utilizado, como referência, para a indexação da informação jurídica constante do Sistema Digesto é o EUROVOC, Editado pelo Serviço das Publicações Oficiais das Comunidades Europeias, versão de 1995.

9 - Acesso à informação

Uma das preocupações que se coloca aos produtores destas bases é o da disponibilização de formas de pesquisa que permitam aos utilizadores uma recuperação da informação pertinente (entendendo-se por pertinência a qualidade da prestação documental que permite que esta corresponda exactamente a um determinado pedido de informação), isto é, que no resultado das pesquisa não se verifique ruído (documentos não pertinentes) ou silêncio (ausência de documentos pertinentes).

Enumeram-se a seguir algumas das possibilidades de pesquisa que o UNIDAS permite e que são utilizadas para a recuperação da informação residente nas bases do Sistema DIGESTO:

- por chave, isto é por campos e seus conteúdos. Esta informação está contida num ficheiro chamado impropriamente de Tesauro (T1); assim, se o utilizador pretender localizar na base um determinado diploma conhecendo, por hipótese, o seu número e o seu tipo, poderá efectuar uma pesquisa directamente por esses elementos;

- por palavra: encontra-se disponível no UNIDAS uma forma de "indexação automática", portanto em língua natural, em que o sistema fixa automaticamente, também num tesauro (T2), todas as palavras do resumo ou texto integral, podendo a pesquisa ser efectuada utilizando qualquer uma dessas palavras;

- por descritores, utilizando os tesauros (T28, T34), considerando-se aqui o termo tesauro na sua verdadeira acepção. Neles está contida a linguagem documental controlada, encontrando-se definidas para os descritores que os compõem as suas relações de equivalência, hierárquicas e associativas.

Considera-se esta a forma preferencial de pesquisa, justificada, aliás, pela confrontação dos resultados das pesquisas efectuadas, e indicados nos quadros abaixo.

Em qualquer das formas de pesquisa acima referidas podem ser utilizados os operadores booleanos de intercepção (AND), de conjugação (OR) ou de excepção (NOT).

No que se refere à primeira forma de pesquisa - por chave - ela só é eficaz se conhecerem, pelo menos, dois elementos do documento a pesquisar como, por exemplo, o tipo de diploma e o seu número;

No que se refere às outras duas formas de pesquisa, por palavra ou por descritor, analisaremos de seguida algumas das situações que podem ocorrer.

Considerando-se a linguagem jurídica não somente técnica mas específica "Jean-Louis Sourioux e Pierre Lerat: Le langague du droit. Paris:PUF,1975" poder-se-ia supor que a taxa de pertinência seria elevada ao utilizar-se a forma de pesquisa termo a termo ou conjugando termos contidos nos textos dos diplomas ou nos resumos, isto é, utilizando a língua natural para a recuperação da informação. No entanto, como abaixo se demonstra, verificámos que o resultado de uma pesquisa efectuada com base nas palavras do resumo2, tem uma taxa de pertinência baixa.

O ruído ou silêncio documentais podem ser determinados, como verificámos, por fenómenos de polissemia e/ou sinonímia.

No sentido de ilustrarmos estes fenómenos a nossa análise vai centrar-se sobre um conjunto de documentos pesquisados nas bases de dados de legislação PCMLEX e MFLEX utilizando os Tesauros T28(PCMLEX) e T34(MFLEX).

As formas de pesquisa foram as seguintes:

- em linguagem documental, utilizando descritores;

- em língua natural, pesquisando as palavras nos resumos dos diplomas.

 

1º caso - Ponto de partida da pesquisa: linguagem

documental (tesauros controlados)

A pesquisa efectuou-se a partir dos tesauros ligados a estas duas bases (T28,T34) sendo escolhido o descritor "VENCIMENTO" contido em ambos os tesauros. As balizas temporais definidas foram os anos de 1919 a 1996.

Para o descritor escolhido verificou-se que se encontrava definida nos tesauros a seguinte relação de equivalência:

VENCIMENTO

UF Salário

UF Remuneração

Sendo as relações recíprocas:

Salário

USE VENCIMENTO

Remuneração

USE VENCIMENTO

Entende-se por "relação de equivalência", segundo a NP4036 já citada "a relação entre descritores e não-descritores, quando existam vários termos que se podem considerar como representando o mesmo conceito, para fins de indexação".

Foram então recuperados das bases de legislação, utilizando o descritor VENCIMENTO, um conjunto de 1055 diplomas.

Sobre este conjunto foi efectuada uma nova pesquisa, esta já não por descritores mas por termos presumivelmente contidos nos resumos dos 1055 diplomas, tendo a preocupação de pesquisar não só o termo "vencimento" como os seus sinónimos documentais - "salário" e "remuneração" e nas suas formas singular e plural.

Os argumentos da nova pesquisa foram assim os termos vencimento(s) remuneração(ões), salário(s) conjugados com o operador booleano OR.

O objectivo era verificar o seguinte: se utilizássemos a língua natural na pesquisa, neste caso os dois sinónimos definidos para o descritor vencimento, recuperaríamos todos os diplomas que recuperámos, e que foram indexados com o descritor vencimento?

Verificou-se que o novo conjunto obtido, utilizando este método, continha apenas 666 documentos. Os resultados estão contidos no Quadro I e na Fig. I.

QUADRO I

ANOS

DESCRITOR

PALAVRA(S)

 
       

1919-1996

Vencimento

 

 

Remuneração(ões)

Vencimento(s)

Salário(s)

 

 

 

Nº. docs.

Nº. docs.

%

TOTAL

 

1055

666

61

 

 

FIGURA I

A - Linguagem documental

B - Lingua natural

 

Desta análise, poder-se-á concluir o seguinte: se não se indexassem os diplomas, atribuindo aos mesmos os descritos adequados, isto é, se não se utilizasse uma linguagem documental para a indexação e recuperação da informação contida na base perder-se-iam sobre este assunto 389 diplomas (aproximadamente 39%). Estaríamos, neste caso, perante um fenómeno de silêncio, resultante da sinonímia.

Em alguns resumos dos 1055 diplomas não vinha referido nenhum dos termos atrás indicados mas sim expressões do tipo "estrutura remuneratória", "escala remuneratória", existindo fraca possibilidade de serem todas listadas numa relação de equivalência e muito menos possível ocorrerem ao utilizador aquando da pesquisa.

2º caso - Ponto de partida da pesquisa: linguagem

documental/linguagem natural (tesauros

controlados e tesauro livre)

A pesquisa efectuou-se agora a partir dos tesauros controlados ligados a estas duas bases (T28-PCMLEX e T34-MFLEX) e a partir do tesauro livre (T2-indexação automática), sendo escolhido o descritor/palavra "RECURSO".

O período temporal para esta pesquisa abarca os anos compreendidos entre 1957 e 1996.

Verifica-se:

- que o descritor "RECURSO" apenas se encontra contido no tesauro da base central (T28) (linguagem documental) e existem 75 documentos na base indexados com este descritor;

- que a palavra (WRD) "RECURSO" (T2), contida no Tesauro onde são fixadas, automaticamente pelo sistema, todas as palavras do resumo ou texto integral dos diplomas, ocorre 328 vezes.

Os resultados estão contidos no Quadro II e ilustrados na Figuras III.

De uma leitura imediata poder-se-á concluir que a pesquisa efectuada com base no tesauro 2 (língua natural) contém ruído pois dos 328 documentos recuperados através da utilização da palavra RECURSO, só 75 (19%) tinham a ver com a resposta pretendida, podendo ou não conter o termo RECURSO no seu resumo. Este resultado é decorrente do fenómeno de polissemia.

QUADRO II

ANOS

DESCRITOR

PALAVRA(S)

 
       

1957-1996

RECURSO

RECURSO

 

 

 

Nº. docs.

Nº. docs.

%

TOTAL

 

75

328

19

 

 

FIGURA II

A - Linguagem documental

B - Língua natural

 

 

Podemos obter ainda, utilizando o operador booleano AND (de intercepção), um novo conjunto de documentos que obedeçam à seguinte condição: estejam indexados com o descritor "RECURSO" e contenham simultâneamente este termo no resumo. Desta pesquisa resulta que apenas 33 documentos obedeciam simultâneamente a estas duas condições. Neste caso estaríamos mais uma vez perante um fenómeno de silêncio documental.

 

Conclusão:

Perante a observação destes problemas na recuperação da informação jurídica residente nas bases de dados do DIGESTO pensámos levar a cabo um projecto de investigação sobre a terminologia do direito. Atendendo à amplitude do projecto definimos etapas e fixar-nos-emos, de início, no ramo do Direito Administrativo e concretamente nos sub-temas "Reforma do sistema retributivo da função pública" e "Modernização da gestão de pessoal da função pública".

Consultados especialistas de direito que têm acompanhado a constituição do Sistema DIGESTO foi detectada a dificuldade de clarificação de conceitos nas áreas acima referidas. A partir de 1990 verificou-se em Portugal uma grande produção legislativa dentro das áreas seleccionadas, não se tendo verificado, porém, uma grande preocupação de fixação da terminologia e definição dos novos conceitos contidos nos instrumentos normativos publicados.

Com este projecto pretende-se, assim, contribuir a curto prazo para:

- identificação da terminologia nas áreas em referência,

- elaboração, se possível, de definições,

e, numa perspectiva de tratamento documental,

- propor os descritores mais adequados para a indexação.

O trabalho que vimos desenvolvendo no projecto DIGESTO, desde o seu início, em 1987, na qualidade de documentalista - um dos vectores do triângulo (juristas, informáticos, documentalistas) - permitiu-nos olhar para o DIGESTO, agora já não projecto mas Sistema solidificado, não como um ponto de chegada mas sim como um ponto de partida e muito concretamente como um PONTO DE PARTIDA PARA UM ESTUDO TERMINOLÓGICO.


1O suporte lógico vai ser substituído pelo BASISPlus. O formato dos documentos sofrerá algumas alterações mantendo-se,porém, a sua estrutura: partes formatadas, de texto livre e descritoras.
2 Consideramos que foi efectuado para cada diploma um "resumo analítico" entendendo-se pelo mesmo, de acordo com a Norma Portuguesa 418(1988) - Resumos analíticos para publicações e documentação -"a representação abreviada e precisa do conteúdo de um documento...de modo a possibilitar a selecção na pesquisa por computador".

 

pagina principal >