env259

<ENV 259> ELRA: APPEL D'OFFRE ENRICHISSEMENT CORPUS DU FRANCAIS CONTEMPORAIN (ANNEXE: DONNEES TEXTUELLES DISPONIBLES) // CONVOCATORIA ENRIQUECIMIENTO DEL CORPUS DEL FRANCES CONTEMPORANEO (ANEXO: DATOS TEXTUALES)

21/12/98

***********Resumen en castellano***********

ELRA lanza una primera convocatoria para participar en el enriquecimiento de un corpus de francés contemporáneo, con el apoyo del Ministerio de Cultura de Francia y de la Délégation générale à la langue française. Se solicita a laboratorios universitarios e industriales que presenten sus proposiciones para la anotación de los textos disponibles en ELRA. El trabajo de señalización deberá abarcar partes comunes con el fin de disponer de un corpus que incluya diferentes tipos de anotaciones. Los autores de las propuestas deberán explicar detalladamente una cierta cantidad de puntos, entre los que destacan, por ejemplo (lista no exhaustiva): corte estructural preciso, transcripción de grafemas y fonemas, clasificación morfosintáctica y lematización, marcado de palabras compuestas y expresiones, anotación morfológica, análisis sintáctico superficial, localización y tipificación de las entidades nombradas, segmentación por tema, codificación de anáforas y correferencias, alineamient! o a nivel de la proposición con versiones traducidas, anotación semántica e indización libre o controlada. Los informes deberán incluir: una descripción técnica de los trabajos a llevar a cabo, un registro de vencimientos sobre el avance de los trabajos y las entregas previstas (la duración del proyecto no podrá ser superior a 12 meses) y un anexo financiero sobre el coste concreto de los trabajos que se habrán de realizar. Un comité científico evaluará la aceptación de los trabajos. Propuestas a hacer llegar a ELRA (en la medida de los pposibnle por c. elec.(en ficheroWord 6.0 o RTF adjunto) antes del 1 de febrero de 1999. ELRA/Elda, 55-57 rue Brillat Savarin, 75013 Paris, Francia. C. elec.: <[email protected]>
(El texto en francés siguiente incluye un anexo con los datos textuales disponibles en ELRA)

***********Texte en français***********

[source: Valérie Mapelli <[email protected]> dans liste [email protected]]

APPEL D'OFFRE: CONTRIBUTION A LA REALISATION DE CORPUS DU FRANCAIS CONTEMPORAIN

Dans le cadre du programme d'action gouvernemental français pour la société de l'information (PAGSI), ELRA lance un premier appel d'offre pour l'enrichissement de corpus du français contemporain, avec le soutien du ministère de la culture français et de la Délégation générale à la langue française.

La mise au point de tels corpus devra permettre de contribuer à un bon traitement informatique du français.

Pour réaliser un tel ensemble de corpus, ELRA propose d'utiliser des données textuelles et orales dont elle a acquis les droits de distribution.

Les laboratoires universitaires et industriels sont appelés à présenter leurs propositions pour l'annotation de textes disponibles à ELRA avec un plan d'étiquetage conforme à l'état de l'art et aux besoins de la communauté. Les niveaux d'étiquetage peuvent aller d'un niveau phonétique (transcription graphèmes => phonèmes) à un niveau sémantique, en passant par le niveau morphosyntaxique. L'étiquetage peut aussi traiter simplement d'un balisage SGML (ou XML). Les standards d'annotation doivent absolument tenir compte de travaux en cours dans le cadre des projets européens EAGLES (http://www.ilc.pi.cnr.it/EAGLES/home.html) et PAROLE (http://www2.echo.lu/langeng/en/le2/le-parole/le-parole.html).

Le travail de balisage devra porter sur des parties communes afin de disposer de corpus avec des types d'annotations différents. Le Comité d'experts se réserve le droit de spécifier de telles parties communes dans le but de maximiser les interactions futures au sein de la communauté scientifique et technique.

En particulier les proposants devront expliciter dans leurs propositions pour l'annotation de textes disponibles à ELRA, un certain nombre de points qui peuvent traiter des éléments de la liste suivante (donnée à titre indicatif et sans exhaustivité):
o Découpage structurel fin (niveaux 1, 2 et partiellement 3 de CES)
· divisions structurelles de base (titres, légendes, paragraphes);
· marquage au niveau du paragraphe (citations longues, listes);
· marquage au sein du paragraphe (phrases, abréviations, dates, indications de quantités, nombres).
o Transcription de graphèmes et phonèmes
o Etiquetage morphosyntaxique et lemmatisation
o Marquage des mots composés et expressions
o Annotation morphologique (morphologie dérivationnelle et flexionnelle)
o Analyse syntaxique superficielle: repérage des verbes et des syntagmes nominaux
o Repérage et typage des entités nommées ("named entitiesé): noms propres de personnes, de lieux, de sociétés...
o Segmentation par thème au sein d'un même document (isoler les segments thématiquement cohérents)
o Codage des anaphores et coréférences
o Alignement au niveau de la proposition avec les versions traduites
o Annotation sémantique
o Indexation libre ou contrôlée (dans ce cas, le langage documentaire
utilisé sera fourni avec le corpus annoté).

Par ailleurs les proposants devront absolument démontrer l'aspect applicatif des travaux de balisage qu'il se proposent de réaliser, et ce au-delà du laboratoire qui effectue ce travail. En particulier le Comité d'experts attachera une importance capitale à la présentation de l'utilité du corpus final ainsi que des possibilités d'exploitation après balisage.

Pour permettre une évaluation du travail, les proposants devront fournir un protocole de validation de leur balisage en tenant compte de l'état de l'art. Cela permettra de mieux définir les conditions de réception des travaux à réaliser. On considère que des engagements sur un taux (pourcentage) d'étiquettes correctes constituera un des éléments de ce protocole.

Les dossiers doivent comprendre:
o Une description technique des travaux à entreprendre,
o Un échéancier concernant l'avancement des travaux et les livraisons prévues. La durée du projet ne peut excéder 12 mois.
o Une annexe financière concernant le coût précis des travaux à réaliser.

Le dossier doit être visé par une personne dûment habilitée à engager l'organisme soumissionnaire. Le proposant devra s'engager à céder à ELRA tous les droits sur les résultats des travaux exécutés dans le cadre de ce contrat de prestation de service.

La validation des travaux techniques sera effectuée par un comité scientifique qui évaluera les travaux réalisés et décidera de l'acceptation du travail fourni.

CRITERES DE SELECTION

Les critères retenus pour financer les propositions prendront en considération l'adéquation à l'appel d'offre, la qualité scientifique des équipes participantes, le coût total du projet par rapport à la taille du corpus.
De plus, pour être acceptés, ces projets doivent pouvoir raisonnablement prétendre aboutir dans le temps imparti, à savoir 12 mois. Les réponses devront indiquer si les travaux proposés ont reçu des financements d'organismes publics français ou communautaires.

PROCEDURE DE SELECTION

Chaque projet sera soumis à l'expertise d'un Comité d'experts. Au vu de ces expertises, le Comité dressera la liste des projets sélectionnés. Le Comité pourra suggérer une coopération entre les projets présentés indépendamment ou associer de nouvelles compétences.

DROIT D'UTILISATION DES DONNEES BRUTES ET BALISEES

Pour chaque proposant retenu, ELRA octroiera des droits d'utilisation des données brutes et balisées exclusivement pour leurs propres besoins de recherche en ingénierie linguistique.

Si les résultats de ces recherches donnent lieu à la production de ressources dites dérivées susceptibles d'être valorisées, la diffusion, la communication et l'exploitation commerciale de ces ressources ne pourront se faire sans l'autorisation ou la participation d'ELRA, les conditions de cette distribution ou exploitation étant à négocier au cas par cas.

DATE LIMITE DE DEPOT DES PROPOSITIONS

Les propositions doivent parvenir à ELRA de préférence par courrier électronique (fichier WORD 6.0 ou RTF attaché) ou par la poste à:

Adresse électronique: <[email protected]>
Adresse postale: ELRA/ELDA
55-57 rue Brillat Savarin
F-75013 Paris
et ce avant le <1er février 1999>.

ELRA accusera réception du document. Le proposant devra s'assurer qu'un tel accusé de réception lui est bien notifié.

______________________________________________________

ANNEXE: DONNEES TEXTUELLES DISPONIBLES A ELRA

1) Corpus de textes du quotidien Le Monde (années 1987 à l'année en cours)
L'archivage des articles du quotidien français Le Monde a débuté le 1er janvier 1987. Les textes sont disponibles sous forme de texte ASCII balisé par des délimiteurs spécifiques qui concernent le début-fin d'un article, nom de l'auteur, mots clés, date de parution, etc. Chaque mois comprend environ 10
MB de données (soit 120 MB par an). Un choix de données de 1987 à l'année en cours est disponible à ELRA.

2) MLCC - Corpus parallèle du Journal Officiel de la Communauté Européenne
Ce corpus est déjà annoté à divers niveaux et utilise des étiquettes SGML. Il faudra donc faire une proposition d'amélioration et la justifier au vu de l'utilisation attendue du corpus. Ce corpus parallèle multilingue comporte des données traduites dans neuf langues européennes: danois, néerlandais, anglais, français, allemand, grec,
italien, portugais et espagnol. Ces données alignées, fournies par la Commission Européenne, sont regroupées sous la forme de deux sous-corpus provenant du Journal Officiel de la Communauté européenne:

Journal Officiel de la Commission Européenne, Séries C: Questions écrites de 1993

Ce sous-corpus comporte des transcriptions de questions et de réponses sur des sujets traitant de la Communauté européenne. Ces données sont publiées régulièrement dans une section des séries C du Journal Officiel de la Communauté européenne dans toutes les langues officielles (comportant neuf langues en 1993). Ce corpus contient des questions écrites effectuées par les membres du Parlement européen, ainsi que les réponses correspondantes fournies par la Commission européenne en 9 versions parallèles. La taille du corpus est d'environ 10,2 millions de mots (près de 1,1 million de mots par langue).

· Journal Officiel de la Commission Européenne, Annexe: Débats du Parlement européen 1992-1994

Ce corpus parallèle contient des enregistrements de séances parlementaires publiées en annexe du Journal Officiel de la Communauté européenne: Débats du Parlement européen. Ces débats parlementaires sont des enregistrements de ce qui a été dit par les membres au cours de cette réunion, ainsi que des données fournies pour cette réunion. Les données d'origine d'où les traductions ont été produites sont composées de transcriptions des séances, sachant que chaque membre parle dans la langue de son choix. La version finale est composée de neuf versions parallèles de ce document. Les textes fournis comprennent les débats du Parlement de janvier 1992 à juillet 1994. Ce sous-corpus contient de 5 à 8 millions de mots par langue.

3) Sénat - Corpus textuel du Sénat (Rapports divers et Journal Officiel)

Il s'agit de données textuelles provenant du site Internet du Sénat. Le choix des types de rapports et de la quantité de données se fera en étroite liaison avec ELRA.