<ENV 259> ELRA: APPEL D'OFFRE ENRICHISSEMENT CORPUS DU FRANCAIS CONTEMPORAIN (ANNEXE: DONNEES TEXTUELLES DISPONIBLES) // CONVOCATORIA ENRIQUECIMIENTO DEL CORPUS DEL FRANCES CONTEMPORANEO (ANEXO: DATOS TEXTUALES)
21/12/98 ***********Resumen en castellano*********** ELRA
lanza una primera convocatoria para participar en el enriquecimiento
de un corpus de francés contemporáneo, con el apoyo
del Ministerio de Cultura de Francia y de la Délégation
générale à la langue française. Se solicita
a laboratorios universitarios e industriales que presenten sus proposiciones
para la anotación de los textos disponibles en ELRA. El trabajo
de señalización deberá abarcar partes comunes
con el fin de disponer de un corpus que incluya diferentes tipos de
anotaciones. Los autores de las propuestas deberán explicar
detalladamente una cierta cantidad de puntos, entre los que destacan,
por ejemplo (lista no exhaustiva): corte estructural preciso, transcripción
de grafemas y fonemas, clasificación morfosintáctica
y lematización, marcado de palabras compuestas y expresiones,
anotación morfológica, análisis sintáctico
superficial, localización y tipificación de las entidades
nombradas, segmentación por tema, codificación de anáforas
y correferencias, alineamient! o a nivel de la proposición
con versiones traducidas, anotación semántica e indización
libre o controlada. Los informes deberán incluir: una descripción
técnica de los trabajos a llevar a cabo, un registro de vencimientos
sobre el avance de los trabajos y las entregas previstas (la duración
del proyecto no podrá ser superior a 12 meses) y un anexo financiero
sobre el coste concreto de los trabajos que se habrán de realizar.
Un comité científico evaluará la aceptación
de los trabajos. Propuestas a hacer llegar a ELRA (en la medida de
los pposibnle por c. elec.(en ficheroWord 6.0 o RTF adjunto) antes
del 1 de febrero de 1999. ELRA/Elda, 55-57 rue Brillat Savarin, 75013
Paris, Francia. C. elec.: <[email protected]>
[source: Valérie Mapelli <[email protected]> dans liste [email protected]] APPEL D'OFFRE: CONTRIBUTION A LA REALISATION DE CORPUS DU FRANCAIS CONTEMPORAIN Dans le cadre du programme d'action gouvernemental français pour la société de l'information (PAGSI), ELRA lance un premier appel d'offre pour l'enrichissement de corpus du français contemporain, avec le soutien du ministère de la culture français et de la Délégation générale à la langue française. La mise au point de tels corpus devra permettre de contribuer à un bon traitement informatique du français. Pour réaliser un tel ensemble de corpus, ELRA propose d'utiliser des données textuelles et orales dont elle a acquis les droits de distribution. Les laboratoires universitaires et industriels sont appelés à présenter leurs propositions pour l'annotation de textes disponibles à ELRA avec un plan d'étiquetage conforme à l'état de l'art et aux besoins de la communauté. Les niveaux d'étiquetage peuvent aller d'un niveau phonétique (transcription graphèmes => phonèmes) à un niveau sémantique, en passant par le niveau morphosyntaxique. L'étiquetage peut aussi traiter simplement d'un balisage SGML (ou XML). Les standards d'annotation doivent absolument tenir compte de travaux en cours dans le cadre des projets européens EAGLES (http://www.ilc.pi.cnr.it/EAGLES/home.html) et PAROLE (http://www2.echo.lu/langeng/en/le2/le-parole/le-parole.html). Le travail de balisage devra porter sur des parties communes afin de disposer de corpus avec des types d'annotations différents. Le Comité d'experts se réserve le droit de spécifier de telles parties communes dans le but de maximiser les interactions futures au sein de la communauté scientifique et technique. En particulier
les proposants devront expliciter dans leurs propositions pour l'annotation
de textes disponibles à ELRA, un certain nombre de points qui
peuvent traiter des éléments de la liste suivante (donnée
à titre indicatif et sans exhaustivité): Le dossier doit être visé par une personne dûment habilitée à engager l'organisme soumissionnaire. Le proposant devra s'engager à céder à ELRA tous les droits sur les résultats des travaux exécutés dans le cadre de ce contrat de prestation de service. La validation des travaux techniques sera effectuée par un comité scientifique qui évaluera les travaux réalisés et décidera de l'acceptation du travail fourni. CRITERES DE SELECTION Les critères
retenus pour financer les propositions prendront en considération
l'adéquation à l'appel d'offre, la qualité scientifique
des équipes participantes, le coût total du projet par
rapport à la taille du corpus. Si les résultats de ces recherches donnent lieu à la production de ressources dites dérivées susceptibles d'être valorisées, la diffusion, la communication et l'exploitation commerciale de ces ressources ne pourront se faire sans l'autorisation ou la participation d'ELRA, les conditions de cette distribution ou exploitation étant à négocier au cas par cas. DATE LIMITE DE DEPOT DES PROPOSITIONS Les propositions doivent parvenir à ELRA de préférence par courrier électronique (fichier WORD 6.0 ou RTF attaché) ou par la poste à: Adresse
électronique: <[email protected]> ______________________________________________________ ANNEXE: DONNEES TEXTUELLES DISPONIBLES A ELRA 1) Corpus
de textes du quotidien Le Monde (années 1987 à l'année
en cours) 2) MLCC
- Corpus parallèle du Journal Officiel de la Communauté
Européenne Journal Officiel de la Commission Européenne, Séries C: Questions écrites de 1993 Ce sous-corpus comporte des transcriptions de questions et de réponses sur des sujets traitant de la Communauté européenne. Ces données sont publiées régulièrement dans une section des séries C du Journal Officiel de la Communauté européenne dans toutes les langues officielles (comportant neuf langues en 1993). Ce corpus contient des questions écrites effectuées par les membres du Parlement européen, ainsi que les réponses correspondantes fournies par la Commission européenne en 9 versions parallèles. La taille du corpus est d'environ 10,2 millions de mots (près de 1,1 million de mots par langue). · Journal Officiel de la Commission Européenne, Annexe: Débats du Parlement européen 1992-1994 Ce corpus parallèle contient des enregistrements de séances parlementaires publiées en annexe du Journal Officiel de la Communauté européenne: Débats du Parlement européen. Ces débats parlementaires sont des enregistrements de ce qui a été dit par les membres au cours de cette réunion, ainsi que des données fournies pour cette réunion. Les données d'origine d'où les traductions ont été produites sont composées de transcriptions des séances, sachant que chaque membre parle dans la langue de son choix. La version finale est composée de neuf versions parallèles de ce document. Les textes fournis comprennent les débats du Parlement de janvier 1992 à juillet 1994. Ce sous-corpus contient de 5 à 8 millions de mots par langue. 3) Sénat - Corpus textuel du Sénat (Rapports divers et Journal Officiel) Il s'agit de données textuelles provenant du site Internet du Sénat. Le choix des types de rapports et de la quantité de données se fera en étroite liaison avec ELRA. |