Modelo computacional para el procesamiento de corpus textuales

ÍNDICE
	EDITORIAL
	TERMINOLOGÍA
	REDES DE TERMINOLOGÍA
	EN DIRECTO DE TERMILAT
	INDUSTRIAS DE LA LENGUA
· Registro de Lexicografía Argentina · Diccionario de sinónimos en línea · MultiTrans · Modelo computacional para el procesamiento de corpus textuales · Nouveau Dictionnaire des difficultés du français moderne
	DICCIONARIOS Y AFINES
	LINGÜÍSTICA Y LENGUAS
	TRADUCCIÓN E ICT
	ECOS DE LA LISTA SIIT
	REVISTA DE PUBLICACIONES
	ENLACE
	ECOS
	AGENDA DE DIRECCIONES

INDUSTRIAS DE LA LENGUA

Desarrollo de un
Modelo computacional para el procesamiento de corpus textuales
basado en la etiquetaci�n autom�tica

Recientemente se realiz� la defensa del doctorado titulado "Desarrollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetaci�n autom�tica", del autor Leonel Ruiz Miyares, del Centro de Ling��stica Aplicada del Ministerio de Ciencia, Tecnolog�a y Medio Ambiente de la Delegaci�n Territorial de Santiago de Cuba, Cuba (ver tambi�n "En directo de Termilat", Terminometro n� 39).

En la tesis se realiza un an�lisis detallado de la etiquetaci�n autom�tica de corpus textuales, las diferentes v�as de desambiguar las palabras con posibilidad de tener m�s de una categor�a gramatical, seg�n el contexto donde se encuentre, principalmente sobre la base de la teor�a probabil�stica de los modelos ocultos de Markov.

La tesis describe la estructura, funcionamiento y descripci�n del modelo computacional que propone esta investigaci�n, el cual se denomina Etiproct (Etiquetador y Procesador de Corpus Textuales) y describe sus dos secciones: la de la etiquetaci�n autom�tica de los textos y la del procesamiento de la informaci�n ling��stica. La aplicaci�n del Etiproct a dos corpus textuales completamente diferentes desde el punto de vista lexical refleja la alta efectividad del sistema.

Se procesaron 358 textos escritos por alumnos de secundaria b�sica de ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%. Por su parte, se analizaron 131 textos de la prensa escrita cubana y la efectividad fue de un 97.16%. Otra de las novedades del sistema que describe esta tesis es la codificaci�n autom�tica de los lapsogramas cometidos por los estudiantes en las composiciones escritas.

El reconocimiento de palabras compuestas, el enriquecimiento constante del lexic�n, la creaci�n del aspecto sem�ntico dentro del mismo y la larga relaci�n de resultados linguoestad�sticos, entre otros, son los aportes m�s significativos del primer etiquetador gramatical autom�tico de corpus textuales creado en Cuba, objetivo principal de esta tesis.
Leonel Ruiz Miyares, Centro de Lingüística Aplicada, Ministerio de Ciencia, Tecnología y Medio Ambiente, Santiago de Cuba, Cuba