INDUSTRIAS DE LA LENGUA

 

Desarrollo de un
Modelo computacional para el procesamiento de corpus textuales
basado en la etiquetaci�n autom�tica


Recientemente se realiz� la defensa del doctorado titulado "Desarrollo de un modelo computacional para el procesamiento de corpus textuales basado en la etiquetaci�n autom�tica", del autor Leonel Ruiz Miyares, del Centro de Ling��stica Aplicada del Ministerio de Ciencia, Tecnolog�a y Medio Ambiente de la Delegaci�n Territorial de Santiago de Cuba, Cuba (ver tambi�n "En directo de Termilat", Terminometro n� 39).

En la tesis se realiza un an�lisis detallado de la etiquetaci�n autom�tica de corpus textuales, las diferentes v�as de desambiguar las palabras con posibilidad de tener m�s de una categor�a gramatical, seg�n el contexto donde se encuentre, principalmente sobre la base de la teor�a probabil�stica de los modelos ocultos de Markov.

La tesis describe la estructura, funcionamiento y descripci�n del modelo computacional que propone esta investigaci�n, el cual se denomina Etiproct (Etiquetador y Procesador de Corpus Textuales) y describe sus dos secciones: la de la etiquetaci�n autom�tica de los textos y la del procesamiento de la informaci�n ling��stica. La aplicaci�n del Etiproct a dos corpus textuales completamente diferentes desde el punto de vista lexical refleja la alta efectividad del sistema.

Se procesaron 358 textos escritos por alumnos de secundaria b�sica de ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%. Por su parte, se analizaron 131 textos de la prensa escrita cubana y la efectividad fue de un 97.16%. Otra de las novedades del sistema que describe esta tesis es la codificaci�n autom�tica de los lapsogramas cometidos por los estudiantes en las composiciones escritas.

El reconocimiento de palabras compuestas, el enriquecimiento constante del lexic�n, la creaci�n del aspecto sem�ntico dentro del mismo y la larga relaci�n de resultados linguoestad�sticos, entre otros, son los aportes m�s significativos del primer etiquetador gramatical autom�tico de corpus textuales creado en Cuba, objetivo principal de esta tesis.
Leonel Ruiz Miyares, Centro de Lingüística Aplicada, Ministerio de Ciencia, Tecnología y Medio Ambiente, Santiago de Cuba, Cuba