|
Desarrollo
de un
En la tesis se realiza un an�lisis detallado de la etiquetaci�n autom�tica de corpus textuales, las diferentes v�as de desambiguar las palabras con posibilidad de tener m�s de una categor�a gramatical, seg�n el contexto donde se encuentre, principalmente sobre la base de la teor�a probabil�stica de los modelos ocultos de Markov. La tesis describe la estructura, funcionamiento y descripci�n del modelo computacional que propone esta investigaci�n, el cual se denomina Etiproct (Etiquetador y Procesador de Corpus Textuales) y describe sus dos secciones: la de la etiquetaci�n autom�tica de los textos y la del procesamiento de la informaci�n ling��stica. La aplicaci�n del Etiproct a dos corpus textuales completamente diferentes desde el punto de vista lexical refleja la alta efectividad del sistema. Se procesaron 358 textos escritos por alumnos de secundaria b�sica de ocho provincias cubanas, donde se obtuvo una efectividad de 98.15%. Por su parte, se analizaron 131 textos de la prensa escrita cubana y la efectividad fue de un 97.16%. Otra de las novedades del sistema que describe esta tesis es la codificaci�n autom�tica de los lapsogramas cometidos por los estudiantes en las composiciones escritas. El
reconocimiento de palabras compuestas, el enriquecimiento constante
del lexic�n, la creaci�n del aspecto sem�ntico dentro del mismo y
la larga relaci�n de resultados linguoestad�sticos, entre otros, son
los aportes m�s significativos del primer etiquetador gramatical autom�tico
de corpus textuales creado en Cuba, objetivo principal de esta tesis.
|