Ciencias de la Computación e Inteligencia Artificial

Aprendizaje automático

TítuloNº AlumnosTutor/esCategorías
Estudio comparativo de herramientas software para la clasificación automática de texto: aplicación a la clasificación de iniciat 1 Luis Miguel de Campos Ibáñez
Juan Francisco Huete Guadix

Aprendizaje automático
Clasificación automática
Procesamiento de Leng. Natural
Descripción

El trabajo pretende profundizar en la temática de clasificación automática de texto, realizando un estudio de las diferentes herramientas de software libre disponibles en internet (weka, scikit-learn, R, ...). Para ello se realizará una revisión de las posibilidades existentes, y se realizará un estudio comparativo de las mismas en una aplicación concreta, la clasificación de iniciativas parlamentarias, en particular las del Parlamento de Andalucía. En este caso el problema es el siguiente: cada iniciativa parlamentaria que se registra en el parlamento (pregunta oral, proposición no de ley, etc) y posteriormente es debatida por los parlamentarios en una sesión plenaria o de una comisión específica, genera un documento de texto donde aparecen datos de la misma (fecha, número de diario de sesión donde aparece, código, extracto o título,...), junto con la transcripción literal de todas las intervenciones de los parlamentarios durante su debate. Posteriormente los documentalistas del parlamento le asocian a cada iniciativa unos descriptores extraídos del tesauro EUROVOC, que tratan de describir la temática de dicha iniciativa. El objetivo sería pues desarrollar une herramienta que ayudase a los documentalistas en dicha tarea, sugiriéndoles los descriptores más apropiados para cada iniciativa.

Conocimientos Previos

Técnicas de clasificación automática, minería de textos

Material

Software libre de clasificación documental y colecciones documentales del Parlamento de Andalucía