Ciencias de la Computación e Inteligencia Artificial

Luis Miguel de Campos Ibáñez

TítuloNº AlumnosTutor/esCategorías
Estudio comparativo de herramientas software para la clasificación automática de texto: aplicación a la clasificación de iniciat 1 Luis Miguel de Campos Ibáñez
Juan Francisco Huete Guadix

Aprendizaje automático
Clasificación automática
Procesamiento de Leng. Natural
Descripción

El trabajo pretende profundizar en la temática de clasificación automática de texto, realizando un estudio de las diferentes herramientas de software libre disponibles en internet (weka, scikit-learn, R, ...). Para ello se realizará una revisión de las posibilidades existentes, y se realizará un estudio comparativo de las mismas en una aplicación concreta, la clasificación de iniciativas parlamentarias, en particular las del Parlamento de Andalucía. En este caso el problema es el siguiente: cada iniciativa parlamentaria que se registra en el parlamento (pregunta oral, proposición no de ley, etc) y posteriormente es debatida por los parlamentarios en una sesión plenaria o de una comisión específica, genera un documento de texto donde aparecen datos de la misma (fecha, número de diario de sesión donde aparece, código, extracto o título,...), junto con la transcripción literal de todas las intervenciones de los parlamentarios durante su debate. Posteriormente los documentalistas del parlamento le asocian a cada iniciativa unos descriptores extraídos del tesauro EUROVOC, que tratan de describir la temática de dicha iniciativa. El objetivo sería pues desarrollar une herramienta que ayudase a los documentalistas en dicha tarea, sugiriéndoles los descriptores más apropiados para cada iniciativa.

Conocimientos Previos

Técnicas de clasificación automática, minería de textos

Material

Software libre de clasificación documental y colecciones documentales del Parlamento de Andalucía

TítuloNº AlumnosTutor/esCategorías
Desarrollo de un sistema de recomendación de revistas científicas 1 Luis Miguel de Campos Ibáñez
Juan Francisco Huete Guadix

Clasificación automática
Gestión Bibliográfica
Preprocesamiento de datos
Recuperación de información
Descripción

El objetivo es desarrollar un sistema que, dado un artículo que un investigador trata de publicar en una revista científica (título, abstract y tal vez su texto completo), pueda recomendar, de acuerdo al contenido del artículo, cuál son las revistas más apropiadas para publicarlo. Para ello habrá que extraer información de los artículos de las diferentes revistas en una base de datos documental como SCOPUS o PUBMED para que sirvan de datos de entrenamiento, y posteriormente construir clasificadores de texto (donde las clases son las revistas). Alternativamente se puede construir un sistema de recuperación de información, donde la consulta la forma el artículo a publicar, y los documentos los artículos de la base de datos documental.

Conocimientos Previos

Sistemas de recuperación de información, técnicas de clasificación

Material

Bases de datos documentales de revistas, software libre de recuperación de información y clasificación.