Ciencias de la Computación e Inteligencia Artificial

Minería de datos

TítuloNº AlumnosTutor/esCategorías
Sistema Distribuido para la Vigilancia Tecnológica y Análisis de Opiniones en Redes Sociales 1 Antonio Gabriel López Herrera

Análisis de datos
Bases de datos
Inteligencia artificial
Minería de datos
Preprocesamiento de datos
Procesamiento de Leng. Natural
Recuperación de información
Redes complejas
Redes sociales
Sistemas Inteligentes
Web 2.0
Descripción

 

Con el advenimiento de las nuevas TIC, soportadas en la Web 2.0, millones de personas crean billones de conexiones a través de los medios sociales cada día; con cada click y cada tecla que se pulsa se crean relaciones que, de manera agregada, forman una vasta red social. Usuarios de herramientas de comunicación social (email, blogs, microblogs, wikis, ...) envían de manera ferviente mensajes personales o públicos, publican enérgicamente opiniones sobre algún producto, alguna persona o evento, o contribuyen altruistamente a la comunidad de conocimiento para realizar colaboraciones, promover la herencia cultural, o avanzar en el desarrollo de algún producto o idea.

Apasionados de las redes sociales crean y comparten (textos, imágenes, vídeos, enlaces, …) y valoran o recomiendan productos, personas y servicios contando sus experiencias; proporcionando ayuda a otras personas (sean vecinos o vivan en el otro extremo del mundo), y expresando su creatividad (por ejemplo, fotos en Flickr o Instagram; vídeos en YouTube o Vimeo; …); contribuyendo así a la Inteligencia Colectiva de la Web.

El resultado de todo esto son vastas y tremendamente complejas redes de conexiones que relacionan personas con otras personas, documentos, localizaciones, conceptos, y toda clase de objetos (principalmente digitales).

Nuevas herramientas de minería de opiniones son ahora más que nunca necesarias para recopilar, analizar, visualizar y generar conocimiento profundo (en forma de insights) a partir de los conjuntos de conexiones formadas de millones de mensajes, links, posts, ediciones, actualizaciones de fotos y vídeos, revisiones y recomendaciones de productos. Estas herramientas podrían ayudar a empresas en varios sentidos:

 

  • A conocer qué se dice (ya sea bueno o no tan bueno) sobre los productos, servicios, departamentos de la empresa, o incluso de la propia empresa, en qué sentido versan las opiniones de los ya clientes o de los potenciales consumidores.

 

  • A conocer qué están haciendo empresas competidoras en el sector, a conocer cuáles son los productos más relevantes en base a las opiniones positivas y buenos comentarios en las redes sociales.

 

    • A detectar los posibles nichos de actuación, tanto a corto como a medio plazo, en los que la empresa pueda desmarcarse de sus competidores. Por ejemplo, un fabricante (o incluso distribuidor) de dispositivos móviles podría sondear los medios sociales y detectar que los consumidores valoran positivamente las pantallas grandes (o por el contrario negativamente las pequeñas) y en base a ello adelantarse al mercado y en consecuencia producir (o adquirir) nuevos dispositivos con estas características.
    • También podrían servir para localizar qué personas o grupos son los que más activamente interaccionan con la red (tienen muchos seguidores y aportan muchas y razonadas revisiones de productos), y por tanto influyendo en su entorno.

 

En el proyecto que solicitamos desarrollaremos una herramienta software para el análisis masivo de datos procede de diferentes medios sociales, cuyas principales características serán:

 

  • Poder agregar datos procedentes de diferentes medios sociales,
  • Poder realizar análisis combinados tanto de personas, como de objetos (productos, servicios, etc.), como de comentarios,
  • Que permita detectar el sentido (positivo, negativo o neutral) en el que giran los comentarios, cuantificando el grado en el que son positivos o negativos, así como predecir patrones de comportamiento a partir de dicha información.
  • Que permita realizar todo en una misma aplicación (descarga de datos, preprocesamiento, análisis y visualización).

Para más información contactar con el profesor.

Conocimientos Previos

Bases de datos

Lenguajes de programación: Java, R y/o Python

Interfaces REST

Sistemas Distribuidos para la Detección y Análisis de Comunidades en Información Científica 1 Antonio Gabriel López Herrera

Análisis de datos
Bases de datos
Desarrollo web
Evaluación de la ciencia
Gestión Bibliográfica
Minería de datos
Preprocesamiento de datos
Procesamiento de Leng. Natural
Programación paralela/distribuida
Recuperación de información
Redes complejas
Redes sociales
Web 2.0
Descripción

La cienciometría (o bibliometría aplicada   a la ciencia), es una disciplina cuyo elemento de trabajo es la información científica (fundamentalmente contenida en artículos de revista, contribuciones a congresos, etc.),  y cuyo objetivo es la extracción de conocimiento a partir de dicha información. De manera resumida, nos encontramos con dos tipos de cienciometría, cienciometría básica (de corte más estadístico) cuyo objetivo es la obtención de resúmenes (número de artículos, número de autores, números de citas, etc.) de la información científica; y la cienciometría avanzada, cuyo principal objetivo es la elaboración de resumen más sofisticados, que suelen finalizar con una representación visual, donde la estructura de red suele tener un papel destacado.

En el ámbito de la cienciometría avanzada, existen numerosas, técnicas, herramientas y algoritmos para extraer y/o visualizar la estructura de red subyacente en un conjunto de documentos científicos [1,2,3]. Cuando el conjunto de documentos no es muy grande, y la red subyacente es de pequeño tamaño, prácticamente cualquier algoritmo, técnica o herramienta es capaz de obtener buenos resultados,  y la representación asociada suele ser suficientemente ilustrativa. Sin embargo, cuando la cantidad de documentos a analizar es lo suficientemente grande, los resultados pueden variar significativamente dependiendo del enfoque/método utilizado. En estas situaciones es donde la selección de la técnica, algoritmos y herramienta/as a utilizar tiene una influencia definitiva en los resultados obtenidos. La determinación de qué enfoque usar en cada situación y de qué forma, necesita del conocimiento experto del analista, que en muchos casos, se expresa en forma deknow-how.

En trabajos previos desarrollamos la herramienta SciMAT (Science Mapping Analysis Software Tool) [1], cuyo objetivo principal es la extracción y visualización de diferentes tipos de redes a partir de documentos científicos.

Aunque SciMAT es capaz de trabajar con 20 tipos diferentes de redes (interviniendo diferentes actores de la ciencia: autores, palabras clave, referencias, revistas, etc.),está especializada en el análisis de palabras clave, es ahí donde la herramienta explota su máximo potencial, permitiéndonos detectar grupos de interés (temas y redes temáticas). Si bien, los algoritmos en SciMAT para la extracción de los diferentes tipos de redes son los mismos, la interpretación que por ejemplo se puede hacer de una red de palabras clave es semánticamente diferente de la interpretación que podríamos hacer de una red de autores (basada en co-citación, co-autoría, etc.). Además, la representación que por defecto incorpora SciMAT para la redes de palabras es de difícil aplicación para el caso de las redes de autores.

El objetivo del presente trabajo fin de máster es dar un paso más allá, con la idea de aumentar la potencialidad de SciMAT a la hora de manejar redes de autores (o comunidades de interés como se conoce en la literatura). Esta mejora/extensión de SciMAT, tiene como objetivos particulares la incorporación de nuevos algoritmos para la extracción de redes, y subredes, la mejora de la visualización de las redes/subredes obtenidas. Y fundamentalmente, el desarrollo de una nueva metodología para la detección de comunidades sociales ocultas de co-autoría y co-citación a partir de información científica.

Tareas

             Las redes de autores, son naturalmente redes sociales, y en ese sentido, pensamos que a vances realizados para el análisis y síntesis de redes sociales serán de aplicación natural al caso particular del análisis de redes de autores extraídas de la información científica. Así, tareas que se realizarán durante el proyecto serán:

-   Estudio de métodos y técnicas para el análisis de redes sociales en general.

-Puesta en práctica y aplicación de los métodos seleccionados al caso particular de las redes de autores provenientes de documentación científica.

- Dsarrollo de una metodología, basada en el análisis de redes sociales, para la fácil extracción, análisis  y visualización de comunidades de interés a partir de documentación científica.

- Incorporación/mejorade SciMAT, o creación de una nueva herramienta, con los desarrollos obtenidos.  



[1]    http://sci2s.ugr.es/scimat

Conocimientos Previos

Bases de datos

Lenguajes de programación: Java, PHP