Prof. Felipe Bravo publica investigaciones sobre dos desarrollos de software de código abierto

DCC publica investigaciones de software de código abierto
Los dos proyectos de software de código abierto beneficiaran directamente a los usuarios Weka.
Los dos proyectos de software de código abierto beneficiaran directamente a los usuarios Weka.

Una importante contribución para los investigadores que trabajan en ciencia de los datos, realizó el profesor del Departamento de Ciencias de la Computación de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile e investigador del Instituto Milenio Fundamentos de los Datos, Felipe Bravo, quien recientemente publicó dos proyectos de software de código abierto que beneficiaran directamente a los usuarios Weka. Ésta última es una plataforma de software libre para el aprendizaje automático y la minería de datos, desarrollada por la Universidad de Waikato, Nueva Zelanda, donde el Profesor Bravo realizó sus estudios de doctorado.

Se trata de los trabajos de investigación “AffectiveTweets: a Weka Package for Analyzing Affect in Tweets”, publicado en el Journal of Machine Learning Research, la revista más importante en el área de Machine Learning, y “WekaDeeplearning4j: A deep learning package for Weka based on Deeplearning4”, publicado en la revista Knowledege-Based System.

Una de las líneas de investigación del Profesor Felipe Bravo se centra en el análisis de sentimientos y emociones en medios de comunicación social. Según explicó, un problema clásico de este tema se puede encontrar en la red social Twitter. “Si quiero conocer qué piensa la gente de un determinado político a partir de los tweets que publican los usuarios, utilizo un algoritmo de análisis de sentimientos, con el cual puedo saber, por ejemplo, que el 80% de los mensajes son negativos, el 20% positivos o el 5% expresa rabia”, afirmó.

En este contexto, en“AffectiveTweets: a Weka Package for Analyzing Affect in Tweets” se presenta un software que es un complemento de Weka para el análisis de sentimientos y emociones en mensajes de redes sociales como Twitter. Se trata de un trabajo realizado en conjunto con los investigadores de la Universidad de Waikato, Eibe Frank y Bernhard Pfahringer y el investigador del National Research Council de Canadá,  Saif M. Mohammad.

El académico explicó que “antes si uno quería replicar un modelo tenía que recurrir a distintas librerías y en muchos casos implementarlo por uno mismo. Esta investigación reúne toda esa información e incorpora también los algoritmos que desarrollé durante mi tesis de doctorado. De este modo, un investigador que requiera analizar sentimientos y emociones en tweets, y no quiere inventar un modelo desde cero, puede utilizar este software”. En este trabajo, junto con describir el código, también se explica cómo utilizarlo e incluye tutoriales.

En tanto,“WekaDeeplearning4j: A deep learning package for Weka based on Deeplearning4j”, también es una extensión de Weka. Fue coescrito con Steven Lang (Technische Universität Darmstadt, Alemania), Christopher Beckham (École Polytechnique de Montréal, Canadá), Mark Hall (Hitachi Vantara, Nueva Zelanda) y Eibe Frank (Universidad de Waikato, Nueva Zelanda).

El investigador señaló que “Weka era el estándar para estudiar Machine Learning hasta hace algunos años. Está escrito en Java, que era lo que más se utilizaba en la época en que se desarrolló, pero hoy con el uso de plataformas para Deep learning basadas en Python como TensorFlow y Pytorch, Weka quedó un poco obsoleto. En este trabajo se realizó una extensión para Weka llamada WekaDeeplearning4j que permite que los investigadores puedan realizar Deep Learning en esta plataforma”.

“Una gracia de Weka es que tiene una interfaz gráfica amigable. La extensión desarrollada permite utilizar técnicas de Deep Learning como redes neuronales convolucionales y recurrentes desde la interfaz gráfica de Weka sin necesidad de programar código, algo que no se puede hacer con las plataformas actuales de Deep Learning. También proporciona funcionalidad de preprocesamiento para datos de imagen y texto”, agregó.

Con la publicación de ambos trabajos, el académico del DCC destacó el valor que este tipo de publicaciones –de software de código abierto- está adquiriendo en journals de ciencia de la computación. Ambos software están disponibles en Github.