Máster en Tecnoloxías de Análise de Datos Masivos: Big Data
http://hdl.handle.net/10347/23926
2024-03-29T13:47:03ZFocused Crawling and Model Evaluation in the field of Conversational Agents and Motivational Interviewing
http://hdl.handle.net/10347/31037
Focused Crawling and Model Evaluation in the field of Conversational Agents and Motivational Interviewing
Rosenova Tsakova, Gergana
The exploitation of Motivational Interviewing concepts when analysing individuals’ speech contributes to gaining
valuable insights into their perspectives and attitudes towards
behaviour change. The scarcity of labelled user data poses
a persistent challenge and impedes technical advancements
in research in non-English language scenarios. To address
the limitations of manual data labelling, we propose a semisupervised learning method as a means to augment an existing
training corpus. Our approach leverages machine-translated
user-generated data sourced from social media communities
and employs self-training techniques for annotation. We conduct an evaluation of multiple classifiers trained on various
augmented datasets. To that end, we consider diverse source
contexts and employ different effectiveness metrics. The results
indicate that this weak labelling approach does not yield significant improvements in the overall classification capabilities
of the models. However, notable enhancements were observed
for the minority classes. As part of future work, we propose
to enlarge the datasets only with new examples from the
minority classes. We conclude that several factors, including
the quality of machine translation, can potentially bias the
pseudo-labelling models. The imbalanced nature of the data
and the impact of a strict pre-filtering threshold are other
important aspects that need to be taken into account.
2023-07-01T00:00:00ZExtendiendo una plataforma Big Data multilenguaje para su aplicación a la Bioinformática
http://hdl.handle.net/10347/29836
Extendiendo una plataforma Big Data multilenguaje para su aplicación a la Bioinformática
Muiño Argüelles, Gonzalo
En los últimos años, la cantidad de información digital recopilada se ha incrementado de forma significativa en numerosos campos como la biología, la física, la economía y la medicina, dando lugar a lo que llamamos la era del Big Data. Tal ha sido este crecimiento que se han creado nuevos frameworks específicos para gestionar el almacenamiento y
posterior análisis de toda esta información y que facilitan el desarrollo de aplicaciones para el procesamiento de estas cantidades masivas en un tiempo razonable haciendo uso de clusters de computadores. Entre estos frameworks destaca Apache Spark que, a pesar de ser una de las herramientas más utilizadas del ámbito de Big Data, tiene limitaciones considerables, entre las cuales destaca la necesidad de hacer uso de determinados lenguajes de programación como Scala, Java, Python o R, requiriendo un esfuerzo significativo de conversión para poder aplicarlo a programas escritos en otros lenguajes de programación. Para solventar este problema se ha desarrollado Ignis, un nuevo framework Big Data que, a
través del uso de RPC’s, permite la utilización de múltiples lenguajes de programación para conseguir la utilización del paradigma map-reduce. En este trabajo realizaremos una comparación entre Spark e Ignis, analizando el esfuerzo necesario para realizar el portado de aplicaciones de Spark a Ignis, comparando su escalabilidad y realizando una valoración final de ambos frameworks. Nos hemos centrado en aplicaciones de bioinformática, en concreto de genética, ámbito en el que, en los últimos, han aparecido soluciones basadas en tecnologías Big Data para resolver el problema del procesamiento de la enorme cantidad de datos de genoma proporcionados por los secuenciadores de última generación.
2021-07-01T00:00:00ZFramework para la construcción y despliegue de sistemas de procesamiento en tiempo real
http://hdl.handle.net/10347/26566
Framework para la construcción y despliegue de sistemas de procesamiento en tiempo real
Martínez Castaño, Rodrigo
En los últimos años se han desarrollado numerosas tecnologías destinadas al procesamiento
de datos masivos, muchas de ellas de código abierto y de uso libre. Estas plataformas se centran en la escalabilidad horizontal, lo que implica que para el procesamiento
de una mayor cantidad de datos sin grandes distorsiones en el ritmo, no es
necesario aumentar o actualizar los recursos de una máquina (escalabilidad vertical),
sino que es su ficiente con añadir más nodos con similares características a un clúster.
La proliferación de este tipo de tecnologías de código abierto han democratizado y
condicionado el gran número de aplicaciones que hacen uso de estas plataformas en
multitud de ámbitos, tanto profesionales como académicos. Centrándonos en los frameworks de procesamiento, nos encontramos con una importante limitación: los datos han de poder dividirse en grupos independientes, de tal modo que sea posible paralelizar el trabajo en diferentes máquinas aunque existan puntos de procesamiento secuencial. Existen dos grandes tipos de tecnologías de procesamiento de este tipo: procesamiento de lotes (batch processing) y procesamiento de flujos (stream processing). En el primer caso, los resultados finales se obtienen juntos al fi nalizar el procesamiento del lote de datos compuesto por una o más etapas. Para de finir el trabajo a realizar, se define una topología de procesamiento que indica el flujo de los datos a través de las distintas etapas. Cada nodo (físico o virtual) puede ejecutar una instancia de la topología (aislada del resto de instancias), repartiéndose los datos de forma equitativa entre las instancias existentes. En las tecnologías de procesamiento de flujos, las distintas etapas de una topología son independientes y no pertenecen a una instancia concreta. Por tanto, las distintas etapas pueden ser paralelizadas de forma individual sin aumentar el grado de paralelismo de toda la topología. Estas tecnologías son adecuadas para aplicaciones que obtienen información en tiempo real y deben dar una respuesta inmediata, ya que cuando un dato completa su camino a través de las distintas etapas, el resultado puede obtenerse de forma instantánea. Sin embargo, con el procesamiento de lotes los resultados se obtienen cuando un lote de datos es procesado por completo. Un caso de aplicación de procesamiento en tiempo real es el análisis de contenidos en redes sociales para la detección temprana de riesgos. Este será el objetivo principal de este proyecto.
Traballo Fin de Máster en Tecnoloxías de Análise de Datos Masivos: Big Data. Curso 2017-2018
2018-06-01T00:00:00ZDetección de Objetos con Asociación de Datos Embebida
http://hdl.handle.net/10347/26565
Detección de Objetos con Asociación de Datos Embebida
El tracking visual de objetos está en pleno auge debido a sus numerosas aplicaciones, entre las que se encuentran los vehículos autónomos o la videovigilancia. En esta tarea se busca precisión a la par que velocidad siendo un requisito indispensable el funcionamiento en tiempo real. En este campo, una tendencia rompedora ha sido la introducción de detectores basados en aprendizaje profundo capaces de plantear hipótesis sobre la posición de los objetos de interés a la par que proposiciones de vectores de características, conocidos como embeddings, para los diferentes objetos identificados, orientados a la asociación
de detecciones a lo largo del tiempo, soluciones que detectan y siguen objetos con una única red neuronal convolucional. Como respuesta a la necesidad de mejorar la capacidad
discriminativa de estos vectores de características, entre objetos con identidades diferentes, en este TFM se plantea la integración de un autoencoder en una red de detección con embeddings. Con esta arquitectura es posible reducir la dimensionalidad y eliminar el ruido de los embeddings, potenciando la capacidad discriminativa de estos mediante la reformulación de las características de interés. El sistema propuesto ha sido evaluado en los conjuntos de datos de referencia para tracking mostrando mejora en rendimiento sin descuidar la velocidad de ejecución, permitiendo su funcionamiento en tiempo real.
Traballo Fin de Máster en Tecnoloxías de Análisis de Datos Masivos: Big Data. Curso 2019-2020
2020-01-01T00:00:00Z