Implementación de HAR e Resultados

No módulo CalmaTEA integramos un sistema de recoñecemento de accións humanas (Human Action Recognition – HAR), que permite identificar accións específicas da rutina diaria a través de vídeo en tempo real.

Mostra da app no SmartWatch

Modelo empregado: Temporal Segment Network (TSN)

Como punto de partida, empregouse o modelo preentrenado TSN (Temporal Segment Network), concretamente o checkpoint tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb, dispoñible no framework MMAction2.

TSN é unha arquitectura deseñada para recoñecer accións en vídeo a partir de mostras temporais dispersas. Isto permite capturar a estrutura global dunha acción sen ter que procesar todo o vídeo, o que resulta ideal para sistemas en tempo real como CalmaTEA.

A arquitectura está baseada en ResNet‑50 e foi preentrenada sobre o conxunto de datos Kinetics‑500, un dos máis utilizados no recoñecemento de accións humanas.

Resultados obtidos

A continuación móstranse os resultados de avaliación tras adaptar o modelo ás accións clave de CalmaTEA. As gráficas e táboa resumen mostran métricas de precisión e F1‑score por clase, así como a matriz de confusión das predicións.

Matriz de confusión HAR (Kinetics-400)
Matriz de confusión das predicións HAR (Kinetics‑500)
F1-score por clase no sistema HAR
F1‑score por clase no sistema HAR (Kinetics‑500)
Resumo de puntuacións F1 por clase
Acción Precisión F1‑score Mostras
Afeitar ou recortar barba0.890.9475
Beber1.000.9879
Comer algo1.000.9639
Cepillarse os dentes1.000.9581
Usar o ordenador1.001.0075
Escribir ou pintar/dibuxar1.000.9975
Aplicar crema1.000.8975
Acariciar animal1.001.0010
Facer algo no cabelo0.880.9475
Atar un nó (non unha corbata)0.940.9775

Os resultados mostran unha elevada precisión na maioría das accións, con valores F1 superiores ao 0.94 en case todas as categorías. Destaca o excelente rendemento en accións como usar o ordenador ou acariciar animal, onde o modelo acada un 100 % de acerto. A matriz de confusión amosa moi poucas confusións entre clases, o que valida a robustez do modelo incluso con accións semellantes.

En resumo, o uso de TSN como arquitectura base permite recoñecer accións humanas relevantes de xeito fiable e eficiente, sendo unha excelente opción para tarefas de monitorización e apoio en contornas asistenciais, como é o caso de CalmaTEA.

Informe detallado do recoñecemento de actividades humanas (HAR)

O sistema de recoñecemento de actividades humanas (HAR) empregado en CalmaTEA baséase na identificación automática de accións realizadas por persoas usuarias mediante modelos de visión por computador. A súa principal función é validar se determinadas tarefas foron ou non realizadas, o que representa unha funcionalidade diferencial fronte a outras solucións de organización de rutinas.

Para comprobar a viabilidade técnica da solución, realizáronse múltiples probas cunha selección de accións relevantes e con distintas configuracións de modelos. O sistema valida cada acción mediante un mecanismo de umbralización: a detección considérase correcta só se a acción supera un determinado nivel de confianza dentro dunha frecuencia mínima.

Durante a validación experimental utilizáronse aproximadamente 75 mostras por clase. Os resultados poden observarse nas figuras anteriores, onde se representan o F1-score acadado para cada unha das clases analizadas e a matriz de confusión correspondente.

Limitacións detectadas nas probas

Modelos avaliados e arquitectura TSN

Probáronse arquitecturas modernas como Transformers e modelos adestrados sobre Kinetics‑700. Porén, o modelo TSN preentrenado con ImageNet ofreceu o mellor equilibrio entre precisión e eficiencia, sendo escollido para a integración no sistema CalmaTEA.

Potencial de mellora mediante fine-tuning

Unha liña prometedora sería o fine-tuning con datos reais capturados no entorno doméstico. Isto permitiría personalizar o recoñecemento segundo características do usuario (barba, gafas, roupa...) mantendo os pesos das capas iniciais e adaptando as capas finais.

Conclusión

A integración dun sistema HAR é viable e efectiva, especialmente se se ten coidado coa selección do modelo, o conxunto de datos e a súa adaptación ao entorno físico. TSN demostrou ser unha opción sólida, pero o fine-tuning específico representa unha mellora clave para aumentar a robustez do sistema CalmaTEA.