Implementación de HAR e Resultados
No módulo CalmaTEA integramos un sistema de recoñecemento de accións humanas (Human Action Recognition – HAR),
que permite identificar accións específicas da rutina diaria a través de vídeo en tempo real.
Modelo empregado: Temporal Segment Network (TSN)
Como punto de partida, empregouse o modelo preentrenado TSN (Temporal Segment Network),
concretamente o checkpoint tsn_imagenet-pretrained-r50_8xb32-1x1x8-100e_kinetics400-rgb, dispoñible
no framework MMAction2.
TSN é unha arquitectura deseñada para recoñecer accións en vídeo a partir de mostras temporais dispersas. Isto permite capturar a estrutura global dunha acción sen ter que procesar todo o vídeo, o que resulta ideal para sistemas en tempo real como CalmaTEA.
A arquitectura está baseada en ResNet‑50 e foi preentrenada sobre o conxunto de datos Kinetics‑500, un dos máis utilizados no recoñecemento de accións humanas.
Resultados obtidos
A continuación móstranse os resultados de avaliación tras adaptar o modelo ás accións clave de CalmaTEA. As gráficas e táboa resumen mostran métricas de precisión e F1‑score por clase, así como a matriz de confusión das predicións.
| Acción | Precisión | F1‑score | Mostras |
|---|---|---|---|
| Afeitar ou recortar barba | 0.89 | 0.94 | 75 |
| Beber | 1.00 | 0.98 | 79 |
| Comer algo | 1.00 | 0.96 | 39 |
| Cepillarse os dentes | 1.00 | 0.95 | 81 |
| Usar o ordenador | 1.00 | 1.00 | 75 |
| Escribir ou pintar/dibuxar | 1.00 | 0.99 | 75 |
| Aplicar crema | 1.00 | 0.89 | 75 |
| Acariciar animal | 1.00 | 1.00 | 10 |
| Facer algo no cabelo | 0.88 | 0.94 | 75 |
| Atar un nó (non unha corbata) | 0.94 | 0.97 | 75 |
Os resultados mostran unha elevada precisión na maioría das accións, con valores F1 superiores ao 0.94 en case todas as categorías. Destaca o excelente rendemento en accións como usar o ordenador ou acariciar animal, onde o modelo acada un 100 % de acerto. A matriz de confusión amosa moi poucas confusións entre clases, o que valida a robustez do modelo incluso con accións semellantes.
En resumo, o uso de TSN como arquitectura base permite recoñecer accións humanas relevantes de xeito fiable e eficiente, sendo unha excelente opción para tarefas de monitorización e apoio en contornas asistenciais, como é o caso de CalmaTEA.
Informe detallado do recoñecemento de actividades humanas (HAR)
O sistema de recoñecemento de actividades humanas (HAR) empregado en CalmaTEA baséase na identificación automática de accións realizadas por persoas usuarias mediante modelos de visión por computador. A súa principal función é validar se determinadas tarefas foron ou non realizadas, o que representa unha funcionalidade diferencial fronte a outras solucións de organización de rutinas.
Para comprobar a viabilidade técnica da solución, realizáronse múltiples probas cunha selección de accións relevantes e con distintas configuracións de modelos. O sistema valida cada acción mediante un mecanismo de umbralización: a detección considérase correcta só se a acción supera un determinado nivel de confianza dentro dunha frecuencia mínima.
Durante a validación experimental utilizáronse aproximadamente 75 mostras por clase. Os resultados poden observarse nas figuras anteriores, onde se representan o F1-score acadado para cada unha das clases analizadas e a matriz de confusión correspondente.
Limitacións detectadas nas probas
- Limitacións do dataset Kinetics-400: algunhas accións non están suficientemente representadas, o que provoca dificultades na súa detección.
- Condicións de gravación: aspectos como a colocación da cámara, a luz ou o contraluz afectan fortemente á calidade das predicións.
- Accións preto do rostro: como cepillarse os dentes ou beber, poden verse afectadas por gafas, barba ou pelo longo.
Modelos avaliados e arquitectura TSN
Probáronse arquitecturas modernas como Transformers e modelos adestrados sobre Kinetics‑700. Porén, o modelo TSN preentrenado con ImageNet ofreceu o mellor equilibrio entre precisión e eficiencia, sendo escollido para a integración no sistema CalmaTEA.
Potencial de mellora mediante fine-tuning
Unha liña prometedora sería o fine-tuning con datos reais capturados no entorno doméstico. Isto permitiría personalizar o recoñecemento segundo características do usuario (barba, gafas, roupa...) mantendo os pesos das capas iniciais e adaptando as capas finais.
- Incrementar a precisión sen grandes volumes de datos
- Adaptación ao usuario e á súa contorna
- Redución de falsos positivos
Conclusión
A integración dun sistema HAR é viable e efectiva, especialmente se se ten coidado coa selección do modelo, o conxunto de datos e a súa adaptación ao entorno físico. TSN demostrou ser unha opción sólida, pero o fine-tuning específico representa unha mellora clave para aumentar a robustez do sistema CalmaTEA.