Mobile QR Code QR CODE : The Transactions P of the Korean Institute of Electrical Engineers
The Transactions P of the Korean Institute of Electrical Engineers

Korean Journal of Air-Conditioning and Refrigeration Engineering

ISO Journal TitleTrans. P of KIEE
  • Indexed by
    Korea Citation Index(KCI)

  1. (Dept. of Electronic Engineering IT-Bio convergence system major, Chosun University, Korea E-mail:gyd03002@chosun.kr)



3D Convolutional neural network, CWT algorithm, photolethysmography, heart rate, deep learning

1. 서 론

최근 웨어러블 장치와 스마트카 등 사용자의 직접적인 표현 없이도 정신과 신체 상태를 파악하고, 파악된 정보를 통해 적절한 진단과 서비스를 제공하는 시스템이 주목받고 있다. 이러한 기술을 활용하기 위해서는 정밀하게 사용자의 의도와 관련된 신호를 취득하고 분석하는 기술이 중요하다.

사람의 신체적, 정신적인 상태를 분석하기 위해 사용되는 생체 신호로는 측정하는 위치와 방법에 따라 다양한 종류로 나눠지게 된다. 뇌 신경세포들의 전기 활동을 측정하는 뇌전도(Electroencephalogram, EEG)와 심장의 전기적인 활동을 측정하는 심전도(Electrocardiogram, ECG), 신경과 근육의 전기적인 활동을 측정하는 근전도(Electromyography, EMG) 등이 있다. 특히 ECG의 경우 사람의 감정적인 요소와 건강에 밀접한 관계가 있는 정보를 제공하기 때문에, 다양한 곳에서 심전도를 분석하여 활용하고 있다[1]. 기존의 ECG의 경우 측정을 위해서는 신체에 접촉 패드를 부착해야 하는 불편함과 이를 측정하기 위한 측정 장치가 일반인이 다루기 어렵다는 점에서 일상생활에 적용하기 어려웠다. 반면 광용적맥파(photoplethysmography, PPG)의 경우 심박과 관계있는 신호인 동시에 ECG보다 저렴하고 간단한 장비로 측정할 수 있다는 점에서 스마트워치 같은 웨어러블 장치에 많이 활용되고 있는 생체 신호이다[2]. PPG는 피부에 빛을 투과시켜 혈액 흐름의 변화를 감지하는 비침습적인 방법으로, 혈액이 조직을 통과할 때 혈액 흡수 및 산소 포화도의 변화로 인해 생기는 빛의 흡수량 변화를 측정한다. 이 신호를 통해 혈압, 심박수, 심박 변이성 등을 예측할 수 있기에 다양한 분야에 활용되고 있다. 피부에 빛을 투과시켜 생겨나는 미세한 변화를 측정하는 PPG의 경우 원격 카메라를 통해 사람의 얼굴을 촬영하고, 촬영된 영상에서 미세한 변화를 측정하여 혈류 신호를 취득하는 원격 rPPG (remotePPG, rPPG)로도 연구되고 있다[3].

rPPG는 기존의 접촉 패드를 장착해야 했던 ECG나 센서를 통해 취득하는 PPG 보다 간편하게 신호를 취득할 수 있으며, 일반적인 장치(핸드폰, 컴퓨터 카메라 등)를 활용하여 측정할 수 있어서 일상생활이나 구속받지 않은 상황에도 활용할 수 있다. rPPG는 컴퓨터 비전 기술에서 동영상 프레임 채널의 신호를 통해 피부 색상정보를 추출하고 전처리 과정을 통해 피부 색상 신호로 나타낸다. 이후 피부 색상 신호의 빨강, 초록, 파랑 파장 중 초록 파장이 헤모글로빈에 가장 많이 흡수되어 혈류와 관련된 정보를 많이 포함하고 있음을 활용한 알고리즘으로 심박을 예측한다[4].

본 논문은 카메라를 통해 촬영된 얼굴 영상에서 rPPG로 혈류 신호를 예측하고, 취득된 혈류 신호에서 심박과 관련된 주파수 성분을 분석하기 위해 CWT(Continuous Wavelet Transform)을 적용하여 심박수를 예측한다. 혈류 신호를 예측하기 위해 입력되는 동영상 데이터를 학습할 때 소모되는 메모리와 컴퓨팅 자원 소모를 줄이기 위해 심박과 관련된 피부 변화를 강조하며 채널 수를 줄이는 전처리를 진행하였다. 변환된 데이터는 1초 단위로 나눠서 학습 및 혈류 신호를 취득할 수 있도록 설계한 3D-CNN 모델에 학습한다. 취득된 신호는 CWT를 통해 주파수 분해하여 심박과 관련된 주파수 대역을 확인하여 심박수를 예측한다. 이를 통해 짧은 순간의 동영상 데이터를 기존보다 데이터의 규모를 줄이면서도 효과적으로 혈류를 예측할 수 있는지 확인하며, 실제 심박과 유사한 심박수를 예측할 수 있는지 비교하여 성능을 검증한다.

본 논문의 구성은 다음과 같다. 2장에서는 관련 연구를 서술하고, 3장에서는 동영상 데이터에 적용한 전처리와 3D-CNN 모델, CWT 기술과 사용된 UBFC-rPPG 데이터 셋에 관해 서술한다. 4장에서는 예측된 혈류 신호와 심박수를 비교한 실험 결과를 서술하고, 5장에서 결론으로 마무리한다.

2. 관련 연구

Ji[5]은 일상생활에서도 모바일을 통해 얼굴 영상을 촬영하여 혈류 신호와 심박을 취득하기 위해 PC에서 학습된 PhysNet 모델을 사용하였다. 위 모델은 3D-CNN(Convolutional Neural Networks)으로 구성된 모델로, 얼굴 동영상의 시계열적인 특징을 학습하기 위해 사용되었고, 이후 취득한 혈류 신호는 피크 간격을 통해 심박수를 측정한 후, 원본 심박수와 비교하였다. Zhan[6]은 혈류 신호 취득하기 위한 모델의 성능향상보다는 과정에 대한 이해를 향상하게 시키기 위해서 실험을 진행한다. 기존의 이미지 프레임을 통해 학습하는 것이 아닌 이미지 프레임 간의 차이를 학습시켜서 혈류 신호 취득하였다. Kokila[7]는 rPPG가 움직임과 조명 상황에 민감하게 반응된다는 문제점을 해결하기 위해 rPPG-FuseNet이라는 네트워크를 사용하였다. 기존의 RGB와 다중 스케일 잔차(Multi-Scale Residual, MSR)를 합쳐서 안정적인 심박수 측정을 할 수 있도록 연구하였다. 또한 비대면 상황에서 원격 건강 모니터링을 수행하기 위해 입력 이미지에 웨이블릿 변환을 사용하여 각 프레임에 특징 벡터를 추출한다. 이후 프레임마다 특징 벡터들을 연결하여 STI(Spatio-Temporal Image)를 생성하고 CNN으로 심박수를 측정한다[8].

Min[9]은 얼굴 비디오 영상에서 혈액 산소 포화도(SpO2)를 추정하기 위한 다중 모델 퓨전 방식을 사용하였다. 프레임 간의 잔차 이미지를 학습하여 산소 포화도 추정 정확도를 향상했다. Zhao[10]는 다중 스케일로 얼굴 비디오 영상에서 파형을 추출한 후, 합치는 과정과 혈류 신호를 추출하는 과정을 나누어서 제작하였다. 효율적인 공간, 시간 상관을 모델링하여 장기적인 시간, 공간 차원 간의 정보 상호작용을 증가시켜서 더 정확한 생체 신호를 추출할 수 있도록 하였다. 딥러닝 기술이 발전하게 되면서 3차원 동영상 데이터를 입력하는 3D-CNN이나 CNN과 LSTM(Long Short-Term Memory)을 활용하여 혈류 신호를 취득하고 분석하는 연구 또한 많이 진행되고 있다[11,12].

3. 제안된 방법

그림 1에서는 동영상에서 기존보다 더 낮은 데이터의 규모로 혈류 신호를 취득하기 위해 각 프레임에서 심박과 관련된 영역을 강조하기 위한 전처리 방법, 전처리된 동영상에서 혈류 신호 취득하기 위한 3D-CNN 네트워크의 원리와 구조, 학습된 모델을 통해 예측된 혈류 신호에 CWT를 이용하여 심박수를 예측하는 과정과 원리를 보여주고 있다.

그림 1. rPPG를 이용한 혈류 신호 취득 및 심박수 예측 순서도

../../Resources/kiee/KIEEP.2023.72.4.315/fig1.png

3.1 동영상 전처리

그림 2에서는 입력되는 동영상의 프레임에 혈류와 관계있는 특징을 강조하면서, 데이터의 채널 수를 줄이기 위해 사용된 전처리 과정을 보여주고 있다. 각 동영상은 얼굴에 해당하는 영역의 좌표를 직접 설정하여 해당 좌표 내의 영역만 동영상으로 저장하도록 한다. 얼굴 동영상 프레임의 빨강, 파랑, 초록 채널을 개별로 정규화하고, 혈류 신호와 관계가 있는 채널의 영향을 강조하고, 관계가 없는 채널의 영향을 감소시키면서 채널을 하나로 합한다[13].

그림 2. 동영상 전처리 과정

../../Resources/kiee/KIEEP.2023.72.4.315/fig2.png

전처리된 동영상 프레임 이미지는 모델의 입력 크기에 맞게 조정하면서, Nearest 보간법(최근접 이웃 보간법)과 Bi-cubic 보간법(쌍삼차 보간법)을 활용하여 서로 다른 이미지를 생성하는 데이터 증강 방법을 사용한다.

그림 3은 기존의 3개의 채널로 구성된 입력 데이터를 1개의 채널로 변형시키고, 혈류에 대한 정보를 더 포함할 수 있도록 변형시켜 학습할 때의 컴퓨팅 자원 소모를 줄이도록 적용한 전처리 이후의 동영상 프레임을 보여준다. 또한 이미지의 크기를 조정할 때 사용되는 보간법을 다른 종류로 사용하여 데이터 증강하여 모델의 과적합 문제를 예방한다.

그림 3. 원본 프레임과 전처리 프레임 비교

../../Resources/kiee/KIEEP.2023.72.4.315/fig3.png

3.2 3D-CNN 네트워크

그림 4는 혈류와 관련된 영역을 강조하고, 채널 수를 줄인 얼굴 동영상을 1초 단위의 짧은 시간에서 혈류 신호를 취득하기 위하여 본 논문에서 설계된 3D-CNN 네트워크를 보여주고 있다. 입력 계층에서는 동영상의 1초에 해당하는 프레임을 입력한다. 이후 이미지의 특징을 구하면서, 시계열적인 특징을 파악하기 위하여 3차원 합성곱 계층을 적용한다.

정규화 계층에서는 모델의 일반화를 위해 각 인스턴스 정규화를 적용하였고, 이를 통해 다양한 얼굴 형태나 환경에서도 얼굴에서 적절한 특징을 찾아 생체 신호를 출력할 수 있도록 한다. 이후 정보 공유 계층에서는 특징 추출 계층에서 얻어진 특징 맵을 학습 가중치가 다른 4개의 3차원 합성곱 계층으로 입력하여 주어진 정보를 더 다양하게 분석할 수 있도록 설계하여 이후 예측한 혈류 신호를 출력한다.

그림 4. 3D-CNN 네트워크

../../Resources/kiee/KIEEP.2023.72.4.315/fig4.png

3.3 CWT에 의한 주파수 분석

CWT(Continuous Wavelet Transform)는 신호를 다양한 주파수 범위에 대해 시간-주파수 영역으로 분석하는 기술로, 신호를 다양한 주파수 대역으로 분해하여 분석하는 방식이다. 웨이블릿 변화를 통해 얻은 웨이블릿 계수는 웨이블릿 함수와 원본 신호와의 상관 계수로 표현되며, 이를 통해 주파수 특성과 세기에 대한 정보를 얻을 수 있다.

그림 5는 모델을 통해 예측된 혈류 신호를 주파수 영역으로 분석한 것으로 주파수 영역에서 신호의 에너지 분포를 보여주기 위해 PSD(Power Spectral Density)로 나타내었다. 심박은 주로 저주파수 대역에서 발생하는 주기적인 현상이기 때문에 심박과 관련된 신호는 저주파수 영역에 위치하게 된다. 심박은 분당 60~100회 정도이며, 이에 해당하는 주파수 범위는 대략 0.65~4.00Hz로 볼 수 있다.

그림 5. CWT를 통한 혈류 신호 주파수 분해

../../Resources/kiee/KIEEP.2023.72.4.315/fig5.png

모델을 통해 취득한 신호에서 심박과 관련된 주파수 대역을 가져와 가장 에너지가 높은 신호를 심박과 관계있는 신호로 간주하였다. 주파수 대역에서 가장 에너지가 높은 신호의 주파수 값을 구하고, 이를 분당 심박수인 BPM(Beats Per Minute)으로 나타내었다.

4. 실험 및 결과

4.1 UBFC-rPPG 데이터셋

본 논문에서는 UBFC-rPPG 데이터셋이 사용되며, 이는 7명이 카메라 앞에서 최대한 움직이지 않는 상태로 촬영된 1~2분 내외 영상으로, 프레임당 시간과 혈류 신호, 심박수로 구성되어 있다[14]. 동영상 데이터는 해당 표본 주기를 따라 24프레임으로 나누어서 이미지 전처리를 진행하였고, 8프레임만큼 겹쳐서 보다 자연스러운 혈류를 예측할 수 있도록 하였다. 데이터는 그림 6과 같이 일반화에 대한 검증을 사용하기 위해 5명의 데이터를 학습에 사용하고 약간의 움직임이 있던 다른 2명의 데이터는 검증에 사용하였다. 과적합을 방지하기 위해 데이터 전처리 과정에서 이미지의 크기를 조정할 때 사용하는 이미지 보간법을 달리하여 새로운 데이터를 생성한다.

그림 6. 데이터 증강 및 분배

../../Resources/kiee/KIEEP.2023.72.4.315/fig6.png

4.2 rPPG 결과 및 심박수 비교

그림 7에서는 기존 센서를 통해 취득된 혈류 신호와 모델을 통해 예측된 혈류 신호가 비교되어 있다. 모델은 1초 단위 동영상을 통해 학습되어, 예측된 신호의 주기성을 확인하기 위해 5개의 연속적인 데이터를 통해 비교하였다. 학습용 데이터에 있는 평가 데이터로 예측한 경우, 주기성과 피크 값이 유사하여 올바른 혈류 신호를 예측함을 확인할 수 있다. 또한 비 학습용 데이터를 모델을 통해 예측한 경우는 그림 8에서 피크 값의 위치와 크기가 그림 7과 비교하여 오차가 생겼으나 주기성이 유사함을 확인할 수 있다.

예측된 혈류 신호는 이후 과정을 통해 주파수 분해하여 심박으로 분석하고 센서 심박수와 비교한다.

그림 7. 모델을 통해 취득한 혈류 신호와 센서 혈류 신호

../../Resources/kiee/KIEEP.2023.72.4.315/fig7.png

4.3 심박 예측

예측된 혈류 신호는 CWT로 주파수 분석하여 심박수를 분석하였다. 1초 단위로 예측된 혈류 신호를 합쳐서 연속된 주기성이 있는 신호로 만들고, CWT로 심박과 관련된 주파수 영역에서 가장 에너지값이 높은 구간을 가져오기 위해 주파수 분해를 진행하였다. 위 방법으로 예측한 심박수와 해당 구간에서의 센서 심박수의 평균을 RMSE를 통해 비교한 결과를 그림 8에서 확인할 수 있다.

그림 8. 센서 취득 심박수와 모델 취득 심박수 비교

../../Resources/kiee/KIEEP.2023.72.4.315/fig8.png

5. 결 론

본 논문에서는 생체 신호 중 심박을 1초 길이의 얼굴 동영상에서 비접촉으로 취득한 혈류 신호를 통해 예측하기 위해 딥러닝을 활용한 rPPG 혈류 취득 및 심박 예측을 진행하였다. 사람의 정신적, 신체적인 건강 상태를 확인하기 위해 사용되는 생체 신호는 다양한 분야에서 활용되고 있는 만큼, 자연스러운 환경에서 편리하게 취득하는 방법이 연구되고 있다. 그 중 rPPG는 촬영된 얼굴 동영상을 통해 심박이나 산소포화도 측정 등에 활용할 수 있는 많은 정보를 포함하고 있는 혈류 신호를 취득하는 방법이다. UBFC-rPPG 데이터 셋의 동영상 데이터를 혈류와 관계있는 영역을 강조하면서 데이터의 채널 수를 낮추는 전처리를 통해 학습에 사용되는 시간과 컴퓨팅 자원 소모를 줄이도록 하였고, 효과적인 신호 예측을 위해 3차원 합성곱을 활용한 3D-CNN모델을 설계하여 혈류 신호를 취득하였다. 모델은 1초 동영상을 전처리하여 입력하고 다른 사람에게도 적용할 수 있는 보편적인 모델로 설계하기 위해 인스턴스 정규화 계층으로 구성하였다.

취득된 신호는 심박과 관련된 주파수 대역을 분석하여 기존의 심박수와 실험을 통해 얻어낸 심박수를 비교하였다. 센서를 통한 심박수와 모델을 통해 예측한 혈류를 주파수 분석하여 얻어진 심박수와는 차이가 있음을 확인하였다. 이후 더 올바른 혈류 신호 취득과 심박수 예측을 위해서 설명 가능 모델을 적용하여 올바른 영역을 모델이 집중하였는지 확인하고, 효과적인 전처리 방법과 모델의 구조가 필요할 것으로 보인다. 해당 논문을 통해 얻을 수 있었던 얼굴 동영상을 통한 심박수 예측은 이후 산소포화도나 스트레스, 감정 분류 등 다양한 분야에도 활용될 수 있으며 의료나 스마트카, 스마트워치 등 다양한 제품에 이용될 수 있음을 기대한다.

Acknowledgements

본 논문은 본 연구는 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신산업진흥원의 지원을 받아 수행된 헬스케어 AI 융합 연구개발사업임(No. S0316-21-1001), 또한, 2017년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임 (No. 2017R1A6A1A03015496).

References

1 
Han, D., Bashar, S. K., Lazaro, J., Ding, E., Whitcomb, C., McManus, D. D., and Chon, K. H, “Smartwatch PPG peak detection method for sinus rhythm and cardiac arrhythmia,” In 2019 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), pp. 4310-4313, IEEE, July 2019.DOI
2 
Park, S., Kim, B. K., and Dong, S. Y, “Self-Supervised Rgb-Nir Fusion Video Vision Transformer Framework for Rppg Estimation,” IEEE Transactions on Instrumentation and Measurement, 71, 1-10, 2019.DOI
3 
Sarkar, P., & Etemad, A. “Self-supervised learning for ecg-based emotion recognition. In ICASSP 2020-2020 IEEE International Conference on Acoustics,” Speech and Signal Processing (ICASSP), pp. 3217-3221, IEEE, May 2020.DOI
4 
A. Ni, A. Azarang, and N. Kehtarnavaz, “A Review of Deep Learning-Based Contactless Heart Rate Measurement Methods,” Sensors (Basel, Switzerland), vol. 21, no. 11, pp. 3719, 2021.DOI
5 
Y. R. Ji, S. Y. Lim, S. Y. Park, S. H. Kim, and S. H. Dong, “Deep Learning-based Real-time Heart Rate Measurement System Using Mobile Facial Videos,” Journal of Korea Multimedia Society, vol. 24, no. 11, pp. 1481-1491, 2021.DOI
6 
Q. Zhan, W. Wang, and G. de Haan, “Analysis of CNN- based remote-PPG to understand limitations and sensitivities,” Biomedical optics express, vol. 11, no. 3, pp. 1268-1283, 2020.DOI
7 
K.B. Jaiswal and T. Meenpal, “rPPG-FuseNet: Non-contact heart rate estimation from facial video via RGB/MSR signal fusion,” Biomedical Signal Processing and Control, vol. 78, 104002, 2022.DOI
8 
K.B. Jaiswal and T. Meenpal, “Heart rate estimation network from facial videos using spatiotemporal feature image,” Computers in Biology and Medicine, vol. 151, Part A, 106307, 2022.DOI
9 
M. Hu, X. Wu, X. Wang, Y. Xing, N. An, and P. Shi, “Contactless blood oxygen estimation from face videos: A multi-model fusion method based on deep learning,” Biomedical Signal Processing and Control, vol. 81, 104487, 2023.DOI
10 
C. Zhao, H. Wang, and Y. Feng, “MSSTNet: Multi-scale facial videos pulse extraction network based on separable spatiotemporal convolution and dimension separable attention,” Virtual Reality & Intelligent Hardware, vol. 5, no. 2, pp. 124-141, 2023.DOI
11 
T. Luguev, D. Seuß and J. -U. Garbas, “Deep Learning based Affective Sensing with Remote Photoplethysmography,” 2020 54th Annual Conference on Information Sciences and Systems (CISS), pp. 1-4, 2020.DOI
12 
W. Mellouk, and W. Handouzi, “CNN-LSTM for automatic emotion recognition using contactless photoplythesmographic signals,” Biomedical Signal Processing and Control, vol. 85, 104907, 2023.DOI
13 
W. Wang, A. C. den Brinker, S. Stuijk and G. de Haan, “Algorithmic Principles of Remote PPG,” in IEEE Transactions on Biomedical Engineering, vol. 64, no. 7, pp. 1479-1491, July 2017, doi: 10.1109/TBME.2016.2609282.DOI
14 
S. Bobbia, R. Macwan, Y. Benezeth, A. Mansouri, and J. Dubois, “Unsupervised skin tissue segmentation for remote photoplethysmography,” Pattern Recognition Letters, vol. 124, pp 82-90, 2017.DOI

저자소개

김태완(Tae-Wan Kim)
../../Resources/kiee/KIEEP.2023.72.4.315/au1.png

2022년 : 조선대학교 전자공학과 공학사 졸업

2022년~현재 : 조선대학교 전자공학과 IT-Bio 융합시스템 전공(석사 과정)

관심분야 : 인공지능, 딥러닝, 생체신호, 음성

곽근창(Keun-Chang Kwak)
../../Resources/kiee/KIEEP.2023.72.4.315/au2.png

2002년 : 충북대학교 전기공학과 박사 졸업

2003년~2005년 : 캐나다 앨버타대학교 전기 및 컴퓨터 공학과, 박사후과정

2005년~2007년 : 한국전자통신연구원 지능형로봇연구단 선임연구원

2014년~2015년 : 미국 캘리포니아 주립대학교 플러튼, 방문교수

2007년~현재 : 조선대학교 전자공학부 교수

관심분야 : 계산지능, 인간-로봇상호작용,바이오인식