조아현
(A-Hyeon Jo)
1iD
곽근창
(Keun-Chang Kwak)
†iD
-
(Dept. of Electronic Engineering IT-Bio convergence system major, Chosun University,
Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
AI technology, Depression diagnosis, Transfer Learning, Interview-type audio data, two-dimensional images
1. 서 론
코로나19가 장기화되면서 우울감을 느끼는 일명 ‘코로나블루’ 현상이 확산되면서 사람들의 정상적인 삶을 위협하고 있다. 우울 증상이 있으면 무기력감과
의욕 저하가 동반되므로 바깥 활동을 하지 않고 집에만 있게 된다. 또한 불면 증상 때문에 불규칙한 생활을 지속하거나 식욕 저하가 찾아와 식사를 제대로
챙겨 먹지 않는 경우가 많다. 반대로 너무 많이 자거나 폭식을 하는 증상이 있기도 하다. 이러한 상황에서 활동 저하 및 불규칙적 생활 습관이 지속되면
우울증을 더욱 악화시킬 수 있으므로 초기에 악순환의 고리를 끊어야 한다. 사회에서 큰 문제를 초래할 수 있어 우울증의 조기 진단이 중요하지만, 정신과
방문을 어려워하는 사람들이 많다. 현재 우울증은 병원에 직접 방문해 설문지를 통해 환자의 상태를 파악하거나 의사의 주관적인 의견을 통해 진단되고 있다.
이러한 방법은 객관성이 떨어진다는 문제점이 있는데, 이를 보완하기 위해 AI를 이용하여 우울증 조기 발견에 도움을 주려는 시스템 개발 연구가 활발히
진행 중이다.
현재 목소리, 텍스트, 뇌파와 같은 생체신호를 통해 다양한 방법으로 우울증을 진단하는 연구(1,2,3)들이 있는데, 그중 일상생활 속에서 쉽게 접할 수 있는 목소리를 이용한 연구가 많이 진행되고 있다. 기존 연구를 살펴보면 음성을 이용해 딥러닝 모델을
기반으로 우울증을 진단하는 연구가 주를 이루고 있다. Yan Zhao(4)의 연구에서는 음성에서 우울증을 발견하기 위해 다차원의 심층 특징을 생성하여 이를 입력으로 받는 attentive LSTM 네트워크를 제안했다. 제안된
모델의 정확도는 90.2%(± 1.6)로 우울증 발견에 대한 타당성을 증명했다. H. Wang(5)는 음성신호에서 3차원의 특징을 추출하여, 이를 attention 메커니즘과 Bi-GRU를 함께 사용한 3D-CBHGA라는 3D 음성 감정 인식 모델을
기반으로 우울증 진단에 적용하는 것을 제안했다. A. Waghela(6)의 연구에서는 DAIC-WOZ 데이터를 이용하여 CNN 분류기를 기반으로 우울증을 발견하는 연구가 진행되었다. 데이터의 불균형 문제를 해결하기 위해
모델 훈련 전에 무작위 샘플링을 도입하고, 스펙트로그램 특징을 이용한 2개의 합성곱 계층을 가지는 CNN 모델을 제안했다. A. Vázquez-Romero
and A. Gallardo- Antolín(7)의 연구에서는 1차원 CNN을 결합한 앙상블 1D-CNN 모델을 제안했다. 각각의 1D-CNN 모델은 로그 스펙트로그램을 입력으로 받고, 여기서 출력된
결과를 앙상블하여 우울증 진단 시스템의 성능을 향상시켰다.
본 논문에서는 인터뷰 형식의 음성 데이터를 이용하여 딥러닝 전이 학습모델 기반 우울증 진단 성능을 비교 및 분석한다. 데이터는 인터뷰 형식의 음성
파일을 포함하는 DAIC- WOZ 우울증 데이터베이스를 사용한다. 이 데이터에 대한 시간-주파수 특징을 추출하기 위해 STFT(Short-Time
Fourier Transform)을 기반으로 하는 바크 스펙트로그램, 멜 스펙트로그램, 로그 멜-스펙트로그램 방법을 사용해 2차원 이미지 특징을 얻는다.
전이 학습모델은 VGGish와 YAMNet을 기반으로 하고, 입력을 흑백 이미지 넣었을 경우와 컬러이미지를 넣었을 경우로 나눠 특징 추출 방법에 따른
두 모델의 분류 성능을 비교 분석한다.
본 논문은 다음과 같이 구성되어있다. 2장에서는 우울증 진단 딥러닝 모델의 학습에 사용된 인터뷰 형식의 음성 데이터베이스를 설명하고, 3장에서는 음성
데이터를 시간-주파수로 변환하는 특징 추출 방법에 관해 설명한다. 4장에서는 데이터 학습에 사용된 전이 학습모델의 기반이 되는 CNN 모델과 본 연구에서
사용된 전이 학습모델인 VGGish와 YAMNet에 대해 기술한다. 5장에서는 음성 우울증 데이터베이스를 이용하여 우울증과 비우울증을 분류하는 실험을
진행하고, 실험 진행 결과를 비교 및 분석한다. 마지막으로 6장에서는 본 연구에 대해 전체적인 정리한 결론과 향후 연구 계획을 기술하고 마무리한다.
2. 우울증 데이터베이스
본 논문에서 사용된 음성 우울증 데이터베이스는 인터뷰 형식으로 녹음된 Distress Analysis Interview Corpus Wizard-of-
Oz(DAIC-WOZ) 데이터베이스이다. 본 데이터베이스는 불안, 우울증 및 외상 후 스트레스 장애(PTSD)와 같은 정신적 감정 상태의 진단에 도움을
주기 위해 구축된 임상 인터뷰 녹음을 포함하는 Distress Analysis Interview Corpus(DIAC)의 일부이다. 이는 ‘Ellie’라는
애니메이션 가상 인터뷰어가 참가자와 일상적인 대화를 통한 인터뷰를 진행한다. 총 189명의 참가자에 대한 7분에서 33분(평균 16분) 사이의 샘플링
속도 16kHz인 오디오 파일과 스크립트 및 얼굴 특징을 포함한다(8).
DAIC-WOZ 우울증 데이터베이스는 그림 1과 같은 방법으로 구축되었다. 사전 설문조사인 Personal Health Questionnaire Depression Scale(PHQ-8)를 통해
우울증 척도에 대한 점수를 파악한 뒤 0(Non-depression)과 1(Depression)로 이진 분류한다. PHQ-8의 점수가 10점 이상이면
우울증으로, 10점 미만이면 비우울증으로 판단하여 구분한다. 우울증 여부가 판단된 참가자들은 제 3자(가상 인터뷰어 제어자)에 의해 제어되는 가상
인터뷰어 ‘Ellie’와 인터뷰를 진행한다. 인터뷰 동안에 모든 상황은 비디오를 통해 녹화되고 인터뷰 내용은 마이크를 통해 녹음된다.
그림 1 DAIC-WOZ 우울증 데이터베이스 구축 방법
Fig. 1 Build method DAIC-WOZ depression database
표 1을 살펴보면, 본 데이터베이스는 데이터를 실험에서 사용할 수 있도록 학습, 검증, 테스트 데이터로 분리되어있다. 데이터는 PHQ-8 점수에 따라 0과
1로 이진 분류(우울증, 비우울증)되어있다. 비우울증에 대한 학습 77명, 검증 23명, 테스트 33명 총 133명의 데이터와 우울증에 대한 학습
30명, 검증 12명, 테스트 14명 총 56명의 데이터를 포함한다. 따라서 총 189명의 데이터가 학습 107명, 검증 35명, 테스트 47명의
데이터로 분리되어있다. 본 연구에서는 누락 된 1개의 우울증 데이터를 제외한 55명에 대한 우울증 데이터, 133명에 대한 비우울증 데이터 총 188명의
데이터를 사용했다. 또한 표 1과 같이 학습, 검증, 테스트로 분리된 데이터를 사용하지 않고 임의로 랜덤하게 전체 데이터의 70%를 학습데이터로, 나머지 30%는 검증데이터로 사용하여
실험을 진행했다.
표 1 데이터 분리
Table 1 Data separation
클래스 분류
|
학습
|
검증
|
테스트
|
합계
|
비우울증(0)
|
77명
|
23명
|
33명
|
133명
|
우울증(1)
|
30명
|
12명
|
14명
|
56명
|
합 계
|
107명
|
35명
|
47명
|
189명
|
3. 특징 추출 방법
딥러닝 모델 중 하나인 CNN(Convolutional Neural Networks)를 기반으로 음성신호를 처리하기 위해서는 음성 데이터를 이미지
특징으로 변환해야 한다. 본 논문에서는 음성 데이터를 시간-주파수 특징 추출 방법의 하나인 STFT(Short-time Fourier Transform)을
기반으로 하여 바크 스펙트로그램, 멜 스펙트로그램, 로그 멜-스펙트로그램 특징을 추출한다.
3.1 STFT(Short-Time Fourier Transform)
STFT는 스펙트로그램의 기반이 되는 시간-주파수 영역을 모두 분석할 수 있는 기법이다. 이는 시간의 흐름에 따라 변하는 일정하지 않은 음성신호를
특정 시간 단위로 나누어, 푸리에 변환을 적용하는 것으로 식(1)과 같이 정의한다(10).
여기서 x(n)은 시간에 따른 입력 신호, w(n)은 윈도우 함수이다. 본 논문에서는 윈도우 크기는 400, 중첩 샘플의 개수는 240, 이산 푸리의
변환을 적용할 지점의 개수는 512로 지정하였고, 사용된 모든 특징 추출 방법은 STFT를 기반으로 했다.
3.2 바크 스펙트로그램(Bark Sepectrogram)
그림 2 바크 필터 뱅크 시각화
Fig. 2 Visualization of Bark Filter Bank
그림 3 바크 스펙트로그램 시각화
Fig. 3 Visualization of Bark Spectrogram
바크 스케일(Bark scale)은 주파수의 정신 음향학적 측정값으로, 가청 범위를 사람의 청각 시스템과 생리학적 의미에서 같은 24개의 대역으로
나눈다. 이는 음성신호에서 중요한 요소가 있는 특정 대역에 대해 표현하는 데 있어 우수하다. 이러한 바크 스케일 주파수를 기반으로 하여 대역통과 필터의
수와 주파수 범위 등을 지정하여 그림 2과 같은 바크 필터 뱅크를 생성할 수 있다. 이를 STFT가 적용된 스펙트로그램과 곱하게 되면 그림 3와 같은 바크 스케일 기반 스펙트로그램을 얻을 수 있다. 그림 3은 우울증과 비우울증 데이터에 대한 첫 번째 바크 스펙트로그램 특징을 확인할 수 있다.
3.3 멜 스펙트로그램(Mel Sepctrogram)
멜 스케일(Mel scale)은 실제 주파수 정보를 인간의 청각 구조를 반영하여 수학적으로 변환하기 위한 대표적인 방법이다. 이는 주파수 성분을 중요도에
따라 차등적으로 사용하기 위한 좋은 지표로서 다양한 음성처리 분야에서 사용되고 있다. 멜 스펙트로그램은 멜 스케일로 오디오를 시각화하는 스펙트로그램이다.
바크 스펙트로그램과 마찬가지로 그림 4와 같이 멜 주파수를 기반으로 하는 필터뱅크를 생성하고 이를 STFT 스펙트로그램과 곱하게 되면, 그림 5과 같은 멜 스케일 기반 스펙트로그램을 얻을 수 있다. 그림 5는 우울증과 비우울증 음성 데이터에서 추출한 첫 번째 멜 스펙트로그램 특징을 확인할 수 있다.
그림 4 멜 필터 뱅크 시각화
Fig. 4 Visualization of Mel Filter Bank
그림 5 멜 스펙트로그램 시각화
Fig. 5 Visualization of Mel-Spectrogram
3.4 로그 멜-스펙트로그램(Log mel-Spectrogram)
로그 멜-스펙트로그램은 앞서 설명한 멜 스펙트로그램에 로그 변환을 취하면 얻을 수 있다. 그림 6은 우울증과 비우울증 음성 데이터에서 추출한 첫 번째 로그 멜-스펙트로그램 시각화한 그림이다. 이는 로그 변환을 취하기 전 멜 스펙트로그램과 비교해
특징이 더욱 확실하게 드러나는 것을 볼 수 있다.
그림 6 로그 멜-스펙트로그램 시각화
Fig. 6 Visualization of Log Mel-Spectrogram
4. 딥러닝 모델
4.1 전이 학습(Transfer Learning)
전이 학습(Transfer Learning)은 특정 분야에서 학습된 신경망 일부를 유사한 분야 혹은 새로운 분야에서 사용되는 신경망의 학습에 이용하는
것으로 현재 많은 연구가 이뤄지고 있다. 일반적으로 VGG, ResNet, GoogleNet 등 사전에 학습이 완료된 모델(Pre-Training
Model)을 가지고 우리가 원하는 학습에 미세 조정 즉, 작은 변화를 이용하여 학습시키는 방법이라고 할 수 있다. 이는 기존의 만들어진 모델을 사용하여
새로운 모델을 구축하는 것으로 학습 속도가 빨라지며, 예측을 더 높일 수 있다. 전이 학습을 사용하는 이유는 이미 잘 훈련된 모델이 있고, 해당 모델과
유사한 문제를 해결하고자 할 때, 이미 학습된 모델을 이용하여 문제를 쉽게 해결할 수 있기 때문이다. 전이 학습모델은 학습데이터 수가 적을 때에도
빠른 학습 속도와 높은 성능을 얻을 수 있다는 장점이 있다. 본 논문에서 이미지가 아닌 오디오 분류에 사용되는 CNN기반 전이 학습모델인 VGGish와
YAMNet을 음성 우울증 데이터 학습에 사용했다.
4.2 VGGish 모델
VGGish 모델은 Hershey et al.(11)에서 오디오 콘텐츠를 기반하여 대규모 유튜브 비디오 데이터 세트를 이용해 오디오를 분류하기 위해 제안한 심층 합성곱 신경망이다. 이는 컴퓨터 비전
분야에서 이미지 분류를 위해 사용되었던 VGGNet을 기반으로 한다. VGGish는 527개의 클래스를 수동으로 라벨을 단 유튜브의 2백만 개 이상의
비디오 클립으로 구성된 오디오 셋을 이용해 훈련되었다. 527개의 클래스에는 성인 남성/여성 목소리, 유아 옹알이 소리, 동물 소리 등이 포함된다(12). VGGish 네트워크 아키텍처는 그림 7에서 볼 수 있듯이 4개의 블록으로 구성되고 블록 안에는 convolution, relu, max pooling 계층으로 이루어져 있다. 그다음 단에는
이미지 분류에 사용되는 두 개의 완전 연결 계층과 임베딩 계층, 회귀 출력계층으로 구성된다. 본 연구에서는 이미지 분류를 통한 우울증 진단이기 때문에
새로운 완전 연결 계층을 추가해 분류 클래스 수를 지정해 주고, 마지막 회귀 출력 계층을 제거하고 클래스 레이블이 없는 새로운 분류 계층으로 교체하였다.
그림 7 VGGish 모델 구성도
Fig. 7 Diagram of VGGish model
4.3 YAMnet 모델
YAMNet 모델은 오디오셋을 이용하여 오디오 이벤트 분류를 위한 효율적인 모델로서 ‘Ellis’와 ‘Chowdhry’의해 개발되었다. 이는 H.
A. Andrew et al.(13)에서 제안한 MobileNet을 기반으로 하며, 깊이별로 분리 가능한 합성곱 커널을 사용하여 모바일 및 임베디드 비전 애플리케이션에 사용할 수 있는
경량 모델을 만들었다. VGGish 모델은 7천 2백만 개 이상의 매개 변수를 사용하기 때문에 계산 복잡성이 높다. 그에 비해 YAMNet 모델은
470만 개의 매개 변수를 사용하기 때문에 VGGish 모델보다는 계산의 복잡성이 줄어들게 된다. YAMNet 모델의 네트워크 아키텍처는 첫 번째
계층을 제외한 모든 계층이 깊이별 합성곱 커널을 기반으로 하는 14개의 합성곱 계층 블록으로 구성되고, 분류 출력계층을 가진다(12). 본 연구에서는 VGGish 모델과 마찬가지로 새로운 완전 연결 계층을 추가해 분류 클래스 수를 지정해 주고, 분류 계층을 클래스 레이블이 없는
새로운 분류 계층으로 교체하였다.
5. 실험 및 결과 분석
5.1 실험환경 및 과정
본 논문에서는 인터뷰 형식의 음성 데이터를 이용하여 전이 학습모델의 우울증 진단 성능을 비교 및 분석한다. 음성 데이터는 DAIC-WOZ 우울증 데이터베이스에서
누락 된 1개의 우울증 데이터를 제외한 55명의 우울증 데이터와 133명의 비우울증 데이터 총 188명의 데이터를 사용하였다. 1차원 음성신호는 바크
스펙트로그램, 로그 스펙트로그램, 로그 멜-스펙트로그램 방법을 이용해 시간-진폭이 아닌 시간-주파수 표현인 2차원 이미지로 특징을 추출하였다. 이렇게
추출된 특징 데이터의 70%는 학습 데이터로, 30%는 성능 검증을 위한 검증데이터로 사용하였다. 실험에서 사용된 딥러닝 모델은 오디오 분류에 많이
사용되고 있는 CNN 기반 전이 학습모델인 VGGish와 YAMNet이다. 전이 학습모델의 분류 성능은 막대그래프와 오차 행렬을 시각화하여 확인 및
비교분석 했다. 앞서 설명한 데이터 특징 추출, 학습, 성능 검증 등 모든 실험은 MATLAB2021b 환경에서 진행되었다.
5.2 실험 결과 및 분석
전이 학습모델의 우울증 진단 성능을 확인하기 위한 실험은 크게 2가지로 나누어 진행하였다. 첫 번째 실험에서는 흑백 이미지 특징을 입력으로 넣었을
경우 특징 추출 방법에 따른 전이 학습모델의 분류 성능을 확인하였다. 두 번째 실험에서는 첫 번째 실험에서 사용된 흑백 이미지 특징을 컬러이미지로
변환하여 이를 입력으로 넣었을 경우 특징 추출 방법에 따른 전이 학습모델의 분류 성능을 확인했다. 1차원인 음성신호를 시간대 주파수 표현인 스펙트로그램으로
변환하기 위해 바크 스펙트로그램, 로그 스펙트로그램, 로그 멜-스펙트로그램 총 3가지의 특징 추출 방법을 이용했다. 추출된 특징을 이용하여 VGGish
모델과 YAMNet 모델의 학습을 진행하였고, 이에 대한 검증 성능을 비교 및 분석하였다.
표 2 흑백 이미지를 입력으로 넣었을 때, 특징 추출 방법에 따른 전이 학습모델 성능 비교표
Table 2 In case that black-and-white images are input,the performance comparison table
of the transfer learning model according to the feature extraction method
|
VGGish
|
YAMNet
|
바크 스펙트로그램
|
76.06%
|
72.78%
|
멜 스펙트로그램
|
91.21%
|
94.48%
|
로그 멜-스펙트로그램
|
74.47%
|
73.20%
|
CNN 기반 전이 학습모델인 VGGish와 YAMNet은 원래 96*64*1의 크기를 가지는 흑백 이미지를 입력으로 받는다. 표 2에서는 스펙트로그램 특징을 흑백 이미지로 변환하여 넣었을 경우, 특징 추출 방법에 따른 VGGish와 YAMNet의 검증 성능을 확인할 수 있다.
로그 변환을 통해 얻은 바크 스펙트로그램과 로그 멜-스펙트로그램 특징은 흑백 이미지로 변환했을 때, 데이터에 대한 특징이 잘 드러나지 않았다. 반면,
로그 변환을 취하지 않은 멜 스펙트로그램은 다른 특징에 비해 특징이 잘 드러났다. 그림 8에서 볼 수 있듯이 이 실험에서는 특징이 잘 드러난 멜 스펙트로그램을 사용했을 때, YAMNet 모델의 검증 성능이 94.48%로 가장 높은 것을
확인할 수 있었다. 그림 9에서 이에 대한 오차 행렬을 보면, 실제 클래스에서 비우울증 데이터에 비해 우울증 데이터를 잘 분류하지 못하였다. 하지만 데이터의 개수를 고려해보았을
경우, 우울증 데이터가 훨씬 적음에도 불구하고 94.48%의 높은 성능을 보이며 잘 분류된 것을 확인할 수 있다.
그림 8 흑백 이미지를 입력으로 넣었을 때, 특징 추출 방법에 따른 전이 학습모델 성능 비교 차트
Fig. 8 In case that black-and-white images are input, the performance comparison chart
of the transfer learning model according to the feature extraction method
그림 9 멜 스펙트로그램을 이용, YAMNet의 오차 행렬
Fig. 9 Using Mel Spectrogram, YAMNet’s confusion matrix
표 3에서는 흑백 이미지를 컬러이미지로 변환하여 이를 입력으로 넣었을 경우, 특징 추출 방법에 따른 VGGish와 YAMNet의 검증 성능을 확인할 수
있다. 컬러이미지는 흑백 이미지와 다르게 96*64*3의 크기를 가지기 때문에 VGGish와 YAMNet의 입력단과 첫 번째 합성곱 계층을 입력 크기에
맞춰 변경해주었다. 그림 10에서 보면, 특징 추출 방법에 상관없이 VGGish와 YAMNet 모델의 검증 성능이 90% 이상으로 높은 성능을 가진다. VGGish에 비해 YAMNet
모델의 성능이 더 높은 것을 확인할 수 있다. 이 실험에서는 첫 번째 실험과 다르게 바크 스펙트로그램 특징을 사용했을 때, YAMNet 모델의 검증
성능이 97.34%로 가장 높다. 그림 11에서 이에 대한 오차 행렬을 살펴보면 YAMNet의 모델이 우울증과 비우울증을 높은 성능으로 잘 분류한 것을 확인할 수 있다.
표 3 컬러이미지를 입력으로 넣었을 때, 특징 추출 방법에 따른 전이 학습모델 성능 비교표
Table 3 In case that color images are input, the performance comparison table of the
transfer learning model according to the feature extraction method
|
VGGish
|
YAMNet
|
바크 스펙트로그램
|
96.34%
|
97.34%
|
멜 스펙트로그램
|
95.70%
|
96.84%
|
로그 멜-스펙트로그램
|
90.48%
|
94.81%
|
그림 10 특징 추출 방법에 따른 전이 학습모델 성능 비교
Fig. 10 performance comparison of the transfer learning model according to the feature
extraction method
그림 11 바크 스펙트로그램을 이용, YAMNet의 오차 행렬
Fig. 11 Using Bark Spectrogram, YAMNet’s confusion matrix
본 논문에서는 평균적으로 YAMNet의 우울증 진단 성능이 VGGish 모델보다 높은 것을 확인하였다. 흑백 이미지를 입력으로 넣었을 경우, 다른
특징 추출 방법을 사용했을 때와 비교해 로그 변환이 없는 멜 스펙트로그램을 사용했을 때의 검증 성능이 약 20% 더 높은 것을 확인했다. 반면 컬러이미지를
입력으로 넣었을 경우, 흑백 이미지를 넣었을 경우보다 모두 90% 이상의 성능을 보임으로써 성능이 더 향상된 것을 확인했고, 정신 음향학에서 많이
사용되는 바크 스펙트로그램 특징을 사용했을 때 97.34%로 가장 높은 성능을 보였다. 여기서 우울증 진단에는 YAMNet 모델을 사용하고 바크 스펙트로그램을
컬러이미지로 변환하여 입력으로 넣었을 때 가장 적합하다는 것을 증명했다.
6. 결 론
본 논문에서는 인터뷰 형식의 음성 우울증 데이터를 이용하여 딥러닝 전이 학습모델 기반 우울증 진단 성능을 비교 및 분석하였다. 우울증 진단을 위해
인터뷰 형식의 DAIC-WOZ 우울증 데이터베이스에서 우울증 55명, 비우울증 133명 총 188명의 데이터를 사용했다. 데이터에서는 STFT를 기반으로
바크 스펙트로그램, 멜 스펙트로그램, 로그 멜-스펙트로그램 특징을 흑백과 컬러이미지로 나누어 추출하였다. 추출된 특징을 이용하여, 특징 추출 방법에
따른 VGGish와 YAMNet 전이 학습모델의 우울증 진단 성능을 확인했다. 흑백 이미지를 입력으로 넣었을 경우에는 멜 스펙트로그램 특징을 사용하고
YAMNet 모델을 기반으로 했을 때 94.48%로 가장 좋은 성능을 보였다. 반면 컬러이미지를 넣었을 경우에는 바크 스펙트로그램 특징을 이용하고
YAMNet 모델을 기반으로 했을 때 97.34%로 가장 높은 성능을 보였다. 따라서 음성신호를 이용한 우울증 진단에는 YAMNet 전이 학습모델을
기반으로 바크 스펙트로그램 특징을 컬러이미지로 변환하여 입력으로 넣었을 때 가장 적합하다는 것을 증명하였다. 향후에는 1차원 신호를 입력으로 받는
LSTM 모델과 2차원 이미지를 입력으로 받는 CNN 모델을 앙상블하거나, 음성신호뿐 아니라 텍스트 데이터를 추가적으로 이용하여 우울증 진단 모델의
성능을 향상시키는 연구를 진행해볼 예정이다.
Acknowledgements
본 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신산업진흥원의 지원을 받아 수행된 헬스케어 AI 융합 연구개발 사업임(NO. S1601-20-1041).
또한, 2017년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(NO.2017R1A6A1A03015496).
References
Z. Liu, Spet 2015, Detection of depression in speech, 2015 International Conference
on Affective Computing and Intelligent Interaction (ACII), pp. 743-747

M. H. Jana, Mar 2019, Text-Based Detection of the Risk of Depression, Front. Psychol.
10:513, pp. 1-11

K. S. Kim, Dec 2017, Development of depression diagnosis system using EEG signal,
Journal of the Korea Academia-Industrial cooperation Society, Vol. 18, No. 12, pp.
452-458

Yan Zhao, Nov 2021, Detecting Depression from Speech through an Attentive LSTM Network,
IEICE TRANS. INF. & SYST., vol. E104-D, Vol. no. 11, pp. 2019-2023

H. Wang, Sep 2021, Depression Speech Recognition With a Three-Dimensional Convolutional
Network, Front. Hum. Neurosci. 15:713823, pp. 1-15

A. Waghela, Jun 2020, Depression Detection using speech as Input Signal, International
Journal of Future Generation Communication and Networking, Vol. 13, No. 3, pp. 1275-1286

A. Vázquez-Romero, A. Gallardo-Antolín, Jun 2020, Automatic Detection of Depression
in Speech Using Ensemble Con- volutional Neural Networks., Entropy. 2020; 22(6):688,
pp. 1-17

G. Jonathan, May 2014, The Distress Analysis Interview Corpus of human and computer
interviews, Proceedings of the Ninth International Conference on Language Resources
and Evaluation (LREC’14), pp. 3123-3128

K. Swathy, J. Anju, July 2020, Speech Based Depression Detection using Convolution
Neural Networks, International Journal of Innovative Technology and Exploring Engineering
(IJITEE), Vol. 9, No. 9, pp. 2278-3075

H.W Choee, Oct 2019, CNN-based Speech Emotion Recognition using Transfer Learning,
Journal of Korean Institute of Intelligent Systems, Vol. 29, No. 5, pp. 339-334

S. Hershey, Jan 2017, CNN architectures for large-scale audio classification, IEEE
International Conference on Acoustics Speech and Signal Processing, pp. 131-135

Z. S. Syed, Nov 2020, Deep Acoustic Embeddings for Identifying Parkinsonian Speech,
International Journal of Advanced Computer Science and Applications(IJACSA), Vol.
11, No. 10, pp. 726-734

H. A. Andrew, Apr 2017, MobileNets: Efficient Convolutional Neural Networks for Mobile
Vision Applications, arXiv preprint arXiv:1704.04861, pp. 1-9

저자소개
2021년 2월: 조선대학교 전자공학과(공학사)
2021년 3월 ~ 현재: 조선대학교 전자공학과 IT-Bio 융합시스템 전공(석사 과정)
관심분야: 음성신호 처리, 딥러닝
2002년: 충북대학교 전기공학과 박사 졸업
2003년 ~ 2005년: 캐나다 앨버타대학교 전기 및 컴퓨터 공학과, 박사후과정
2005년 ~ 2007년: 한국전자통신연구원 지능형로봇연구단 선임연구원
2014년 ~ 2015년: 미국 캘리포니아 주립대학교 플러튼, 방문교수
2007년 ~ 현재: 조선대학교 전자공학부 교수
관심분야: 계산지능, 인간-로봇상호작용, 바이오인식