조아현
(A-Hyeon Jo)
1iD
곽근창
(Keun-Chang Kwak)
†iD
-
(Interdisciplinary Program in IT-Bio Convergence System, Dept. of Electronic Engineering,
Chosun University, Korea)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Speech emotion recognition, human-computer interactions, deep learning, canonical correlation analysis, feature level fusion
1. 서 론
사람 간의 의사소통은 단순한 정보 교환뿐만 아니라 서로의 관계 유지를 위해 중요하다. 감정은 일상생활에서 사람과 의사소통하는 데 있어 자연스럽게 담겨있고,
이 감정을 해석하고 이해하는 것은 의사 결정과 전체적인 의미 파악에 도움이 된다. 감정은 몸짓, 표정, 몸의 자세, 음성 등과 같은 다양한 형태로
표현할 수 있다. 또한 온도, 심박수, 혈압, 근육 활동, 피부 저항과 같은 물리적 속성에서도 사람의 감정 상태를 파악할 수 있다 [1].
이렇게 사람들은 언어적, 비언어적인 다양한 방법으로 감정을 표현하게 되는데 특히 음성은 가장 일반적이고 자연스럽게 감정을 표현하고 전달할 수 있다.
사람의 목소리는 감정 상태를 드러낼 수 있는 톤, 피치, 강도, 속도 등의 다양한 요소들을 포함하고 있어 감정의 변화를 포착하고 해석하는 데 결정적인
역할을 한다.
음성 감정 인식 (Speech Emotion Recognition; SER)은 사람과 기계 간의 자연스러운 상호 작용을 가능하게 하는 핵심 기술로서
자리 잡고 있는데, 이는 사람들이 의사소통 시 단순히 언어만이 아닌, 톤, 음량, 강세 등을 통해 감정을 표현하기 때문이다. 따라서 기계가 사람의
음성을 이해하기 위해서는 음성 속에 포함된 감정적인 요소들을 정확하게 인식할 수 있어야 한다. SER은 고객 서비스 제공, 정신건강 상태 모니터링,
게임 및 엔터테인먼트 등 다양한 응용 분야를 가지고 있다. 예를 들어, 고객 서비스 센터에서는 고객의 감정 상태를 인식하여 개개인의 기분에 맞는 적절한
서비스를 제공할 수 있고, 정신건강 상태 모니터링을 통해 사용자의 음성에서 스트레스나 우울증 등을 감지할 수 있다. 또한, 개인화된 AI 보조 기기나
로봇의 개발에 있어 핵심 기술이 될 수도 있다. 최근 이러한 SER을 자동화하기 위해 딥러닝을 이용해 음성 발화에서 감정 상태를 식별하는 연구들이
활발하게 진행되고 있다[1-3].
Anvarjon [4]의 연구에서는 음성을 통해 생성된 스펙트로그램이 공급되는 CNN(Convolutional Neural Network)을 제안한다. 음성 스펙트로그램에서
깊은 주파수 특징을 학습하고 캡처하기 위해 수정된 풀링 전략과 함께, 일반 직사각형 필터를 사용한다. 제안된 SER 모델은 IEMOCAP(Interactive
Emotional Dyadic Motion Capture)와 EMO-DB(Berlin EMO-DB) 음성 데이터세트를 포함하는 두 가지 벤치마크에
대해 평가되었으며 77.01%와 92.02%의 인식 정확도를 얻었다.
Jiang [5]의 연구에서는 음성 신호에서 감정적 특징을 더 잘 획득하여 SER을 하기 위한 스펙트럼 특징을 가진 병렬화된 합성곱 순환 신경망 (parallelized
convolutional recurrent neural network; PCRN)을 제안한다. 제안된 방법은 서로 다른 두 가지 유형의 두 가지 특징인
3-D 로그 멜 스펙트로그램과 프레임 수준 특징을 동시에 입력으로 사용한다. 가변 길이 프레임 수준 특징은 음성의 시간 정보를 보존하며 3D 로그
멜 스펙트로그램은 시간 주파수 상관관계를 캡처하기 위해 더 많은 매개 변수가 포함된다. PCRN 모델을 이용하여 두 종류의 특징을 동시에 처리하여
감성 디테일이 다른 상위 특징을 추출하고 병렬 내부 구조를 통해 모듈 간 감정 정보의 차이를 조정한다. 4개의 공개 데이터세트의 실험 결과는 제안하는
방법이 이전 연구보다 우수함을 증명하였다.
Nagase [6]의 연구에서는 중립 및 분노 특성을 기반으로 SER에 대한 새로운 레이블 스무딩을 제안하여 SER의 모델이 복잡한 특성을 고려하면서 훈련될 수 있도록
한다. 제안한 방법을 JTES와 IEMOCAP의 두 가지 감성 음성 데이터세트를 이용하여 평가하고, 제안된 방법이 F1 점수를 향상시키는 것으로 나타났다.
H, Zhang [7]은 깊은 합성곱 신경망 (Deep Convolution Neural Network; DCNN)과 어텐션이 적용된 양방향 장단기 메모리 (Bidirectional
Long Short-Term Memory; BLSTMwA) 모델을 기반으로 하는 DCNN-BLSTMwA 방법을 제안한다. 데이터 품질 향상과 균형을
맞추기 위해 음성데이터를 전처리하고 로그 멜 스펙트로그램 (static, delta, and delta-delta)을 세 채널로 추출하여 DCNN
입력으로 사용한다. 사전 학습된 DCNN 모델을 사용하여 구간 수준의 특징을 생성하고 특징들을 하나의 문장으로 쌓아 대화 수준의 특징을 만든다. BLSTM을
사용하여 고수준 감정 특징을 학습하고, 감정적으로 관련 있는 특징에 집중할 수 있는 어텐션 계층을 이용한다. 마지막으로, 학습된 고수준 감정 특징은
DNN에 입력되어 최종 감정을 예측한다. 제안된 방법은 EMO-DB와 IEMOCAP 데이터베이스에 대해 평가되었으며 가중치가 없는 평균 리콜 (UAR)
값을 각각 87.86%와 68.50% 얻어 SER의 효과를 입증한다.
W. Zhang [8]는 Mel-Spectrogram과 위치, 크기 및 상태가 다른 유사한 특징을 구별할 수 있는 CapsNet을 결합하는 방법을 제안한다. 제안된 방법은
음성 신호를 Mel-Spectrogram으로 변환한 뒤, 3개의 합성곱 계층에서 깊이 특징을 추출하고 이 깊이 특징이 CapsNet을 통해 추가로
추출되어 동적 라우팅 알고리즘을 사용해 종 올바른 감정 특징 벡터를 식별한다. 평가에는 EMO-DB와 CASIA 데이터베이스를 사용하였고, 그 결과
Mel-Spectrogram에서 추출한 깊이 특징이 음성 감정 분류에 더 적합함을 보였다.
Han [9]은 ResNet-CNN-Transformer Encoder를 연결하여 음성 감정 인식을 위한 새로운 병렬 네트워크를 제안한다. ResNet은 활성화
함수로 Gaussian Error Linear Units(GELU)를 사용하여 네트워크의 기울기 소실 문제를 개선하기 위해 사용되고 CNN은 네트워크의
fitting expression 능력을 높이기 위해 보다 적은 매개 변수를 계산하는 데 사용된다. 또한 트랜스포머 인코더는 시간에 따른 음성의 연속성을
고려한 multi-head self attention 계층을 사용하여 다양한 감정의 빈도 분포를 예측하는 데 사용된다. 이 세 가지 모델을 융합하기
위해 ResNet과 CNN의 출력을 1차원 벡터로 평면화하고 Transformer Encoder의 출력과 연결하고 완전 연결 계층 및 소프트맥스 계층을
순차적으로 연결하여 8가지 감정 상태를 분류한다. 모델은 RAVDESS 데이터세트를 통해 평가되었고 기존 연구들보다 높은 80.89% 정확도를 달성했다.
Kakuba [10]의 연구에서는 dilated convolutions 및 BLSTM와 함께 하이브리드 방식으로 self 및 multi-head attention을 사용하는
모델을 제안한다. 이는 multi-head attention을 사용하여 병렬 방식으로 특징 간의 글로벌 컨텍스트 종속성을 계산한다. 또한 BLSTM
레이어 스택에 구성된 self-attention을 사용하여 전역 컨텍스트 및 장기 종속성을 계산한다. 확장된 합성곱 계층을 사용하면 계층 수에 비해
매개 변수 수가 적게 증가하여 수용 필드가 향상됨을 확인하였다. 원시 신호를 사용하는 모델은 행복하고 화난 감정 또는 중립적이고 슬픈 감정을 혼동하는
경향이 있으므로 원시 음성 신호에서 추출한 스펙트럼 및 음성 품질 특징을 입력으로 사용한다. 제안된 모델의 성능 평가 결과는 EMODB 데이터세트에서는
96.36%의 정확도를 달성하였고, RAVDESS 데이터세트에서는 정확도 88.96%를 달성하였다.
기존 연구들은 주로 영어나 독일어로 이루어진 음성 데이터를 활용하여 음성 감정 인식 연구를 진행하였지만, 한국어 음성 데이터를 활용한 연구는 상대적으로
많이 진행되지 않아 한국어 음성의 다양성과 특성을 반영하는 연구가 필요하다. 또한, 기존 연구들은 주로 음성 데이터에서 특정 특징만 추출하여 해당
특징만을 활용하는 경향이 있었다. 이러한 방법은 음성 데이터의 다양한 특성, 상호 연관성 및 복잡성을 충분히 다루지 못해 다양한 감정을 정확하게 분류하는
데 한계가 있었다.
따라서, 본 논문에서는 한국어 음성 데이터를 활용하여 다양한 특징들을 추출하고, 이 특징 간의 상관관계를 정준상관분석 (Canonical Correlation
Analysis; CCA)을 통해 분석한다. CCA 방법을 통해 특징들의 상호 연관성을 고려하여 중요한 특징값만 추출하고 이를 강력한 단일 특징으로
융합하는 방법을 제안함으로써, 한국어 음성 데이터의 다양한 정보를 효과적으로 활용하고 다양한 감정을 더욱 정확하게 분류하고자 한다. 이 방법을 통해
융합된 특징을 딥러닝 모델인 1D-CNN을 기반으로 학습하여 감정 인식을 수행하고 각각의 특징에 따른 성능을 비교하고 분석한다.
본 논문은 다음과 같이 구성되어 있다. 2장에서는 아날로그 음성 데이터에서 특징을 추출하는 방법과 이 특징들을 융합하는 방법인 CCA 방법에 대해
소개한다. 3장에서는 본 연구에서 사용된 데이터 세트와 실험 결과 및 성능을 비교 분석한다. 5장에서는 결론 및 향후 연구 계획을 기술하고 마무리한다.
2. CCA기반 다중특징융합을 이용한 음성 감정 인식
2.1 특징추출 방법
음성에서 특징을 추출하기 위해 시간 영역, 주파수 영역, 시간-주파수 영역에서 분석하는 다양한 방법들이 있다. 본 논문에서는 음성을 주파수 영역에서
분석하는 방법인 바크-스펙트럼 (bark-spectrum), 멜-스펙트럼 (mel-spectrum), 멜-주파수 켑스트럴 계수 (Mel Frequency
Cepstral Coefficient; MFCC), 감마톤 켑스트럼 계수 (GammaTone Cepstral Coefficients; GTCC)
방법을 사용하여 음성에서 다양한 특징을 추출하였다.
바크-스펙트럼은 사람의 청각 시스템을 모델링 하는데 사용되는 바크 주파수 척도에 기반한 오디오 신호의 스펙트럼 특징이다. 바크 척도는 높은 주파수보다
낮은 주파수에 민감하여 주파수가 높아짐에 따라 척도의 간격이 커지고, 일반적으로 1부터 24까지의 값으로 나타낸다. 이는 인간의 청각이 한 번에 인식할
수 있는 주파수 범위인 임계 대역을 나타내고 이를 기반으로 하여 소리의 주파수를 표현한다.
바크-스펙트럼 특징은 오디오 신호의 푸리에 변환을 계산하여 주파수 도메인의 표현을 얻고, 주파수에 해당하는 바크 척도 값으로 변환하여 각 바크 대역에서의
에너지 합계를 계산하면 얻을 수 있다. 이는 사람의 청각 특성을 반영하기 때문에 다양한 오디오 처리 작업에 유용하게 사용될 수 있다. 그림 1은 조선대학교에서 구축한 한국어 음성 감정 상태분류용 데이터세트의 각 감정에 대한 바크-스펙트럼 특징을 시각화한 그림이다. 이 특징은 [0, 24000]의
주파수 범위와 25개의 바크 밴드를 가지고 스펙트럼 유형은 크기(magnitude) 스펙트럼으로 지정하여 추출하였다. 그림 1에서 보면 감정마다 특징들이 나타나는 주파수 영역이 다르다는 것을 확인할 수 있다.
그림 1. 바크-스펙트럼 특징 시각화
Fig. 1. Visualization of bark-spectrum features
멜-스펙트럼은 음성 인식과 분류 문제에서 널리 사용되는 특징 중 하나로 바크-스펙트럼과 비슷하지만, 차이점은 멜 척도를 기반으로 얻어진다는 것이다.
멜 척도 또한 주파수가 높은 대역보다 낮은 대역에서 주파수 변화를 잘 감지하는 사람의 청각 특성을 고려한다. 따라서 멜 스펙트럼은 낮은 주파수 영역에
많은 가중치를 부여하여 음성에서 특징을 추출하게 된다. 이는 MFCC의 특징 벡터를 계산하는 데 사용되는 중간 단계로 음성의 여러 특징을 추출하기
위해 중요한 요소이다. 그림 2는 조선대학교에서 구축한 한국어 음성 감정 상태분류용 데이터세트의 각 감정에 대한 멜-스펙트럼 특징을 시각화한 그림이다. 이 특징은 [0, 24000]의
주파수 범위와 25개의 멜 밴드를 가지고 스펙트럼 유형은 크기(magnitude) 스펙트럼으로 지정하여 추출하였다. 그림 1과 그림 2를 비교해보면 바크-스펙트럼과는 주파수 범위와 주파수 범위마다 나타나는 전력의 크기 면에서 차이가 있다는 것을 확인할 수 있다.
그림 2. 멜-스펙트럼 특징 시각화
Fig. 2. Visualization of mel-spectrum features
MFCC는 음성 인식, 화자 인식, 감정 인식 및 성별 식별과 같은 음성 신호 처리의 다양한 응용 분야에서 사용되는 일반적으로 사용되는 특징 중 하나이다
[11]. MFCC는 그림 3에서와 같이 1개의 연속적인 과정, 즉 음성을 작은 프레임으로 나누기, 파워 스펙트럼 계산, 획득된 파워 스펙트럼에 Mel 필터 뱅크 적용, 모든
필터 뱅크의 로그 값 계산 및 최종적으로 DCT를 적용함으로써 계산될 수 있다 [12]. 그림 4는 조선대학교에서 구축한 한국어 음성 감정 상태분류용 데이터세트의 각 프레임에 반환되는 계수를 25로 설정한 MFCC 특징을 감정별로 시각화한 그림이다.
그림 3. 특징 벡터 계산과정
Fig. 3. Process of feature vector calculator
그림 4. MFCC 특징 시각화
Fig. 4. Visualization of MFCC features
GTCC는 멜 필터 뱅크에서 파생된 MFCC와 다르게 내부와 외부 중이의 생리적 변화를 표현하는 감마톤 필터 뱅크를 기반으로 얻어진다 [13]. MFCC 및 GTCC 모두 사람의 청각 특성 모델에 기반하지만, GTCC는 MFCC보다 물리적 변화를 더 효과적으로 이해하고 [14] 청각 시스템을 더 잘 설명하기 위해 조정되었다. 따라서 GTCC는 인간의 청각 시스템의 생물학적 반응에 기반한 MFCC의 변형이라고 말할 수 있다.
이 특징은 동등한 사각 대역폭 (Equivalent Rectangular Bandwidth; ERB) 밴드를 가진 감마톤 필터에서 추출된다. 또한
계산 비용이 효율적이며 MFCC에 비해 소음에 대해 강건성을 가지고 있다 [15]. GTCC 계산과정은 MFCC와 유사하고, 필터뱅크를 적용하는 과정에서 멜 필터뱅크 대신 감마톤 필터뱅크를 사용한다는 점이 다르다. 그림 5는 조선대학교에서 구축한 한국어 음성 감정 상태분류용 데이터세트의 각 프레임에 반환되는 계수를 25로 설정한 GTCC 특징을 감정별로 시각화한 그림이다.
그림 5. GTCC 특징 시각화
Fig. 5. Visualization of GTCC features
2.2 CCA 방법 기반 다중특징융합
본 논문에서는 특징융합을 통해 여러 특징 집합을 통합하여 개별 특징 벡터보다 더 강건한 단일 특징 벡터를 생성한다. 음성에서 추출한 여러 가지 특징들을
융합하기 위해 정준상관분석 (Canonical Correlation Analysis; CCA) 방법을 사용하였다. 이 방법은 상관관계를 파악할 수
있는 기준 함수를 구성하여 두 특징 집합 간의 상호 통계적인 연관성을 다룬다 [16]. CCA는 두 개의 특징 공간 사이에서 상관관계를 최대화하는 선형 변환을 찾아냄으로써 다른 형태의 데이터가 서로 어떻게 연관되어 있는지를 파악하는
것이 가능해진다. X와 Y라는 두 개의 특징 집합이 있을 때, 특징 집합 간의 모든 관계에 대한 정보를 얻기 위한 전체 공분산 행렬($C$)의 수식은
식 (1)과 같이 표현할 수 있다 [17].
두 특징 집합 간의 연관성을 이해하는 것은 패턴이 일정하지 않을 때 어려움이 있을 수 있는데, CCA는 이 문제를 해결하기 위해 선형 조합 $X^{*}=
W_{x}^{T}X$와 $Y^{*}= W_{y}^{T}Y$를 찾아서 maximum pair-wise 상관관계를 파악한다. 마지막으로 변형된 특징 집합의
연결을 통해 수식 (2)와 같은 방법으로 특징융합 집합을 얻을 수 있게 된다 [17].
수식 (2)에서 Z는 정준상관판별식 특징 (Canonical Correlation Discriminant Features; CCDFs)를 나타낸다 [17]. 본 연구에서는 CCA 방법을 기반으로 두 가지의 음성 특징을 융합하여 음성 감정 인식 모델의 입력으로 사용한다. 특징융합의 주요 이점은 여러 특징값의
상관관계를 파악할 수 있어 중요한 특징값을 이용한 집합을 이용하여 분류 정확도를 향상시킬 수 있다는 것이다 [18]. 따라서 본 연구에서는 음성 데이터의 다양한 측면을 고려하고 중요한 특징값들만 융합하여 강력한 단일 특징을 생성할 수 있는 CCA 방법을 선택함으로써
모델의 복잡성은 증가시키지 않고 다양성을 반영하여 음성 감정 인식의 성능을 향상시키고자 하였다.
2.3 음성특징융합을 이용한 1D-CNN 음성 감정 인식 모델
음성 감정 인식을 위해 사용된 모델은 1차원 합성곱 신경망 (1D Convolutional Neural Networks; 1D-CNN)으로 시계열,
텍스트, 신호 처리와 같이 순차적인 정보를 다루는 데 효과적이다. 이는 높은 차원의 이미지 데이터를 처리하는 2D-CNN이나 3D-CNN과 비슷한
원리를 가지고 있지만, 합성곱 연산을 1차원 데이터에 적용하게 된다. 1D-CNN은 여러 시간 스텝에 걸친 패턴 즉, 입력 데이터의 연속적인 패턴을
학습하는 데 사용되고 각 합성곱 계층은 이전 계층의 출력에서 특정 패턴을 학습한다. 본 논문에서는 5개의 합성곱 블록으로 구성된 1D-CNN 모델을
사용하였고, 각 블록에는 1D 합성곱 계층, 배치 정규화 계층, 활성화 함수인 ReLu 계층, 과적합 방지를 위한 드롭아웃 계층으로 구성된다. 각각의
1D 합성곱 계층은 크기가 3인 32개, 64개, 128개, 256개, 512개의 필터가 적용된다. 5개의 합성곱 블록 뒤로는 전역 최댓값 풀링 계층,
2개의 완전 연결 계층, 결과를 0~1 사이의 확률값으로 모두 정규화해주는 소프트맥스 계층과 분류계층으로 구성되어 있다.
그림 6은 1D-CNN기반 음성 감정 인식 모델의 구조를 보여준다. 입력 데이터로는 음성 신호가 들어가고 여기에서 각각 다양한 특징들을 추출한 뒤 CCA
방법을 기반으로 2가지의 특징을 융합한다. 이렇게 융합된 특징을 1D-CNN의 최종 입력으로 사용하여 행복, 무감정, 화남, 슬픔, 억울, 역겨움,
두려움, 놀람 등의 감정을 분류한다.
그림 6. 1D-CNN기반 음성 감정 인식 모델 구조
Fig. 6. Structure of speech emotion recognition model based on 1D-CNN
3. 실험 및 결과 분석
3.1 음성 감정 데이터세트
본 논문에서는 AI-hub에서 제공하는 감정 분류용 데이터세트 [19]와 조선대학교에서 구축한 한국어 음성 감정 상태분류용 데이터세트 2가지를 이용하여 실험을 진행하였다.
AI-hub에서 제공하는 감정 분류용 데이터세트는 오디오, 비디오, 텍스트가 포함된 멀티모달 데이터로 연기 지망생/연기 전문가 100명을 대상으로
구축되었다. 데이터 구축을 위해 감정 유추가 가능한 대화 데이터를 사람이 연기하여 결과를 저장하고, 동시에 해당 데이터의 감정 상태와 감정 주체 부여하였다.
포함된 감정은 행복, 놀람, 무감정, 두려움, 역겨움, 화남, 슬픔 총 7가지이다. 7가지 감정에 대해 약 100번씩 발화 및 연기하여 총 10,351개의
영상파일을 포함하고, 표 1에서 각 감정에 대해 포함된 데이터의 개수를 확인할 수 있다. 영상은 FHD 해상도, 초당 프레임 수가 30으로 촬영하여 m2ts 형식으로 저장되었고,
실험에 사용된 음성은 16bit, 48KHz의 정보를 가지고 영상 속에 포함되어있다.
표 1 AI-hub 감정 분류용 데이터세트의 데이터 개수
Table 1 The number of data in the AI-hub emotion classification dataset
행복
|
놀람
|
무감정
|
두려움
|
1,497개
|
1,499개
|
1,500개
|
1,453개
|
역겨움
|
화남
|
슬픔
|
Total
|
1,440개
|
1,483개
|
1,479개
|
10,351개
|
조선대학교에서는 일반인 200명을 대상으로 음성 감정 상태분류를 위한 데이터세트를 구축하였다. 감정 상태는 행복, 무감정, 화남, 슬픔, 억울,
역겨움, 공포, 놀람이며 이 8가지 감정 상태를 묘사하는 상황과 그에 해당하는 짧은 대화를 설정하여 참가자들이 감정을 연기하였다. 그 과정을 소니의
ECM-CS3 스테레오 마이크를 이용하여 48kHz의 샘플 레이트로 녹음하였다. 이렇게 얻어진 음성 데이터는 wav 파일 형태로 저장되었다. 녹음은
잡음이 없는 조용한 환경에서 이루어져, 잡음에 민감한 음성 데이터의 특성이 고려되었다. 데이터는 참가자별로 감정 상태당 10개씩, 총 80개의 음성
데이터를 얻어 총 16,000개의 음성 파일이 포함되어있다.
3.2 실험 및 성능 평가
본 논문에서는 AI-hub 감정 분류용 데이터세트 및 한국어 음성 감정 상태분류용 데이터세트를 이용하여 음성의 특징을 추출하고, 특징추출 방법 및
CCA기반 특징융합에 따른 1D-CNN 음성 감정 인식 모델의 성능을 비교 분석하였다. 모든 실험 및 검증은 Windows10의 MATLAB 환경에서
진행되었고, 실험 환경과 사용한 하드웨어 및 소프트웨어에 대한 상세한 정보는
표 2에서 확인할 수 있다. 또한, 모델의 학습에 사용된 하이퍼파라미터는 표 3과 같이 Adam 최적화 함수, 200번 반복 학습, 미니배치사이즈 512, 기울기 임계값을 2로 설정하였다. 이는 실험 중 하이퍼파라미터 튜닝을
통해 가장 적합한 값으로 설정하였으며, 최적화 함수는 빠른 수렴과 잡음에 강한 특성을 고려하여 Adam을 선택하였다.
모델은 정확도 (Accuracy), 정밀도 (Precision), 재현율 (Recall), F1-score와 같은 분류성능평가지표를 사용하여 성능을
평가하였다. 정확도는 모델이 얼마나 정확하게 분류하는지를 측정하는 지표로 전체 예측 중에서 올바르게 예측한 비율을 의미한다. 정밀도는 양성 (Positive)
클래스에 속한다고 출력한 데이터 중 실제로 양성 클래스에 속하는 데이터 수의 비율을 말한다. 재현율은 실제 양성 클래스에 속한 데이터 중에 양성 클래스에
속한다고 출력한 표본의 수의 비율을 말한다. 마지막으로 F1-score는 정밀도와 재현율의 가중 조화평균 (weight harmonic average)으로
두 개의 지표가 균형을 이룰 때 높아진다.
첫 번째는 실험은 AI-hub 감정 분류용 데이터세트를 이용한 1D-CNN기반 음성 감정 인식 모델의 성능 평가 및 분석이다. 표 4는 AI-Hub 감정 분류용 데이터세트의 단일 특징과 다중특징융합에 따른 음성 감정 인식의 성능을 보여준다.
표 4에서 확인할 수 있듯, 바크-스펙트럼과 멜-스펙트럼 특징을 융합했을 때 감정 인식의 정확도는 71.66%, 정밀도는 71.61%, 재현율은 73.83%,
F1 점수는 71.77%로 단일 특징을 이용했을 때보다 정확도를 기준으로 2.95%~7.15% 정도 성능이 향상되었다. 또한, MFCC와 GTCC
특징을 융합했을 때 감정 인식의 정확도는 77.02%, 정밀도는 76.99%, 재현율은 78.30%, F1 점수는 77.09%로 단일 특징을 이용했을
때보다 정확도를 기준으로 15.26%~18.26% 정도 성능이 향상되었다. 바크-스펙트럼, 멜-스펙트럼, MFCC, GTCC를 1D-CNN의 단일
특징 입력으로 사용했을 때 감정 인식의 정확도가 평균 63.4%지만, CCA를 기반으로 특징을 융합했을 때 평균 정확도가 약 73.3%로 개선되었다.
그림 7을 통해 AI-hub 데이터의 특징융합기반 음성 감정 인식 모델의 성능 혼동행렬을 확인할 수 있다. 그림 7의 (a)는 바크 및 멜-스펙트럼의 특징을 융합했을 때의 혼동행렬로 이 특징은 다른 감정들보다 무감정과 슬픔 감정에 높은 기여를 했다는 것을 확인할
수 있다. 그림 7의 (b)는 MFCC 및 GTCC의 특징을 융합했을 때의 혼동행렬로 화남, 무감정, 슬픔 감정에 대해 특징이 두드러지게 나타나 다른 감정들보다 높은
정확도로 분류되었음을 확인할 수 있다.
그림 7. AI-hub 데이터의 특징융합기반 음성 감정 인식 모델의 성능 혼동행렬
Fig. 7. Performance confusion matrix of feature fusion-based speech emotion recognition
model of AI-hub Data
두 번째 실험은 한국어 음성 감정 상태분류용 데이터세트를 이용한 1D-CNN기반 음성 감정 인식 모델의 성능 평가 및 분석이다. 표 5는 한국어 음성 감정 상태분류용 데이터세트의 단일 특징과 다중특징융합에 따른 음성 감정 인식의 성능을 보여준다.
표 5에서 확인할 수 있듯, 바크-스펙트럼과 멜-스펙트럼 특징을 융합했을 때 감정 인식의 정확도는 97.88%, 정밀도는 97.87%, 재현율은 97.88%,
F1 점수는 97.87%로 단일 특징을 이용했을 때보다 정확도를 기준으로 1.6%~3.79% 정도 성능이 향상되었다. 또한, MFCC와 GTCC 특징을
융합했을 때 감정 인식의 정확도는 97.59%, 정밀도는 97.59%, 재현율은 97.60%, F1 점수는 97.59%로 단일 특징을 이용했을 때보다
정확도를 기준으로 1%~1.62% 정도 성능이 향상되었다. 4가지의 단일 특징을 1D-CNN의 입력으로 사용했을 때 감정 인식의 정확도가 평균 95.7%지만,
CCA를 기반으로 특징을 융합했을 때 평균 정확도가 약 97.7%로 약 2% 정도 인식 성능이 개선되었다.
표 2 실험환경
Table 2 Experimental environment
항목
|
환경/설정
|
하드웨어
|
CPU
|
Intel Core i9 10900K @ 3.70GHz
|
GPU
|
NVIDIA GeForce RTX 2080 SUPER
|
RAM
|
128GB
|
소프트웨어
|
운영체제
|
Windows10
|
프로그래밍 언어
|
Matlab2023a
|
표 3 학습 하이퍼파라미터
Table 3 Training hyperparameter
|
최적화 함수
|
반복 횟수
|
미니배치 사이즈
|
기울기
임계값
|
파라미터값
|
Adam
|
200
|
512
|
2
|
표 4 AI-Hub 감정 분류용 데이터세트를 이용한 음성 감정 인식 성능 비교
Table 4 Performance comparison of speech emotion recognition using AI-Hub emotion
classification dataset
특징추출방법
|
Accuracy
|
Precision
|
Recall
|
F1 score
|
bark spectrum
|
64.51%
|
64.54%
|
69.45%
|
65.07%
|
mel spectrum
|
68.71%
|
68.78%
|
72.94%
|
68.81%
|
MFCC
|
61.76%
|
61.75%
|
64.21%
|
61.86%
|
GTCC
|
58.76%
|
58.73%
|
59.57%
|
58.56%
|
Feature fusion
(bark-mel)
|
71.66%
|
71.61%
|
73.83%
|
71.77%
|
Feature fusion
(MFCC-GTCC)
|
77.02%
|
76.99%
|
78.30%
|
77.09%
|
표 5 한국어 음성 감정 상태분류용 데이터세트를 이용한 음성 감정 인식 모델 성능 비교
Table 5 Performance comparison of speech emotion recognition using Korean speech emotion
state classification dataset
특징추출방법
|
Accuracy
|
Precision
|
Recall
|
F1 score
|
bark-spectrum
|
94.09%
|
94.09%
|
94.76%
|
94.22%
|
mel-spectrum
|
96.28%
|
96.28%
|
96.31%
|
96.27%
|
MFCC
|
96.59%
|
96.59%
|
96.63%
|
96.58%
|
GTCC
|
95.97%
|
95.97%
|
96.07%
|
95.97%
|
Feature fusion
(bark-mel)
|
97.88%
|
97.87%
|
97.88%
|
97.88%
|
Feature fusion
(MFCC-GTCC)
|
97.59%
|
97.59%
|
97.60%
|
97.59%
|
그림 8을 통해 한국어 음성 감정 상태분류용 데이터의 특징융합기반 음성 감정 인식 모델의 성능 혼동행렬을 확인할 수 있다. 그림 8의 (a)는 바크 및 멜-스펙트럼의 특징을 융합했을 때의 혼동행렬이고. (b)는 MFCC 및 GTCC의 특징을 융합했을 때의 혼동행렬이다. 본 데이터세트에서는
전체적으로 모든 감정이 높은 정확도로 분류된 것을 확인할 수 있다.
그림 8. 한국어 음성 감정 상태분류용 데이터의 특징융합기반 음성 감정 인식 모델의 성능 혼동행렬
Fig. 8. Performance confusion matrix of feature fusion-based speech emotion recognition
model of Korean speech emotion state classification dataset
전문 배우를 통해 수집된 AI-hub 감정 분류용 데이터세트와 일반인을 통해 수집된 한국어 음성 감정 상태분류용 데이터세트를 이용하여 실험한 결과
후자 데이터세트를 사용하였을 때 전체적으로 더 높은 성능이 도출되었다. 이는 전문 배우들은 일반인보다 감정을 더욱 세부적으로 표현할 수 있어 특정
감정에 대한 성능은 향상시킬 수 있지만, 한 가지 감정에 여러 감정이 섞일 수도 있어 미묘한 감정의 조합을 모델이 정확히 해석하기 어려운 것으로 판단된다.
또한 AI-hub 데이터는 동영상에 포함된 음성을 사용함으로써 마이크를 통해 조용한 환경에서 음성만 취득된 조선대학교 데이터와 비교했을 때, 데이터
품질 측면에서도 차이가 있어 성능에 영향을 준 것으로 판단된다. 하지만 본 논문에서 목표로 한 CCA 방법의 특징융합을 통해 AI-hub 감정 분류용
데이터세트 및 한국어 음성 감정 상태분류용 데이터세트 모두 감정 인식 성능이 개선되었음을 증명하였다. 이 결과는 단일 데이터를 사용했을 때보다 다양한
특징정보를 융합하여 새로운 단일 특징으로 사용함으로써 모델의 성능이 개선되고 연산량을 줄일 수 있어 음성 감정 인식에 효과적임을 확인하였다.
5. 결 론
본 논문에서는 CCA 방법의 다중특징융합을 이용한 딥러닝 1D-CNN 모델을 기반한 음성 감정 인식의 성능을 비교 분석하였다. 방법의 타당성을 확인하기
위해 한국어로 구성된 AI-hub 감정 분류용 데이터세트와 조선대학교에서 구축한 한국어 음성 감정 상태분류용 데이터세트 2가지를 이용하여 각각 성능을
평가하였다. 음성에서 바크/멜 스펙트럼, MFCC, GTCC 등 다양한 특징을 추출하고, CCA 방법을 통해 이들을 융합하여 1D-CNN의 입력으로
사용하였다. 이 과정에서, 단일 특징과 특징융합에 따른 성능을 비교 분석하였다. 결론적으로, CCA를 기반으로 융합된 특징은 각각의 특징만을 사용한
경우보다 음성 감정 인식의 효율성과 정확도를 높이는 데 기여하였고, 이 방법은 다양한 정보를 활용하면서도 두 가지의 서로 다른 특징을 따로 학습시키지
않아도 돼서 딥러닝 연산량을 감소시키는 것이 가능하다는 것이 입증되었다. 향후에는 본 연구에서 사용된 음성의 특징들 외에도 다른 다양한 음성 특징을
추출하고 이를 효과적으로 융합하여 감정 인식의 정확성을 높이는 방법을 연구할 계획이다. 또한, 음성뿐만 아니라 표정, 자세, 텍스트 등 다양한 모달리티의
데이터를 활용하는 멀티모달 감정 인식에 관한 연구로 확대할 계획이다.
Acknowledgements
이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 정보통신산업진흥원의 지원을 받아 수행된 헬스케어 AI 융합 연구개발사업임(No.
S0316-21-1001). 또한, 2017년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. 2017R1A6A1A03015496).
References
P. Gangamohan, S.R. Kadiri and B. Yegnanarayana, “Analysis of Emotional Speech—A Review,”
Toward Robotic Socially Believable Behaving Systems, vol. I, pp. 205-238, Mar. 2016.
R. A. Khalil, E. Jones, M. I. Babar, T. Jan, M. H. Zafar and T. Alhussain, “Speech
Emotion Recognition Using Deep Learning Techniques: A Review,” in IEEE Access, vol.
7, pp. 117327-117345, Aug. 2019.
J. D. Lope, M. Graña, “An ongoing review of speech emotion recognition,” Neurocomputing,
vol. 528, pp.1-11, Apr. 2023.
T. Anvarjon, Mustaqeem, and K. Soonil, “Deep-Net: A Lightweight CNN-Based Speech Emotion
Recognition System Using Deep Frequency Features,” Sensors vol. 20, no. 18, pp. 1-16,
Sep. 2020.
P. Jiang, H. Fu, H. Tao, P. Lei and L. Zhao, “Parallelized Convolutional Recurrent
Neural Network With Spectral Features for Speech Emotion Recognition,” in IEEE Access,
vol. 7, pp. 90368-90377, Jul. 2019.
R. Nagase, T. Fukumori and Y. Yamashita, “Speech Emotion Recognition Using Label Smoothing
Based on Neutral and Anger Characteristics,” 2022 IEEE 4th Global Conference on Life
Sciences and Technologies (LifeTech), pp. 626- 627, Apr. 2022.
H. Zhang, R. Gou, J Shang, F. Shen, Y. Wu and G. Dai, “Pre-trained Deep Convolution
Neural Network Model With Attention for Speech Emotion Recognition,” Front. Physiol,
vol. 12, no. 643202, pp. 1-13, Mar. 2021.
W. Zhang and Y. Jia, “A Study on Speech Emotion Recognition Model Based on Mel-Spectrogram
and CapsNet,” 2021 3rd International Academic Exchange Conference on Science and Technology
Innovation (IAECST), pp. 231-235, Feb. 2022.
S. Han et al., “Speech Emotion Recognition with a ResNet-CNN-Transformer Parallel
Neural Network,” 2021 International Conference on Communications, Information System
and Computer Engineering (CISCE), pp. 803-807, May. 2021.
S. Kakuba and D. S. Han, “Speech Emotion Recognition using Context-Aware Dilated Convolution
Network,” 2022 27th Asia Pacific Conference on Communications (APCC), pp. 601-604,
Nov. 2022.
B. Liang, S. D. Iwnicki and Y. Zhao, “Application of power spectrum cepstrum higher
order spectrum and neural network analyses for induction motor fault diagnosis,” Mech.
Syst. Signal Process., vol. 39, no. 1, pp. 342-360, Aug. 2013.
Z. K. Abdul and A. K. Al-Talabani, “Mel Frequency Cepstral Coefficient and its Applications:
A Review,” in IEEE Access, vol. 10, pp. 122136-122158, Nov. 2022.
X. Zhao, D. Wang, “Analyzing noise robustness of MFCC and GFCC features in speaker
identification,” In Proceedings of the 2013 IEEE international conference on acoustics,
speech and signal processing, pp. 7204–7208, Oct. 2013.
A.G. Katsiamis, E.M. Drakakis, R.F. Lyon, “Practical gammatone- like filters for auditory
processing,” EURASIP J. Audio Speech Music Process, pp. 1-15, Dec. 2007.
F. S. Matikolaie, C. Tadj, “On the use of long-term features in a newborn cry diagnostic
system,” Biomedical Signal Processing and Control, vol. 59, no. 101889, pp. 1-9, May.
2020.
Z. Khalilzad, Tadj, “Using CCA-Fused Cepstral Features in a Deep Learning-Based Cry
Diagnostic System for Detecting an Ensemble of Pathologies in Newborns,” Diagnostics(Basel),
vol. 13, no. 5, pp. 1-24, Feb. 2023.
M. Haghighat, M. Abdel-Mottaleb, W. Alhalabi, “Fully automatic face normalization
and single sample face recognition in unconstrained environments,” Expert Systems
with Applications, vol. 47, pp. 23-34, Apr. 2016.
J. Kim, M. Hyun, I. Chung and N. Kwak, “Feature Fusion for Online Mutual Knowledge
Distillation,” 2020 25th International Conference on Pattern Recognition (ICPR), pp.
4619-4625, May. 2021.
AI-Hub emotion classification dataset, online available: https:// www.aihub.or.kr/aihubdata/data/view.do?currMenu=120&topMenu=100&dataSetSn=259&aihubDataSe=extrldata.
저자소개
2021년 : 조선대학교 전자공학과 공학사 졸업
2022년 : 조선대학교 전자공학과 공학석사 졸업
2022년~현재 : 조선대학교 전자공학과 IT-Bio 융합시스템 전공(박사 과정)
관심분야 : 인공지능, 딥러닝, 음성 인식
2002년 : 충북대학교 전기공학과 박사 졸업
2003년~2005년 : 캐나다 앨버타대학교 전기 및 컴퓨터 공학과, 박사후과정
2005년~2007년 : 한국전자통신연구원 지능형로봇연구단 선임연구원
2014년~2015년 : 미국 캘리포니아 주립대학교 플러튼, 방문교수
2007년~현재 : 조선대학교 전자공학부 교수
관심분야 : 계산지능, 인간-로봇상호작용, 바이오인식