Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 70, No. 1, p.108-113

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 24 November 2020Revised : 11 December 2020Accepted : 23 December 2020

DOI :

http://doi.org/10.5370/KIEE.2021.70.1.108

Multi-modal Emotion Recognition using Speech Features and Text Embedding

음성 특징과 텍스트 임베딩을 이용한 멀티모달 감정인식

김주희 (Ju-Hee Kim) ¹iD 이석필 (Seok-Pil Lee) ^†iD

(Dept. of Computer Science, Sangmyung University, Korea)

^†Corresponding Author : Dept. of Electronic Engineering, Sangmyung University, Korea.

E-mail : esprit@smu.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

Many studies have been conducted emotion recognition using audio signals as it is easy to collect. However, the accuracy is lower than other methods such as using facial images or video signals. In this paper, we propose an emotion recognition using speech signals and text simultaneously to achieve better performance. For training, we generate 43 feature vectors like mfcc, spectral features and harmonic features from audio data. Also 256 embedding vectors is extracted from text data using pretrained Tacotron encoder. Feature vectors and text embedding vectors are fed into each LSTM layer and fully connected layer which produces a probability distribution over predicted output classes. By combining the average of both results, the data is assigned to one of four emotion categories : anger, happiness, sadness, neutrality. Our proposed model outperforms previous state-of-the-art methods when they use Korean emotional speech dataset.

Key words

Speech emotion recognition, Emotion recognition, Multi-modal emotion recognition, Deep learning

1. 서 론

휴먼 인터페이스 기술의 급속한 발달로 인해 인간과 기계간의 상호작용(Human-machine interaction, HMI)에 대한 관심이 높아지고 있다. 최근 챗봇이나 AI 스피커, 음성비서 등 대화 인터페이스의 사용이 증가하며 보다 자연스럽고 원활한 상호작용이 요구되고 있으며 이를 위해 사용자의 감정을 인식하는 것은 필수적이다. 사람은 목소리의 톤, 억양, 얼굴표정, 말투 등 여러 가지 방법으로 감정을 표현할 수 있으므로 감정 인식 또한 다양한 방법으로 수행할 수 있다. 감정 인식의 방법에는 음성을 이용하는 방법^(1,²⁾, 얼굴 표정을 이용하는 방법⁽³⁾ 또는 뇌파나 심전도와 같은 생체신호를 이용하는 방법⁽⁴⁾ 등 다양한 방법이 있다. 또한 최근에는 딥러닝의 발전으로 raw 오디오 신호에서 high-level 특징들을 추출하기 위해 Deep Neural Network(DNN)이나 Convolutional Neural Network(CNN)을 기반으로 하는 음성감정인식연구들이 진행되고 있다^(5,⁶⁾. 하지만 이러한 단일 신호만을 이용하는 감정인식은 여러 가지 감정 상태를 인식할 때 정확도가 높지 않다는 단점이 있으므로 두 가지 이상의 데이터를 이용하여 감정인식을 하는 멀티모달 연구들이 활발히 진행되고 있다^(7,⁸⁾.

머신러닝 기반의 정확한 감정인식을 위해서는 대량의 양질의 데이터가 요구된다. 그러나 얼굴 표정이나 생체신호를 사용하는 감정인식의 경우 대량의 데이터를 취득하기 위해서는 많은 시간과 비용이 따르고 일상생활에서 쉽게 측정하기 힘들다는 한계가 있다. 반면 음성은 데이터를 취득하기 위해 센서를 부착할 필요 없이 수집이 간편하며 통화와 같이 음성신호에만 의존해야 경우나 실시간으로도 적용이 가능하다. 이를 비롯해 의사소통의 기본 수단으로써 다양한 인터페이스에 적용이 가능하다는 장점이 있다. 한편, 텍스트 데이터는 Automatic Speech Recognition 기술의 발달로 음성으로부터 간단하게 수집이 가능하다. 또한 스마트폰과 인터넷 환경에서 가장 많이 사용되는 통신 수단으로 대화 인터페이스에 적용이 가능하다는 장점이 있다.

따라서 본 논문에서는 음성과 텍스트를 동시에 사용함으로써 두 가지 데이터의 장점을 활용하여 보다 효율적인 감정인식을 하는 방법에 대해 다루고자 한다. 두 가지 데이터를 동시에 사용하여 감정인식을 하기 위해 오디오와 텍스트 각각의 특징을 추출한다. 음성신호에서 특징을 추출하여 43차 특징벡터를 생성하고 LSTM layer를 거쳐 학습을 한 후 fully connected layer에서 softmax 함수를 통해 각 감정에 대한 확률 값을 산출한다. 텍스트는 초성, 중성, 종성 단위로 토큰화를 한 후 각 토큰에 대해 임베딩 되어 pretrained Tacotron encoder⁽⁹⁾를 통해 256차원의 텍스트 임베딩 벡터를 형성한다. 형성된 텍스트 임베딩 벡터는 음성 특징벡터와 동일한 방식으로 LSTM layer와 fully connected layer를 거쳐 softmax 함수에 의해 확률 값을 산출한다. 산출된 오디오와 텍스트의 softmax 함수의 결과 값을 각 감정에 대해 평균을 구한 후 가장 높은 평균값을 가지는 감정으로 예측을 한다. 해당 감정 인식 모델의 성능을 평가하기 위해 한국어 감정 음성 데이터베이스를 구축한다. 드라마나 영화 등의 미디어 컨텐츠에서 장면 단위로 감정별 대사를 발췌하고 남녀 2명씩 총 4명의 전문 연기자를 대상으로 녹음을 진행한다. 감정의 카테고리는 일반적으로 감정인식연구에서 많이 사용하는 화남(anger), 기쁨(happiness), 슬픔(sad- ness), 보통(neutral) 4가지로 정의한다. 설계한 감정인식 시스템의 성능을 평가하기 위해 해당 dataset을 이용하여 다른 감정인식 모델들과 비교한 결과 제안된 모델이 95.97%의 인식률로 가장 높은 성능을 보인다.

본 논문의 구성은 다음과 같다. 2장에서 본 연구에서 사용한 데이터베이스와 전처리 과정을 설명하고 3장에서는 제안한 시스템의 구조에 대해 설명한다. 4장에서는 구축한 모델의 평가를 위해 이전의 감정인식 모델과의 성능 비교를 하고 마지막으로 5장에서는 본 연구에 대한 결론과 향후 연구 진행 방향으로 마무리된다.

2. 데이터베이스

2.1 데이터베이스 구성

실험을 위해 한국어 감정 음성 데이터베이스를 구축한다. 해당 데이터베이스는 드라마나 영화 등 미디어 컨텐츠로부터 장면 단위로 수집한 대사를 기반으로 전문연기자들의 녹음을 진행한다. 데이터는 총 2개의 세션으로 구성하며 자연스러운 감정 표현을 위해 각 세션마다 남성 1명, 여성 1명의 연기자들의 대화형식으로 녹음을 진행한다. 총 4명의 연기자가 참여하며 감정의 카테고리는 화남(anger), 행복(happiness), 슬픔(sad- ness), 보통(neutral) 4가지 감정으로 설정한다. 각 데이터의 길이는 3~5초이며 PCM signed 16bit 포맷으로, 샘플링 레이트는 24000Hz로 설정한다. 데이터는 총 18324개로 구성은 표 1과 같다. 데이터는 anger 4299개, happiness 3675개, sadness 3897, neutral 6453개로 총 18324개이다.

표 1. 실험 데이터 구성

Table 1. The number of data per category

감정	데이터 개수
Anger	4299
Happiness	3675
Sadness	3897
Neutral	6453
Total	18324

표 2. 감정별 텍스트 데이터 예시

Table 2. Example of utterance

감정	예시
Anger	그 따위로 안하면 니가 말을 알아 들어?
Happiness	아이구 우리 아들 고생 많았어 몸 안다치고 전역도 하고
Sadness	너 때문에.. 우리 엄마 얼굴도 못 보고 갔어 너 때문에
Neutral	어머니 사건 때 핵심 증거는 두 개였어요.

표 2는 각 감정별 텍스트 데이터 예시를 나타낸 것이다. 2개의 세션에서 같은 대사로 녹음한 데이터는 왜곡된 결과를 초래할 가능성이 있으므로 이에 대해 처리할 필요가 있다. 학습 시 사용된 데이터와 같은 대사의 데이터가 테스트 할 때 사용을 하면 데이터 중복문제로 인해 정확도가 높게 나올 수 있기 때문이다. 이를 방지하기 위해 각 문장별로 Character Error Rate(CER)를 계산한다. CER은 글자 오류율을 의미하며 이를 계산하여 두 문장의 유사도 계산이 가능하다. CER이 30% 이하인 문장의 쌍은 동일 문장으로 간주하여 학습 데이터와 테스트 데이터 중 한 범주에만 속하게 구분 하며 그 결과 학습 데이터는 10430개, 테스트 데이터는 7094개, 검증 데이터는 800개로 분류된다.

2.2 음성 구간 추출 전처리

비음성 구간이 학습 데이터나 테스트 데이터에 포함되어있을 경우 불필요한 정보가 포함되어 분석 시 방해요소가 되기 때문에 이 구간을 제거하여 유의미한 부분만을 추출하는 전처리 과정을 수행한다. 음성구간 추출은 IAV 특징추출, IAV 임계값 선택, 신호의 크기 임계값 선택, 음성구간 추출 순으로 진행한다.

음성구간은 비음성구간에 비해 에너지의 값이 크기 때문에 두 구간을 수치상으로 구분할 수 있도록 에너지 크기 값을 의미하는 절대 적분치(IAV : Integral Absolute Value) 특징 벡터를 사용한다. IAV 특징벡터는 일정신호의 절대값을 적분한 것이며 식(1)과 같이 나타낼 수 있다⁽¹⁰⁾.

(1)

$\bar{X}=\sum_{i=1}^{N}|X(i\triangle t)|$

식에서 는 측정된 신호를 의미하며 는 샘플링 시간 간격, 은 샘플의 개수 는 샘플의 순서를 의미한다. 음성구간과 비음성구간을 구분하기 위한 기준값을 정하기 위해 IAV 임계값을 계산한다. IAV 임계값을 계산하기 위해 신호에서 IAV 특징벡터를 추출한다. 그 후 최대값과 최소값의 차를 계산하여 해당 값에 0.1을 곱한 값과 최소값을 더한 값으로 최소값을 설정한다. 이 때 최소값이 최대값의 70%보다 큰 값을 가지면 최대값의 20% 아래로 임계값을 설정한다. 이 후 신호의 크기 임계값은 IAV 임계값을 프레임 크기로 나눈 값으로 설정한다. 마지막으로 음성 구간을 추출하기 위해 신호에서 음성구간으로 설정할 시작 인덱스와 끝 인덱스를 구한다. 프레임 단위로 수행하면서 IAV 임계값보다 큰 값을 가지는 구간이 나오면 해당 프레임 내에서 신호의 크기 임계값보다 커지기 시작하는 지점을 시작 인덱스로 설정하고 이후 IAV 임계치보다 작아지는 구간이 나오면 이 지점을 끝 인덱스로 설정한다. 시작 인덱스와 끝 인덱스 간의 신호를 추출함으로써 비음성구간을 제외한 음성구간만을 추출할 수 있다. 그림 1은 IAV 임계값을 설정하는 과정을 나타낸다⁽¹⁰⁾.

그림. 1. IAV 임계값 설정 과정

Fig. 1. The process of setting IAV threshold

3. 제안하는 방법

3.1 음성기반 감정 인식 모델

음성 신호에서 특징을 추출하여 특징벡터를 생성하기 위해 오디오 모델을 설계한다. 특징을 추출하기에 앞서 오디오 데이터에서 음성구간만을 추출한다. 음성구간을 추출하기 위한 윈도우 크기는 250, 샘플링 레이트는 16000Hz, 타임스텝은 78로 설정한다. 추출한 음성구간이 타임스텝 보다 짧으면 해당 음성구간에서는 특징을 추출하지 않는다. 음성신호에서 한 프레임 당 12가지의 특징 값을 추출하여 feature vector로 사용한다. 아래는 추출할 12가지 특징의 종류를 나타낸 것이다.

⦁13 MFCCs

⦁5 spectral features : spectral centroid, spectral bandwidth, spectral contrast, spectral flatness, spectral rolloff

⦁Chroma : 12 Chromas

⦁5 harmonic features : inharmonicity, tristimulus, harmonic energy, noise energy, noiseness

해당 특징들을 추출하여 43차원의 특징벡터를 생성한다. 생성된 특징벡터를 특징별로 분류하고 nomalization을 하여 최종적으로 특징벡터를 생성한다. 생성된 벡터는 LSTM layer를 거쳐 학습을 하고 fully connected layer에서 softmax 함수를 통해 각 감정에 대한 값을 산출한다. 전체적인 모델의 구조는 그림 3의 윗부분에 해당한다.

3.2 텍스트 기반 감정 인식 모델

음성 신호의 텍스트 정보를 처리하기 위해 텍스트 모델을 설계한다. 한국어 데이터를 사용하므로 한국어에 맞는 텍스트 분석 방식으로 수행한다. 영어는 단어 및 형태소와 띄어쓰기가 일치하기 때문에 단어 단위로 토큰화를 할 수 있다. 하지만 한국어는 특성상 띄어쓰기와 형태소가 일치하지 않을 뿐만 아니라 한 글자나 음절 단위로 나눠서 분석을 할 수도 없다. 그러므로 본 연구에서는 텍스트를 초성, 중성, 종성으로 나누어진 시퀀스로 만든다. 예를 들어 ‘음성’이라는 단어는 ‘ㅇㅡㅁㅅㅓㅇ’의 자모로 나눠진다. 나눠진 단위로 임베딩을 수행한다. 이때 초성과 종성의 자음은 같은 자음이여도 다른 의미를 가지기 때문에 각각 다른 숫자로 매칭이 된다. 총 80개의 토큰으로 분류되며 각 토큰은 character embedding을 하여 pretrained된 Tacotron encoder⁽⁹⁾의 입력으로 들어간다. Tacotron은 Google에서 제안한 Text-To-Speech(TTS) 음성 합성 모델이며 인코더의 구조는 그림 2와 같다.

그림. 2. Tacotron encoder의 구조

Fig. 2. The architecture of Tacotron encoder

인코더는 텍스트를 자모로 토큰화 한 후 각 자모에 대해 character embedding 한 것을 입력으로 받아 Pre-net과 CBHG 모델을 거쳐 256차원의 텍스트 임베딩 벡터를 생성한다. Pre-net은 fully connected layer와 dropout layer로 구성되며 CBHG는 Convolution Bank Highway GRU의 약자로 1D convolution Bank와 Highway network, Bidirectional GRU로 구성된 구조를 의미한다. 추상화 된 특징을 추출할 수 있는 CNN과 시계열 데이터의 전체적인 특징을 파악하기에 적합한 LSTM의 장점을 합친 구조이다. 또한, high-level feature를 추출하여 character 단위를 효과적으로 표현하기 위해 Highway network를 사용한다. Highway network란 Gating 구조를 사용하는 Residual 네트워크로 Gating을 통해 현재 Residual의 비율을 어느 정도로 설정할지 모델이 자동으로 결정을 한다. 이를 통해 입력 신호를 변환시키거나 통과시킴으로써 네트워크가 더욱 깊어지고 최적화가 가능하다.

해당 구조의 인코더는 character embedding을 입력으로 받아서 256차원의 임베딩 벡터를 생성한다. 이 때 인코더는 대용량 코퍼스인 KSS⁽¹¹⁾ 데이터 셋으로 pretrained된 인코더를 사용한다. 생성된 임베딩 벡터는 LSTM layer를 거쳐 학습을 하고 fully connected layer에서 softmax 함수를 통해 각 감정에 대한 값을 산출한다. 전체적인 모델의 구조는 그림 3의 아래 부분에 해당한다.

3.3 멀티모달 감정 인식 모델

음성과 텍스트 데이터를 동시에 이용하여 감정인식을 하기 위해 음성신호 기반 모델과 텍스트 기반 모델을 결합하여 멀티모달 감정인식 모델을 설계한다. 모델의 구조는 그림 3과 같다.

그림. 3. 멀티모달 감정인식 모델의 구조

Fig. 3. The architecture of proposed model

음성과 텍스트는 음성신호 기반 모델과 텍스트 기반 모델을 거쳐 특징추출과 임베딩을 통해 43차원의 특징 벡터와 256차원의 텍스트 임베딩 벡터를 생성한다. 생성된 벡터는 각 모델의 LSTM layer를 거쳐서 fully connected layer의 softmax 함수를 통해 각 감정에 대한 확률값을 산출한다. 각 감정에 대한 오디오와 텍스트의 확률값의 평균을 구해 가장 높은 값을 가지는 감정의 카테고리로 분류한다.

4. 실험 및 결과

제안하는 시스템의 성능 평가를 위해 오디오와 텍스트를 이용하여 감정인식을 하는 다른 모델들과의 성능비교를 진행한다. 성능 비교 대상으로는 Seunghyun⁽¹²⁾과 Bagus⁽¹³⁾의 감정인식 모델을 사용한다.

Seunghyun⁽¹²⁾은 텍스트와 오디오를 동시에 이용한 음성 감정인식을 하기 위해 deep dual recurrent encoder model을 제안한다. 오디오와 텍스트의 정보를 Audio Recurrent Encoder(ARE)과 Text Recurrent Encoder(TRE)를 사용하여 인코딩 한 후 fully connected layer로 결합하여 감정을 예측한다. 음성신호의 특징 추출을 위해 OpenSMILE toolkit⁽¹⁴⁾을 사용하여 39차원의 MFCC feature set과 35차원의 prosodic feature set을 추출한다. 각 feature set의 구성은 다음과 같다.

⦁mfcc features : 12 MFCCs, log-energy parameter, 13 delta, 13 acceleration coefficient.

⦁prosodic features : F0 frequency, voicing probability, loud- ness contours

텍스트 정보 처리를 위해 Natural Language Toolkit⁽¹⁵⁾을 사용해서 각 문장을 단어들로 토큰화하고 인덱싱을 하여 시퀀스로 만든다. 각 토큰은 pretrained word-embedding vector인 Glove⁽¹⁶⁾를 적용하여 300차원의 임베딩 벡터를 생성한다. 최종적으로 ARE와 TRE를 fully connected layer로 연결하여 감정을 분류한다.

Bagus⁽¹³⁾는 음성의 특징 추출과 word embedding을 이용하여 감정을 분류하는 방법을 제안한다. 두 데이터를 동시에 이용하여 감정인식을 하기 위해 음성의 특징을 추출하여 특징 벡터를 생성하는 speech model과 텍스트를 토큰화 하여 word-embedding을 하는 text model을 설계하여 두 데이터에 대해 독립적이고 동시에 수행할 수 있도록 한다. 추출된 특징의 종류는 다음과 같다.

⦁13 MFCCs

⦁3 time domain features : zero crossing rate, energy, entropy of energy

⦁13 Chromas

⦁5 spectral domain features : spectral centroid, spectral spread, spectral entropy, spectral flux, spectral roll-off

추출된 특징벡터를 사용하여 fully connected layer를 통해 감정을 분류한다. 텍스트를 임베딩 벡터로 변환하기 위해 각 문장을 단어들로 토큰화를 한다. 각 토큰들은 Glove⁽¹⁶⁾를 사용하여 300차원의 임베딩 벡터를 생성한다. 생성된 임베딩 벡터는 one-hot 인코딩 된 벡터와 product연산을 하여 모델이 문장에서 특정 단어에 대해 overfitting되는 것을 방지한다. 임베딩 벡터는 LSTM layer를 통해 감정을 분류하며 최종적으로 오디오와 텍스트 모델은 fully connected layer로 연결된다.

모든 모델은 한국어 감정 음성 데이터베이스를 사용하여 감정인식을 진행한다. 그러므로 텍스트 모델의 경우 기존의 연구 데이터와 달리 한국어를 사용하기 때문에 한국말에 적합한 전처리 과정이 필요하다. 영어는 단어 단위로 띄어쓰기에 의해 형태소가 분리되는 반면, 한국어는 조사의 사용으로 단어 단위로의 형태소 분석이 불가능하다. 따라서 각 단어의 조사를 분리하여 형태소 별로 분류를 해야 한다. 이를 위해 한국말의 형태소 단위로 문장을 토큰화한다. 각 토큰별로 한국어 전용 Glove⁽¹⁶⁾를 사용하여 100차원의 embedding vector를 생성한다. 표 3은 평가를 진행한 모델의 오디오 모델, 텍스트 모델, 멀티모달 모델의 인식률을 나타낸다.

표 3. 기존의 멀티모달 감정 인식 모델과의 성능 비교 결과

Table 3. Accuracy comparison with other papers

모델	정확도
모델	음성	텍스트	멀티모달
Seunghyun[12]	89.13%	63.68%	91.35%
Bagus[13]	92.67%	65.98%	93.34%
Ours	94.86%	68.42%	95.97%

오디오 모델의 경우 제안한 모델이 94.86%로 가장 높은 인식률을 보였다. 텍스트 모델 또한 제안된 모델이 68.42%로 가장 높은 인식률을 보였다. 통합 감정인식 모델의 결과 또한 95.97%로 기존의 멀티모달 감정인식 모델들보다 높은 성능을 보이는 것을 확인할 수 있다.

5. 결 론

정확한 감정인식을 하기 위해서는 감정 분류에 효율적인 특징을 추출하고 적절한 분류기를 사용하는 것이 중요하다. 본 논문에서는 보다 정확한 감정 분류를 위해 음성과 텍스트를 동시에 이용하여 감정인식을 하는 방법을 제안한다. 실험을 위해 화남(Anger), 행복(Happiness), 슬픔(Sadness), 보통(Neutral) 4가지 감정 카테고리로 구성된 한국어 감정 음성 데이터베이스를 사용한다. 데이터는 총 18324개를 사용하며 음성신호에서 불필요한 비음성 구간을 제거하고 음성 구간만을 추출하기 위한 IAV 임계치를 기반의 전처리를 수행한다. 추출된 음성구간에서 mfcc, spectral feature, harmonic feature, chroma의 추출을 통해 43차원의 feature set을 생성한다. 텍스트의 경우 한국어는 영어와 달리 조사의 사용으로 띄어쓰기 단위로 단어의 분리를 할 수 없기 때문에 자모 단위로 토큰화를 한다. 각 토큰은 character embedding이 되어 pretrained된 Tacotron encoder를 통해 256차원의 임베딩 벡터를 생성한다. 생성된 특징 벡터와 임베딩 벡터는 각각의 LSTM layer를 거친 후 fully connected layer에서 softmax를 통해 각 감정에 대한 값을 산출한다. 각 감정에 대한 softmax 결과 값을 평균을 계산하여 가장 높은 값을 가지는 감정으로 예측한다. 해당 방법을 사용함으로써 기존의 오디오와 텍스트 기반 멀티모달 감정인식방법들 보다 향상된 95.97%의 정확도를 보였다.

본 논문의 실험결과에서도 볼 수 있듯이 현재 음성을 이용한 감정인식에 비해 텍스트를 이용한 감정 인식율은 현저히 낮은 값을 가지며 대용량 한국어 코퍼스와 임베딩에 관한 연구수도 영어를 기반으로 하는 자연어 처리 연구에 비해 현저히 적다. 향후 한국어 텍스트 처리 및 임베딩에 대한 활발한 연구를 통해 성능이 향상된다면 본 논문의 실험 결과를 바탕으로 음성과 텍스트 정보를 동시에 이용하여 더 높은 성능의 감정인식기술과 이를 통한 대화 인터페이스 기술과의 접목 또한 기대할 수 있다.

Acknowledgements

본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구(No. NRF-2019R1F1A1050052)로서, 관계부처에 감사드립니다.

References

Q. Jin, C. Li, S. Chen, H. Wu, 2015, Speech emotion recognition with acoustic and lexical features, IEEE International Conference on Acoustics, Vol. speech and signal processing (icassp), pp. 4749-4753

H. S. Kumbhar, S. U. Bhandari, 2019, Speech Emotion Recognition using MFCC features and LSTM network, International Conference On Computing, Communication, Vol. control and automation, pp. 1-3

N. Jain, S. Kumar, A. Kumar, P. Shamsolmoali, M. Zareapoor, 2018, Hybrid deep neural networks for face emotion recognition, Pattern Recognition Letters, Vol. 115, pp. 101-106

D. Shin, D. Shin, D. Shin, 2017, Development of emotion recognition interface using complex EEG/ECG bio-signal for interactive contents, Multimedia Tools and Applications, Vol. 76, No. 9, pp. 11449-11470

J. Zhao, X. Mao, L. Chen, 2019, Speech emotion recognition using deep 1D & 2D CNN LSTM networks, Biomedical Signal Processing and Control, Vol. 47, pp. 312-323

H. Kun, Y. Dong, T. Ivan, 2014, Speech Emotion Recognition Using Deep Neural Network and Extreme Learning Machine, Interspeech 2014, Vol. , No. , pp. -

K. Ko, D. Shin, K. Sim, 2009, Development of Context Awarenedd and Service Reasoning Technique for Handi- capped people, Korean Institute of Intelligent Systems, Vol. 19, No. 1, pp. 34-39

Y. Huang, J. Yang, P. Liao, J. Pan, 2017, Fusion of Facial Expressions and EEG for Multimodal Emotion Recognition, Computational Intelligence and Neuroscience, Vol. 2017, pp. 1-8

Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, et al., 2017, Tacotron: Towards End-to-End Speech Synthesis, Interspeech, pp. 4006-4010

S. Byun, S. Lee, 2016, Emotion Recognition Using Tone and Tempo Based on Voice for IoT, The Transactions of the Korean Institute of Electrical Engineers, Vol. 65, No. 1, pp. 116-121

K. Park, 2018, KSS Dataset : Korean single speaker speech dataset, https://kaggle.com/bryanpark/korean-single-speaker-speech-dataset/

S. Yoon, S. Byun, K. Jung, 2018, Multimodal Speech Emotion Recognition Using Audio and Text, IEEE Spoken Lan- guage Technology Workshop (SLT), pp. 112-118

B. T. Atmaja, K. Shirai, M. Akagi, 2019, Speech Emotion Recognition Using Speech Feature and Word Embedding, Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA ASC), pp. 519-523

F. Eyben, M. Wöllmer, B. Schuller, 2010, Opensmile: the munich versatile and fast open-source audio feature extrac- tor, In Proceedings of the 18th ACM international con- ference on Multimedia (MM '10), Vol. association for com- puting machinery, pp. 1459-1462

S. Bird, E. Loper, 2004, Nltk: the natural language toolkit, In Proceedings of the ACL on Interactive poster and demonstration sessions, Vol. , No. , pp. 214-217

J. Pennington, R. Socher, C. Manning, 2014, Glove: Global vectors for word representation, In Proceedings of the conference on empirical methods in natural language pro- cessing (EMNLP), Vol. 14, pp. 1532-1543

저자소개

김주희(Ju-Hee Kim)

Ju-Hee Kim received B.S. degree in computer science from SangMyung University, Seoul, Korea in 2019.

She is now a Master degree student in department of computer science from SangMyung University.

Her main research interests include signal processing, artificial intelligence, multimedia processing.

이석필(Seok-Pil Lee)

Seok-Pil Lee received B.S. and M.S. degrees in electrical engineering from Yonsei University, Seoul, Korea, in 1990 and 1992, respectively.

In 1997, he earned a Ph.D. degree in electrical engineering also at Yonsei University.

From 1997 to 2002, he worked as a senior research staff at Daewoo Electronics, Seoul, Korea.

From 2002 to 2012, he worked as a head of digital media research center of Korea Elec- tronics Technology Institute.

He worked also as a research staff at Georgia Tech., Atlanta, USA from 2010 to 2011.

He is currently a pro- fessor at the dept. of electronic engineering, SangMyung University.

His research interests include artificial intelligence, audio digital pro- cessing and multimedia searching.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

음성 특징과 텍스트 임베딩을 이용한 멀티모달 감정인식

Abstract

Key words

1. 서 론

2. 데이터베이스

2.1 데이터베이스 구성

2.2 음성 구간 추출 전처리

(1)

3. 제안하는 방법

3.1 음성기반 감정 인식 모델

3.2 텍스트 기반 감정 인식 모델

3.3 멀티모달 감정 인식 모델

4. 실험 및 결과

5. 결 론

Acknowledgements

References

저자소개

김주희(Ju-Hee Kim)

이석필(Seok-Pil Lee)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

음성 특징과 텍스트 임베딩을 이용한 멀티모달 감정인식

Abstract

Key words

1. 서 론

2. 데이터베이스

2.1 데이터베이스 구성

2.2 음성 구간 추출 전처리

(1)

3. 제안하는 방법

3.1 음성기반 감정 인식 모델

3.2 텍스트 기반 감정 인식 모델

3.3 멀티모달 감정 인식 모델

4. 실험 및 결과

5. 결 론

Acknowledgements

References

저자소개

김주희(Ju-Hee Kim)

이석필(Seok-Pil Lee)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers