• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Department of Biomedical Engineering, Konyang University. E-mail : kks970515@gmail.com)



Speech recognition, Speaker verification, Convolutional Neural Network, Mel-Frequency Cepstral Coefficient, EMG, Active prosthetic hand

1. 서 론

전자의수(electronic prosthetic hand)란 절단 부위의 근육의 움직임을 센서가 감지하여 환자가 자유롭게 사용할 수 있는 최첨단 의수를 말한다. 최근 약 20년 동안 이 전자의수는 단계적으로 발전을 거듭해왔으며, 선천적·후천적으로 신체가 절단된 환자들에게 직관적인 손동작이 가능하도록 연구가 진행되고 있다(1-3). 하지만 이러한 발전 속에서도 실제 환경에서 자연스럽게 의수를 제어하는 것은 매우 어려운 문제이다. 또한 실제 환경에서 의수를 사용 시 예기치 못한 여러 가지 상황들이 존재하며, 이에 대한 대비가 필요하다(1,4-5).

전자의수는 보통 근전도(EMG: Electromyography)를 활용하여 능동적인 제어가 이루어지는데(1-5), 최근 세계적으로 널리 알려져 있는 Bebionics(ottobock)와 I-Limb (ossur)과 같은 다양한 능동의수(active prosthetic hand)의 경우, 그림 1과 같이 EMG를 활용한 몇 가지 동작패턴과 별도의 버튼 또는 스마트폰 등의 외부장치를 활용하여 다양한 손동작을 구현하고 있지만(6), 다양한 손동작들의 구현을 위하여 추가적인 조작이 필요하다는 불편함이 있다.

따라서 손상되지 않은 손을 다른 목적으로 활용하고 있을 때에는 추가적인 조작이 어려워 의수의 제어에 어려움이 있다. 한편 EMG 센서의 고장이나, 착용 위치의 뒤틀림 등에 의한 원인으로 의수의 오작동이 발생할 수 있는 특수한 상황에 처해있을 때는 EMG 만으로는 의수의 제어가 불가능한 문제가 발생할 수도 있다.

그림 1. 능동의수의 추가 조작 방식

Fig. 1. Additional manipulations of active prosthetic hand

../../Resources/kiee/KIEE.2022.71.2.443/fig1.png

최근에는 음성인식 기술을 전자의수 시스템에 도입하여 성능을 개선하려는 다양한 시도들을 진행하고 있다(7-11). 음성인식(speech recognition)이란 사람이 말하는 음성을 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 기술을 의미한다. 화자검증(speaker verification)이란 입력된 음성이 설정된 화자와 일치하는지 음성의 유사도를 판별하는 기술이다. 화자검증은 화자인식의 세부분류로서 화자인식은 음성으로부터 화자의 정보를 찾아내는 방법을 말한다. 화자인식은 주로 화자검증과 화자식별(speaker identification)로 나눌 수 있으며, 화자식별은 여러 음성데이터 중 입력되는 음성의 화자가 누구인지 찾아내는 기술이다. 특히 최근에는 딥러닝의 발전으로 음성인식에 인공신경망을 활용하는 연구들이 진행되고 있다(11-12). 본 연구에서는 사용자만의 음성을 구별해낼 수 있는 기술인 화자검증 기술을 채택하여 사용한다. 화자검증을 포함한 음성인식 기술은 사람의 음성 언어를 이용하기 때문에 상호작용을 위한 다른 제어 방법보다 직관적인 형태를 가진다(7-10). 또한 화자검증 기술을 통해 음성인식 기술의 보안성을 향상시킬 수 있으며, 이에 대해서는 최근 많은 연구가 진행되고 있다(13-15). 화자검증 기술은 음성인식 기술을 사용하면서, 동시에 보안성을 요구하는 시스템에 응용하여 보안성 향상에 큰 도움이 된다. 또한 최근에는 여러 개의 표면 근전도(sEMG: surface EMG)와 모션추적기 및 인공지능 딥러닝의 방법으로서 CNN(Convolutional Neural Network)을 사용하여 의수가 대상 물건에 접근하는 동안 동작을 예측하도록 하는 연구가 진행되고 있다(5,16-17).

본 연구에서는 EMG를 활용한 전자의수에 음성인식과 화자검증 기술을 접목시켜 편리성과 보안성을 향상시킨다. 즉 기본적으로는 EMG 기반으로 전자의수를 제어하고, EMG를 사용하기 힘든 상황에서는 음성인식과 화자검증 기술을 통해 의수를 보조적으로 제어함으로써 사용자의 편리성과 보완성을 향상시키는 것을 목표로 한다. 다만 EMG 기반의 전자의수 제어는 기존의 방법들을[1,2,4-6] 활용하므로 여기서는 주로 음성인식과 화자검증 및 관련 실험에 집중한다. 음성을 통해 제어할 수 있는 동작은 4가지 동작으로 설정하였고, 음성명령의 경우 Python의 Speech Recognition 모듈을 통해 Speech To Text (STT)를 구현하며, 화자검증의 경우 자체적으로 수집한 음성 데이터를 이용하여 CNN 구조의 딥러닝 신경망을 통해 학습과 시험을 진행한다(18). 화자검증 기술과 음성인식 기술의 결합으로 음성인식의 보안성을 확보하고, 음성인식 기술을 전자의수 제어를 위한 보조 장치로 도입하여 전자의수의 정상적인 조작이 힘든 여러 상황에서 안정적인 제어가 가능하도록 한다.

2. Materials and Methods

2.1 음성인식과 화자검증 제어시스템 구성

음성 명령을 통한 의수 동작을 위해 효율적인 음성 명령의 데이터를 수집하는 과정이 필요하다. 아래 그림 2과 같이 손동작 명령어는 그림 2(a) “주먹(Fist)”, 그림 2(b) “엄지(Thumb)”, 그림 2(c) “핀치(Pinch)“, 그림 2(d) “오케이(Ok)”의 4개 동작을 설정해주었다. 이러한 손동작은 일상생활에서 비교적 사용 빈도수가 높은 잡기(grasping) 손동작, 표현(expressing) 손동작들로 선정하였다.

그림 2. 전자의수에 활용되는 손동작 명령

Fig. 2. Hand gesture commands used in electronic prosthetic hand

../../Resources/kiee/KIEE.2022.71.2.443/fig2.png

한편 명령어에 대한 충분한 데이터만 있으면 다양한 손동작으로 구성할 수 있을 것이다. 음성입력으로부터 STT 변환, 딥러닝을 이용한 화자검증을 포함한 전체 전자의수 음성제어의 구성도는 그림 3과 같다. Python의 Speech Recognition 모듈을 통해 사용자의 음성을 수집하였으며, STT 과정을 거쳐 WAV 형식의 음성을 텍스트로 변환시켜준 뒤, 손동작 명령어에 따라 동작별로 학습모델을 불러와서 음성신호를 비교한다. 즉 동작명령어 수집 구간에서 실시간으로 마이크에 동작명령어에 대한 음성이 입력되면, 우선적으로 그 명령어에 대한 STT를 통해 미리 지정된 동작명령어인지 판별한다. 동작명령어로 판별이 될 시, 음성에 대한 특징추출과정을 MFCC 기법을 통해 진행하게 되고, 추출한 특징을 통해 화자검증을 진행한다. 화자검증 결과 지정된 화자로 판별되면 입력된 동작명령어 대로 의수가 동작하고, 지정된 화자가 아닐 시에는 초기 과정인 동작명령어 수집 구간으로 돌아와 다시 명령어 수집을 진행하게 된다. 명령어가 입력되지 않거나, 지정된 동작명령어가 아닐 경우 또한, 다시 수집 구간으로 돌아오도록 설정해 두었다.

그림 3. 화자검증을 통한 전자의수 음성제어

Fig. 3. Prosthetic hand voice control through speaker verification

../../Resources/kiee/KIEE.2022.71.2.443/fig3.png

MFCC(Mel-Frequency Cepstral Coefficient) 라는 음성 특징 추출(speech feature extraction)기법을 통해 화자검증을 진행한다(18). MFCC는 주로 음성인식, 화자인식, 음성합성, 음악 장르 분류 등의 문제를 해결하는 데 사용되고 있으며, 추출 과정은 아래 그림 4와 같다.

그림 4. MFCC의 추출과정

Fig. 4. The extraction process of MFCC

../../Resources/kiee/KIEE.2022.71.2.443/fig4.png

시험자로부터 수집한 동작명령어 음성 데이터에 대한 오디오 신호를 윈도우 프레임별로(20ms∼40ms) 나누어 FFT(Fast Fourier Transform)를 적용하게 되면, 그림 5의 형태로 나타난다. 또한 오디오 신호는 시간과 음의 세기에 대한 정보를 포함하고 있으며, FFT를 거치게 되면 가로축이 주파수, 세로축이 음의 세기가 되어 주파수 영역으로 바뀌게 된다. 이 과정을 통해 주파수의 분포와 각 주파수의 대역별로 세기의 정도를 파악할 수 있다. 보통 이러한 과정을 통해 소리의 고유한 특징을 추출할 수 있지만, MFCC는 Mel-Fiter bank 단계를 추가적으로 거치고, 로그 스케일링과 역푸리에변환(IFFT: Inverse FFT) 과정을 통해 Mel-Spectrum에서 Cepstral 분석을 적용해 특징을 추출하는 것이다(13-14).

그림 5. 4가지 동작명령어에 대한 Power spectrum

Fig. 5. Power spectrum for 4 operation commands

../../Resources/kiee/KIEE.2022.71.2.443/fig5.png

사람의 청각기관은 고주파수보다 저주파수 대역에서 더 민감하다. 이러한 청각기관의 특성을 반영하여 물리적인 주파수와 사람이 실제로 인식하는 주파수와의 관계를 표현한 것이 Mel-Scale이다. Mel-Scale은 Filter Bank를 나눌 때 어느 정도의 간격으로 나눠야 하는지 알려주는 역할을 한다. 이 Mel-Scale을 기반으로 스팩트럼에 Filter Bank를 적용하여 도출해낸 것이 Mel-Spectrum이다. 식 (1)(2)는 각각 frequency를 Mel- Scale로 변환하고 또 역으로 변환함으로써 주파수로써 Filter Bank의 간격을 나누는 과정을 나타낸 것이다(19).

(1)
$M(f)=1125\ln\left(1+\dfrac{f}{700}\right)$

(2)
$M^{-1}(m)=700\left(\exp\left(\dfrac{m}{1125}\right)-1\right)$

Mel-Spectrum의 결과값에 로그스케일링 단계를 거치고, IFFT를 통해 시간 영역으로 바꿔주면, 그림 6과 같이 MFCC의 결과값이 나타난다. 그림 6(a)의 결과 데이터를 이미지화 하면 그림 6(b)와 같이 되며, 이는 주파수의 분포도를 확인하기에 유용하다. 여기서 가로축은 1개의 이미지 블록 당 약 20[ms]이며, 16×70개의 블록을 나타낸다.

그림 6. 4가지 동작명령어에 대한 MFCC 결과

Fig. 6. MFCC results for 4 operation commands

../../Resources/kiee/KIEE.2022.71.2.443/fig6.png

2.2 화자검증 딥러닝 모델

그림 7은 수집한 연구에 사용될 동작명령어에 대한 음성 데이터를 제작하는 과정을 나타낸 것이다. 그림 7(a)과 같은 환경에서 진행되었으며, 세부적인 과정은 그림 7(b)과 같다. 음성 녹음을 위한 시스템은 Pycharm 환경에서 Python을 사용하여 진행하였으며, 코드를 실행하게 될 시 1.5초의 시간 동안 음성을 입력받아 저장하는 코드가 동작하게 되고, 1.5초의 시간이 지나게 되면 입력된 음성을 WAV 파일 형식으로 저장하게 된다. 위 과정을 한 동작명령어 당 60회씩 반복될 수 있도록 반복문을 통해 코드를 작성하였다. 이 데이터에 MFCC를 활용해 먼저 화자의 특징을 추출하고, 최근 신경망 연구 중 패턴 인식에서 가장 널리 사용되며, 또 효과적이라고 알려진 CNN을 통해 학습을 진행한다(18).

그림 7. 동작명령어 음성데이터 취득 과정

Fig. 7. The process of acquiring voice data for operation commands

../../Resources/kiee/KIEE.2022.71.2.443/fig7.png

우선 4개의 동작명령어에 대해서 화자를 포함한 10명의 시험대상자들에게 한 동작 당 60개씩 총 600개, 전체 600×4개의 음성 샘플을 확보하였다. 동작 별 학습을 진행하기 위해 500개는 학습데이터(training data)로, 100개는 시험데이터(test data)로 나누어 총 4번의 동작 별 학습을 진행한다. 위 과정에서의 분배는 한 사람에게 수집한 60✕4개의 데이터 중 50✕4개는 학습데이터로, 10✕4개는 시험데이터로 활용되었다. CNN 구조는 그림 8과 같이 3-convolution & maxpooling layers와 3-fully connected layers를 활용하였으며, 시스템의 성능개선을 위해 Relu(rectified linear unit) 활성화 함수와 dropout 등 다양한 기법을 적용한다.

그림 8. 화자검증을 위한 딥러닝 구조

Fig. 8. Deep learning structure for speaker verification

../../Resources/kiee/KIEE.2022.71.2.443/fig8.png

2.3 실험방법 및 환경

능동의수 역할을 할 로봇핸드는 ㈜만드로의 의수용 로봇핸드를 사용한다. 또한 탈믹랩스(Thalmic Labs)사의 Myo-armband를 EMG 센서로 활용한다. 이 로봇핸드는 자체적인 제어보드가 있으며, 5개 손가락에 각각 모터를 내장하여 다양한 손동작을 구현할 수 있다. Myo-armband의 경우 8채널의 EMG를 가지고 있으며, 블루투스 통신을 통한 데이터 수집이 가능하다.

그림 9. 의수용 로봇핸드와 Myo 암밴드 실물 사진

Fig. 9. Pictures of the prosthetic robot hand and Myo armband

../../Resources/kiee/KIEE.2022.71.2.443/fig9.png

실험을 위해 PC(i7-10700, Geforce RTX 2070 Super)환경에서 딥러닝을 구동하였으며, 전체 시스템은 PC, Myo-armband, 마이크, 로봇핸드로 구성되어 있다. 프로그램이 구동되면 실시간(real-time)으로 EMG 동작 시스템과 음성신호 수집 시스템이 동작하고, 음성신호가 입력되지 않을 경우는 EMG 기반으로만 능동의수가 동작되며 음성신호가 입력되면 우선적으로 음성명령에 의해 동작한 후 다시 EMG 모드로 돌아가도록 프로그램되어 있다. 이러한 EMG기반의 손동작의 구현에 있어서는 기존 연구들에 의해 그 성능이 많이 향상되어 왔고 현재도 활발히 진행 중이다[1,2,4-6]. 따라서 이 실험에서는 보완하는 음성인식과 화자검증에 대해서 집중한다. 음성신호가 입력되면 STT를 통해 텍스트로 변환한다. 이를 통해 입력된 명령어가 동작 명령어로 판별되면, 음성특징추출 후 학습된 모델과 비교해 화자검증을 진행한다. 명령을 내린 화자가 지정된 화자일 경우에는 명령어에 따라 의수가 동작하게 되고, 지정된 화자가 아닌 경우에는 다시 데이터 수집 구간으로 돌아가게 된다. 또한 화자와의 유사도를 설정하여 음성 입력을 한 화자와 지정된 화자의 유사도가 90% 이상일 경우에만 지정된 화자로 인식한다. 유사도는 입력된 음성신호와 기존에 학습된 화자의 음성신호를 딥러닝으로 비교하고 판단한 최종적인 결과를 이용해 계산한다.

3. Results and Discussion

3.1 실험 결과

딥러닝 학습의 결과는 그림 10과 같으며, 학습에 대한 정확도와 손실을 나타낸다. 학습의 정확도는 97%의 결과를 보였다. 시험의 결과는 그림 11과 같으며, 시험에 대한 정확도와 손실을 나타낸다. 그림 11의 경우에는 그림 10과 다르게 최대값과 최소값의 범위가 달리하여 확대한 것으로, 정확도는 최소값이 0.94, 손실은 최대값이 0.3의 결과가 나왔다. 향후 다양한 데이터 획득방법과 전처리기법 및 최신의 CNN 모델을 적용하고, 손동작에서 발생될 수 있는 불확실성의 적절한 모델링을 통해 지속적으로 성능을 개선한다면 더욱 좋은 성과를 보일 것으로 기대된다.

그림 10. 학습에 대한 정확도(accuracy)와 손실(loss)

Fig. 10. Accuracy and loss on learning

../../Resources/kiee/KIEE.2022.71.2.443/fig10.png

그림 11. 시험에 대한 정확도와 손실

Fig. 11. Accuracy and loss on test

../../Resources/kiee/KIEE.2022.71.2.443/fig11.png

그림 12는 제안된 딥러닝 학습 및 시험에 관한 confusion matrix이다. 4개의 동작에 대한 Train 결과는 모두 100%의 정확도를 보였으며, Test 결과는 “주먹”을 화자가 말했을 경우 화자로 인식한 결과가 90%로 나왔다. 나머지 동작(“핀치”, “엄지”, “오케이”)에서는 화자가 아닌 사람이 말했을 경우 화자라고 인식한 결과가 각 4번, 1번, 3번의 오차를 보였다. 이를 통해 Train은 100%의 정확도를, Test는 평균 97%의 정확도를 보인다는 것을 알 수 있다.

그림 12. 딥러닝 confusion matrix의 결과

Fig. 12. The result of deep learning confusion matrix

../../Resources/kiee/KIEE.2022.71.2.443/fig12.png

2.3절의 실험환경에서 2.2절의 딥러닝 모델을 적용하면 결과적으로 그림 13과 같이 로봇핸드가 구동된다. 이렇게 실시간으로 음성신호를 수집하고 동작 명령어가 입력될 경우, 화자검증을 통해 지정된 화자인지 판단한 뒤, 해당하는 동작을 수행하게 된다.

그림 13. 화자검증 결과에 따른 로봇핸드의 모습(“주먹”)

Fig. 13. The robot hand operation according to the speaker verification result ("fist“)

../../Resources/kiee/KIEE.2022.71.2.443/fig13.png

3.2 토의

앞선 딥러닝 과정에서는 10명의 화자에게 수집한 데이터를 이용해 학습과 시험을 진행한 바 있다. 이는 학습과 시험에 모두 동일한 화자의 음성이 포함되어 있는 것인데, 만약 학습 과정에 포함되지 않은 화자의 음성을 이용해 시험을 하게되면 어떠한 결과가 나올지 연구를 진행해보았다. 학습 데이터의 개수는 각 동작 별로 의수 사용자가 포함된 8명의 음성 8✕60개를 사용하였고, 시험 데이터 또한 동일한 방식으로, 나머지 2명의 음성 2✕60개를 사용하였다. 그 결과 그림 14와 같은 결과가 나왔다. 정확도는 평균 97%가 나왔으며, 이는 학습에 참여하지 않은 화자라고 하더라도 분류 과정에서 확실하게 지정된 화자인지 아닌지 구분해낼 수 있다는 결과를 보인 것과 같다.

그림 14. 학습자 미포함 시험자의 시험 결과

Fig. 14. The test results of the subject without the training

../../Resources/kiee/KIEE.2022.71.2.443/fig14.png

앞에서는 오프라인(off-line)에서 시험을 진행하여 4가지 손동작에 대한 화자검증의 결과를 보았다. 한편 실시간 동작에 대한 시험을 추가적으로 진행하였고, 그림 15와 같은 결과가 나왔다. 실시간 시험은 음성데이터 제작에 참여했던 10명의 인원 중 화자를 포함하여 5명을 대상으로 진행하였으며, 각 동작명령어에 대해 20회씩 반복하도록 하였다. 그 결과 화자를 화자로 인식한 것은 20회 중 16회로 80%, 화자가 아닌 대상을 화자로 인식한 것은 15%~20%의 결과를 보였다. 딥러닝 학습과 시험 결과에 비해 낮은 결과가 나왔다. 이는 음성데이터의 부족과 실제 환경에서의 잡음과 같은 방해요소로 인해 정확도가 감소되었을 것으로 추측된다.

그림 15. 실시간(Real-time) 시험 confusion matrix의 결과

Fig. 15. The results of the real-time test confusion matrix

../../Resources/kiee/KIEE.2022.71.2.443/fig15.png

기존의 음성인식을 사용하는 전자의수 연구(9)와 비교할 때 본 연구의 결과의 장점은 화자검증을 통해 편리성과 함께 보안성을 개선한 것이다. 한편 실시간 실험의 개선에 있어서는 잡음과 학습데이터 수를 각각 독립적인 환경에서 서로 다르게 제공함으로써, 잡음과 학습데이터가 미치는 영향을 보다 정밀하게 파악하는 것이 필요하다.

4. Conclusion

본 논문에서는 10명의 시험자를 통해 동작명령어에 대한 음성데이터를 수집하고, MFCC를 활용하여 음성의 특징을 추출한 뒤, 딥러닝을 통해 화자검증을 수행하였다. 최종적으로 4개의 손동작에 대해 학습에 대한 평균은 97%의 정확도를 얻을 수 있었으며, 실시간에서는 80%의 정확도를 얻을 수 있었다. 이와 같이 잡음 등으로 인한 실시간 환경에서의 정확도 감소 현상을 해결하기 위해 향후 연구로는 첫 번째로 딥러닝 알고리즘을 개선하여 더 많은 화자와 다양한 손동작에 대해 실시간 동작의 성공률을 높이는 것과, 두 번째로 실시간 환경에서 음성인식과 화자검증 시스템을 보다 강인하게(robustness) 구현하고 EMG 기반 능동의수와 결합하여, 편리성 및 보안성과 함께 실시간에서 효율성을 향상시키는 연구를 계획하고 있다.

Acknowledgements

이 논문은 2021년도 건양대학교 학술연구비 지원에 의하여 이루어진 연구로서, 관계부처에 감사드립니다.

References

1 
M. Atzori, A. Gijsberts, C. Castellini, B. Caputo, A.M. Hager, S. Elsig, G. Giatsidis, F. Bassetto, H. Müller, 2014, Electromyography data for non-invasive naturally controlled robotic hand prostheses, Scientific Data, Vol. 1DOI
2 
A. Krasoulis, S. Vijayakumar, K. Nazarpour, Sept 2019, Effect of user practice on prosthetic finger control with an intuitive myoelectric decoder, Frontiers in NeuroscienceDOI
3 
P. Weiner, J. Starke, F. Hundhausen, J. Beil, T. Asfour, October 2018, The KIT Prosthetic Hand: Design and Control, 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Madrid, Spain, pp. 1-5DOI
4 
M. Atzori, M. Cognolato, H. Müller, 2016, Deep Learning with Convolutional Neural Networks Applied to Electromyography Data: A Resource for the Classification of Movements for Prosthetic Hands, Front NeurorobotDOI
5 
D. C. Oh, Y. U. Jo, 2021, Classification of Hand Gestures Based on Multi-channel EMG by Scale Average Wavelet Transform and Convolutional Neural Network, International Journal of Control, Automation and Systems, Vol. 19, No. 3, pp. 1443-1450DOI
6 
https://www.ottobockus.com/prosthetics/upper-limb-prosthetics/solution-overview/bebionic-hand/Google Search
7 
Omer Saad Alkhafaf, Mousa K Wali, Ali H Al-Timemy, 2020, Improved hand prostheses control for transradial amputees based on hybrid of voice recognition and electromyography, SAGE journals vol. 44, Vol. no. 7, No. pp. 509-517, pp. december 7DOI
8 
K. Gundogdu, S. Bayrakdar, I. Yucedag, 2018, Developing and modeling of voice control system for prosthetic robot arm in medical systems., no. 2, pp. 198-205DOI
9 
P. Samant, A. Ravinder, 2015, Real-time speech recognition system for prosthetic arm control, Int. J. Sensing, Computing & Control, Vol. 5, No. 1, pp. 39-46Google Search
10 
M. Jafarzadeh, Y. Tadesse, 2020, End-to-End Learning of Speech 2D Feature-Trajectory for Prosthetic Hands, in 2020 Second International Conference on Transdisciplinary AI (TransAI), pp. 25-33DOI
11 
H. S. Jung, S. H. Yoon, N. S. Park, 2020, Speaker Recognition Using Convolutional Siamese Neural Networks, The Transactions of the korean Institute Electrical Engineers, Vol. 60, No. 1, pp. 164-169Google Search
12 
J. H. Kim, S. P. Lee, 2021, Multi-modal Emotion Recognition using Speech Features and Text Embedding, The Transactions of the korean Institute Electrical Engineers, Vol. 70, No. 1, pp. 108-113DOI
13 
M. S. Kim, J. S. Moon, 2019, Speaker Verification Model Using Short-Time Fourier Transform and Recurrent Neural Network, Korea Institute of Information Security and Cryptology, Vol. 29, No. 6, pp. 1393-1401DOI
14 
D. H. Kim, W. K. Seong, H. K. Kim, 2015, Performance Comparison of Deep Feature Based Speaker Verification Systems, Korea Journal of Speech Science, Vol. 7, No. 4, pp. 9-16DOI
15 
S. Bunrit, T. Inkian, N. Kerdprasop, K. Kerdprasop, April 2019, Text-Independent Speaker Identifi- cation Using Deep Learning Model of Convolution Neural Network, International Journal of Machine Learning and Computing, Vol. 9, No. 2Google Search
16 
Y. Yamanoi, Y. Ogiri, R. Kato, Jan 2020, EMG-based posture classification using a convolutional neural network for a myoelectric hand, Biomedical Signal Processing and Control, Vol. 55DOI
17 
P. Xia, J. Hu, Y. Peng, 2018, EMG-based estimation of limbmovement using deep learning with recurrent convolutionalneural networks, Artificial Organs, Vol. 42, No. 5, pp. e67–e77DOI
18 
S. Albawi, 2017, Understanding of a Convolutional Neural Network, ICET 2017, Vol. antalyaDOI
19 
R. Ranjan, A. Thakur, 2019, Analysis of feature extraction techniques for speech recognition system, International Journal of Innovative Technology and Exploring Engineering, Vol. 8, No. 7c2, pp. 197-200Google Search

저자소개

김기승(Ki-Seung Kim)
../../Resources/kiee/KIEE.2022.71.2.443/au1.png

2022년 건양대 의공학부 졸업예정.

관심분야는 음성인식 기술 및 딥러닝

김선홍(Seon-Hong Kim)

2022년 건양대 의공학부 졸업예정.

관심분야는 인공지능 및 딥러닝과 의료응용

조용운(Yong-Un Jo)
../../Resources/kiee/KIEE.2022.71.2.443/au2.png

2019년 건양대 의공학부 졸업. 2019년 동

대학원 석사과정. 관심분야는 인공지능

및 딥러닝과 의료응용, 의용로봇.

오도창(Do-Chang Oh)
../../Resources/kiee/KIEE.2022.71.2.443/au3.png

1991년 경북대 전자공학과 졸업.

1993년 동대학원 석사.

1997년 동대학원 박사.

2007년 미국 플로리다 주립대 방문교수.

1997년~현재 건양대학교 의공학부 교수.

관심분야는 생체계측제어 및 모델링, model & controller reduction, 인공지능 응용, 의용로봇, 재활 의료기기 분야.