Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 69, No. 1, p.120-126

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 30 November 2019Accepted : 11 December 2019

DOI :

http://doi.org/10.5370/KIEE.2020.69.1.164

Speaker Recognition Using Convolutional Siamese Neural Networks

합성 샴 신경망을 이용한 화자 인식

정희승 (Heeseung Jung) ¹iD 윤상혁 (Sanghyeuk Yoon) ²iD 박능수 (Neungsoo Park) ^†iD

(Dept. of Computer Science and Engineering, Konkuk University, Korea.)
(Dept. of Computer Science and Engineering, Konkuk University, Korea.)

^†Corresponding Author : Dept. of Computer Science and Engineering, Konkuk University, Korea.

E-mail : neungsoo@konkuk.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

Recently, machine learning has been applied in a variety of fields. Speaker recognition is one of attractive applications of machine learning. In this paper, we propose a convolutional Siamese neural network for speaker recognition. The proposed model generates feature vectors through the identical two convolutional neural networks for speech data of two speakers. The similarity is measured by calculating the Euclidean distance of two output feature vectors. If the calculated similarity is less than the threshold, it is judged that two speakers are the same. The experimental result of the proposed speaker recognition based on the convolutional Siamese neural network showed its accuracy was achieved up to 96%. The accuracy of one-shot classification using the trained convolutional Siamese neural network was evaluated also. For the evaluation, the 10-way one-shot classification for 10 speakers not used for learning stages were tested, resulting in 92% accuracy.

Key words

Speaker Recognition, Siamese Networks, Convolutional Neural Netowork(CNN), MFCC

1. 서 론

최근 머신러닝이 대두되면서 다양한 분야에 적용되고 있다. 특히 이미지 처리 분야에서 패턴 분석과 같은 특징을 분석하는데 탁월한 성능을 보이고 있다. 이와 더불어 음성 데이터 학습을 위한 머신러닝 또한 좋은 성능을 보이고 있다. 음성 데이터 학습을 위한 머신러닝 분야는 크게 음성 인식과 화자 인식으로 나눌 수 있다. 음성 인식은 음성의 내용 분석에 중점을 두며 화자 인식은 발성한 화자에 대해 분석을 한다. 최근 개인 인공지능 비서가 발전하면서 음성 인식뿐만 아니라 화자인식 또한 중요해지고 있다.

기존 화자인식 분야에서는 가우시안 혼합 모델^[1], 서포트 벡터 머신^[2], 베이지안 네트워크^[3] 등을 사용하였으며 최근에는 인공신경망을 활용한 모델이 제안되고 있다. 인공신경망^[4]을 활용한 모델로는 합성 곱 신경망^[5]과 시계열 신경망^[6]을 주로 사용하며 음성 데이터의 전처리를 위해 MFCC(Mel Frequency Cepstral Coefficient)^[7] 변환을 사용하여 주파수 특성을 추출한다. 학습된 인공신경망은 높은 정확도를 보여주지만 새로운 화자 추론은 힘들다는 한계점을 지니고 있다. 새로운 화자를 추론하기 위해선 기존 데이터와 함께 처음부터 재학습을 해야 한다. 만약 새로운 화자에 대한 데이터가 적다면 수십만 개의 변수를 지닌 네트워크를 변화시키기 역부족하다.

본 논문에서는 입력받은 두 화자의 음성 데이터에 대해 특징값을 계산하고 이들을 기반으로 유사도를 측정하여 두 화자에 대한 동일성 여부를 추론하는 합성 샴 네트워크를 제안한다. 제안한 합성 샴 네트워크를 이용한 화자인식 알고리즘을 원본 음성 데이터와 MFCC 특징 값을 이용하는 방법으로 학습하여 성능을 평가하였다. 테스트 평가를 통한 원본 음성 데이터의 정확도는 96.4%, MFCC 특징 값을 이용한 정확도는 89.14%를 기록하였다. 또한 학습된 샴 네트워크는 화자의 일반적인 특성을 구별하도록 학습이 되어 학습하지 않은 화자 또한 분류해 낼 수 있다. 10-way one-shot 분류기법을 사용하여 학습하지 않은 화자 10명의 음성 데이터 분류결과 최대 91.70%의 정확도를 기록하였다.

본 논문은 다음과 같이 구성되었다. 2장은 관련 연구를 설명하였다. 3장에서는 합성 샴 신경망을 통한 화자 인식 모델을 제안하였으며, 4장에서는 실험 및 결과에 대한 분석을 제시하였다. 마지막으로 5장에서 결론을 논하였다.

2. 관련 연구

2.1 합성곱 신경망

1950년대 과거부터 인공신경망 (Artificial Neural Networks, ANN)을 이용한 패턴 학습이 효과적임을 밝혔지만, 이미지 처리의 분야에서 효과를 얻기 위해선 사전에 많은 전처리를 통한 후 다중 계층 퍼셉트론(Multi-layer Perceptron, MLP)^[8]과 같은 기존 벡터 처리 기법들을 사용해야 했다. 이에 이미지 처리에 효과적인 합성곱 신경망(Convolutional Neural Network, CNN)^[9]이 1989년 LeCun에 의해 소개되었다. 이는 필기체 인식에 뛰어난 효과를 보였고, 2003년 Beknke^[10]에 의해 일반화되었고 Simard에 의해 단순화되어 현재까지 활발하게 연구 개발되고 있다.

CNN은 이미지를 별도의 전처리 없이 유효 데이터로서 합성곱 층(Convolutional layer)에 입력하면, 특징 값들을 얻어낸다. 이를 특징 지도 (Feature map)이라 부르며, 이를 서브 샘플링(Subsampling)해주어 작은 집단으로 만들어준다. 이러한 과정을 문제에 따라 다수 반복해주면, 해당 이미지의 전반적인 특징을 찾을 수 있고, 이를 통해 이미지의 패턴을 분석할 수 있다.

CNN은 현재 컴퓨터 비전(Vision) 분야에서 매우 두각을 나타내고 있으며, 이미지 분류, 자율 운전 자동차, 이미지 분석 설명, 실시간 다중 객체 분석 등 여러 방면에서 활용된다. 그뿐만 아니라 자연어 처리(Natural Language Processing, NLP), 환경 시스템(Eco System) 등 이미지를 넘어 모든 인공지능 분야에서 활약 중이다.

2.2 샴 신경망(Siamese NN)

샴 신경망은 1990년대 Bromley와 LeCun에 의하여 소개되었다^[11]. 샴 신경망은 두 개의 동일한 네트워크가 출력 단계에서 하나의 네트워크로 연결된다. 두 개의 네트워크는 입력 값에 대해 특징 벡터를 계산하고 두 특징 벡터의 거리를 측정한다. 두 특징 벡터의 거리가 임계점보다 작다면 두 입력 값은 같은 범주로 판단하고 크다면 다른 범주로 판단한다. Bromley와 LeCun은 샴 신경망을 이용하여 서명 확인을 위한 시스템을 제안하였다. 입력받은 서명과 저장되어있는 서명의 특징 벡터가 임계값 보다 가깝다면 수용되고 그렇지 않으면 다른 사람으로 간주하여 거부 된다. 샴 신경망의 두 네트워크는 가중치 값을 공유한다. 따라서 샴 신경망은 대칭적이다. 두 입력 값의 순서를 바꾸어도 같은 결과를 내며 다른 범주의 데이터를 입력하여도 마치 같은 데이터를 계산하는 것과 동일하게 작동한다.

2.3 One-Shot learning

사람은 오랜 기간 다량의 정보를 학습하고 새로운 정보의 특징을 빠르게 학습하는데 탁월하다. 따라서 처음 접한 정보이더라도 특징을 학습하고 다음에 높은 정확도로 인식할 수 있다. 하지만 기계학습의 경우 학습에 사용한 범주만 추론 가능하며 새로운 범주를 구별하고 싶다면 많은 양의 데이터를 기존 데이터와 함께 처음부터 다시 학습해야 한다. 이는 많은 시간과 많은 데이터가 필요하므로 비효율적이다.

one-shot learning이란 학습된 모델에서 학습에 사용되지 않은 데이터를 한 번만 보고 예측하는 것을 말한다. one-shot learning은 Fei-Fei에 의해 조명되었다^[12].

샴 신경망은 일반 분류 학습 모델과 달리 특정 범주의 데이터를 구별해 내는 것이 아니라 입력받은 두 데이터의 유사도를 학습한다. 따라서 특정 범주의 특징만을 학습하는 것이 아닌 여러 범주의 데이터를 비교해 가며 일반적인 특징을 학습하게 된다. 잘 학습된 샴 신경망은 데이터의 일반적인 특징을 구별할 것을 기대할 수 있으며 학습에 사용되지 않은 데이터의 재학습 필요 없이 예측할 수 있을 것을 기대할 수 있다. 이를 기반으로 하는 샴 신경망을 통한 one-shot learning은 Koch와 Zemel에 의해 제안되었다^[13]. 제안된 논문에서 손 글씨를 이용한 이미지 분석을 하였으며 학습하지 않은 데이터에 대해서도 높은 분류 정확도를 보여주었다.

2.4 MFCC

MFCC(Mel Frequency Cepstral Coefficients)는 음성 인식 분야에서 대표적으로 특징 값 추출 과정에 쓰이고 있는 알고리즘이다. 사람은 달팽이관의 떨림으로 소리를 인식하게 되는데 이때 낮은 주파수로 갈수록 주파수 특징을 잘 구별해 내지 못하며 소리의 크기 또한 선형적이 아닌 로그 스케일(log scale)로 받아들인다. MFCC는 이러한 사람의 특징을 반영하여 음성 데이터를 사람이 받아들이는 것과 비슷한 주파수 특성으로 변환시킨다.

3. 합성 샴 신경망을 통한 화자 인식 모델

3.1 전처리

본 논문에서는 음성 데이터의 학습을 위해 원본 데이터를 이용한 학습과 음성 데이터의 특징 값 추출을 통한 학습 두 가지를 진행하였다. 원본 데이터를 이용한 학습에서 음성 데이터를 처리하기 위해 샘플링 레이트(sampling rate) 16000을 기준으로 데이터를 읽어왔다. 샘플링 레이트란 음성 데이터의 초당 세분 율을 뜻한다. 샘플링 레이트 16000은 음성 데이터를 초당 16000번 세분화하여 읽은 것을 말한다. 학습을 위해 음성 데이터의 길이를 3초로 고정하였다. 따라서 학습에 사용한 음성 데이터의 크기는 48000이다. 하지만 학습에 사용하기에는 크기가 커 1/4 수준으로 압축하였다. 원본 데이터를 이용한 학습 시 각 음성 데이터의 크기는 12000이다.

원본 데이터를 사용하여 학습 및 분석을 수행할 경우, 필요한 음성적 요소가 아닌 소음, 배경 소음, 외부의 요소들이 많다. 따라서 사람이 정의 내린 음성 알고리즘을 통해 불필요한 요소들을 줄이고 유효한 데이터로 변환해줄 필요가 있다. 제안된 모델은 음성 처리 분야에서 가장 많이 사용되는 MFCC (Mel Frequency Cepstral Coefficient) 변환을 통해 원본 데이터를 유의미한 스펙트럼 데이터로 변환한다.

MFCC 변환을 위하여 python 라이브러리인 librosa를 사용하였다. MFCC는 음성 데이터를 작은 크기의 윈도우 여러 개로 나눈다. 각 윈도우는 푸리에 변환(Fourie Transform)과 멜 필터 뱅크(Mel Filter bank), 이산 코사인 변환(Discrete Cosine Transform) 등을 거쳐 특징 값을 추출한다. 이때 각 윈도우의 구간은 서로 겹칠 수 있으며 윈도우의 크기와 각 윈도우간 겹치는 구간의 길이를 정할 수 있다. 본 모델에서는 윈도우의 길이를 25ms, 윈도우 간 겹치는 구간의 길이를 10ms로 하였다. 샘플링 레이트 16000을 기준으로 각각 400프레임, 160 프레임에 해당한다. 이를 기준으로 MFCC 변환 시 프레임 수 $f$는 음성 데이터의 길이를 $s$(초), 윈도우 길이와 각 윈도우가 겹치는 길이를 각각 $w,\: h$라 할 때 식 (1)과 같다. 식 (1)을 기준으로 MFCC 변환한 데이터 100프레임은 음성 데이터의 약 1초와 같다.

(1)

$$f=(16000· s-w)/h$$

본 모델은 MFCC 특징 값 40개를 추출하였다. 앞서 추출한 40개 특징 값의 변화도를 계산하여 40개의 변화도를 계산하였다. 특징 값과 변화도를 합쳐 총 80개의 특징 값을 사용하였다. 학습에 사용할 고정된 데이터 크기를 정하기 위해 음성 데이터 3초에 해당하는 300 프레임을 추출하여 $80\times 300$ 크기의 2차원 데이터로 이미지화하였다.

3.2 샴 신경망(Siamese NN)

제안된 모델은 기본적으로 샴 신경망 형태로 이루어져 있다. 샴 신경망은 입력이 구분되는 두 쌍둥이 신경망으로 구성되어 있다. 상단에서 CNN을 통해 얻은 두 다른 특징 벡터에 대해 유사도(Similarity)를 측정하고 이 값이 임계값 (Threshold)보다 크다면 같은 범주로 작다면 다른 범주로 분류한다.

일반적으로 음성 처리 분야에서는 데이터의 시계열적 특성을 분석하기 위해 시계열 신경망(Recurrent Neural Networks, RNN)을 사용하였다. 하지만 제안된 모델에서는 특징 벡터의 유사도 차이를 분석하기 위하여 특징적 요소를 찾아내는데 뛰어난 CNN을 사용하여 음성 데이터를 학습한다. 본 연구에서는 원본 음성 데이터에서 특징을 추출하는 모델과 원본 음성에서 mfcc를 통해 전처리된 데이터에서 특징을 추출하는 모델을 제안하고자 한다. 첫 번째 모델에서 원본 음성 데이터는 1차원 시계열 데이터로 이를 직접 학습하기 위해서 1차원 CNN을 사용한다. 두 번째 모델에서는 전처리된 음성 데이터를 학습하기 위해 앞서 MFCC 변환을 통해 얻은 스펙트럼을 2차원으로 이미지화하여 스펙토그램을 만들어 2차원 CNN을 사용한다. CNN의 출력 값인 특징 벡터를 입력받아 두 특징 벡터의 유사도를 측정한다. 같은 범주 데이터의 유사도는 높도록 다른 범주 데이터의 유사도는 낮게 출력하도록 학습하며 예측을 위한 유사도의 임계값 또한 학습한다.

Fig. 1. The structure of proposed convolutional neural network model

Fig.1에서 보이는 것과 같이 합성곱 신경망(CNN) 인코더는 총 4개의 CNN을 사용하였다. 각 CNN은 활성화 함수로 ReLU를 사용하였고 합성곱의 결과는 최대 풀링(Max pooling)으로 서브샘플링 하였다. 각 CNN 층의 필터 수는 64의 배수로 하였다. 커널의 크기는 1차원 CNN의 경우 32, 3을 사용하였으며 2차원 CNN의 경우 (4, 15), (2, 7), (1, 4)를 사용하였다. 각 max pooling 레이어의 stride 크기를 2 또는 4를 사용 하였다. 4개의 CNN을 거치면 최종적으로 각 필터에서 가장 큰 값을 뽑아 단일 벡터화 하였다. 이때 벡터의 크기는 64이다. 1차원 CNN의 정보는 Table 1에 2차원 CNN의 정보는 Table 2에 정리하였다.

Fig.2와 같이 본 논문에서 제안한 모델은 원본 음성 데이터를 다운 샘플링 하여 새로운 차원을 뽑는 전처리기와 같은 가중치 값(Weight Matrix)을 공유하는 CNN 인코더를 대칭적으로 갖고, 출력 값인 두 특징 벡터의 유사도를 측정해 화자를 인식한다. Fig.3의 모델은 전처리기 과정에서 다운 샘플링이 아닌 MFCC 음성 특성을 추출한다는 점만이 다르다. 이때 인코더에서 추출된 특징 벡터는 소프트맥스(Softmax) 함수를 통해 총합이 1인 클래스에 대한 확률 값의 형태이다. 유사도($s$)는 두 벡터($v_{1}$, $v_{2}$) 사이의 유클리드 거리(Euclidean distance)를 통해 측정하며, 유사도 판단을 위한 임계값은 고정 값이 아니라 학습을 반복하며 최적의 값을 찾는다.

(2)

$$s=||v_{1}-v_{2}||$$

Table 1. 1D-CNN encoder parameters for raw audio data

Layer	Kernel	# Filters	Stride	Output size
Conv1d_1	32	64	4	same
Conv1d_2	3	128	2	same
Conv1d_3	3	192	2	same
Conv1d_4	3	256	-	same
dense	-	-	-	64

Table 2. 2D-CNN encoder parameters for MFCC features

Layer	Kernel	# Filters	Stride	Output size
Conv2d_1	4, 15	64	2	same
Conv2d_2	2, 7	128	2	same
Conv2d_3	1, 4	192	2	same
Conv2d_4	1, 4	256	-	same
dense	-	-	-	64

Fig. 2. The proposed Convolutional Siamese Neural Network using raw audio data

제안된 모델의 최종 산출은 1차원의 유사도 판별 값으로 0이면 같은 화자로 1이면 다른 화자로 이진(Binary) 판별한다. 따라서 최종 유사도에 Sigmoid 활성화 함수를 적용하며, 이 값을 Cross Entropy 손실함수를 통해 해당 추론에 대한 손실(Loss)을 산출한다. 손실을 산출하기까지의 모든 연산 과정을 미분으로 역전파(Backpropagation)를 통해 손실함수의 Landscape을 그린다. 이 Landscape에서의 최적점(Optimum)을 찾기 위해 Adam 알고리즘을 사용한다.

학습률(Learning rate, lr)은 0.003부터 시작하여 학습을 반복할 때 마다 1%씩 감소시켜 최적점을 찾아 미분 값을 따라간다. 학습이 적절히 진행되어 손실의 감소폭이 줄거나 모델의 정확도가 오르지 않을 때, 학습률을 더욱 낮추며 더욱 세밀한 지점까지 최적점을 찾는다.

모델의 학습 최적화 과정에서 잘못된 최적점(Local Optimum)에서 빠져나오지 못하거나, 지나치게 과적합(Overfitting) 되는 것을 방지하기 위해 정규화를 수행한다. 입력과정에서 작은 배치(Minibatch)를 묶어 학습 또는 테스트 과정을 수행하는데, 이 입력으로부터 배치의 분산과 평균을 구해 배치 내의 값을 변환하여 일반화해준다.

배치 데이터의 구성을 위해 배치 데이터의 개수 중 반은 같은 화자 반은 다른 화자로 구성하였다. 화자 선택, 선택된 화자의 음성 데이터 선택, 음성 데이터 중 학습에 사용할 구간 선택 모두 랜덤 추출하였다.

4. 실험 및 결과

4.1 실험

본 논문에서는 ‘Zeroth Korean’^[14], ‘LibriSpeech’^[15] 두 가지의 데이터로 실험을 진행했다. ‘Zeroth Korean’은 한국어 데이터 세트(dataset)로 104여명의 학습 세트(training set)와 10명의 검증 세트(validation set)로 이루어져 있다. 모든 화자는 다른 이름을 가지고 각기 다른 내용의 문장을 읽는다. 챕터-화자-문장의 분류 정보를 가지고 있으며 외부소음이 없는 음성들로 이루어져 있다. ‘LibriSpeech’는 영문 데이터 세트로 921명의 학습 세트와 40명의 검증 세트를 가지고 있다. ‘Zeroth Korean’ 과 마찬가지로 챕터-화자-문장의 분류 정보를 가지고 있고, 외부소음이 없는 클린(clean) 버전과 자연스러운 음성 데이터인 오리지널 데이터가 있으나, 본 논문에서는 클린 버전을 사용했다.

Fig. 3. The proposed Convolutional Siamese Neural Network using MFCC features

학습 세트의 각 화자 음성 데이터 20%는 모델 학습의 검증을 위한 테스트 데이터로 사용하였다. 각 데이터의 검증세트는 one-shot 분류를 위해 사용하였다.

Table 3에 정리된 실험환경과 같이 모든 모델은 Linux 기반의 단일 환경에서 구현, 실험하였다. 환경은 인텔(Intel)사의 CPU E5-2620을 기반으로 우분투(Ubuntu) 16.04.6 LTS에서 구현되었다. 사용 언어와 프레임워크는 Python 3.6, TensorFlow V1.12를 사용하였으며, 모든 실험은 GPU 지포스(GeForce) GTX 1080 Ti 위에서 이루어졌다.

Table 3. Experimental environment

OS	Ubuntu 16.04.6 LTS
CPU	Intel CPU E5-2620
GPU	GeForce GTX 1080 Ti
Programming Language	Python 3.6
ML Framwork	TensorFlow v.1.12

4.2 결과 분석

실험은 모든 데이터를 200번 반복하여 학습하였다. Fig.4에서 200번 반복하면서 모델의 손실을 줄여 200번째 반복에서는 감소폭이 작음을 확인할 수 있다. 또한, Fig.5에서 학습 세트에 대한 모델의 정확도를 확인할 수 있고, 200번째 반복 부근에서는 성능의 향상 폭이 작아 학습을 마쳤음을 알 수 있다.

Fig. 4. The loss per training epoch

Fig. 5. The accuracy per training epoch.

실험 결과 한국어 데이터 기준 원본 데이터의 정확도는 96.4%, MFCC 특징 값 변환 데이터의 정확도는 89.14%로 측정되었으며 영어 데이터 기준 원본 데이터의 정확도는 94.53%, MFCC 특징 값 변환 데이터의 정확도는 88.51%로 측정되었다. 자세한 내용은 Table 4에 명시되어 있다.

Table 4. The results of each model

	zeroth korean		libri speech
	loss	acc	loss	acc
raw	0.5192	0.964	0.5299	0.9453
mfcc	0.5506	0.8914	0.5599	0.8851

한국어와 영어 데이터 간의 학습 결과는 비슷하게 측정되었다. 하지만 원본 데이터와 MFCC 특징 값 추출 데이터 간의 정확도는 언어에 상관없이 원본 데이터의 결과가 약 7% 포인트 높게 측정되었다.

학습세트로 학습한 모델을 학습에 사용하지 않은 검증세트를 사용하여 10명을 분류하는 10-way one-shot 분류 정확도를 측정하였다. 검증 세트의 학습하지 않은 10명의 화자 $S$ 중 한 명을 골라 임의로 뽑은 음성 데이터 $d$와 10명의 화자에서 각각 하나의 음성 데이터를 임의로 골라 배치 데이터 $\left\{d_{S}\right\}$를 구성하였다. $d$와 $\left\{d_{S}\right\}$간의 유사도를 추론하여 가장 높은 유사도를 보이는 데이터의 화자를 비교해 정확도를 측정하였다. Table 5는 10명의 모든 화자에 대한 분류 정확도를 1000번 반복 측정한 결과로 한국어의 경우 약 79% 영어의 경우 약 92% 정확도를 보였다.

Table 5. Accuracy of 10-way one-shot verification

	zeroth korean	libri speech
raw	78.62%	91.71%

5. 결 론

본 논문에서는 화자 인식을 위한 합성 샴 신경망을 제안하였다. 원본 데이터와 MFCC 특징 값 데이터를 각각 1차원 CNN과 2차원 CNN을 이용하여 학습하였다. 학습한 결과 원본 데이터의 정확도는 96.4%, MFCC 특징 값의 정확도는 89.14%를 기록하였다. 원본 데이터의 정확도가 MFCC 정확도 보다 높은 화자 인식 정확도를 보여주었다. 한국어 데이터와 영어 데이터의 유의미한 정확도 차이는 없으며 이를 통해 모델의 일반성을 증명할 수 있다.

합성 샴 신경망을 통해 모델을 학습한 결과 10-way one-shot 분류가 가능하였다. 학습하지 않은 화자의 음성 데이터 분류결과 91.70%의 정확도를 기록하였다. 만약 모델을 발전시켜 더 높은 정확도를 이끌어낸다면 화자 인식을 위한 범용적 모델 개발이 가능할 것으로 기대된다.

Acknowledgements

This work was partly supported by Institute of Information & Communications Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT) (No. R0126-15-1119, The development of a solution for situation awareness based on the analysis of speech and environmental sounds) and (No. 2018-0-00213, the National Program for Excellence in SW (Konkuk University)).

References

B. S. Everitt, 2014, Finite Mixture Distributions, Wiley StatsRef: Statistics Reference Online

C. Cortes, V. Vapnik, 1995, Support-vector networks, Machine Learning, Vol. 20, No. 3, pp. 273-297

Ben‐Gal Irad, 2008, Bayesian networks, Encyclopedia of Statistics in Quality and Reliability 1

W. S. McCulloch, W. Pitts, 1943, A Logical Calculus of Ideas Immanent in Nervous Activity, Bulletin of Mathematical Biophysics, Vol. 5, No. 4, pp. 115-133

P. Y. Simard, D. Steinkraus, J. C. Platt, 2003, Best practices for convolutional neural networks applied to visual document analysis, in Proc. of 7th International Conference on Document Analysis and Recognition, Proceedings., Edinburgh, UK, pp. 958-963

A. Graves, A. Mohamed, G. Hinton, 2013, Speech recognition with deep recurrent neural networks, in Proc. of IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, pp. 6645-6649

S. Davis, Aug 1980, Comparison of parametric representations for mono- syllabic word recognition in continuously spoken sentences, IEEE Trans. Acoust. Speech Signal Processing, Vol. ASSP-28, pp. 357-366

Warren Sturgis McCulloch, Walter Pitts, 1988, A logical calculus of the ideas immanent in nervous activity, Bulletin of Mathematical Biology, Vol. 52, pp. 99-115

Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel, 1989, Backpropagation applied to handwritten zip code recognition, Neural Computation, Vol. 1, No. 4, pp. 541-551

S. Behnke, 2003, Hierarchical Neural Networks for Image Interpretation, DOI:10.1007/b11963

J. Bromley, I. Guyon, Y. LeCun, E. Sackinger, R. Shah, 1993, Signature Verification using a ‘Siamese’ Time Delay Neural Network, International Journal of Pattern Recognition and Artificial Intelligence, pp. 669-688

F.-F. Li, R. Fergus, 2003, A Bayesian Approach to Unsupervised One-Shot Learning of Object Categories, in Proceedings of 9th IEEE International Conference on Computer Vision, pp. 1134-1141

G. Koch, R. Zemel, R. Salakhutdinov, 2015, Siamese neural networks for one-shot image recognition, in Proc. of ICML Deep Learning Workshop

Kaldi-based Korean ASR open-source project, GitHub, last modified Jul 28, 2017, https://github.com/goodatlas/zeroth.

V. Panayotov, G. Chen, D. Povey, S. Khudanpur, 2015, Librispeech: An ASR corpus based on public domain audio books, in Proc. of 2015 IEEE International Conference on Acoustics, speech and signal processing (icassp), Brisbane ,QLD, pp. 5206-5210

저자소개

Heeseung Jung

He is currently a undergraduate student of The Dept. of Computer Science and Engineering in Konkuk University, Korea.

E-mail : heesng.jung@gmail.com

Sanghyeuk Yoon

He is currently a undergraduate student of The Dept. of Computer Science and Engineering in Konkuk University, Korea.

E-mail : nyoonsh97@gmail.com

Neungsoo Park

He received the B.S. and M.S. from the Department of Electrical Engineering in Yonsei University, Seoul, South Korea, in 1991 and 1993, respectively, and the Ph.D. in the electrical engineering from the University of Southern California in 2002.

He was a senior engineer in Samsung Electronics Corporation, South Korea.

He is currently a professor with the Department of Computer Science and Engineering, Konkuk University, Seoul.

His research interests include parallel computing, computer architecture, embedded system, high-performance computing for signal processing, multi-media systems, and AI applications.

E-mail : neungsoo@konkuk.ac.kr

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

합성 샴 신경망을 이용한 화자 인식

Abstract

Key words

1. 서 론

2. 관련 연구

2.1 합성곱 신경망

2.2 샴 신경망(Siamese NN)

2.3 One-Shot learning

2.4 MFCC

3. 합성 샴 신경망을 통한 화자 인식 모델

3.1 전처리

(1)

3.2 샴 신경망(Siamese NN)

(2)

4. 실험 및 결과

4.1 실험

4.2 결과 분석

5. 결 론

Acknowledgements

References

저자소개

Heeseung Jung

Sanghyeuk Yoon

Neungsoo Park

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

합성 샴 신경망을 이용한 화자 인식

Abstract

Key words

1. 서 론

2. 관련 연구

2.1 합성곱 신경망

2.2 샴 신경망(Siamese NN)

2.3 One-Shot learning

2.4 MFCC

3. 합성 샴 신경망을 통한 화자 인식 모델

3.1 전처리

(1)

3.2 샴 신경망(Siamese NN)

(2)

4. 실험 및 결과

4.1 실험

4.2 결과 분석

5. 결 론

Acknowledgements

References

저자소개

Heeseung Jung

Sanghyeuk Yoon

Neungsoo Park

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers