• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Intelligent Mechatronics Engineering, Sejong University, Korea)
  2. (WITHROBOT, INC., Seoul, Korea)
  3. (Robot Campus of Korea Polytechnics University, Korea)



Sound Mixing, Sound Classification, Sound feature extract

1. 서 론

최근에는 DNN 개발 과정에서 모델의 구조나 하이퍼 파라미터 튜닝을 이용한 성능 개선 방법보다 학습에 사용되는 데이터의 수량이나 품질 향상을 통해 성능을 개선하는 방식이 주목받고 있고[7], 학습에 사용되는 데이터의 수량이나 품질 뿐만 아니라 다양한 형태의 데이터가 성능에 영향을 미친다는 연구 결과가 있다[8].

DNN 학습을 위해 사용자가 직접 측정 센서를 사용해 실 환경에서 취득한 데이터 세트 혹은 공개된 데이터 세트를 이용할 수 있다. 데이터의 수량이 부족할 경우 샘플 데이터를 사용하여 합성하거나 증강하여 사용할 수 있으며 데이터 취득이 용이하지 못하거나 공개된 데이터 세트가 없을 경우, AI 모델 중 하나인 생성 모델을 이용하거나 사람이 직접 데이터의 특성을 분석하고 이를 토대로 데이터를 생성하여 사용하는 경우도 있다. 또한, 그림 1과 같이 실제 환경에서 재현하기 위험하거나 불가능한 경우에도 데이터를 생성하여 사용하기도 한다[9]. 위와 같은 방법으로 데이터 세트가 구성되면 이를 이용하여 supervised learning, semi-supervised learning, unsupervised learning, reinforcement learning과 같은 방법으로 DNN을 학습시킬 수 있다[6]. 이 중 supervised learning 방식은 데이터 세트에 사용자가 학습하고자하는 정답이 레이블 되어 있어야 한다. 정답 레이블의 형태는 사용자가 사용하는 데이터의 형태에 따라 달라지는데, 일반적으로 공식적인 형태를 사용하며 필요에 따라 직접 정의하여 사용하기도 한다. 레이블 작업이 완료되어 데이터 세트가 확보되면 네트워크 모델 학습을 시작하는데 데이터를 획득하고, 정제 및 가공 등의 사전 처리 작업과 레이블 작업은 전체 개발을 위한 소요 시간의 대부분을 차지한다[10,11]. 또한, 다양한 환경에서 동일한 네트워크 모델의 성능을 유지하기 위하여 다양한 형태의 데이터가 필요하며, 다양한 형태의 데이터는 고난이도 레이블 작업이 요구되고 좀 더 많은 시간과 비용이 소요된다. 이러한 레이블 작업은 필수이므로 학습과정에서 불필요한 시간을 줄이기 위해서는 사전 처리 작업을 통해 유의미한 데이터를 선별하여 레이블해서 사용해야 한다. 또한 데이터의 수량이 부족하여 합성 혹은 생성해야 하는 경우, 만들어낸 데이터와 실 데이터의 특성을 비교하여 다양하고 유의미한 데이터를 학습에 사용해야 한다. 합성 및 생성된 데이터는 합성 및 생성의 기본이 되는 데이터의 정답 레이블이 유지되고, 실 데이터와 유사하게 만들어져야 한다.

그림 1. 실제 환경에서 재현하기 힘든 상황 예시

Fig. 1. Example of difficult to source in a real environment

../../Resources/kiee/KIEE.2024.73.7.1232/fig1.png

표 1 실제 환경소음 내용 및 수량

Table 1 Noise types and numbers in real world

데이터

종류

수량 (개)

비 고

고장음

정상음

실환경소음1

232

206

대화 소리

실환경소음2

6

16

사이렌 소리

실환경소음3

251

1,203

설비 소음

실환경소음4

57

368

복합 소음

본 연구에서는 그림 2[12]와 유사한 실제 환경에서 취득한 데이터와 소음 데이터를 합성하여 고장 분류기를 추가 학습하고, 표 1과 같은 실제 환경에서 취득한 환경 소음이 섞인 데이터에 대해 합성 데이터 사용 이전 분류 결과와 이후 분류 결과를 비교하여 제시한다. 그리고 기존 환경에 대한 성능은 유지하면서 합성 데이터와 유사한 환경에 대한 성능은 향상되도록 학습 데이터를 구성하는 방법을 제안하고, 학습 데이터 구성 방법과 고장 분류기 성능의 상관관계를 분석한 결과를 제시한다.

그림 2. 야외에 설치된 벨트 컨베이어

Fig. 2. Belt conveyor installed outdoors

../../Resources/kiee/KIEE.2024.73.7.1232/fig2.png

2. 본 론

본 연구에서는 이벤트 소리 데이터와 소음 데이터를 합성하여 실험 데이터로 사용하였다. 이벤트 소리 데이터는 실외에 설치된 벨트 컨베이어 동작음을 직접 취득한 데이터이며, 소음 데이터와 합성 시 다른 잡음에 의한 영향을 줄이기 위해 벨트 컨베이어 동작음 외 소리는 없는 데이터로 선별하여 구성하였다. 선별한 데이터의 클래스는 벨트 컨베이어의 상태에 따라 정상과 고장, 두 가지로 지정하였고, 정상 클래스는 벨트 컨베이어가 계속 동작해도 문제없는 상태이며, 고장 클래스는 벨트 컨베이어의 구성 요소들이 오작동하거나 파손되어 수리가 필요한 상태이다. 벨트 컨베이어는 크게 재료를 싣고 운반하는 belt, belt를 지지하는 idler, 모터를 이용하여 belt를 이동시키는 pulley로 구성되어 있으며[13], belt 찢어짐, idler 파손, 모터 혹은 pulley 오동작 등에 의해 고장이 발생한다. 이러한 고장 발생 시 베어링 이상이나 윤활유 부족으로 인한 마찰음, idler 고장이나 idler 내 이물질 끼임 등에 의한 소음이 발생하여 사람이 현장에서 청각 및 시각 정보를 바탕으로 고장 여부를 판단하고 있다.

본 연구에서 사용하는 고장 분류기는 정상과 고장, 두 가지 클래스의 벨트 컨베이어 동작음을 분류하도록 설계하였고 현장에서 취득한 주변 소음이 거의 없는 데이터들 중 정상음 1,000개, 고장음 1,000개를 7:3의 비율로 학습 데이터 1,400개(학습1)와 테스트 데이터 600개(평가1)로 나누어 학습에 사용하였다. 총 2,000개의 고장 분류기의 학습 및 검증 데이터 세트는 5.12초 길이의 벨트 컨베이어 동작음이 녹음된 파일로 구성되어 있으며 해당 파일을 실행하여 사람이 소리를 듣고 전용 레이블링 도구[14]를 사용하여 레이블링을 진행하였다. 소음 데이터는 표 2와 같이 실제 환경에서 발생할 확률이 높은 공사장 소리, 대화 소리, 차 소리, 바람 소리 등으로 구성하였으며, AI-Hub https://aihub.or.kr/에서 공개된 데이터 세트를 사용하여 구성하였다.

표 2 AI-Hub 소음 데이터 내용 및 수량

Table 2 Noise types and numbers in AI Hub data

데이터 분류

데이터 종류

수량(개)

공사장 소음

굴착기 소리

95

발전기 가동 소리

98

착암기 소리

97

불도저 엔진 소리

112

레미콘 동작 소리

92

덤프트럭 엔진 소리

110

일반 소음

망치질 소리

116

대화 소리

87

자연 소음

바람 소리

101

총 수량

908

표 3 학습1을 사용한 모델의 실환경소음 평가 결과

Table 3 Evaluation results by noise using Method1

학습

데이터

평가

데이터

정확도

(%)

정상

고장

학습1

평가1

98

(295/300)

(293/300)

실환경소음1

95.21

(193/206)

(224/232)

실환경소음2

100

(16/16)

(6/6)

실환경소음3

85.42

(1,000/1,203)

(242/251)

실환경소음4

75.76

(278/368)

(44/57)

88.16

(1,782/2,093)

(809/846)

학습1 세트로 학습한 모델로 표 1의 실환경소음에 대해 평가한 결과는 표 3과 같다. 기존 환경의 성능 지표인 평가1 세트에 대한 정확도는 98%로 높은 정확도를 보이지만, 표 1의 설비 소음이나 복합 소음에 대한 정확도는 높지 않음을 확인하였다. 이는 실제 환경에서 취득하여 학습에 사용한 데이터에는 중장비, 설비 장비의 운용 소음이나 공사 중에 발생하는 기타 소음 등이 포함되지 않았기 때문이다.

본 연구에서는 표 2의 데이터를 이용하여 정상음, 고장음과 합성하여 설비 소음이나 공사장 소음과 유사한 합성 데이터를 생성하고, 이를 이용하여 학습한 결과를 제시한다.

2.1 데이터 합성

데이터 취득이 열악한 장소는 환경이 변화함에 따라 분류기의 성능은 저하되지만, 변화된 환경과 비슷한 소리로 합성 데이터를 만들어 추가 학습을 한다면 성능 개선이 가능하다. 본 연구에서는 실제 취득한 데이터 중 학습에 사용한 정상음과 고장음 데이터 일부와 표 2의 소음 데이터를 사용하여 각 908개의 정상, 고장 합성 데이터를 생성하였다.

2.1.1 합성 방법

소리데이터 합성은 [15,16,17,18]

과 같은 방법들이 있는데, [15]는 공개된 python 라이브러리가 있고 특정 이벤트 소리와 환경 소음을 사용자가 정한 비율로 합성할 수 있어서 가장 적합한 방법이며, 본 논문에서는 [15]를 사용하여 벨트 컨베이어 소리와 소음 데이터를 합성하였다.

실제 환경에서 데이터 취득 시 소음원의 위치는 매우 다양하지만 본 논문에서는 벨트 컨베이어와 소음원의 위치가 큰 차이가 없는 경우에 대해 연구하였다.

음원간의 위치 차이가 크지 않은 소리 데이터와 유사하도록 합성하기 위해 두 소리의 크기가 비슷하도록 조절해야하는데, 본 논문에서는 LUFS(Loudness Units relative to Full Scale)를 측정하여 소음 데이터의 LUFS가 벨트 컨베이어 소리 LUFS와 같도록 조절한 뒤 총 1,816개의 합성 데이터를 생성하였다.

2.1.2 합성 데이터 평가 결과

기존 학습 세트에 1,816개의 합성 데이터를 추가하여 구성한 학습 세트(학습2)로 학습한 결과는 표 4와 같다. 실제 환경 소음 중 통합 소음에 대한 정확도는 4.48%p 향상되었지만, 다른 실제 환경 소음에 대한 성능은 감소하였고 특히 기존 평가 세트에 대한 성능은 크게 하락하여 전체 정확도는 0.68%p 감소하였다.

표 4 학습2를 사용한 모델의 실환경소음 평가 결과

Table 4 Evaluation results by noise using Method2

학습

데이터

평가

데이터

정확도

(%)

정상

고장

학습2

평가1

95.83

(284/300)

(291/300)

실환경소음1

92.92

(194/206)

(213/232)

실환경소음2

100

(16/16)

(6/6)

실환경소음3

84.32

(993/1,203)

(233/251)

실환경소음4

80.24

(298/368)

(43/57)

87.48

(1,785/2,093)

(786/846)

위 실험 결과를 통해 AI-Hub에서 확보한 환경 소음과 유사한 데이터를 합성하여 학습에 사용했을 때 일부 실제 환경 소음에 대한 경우는 개선됨을 확인했지만, 대부분의 실제 환경 소음과 기존 평가 세트에 대한 성능은 하락하는 것을 확인할 수 있었다. 이는 합성에 사용한 데이터가 실제 환경 소음과 비슷하지 않거나 합성에 사용한 벨트 컨베이어 동작음 특성들과 유사하여 학습에 불리하게 적용된 것으로 여겨진다.

이런 문제를 개선하고자 본 연구에서는 정상음, 고장음과 AI-Hub에서 확보한 데이터의 특성을 추출한 뒤 유사도를 비교하여 1,816개의 합성 데이터에서 정상으로 사용할 데이터와 고장으로 사용할 데이터를 분류하였다.

표 5 전체 데이터 세트 별 학습 모델의 실환경소음 평가 결과

Table 5 Evaluation results by noise using Every dataset

대표값

특성추출

방법

정확도(%)

평가1

실환경소음1

실환경소음2

실환경소음3

실환경소음4

최대

MFCC

96

92.47

95.45

91.06

84.47

91.36

SpectralFlatness

96.17

94.06

100

87.41

83.06

89.66

SpectralFlux

96.33

94.75

95.45

89.61

84.47

91.05

ZeroCR

96.17

93.84

100

84.73

77.18

78.97

최소

MFCC

94

92.01

100

90.65

84.71

90.75

SpectralFlatness

96.83

94.52

95.45

91.33

83.76

91.87

SpectralFlux

94

100

90.65

84.71

94

90.75

ZeroCR

96.17

95.45

86.93

84

96.17

89.32

평균

MFCC

94

92.01

100

90.65

84.71

90.75

SpectralFlatness

96.17

94.29

100

89.41

82.59

90.61

SpectralFlux

94

92.01

100

90.65

84.71

90.75

ZeroCR

95.83

92.69

95.45

89.89

85.41

90.92

중간

MFCC

94

92.01

100

90.65

84.71

90.75

SpectralFlatness

96.17

94.29

100

84.94

80.47

88.09

SpectralFlux

94

92.01

100

90.65

84.71

90.75

ZeroCR

94

92.01

100

90.65

84.71

90.75

2.2 데이터 특성 추출

소리 데이터의 특성 추출은 여러 가지 방식이 있지만, 본 논문에서는 MFCC(Mel-Frequency Cepstral Coefficient), ZCR(Zero Crossing Rate), Spectral Flatness, Spectral Flux 4가지 방법을 이용하여 데이터의 특성을 추출하였다. MFCC는 음성과 같은 주기성 신호의 주파수 변화 추정에 적합하고, ZCR은 단순 주기성과 비주기성 잡음 구별, Spectral Flatness는 모터잡음과 같은 일정 주파수 대역에 발생하는 잡음 구분, Spectral Flux는 프레임간 에너지 차이가 많은 충격음이나 임펄스(impulse) 노이즈를 구분하는데 효과적이다. 이러한 방식은 다양한 소음을 분석하고 선별하기 위해 적합하여 선정하였고 [19]의 방법으로 학습에 사용된 데이터 1,400개와 소음 데이터 908개의 특성을 추출하였다. 특성 추출 방법에 대한 간략한 설명은 다음과 같다.

2.2.1 MFCC

MFCC feature vector를 얻기 위해서는 우선 시간 도메인의 오디오 시그널에 FFT(Fast Fourier Transform)를 적용하여 주파수 도메인의 Spectrum을 구한다. 이후 Spectrum에 Mel Filter Bank를 적용하여 Mel Spectrum을 구하여 로그를 취한 것이 log-Mel Spectrum이며 MFCC는 log-Mel Spectrum에 역 푸리에 변환을 적용해 주파수 도메인의 정보를 다시 시간 도메인으로 바꾼 것을 의미한다.

2.2.2 ZCR

신호가 양수에서 음수로 바뀌는 횟수를 프레임의 길이로 나눈 값이며 잡음이 섞여있는 경우, 잡음이 없는 경우보다 값이 크다.

2.2.3 Spectral Flatness

Spectral Flatness는 신호의 평탄도를 확인할 수 있는 값으로 FFT를 통해 스펙트럼을 구하고, 스펙트럼의 기하 평균을 스펙트럼의 산술 평균으로 나누어 구한다. 0과 1 사이의 출력이 나오며 1에 가까울수록 White Noise에 가깝다.

2.2.4 Spectral Flux

Spectral Flux는 신호가 얼마나 빠르게 변하는지를 측정한 것으로 두 개 프레임의 스펙트럼을 비교하여 구한다. 각각의 프레임에 FFT를 적용해 스펙트럼을 구하고 이를 Normalize 한 뒤 두 프레임의 스펙트럼 간의 유클리드 거리를 구하여 얻는다.

2.3 특성 비교 및 분석 결과

(1)과 같이 학습1에 사용한 정상, 고장 데이터 전체의 특성 벡터 배열(R)에 대한 AI-Hub 소음 데이터 중 한 개 데이터의 특성 벡터(a)의 Cosine similarity(f(R,a))를 구하고 이 중 최대, 최소, 중간 혹은 평균값을 대표 유사도 S로 정하였다.

(1)
\begin{align*}S = g(f(R,\: a))\\\\g(Y): 배열Y의 대표값(최대,\: 최소,\: 중간,\: 평균)\end{align*}

4가지 특성 추출 방법과 유사도 배열의 대표값 형태별로 식 (1)로 합성 데이터를 분류하고 다시 학습 세트를 구성하여 재학습을 진행한 결과 표 5와 같은 결과를 얻을 수 있었고, 그중에서 Spectral Flatness를 이용한 결과가 우수했으며, 유사도 배열의 최솟값을 대표 유사도로 사용하여 구분한 데이터 세트(학습3)와 평균값을 대표 유사도로 사용하여 구분한 데이터 세트(학습4)를 학습에 사용한 결과 표 6, 표 7과 같이 다른 방법에 비해 우수한 성능을 보였다. 평가1에 대한 정확도는 학습2를 학습에 사용한 결과에 비해 학습3을 사용한 경우 1%p, 학습4를 사용한 경우 0.34%p 향상되었으며, 실제 환경 소음에 대한 성능 또한 향상되었음을 확인하였다.

표 6 학습3을 사용한 모델의 실환경소음 평가 결과

Table 6 Evaluation results by noise using Method3

학습

데이터

평가

데이터

정확도

(%)

정상

고장

학습3

평가1

96.83

(298/300)

(283/300)

실환경소음1

94.52

(204/206)

(210/232)

실환경소음2

95.45

(16/16)

(5/6)

실환경소음3

91.33

(1,117/1,203)

(211/251)

실환경소음4

83.76

(322/368)

(34/57)

91.87

(1,957/2,093)

(743/846)

표 7 학습4를 사용한 모델의 실환경소음 평가 결과

Table 7 Evaluation results by noise using Method4

학습

데이터

평가

데이터

정확도

(%)

정상

고장

학습4

평가1

96.17

(293/300)

(284/300)

실환경소음1

94.29

(197/206)

(216/232)

실환경소음2

100

(16/16)

(6/6)

실환경소음3

89.41

(1,076/1,203)

(224/251)

실환경소음4

82.59

(313/368)

(38/57)

90.61

(1,895/2,093)

(768/846)

본 연구에서 제안한 4가지 특성 추출 방법 외에도 학습된 모델의 분류 결과를 이용하여 측정해 볼 수 있다. 학습1을 사용하여 학습한 모델을 사용하여 얻은 AI-Hub 데이터의 정상/고장 분류 결과로 정상으로 사용할 합성 데이터와 고장으로 사용할 합성 데이터를 분류하여 학습 세트(학습5)를 구성하여 학습을 진행하였다. 그 결과는 표 8과 같고, 합성 데이터 분류에 사용한 모델이 공사장 소음이 적은 데이터로 학습되어 예상한 대로 AI-Hub 데이터의 특성을 추출하는 데 적합하지 않음을 확인하였다. 또한, 본 연구에서 제안하는 방법으로 학습한 결과(표 6, 표 7)에 비해 전체 정확도가 5%p 낮은 것을 확인하였다.

표 8 학습5를 사용한 모델의 실환경소음 평가 결과

Table 8 Evaluation results by noise using Method5

학습

데이터

평가

데이터

정확도

(%)

정상

고장

학습5

평가1

96.33

(292/300)

(286/300)

실환경소음1

92.92

(189/206)

(218/232)

실환경소음2

95.45

(16/16)

(5/6)

실환경소음3

82.94

(970/1,203)

(236/251)

실환경소음4

72.94

(268/368)

(42/57)

85.81

(1,735/2,093)

(787/846)

그림 3. 전체 학습세트 별 평가 결과

Fig. 3. Evaluation results for learning set

../../Resources/kiee/KIEE.2024.73.7.1232/fig3.png

3. 결 론

본 연구에서는 합성 데이터 사용 시 성능 개선을 위해 합성에 사용하는 데이터와 실제 환경 데이터 간 특성 유사도를 비교하여 학습에 사용할 데이터 선별법을 제시하고 그 결과는 그림 3과 같다. 벨트 컨베이어의 정상 소리는 조용한 환경일 경우, 다양한 주파수 성분이 거의 일정하게 섞여 있는 복합 소음이며, 고장 소리는 정상 소리와 고장 위치에서 발생하는 소음이 섞여 있는 형태이기 때문에 다양한 주파수 성분이 덜 고르게 분포되어 있다. 이러한 특성들을 파악하여 합성 데이터를 분류하지 않은 채 학습에 모두 사용하는 경우, 정상 소리에 고장 소리의 특성이 섞이거나 고장 소리에 정상 소리의 특성이 섞이게 되어 기존 환경에 대한 성능이 저하되는데 해당 경우에 대한 실험 결과 기존 성능에 대한 정확도가 2.17%p 감소하였다.

본 연구에서는 학습에 사용한 벨트 컨베이어의 정상, 고장 데이터와 합성에 사용한 AI-Hub 데이터의 Spectral Flatness 특성을 비교하고 서로 유사한 데이터들을 분류하여 학습에 사용하였다. 신호의 평탄도가 높으면 다양한 주파수 성분들이 고르게 분포된 벨트 컨베이어 정상 소리의 특성과 비슷하여 같은 데이터 세트로 분류할 수 있고, 벨트 컨베이어 고장 소리는 신호의 평탄도가 낮은 소리와 같은 데이터 세트로 분류할 수 있다. 제안한 방법으로 분류된 데이터 세트를 학습에 사용한 모델의 성능은 분류하지 않은 전체 데이터 세트로 학습한 모델에 비해 기존 환경에 대한 정확도는 1%p 증가하였고, 설비 소음에 대한 정확도는 7.01%p 증가하였다. 결과적으로 합성 데이터를 사용하여 분류기의 기존 성능을 유지하면서 추가 성능 개선을 원하는 경우, 합성 데이터를 전부 사용하는 것보다 분류기의 클래스별로 특성을 파악하여 선별된 학습 데이터를 사용하는 것이 더 효과적임을 검증하였다.

4. 추후 과제

본 연구에서는 합성에 사용하는 데이터와 실제 환경 데이터 간 Spectral Flatness 특성 유사도를 비교하여 학습에 사용할 데이터를 선별하였다. 신호의 평탄도가 높으면 정상으로 분류하고 평탄도가 낮으면 고장으로 분류하였는데, 고장 소리는 신호의 평탄도가 낮지만 평탄도가 낮은 신호들이 본 연구에서 분류하고자하는 고장 신호와 다를 가능성이 존재한다. 이런 점을 개선하기 위해 고장 신호의 경우에 더 알맞은 특성 분석 방법을 연구하고 본 연구에서 제안한 방법과 결합하여 보다 강인한 데이터 선별 방법 연구를 진행할 계획이다.

References

1 
Korea Artificial Intelligence Association, “Survey and analysis of ICT and artificial intelligence convergence status in domestic and foreign industries,” NIPA, 2020URL
2 
K.H. Kim, "Analysis of strategic industrial fields to foster AI convergence manpower in industrial fields," In Proceedings of the KICS Winter Conference (2022): 1429-1430.URL
3 
K.W. Kug, "Artificial intelligence technology and application cases by industry sector," IITP 1888, (2019): 15-27.URL
4 
Zhou, Zhi-Hua, “Machine learning,” Springer Nature, 2021.DOI
5 
Wang, Hua, Cuiqin Ma, and Lijuan Zhou. "A brief review of machine learning and its application," 2009 international conference on information engineering and computer science. IEEE, 2009.URL
6 
Alzubaidi, Laith, et al. "Review of deep learning: Concepts, CNN architectures, challenges, applications, future directions," Journal of big Data 8 (2021): 1-74.DOI
7 
Ng, Andrew. "From Model-centric to Data-centric AI," DeepLearningAI [Online (2021).URL
8 
Althnian, Alhanoof, et al. "Impact of dataset size on classification performance: an empirical evaluation in the medical domain," Applied Sciences 11.2 (2021): 796.DOI
9 
Tesla, "Tesla AI Day 2021," Aug 20,2021, Video, 1:36:33, https://www.youtube.com/live/j0z4FweCy4M?si=AWDEwFVF8ZlDYFsLURL
10 
H.J. Lee, "Metainformation design for machine learning labeling data," OSIA Standards & Technology Review Journal 35.1 (2022): 20-23.URL
11 
Data platform standard issue report, TTA, 2022URL
12 
POSCO TV, "[POSCO Process Movie] POSCO Steel Process (Gwangyang Steel Works)," Mar 16,2022, Video, 1:06, https://youtu.be/v1MM1waMsCI?si=mz25NKWzP8BQJm11URL
13 
T.W. Kim, H.D. Kim, J.K. Suhr and D.Y. Kim, "Performance analysis of DNN-based conveyor belt fault detector by operation mode on QCS610," Proceedings of KIEE Summer Conference (2023): 1929-1930.URL
14 
S.M. Cho, H.D. Kim and D.Y. Kim, "Development of dedicated software for conveyor belt operation sound and meta information labeling," Proceedings of KIEE Summer Conference (2023): 1927-1928.URL
15 
Salamon, Justin, et al. "Scaper: A library for soundscape synthesis and augmentation," 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2017.DOI
16 
Owaki, Wataru, and Kota Takahashi. "Novel sound mixing method for voice and background music," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015.DOI
17 
Bittner, Rachel, Eric Humphrey, and Juan Bello. "Pysox: Leveraging the audio signal processing power of sox in python." Proceedings of the international society for music information retrieval conference late breaking and demo papers. 2016.URL
18 
Tokozume, Yuji, Yoshitaka Ushiku, and Tatsuya Harada. "Learning from between-class examples for deep sound recognition," arXiv preprint arXiv:1711.10282 (2017)DOI
19 
McFee, Brian, et al. "librosa: Audio and music signal analysis in python," Proceedings of the 14th python in science conference. Vol. 8. 2015.URL

저자소개

김태원(Tae-Won Kim)
../../Resources/kiee/KIEE.2024.73.7.1232/au1.png

2012 충남대학교 전자공학과

2023~현재 세종대학교 지능기전공학과 석사

2018~현재 위드로봇(주) 선임연구원 재직

관심분야 : AI Camera, DNN

E-mail : twkim@withrobot.com

조상묵(Sang-Muk Cho)
../../Resources/kiee/KIEE.2024.73.7.1232/au2.png

2019 한림대학교 전자공학과

2019~현재 위드로봇(주) 주임연구원 재직

관심분야 : AI Camera, DNN

E-mail : uxuj1020@withrobot.com

김동현(Dong-Hyeon Kim)
../../Resources/kiee/KIEE.2024.73.7.1232/au3.png

2022 한국폴리텍대학교 로봇캠퍼스 로봇자동화과

2022~현재 위드로봇(주) 연구원 재직

관심분야 : AI Camera, DNN

E-mail : dhkhan99@withrobot.com

김현돈(Hyun-Don Kim)
../../Resources/kiee/KIEE.2024.73.7.1232/au4.png

1997 Control and Instrumentation Engineering from Korea University (B.S.)

2004 Electrical Engineering in Graduate School from Korea University (M.S.)

2008 Intelligence Science and Technology in Graduate School of Informatics from Kyoto University, Japan (Ph.D.)

2017~Assistant Professor, Department of Robot Automation in Robot Campus of Korea Polytechnics

Field of Interests: Deep Learning, Human Robot Interaction, Biometrics, Sound Signal Processing, Speech Recognition, Collaborative Robot, Artificial Intelligence

Email: reynolds@kopo.ac.kr

김도윤(Do-Yoon Kim)
../../Resources/kiee/KIEE.2024.73.7.1232/au5.png

1997 KAIST 전기및전자공학과 석사

2008~현재 위드로봇(주) 대표이사 재직

관심분야 : Heterogeneous Computing, Sensor Fusion

E-mail : getcome@withrobot.com