Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 69, No. 12, p.1943-1949

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 12 October 2020Revised : 21 October 2020Accepted : 26 October 2020

DOI :

http://doi.org/10.5370/KIEE.2020.69.12.1943

A Deep Learning-Based System for Massively Generating Images Containing Meaningful Numerics

유의미한 숫자 포함 이미지의 대량 생성을 위한 딥러닝 기반 시스템

이지현 (Ji Hyun Lee) ¹iD 차영화 (Young Hwa Cha) ²iD 박병준 (Byung Joon Park) ^†iD

(School of Software, Kwangwoon University, Korea.)
(Department of Computer Science, Kwangwoon University , Korea.)

^†Corresponding Author : School of Software, Kwangwoon University, Korea.

E-mail : bjpark@kw.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

We present a deep learning-based system for generating images, such as pictures of electricity meters, in which numbers and letters play an important role. A large amount of image data is often required to build a deep learning-based system for image recognition, so it would be useful to have a system that can automatically generate realistic images. GANs can be used for this purpose, but there are some hurdles to overcome for GANs to create realistic images in which texts are embedded. Most of existing approaches focus on generating either the textual images or the non-textual ones only, not the ones where the textual part is embedded in a small area while still being clearly identifiable. In order to solve this problem, we propose a deep learning-based approach that attempts to learn textual images and non-textual ones independently before generating a set of complete images combined from the learned results. Also, we demonstrate the strengths of the proposed system by providing some empirical results on the electricity meter image data.

Key words

Image Generation System, Deep Convolutional Generative Adversarial Network, Auto-Encoder

1. 서 론

최근 불법 현수막 탐지, 차량 번호 인식과 같이 촬영된 이미지에서 유의미한 글과 숫자를 인식하는 시스템이 일상생활 곳곳에서 사용되고 있다. 많은 경우 사물 인식 기반의 딥러닝 모델을 이용하여 이미지에 포함된 숫자와 글을 인식하고 있다. 그러나 딥러닝을 이용한 인식 시스템에는 보통 수천, 수 만장 이상의 텍스트가 포함된 학습용 이미지가 필요한데 이들이 미리 준비가 되어 있지 않은 경우 이들을 얻기 위해서 사람이 직접 촬영하거나 제작하여 이미지 데이터를 준비하여야 한다. 이는 많은 시간과 노력이 요구되기 때문에 글이나 숫자가 포함된 이미지를 대량으로 쉽게 생성할 수 있는 시스템이 필요하다.

이미지를 생성하는 대표적인 딥러닝 기법인 적대적 신경망(GAN)⁽¹⁾은 기존의 생성 모델인 가변적 오토인코더(VAE)⁽¹¹⁾보다 압도적으로 높은 품질을 가지는 진짜 같은 가짜 이미지를 생성한다. 그러나 GAN은 고해상도를 가지는 큰 이미지를 생성할 수 록 변수의 수가 기하급수적으로 커져 메모리 제약 조건으로 학습 불안정 문제가 발생한다⁽²⁾. 숫자나 글이 포함된 이미지의 경우 글을 인식하기 위해서는 고해상도 이미지가 필수적이지만, 기존의 GAN은 이러한 이유들로 이미지 크기가 큰 고해상도 이미지를 생성해내기 어렵다는 단점이 있다. 그리고 유의미한 숫자나 글자가 들어가 있는 차량번호판과 같은 이미지를 생성하는 기존의 딥러닝 기반 연구들이 다수 있는데, 대부분 텍스트가 있는 번호판 부분만을 학습데이터로 사용하여 그와 유사한 번호판 이미지들을 생성하는데 초점을 두고 있다[14,15,16]. 이러한 방식들은 도로의 차량 이미지처럼 유의미한 숫자와 글자가 전체 이미지 중 작은 영역을 차지하는 이미지들을 생성하고자 할 때, 글자와 숫자는 분명하게 식별 가능하되 전체적으로는 자연스러운 이미지로 만드는데 있어서 어려움이 있다. 차량 사진 외에도 숫자나 글자가 유의미한 역할을 하는 이미지로는 전기계량기 사진을 들 수 있는데, 현재 전기계량기 전체 사진처럼 디지털 계기판 숫자가 작은 영역에 나타나는 형태의 실제 사진과 비슷한 이미지를 대량 생성하는 end-to-end 딥러닝 기법 연구는 찾아보기 어렵다.

본 연구에서는 DCGAN⁽³⁾, 오토인코더⁽⁸⁾, Residual Block⁽⁴⁾ 그리고 색 검출 기법을 이용하여 숫자와 글이 포함된 전기 계량기 이미지를 효과적으로 대량 생성하는 시스템을 제안한다. 제안하는 시스템에서는 메모리 제약 문제를 해결하기 위해 DCGAN으로 흑백 이미지를 생성하여 처리해야할 연산량을 줄이고 오토인코더에 Residual Block을 혼합한 모델로 흑백 이미지의 색을 입혀 컬러 이미지를 생성하도록 한다. 그리고 전기계량기 전체 이미지에서 숫자 영역이 차지하는 비율이 작아 학습을 통해 생성된 이미지에서 제대로 된 숫자 모양으로 나타나지 않는 문제를 해결하기 위해 일반 이미지 영역과 숫자 이미지 영역으로 나누어 학습하고 결과를 병합하는 기법을 제안한다.

본 논문은 다음과 같이 구성되어 있다: 2절은 관련된 기존연구에 대하여 기술하고, 3절에서는 제안하는 이미지 생성 시스템에 대해 서술한다. 4장에서는 구현한 시스템에 대한 성능평가와 분석 결과를 보이고, 5장에서 결론을 맺는다.

2. 관련 연구

2.1 GAN(Generative Adversarial Network)

적대적 신경망 GAN⁽¹⁾의 목적은 진짜와 유사한 가짜 이미지를 생성하는 것이다. GAN은 실제 이미지와 가짜 이미지를 판별하는 판별자와 가짜 이미지를 생성하는 생성자로 구성되어있다. 생성자는 판별자가 구별하지 못하도록 데이터를 생성하고, 판별자는 생성자에게 속았던 데이터를 토대로 학습하는 적대적 신경망으로 이뤄져 있다. 이는 판별자와 생성자를 minmax 게임으로 표현이 가능하며 수식(1)과 같은 가치 함수 V(G, D)로 정의할 수 있다.

(1)

$V(G,\: D)$$=E_{x}$~$_{p_{data}(x)}[\log D(x)]$ $+E_{z}$~$_{p_{z}(z)}[\log(1-D(G(z)))]$

수식(1)에서 x는 실제 이미지, z는 입력 노이즈, D는 판별자, G는 생성자, $p_{z}$는 생성자가 만들어낸 데이터의 분포, $p_{data}$는 실제 데이터의 분포, G(z)는 z를 이용한 G가 생성해낸 가짜 이미지로 표현하고 있다. 판별자는 D(x)=1, D(G(z))=0이 되도록 학습하고, 생성자는 G(z)와 x가 같아지도록 학습하며 D(G(z))=1이 되도록 노력한다. 여러 번의 학습 후에 더 이상 두 모델 모두 향상되지 않는 시점인 $p_{z}$ = $p_{data}$가 되었을 때 판별자는 더 이상 $p_{z}$와 $p_{data}$를 구별해내지 못하는 $D(x)=\dfrac{1}{2}$상태가 되면서 생성자는 진짜와 유사한 가짜 이미지를 생성할 수 있게 된다. 이와 같이 GAN은 이론적으로는 가치 함수에서 수렴이 가능하지만 실전에서는 minmax 가치 함수의 구조적 불안정으로 인해 수렴이 보장되지 않고 모드 붕괴(mode collapse)와 같은 문제점이 발생할 수 있다.

2.2 DCGAN(Deep Convolutional Generative Adversarial Network)

Radford는 GAN 문제점을 극복하는 심층 신경망 적대적 신경망(DCGAN)을 개발하였다⁽³⁾. 첫 번째는 구조의 특징으로 자신만의 공간적 업-샘플링(spatial up-sampling)을 가질 수 있게 최대 풀링 대신 스트라이드 컨볼루션(strided convolution)으로 대체하고 완전 연결층을 제거하였으며, 모든 계층에 배치 정규화를 적용하여 학습 문제를 해결하도록 하였다. 또한, 생성자에서 ReLU 활성화 함수와 Tanh 활성화 함수, 판별자에서 LeakyReLU를 사용하도록 제시하였다. 두 번째는 생성자가 의미적 품질을 가지도록 하는 벡터 산술적 특징을 제시하였다. 이 두 가지 특징으로 GAN가 안정적으로 학습할 수 있도록 한다.

2.3 오토인코더와 ResNet

비지도 학습 방법 중 하나인 오토인코더(AE)⁽⁸⁾는 입력과 출력이 같은 구조로 데이터를 압축해주는 인코더와 이를 복원해주는 디코더로 구성되어있다. 오토인코더는 입력 데이터가 인코더를 통해서 최소한의 특징을 가지는 잠재 벡터로 압축되고, 디코더를 통해서 잠재 벡터를 입력 데이터와 비슷하게 복원하도록 학습한다. 이와 같이 오토인코더는 차원 축소와 새로운 특징을 만드는데 유용하게 사용된다. 2015년에 ILSVRC에서 우승을 차지한 모델인 ResNet은 152개의 층을 가진 네트워크이다⁽⁴⁾. ResNet은 각 층이 작은 정보들을 추가적으로 학습하는 잔차 블록(residual block)으로 구성된 잔차 연결(residual connection)로 층의 학습량을 축소하여 성능을 높였다. 본 연구에서는 색을 복원하는 모델로 오토인코더와 ResNet을 혼합한 모델을 제안한다⁽⁷⁾.

2.4 숫자포함 이미지 생성 관련 연구

이미지 내의 숫자나 글자들이 중요한 의미를 갖는 대표적인 예로 번호판이 부착된 자동차들의 사진이나 미터기 사진 등이 있다. 최근의 딥러닝 기술의 발전에 힘입어 차량 번호판 이미지를 자동적으로 생성해 내는 기법들을 제안한 연구들이 있는데, 대부분 자동차 번호판 부분만의 이미지를 생성하는데 초점을 맞추고 있다^(14,¹⁶⁾. Zhu et al.⁽¹⁴⁾의 연구에서는 Cycle- GAN⁽¹⁵⁾을 이용하여 차량 번호판 이미지를 생성하였는데, 실제 이미지 대신 컴퓨터 그래픽 스크립트로 번호판 이미지를 합성한 이미지를 학습데이터로 사용하였다. Han et al⁽¹⁶⁾은 실제 번호판의 이미지를 사용하여 유사 번호판 이미지를 생성하는 LP-GAN을 제안하였다. 하지만, 이러한 기법들은 번호판 만 있는 이미지가 아닌 도로의 자동차 사진처럼 번호판이 전체 이미지 중 작은 영역을 차지하는 경우에는 이들 숫자나 글자들을 식별 가능한 정도의 자연스러운 이미지가 되도록 만들기에는 어려움이 있다.

이뿐만 아니라 전기계량기나 택시미터기를 촬영한 사진들도 유의미한 숫자 값들이 전체의 작은 영역에 들어 있는 이미지에 해당하는데 이들의 대량 생산 기법에 대한 연구는 찾아보기 어렵다. 본 연구는 이런 문제를 해결하고자 전체 이미지 속에서 전기 계량기 사진과 같이 유의미한 숫자와 글 이미지가 실제처럼 자연스럽게 나타나고, 인식 가능하도록 하는 대량 이미지 생성 기법을 제안한다.

3. 제안하는 시스템

본 시스템의 제안에 앞서 다수의 전기 계량기 이미지 원본데이터로 부터 DCGAN을 사용하여 생성한 이미지의 품질을 확인하기 위한 실험을 진행하였다. 그림 1은 기존의 DCGAN을 이용하여 (256,256, 3)인 전기 계량기 컬러 이미지를 epoch 200번 학습한 결과 중 전기 계량기로 인식 가능한 이미지만 추린 것이다. 컬러 이미지 (256,256,3)를 생성하는 기존의 DCGAN 모델은 학습이 불안정하여 그림 1의 이지미를 제외한 대부분의 이미지들은 일반적인 전기 계량기 이미지를 띄지 않고 숫자도 제대로 된 형태로 나오지 않았다. 또한, 그림 1은 일반 전기 계량기 이미지에 비해 다채로운 색을 띄고 있으며 글 보다는 색에 초점을 두어 특징을 잡아 글과 숫자가 더 흐릿하게 보이는 것을 알 수 있다.

그림. 1. DCGAN로 생성한 전기 계량기 이미지 샘플

Fig. 1. Sample image of an electronic meter generated with DCGAN

전기계량기 이미지의 특성 상 계기판 숫자의 가독성은 필수적이어서 인위적으로 생성한 이미지에서도 주요 숫자영역에서 숫자형태로 제대로 나타나야 한다. 그런데 일반 배경이미지에 섞여서 숫자가 작게 나타나는 이미지들을 원본데이터로 가지고 있는 경우 GAN을 통한 학습 과정에서 숫자의 특징을 정확히 파악하지 못하여 숫자로 인식되기 힘든 이미지를 생성하는 경우가 많다. 전기 계량기 사진에서 중요한 의미를 갖는 숫자 부분의 특징이 제대로 학습될 수 있게 함과 동시에 계량기 전체의 이미지로서 원본과 유사한 수준으로 생성될 수 있도록 다음과 같은 방식으로 딥러닝 기반의 학습과 생성을 진행한다. 그림 2는 시스템에 필요한 DCGAN과 Auto-Encoder를 학습하는 과정을 나타내었다.

그림. 2. 모델 학습

Fig. 2. Model training

두 개의 DCGAN은 각각 숫자를 제외한 전기계량기 이미지와 전기계량기에서 숫자만 분리한 흑백 이미지로 학습하고 Auto-Encoder는 전기 계량기 원본 이미지로 학습을 진행한다. 그림 3은 학습에 필요한 데이터 숫자 제외 이미지와 숫자 이미지를 준비하는 과정을 알고리즘으로 보여준다.

그림. 3. 학습 데이터 전처리 과정

Fig. 3. Train data preprocessing process

이 전처리 과정에서는 먼저 이미지를 흑백화하고 인위적으로 숫자 위에 검은 박스를 덮어 숫자 제외 이미지(emeter)와 숫자만 분리한 이미지(number)를 생성한다.

그림 4는 위의 전처리 과정에서 구한 이미지 집합인 emeter와 number로 DCGAN을 학습하고 원본 이미지로 오토인코더를 학습하는 과정을 보여준다.

그림. 4. 모델 학습 과정

Fig. 4. Model learning process

그림 5는 학습된 DCGAN과 오토인코더를 이용하여 최종 컬러 전기계량기 이미지를 생성하는 전체 시스템의 구성을 순차적으로 나타내었고 이를 알고리즘화하면 그림 6과 같다. 학습된 DCGAN으로 emeter’와 number’를 생성하고 emeter’에서 검은색 박스 좌표를 구하고 좌표에 맞게 number’ 크기를 조정하고 emeter’ 좌표 위에 number’를 덮어 병합하여 gray_emeter’ 를 생성한다. gray_emeter’를 오토인코더의 입력으로 넣어 최종 rgb_emeter’ 를 생성한다.

그림. 5. 전체 시스템 구성

Fig. 5. Entire system configuration

그림. 6. 이미지 생성 과정

Fig. 6. Image generating process

3.1 전처리: 숫자와 배경 이미지의 분리

주요 4자리 숫자의 식별도와 화질을 높이기 위해 전처리 과정으로 그림 7와 그림 8과 같이 (256, 256,1) 전기 계량기의 이미지에서 숫자 부분을 기준으로 두 이미지를 분리한다. 그림 7처럼 전기 계량기 이미지에 숫자 부분만 검은 박스를 입혔고, 그림 8은 전기 계량기 이미지에서 숫자 부분만 따로 분리하여 두 개의 이미지를 각각 학습을 시켰다.

그림. 7. 전기 계량기에서 숫자 영역만 제외한 이미지 샘플(emeter)

Fig. 7. Sample images of using only the numeric area in the electric meter(emeter)

그림. 8. 전기 계량에서 숫자 영역만 분리한 이미지 샘플(number)

Fig. 8. Sample Images with only the numeric area separated from electric meter (number)

3.2 이미지 학습 및 생성 모델: DCGAN 구조

이미지 크기로 인해 기하급수적으로 많아진 변수의 연산량으로 발생한 학습 불안정 문제를 해결하기 위해 컬러 이미지 대신 흑백 이미지를 생성하는 DCGAN 모델의 구조를 그림 9와 같이 설정한다.

그림. 9. DCGAN 모델 구조(왼쪽: 생성자, 오른쪽: 판별자)

Fig. 9. DCGAN model structure(Left: Generator, Right: Discriminator)

DCGAN은 분리된 두개의 이미지 집합 (emeter와 number)을 학습데이터로 하여 각각의 DCGAN 생성 모델을 학습하고 이들을 이용하여 각각의 유사 이미지들을 생성하여 emeter'과 number'의 2개의 이미지 생성한다. 그림 9에서 DCGAN의 생성자는 300 차원의 잠재 벡터(latent vector)⁽⁵⁾ 입력받아 흑백 이미지 (256,256,1)로 출력하고DCGAN의 판별자는 생성한 흑백 이미지 (256,256,1)를 스칼라로 나타낸다.

3.3 숫자포함 병합 이미지 생성

다음으로 독립적으로 학습된 이미지들을 하나의 계량기 이미지로 결합하는 과정이 필요하다. 생성한 검은색 박스를 친 이미지에서 색 검출 기법으로 검은 박스의 대각선 좌표를 구하고 이에 맞게 생성한 숫자 이미지의 높이와 폭을 조절하여 생성한 검은 박스 이미지의 좌표 위에 크기를 조절한 숫자 이미지를 덮어 병합시킨다.

3.4 이미지 채색 학습 및 비지도 모델: 오토인코더 구조

적은 학습 이미지와 연산량으로 생성한 흑백 이미지를 채색하여 컬러 이미지를 얻기 위해서 그림 10과 같은 오토인코더의 구조를 설정한다.

오토인코더는 3개의 인코더(Encoder)와 2개의 디코더(Decoder) 사이에 3개의 Residual Blocks을 연결하고 흑백 이미지 (256,256,1)를 입력 받아 컬러 이미지 (256, 256,3)를 출력하도록 하였다.

그림. 10. Auto-Encoder 모델 구조

Fig. 10. Auto-Encoder model structure

4. 시스템 평가

4.1 학습 환경

표 1은 DCGAN과 오토인코더를 학습한 컴퓨터 환경과 모델을 구성할 때 사용한 라이브러리이다.

표 1. 딥러닝 모델 학습 환경

Table 1. Train environment

CPU	Intel Xeon Gold 5120 2.20GHz
RAM	180GB
GPU	V100-SXM2-32GB(GV100) 2개
System type	64-bit operating system, x64-based processor
Library	Tensorflow 1.5.0, keras 2.3.1, openCV 4.3.0.36

표 2는 제안한 DCGAN과 오토인코더를 학습할 때 설정한 파라미터로 오토인코더가 DCGAN에 비해 적은 파라미터로 학습해도 비슷한 결과를 나타내어 학습 집합과 학습 세대를 최대로 줄여 학습하였다.

표 2. 학습 파라미터

Table 2. Train parameter

모델 종류	DCGAN	Auto-Encoder
학습 집합	6000	3000
학습 세대	300	100
학습 시간	722mins	198mins

4.2 학습 결과

그림 11, 그림 12, 그림 13은 표 1의 환경에서 표 2의 파라미터로 DCGAN과 오토인코더를 학습시킨 결과다.

그림. 11. DCGAN으로 생성된 숫자 제외 이미지(emeter')

Fig. 11. Images (without numbers) generated by DCGAN

그림. 12. DCGAN으로 생성된 숫자 영역 이미지(number’)

Fig. 12. Numeric images generated by DCGAN

그림. 13. 생성된 최종 결과이미지(RGB emeter)

Fig. 13. Generated final images (RGB emeter)

그림 11은 숫자 영역을 검은색 박스를 입혀 제거한 이미지들로부터 DCGAN 모델 구조로 학습시킨 결과로 epoch 20~40에서 일반적인 전기 계량기 이미지의 특징을 잡았고, 점점 학습시킬수록 다양한 각도의 전기 계량기 이미지가 학습되었다. 그림 12는 숫자 영역만 추출한 이미지로부터 DCGAN 모델 구조로 학습시킨 결과로 숫자의 종류가 많아 그림 11보다는 늦은 epoch 100번에서 일반적인 전기 계량기 숫자 이미지의 특징을 잡았다. 그림 13은 전체 시스템 구성에서 이미지 병합과 오토인코더를 통한 이미지 채색까지 거친 최종 결과물의 예이다.

4.3 이미지 생성 시간

학습된 가중치를 이용하여 전기 계량기 이미지를 생성하는 시간을 이미지 개수별로 측정하였다.

표 3. 이미지 개수별 최종 이미지 생성 시간

Table 3. Final image generation average time

개수	DCGAN	Auto Encoder	전체 시간
100	175ms	1,497ms	1,672ms
1000	1,743ms	14,679ms	16,422ms
10000	17,268ms	142,895ms	160,164ms

생성하는 이미지의 개수를 10배씩 증가한 결과 DCGAN은 일괄적으로 한 이미지 당 1.7ms의 시간이, 오토인코더는 14ms 시간이 걸렸다. 오토인코더보다 DCGAN이 12배 시간이 더 소모되었는데 그 이유는 1차원 잠재 벡터를 받는 DCGAN과 달리, 오토인코더는 3차원 이미지를 입력으로 받아 변형하여 출력하기 때문이다.

4.4 생성 이미지 품질 평가

본 실험에서는 GAN 성능 평가 지표인 Inception score⁽⁹⁾가 실제 자료의 분포를 사용하지 않는 단점을 보안하기 위해 Heusel 등 이 개발한 Frechet 인셉션 거리(FID)⁽¹⁰⁾를 사용하여 실제 이미지와 생성한 이미지의 차이를 수치로 확인하여 평가한다. FID는 수식(2) 와 같이 계산되며 생성 이미지가 실제와 가까운 좋은 품질일수록 작은 값을 나타난다.

(2)

$$ F I D=\left\|m-m_{w}\right\|_{2}^{2}+T_{r}\left(C+C_{w}-\frac{2}{C C_{w}}\right) $$

수식(2)에서 $m과 m_{w}$는 생성 이미지와 실제 이미지 분포의 평균을 나타내고 $C과 C_{w}$는 생성 이미지와 실제 이미지 분포의 공분산을 나타낸다. 이러한 FID를 이미지 품질평가 척도로 사용하여, 본 시스템으로 생성한 이미지(그림 9)와 기존의 DCGAN로 생성된 이미지(그림 1)의 품질의 차이를 표 4에서 비교하였다.

생성한 전기 계량기의 각도와 크기에 따라 FID의 차이가 커서 각도와 크기에 따라 나누어 비교하였다. 표 4에서 알 수 있듯이 그림 8의 FID가 그림 1의 FID에 비해 적게는 5에서 많게는 52까지 차이가 발생하며 더 좋은 품질을 가지는 것을 알 수 있다. 그러나 FID 성능 지표는 noise와 blur가 섞인 이미지가 왜곡된 이미지보다 더 낮은 FID 즉 좋은 품질을 가지는 것으로 측정되는 단점이 있다⁽⁶⁾.

표 4. 기존 모델과 제안한 시스템으로 생성한 이미지의 FID 비교

Table 4. FID Comparison between original model and proposed system

	기존 DCGAN	제안한 시스템
작은 앞면의 FID 평균	109.0211	85.6241
큰 앞면의 FID 평균	168.6489	116.3953
측면의 FID 평균	194.3904	189.1731

4.5 숫자 식별 가능도

학습 데이터 종류를 달리하여 생성한 이미지의 숫자가 인식 가능한지와 학습 데이터에 없는 임의의 숫자 조합을 생성하는지 측정하였다.

실험1은 학습 데이터 종류를 0000에서 0499까지, 실험2는 0000에서 0799까지, 실험3은 0000에서 1000까지 학습한 결과이다. 표 5에서 기존 숫자 조합은 학습 데이터에 존재한 네 자리 숫자의 조합을 생성한 비율이고 신규 숫자 조합은 학습 데이터에 존재하지 않았지만 생성한 네 자리 숫자의 조합의 비율이다. 학습 데이터양이 많아질수록 인식 불가능한 숫자의 비율은 줄었으며 학습 데이터에 없는 조합의 숫자 생성 불가능한 임의의 숫자의 조합의 비율은 늘어났다. 생성 불가능한 숫자 조합은 학습 데이터에 없어 희박한 비율로 생성했지만, 데이터양이 많아질수록 조금씩 증가하는 것을 알 수 있다.

표 5. 학습 데이터 종류 별 생성한 이미지 숫자 인식 및 조합

Table 5. Percentages of identifiable numeric images and combination of numbers generated from training data

	인식 불가 데이터	기존 숫자 조합	신규 숫자 조합
실험1	25.1%	74%	0.9%
실험2	13.3%	85.3%	1.4%
실험3	9.7%	88.7%	1.6%

4.6 숫자별 생성 비율

표 5의 실험3에서 생성한 1000개의 숫자에서 0을 제외한 숫자들이 생성되는 비율을 그림 10에서 측정하였다.

표 6. 숫자별 생성 분포

Table 6. Distribution of generation by number

숫자	1	2	3	4	5	6	7	8	9
분포(%)	31.6	24.1	24.4	1.9	25	28.3	25.2	19.8	21.8

실험 결과, 1과 4를 제외한 나머지의 숫자는 비교적 고른 분포로 생성되었다. 하지만 4는 극단적으로 낮은 생성율을 보이고 있는데 이는 GAN의 대표적인 문제점인 모드 붕괴(mode collapse) 현상⁽¹²⁾이 발생한 것을 알 수 있다.

5. 결 론

본 논문은 전기계량기 이미지처럼 숫자가 중요한 역할을 하는 숫자포함 일반이미지를 효과적으로 생성할 수 있는 딥러닝 기반의 이미지 대량 생성 시스템을 제안하였다. 전기계량기의 유사이미지 생성을 위한 DCGAN 모델 구조를 사용하여 원본이미지를 학습하고 생성하는 과정에서 발생하는 이미지 품질 문제와 과다 연산시간 소요 문제를 해결하는 방법을 제시하였다. 컬러영상 흑백화 후 학습을 통한 학습시간의 단축효과와 숫자영역 분리 학습 후 이미지 병합을 통한 자연스러운 숫자 포함 이미지의 생성을 실험적으로 확인하였다. 결과적으로 학습용 이미지 데이터로 사용될 수 있는 의미 있는 숫자가 포함된 판독 가능한 이미지를 대량으로 생성할 수 있는 시스템을 만들 수 있음을 보였다. 그러나 모드 붕괴 현상으로 특정 숫자가 생성되지 않는 문제가 발생하였다. 따라서 향후 연구에는 이러한 문제를 개선하기 위해 모드 붕괴의 해결 방법으로 대두되고 있는 D2GAN⁽¹⁷⁾과 같은 파생 GAN을 이용하여 고른 분포의 숫자 생성이 필요하다.

Acknowledgements

This research was supported by the MIST(Ministry of Science and ICT), under the National Program for Excellence in SW (2017-0-00096), supervised by the IITP(Institute for Information & communications Technology Promotion). Also, this work was supported by “Human Resources Program in Energy Technology” of the Korea Institute of Energy Technology Evaluation and Planning (KETEP), granted financial resource from the Ministry of Trade, Industry & Energy, Republic of Korea. (No. 20194010201830).

References

J. Goodfellow Ian, Pouget-Abadie Jean, 2014, Generative Adver- sarial Nets, Part of: Advances in Neural Information Processing Systems 27(NIPS)

Karras Tero, Aila Timo, Laine Samuli, 2018, Progressive Growing of GANs for Improved Quality, Stability, and Variation, In Workshop at the International Conference on Learning Representations(ICLR), arXiv: 171010196

Radford Alec, Metz Luke, Chintala Soumith, 2016, Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Network, In Workshop at the International Conference on Learning Representations(ICLR), arXiv: 1511.06434

Kaiming HE, 2016, Deep residual learning for image recognition, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770-778

Yeongjae Lee, Kyungha Seok, Sep 2018, A study on the perfor- mance of generative adversarial networks, Journal of the Korean Data And Information Science Society, Youngman, Korea, Vol. 29, No. 5, pp. 1155-1167

Heusel Martin, Ramsauer Hubert, Unterthiner Thomas, 2017, GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, Part of: Advances in Neural Information Processing Systems 30 (NIPS)

Jaechang Yoo, Heesong Eom, Yongsuk Choi, Jun 2019, Image to Image Translation Performance Improvement Method Using Auto-Encoder and GAN, The Korean Institute of Information Scientists and Engineers, pp. 895-897

I. Guyon, G. Dror, V. Lemaire, G. Taylor, D. Silver, 2011, Autoencoders, Unsupervised Learning, and Deep, Workshop on Unsupervised and Transfer Learning(ICML)

Barratt Shane, Sharma Rishi, 2018, A Note on the Inception Score, Workshop on Theoretical Foundations and Appli- cations of Deep Generative Models(ICML), arXiv: 1801.01973

Heusel Martin, Ramsauer Hubert, Unterthiner Thomas, 2017, GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium, Advances in Neural Information Processing Systems 30 (NIPS)

P. Kingma Diederik, Welling Max, 2014, Auto-Encoding Vari- ational Bayes, Machine Learning (stat.ML), arXiv: 1312.6114

Tae-Moon Seo, Min-Guk Kang, Dong-Joong Kang, Broadcasting and Communication IIBC, Anomaly Detection of Generative Adversarial Networks considering Quality and Distortion of Images, The Journal of The Institute of Internet

C. Gou, K. Wang, Y. Yao, Z. Li, 2016, Vehicle license plate recognition based on extremal regions and restricted boltzmann machines, IEEE, Transactions on Intelligent Transportation Systems, Vol. 17, No. 4, pp. 1096-1107

Wang Xinlong, Man Zhipeng, You Mingyu, Shen Chunhua, 2017, Adversarial Generation of Training Examples: Applications to Moving Vehicle License Plate Recognition, Computer Vision and Pattern Recognition (cs.CV) arXiv: 1707.03124

J. -Y. Zhu, T. Park, P. Isola, A. A. Efros, Oct 2017, Unpaired image-to-image translation using cycle-consistent adversarial networks, In The IEEE International Conference on Computer Vision (ICCV)

B. G. Han, J. T Lee, K. T. Lim, D. H. Choi, 2020, License Plate Image Generation using Generative Adversarial Net works for End-To-End License Plate Character Recognition from a Small Set of Real Images, Applied Sciences, Vol. 20, No. 8, pp. 2780

Dinh Nguyen Tu, Le Trung, Vu Hung, Phung Dinh, 2017, Dual Discriminator Generative Adversarial Nets, Advances in Neural Information Processing Systems 30 (NIPS)

저자소개

Ji Hyun Lee

She is currently a senior student in the School of Software at Kwangwoon University and is expected to graduate in Feb.

2021 with a BS degree in Computer Software.

Her research interests include computer vision and artificial intelligence.

Young Hwa Cha

He received his MS in Computer Science from Kwangwoon University and is currently a Ph.D candidate in the Dept of Computer Science at the same institution.

His research interests include machine learning and AI.

Byung Joon Park

Byung Joon Park received his BS in Computer Engineering from Seoul National University, MS in Computer Science from Univ. of Minnesota, Minneapolis, and Ph.D in Computer Science from Univ, of Illinois at Urbana-Champaign.

He is currently a Professor in School of Soft- ware, Kwangwoon University.

Seoul, Korea, His research interests include Machine Learning, Data Mining, and Artificial Intelligence.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

유의미한 숫자 포함 이미지의 대량 생성을 위한 딥러닝 기반 시스템

Abstract

Key words

1. 서 론

2. 관련 연구

2.1 GAN(Generative Adversarial Network)

(1)

2.2 DCGAN(Deep Convolutional Generative Adversarial Network)

2.3 오토인코더와 ResNet

2.4 숫자포함 이미지 생성 관련 연구

3. 제안하는 시스템

3.1 전처리: 숫자와 배경 이미지의 분리

3.2 이미지 학습 및 생성 모델: DCGAN 구조

3.3 숫자포함 병합 이미지 생성

3.4 이미지 채색 학습 및 비지도 모델: 오토인코더 구조

4. 시스템 평가

4.1 학습 환경

4.2 학습 결과

4.3 이미지 생성 시간

4.4 생성 이미지 품질 평가

(2)

4.5 숫자 식별 가능도

4.6 숫자별 생성 비율

5. 결 론

Acknowledgements

References

저자소개

Ji Hyun Lee

Young Hwa Cha

Byung Joon Park

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

유의미한 숫자 포함 이미지의 대량 생성을 위한 딥러닝 기반 시스템

Abstract

Key words

1. 서 론

2. 관련 연구

2.1 GAN(Generative Adversarial Network)

(1)

2.2 DCGAN(Deep Convolutional Generative Adversarial Network)

2.3 오토인코더와 ResNet

2.4 숫자포함 이미지 생성 관련 연구

3. 제안하는 시스템

3.1 전처리: 숫자와 배경 이미지의 분리

3.2 이미지 학습 및 생성 모델: DCGAN 구조

3.3 숫자포함 병합 이미지 생성

3.4 이미지 채색 학습 및 비지도 모델: 오토인코더 구조

4. 시스템 평가

4.1 학습 환경

4.2 학습 결과

4.3 이미지 생성 시간

4.4 생성 이미지 품질 평가

(2)

4.5 숫자 식별 가능도

4.6 숫자별 생성 비율

5. 결 론

Acknowledgements

References

저자소개

Ji Hyun Lee

Young Hwa Cha

Byung Joon Park

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers