์ด์์ญ
(Yeongseop Lee)
1iD
์ด์ฑ์ง
(Seongjin Lee)
โ iD
-
(Department of Informatics, Gyeongsang National University, Korea.)
Copyright ยฉ The Korean Institute of Electrical Engineers(KIEE)
Key words
Machine Learning, Generative Adversarial Network, Line Arts Colorization, Image Generation
1. ์ ๋ก
์ ํ๋ ์คํ ๋ฆฌ๋ณด๋, ๊ฒ์, ์ฝํ, ์ ๋๋ฉ์ด์
๋ฑ ๋ค์ํ ๋ฏธ๋์ด ์ฐ์
์ด๊ธฐ ๋จ๊ณ์ ์ํ ๋ฐฉํฅ์ ์ ํ๋๋ฐ ๋งค์ฐ ์ค์ํ๋ค. ์ ๋๋ฉ์ด์
๊ณผ ๊ฐ์ ๋ฏธ๋์ด ์ฐ์
์์
์ ํํ ์ ์ฝํฐ(๋๋ ์คํ ๋ฆฌ๋ณด๋)์ ๊ฐ์ด ํ ํฐ์น๋ง์ ์ฌ์ฉํ ์ฝํฐ๋ก๋ ์, ๋ถ์๊ธฐ ๋ฑ์ ์ ๋ฌํ๊ธฐ ์ฝ์ง ์์ ์ถ๊ฐ ์ ์ธ ์ปฌ๋ฌ ํ ํฐ์น๋ ์ปฌ๋ฌ ์ฝํฐ๋ฅผ
์ฌ์ฉํ๋ค. ํ์ง๋ง, ์ ํ๋ฅผ ์ฑ์ํ๋ ์ผ์ Photoshop, Clip studio ๋ฑ ์ด๋ฏธ์ง ํธ์ง ๋๊ตฌ๋ฅผ ์ฌ์ฉํด์ผ ํ๋ฉฐ ๋ค์ํ ์ธต์ ์ํฐ์คํธ๊ฐ ์กฐ์ํ์ฌ
๋ง๋ค์ด์ผํ๊ธฐ ๋๋ฌธ์ ๋
ธ๋์ง์ฝ์ ์ด๋ฉฐ ์ง๋ฃจํ ๋ฐ๋ณต ์์
์ด๋ค. ํนํ ์์์ผ๋ก ์งํ๋๋ ์ ๋๋ฉ์ด์
์ฐ์
์์๋ 90๋ถ์ ์์ ์๊ฐ์ ์ด๋น 24ํ๋ ์์ ์ฌ์ฉํ๋
๋ฐ ์ด ๊ฒฝ์ฐ ์ฝ 170,000์ฅ์ ๋ํ(ํ๋ ์)๋ฅผ ์ ๋๋ฉ์ดํฐ๋ค์ด ์์ ์น ํด์ผ ํ๋ฏ๋ก ๋ง์ ์๊ฐ๊ณผ ๋น์ฉ์ด ์๋น๋๋ค. ๊ทธ ๋๋ฌธ์ ์ต๊ทผ GAN(Generative
Adversarial Networks)(1)์ ์ฌ์ฉํด ์ ํ ์ด๋ฏธ์ง๋ฅผ ์ฑ์ํ๋ ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์์ผ๋ฉฐ, Petalica Paint(2) ๋ฐ Clip Studido์ ๊ฐ์ ์์ฉํ๋ ์๋์ฑ์ ๋๊ตฌ๋ค์ด ์ด๋ฌํ ์๋์ฑ์ ๊ธฐ๋ฅ์ ์ง์ํ๋ ค๋ ์์ง์์ ๋ณด์ธ๋ค.
์ ํ ์ฑ์์ ์ฌ์ฉ๋๋ ์ ํ์ ๊ฒฝ์ฐ ๊ทธ๋ ์ด ์ค์ผ์ผ ์ด๋ฏธ์ง์ ๋ฌ๋ฆฌ ์ง๊ฐ๊ณผ ์์ ์ ๋ณด ๊ฐ์ ์ถฉ๋ถํ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์์ง ์๋ค. ์ฑ์์ ์ํด ์ฌ์ฉ๋๋ ์กฐ๊ฑด์
๋ ฅ์ผ๋ก๋
์ฐธ๊ณ ์ด๋ฏธ์ง ๋๋ ๋ช pixel์ ์ปฌ๋ฌ ์ ๋ณด์ ๊ฐ์ ํํธ(Weak Hint)๋ก ์ด๋ฃจ์ด์ ธ ์๋ค. ๋๋ฌธ์ ์ ํ์ ์๋์ฑ์์ ์ ํ์ ํน์ง์ ์ถ์ถํ๊ณ ๋ถ์กฑํ
์ ๋ณด์์ ์ง๊ฐ๊ณผ ์์์ ์์ฑํ๊ธฐ ์ํด ์ด๋ฏธ์ง ๋ถํ ๋ฐ ์ปฌ๋ฌํ์ ๋ํ ๋ณตํฉ์ ์ธ ๋ฌธ์ ๊ฐ ์๊ธฐ ๋๋ฌธ์ ์ปดํจํฐ ๋น์ ์์ญ์์ ๋์ ์ ์ธ ๊ณผ์ ์ด๋ค.
์ ํ ์๋์ฑ์์ ์
๋ ฅํ๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค. ์ฒซ์งธ, ์ ํ๋ง ์ฌ์ฉํด ์ฑ์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์์ ์๋๋ฐฉ์(3,4), ๋์งธ, ์ ํ์ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํด ์ ํ๋ฅผ ์
๋ ฅํ ์ปฌ๋ฌ ์ด๋ฏธ์ง ์คํ์ผ๋ก ์ฑ์์ ํ๋ ์คํ์ผ ๋ณํ์ ํตํ ์๋๋ฐฉ์(5-7), ์
์งธ, ์ ํ์ ์ฌ์ฉ์ ์ปฌ๋ฌ ํํธ๋ฅผ ์
๋ ฅํด ์ํ๋ ์์ผ๋ก ์ฑ์ํ๋ ๋ฐฉ์(8-13)์ด๋ค.
๊ธฐ์กด ๊ธฐ๋ฒ ๋ชจ๋ GAN์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ง์ํ๋ ์ถ๋ ฅ ํด์๋๊ฐ ์ต๋ 512 pixel๋ก ์ ํ๋์ด ์ฐ์
์ ์ฌ์ฉ๋๊ธฐ ํ๋ ํด์๋๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ํ๊ตญ์
5๊ฐ์ ์ฃผ์ ์นํฐ ํ๋ซํผ์ ๋์์ผ๋ก ์กฐ์ฌํด๋ณธ ๊ฒฐ๊ณผ ๊ฐ๋ก ํด์๋๊ฐ ์ต์ 690 ์ต๋ 760์ผ๋ก ์น์์ ์ฌ์ฉ๋๋ ์ด๋ฏธ์ง๋ฅผ ๊ณ ๋ คํ์ ๋ ๊ธฐ์กด ๊ธฐ๋ฒ์ผ๋ก๋
๋ถ์กฑํ ํด์๋๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ ์ด๋ฏธ์ง ์์ฑ์ ์ฌ์ฉ๋๋ CNN์ด ์
์ถ๋ ฅ ํด์๋์ ๋ฐ๋ผ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋, ์ฐ์ฐ์๊ฐ์ด ๊ธ๊ฒฉํ๊ฒ ๋์์ง๊ธฐ ๋๋ฌธ์ด๋ค. ์ผ๋ฐ์ ์ธ
GPU์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ด์ฆ๊ฐ 8์์ 11GB์ธ ๊ฒ์ ๊ณ ๋ คํ๋ฉด 1,000 pixel ์ด์์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ๊ณ ์์ฑํ๋ ๊ฒ์ ๋จ์ผ GPU์์ ๋ง์
์ ์ฝ์ด ๋ฐ๋ฅธ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ์ ๋ถํ ํ์ง ์์ ๋จ์ผ ํ๋์จ์ด์์ ๊ณ ํด์๋ ์ด๋ฏธ์ง ์ถ๋ ฅ์ ๊ธฐ์กด ๊ธฐ๋ฒ์์๋ ์ง์ํ์ง ์๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๊ธฐ์กด ์๋์ฑ์
๊ธฐ๋ฒ๋ค์ ํด์๋ ์ ํ์ ๊ฐ์ ํ๊ณ ๋์ ์์ค์ ์ฑ์ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ ์ํด ์ฃผํ์ ๋ถํ ์ ์ฌ์ฉํ ์๋ก์ด ๊ธฐ๋ฒ์ ์ ์ํ๋ค.
์ ์ํ๋ ๊ธฐ๋ฒ์ 3๊ฐ์ง๋ก ๊ตฌ์ฑ๋๋ค. 1. ์ ํ ์ถ์ถ๋ฐฉ์์ 2๊ฐ์ง๋ก ์งํํ ์ ํ ๋ฐ์ดํฐ ์ฆ์, 2. GAN์ ์ฌ์ฉํ ์ ํด์๋ ์ด์ ๋ชจ๋ธ๊ณผ ์ฑ์์ ์งํํ๋
์ฑ์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ด์ค์์ฑ์, 3. ๊ณ ํด์๋ ์ ํ ์ด๋ฏธ์ง ์ฑ์์ ์ํ ์ฃผํ์ ๋ถํ ๊ธฐ๋ฒ. ์ ์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํด ์๋ณธ ์ด๋ฏธ์ง์์ FID, PSNR ๊ทธ๋ฆฌ๊ณ
SSIM์ ํตํ ์ ์ฌ๋ ํ๊ฐ๋ฅผ ์งํํ๋ค. ํ๊ฐ ๊ฒฐ๊ณผ ๊ธฐ์กด๊ธฐ๋ฒ(11)์ 51.64 ๋ณด๋ค ๋ฎ์ 47.87 FID ์ ์ (๋์ ํ์ง) ๋ฅผ ๊ธฐ๋กํ๊ณ PSNR ๋ฐ SSIM์ ๊ฐ๊ฐ 13.01, 0.72 ๋ณด๋ค ๋์ 20.77,
0.86์ ๊ธฐ๋กํ๋ค. ์๊ฐ์ ์ธ ๋น๊ต ๋ํ ์ ๋ฒ์ง ๋ฎ๊ณ ๋, ๋จธ๋ฆฌ์นด๋ฝ ๋ฑ๊ณผ ๊ฐ์ด ๊ธฐ์กด ์ ํ์ ์ง๊ฐ์ ๋ณด์กดํ๋ ๋ฑ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค. ๋ณธ ์ฐ๊ตฌ์
์ฃผ์๊ธฐ์ฌ๋ ๋ค์๊ณผ ๊ฐ๋ค.
โํด์๋ ์ฆ๊ฐ์ ์ ์ฐํ๊ฒ ๋์ฒํ๊ธฐ ์ํด 2๋จ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ ํจ์จ์ ์ธ ์ฑ์ ๋ชจ๋ธ ๊ตฌ์กฐ
โ์ฃผํ์ ๋ถํ ์ ํตํ ์ด๋ฏธ์ง ํฉ์ฑ์ผ๋ก ํด์๋์ ์์ ๋ก์ด ์ฑ์ ๊ธฐ๋ฒ
๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค. 2์ฅ์ GAN๊ณผ ๊ธฐ์กด ์ ํ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ ์๋์ฑ์ ์ฐ๊ตฌ๋ฅผ ์
๋ ฅ์ ๋ฐ๋ผ ๋ถ๋ฅํ๊ณ ์ค๋ช
ํ๋ค. 3์ฅ์ ์๋ ์ ์ํ๋ ๋ฐ์ดํฐ
์ฆ์ ๊ธฐ๋ฒ, ๋ชจ๋ธ ๊ตฌ์ฑ, ์ฃผํ์ ๋ถํ ๊ธฐ๋ฐ์ ํฉ์ฑ ๊ธฐ๋ฒ, ๋ชจ๋ธํ์ต ๋ฐฉ์์ ๊ดํด ์ค๋ช
ํ๋ค. 4์ฅ์์๋ ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ ๋ฐ ์๊ฐ์ , ์ ๋์ ์คํ๊ณผ
๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ์ค๋ช
ํ๋ค. 5์ฅ์์๋ ๋
ผ๋ฌธ์ ๊ฒฐ๋ก ์ ์ ์ํ๋ค.
2. ๊ด๋ จ ์ฐ๊ตฌ
์ด๋ฒ ์ฅ์์๋ ์ ํ ์ฑ์์ ์ฌ์ฉ๋๋ GAN ๋ฐ CNN (Convolutional Neural Network) ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์ค๋ช
ํ๋ค. ์
๋ ฅ ๋ฐ์ดํฐ ํ์๊ณผ
๊ด๋ จํ์ฌ ์ ํ๋ฅผ ์ฑ์ํ๋ ์ธ ๊ฐ์ง ๋ฐฉ๋ฒ (์์ ์๋ ์ฑ์, ์คํ์ผ ์ ์ก ๋๋ ๋ฐ์๋ ์ฑ์, ์ฌ์ฉ์ ํํธ)์ด ์๋ค.
2.1 ์์ฑ์ ์ ๋์ ๋คํธ์ํฌ
์์ฑ์ ์ ๋์ ๋คํธ์ํฌ(Generative Adversarial Networks, GAN) Goodfellow et al. (1) ๋ชจ๋ธ์ ์ด ํด์๋ (super resolution), ์ด๋ฏธ์ง ์์ฑ, TTS (Text To Speech), ๋ฐ์ดํฐ ์ฆ์ (Data aug- mentation)๋ฑ
๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ฐ ํ์ํ ์ฑ๋ฅ์ผ๋ก ์ต๊ทผ ๋ง์ ์ฐ๊ตฌ(14-16) ์์ ํ์ฉ๋๊ณ ์๋ค.
GAN์ ๋ฐ์ดํฐ๋ฅผ ์์ฑ ํ๋ ์์ฑ์, ๋ฐ์ดํฐ์ ์ง์๋ฅผ ๊ตฌ๋ถํ๋ ๊ตฌ๋ถ์ ๋ ๊ฐ์ ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋์ด ์๋ก์ ๋ชฉ์ ์ ๋ฐํ๋ ์ ๋์ ์ธ ํ์ต Framework๋ก
๊ตฌ์ฑ๋์ด ์๋ค. GAN์ ๋ ๊ฐ์ ๋ชจ๋ธ์ ๊ด๊ณ๋ฅผ ํตํด ์
๋ ฅํ๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์์ฑ์๊ฐ ๋ฐ๋ผ๊ฐ๊ฒ ๋์ด ์ฌ์ค์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค.
GAN์ ์ฌ์ค์ ์ธ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ์ ์ ํฉํ์ง๋ง ๋ ๋ชจ๋ธ ๊ฐ์ ๊ท ํ์ ์ธ ํ์ต์ด ์ด๋ ต๊ณ , ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ๋ฐ๋ผ๊ฐ๊ธฐ ๋๋ฌธ์ ์ํ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๊ธฐ
ํ๋ ๋จ์ ์ด ์กด์ฌํ๋ค. Radford et al. (17) (DCGAN)์ ๋ง์ ์คํ์ ํตํด CNN์ ์ฌ์ฉ, ์์ฑ์์ ๋ถ๋ฅ์์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ณํํ๊ณ batch normalization (18)์ ์ ์ฉํด ์ฑ๊ณต์ ์ธ ํ์ต์ ์ํ GAN ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๊ฒฐ์ ํ๋ค. Mehdi et al. (19) (Conditional GAN, cGAN) ์ GAN ๋ฐ์ดํฐ ์์ฑ์ ์กฐ์ ํ๊ธฐ ์ํ ์ฐ๊ตฌ๋ก ์์ฑ ๋ฐ์ดํฐ๋ฅผ ์ํ ํด๋์ค ๋ผ๋ฒจ์ ์ถ๊ฐํด ํ์ตํด GAN
์์ฑ ๋ฐ์ดํฐ์ ์กฐ์ ์ ์งํํ๋ค.
2.2 ์์ ์๋ ์ฑ์ ๊ธฐ๋ฒ
์์ ์๋๋ฐฉ์์ ์ฑ์ ๊ธฐ๋ฒ์ ๋ค๋ฅธ ํํ์ ์
๋ ฅ ์์ด ์ ํ๋ง์ ์ฌ์ฉํ๋ค(3,4). Isola et al. (3) (Pix2Pix)๋ ์ฐ๊ตฌ(19)์ ์กฐ๊ฑด์
๋ ฅ์ ์ฌ์ฉํ cGAN ๊ตฌ์กฐ๋ก ์ด๋ฏธ์ง ๋ ์ด๋ฏธ์ง ๋ณํ์ ์๋ฃจ์
์ ์ ๊ณตํ๋ค. (3)์ ์ฌ์ค์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด $L_{1}$ ์์ค ๋ฐ ์ ๋์ ์์ค์ ๊ฒฐํฉํด $L_{1}$ ์์ค๋ง ์ฌ์ฉํ ๊ฒฐ๊ณผ์ ๋นํด ์ ๋ช
ํ๊ณ ์ฌ์ค์ ์ธ(photorealistic)
์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. Kang et al. (4)์์๋ ์ฑ์์์
์ ์ํ 3๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ์ค์ง์ ์ธ ์ฑ์์ ๋ด๋นํ๋ โLow-resolution Colorizerโ, ์ ๊ฒฝ๊ณผ ๋ฐฐ๊ฒฝ์
๋ถ๋ฅํ๋ โBackground Detectorโ ๊ทธ๋ฆฌ๊ณ ์ฑ์๋ ์ ํด์๋ ์ด๋ฏธ์ง์ ๋ฐฐ๊ฒฝ Segment๋ฅผ ๋ฐ์ ๋ฐฐ๊ฒฝ์ ๊ตฌ๋ถํ์ฌ ํด์๋๋ฅผ ๋ณต์ํ๋ โPolishing
Networkโ๋ฅผ ์ฌ์ฉ ํ๋ค. ์ฐ๊ตฌ(4)๋ ๋งํ์ ๊ณผ ๊ฐ์ ๋งํ์ ํน์ง์ ์ ํ์ฉํ์๊ณ ์ ํ๋ฅผ ์ผ๊ด์ ์ผ๋ก ์ฑ์ํ ์ ์๋ ์ฅ์ ์ด ์๋ค. ํ์ง๋ง ์์ ์๋์ผ๋ก ์ฑ์์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ํ๋
๋ถ์๋ฅผ ์ฑ์ํ๊ธฐ์๋ ํ๋ค๊ณ ์ถ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ 256x256 pixel ํด์๋๋ก ํ์ ๋๋ ๋จ์ ์ด ์๋ค.
2.3 ์คํ์ผ ๋ณํ ๊ธฐ๋ฐ ์ฑ์ ๊ธฐ๋ฒ
์คํ์ผ ๋ณํ ๊ธฐ๋ฐ์ ์๋์ฑ์ ๊ธฐ๋ฒ(5-7)์ ์ ํ์ ์ฐธ๊ณ ๊ฐ ๋๋ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ ๋ ๊ฐ์ ์ฌ์ฉ์ ์
๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค. Furusawa et al. (5)๋ ์ฌ์ฉ์๊ฐ ์ ํ์์ ์์ ์ ํ์ ์ ์ด ํ ์ ์๋๋ก ๋งํ์ ์ฐธ์กฐ ์ด๋ฏธ์ง์ ๋ํ ํ ์์ ํํธ(์์ ํ๋ ํธ)๋ฅผ ์ฌ์ฉํ๋ค. ์ฑ์ ์ ๋ณด๋ฅผ ์์ ๋งํ์์
์ถ์ถํ ์ค๊ณฝ ์ ๋ณด์ ํฉ์ฑํ์ฌ ๋งํ ํ์ด์ง๋ฅผ ์์ฑํ๋ค. ์ฑ์๊ณผ์ ์ ํตํด ์ ์ ๋ณด๋ฅผ ์์ฑํ๊ณ ์๋ณธ ๋งํ ์ด๋ฏธ์ง์์ ์ค๊ณฝ์ ์ ์ถ์ถํ์ฌ ํฉ์ฑํ๋ ๊ตฌ์กฐ๋ก ํจ์จ์ ์ธ
์ฑ์์ ์งํํ์๋ค. ํ์ง๋ง ์ฌ์ฉ์์ ์์ ์ ๋ณด๊ฐ ์ง๊ด์ ์ผ๋ก ์ํ๋ ์์น์ ๋ค์ด๊ฐ๋ ๊ฒ์ด ์๋๋ฉฐ ์ ์ ๋ณด์ ํ
์คํธ์ ๊ฐ์ ์ค๊ณฝ์ ์ ํผํฉํ๋ ๊ณผ์ ์์
์ด๋ฏธ์ง ์ง๊ฐ ์์์ด ์ฌํ๋ค๋ ๋จ์ ์ด ์๋ค. Zhang et al. (7)์์๋ VGG16/19 (20) ๊ตฌ์กฐ์ ๋คํธ์ํฌ๋ฅผ ํตํด ์คํ์ผ ์ด๋ฏธ์ง๋ฅผ ์ถ๊ฐํด ์ฑ์์ ์งํํ๋ค. ๋ชจ๋ธ ์ค๊ฐ์ ๋ ๊ฐ์ โGuide Decoderโ ์ฌ์ฉํจ์ผ๋ก ํ์ต์์์ ๊ธฐ์ธ๊ธฐ๊ฐ
์ฌ๋ผ์ง๋ ๋ฌธ์ (Vanishing Gradient)๋ฅผ ๋ฐฉ์งํ๋ค. ํ์ง๋ง, VGG16/19 ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ๋ชจ๋ธ ์ฉ๋์ด ํฌ๊ณ ์ฐธ๊ณ ์ด๋ฏธ์ง๋ฅผ
์ฌ์ฉํด ์๋์ผ๋ก ์ฑ์ํ๊ธฐ ๋๋ฌธ์ ์ํ๋ ๋ถ์์ ์ํ๋ ์์ผ๋ก ์ฑ์ํ๊ธฐ ํ๋ค๋ฉฐ ์ถ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ 256x256 pixel ํด์๋๋ก ํ์ ๋๋ค.
2.4 ์ฌ์ฉ์ ํํธ ์
๋ ฅ ๊ธฐ๋ฐ ์ฑ์
์ธ ๋ฒ์งธ ์๋์ฑ์์ ์ ํ ์ด๋ฏธ์ง์ ์ฌ์ฉ์๊ฐ ์ ๊ณตํ ํํธ๋ฅผ ์ด์ฉํ์ฌ ์ด๋ฏธ์ง์ ํน์ ์์ ์น ํ๋ ๋ฐฉ์์ด๋ค(8-13). ํํธ๋ฅผ ์ฌ์ฉํ๋ ์ฐ๊ตฌ ์ค ๋ํ์ ์ผ๋ก Ci et al. (11)๊ฐ ์๋ค. ์ฐ๊ตฌ(11)์์๋ ๋ชจ๋ธ์ ์ธ๊ณต ์ ํ(์๋ณธ ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ง๋ค์ด๋ธ ์ ํ)์ ๊ณผ์ ํฉ(over๏ฌtting)์ ๋ง๊ธฐ ์ํด LFN(Local Feature
Net)์ ์ฌ์ฉํ๋ค. LFN๋ ์ ํ์ ํน์ง์ ์ถ์ถํด, ์์ฑ์ ๋ฐ ๋ถ๋ฅ์์ ์ถ๊ฐ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ํ์ง๋ง Loss ๊ณ์ฐ ์ VGG16 (20) ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉ ํ๋ฏ๋ก ๋ชจ๋ธ ์ฉ๋์ด ํฌ๊ณ LFN์ ์ถ๋ก ๊ณผ์ ์์ ์ฌ์ฉํด์ผ ํ๋ ๋จ์ ์ด ์๋ค. Sangkloy et al. (8)์ 4๊ฐ์ง์ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํด ์ ํ๋ฅผ ์ถ์ถํ๋ค. ๋ค์ํ ๋ฐฉ์์ ์ ํ ๋ถํฌ๋ก ๋ฐ์ดํฐ ์ฆ์์ ์งํํ์ฌ ์ ํ์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํด ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ์ฑ์ํ๋ค.
Frans et al. (10)์ ์ฑ์ ๋ฐ ์์์ ์์ฑํ๋ ์์ฑ์๋ฅผ ๋ณ๋๋ก ํ์ตํ๋ค. ์์ฑ์์ ์ญํ ์ ๋๋ ์ด์ค์์ฑ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด ํจ๊ณผ์ ์ธ ์ฑ์์ ์งํํ๋ค. ํ์ง๋ง ๊ฒฐ๊ณผ๋ฌผ์ ์ง์ด
๋ฎ๊ณ ํด์๋๊ฐ 512x512 pixel์ธ ๋จ์ ์ด ์๋ค. ์ปฌ๋ฌ ์ ์ ํํธ๋ก ์ฌ์ฉํ ์ฐ๊ตฌ๋ก๋ Liu et al. (9)์ด ์์ผ๋ฉฐ ์์ฑ์ ํ์ต์ ์ํ Loss๋ฅผ ๋๋์ด ๊ฐ๊ฐ์ Loss ๊ณ์ ํญ์ ์กฐ์ ํ์ฌ ํ์ต์ ์งํํ์๋ค. ํ์ต ๊ฒฐ๊ณผ ์ ๋ฒ์ง์ ํจ๊ณผ์ ์ผ๋ก ๋ฐฉ์งํ๋ฉด์
Pix2Pix (3) ๋ชจ๋ธ๋ณด๋ค ์ข์ ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. HATI et al. (13)๋ ์ฐ๊ตฌ(11)์ ๋ชจ๋ธ ๊ธฐ๋ฐ์ผ๋ก ์์ฑ์๋ฅผ ๊ตฌ์ฑํ๋ค. ์ ํ๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ์ฌ ์ค์ ์ ํ์ ์ฑ์ ๋ชจ๋ธ์์ ์์ฑ๋ ๊ฒฐ๊ณผ๋ฌผ์ ์ ํ์ ์์ค์ ๊ณ ๋ คํ์ฌ ์ฑ์ ๋ชจ๋ธ์
์ฑ๋ฅ์ ๋์๋ค. Zhang et al. (12)์ ์ด์ค์์ฑ์ ๊ตฌ์กฐ์์ 2๋จ๊ณ ๋ชจ๋ธ์ ์ด์(1๋จ๊ณ) ์์กด๋๋ฅผ ์ค์ด๊ธฐ ์ํด ์์ฑ๋ ์ด์ ์ด๋ฏธ์ง์ ์ ๋ฒ์ง ๋ฑ๊ณผ ๊ฐ์ ์ธ๊ณต๋ฌผ ์๋ฎฌ๋ ์ด์
์ ์ ์ฉํด ํ์ฒ๋ฆฌ
๋ชจ๋ธ์ ์ด์ ์์กด๋๋ฅผ ์ค์ด๋ฉฐ ์ฑ์ ์ฑ๋ฅ์ ๋์๋ค.
3. ์ ์ ๊ธฐ๋ฒ์ ๊ตฌ์ฑ
์ ์ํ๋ ์์คํ
์ ์ ์ฒด ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ๋ค. ์ ์ํ๋ ์์คํ
์ ์ฑ์์ ์งํํ๋ Model(Draft Model, Colorization Model) ๋ฐ ์
๋ ฅ๋ ์ ํ์ ์ฑ์ ๊ฒฐ๊ณผ๋ฌผ์
์ ์ฃผํ ์ฑ๋ถ์ ์ด์ฉํ ์ฃผํ์ ๋ถํ ํฉ์ฑ ๋ชจ๋๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
๊ทธ๋ฆผ. 1. ์์คํ
๊ตฌ์กฐ ๋ค์ด์ด๊ทธ๋จ
Fig. 1. System Architecture Diagram
Algorithm 1 Dilate abs sub
๊ทธ๋ฆผ. 2.์ ์ฒ๋ฆฌ ์
๋ ฅ ์ด๋ฏธ์ง ์(hint์์ ํ์์ alpha ๊ฐ์ด 0)
Fig. 2. Preprocessing Input Image Pair (In hint, gray has an alpha value of 0)
3.1 ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
๋ชจ๋ธ ํ์ต์ ์ ํ, ์ปฌ๋ฌ ์์ผ๋ก ๊ตฌ์ฑ๋ ์ด๋ฏธ์ง๊ฐ ํ์ํ๋ค. ์ด๋ฅผ ์ํด ์ปฌ๋ฌ ์ผ๋ฌ์คํธ์์ Extended Difference of Gaussians
(21) (XDoG) ๋ฐ Dilate abs sub (Algorithm 1) ๋ ์๊ณ ๋ฆฌ์ฆ์ ์์๋ก ์ฌ์ฉํด ์ ํ๋ฅผ ์ถ์ถํ๋ค. ํ์ต์ ์ฌ์ฉ๋ ์ด๋ฏธ์ง ํ์ด๋ ๊ฐ ์ด๋ฏธ์ง ์์ 512x512 ์๋ผ๋ด์ด ์ฌ์ฉํ์ผ๋ฉฐ ์ด์ ๋ชจ๋ธ (Draft
Model)์ ๊ฒฝ์ฐ 256x256 ์ฌ์ด์ฆ๋ก ํฌ๊ธฐ๋ฅผ ์กฐ์ ํด ์ฌ์ฉํ๋ค. ๋ฐ์ดํฐ ์ฆ์(data augmentation)์ ์ ํ ์ถ์ถ๊ณผ์ ์์ ๋๊ป์ ๋ํ
๋ณํ๋ฅผ ๋ง๋ค๊ธฐ ์ํด XDoG์ ๊ฒฝ์ฐ ฮฑ ๊ฐ์ 0.3, 0.4, 0.5๋ก Dilate abs sub์ ์ปค๋ ์ฌ์ด์ฆ๋ฅผ 4x4,5x5 ๋ก ์์ ์กฐ์ ํด ๋๊ป์
๋ํ ๋ค์ํ ์กฐ๊ฑด์ ์์ฑํ๋ค.
์ํ๋ ์์ผ๋ก์ ์ฑ์์ ํ๊ธฐ ์ํด ์์ฑ์์ ์กฐ๊ฑด์
๋ ฅ์ผ๋ก ์ปฌ๋ฌ ํํธ๋ฅผ ์ฌ์ฉํ๋ค. ์ปฌ๋ฌ ํํธ๋ ์ด์ง ๋ง์คํฌ๋ฅผ ์์ฑํด ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ํฝ์
์ ์ ์ถํ๋ ๋ฐฉ์์ผ๋ก
์์ฑํ๋ค. ๊ทธ ํ ์ด์ง ๋ง์คํฌ๋ ํํธ์ alpha ์ฑ๋๋ก ์ถ๊ฐํ์ฌ ์ ์ถ๋ ์์ญ์ 0, ์ ์ถ๋์ง ์์ ์์ญ์ 1 ๋ก ์ฌ์ฉํ๋ค. Alpha ์ฑ๋์ ์ ์ธํ
๋ค๋ฅธ ์ฑ๋์ -1์์ 1๋ก ์ ๊ทํํด ํ์ต์ ์ํ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ค. ๊ทธ๋ฆผ 2์์ ๋ณผ ์ ์๋ฏ ์ ํ ์ถ์ถ๊ธฐ๋ฒ(XDoG, Dilate abs sub)์ ์ฌ์ค์ ์ธ ์ค์ผ์น ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค.
3.2 ์ด์ ์ฑ์ ๋จ๊ณ
๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ๋ ์์ฑ์์ธ ์ฑ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ์ด์(Draft)์ ๋ง๋ค๊ณ ์ด์์ ์ฌ์ฉํด ์ฑ์(colorized)ํด ์ ํ์ ํฉ์ฑ
๊ทธ๋ฆผ. 3. ์ด์ ์ฑ์ ๋ชจ๋ธ ๊ตฌ์กฐ (c: ์ถ๋ ฅ ํํฐ ๊ฐ์, u: ์ถ๋ ฅ ์ ๋ ๊ฐ์, k: ์ปค๋ ํฌ๊ธฐ, s: ๋ณดํญ) ์๋ฅผ ๋ค์ด c32k3s1์ convolution
์ธต์ ์ถ๋ ฅ ํํฐ๊ฐ 32๊ฐ, ์ปค๋ ์ฌ์ด์ฆ๋ 3, Stride๋ 1์ด๋ค.
Fig. 3. Draft Model Architecture(c:Output filter num, u:Output unit num, k:Kernel
size, s:Stride) For example, c32k3s1means inter convolution layer Output Filter Number
is 32, Kernel Size is 3, and Stride is 1
๊ทธ๋ฆผ. 4. ์ฑ์ ๋ชจ๋ธ ๊ตฌ์กฐ (c: ์ถ๋ ฅ ํํฐ ๊ฐ์, u: ์ถ๋ ฅ ์ ๋ ๊ฐ์, k: ์ปค๋ ํฌ๊ธฐ, s: ๋ณดํญ)
Fig. 4. Colorization Model Architecture(c:Output ๏ฌlter num, u:Output unit num, k:Kernel
size, s:Stride)
ํ๋ ์ธ ๊ณผ์ ์ ๊ฐ์ง๊ณ ์๋ค. ์ด์ ๋ชจ๋ธ(Draft Model, ๊ทธ๋ฆผ 3)์ ์
๋ ฅ๋ฐ์ ์ ํ์ ์ฌ์ฉ์ ํํธ๋ฅผ ์ฌ์ฉํด ์ ํด์๋(256x256) ์ปฌ๋ฌ ์ด์์ ๋ง๋ ๋ค.์ด์ ๋ชจ๋ธ์ ๊ณ ํ์ง์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ํ์๊ฐ ์์ง๋ง, ์ฑ์
๋ชจ๋ธ์์ ์ฐธ๊ณ ํ ํ๋ถํ ์์ ์์ธกํ๋ค. ์ด์ ๋ชจ๋ธ์ ๊ธฐ์กด ๋ค์ํ ์ ํ ์ฑ์์ฐ ๊ตฌ์ ํ์ฉ๋ ์ด๋ฏธ์ง ๋ ์ด๋ฏธ์ง ๋ณํ์ ์ฃผ๋ก ์ฌ์ฉ๋๋ U-Net (22) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค.
Up-Sampling์ ๊ตฌ์ฑํ๋ ๋ด๋ถ ๋ชจ๋ธ์ transpose convolution์ ์ฒด์ปค๋ณด๋ ์ธ๊ณต๋ฌผ(checkerboard artifacts)(23)์ ํด๊ฒฐํ๊ธฐ ์ํด Shi et al. (24)์ sub pixel convolutional (pixel shuf๏ฌe ํน์ depth to space)์ ์ฌ์ฉํด ํด์๋๋ฅผ ๋์๋ค. Up sampling๋ฅผ
๊ตฌ์ฑํ๋ ๋ด๋ถ ๋ชจ๋ธ์ ResNeXt block (25)์ ์ฌ์ฉํด ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ํฌ๊ฒ ๋๋ฆฌ์ง ์์ผ๋ฉด์ ๋คํธ์ํฌ ์ฉ๋์ ๋๋ ธ๋ค. ๋ชจ๋ธ์ ์ฌ์ฉ๋ ResNeXt block์ ๊ฐ Upsampling ์ธต๋น 10๊ฐ๋ฅผ
์ฌ์ฉํ๋ค. ์์ฑ์ ๋ชจ๋ธ์์(11,25,26)์ ์ฐ๊ตฌ๋ฅผ ์ฐธ๊ณ ํ์ฌ ์ฑ์์ ์ ํ๋๋ฅผ ๋์ด๊ณ ์ถ๋ ฅ ๋ฐ์ดํฐ์ ๋ฒ์ ์ ์ฐ์ฑ์ ์ ์งํ๊ธฐ ์ํด normalization layer (18,27)๋ฅผ ์ฌ์ฉํ์ง ์์๋ค. ๋ง์ง๋ง์ผ๋ก tanh ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ ๋ง์ง๋ง ์ธต์ ์ ์ธํ ๋ชจ๋ ๋ด๋ถ ๋ชจ๋ธ์ ๊ธฐ์ธ๊ธฐ๊ฐ 0.2์ธ Leaky ReLU ํ์ฑํ
ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
์ด์ ๋ชจ๋ธ์์ ํ๋ถํ ์์ ์์ธกํ๋ ๋ชฉํ๋ฅผ ์ํด GAN (1) ๊ตฌ์กฐ๋ก ์ ๋์ ํ์ต ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋ค. ์ด์ ๋ชจ๋ธ์ ํ์ตํ๋๋ฐ ์ฌ์ฉ๋ ๋ถ๋ฅ๊ธฐ๋ ์ฐ๊ตฌ(17)์ ๋ถ๋ฅ๊ธฐ์ ์ ์ฌํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ์ฐ๊ตฌ(17)์์ ์ ์๋ strided convolution๋ฅผ ์ฌ์ฉํด stride 2, kernel size 4์ CNN์ผ๋ก ์ฐจ์์ ์ค์ด๊ณ fully connected
layer๋ฅผ ์ฌ์ฉํด 1๊ฐ์ ํ๋ฅ ๋ฒกํฐ๋ก ์ถ๋ ฅ(๊ทธ๋ฆผ 3์ Discriminator์ u1)ํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค. ์ด์ ๋ชจ๋ธ์ ๋ถ๋ฅ๊ธฐ๋ ๋ง์ง๋ง ์ธต์ ์ ์ธํ ๋ชจ๋ ๋ด๋ถ ๋ชจ๋ธ(DownSampling, UpSampling)์์
๊ธฐ์ธ๊ธฐ๊ฐ 0.2์ธ Leaky ReLU ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค. ์ฐ๊ตฌ์์ ์ ์ํ๋ ์ด์ ๋ชจ๋ธ๊ณผ ๋ถ๋ฅ๊ธฐ์ ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 3๊ณผ ๊ฐ๋ค.
3.3 ์ฑ์ ๋จ๊ณ
์ฑ์ ๋จ๊ณ์์๋ ์ด์ ๋ชจ๋ธ์์ ๋ง๋ค์ด์ง ์ด์ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉ, ์ ํ๋ฅผ ์ฑ์ํ๋ ์์
์ ์งํํ๋ค. ์ด์์ ๊ฒฝ์ฐ ์์์ ์ค๋ฅ์ ๋ถํ์ ํ ์ธ๊ณต๋ฌผ(artifacts)
๋ฑ์ด ํฌํจ๋ ์ ์๋ค. ์ฑ์๋จ๊ณ์์ ์ด์ ์ด๋ฏธ์ง์ ์์กด์ ์ค์ด๊ธฐ ์ํด ์ฐ๊ตฌ(12)์ ๋ฐ๋ผ ์ปฌ๋ฌ ์คํ๋ ์ด, ์ ๋ฒ์ง, ์๊ณก ๋ฑ๊ณผ ๊ฐ์ ์ธ๊ณต๋ฌผ์ ํฉ์ฑํ๋ ๋จ๊ณ(Artifact Stimulation)๋ฅผ ์ถ๊ฐํ๋ค. ์ธ๊ณต๋ฌผ์ด ํฉ์ฑ๋ ์ด์
์ด๋ฏธ์ง๋ ๊ณ ํด์๋(512x512)๋ก ํฌ๊ธฐ๋ณํ์ ๊ฑฐ์ฒ ์ฑ์ ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค. ์ฑ์ ๋ชจ๋ธ์ ์ด์ ๋ชจ๋ธ๊ณผ ๋์ผํ๊ฒ U-Net (22) ๊ตฌ์กฐ๋ก ๋์ด ์์ผ๋ฉฐ ๋ง์ง๋ง ์ธต์ than ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ค. ์ฑ์ ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 4๋ฅผ ํตํด ํ์ธํ ์ ์๋ค. ์ฑ์ ๋จ๊ณ์์๋ ์ด์๊ณผ ๋ฌ๋ฆฌ ํ๋ถํ ์์ ๋ง๋ค์ด๋ผ ํ์๊ฐ ์๊ณ ์ด๋ฏธ ์ด์์์ ์ฑ์์ ์ํ ์ถฉ๋ถํ ์ ๋ณด๊ฐ ์์ฑ๋๊ธฐ ๋๋ฌธ์
GAN์ ์ฌ์ฉํ์ง ์์๋ค.
3.4 ์ด๋ฏธ์ง ํฉ์ฑ ๋ชจ๋
ํฉ์ฑ ๋ชจ๋์ ์
๋ ฅ๋ฐ์ ์๋ณธ ์ ํ์ ์ฑ์ ๊ฒฐ๊ณผ๋ฌผ์ ์ฌ์ฉํด ํด์๋๋ฅผ ๋๋ฆฌ๋ ์์
์ ์งํํ๋ค. ๊ฒฐ๊ณผ๋ฌผ์ ํด์๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ฃผํ์ ๋ถํ ์ด๋ผ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ๋ค.
๊ณ ํด์๋์ ํ์ํ ๊ณ ์ฃผํ ์ฑ๋ถ์ ๊ฒฝ์ฐ ์
๋ ฅ๋ ์๋ณธ ์ ํ๋ฅผ ๋ณํํด ์ฌ์ฉํ ์ ์์ผ๋ฉฐ ์ ์ฃผํ ์ฑ๋ถ์ ์ฑ์ ๋จ๊ณ์์ ์์ฑ๋ 512x512 ํด์๋์ ์ฑ์
์ด๋ฏธ์ง๋ฅผ ํ์ฉํด ์์ฑํ๋ค. ๋จผ์ ์
๋ ฅ๋ฐ์ ์๋ณธ ์ ํ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํด 50% ํ์(๋ฐ๊ธฐ ๊ฐ 127) ์ด์์ ๋ฐ๊ธฐ๋ฅผ 50% ํ์์ผ๋ก ๋ณํํด ๊ณ ์ฃผํ ์ฑ๋ถ์
์์ฑํ๋ค. ์ดํ ์ฑ์ ๊ฒฐ๊ณผ๋ฌผ์ ํด์๋๋ฅผ ์๋ณธ ์ ํ ์ด๋ฏธ์ง์ ๋์ผํ๊ฒ ํฌ๊ธฐ ์กฐ์ ํ๋ค. ํฌ๊ธฐ ์กฐ์ ๋ ์ฑ์ ๊ฒฐ๊ณผ๋ฌผ์ ๊ฐ์ฐ์์ ํํฐ๋ฅผ ์ ์ฉํด ์ ์ฃผํ ์ฑ๋ถ์
์์ฑํ๋ค. ์์ฑ๋ ๊ณ /์ ์ฃผํ ์ฑ๋ถ์ Linear light ํผํฉ ๋ชจ๋๋ก ํผํฉํ์ฌ ์ฑ์ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ๋ค. Linear light๋ ํผํฉ ์์์ ๋ฐ๋ผ
๋ฐ๊ธฐ๋ฅผ ์ค์ด๊ฑฐ๋ ๋์ฌ ์์์ ๋ฒ๋(์ด๋ก๊ฒ), ๋ท์ง(๋ฐ๊ฒ)ํ๋ค. ๊ด์ ์ด 50% ํ์(๋ฐ๊ธฐ ๊ฐ 127)๋ณด๋ค ๋ฐ์ ๊ฒฝ์ฐ ๋ฐ๊ธฐ๋ฅผ ๋์ฌ ์ด๋ฏธ์ง๊ฐ ๋ฐ์์ง๋ฉฐ
์ด๋์ฐ๋ฉด ๋ฐ๊ธฐ๋ฅผ ์ค์ฌ ์ด๋ฏธ์ง๋ฅผ ์ด๋ก๊ฒ ํ๋ค. ์ฌ๊ธฐ์๋ ์ ํ ์์ญ์ ๋ฐ๊ธฐ๊ฐ 0์ ๊ฐ๊น์ด ๊ฐ์ ๊ฐ์ง๊ณ ์์ด ์ฑ์ ์ด๋ฏธ์ง์ ์ ํ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ํฉ์ฑํ ์
์๋ค. ์ ์ํ ์ฃผํ์ ๋ถํ ๊ธฐ๋ฒ์ ์๊ณ ๋ฆฌ์ฆ์ Algorithm 2์ ๊ฐ๋ค. ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ ๋จ๊ณ ์ด๋ฏธ์ง๋ ๊ทธ๋ฆผ 5์ ๊ฐ๋ค.
Algorithm 2 Frequency separation
3.5 ์์ค ํจ์
๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๋ ๊ฐ ์์คํจ์์ ๊ตฌ์ฑ์์์ ๊ดํด ์ค๋ช
ํ๋ค. ๋จผ์ ์ด์ ๋จ๊ณ์ ์์ฑ์ ์์คํจ์ ์(1)์ ์ ๋์ ($L_{GAN}$), ์ฌ๊ตฌ์ฑ($L_{recon}$), ์ฝํ
์ธ ($L_{cont}$)์ ์ธ ๊ฐ์ง ํญ์ ์กฐํฉ์ผ๋ก ์ ์ํ๋ค. ๊ฐ ํญ์ ์ํฅ๋ ฅ์
๊ณ์($w_{a}, w_{r}, w_{c}$)๋ฅผ ์ฌ์ฉํด ์กฐ์ ํ๋ค. ์(1),(2),(3),(4),(5)์์ l์ ์ถ์ถ๋ ์ ํ(256x256), h์ ์ปฌ๋ฌ ํํธ(256x256), c์ ์๋ณธ ์ปฌ๋ฌ์ด๋ฏธ์ง (256x256), D, G๋ ๊ฐ๊ฐ ๋ถ๋ฅ์ ๋ฐ ์์ฑ์(์ด์
๋ชจ๋ธ)์ด๋ค.
์ ๋์ ์์ค($L_{GAN}$)์ ์(2)(1,16)์ ์์
์ ๋ฐ๋ฅธ๋ค. ํ๋ณ ์ D()๋ ์ค์ ์ปฌ๋ฌ ์ด๋ฏธ์ง c์ ํ๋ฅ ์ ์ถ์ ํ๋ค. D()์ ๊ฒฐ๊ณผ๋ ๋ง์ง๋ง ์ธต์ ์ฌ์ฉ๋ sigmoid ํ์ฑํ ํจ์์ ์ํด
0๊ณผ 1 ์ฌ์ด์ ๊ฐ์ ๊ฐ๋๋ค. $E_{c}$ ๋ฐ $E_{l,h}$๋ ๊ฐ๊ฐ log(D(c)) ๋ฐ log(1โD(G(l, h)))์ ์์ ๊ฐ์ ์ธก์ ํ๋ค.
G(l,h)๋ ์ฌ์ฉ์๊ฐ ์ ๊ณต ํ ํํธ(h)์ ํจ๊ป ์ถ์ถ ๋ ์ ํ(l)๋ฅผ ํ์ฉํ์ฌ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. G(l,h)๋ ์๋ณธ ์ด๋ฏธ์ง์ ์ ์ฌํ ๋ถํฌ๋ฅผ
๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ค ํ๋ค. D(G(l, h))๋ ์์ฑ ๋ ๋ฐ์ดํฐ(G(l,h))์ ํ๋ฅ ์ ์ถ์ ํ๋ค.
๊ทธ๋ฆผ. 5. ํฉ์ฑ๋ ๊ฒฐ๊ณผ๋ฌผ
Fig. 5. Blending Result
์ด๋ก ์ ์ผ๋ก๋ D()์ G()๋ ํ์ง์ ํฅ์ํ๊ธฐ ์ํด ์ํธ ์์ฉํ๊ธฐ์ ์ถฉ๋ถํ๋ค. ๊ทธ๋ฌ๋ ์ค์ ๋ก๋ GAN ๊ตฌ์กฐ์์ ๋ ๋ชจ๋ธ ๊ฐ์ ๊ท ํ์ ์ด๋ฃจ๊ธฐ๊ฐ ์ฝ์ง
์์ผ๋ฉฐ, ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ค๋ฅธ ์์ค ํจ์๋ฅผ ์ถ๊ฐ๋ก ์ฌ์ฉํ๋ค. ์ฐ๊ตฌ์์๋ ํ์ต ๊ณผ์ ์ ์์ ํํ๊ธฐ ์ํด ์(3),(4)๋ฅผ ์ถ๊ฐํ๋ค.
์ฌ๊ตฌ์ฑ ์์ค($L_{recon}$)์ ์(3)์ ์ ์๋์ด ์๋ค. ์ฌ๊ตฌ์ฑ ์์ค์ ์ค์ ์ปฌ๋ฌ ์ด๋ฏธ์ง c์ ์์ฑ ์ด๋ฏธ์ง G(l,h)์ $L_{1}$ ์์ค์ ์ธก์ ํ๋ค. G()๋ ์๋ ์์ ์ด๋ฏธ์ง c์
์์ ๋ถํฌ์ ์ผ์นํ๋๋ก ์ฃผ์ด์ง ์ด๋ฏธ์ง์ ์์ ๊ณต๊ฐ์ ์กฐ์ ํ ์ ์๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก G()๋ D()๋ฅผ ์์ผ ์ ์๋ ๊ณ ํ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค.
์ฝํ
์ธ ์์ค($L_{cont}$)์ ์(4)์ ์ ์๋์ด ์๋ค. ์ฝํ
์ธ ์์ค์ ์์ฑ๋ ์ด๋ฏธ์ง G(l,h)์ ์ค์ ์ปฌ๋ฌ ์ด๋ฏธ์ง c๋ฅผ ์ฌ์ฉํ F ํน์ง ๋งต์ $L_{2}$ ์์ค(ํ๊ท ์ ๊ณฑ์ค์ฐจ, MSE)๋ฅผ
์ฌ์ฉํ๋ค. F๋ ImageNet (28) ๋ฐ์ดํฐ๋ก ํ๋ จ๋ VGG16 (20) ๋ชจ๋ธ์ ๋ค ๋ฒ์งธ convolution layer์์ ๋ง๋ค์ด์ง๋ ํน์ง ๋งต์ ๋ํ๋ธ๋ค. ์ฝํ
์ธ ์์ค์ ํฝ์
๊ณต๊ฐ์์ ํํํ ์ ์๋ ์ด๋ฏธ์ง์ ํน์ง์
ํผ์ฒ ๋งต์ ํตํ ์ง๊ฐ์ ์ ์ฌ์ฑ์ ํฌ์ฐฉํ์ฌ ์์ค์ ์ธก์ ํ๋ค.
์ฑ์ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๋ $L_{color}$ ๋ G์ ํ์ต์ด ๋๋ ๋ค G(l, h) (์ด์ ์ด๋ฏธ์ง)๋ฅผ 512x512 ํด์๋๋ก ํฌ๊ธฐ ์กฐ์ ํ์ฌ ์ค์
์ปฌ๋ฌ ์ด๋ฏธ์ง ๊ฐ์ L1 ์์ค์ ์ฌ์ฉํ๋ค. ์ด ๋จ๊ณ์์๋ ์ ๋์ ์์ค์ ์ฌ์ฉํ์ง ์์ผ๋ฉฐ, G(l,h)์ผ๋ก ์์ฑ๋ ํ๋ถํ ์์ ์ ๊ตํ๊ฒ ์ฌ์์ฑํ๋ ์์
์
์งํํ๋ค. ์(5)์์ Gโฒ๋ ์ฑ์ ๋ชจ๋ธ, l์ ์ ํ(256x256), lโฒ์ ์ ํ(512x512), h๋ ํํธ, cโฒโฒ๋ ์ปฌ๋ฌ ์ด๋ฏธ์ง(512x512)๋ฅผ ํํํ๋ค.
4. ์คํ๊ณผ ๋ถ์
4.1 ๋ฐ์ดํฐ ์
์ ๋๋ฉ์ด์
์คํ์ผ ์ผ๋ฌ์คํธ ๋ฐ์ดํฐ ์
์ผ๋ก ์๋ ค์ง Danbooru (29) ๋ฐ์ดํฐ ์
์ ๋น์จ์ ์ ์งํ๊ธฐ ์ํ ํจ๋ฉ, ์์ ํด์๋ ๋ฑ ์์
์ ๋ฐฉํด๋๋ ์์๊ฐ ๋ง์ด ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ํ์ต์ ์ํด ๋๊ท๋ชจ ์ผ๋ฌ์คํธ ๋ฐ์ดํฐ ์
์
์ง์ ์์งํ๋ค. ๋ฐ์ดํฐ๋ shuushuu-imageboard (30)๋ฅผ ํตํด ์์งํ์์ผ๋ฉฐ ์์ง ํ ํ์ต์ ์
์ํฅ์ ๋ผ์น ์ ์๋ ๋ถ์ ์ ํ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ ์ฝ 70๋ง ์ฅ์ ์ปฌ๋ฌ ์ ๋๋ฉ์ด์
์ผ๋ฌ์คํธ์ 500๊ฐ์ ์ค์
์ ํ-์ปฌ๋ฌ ์ผ๋ฌ์คํธ ๋ฐ์ดํฐ ์์ ์์งํ๋ค. ํํฐ๋ง ๋ ๋ถ์ ์ ํ ๋ฐ์ดํฐ๋ ํ๋ฐฑ, ํ์ด/๋ก์ฐ ํค ์ด๋ฏธ์ง, ๊ทธ๋ฆผ์ ์์ ๋ณ์ด 512 pixel ์ดํ์ ์์
์ด๋ฏธ์ง, ์ ๋ฐ์ ์ธ ํค ํน์ ์์ด ํ์ชฝ์ผ๋ก ํธํฅ๋ ์ด๋ฏธ์ง, ์ผ๋ฌ์คํธ๊ฐ ์๋ ๋์ ๊ทธ๋ฆฌ๊ณ ํ์ค์ ์ฌ๋ฌผ์ด ํผํฉ๋ ์ด๋ฏธ์ง์ด๋ค.
4.2 ์คํ ํ๊ฒฝ
์ฐ๋ฆฌ๋ ์ ์ํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ ๊ตฌํ์ ์ํด PyTorch framework (31)๋ฅผ ์ฌ์ฉํ๋ค. ๋ชจ๋ธ ํ์ต์ ํ ์ฅ์ NVIDIA RTX 2080Ti๋ฅผ ์ฌ์ฉํ์ผ๋ฉฐ ํ์ต์ ์ํด ์ฌ์ฉํ Hyperparameter๋ ์ด์ ๋ชจ๋ธ์ ๊ฒฝ์ฐ
์ต์ ํ ํจ์๋ก Adam (32)์ ์ฌ์ฉํ๊ณ ฮฒ1: 0.5, ฮฒ2: 0.9, learning rate:0.0001์ ์ฌ์ฉํ๋ค. Learning rate์ ๊ฒฝ์ฐ 112k ์ง์ ์์ 0.1๋ฐฐ
๊ฐ์ ์์ผ ํ์ตํ์๊ณ ํ์ต์ ์ฌ์ฉ๋ batch size๋ 64๋ก ์ด 280K step์ ์งํํ๋ค. ์ด์ ๋ชจ๋ธ ์์ค์ ๊ฐ ๊ฐ์ค์น๋ ๊ฐ๊ฐ w a : 0.05,
w r : 1.0, w c : 0.1์ ์ฌ์ฉํ๋ค. ์ฑ์ ๋ชจ๋ธ ๋ํ ์ต์ ํ ํจ์๋ก Adam์ ์ฌ์ฉํ์ผ๋ฉฐ Hyper- parameter๋ ์ด์ ๋ชจ๋ธ๊ณผ
๊ฐ๋ค.
์คํ์ ์ํด ์ ์ํ ์ ๊ฒฝ๋ง์ ๊ทธ๋ฆผ 6๊ณผ ๊ฐ์ด Open Source ์ด๋ฏธ์ง ํธ์ง ๋๊ตฌ์ธ GIMP์ Plugin์ผ๋ก ๊ฐ๋ฐํ๋ค. GIMP๋ Photoshop๊ณผ ์ ์ฌํ ๋ ์ด์ด ์์คํ
๊ณผ ์ด๋ฏธ์ง
ํผํฉ์ ์ง์ํ๊ธฐ ๋๋ฌธ์ ์ ์ํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์์ฝ๊ฒ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ ํ๋ฅญํ Front-End๋ก ๊ณ ์์ค์ ์ฌ์ฉ์ ๊ฒฝํ์ ์ ๊ณตํ ์ ์๋ค. GIMP
Plugin์ PyTorch๋ก ์ฌ์ ํ์ต๋ ์ ์ ๋ชจ๋ธ์ ONNX (Open Neural Network Exchange) (33)๋ก ๋ณํํ์ฌ ์ฌ์ฉํ๋ค. ์คํ์ ์ฌ์ฉ๋ ์์ธํ ์ฌ์ ๋ฐ ํ๋ ์์ํฌ ๋ฒ์ ์ ํ 1๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ. 6. GIMP ํ๋ฌ๊ทธ์ธ์ ํ๋ก ํธ ์๋
Fig. 6. GIMP Plugin Front End
ํ 1. ์คํ ํ๊ฒฝ
Table 1. Test Environment
HW
|
Specification
|
SW
|
Version
|
CPU
|
Intel i7-7800X
|
Python
|
3.8.5
|
RAM
|
64GB
|
Pytorch
|
1.6
|
OS
|
Arch Linux
|
ONNX
|
1.5
|
4.3 ์ฑ์ ์ฑ๋ฅ์ ์๊ฐ์ ๋ถ์
์ ์ํ ๊ธฐ๋ฒ์ ์ฑ์์ ํด์๋ ์ ์ฝ์ ์์ ๊ธฐ ์ํด ์ฑ์ ๋จ๊ณ ๋ฐ ์ ํ ํฉ์ฑ ๋จ๊ณ๋ฅผ ๋๋์ด ์งํํ๋ค. ์ฑ์ ๋จ๊ณ์์ ์์ฑ๋ ๊ฒฐ๊ณผ๋ฌผ์ ๊ทธ๋ฆผ 7์ ํตํด ํ์ธ ํ ์ ์๋ค. ์ ์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์ ๊ทธ๋ฆผ 7(a)์ ๋ฎ์ ์ฑ๋์ ๊ฒฐ๊ณผ๋ฌผ์ด ์์ฑ๋๋ฉฐ ์์ด ๋ฒ์ง๋ ๊ฒฝํฅ์ ํ์ธํ ์ ์๋ค. ์ ์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์ ๊ทธ๋ฆผ 7(b)์ transpose convolution์ checkerboard artifacts ํ์์ ํ์ธํ ์ ์๊ณ , ์ผ๋ถ ์ ํ ๋ถํฌ์ ๋ํด ์ฑ์์ด ๋ถ์์ ํ
๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ ์ํ๋ ๊ธฐ๋ฒ ๊ทธ๋ฆผ 7(c)์ ๋์ ์ฑ๋๋ฅผ ๊ฐ์ง๋ฉฐ ์ฑ์ ์์ญ์์ ์์ด ๋ฒ์ง๋ ํ์ ๋ํ ๋ฐฉ์งํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
์ ํ ํฉ์ฑ ๋จ๊ณ์ ๊ฒฐ๊ณผ๋ฌผ์ ๊ทธ๋ฆผ 8์ ํตํด ํ์ธ ํ ์ ์๋ค. ํด์๋์ ์ฐจ์ด๋ฅผ ๋ณด๊ธฐ ์ํด ์งง์ ๋ณ์ ๊ธฐ์ค์ผ๋ก 1,500 pixel ์ด์์ ์ ํ๋ก ์ฑ์ํ ํ ์ฃผํ์ ๋ถํ ์ ํตํ ์ ํ
ํฉ์ฑ์ ์งํํ๋ค. ์ ์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ง ์์ ๊ทธ๋ฆผ 8 (a)์ (b)๋ณด๋ค ์
๋ ฅํ ์ ํ๋ฅผ ๊ณ ์ฃผํ ์ฑ๋ถ์ผ๋ก ํฉ์ฑํ (c) ๊ฐ ๋จธ๋ฆฌ์นด๋ฝ ๋ฐ ๋๋์ ์ ๊ณผ ๊ฐ์ ์ง๊ฐ์ ์ ๋ณต์ํ์๋ค.
4.4 ์ฑ์ ์ฑ๋ฅ์ ์ ๋์ ๋ถ์
์ฌ์ฉํ ๊ธฐ๋ฒ๊ณผ ๊ธฐ์กด ์ ์๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๊ฐ ์ด๋ฏธ์ง์ ์ ๋์ ๋ถ์์ ์ํด Frยดechet Inception Distance (FID) (34)๋ฅผ ์ฌ์ฉํ๋ค. FID๋ ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์
์ ์ ์ฌ์ฑ์ ์ธก์ ํ๋ค. ์๊ฐ
๊ทธ๋ฆผ. 7. ์๊ฐ์ ๋น๊ต (a):Base [11], (b):Pix2Pix [3], (c):Ours
Fig. 7. Visual comparison. (a):Base [11], (b):Pix2Pix [3], (c):Ours
์ ํ์ง์ ๋ํ ์ธ๊ฐ์ ํ๋จ๊ณผ ์ ์ฐ๊ด๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ผ๋ฉฐ ์ฃผ๋ก GAN์ผ๋ก ์์ฑ๋ ์ํ์ ํ์ง์ ํ๊ฐํ๋ ๋ฐ ์์ฃผ ์ฌ์ฉ๋๋ค. FID๋ ImageNet
(28) ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋ Inception ๋ชจ๋ธ์ ํตํด ์์ฑ๋ ์ค์ ์ด๋ฏธ์ง์ ์์ฑ๋ ์ด๋ฏธ์ง ๊ฐ์ ๋ ์ ๊ท๋ถํฌ ํน์ง ๋งต ์ฌ์ด์ Frยดechet ๊ฑฐ๋ฆฌ๋ฅผ
์ฌ์ฉํด ๊ณ์ฐ๋๋ค. FID ์ ์๋ ๋ฎ์์๋ก ๋์ ํ์ง์ ๊ฐ์ง๋ค. ํ๊ฐ์๋ 14 ๋ง ์ฅ์ XDoG ์ธ๊ณต ์ ํ์ 530์ฅ์ ์ค์ ์ ํ-์ผ๋ฌ์คํธ ์์ ์ฌ์ฉํด
๊ฐ๊ฐ ๋น๊ตํ๋ค. FID์ ์ฌ์ฉํ ํ๊ฐ๋ ๊ณต์ ์ฑ์ ์ํด ์ฐ๊ตฌ(11,13)์ ๋์ผํ๊ฒ ํํธ๋ฅผ ์ฌ์ฉํ์ง ์์ ๊ฒฐ๊ณผ๋ฌผ์ ๋น๊ตํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
๊ทธ๋ฆผ. 8. ์๊ฐ์ ๋น๊ต (์ฃผํ์ ๋ถํ ). (a):Base [11], (b):Pix2Pix [3], (c):Ours
Fig. 8. Visual Comparison(Frequency Separation). (a):Base [11], (b):Pix2Pix [3], (c):Ours
์ฃผํ์ ๋ถํ ๊ธฐ๋ฒ์ ํ๊ฐ๋ฅผ ์ํด ์ด๋ฏธ์ง ํ์งํ๊ฐ์ ์ฌ์ฉ๋๋ PSNR (Peak Signal to Noise Ratio) ๋ฐ SSID (Structural
SIMilarity)๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง์ ์์ค ์ ๋ณด๋ฅผ ํ๊ฐํ๋ค. PSNR์ ์ต๋ ์ ํธ ์ ๋ ฅ ๋ฐ ๊ทธ ํ์ง์ ์ํฅ์ ์ฃผ๋ ๋
ธ์ด์ฆ ๊ฐ์ ๋น์จ์ ๊ณ์ฐํ๋ ๋ฐ
์ฌ์ฉ๋๋ค. log ํญ์ผ๋ก ๊ณ์ฐ๋๊ธฐ ๋๋ฌธ์ dB ํ์์ผ๋ก ๋ํ๋ธ๋ค. PSNR์ ์์ค์ด ์ ์์๋ก ๋์ ์์น๋ฅผ ๋ํ๋ธ๋ค. SSID๋ ํ๋์ ๋ช
์๋น๋ฅผ ๊ณ ๋ คํ
์ด๋ฏธ์ง์ ๊ตฌ์กฐ์ ์ธ ์ฐจ์ด๋ฅผ ํฌํจํ์ฌ ๊ณ์ฐํ๋ค. SSID๋ 1์ ๊ทผ์ ํ ์๋ก ๋์ ํ์ง(์๋ณธ ์ด๋ฏธ์ง์ ์ ์ฌํ ์ด๋ฏธ์ง)์ ๊ฐ์ง๋ค. ํ๊ฐ์ ์ฌ์ฉํ ์ด๋ฏธ์ง๋
์งง์ ๋ณ์ ๊ธฐ์ค์ผ๋ก 1,500 pixel ์ด์์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ฑ์ํ์ฌ ์๋ณธ ์ฌ์ด์ฆ๋ก ํฌ๊ธฐ ์กฐ์ ํด ์๋ณธ ์ด๋ฏธ์ง์ ๋น๊ตํ์๋ค.
ํ 2. FID, PSNR, SSIM๋ฅผ ์ฌ์ฉํ ์ ๋์ ๋น๊ต
Table 2. Quantitative comparison of FID (lower is better), PSNR (higher is better)
and SSIM (higher is better)
Model
|
FID
|
PSNR
|
SSIM
|
mean
|
std
|
mean
|
std
|
mean
|
std
|
Base [11]
|
51.64
|
1.36
|
13.01
|
5.14
|
0.73
|
0.21
|
Pix2Pix [3]
|
57.47
|
3.93
|
13.55
|
2.71
|
0.79
|
0.11
|
Ours
|
47.87
|
2.71
|
20.77
|
3.62
|
0.86
|
0.09
|
FID ํ๊ฐ ๊ฒฐ๊ณผํ 2์์ ์ ์ํ ๊ธฐ๋ฒ(Ours)์ ์ฌ์ฉํ ๊ฒฝ์ฐ ๊ฐ์ฅ ๋ฎ์ FID ์ ๊ฐ์ง๊ณ ์์ผ๋ฉฐ, checkerboard artifacts (23)์ ํ์์ด ๋ํ๋ Pix2Pix ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ Base (11)์ ๋นํด ๋์ FID(๋ฎ์ ํ์ง)๋ฅผ ๊ธฐ๋กํ์๋ค. ์ฃผํ์ ๋ถํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ์ ์ ๊ธฐ๋ฒ์ ๊ฒฝ์ฐ PSNR ๋ฐ SSIM์์ ๋ค๋ฅธ ๋ ๊ธฐ๋ฒ(Base, Pix2pix)์
๋นํด 20.77(PSNR), 0,86(SSIM) ๋์ ์ ์๋ก ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. ๋์ ์ ์๋ฅผ ๋ฐ์ ์ด์ ๋ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๋น๊ตํด ์ฑ์์ ์ ํ๋
๋ฐ ์ ๋ฒ์ง ๋ฑ์ ์ธ๊ณต๋ฌผ์ด ์ ๊ฒ ๋ํ๋ PSNR์์ ์ฐ์ํ ์ ์๋ฅผ ๋ฐ์๋ค. ๋ํ ์ ํ์ ์ง๊ฐ์ ์ ์งํ๋ ์๊ฐ์ ์ธ ๊ฒฐ๊ณผ์ ๋น๊ตํด ์๊ฐํ์ ๋ SSIM
ํ๊ฐ ์ ์์์๋ ๋ค๋ฅธ ๊ธฐ๋ฒ๊ณผ ๋น๊ตํด ๋์ ์ ์๋ฅผ ์ป์๋ค.
5. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด ์ ํ ์๋ ์ฑ์ ๊ธฐ๋ฒ๋ค์ด ์ต๋ 512x512 pixel๋ก ์ฐ์
์์ค๋ณด๋ค ๋ฎ์ ํด์๋๋ฅผ ๊ฐ์ง๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ด์ค์์ฑ์ ๋ฐ ์ฃผํ์
๋ถํ ๊ธฐ๋ฒ์ ์ ์ํ๋ค. ์ด์ค์์ฑ์๋ ์ฑ์์ ๋จ๊ณ๋ฅผ ์ด์ ๋ฐ ์ฑ์์ผ๋ก ์ญํ์ ๋๋์ด ๊ฐ๊ฐ์ ์์ฑ์๋ฅผ ํ์ตํ๋ค. ์ด์ ๋ชจ๋ธ ๋ฐ ์ฑ์ ๋ชจ๋ธ์ ๊ฐ๊ฐ ํ๋ถํ
์ฑ์์ ์งํํ๊ณ , ์ฑ์ ๊ณผ์ ์์ ์์ฑ๋๋ ๋ค์ํ ์ธ๊ณต๋ฌผ์ ์ ๊ฑฐํ์ฌ ๊น๋ํ ์ฑ์์ ์งํํ๋ค. ์๋ณธ ์ ํ์ ์ง๊ฐ์ ๋ณด์กดํ๋ฉฐ ์ฌ์ฉ๋ ์ ํ ํด์๋๋ก ์ฑ์ํ๊ธฐ
์ํด ์ฌ์ฉํ ์ฃผํ์ ๋ถํ ์ ๊ณ ์ฃผํ(์
๋ ฅํ ์ ํ)์ ์ ์ฃผํ(์ฑ์ ๋ชจ๋ธ์์ ์์ฑ๋ ์ฑ์ ์ด๋ฏธ์ง)๋ฅผ ์ฌ์ฉํด ํด์๋๋ฅผ ๋๋ ค 1500 pixel ์ด์์ ๊ณ ํด์๋
์ ํ ์ด๋ฏธ์ง ์ฑ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
์ ์ํ ๊ธฐ๋ฒ์ ์๊ฐ์ ์ธ ๋น๊ต ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 7, 8์ ํตํด ํ์ธํ ์ ์๋ค. ๋น๊ต ๊ฒฐ๊ณผ ์ ์ํ ์ด์ค์์ฑ์ ๋ฐฉ์์ ์ฌ์ฉํ์ง ์์ ๊ฒฝ์ฐ ์ ๋ฒ์ง, ์ฒด์ปค๋ณด๋ ์ธ๊ณต๋ฌผ, ์๋ชป๋ ์์ ๋ฑ ๋น์ ์์ ์ธ ์ฑ์ ๊ฒฐ๊ณผ๋ฅผ
์ป์๋ค. ๋ฐ๋ฉด ์ ์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ ์ ๋ฒ์ง๊ณผ ๊ฐ์ ํ์์ด ์ ๊ฒ ๋ณด์ด๊ณ ์ ํํ ์ฑ์์ด ๊ฐ๋ฅํ๋ค. ๋ฎ์ ํด์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ฉํ ์ฃผํ์
๋ถํ ๋ฐฉ์์ ์ ํ ํฉ์ฑ์ ์ฌ์ฉํ์ง ์์ ๊ธฐ์กด ์ด๋ฏธ์ง์์๋ ๋, ๋จธ๋ฆฌ์นด๋ฝ ๋ฑ ์ด๋ฏธ์ง์ ํ์ง์ ๋ณผ ์ ์๋ ์ง๊ฐ ์ ๋ณด๊ฐ ์ฌ๋ผ์ง๋ ํ์์ ๋ณด์๋ค. ํด์๋๋ฅผ
๋๋ฆฌ๋ ๊ณผ์ ์์ CNN์ ์ฌ์ฉํ์ง ์๊ธฐ ๋๋ฌธ์ ๊ธฐ์กด ๊ธฐ๋ฒ์์ ์ง์ํ์ง ์์ 2,000 pixel ์ด์์ ์ด๊ณ ํด์๋ ์ด๋ฏธ์ง ๋ํ ์ฑ์ํ ์ ์์๋ค.
์ ๋์ ํ๊ฐ๋ฅผ ์ํด FID, PSNR ๊ทธ๋ฆฌ๊ณ SSIM์ ์ฌ์ฉํด ์ฑ์๋ ๊ฒฐ๊ณผ๋ฌผ์ ๋น๊ตํ๋ค. ๋น๊ต ๊ฒฐ๊ณผ ์์ฑ๋ ์ด๋ฏธ์ง์ ํ์ง์ ๋ํ๋ด๋ FID ํ๊ฐ์์
๊ธฐ์กด ๊ธฐ๋ฒ(11)์ 51.64๋ณด๋ค ๋ฎ์(๋์ ํ์ง) ์ ์์ธ 47.87์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ PSNR ๋ฐ ๊ตฌ์กฐ์ ์ ์ฌ๋๋ฅผ ๋ํ๋ด๋ SSIM ํ๊ฐ ์ญ์ 13.01, 0.72๋ณด๋ค
๋์(๋์ ํ์ง) 20.77, 0.86์ ๋ณด์ฌ์ฃผ์๋ค. ์๊ฐ์ , ์ ๋์ ํ๊ฐ ๊ฒฐ๊ณผ๋ก๋ถํฐ ์ด์ค์์ฑ์ ๋ฐ ์ฃผํ์ ๋ถํ ์ ์ฌ์ฉํ ์ฑ์ ๊ธฐ๋ฒ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง
์ฑ์ ํ์ง์ ํฅ์ํ๋ค๋ ๊ฒฐ๋ก ์ ๋์ถํ ์ ์๋ค.
Acknowledgements
This work was supported by the National Research Foundation of Korea (NRF) grant funded
by the Korea government (MSIT) (No. 2019R1G1A1100455).
References
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville,
Y. Bengio, 2014, Generative adversarial nets, Advances in neural infor- mation processing
systems, pp. 2672-2680
pixiv inc., 2019, Petalica paint., https://petalica-paint.pixiv.dev/index_en.html,[Online;
accessed 2020.11.23]
P. Isola, J.-Y. Zhu, T. Zhou, A. A. Efros, 2017, Image- to-image translation with
conditional adversarial networks, Proceedings of the IEEE conference on computer vision
and pattern recognition, pp. 1125-1134
S. Kang, J. Choo, J. Chang, 2017, Consistent comic colori- zation with pixel-wise
background classi๏ฌcation, NIPSโ17 Workshop on Machine Learning for Creativity and
Design
C. Furusawa, K. Hiroshiba, K. Ogaki, Y. Odagiri, 2017, Comicolorization: semi-automatic
manga colorization, SIGGRAPH Asia 2017 Technical Briefs, pp. 1-4
P. Hensman, K. Aizawa, 2017, cgan-based manga colorization using a single training
image, 2017 14th IAPR Inter- national Conference on Document Analysis and Recognition
(ICDAR), IEEE, Vol. 3, pp. 72-77
L. Zhang, Y. Ji, X. Lin, C. Liu, 2017, Style transfer for anime sketches with enhanced
residual u-net and auxiliary classi๏ฌer gan, 2017 4th IAPR Asian Conference on Pattern
Recognition (ACPR), IEEE, pp. 506-511
P. Sangkloy, J. Lu, C. Fang, F. Yu, J. Hays, 2017, Scribbler: Controlling deep image
synthesis with sketch and color, Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pp. 5400-5409
Y. Liu, Z. Qin, Z. Luo, H. Wang, 2017, Auto-painter: Cartoon image generation from
sketch by using conditional generative adversarial networks, arXiv preprint arXiv:1705.
01908
K. Frans, 2017, Outline colorization through tandem adversarial networks, arXiv preprint
arXiv:1704.08834
Y. Ci, X. Ma, Z. Wang, H. Li, Z. Luo, 2018, User-guided deep anime line art colorization
with conditional adversarial networks, Proceedings of the 26th ACM international conference
on Multimedia, pp. 1536-1544
L. Zhang, C. Li, T.-T. Wong, Y. Ji, C. Liu, 2018, Two-stage sketch colorization, ACM
Transactions on Graphics (TOG), Vol. 37, No. 6, pp. 1-14
Y. Hati, G. Jouet, F. Rousseaux, C. Duhart, 2019, Paintstorch: a user-guided anime
line art colorization tool with double generator conditional adversarial network,
European Con- ference on Visual Media Production, pp. 1-10
C. Ledig, L. Theis, F. Huszยดar, J. Caballero, A. Cunning- ham, A. Acosta, A. Aitken,
A. Tejani, J. Totz, Z. Wang, 2017, Photorealistic single image super-resolution using
a generative adversarial network, Proceedings of the IEEE conference on computer vision
and pattern recognition, pp. 4681-4690
M. Biยดnkowski, J. Donahue, S. Dieleman, A. Clark, E. Elsen, N. Casagrande, L. C. Cobo,
K. Simonyan, 2019, High ๏ฌdelity speech synthesis with adversarial networks, arXiv
preprint arXiv:1909.11646
M. Frid-Adar, E. Klang, M. Amitai, J. Goldberger, H. Greenspan, 2018, Synthetic data
augmentation using gan for improved liver lesion classi๏ฌcation, 2018 IEEE 15th inter-
national symposium on biomedical imaging (ISBI 2018), IEEE, pp. 289-293
A. Radford, L. Metz, S. Chintala, 2015, Unsupervised representation learning with
deep convolutional generative adversarial networks, arXiv preprint arXiv:1511.06434
S. Ioffe, C. Szegedy, 2015, Batch normalization: Accelerating deep network training
by reducing internal covariate shift, arXiv preprint arXiv:1502.03167
B. Dai, S. Fidler, R. Urtasun, D. Lin, Oct 2017, Towards diverse and natural image
descriptions via a conditional gan, Proceedings of the IEEE International Conference
on Computer Vision (ICCV)
K. Simonyan, A. Zisserman, 2014, Very deep convolutional networks for large-scale
image recognition, arXiv preprint arXiv:1409.1556
H. Winnemยจoller, J. E. Kyprianidis, S. C. Olsen, 2012, Xdog: an extended difference-of-gaussians
compendium including advanced image stylization, Computers & Graphics, Vol. 36, No.
6, pp. 740-753
O. Ronneberger, P. Fischer, T. Brox, 2015, U-net: Con- volutional networks for biomedical
image segmentation, International Conference on Medical image computing and computer-assisted
intervention, Springer, pp. 234-241
A. Odena, V. Dumoulin, C. Olah, 2016, Deconvolution and checkerboard artifacts, Distill,
Vol. 1, No. 10, pp. e3
W. Shi, J. Caballero, F. Huszยดar, J. Totz, A. P. Aitken, R. Bishop, D. Rueckert, Z.
Wang, 2016, Real-time single image and video super-resolution using an ef๏ฌcient sub-
pixel convolutional neural network, Proceedings of the IEEE conference on computer
vision and pattern recognition, pp. 1874-1883
S. Xie, R. Girshick, P. Dollar, Z. Tu, K. He, July 2017, Aggre- gated residual transformations
for deep neural networks, Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR)
S. Nah, T. Hyun Kim, K. Mu Lee, 2017, Deep multi-scale convolutional neural network
for dynamic scene deblurring, Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition, pp. 3883-3891
Y. Wu, K. He, 2018, Group normalization, Proceedings of the European conference on
computer vision (ECCV), pp. 3-19
J. Deng, W. Dong, R. Socher, L. Li, Kai Li, Li Fei-Fei, June 2009, Imagenet: A large-scale
hierarchical image database, 2009 IEEE Conference on Computer Vision and Pattern Recogni-
tion, pp. 248-255
G. B. Danbooru community, A. Gokaslan., 2019, Danbooru 2017: A large-scale crowdsourced
and tagged anime illu- stration dataset.., https://www.gwern.net/Danbooru2017, [Online;
accessed 2020.11.23.].
some, 2018, E-Shuushuu-Kawaii Image Board., https://e-shuushuu.net/, [Online; accessed
19-July-2018]
A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. DeVito, Z. Lin, A. Desmaison,
L. Antiga, A. Lerer, 2017, Automatic differentiation in pytorch
D. P. Kingma, J. Ba, 2014, Adam: A method for stochastic optimization, arXiv preprint
arXiv:1412.6980
J. Bai, F. Lu, K. Zhang, 2019, Onnx: Open neural network exchange., https://github.com/onnx/onnx
M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, S. Hochreiter, 2017, Gans trained
by a two time-scale update rule converge to a local nash equilibrium, Advances in
neural information processing systems, pp. 6626-6637
์ ์์๊ฐ
Youngseop Lee graduated from Gyeongsang National University in 2020.
He is pursuing master degree at the Dept of Information Science, Gyeongsang National
University.
His research interests includes Machine Learning, Neural Network, Image Generation,
and Image Processing.
Seongjin Lee graduated from Hanyang University in 2006.
He recieved Master and Ph.D. degree in the same university in 2008 and 2015, respectively.
He worked as postdoc in Storage Center Hanyang University till 2017 and became an
assistant research professor there.
He joined Gyeongsang National University in 2017 as an assistant professor.
His research interest includes Operating System, Storage System, System Optimization,
Avionics, and Machine Learning.