์ด์์ญ
(Yeongseop Lee)
1iD
์ด์ฑ์ง
(Seongjin Lee)
โ iD
-
(Dept. of AI Convergence Engineering, Gyeongsang National University, Korea.)
Copyright ยฉ The Korea Institute for Structural Maintenance and Inspection
Key words
Machine Learning, Generative Adversarial Network, Line Arts Colorization, Image Generation
1. ์ ๋ก
DCGAN(Deep Convolutional Generative Adversarial Network) [1]์ด ๋ฐํ๋จ์ ๋ฐ๋ผ GAN์ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์๋ค. GAN(Generative Adversarial Network) ์ฐ๊ตฌ๊ฐ ์งํ๋จ์ ๋ฐ๋ผ ์ฌ๋ฌ
์์ฉ ๋ถ์ผ, ํนํ ์ด๋ฏธ์ง์์ฑ์์ ๋ฐ์ด๋ ๊ฒฐ๊ณผ๊ฐ ํ๋ฐํ ๋์ค๊ณ ์๋ค. ์ ํ๋ ๋ค์ํ ๋ฏธ๋์ด ์ฐ์
์ ์ํ ๋ฐฉํฅ์ ๊ฒฐ์ ํ๋ ๋ฐ ์ฌ์ฉ ๋๋ฉฐ, ํ๋ก์ ํธ ์ด๊ธฐ
๋ฐฉํฅ์ ๊ฒฐ์ ํ๋ ๋ฐ ๋งค์ฐ ์ค์ํ ์ญํ ์ ํ๋ค. ์ ํ์ ์ฑ์์ ์๋ จ๋ ์ํฐ์คํธ๊ฐ ์ ๋ฌธ ํธ์ง ๋๊ตฌ๋ฅผ ์ฌ์ฉํด ์งํํ๋ค. ๋ค์ํ ๋ ์ด์ด๋ฅผ ์ฌ์ฉํด ์ฑ์ํ๋
์์
์ ๋
ธ๋์ง์ฝ์ ์ด๊ณ ์ง๋ฃจํ ๋ฐ๋ณต ์์
์ ํ์ํ๊ธฐ ๋๋ฌธ์ GAN์ ์ฌ์ฉํด ์ ํ๋ฅผ ์ฑ์ํ๋ ์ฐ๊ตฌ๊ฐ ์งํ๋๊ณ ์์ผ๋ฉฐ Petalica Paint (๊ตฌ Paints
Chainer) [2] ์ ๊ฐ์ ์์ฉํ๋ ์๋์ฑ์ ๋๊ตฌ๋ค์ด ์ฌ์ฉ๋๊ณ ์๋ค.
๊ธฐ์กด ์ ํ ์๋์ฑ์์ ์
๋ ฅํ๋ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ํฌ๊ฒ ์ธ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค. ์ฒซ์งธ, ์ ํ๋ง ์ฌ์ฉํด ์ฑ์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์์ ์๋๋ฐฉ์ [3,4], ๋์งธ, ์ ํ์ ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํด ์ ํ๋ฅผ ์
๋ ฅ ํ ์ปฌ๋ฌ ์ด๋ฏธ์ง ์คํ์ผ๋ก ์ฑ์ํ๋ ์คํ์ผ ๋ณํ์ ํตํ ์๋๋ฐฉ์ [5,6,7], ์
์งธ, ์ ํ์ ์ฌ์ฉ์ ํํธ๋ฅผ ์
๋ ฅํด ์ํ๋ ์์ผ๋ก ์ฑ์ํ๋ ๋ฐฉ์์ด๋ค. [8, 9, 10, 11, 12, 13, 14]
์๋์ฑ์ ๋ถ์ผ์์ ์ฑ์ ๋ชจ๋ธ์ ๊ดํ ์ฐ๊ตฌ๋ ๋ค์ํ๊ฒ ๋ฐํ๋๊ณ ์์ง๋ง, ์ฑ์ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ธฐ ์ํ ์๋น์ค ๊ด์ ์ ์ฐ๊ตฌ๋ ๋ณด์ด์ง ์๊ณ ์๋ค. ๋ํ ์์ฉํ๋์ง
์์ ์๋น์ค์ ๊ฒฝ์ฐ ์ฐ๊ตฌ๋ฅผ ์ํ ํ
์คํธ๋ก ํ์ฌ๋ ํ์ฑํ๋์ด ์์ง ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ Lee et al. [14]๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ฉ์๋ค์ด ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ์์ผ๋ก ์๋์ฑ์์ฐ๊ตฌ์ ํ
์คํธ๋ฅผ ์ํ ํ๋ซํผ์ผ๋ก์จ ํ์ฉ ๊ฐ๋ฅํ ์ ํ ์๋ ์ฑ์ ์น์๋น์ค๋ฅผ ์ ์ํ๋ค.
๋ณธ ์ฐ๊ตฌ๊ฐ ์ ์ํ๋ ์๋น์ค๋ ONNX (Open Neural Network Exchange) [15]๋ฅผ ์ฌ์ฉํ์ฌ, CPU ํ๊ฒฝ์์ ์ถ๋ก ์ ์ง์ํ๊ณ ๋ค์ํ ์
์ถ๋ ฅ ๋ชจ๋ธ์ ์ํ ๊ณ ์ฐจํจ์ ๊ธฐ๋ฐ์ ์ ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ค. ์๋น์ค๋ ์ฑ์๋ชจ๋ธ์ ํ์ต ๋ฐ ๋ณํํ๋
๋ชจ๋ธ ์์ฑ๊ธฐ, ์ ์ฒ๋ฆฌ์ ์์ฑ ๋ชจ๋ธ์ ๊ด๋ฆฌ ๋ฐ ์ถ๋ก ์ ์งํํ๋ ์ถ๋ก ์๋ฒ, ์ฌ์ฉ์๋ฅผ ์ํ ์๋น์ค ํ๋ฐํธ ์๋๋ก ๊ตฌ์ฑ๋๋ค. ์ ์๋ ์๋น์ค์ ํ์์ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ๋ค. ์ ์ํ ์๋น์ค๋ CPU ํ๊ฒฝ์์ Pytorch์ 2.2683 ์ด์ ๋น๊ตํด ์ฅ๋น ํ๊ท 0.4040 ์ด๋ก 5๋ฐฐ ๋น ๋ฅธ ์๋๋ก ํจ์จ์ ์ธ ์ถ๋ก ์ด
๊ฐ๋ฅํ๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค. 2์ฅ์์๋ ๊ธฐ์กด ์์ฉํ๋ ์๋ ์ฑ์ ์๋น์ค์ ์
๋ ฅ์ ๋ฐ๋ผ ๊ธฐ์กด ์๋์ฑ์ ์ฐ๊ตฌ๋ฅผ ๋ถ๋ฅ ๋ฐ ์ค๋ช
ํ๋ค. 3์ฅ์์๋ ์ ์ํ๋
์๋น์ค์ ์ฌ์ฉ๋ ์๋์ฑ์ ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํด ์ฌ์ฉ๋ ํต์ฌ ๊ธฐ๋ฒ์ ์ค๋ช
ํ๋ค. 4์ฅ์์๋ ์๋์ฑ์ ์๋น์ค ํ๋ซํผ์ ๊ตฌ์ฑ์์์ ๋ํด ์ค๋ช
ํ๋ค. 5์ฅ์์๋
์ถ๋ก ๋จ๊ณ์์ ์ฌ์ฉ๋ ONNX์ ์ฑ๋ฅ๋น๊ต๋ฅผ ์ํ ์คํ ๋ฐ ๊ธฐ์กด ์๋น์ค์์ ๊ฒฐ๊ณผ๋ฌผ์ ์๊ฐ์ ์ผ๋ก ๋น๊ต ๋ฐ ๋ถ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ค๋ช
ํ๋ค. 6์ฅ์์๋ ๋
ผ๋ฌธ์ ๊ฒฐ๋ก ์
์ ์ํ๋ค.
๊ทธ๋ฆผ 1. ์๋น์ค ํ์
Fig. 1. Service View
2. ๊ด๋ จ ์ฐ๊ตฌ
์ด ์ฅ์์๋ ์์ฉํ๋์ด ์๋ ์๋์ฑ์ ์๋น์ค ๊ทธ๋ฆฌ๊ณ ์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์ ํ ์๋์ฑ์ ๊ธฐ๋ฒ์ ์
๋ ฅ ๋ฐ์ดํฐ์ ๋ฐ๋ผ ๋ถ๋ฅํ๊ณ ์ค๋ช
ํ๋ค. ์ ํ ์๋์ฑ์์
์
๋ ฅ ๋ฐ์ดํฐ ํ์์ ๋ฐ๋ผ ์ธ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋๋์ด์ง๋ค. ๊ฐ ๋ฐฉ๋ฒ์ผ๋ก๋ ์์ ์๋ ์ฑ์ ๋ฐฉ์, ์คํ์ผ ๋ณํ์ ์ฌ์ฉํ๋ ๋ฐฉ์, ์ฌ์ฉ์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก
์
๋ ฅํ๋ ๋ฐฉ์์ด ์๋ค. [3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]
2.1 Line-Arts Automatic Colorization Service
๊ธฐ์กด ์ ํ ์๋์ฑ์ ์๋น์ค๋ก๋ Petalica Paint [2] ๋ฐ Clip Studio๊ฐ ์๋ค. Petalica Paint๋ ์จ๋ผ์ธ ์๋น์ค๋ฅผ ํตํด 512 x 512 pixel ํด์๋ ๊ท๊ฒฉ์ผ๋ก ์ฑ์์ ์ง์ํ๋ฉฐ
์ฑ์ ํน์ง์ ๋ฐ๋ผ โTanpopoโ, โSatsukiโ, โCannaโ 3๊ฐ์ง์ ๋ชจ๋ธ์ ์ง์ํ๋ค. Clip Studio๋ Photoshop ๊ณผ ๊ฐ์
๋ ์ด์ด๋ฅผ ์ง์ํ๋ ์์
์ฉ ๋๊ตฌ์ด๋ฉฐ ์ ๋ ์ด์ด์ ๋ณ๋์ ํํธ ๋ ์ด์ด๋ฅผ ๋ง๋ค์ด ์ฑ์ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋ ๋ ์ด์ด๋ฅผ ๋ง๋ค์ด ๋ธ๋ค. Clip Studio๋ ๋ ์ด์ด๋ฅผ
์ง์ํ๊ธฐ ๋๋ฌธ์ ์ ์์ญ ์ธ๋ถ๋ก ๋ฒ์ง ์์ ์ด๋ฏธ์ง๋ฅผ ๋ง์คํนํ๋ ๋ฐฉ์์ ํตํด ๊ณ ํ์ง์ ๊ฒฐ๊ณผ๋ฌผ์ ์์ฑํ ์ ์๋ ์ฅ์ ์ด ์๋ค.
2.2 Fully Automatic Colorization
์์ ์๋๋ฐฉ์์ ์ฑ์ ๊ธฐ๋ฒ[3,4]์ ๋ค๋ฅธ ํํ์ ์
๋ ฅ ์์ด ์ ํ๋ง์ ์ฌ์ฉํ๋ค. Isola et al. [3] (Pix2Pix)๋ ์ฐ๊ตฌ [9] ์ ์กฐ๊ฑด์
๋ ฅ์ ์ฌ์ฉํ cGAN(Conditional Generative Adversarial Networks) ๊ตฌ์กฐ ๋ก ์ด๋ฏธ์ง ๋ ์ด๋ฏธ์ง ๋ณํ์
์๋ฃจ์
์ ์ ๊ณตํ๋ค. ์ฐ๊ตฌ [3]์ ์ฌ์ค ์ ์ธ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด L1 ์์ค ๋ฐ ์ ๋์ ์์ค์ ๊ฒฐํฉํด L1 ์์ค๋ง ์ฌ์ฉํ ๊ฒฐ๊ณผ์ ๋นํด ์ ๋ช
ํ๊ณ ์ฌ์ค์ ์ธ(photorealistic)
์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค. Kang et al. [4] ์์๋ ์ฑ์์์
์ ์ํ 3๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค. ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ์ค์ง์ ์ธ ์ฑ์์ ๋ด๋นํ๋ โLow-resolution Colorizerโ, ์ ๊ฒฝ๊ณผ
๋ฐฐ๊ฒฝ์ ๋ถ๋ฅํ๋ โBackground Detectorโ, ๊ทธ๋ฆฌ๊ณ ์ฑ์๋ ์ ํด์๋ ์ด๋ฏธ์ง์ ๋ฐฐ๊ฒฝ Segment๋ฅผ ๋ฐ์ ๋ฐฐ๊ฒฝ์ ๊ตฌ๋ถํ์ฌ ํด์๋๋ฅผ ๋ณต์ํ๋
โPolishing Networkโ๋ฅผ ์ฌ์ฉํ๋ค. ์ด ์ฐ๊ตฌ [4] ์ ๋งํ์ ๊ณผ ๊ฐ์ ๋งํ์ ํน์ง์ ์ ํ์ฉํ์๊ณ ์ ํ๋ฅผ ์ผ๊ด์ ์ผ๋ก ์ฑ์ํ ์ ์๋ ์ฅ์ ์ด ์๋ค. ํ์ง๋ง, ์์ ์๋์ผ๋ก ์ฑ์์ ์งํํ๊ธฐ ๋๋ฌธ์ ์ํ๋
๋ถ์๋ฅผ ํน์ ํ ์์ผ๋ก ์ฑ์ํ๊ธฐ๋ ๋ถ๊ฐ๋ฅํ๊ณ ์ถ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ 256 x 256 pixel ํด์๋๋ก ํ์ ๋๋ ๋จ์ ์ด ์๋ค.
2.3 Style Transfer based Colorization
์ผ๋ฌ์คํธ ์๋์ฑ์์ ์ํ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ฌ์ฉ๋๋ ์คํ์ผ ๋ณํ ๊ธฐ๋ฐ์ ์ฐ๊ตฌ๊ฐ ์๋ค [5,6,7]. ์คํ์ผ ๋ณํ์ ๊ฒฝ์ฐ ์ ํ ์ด๋ฏธ์ง์ ์ฐธ๊ณ ํ ์คํ์ผ์ด ๋๋ ์ปฌ๋ฌ ์ด๋ฏธ์ง 2๊ฐ์ ์
๋ ฅ์ ๊ธฐ๋ณธ์ผ๋ก ์ฌ์ฉํ๋ค. Furusawa et al. [5]์ ์ฐธ์กฐ ์ด๋ฏธ์ง์ ๋ํ์ ์์ ํํธ(์ ํ๋ ํธ) ์ธํฐํ์ด์ค๋ฅผ ์ฌ์ฉํด ๋ฐ์๋์ผ๋ก ์ฌ์ฉ์๊ฐ ์ํ๋ ์์ ์กฐ์ ํ ์ ์๋๋ก ํ์์ผ๋ฉฐ ์ ํ๊ฐ ์๋ ๋งํ ์ฝค๋ง
์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ฑ์์ ์งํํ์๋ค. ์ฑ์ ๊ณผ์ ์์ ์ ์ ๋ณด๋ฅผ ์์ฑํ๊ณ ์๋ณธ ๋งํ ์ด๋ฏธ์ง์์ ์ค๊ณฝ์ ์ ์ถ์ถํ์ฌ ํฉ์ฑํ๋ ๊ตฌ์กฐ๋ก ํจ์จ์ ์ผ๋ก ์ฑ์ํ์๋ค.
ํ์ง๋ง, ์ฌ์ฉ์์ ์์ ์ ๋ณด๊ฐ ์ง๊ด์ ์ผ๋ก ์ํ๋ ์์น์ ๋ค์ด๊ฐ์ง ์์ผ๋ฉฐ ์ ์ ๋ณด์ ํ
์คํธ์ ๊ฐ์ ์ค๊ณฝ์ ์ ์์์ ๋ฎ์ด์ฐ๋ ๊ตฌ์กฐ๋ก ์ธํด ์ด๋ฏธ์ง ์ง๊ฐ์
์์์ด ์ฌํ๋ค๋ ๋จ์ ์ด ์๋ค. Zhang et al. [7] ์ VGG16/19 ๊ตฌ์กฐ [16]์ ๋ชจ๋ธ์ ํตํด ์คํ์ผ ์ด๋ฏธ์ง๋ฅผ ์ถ๊ฐํด ์ฑ์์ ์งํํ๋ค. ๋ชจ๋ธ ์ค๊ฐ์ ๋ ๊ฐ์ โGuide Decoderโ ์ฌ์ฉํจ์ผ๋ก ํ์ต์์์ ๊ธฐ์ธ๊ธฐ๊ฐ ์ฌ๋ผ์ง๋
๋ฌธ์ (Vanishing Gradient)๋ฅผ ๋ฐฉ์ง ํ๊ณ ํจ๊ณผ์ ์ธ ์ฑ์์ ํ๋ค. ํ์ง๋ง, VGG16/19 ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ๋คํธ์ํฌ๋ชจ๋ธ ์ฉ๋์ด
ํฌ๊ณ , ์๋์ผ๋ก ์ฑ์ํ๊ธฐ ๋๋ฌธ์ ์ํ๋ ๋ถ์์ ์ํ๋ ์์ผ๋ก ์ฑ์ํ๊ธฐ ํ๋ค๋ฉฐ, ์ถ๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ 256x256 pixel ํด์๋๋ก ํ์ ๋๋ค๋ ๋จ์ ์ด
์๋ค.
2.4 Colorization with Color Point Hinting
๋ง์ง๋ง์ผ๋ก ์ ํ ์ด๋ฏธ์ง์ ์ฌ์ฉ์ ์ปฌ๋ฌ ํํธ๋ฅผ ์ถ๊ฐ๋ก ์
๋ ฅํ์ฌ ์ปฌ๋ฌ ํํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฑ์ํ๋ ์ฐ๊ตฌ๊ฐ ์๋ค [8, 9, 10, 11, 12, 13]. ์ปฌ๋ฌ ์ ์ ํํธ๋ก ์ฌ์ฉํ๋ ์ฐ๊ตฌ ์ค ๋ํ์ ์ผ๋ก Ci et al. [11] ์ด ์๋ค. ์ด ์ฐ๊ตฌ [11]์์๋ ๋ชจ๋ธ์ ์ธ๊ณต์ ํ(์๋ณธ ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ง๋ค์ด๋ธ ์ ํ)์ ๊ณผ์ ํฉ(overfitting)์ ๋ง๊ธฐ ์ํด LFN(Local Feature
Net)์ ์ฌ์ฉํ๋ค. LFN์ ํตํด ์
๋ ฅ ์ ํ ํน์ง์ ์ถ์ถํด ์์ฑ์์ ๋ถ๋ฅ์์ ์ถ๊ฐ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํด ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค๊ณ ํ๋ค. ํ์ง๋ง, Loss
๊ณ์ฐ ์ VGG16 ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๋ฏ๋ก ๋ชจ๋ธ ์ฉ๋์ด ํฌ๋ค๋ ๋จ์ ์ด ์๋ค. Sangkloy et al. [8]์ ์ธ๊ณต ์ ํ์ ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด 4๊ฐ์ง์ ๋ค๋ฅธ ํํฐ๋ฅผ ์ ์ฉํด ์ ํ๋ฅผ ์ถ์ถํ์ฌ ์ผ๊ตด ์ฑ์์ ์งํํ์๋ค. Frans et al. [10]์ ์
๋ ฅ ์ ํ์์ ์ฑ์ ๋ฐ ์ฑ์ ๊ฒฐ๊ณผ๋ฌผ์ ์์์ ์์ฑํ๋ ์์ฑ์๋ฅผ ๋ณ๋๋ก ํ์ตํ์ฌ 2์ค ์์ฑ์๋ฅผ ์ฌ์ฉํด ํจ๊ณผ์ ์ธ ์ฑ์๊ธฐ๋ฒ์ ๋ณด์๋ค. ์ปฌ๋ฌ ์ ์ ์ฌ์ฉํ
์ฐ๊ตฌ๋ก๋ Liu et al. [9]์ด ์์ผ๋ฉฐ ์์ฑ์ ํ์ต์ ์ํ Loss๋ฅผ ๋๋์ด ๊ฐ๊ฐ์ Loss ๊ณ์ ํญ์ ์กฐ์ ํ์ฌ ํ์ต์ ์งํํ์๋ค. ํ์ต ๊ฒฐ๊ณผ, ์ ๋ฒ์ง์ ํจ๊ณผ์ ์ผ๋ก ๋ฐฉ์งํ๋ฉด์
Pix2pix [3] ๋ชจ๋ธ ๋ณด๋ค ์ข์ ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. ์ด์ค ์์ฑ์๋ฅผ ์ด์ฉํ ๋ค๋ฅธ ์ฐ๊ตฌ ์ธ HATI et al. [13]์ Ci et al. [11]์ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ์ด์ค ์์ฑ์๋ฅผ ์ฌ์ฉํ์๋ค. ์ด์ค ์์ฑ์๋ ์์ฑ๋ ์ด์ ์ด๋ฏธ์ง๋ก๋ถํฐ ํฉ์ฑ ์ ํ๋ฅผ ์ถ์ถํ๋ค. ๊ทธ๋ฆฌ๊ณ , ์์ฑ๋ ํฉ์ฑ ์ ํ์ ์ด์ ์์ฑ
์ ์ฌ์ฉํ ์ธ๊ณต ์ ํ์ ์ฌ๊ตฌ์ฑ ์์ค(reconstruction loss)์ ๋ฐ์ํด 1๋จ๊ณ ์์ฑ์์ ์ฑ๋ฅ์ ๋์๋ค. Zhang et al. [12]์ ์ด์ค ์์ฑ์ ๊ตฌ์กฐ์์ ํ์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ด์ ์์กด๋๋ฅผ ์ค์ด๊ธฐ ์ํด ์์ฑ๋ ์ด์ ์ด๋ฏธ์ง์ ์ ๋ฒ์ง ๋ฑ๊ณผ ๊ฐ์ ์๋ฎฌ๋ ์ด์
์ ์ ์ฉํด ํ ์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ด์
์์กด๋๋ฅผ ์ค์ด๋ ๋ฐฉ์์ผ๋ก ์ฑ์ ์ฑ๋ฅ์ ๋์๋ค.
3. ์ ์ ๊ธฐ๋ฒ์ ๊ตฌ์ฑ
์ด ์ฅ์์๋ ์ ์ํ๋ ์๋น์ค์ ์ฌ์ฉ๋ ๋ชจ๋ธ๊ณผ ํ์ต์ ์ฌ์ฉ๋ ํต์ฌ ๊ธฐ๋ฒ์ ๊ดํด ์ค๋ช
ํ๋ค. ์ ์ํ๋ ์๋น์ค์ ๋ชจ๋ธ ๊ตฌ์กฐ์ ํ์ต์ ๋ํ ์์ธํ ์ค๋ช
์ Lee
et al. [14]์ ์์ธํ ์ค๋ช
๋์ด ์๋ค. ๋ณธ ์ฐ๊ตฌ์์ ์๋น์ค๋ฅผ ๊ตฌํํ๊ธฐ ์ํด ์ฌ์ฉ๋ ๊ธฐ๋ฒ์ ์ค๋ช
ํ๋ค. ๋ชจ๋ธ์ ์ฌ์ฉ๋ ํต์ฌ ํ์ต ๊ธฐ๋ฒ์ ํ์คํ ๊ทธ๋จ ํํํ๋ฅผ ์ฌ์ฉํ
์ ํ ๋ฐ์ดํฐ ์ฆ์(data augmentation), ์ด์๊ณผ ์ฑ์ ์์
์ ๋ถ๋ฆฌํ ์ด์ค ์์ฑ์, ์ ํ ํ์ง ๋ชจ๋ธ (Line Detection Model)์
์ฌ์ฉํ ์ ํ ์ค์ฐจํจ์๊ฐ ์๋ค.
3.1 ์ ํ ๋ฐ์ดํฐ ์ฆ์
์ ํ ์๋์ฑ์์ ์์ด ๊ฐ์ฅ ํฐ ๋ฌธ์ ๋ ๋ค์ํ ์ ํ ๊ตฌ์กฐ์์ ์์ ์ ์ธ ์ฑ์์ด ๋ถ๊ฐ๋ฅํ ๊ฒ์ด๋ค. ์ ํ ์๋์ฑ์ ๋ชจ๋ธ ํ์ต์ ์ํด์๋ ์ ํ์ ์ปฌ๋ฌ ์์ผ๋ก
๊ตฌ์ฑ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์
์ด ํ์ํ๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ ์์ ๋๋์ผ๋ก ์์งํ๋ ๊ฒ์ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋๋ถ๋ถ ์ ์ฐ๊ตฌ์์๋ ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ์ ํ ์ด๋ฏธ์ง๋ฅผ
์ถ์ถํ์ฌ ์๊ฐ ํ์ต(Self-learning) ๋ฐฉ์์ผ๋ก ํ์ต์ ์งํํ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ์ถ์ถ ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ผ ํน์ ํ ๋ถํฌ๋ฅผ ๊ฐ์ง๋ฏ๋ก ํ์ต ๊ณผ์ ์์
๊ณผ์ ํฉ (overfitting)์ด ๋ฐ์ํ ์ ์๋ค. ๋ณธ ์ฐ๊ตฌ๋ Lee et al. [14]์์ ์ฌ์ฉํ ๋ฐ์ดํฐ ์ฆ์์ ์ด์ฉํ์๋ค. ํ์คํ ๊ทธ๋จ ํํํ๋ฅผ ์ฌ์ฉํ ๋ฐฉ์์ ์ถ์ถ๋ ์ ํ ๋ฐ์ดํฐ์ ๋ถํฌ๋ฅผ ์กฐ์ ํ์ฌ ํ์ต ํ ์ค์ ์ ํ์ ์ ์์ ์ ์ธ ์ฑ์์ด
๊ฐ๋ฅํ๊ฒ ํ์๋ค. ํ์ต ๊ณผ์ ์์ ์ ํ ์ถ์ถ๋ฐฉ์์ XDoG (Extended Difference of Gaussians) [17] ๋ฟ๋ง ์๋๋ผ Dilate abs sub [14]์ ๊ฐ์ด ์ฌ์ฉํด ํ์ต ๋ฐ์ดํฐ์ ๋ํ ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์๋ค.
3.2 ์ด์ค ์์ฑ์
Lee et al. [14]์์ ์ฌ์ฉํ ์ด์ค ์์ฑ์ ๋ฐฉ์์ ์ฑ์์ ์ ์ฒด ๊ณผ์ ์ ๋ ๋จ๊ณ๋ก ๋๋์ด ๋จผ์ ์ด์์ ์์ฑํ๊ณ , ๋ ๋ฒ์งธ ๋จ๊ณ์์ ์์ฑ๋ ์ด์์ ์ฌ์ฉํด ๋ ํฐ ์ ํ๋ฅผ
์ฑ์ํ๋ค. ์ด์ค ์์ฑ์ ๋ฐฉ์์ ์ ํด์๋์์ ๊ณ ํด์๋๋ก ์ ์ง์ ์ธ ํ์ต์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์์ ์ ์ธ ํ์ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ ๊ฐ ๋จ๊ณ์ ์ ํฉํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ
์ ์๋ค. ํ๋ถํ ์์์ ์์ฑํ ํ์๊ฐ ์์ผ๋ฏ๋ก ์ด์(Draft) ๋ชจ๋ธ์ GAN์ ์ฌ์ฉํด ์๋ณธ ์ปฌ๋ฌ ์ด๋ฏธ์ง์ ์ ์ฌํ ๋ถํฌ์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๋ก ํ์ตํ๋ค.
์ด์ ๋จ๊ณ์์๋ ๊ณ ํ์ง์ ์ด๋ฏธ์ง ์์ฑ์ด ํ์ํ์ง ์๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ปฌ๋ฌ๋ฅผ ๊ฐ์ง๋ ์ ํด์๋(128 x 128 pixel) ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ฌ ํ์ต ๋ณต์ก๋๋ฅผ
์ค์๋ค. ์ฑ์(Colorization) ๋ชจ๋ธ ๋จ๊ณ์์๋ ์ด์ ๋ชจ๋ธ์์ ๋ง๋ค์ด์ง ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํด ๊ณ ํด์๋(512 x 512 pixel)์ ์ ํ๋ฅผ ์ฑ์ํ๋
์์
์ ์งํํ๋ค. ์ด์ ์ด๋ฏธ์ง์์ ๋ฐ์ํ ์ ์๋ ์ ๋ฒ์ง, ์๊ณก๊ณผ ๊ฐ์ ์ธ๊ณต๋ฌผ์ ์ ๊ฑฐํ๊ธฐ ์ํด ์ฑ์ ๋จ๊ณ์ ํ์ต ๊ณผ์ ์์ ์ธ๊ณต๋ฌผ์ ํฉ์ฑํ๋ ๊ณผ์ ์
ํฌํจํด ํ์ตํ๋ค. ์ด์ ๋ฐ ์ฑ์ ๋ชจ๋ธ ๋ชจ๋ ์ด๋ฏธ์ง ๋ ์ด๋ฏธ์ง ๋ณํ์ ์ฃผ๋ก ์ฌ์ฉ๋๋ U-Net [18] ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ฑํ์๋ค [14,18].
3.3 ์ ํ ์์ค ํจ์
์ ํ์ ๋ํ ๊ณผ์ ํฉ์ ํด๊ฒฐํ๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ ํ ํ์ง ๋ชจ๋ธ(LDM, Line Detection Model)์ ์ฌ์ฉํ ์ ํ ์์ค Lline
์ด ์๋ค. LDM์ ์คํ ์ธ์ฝ๋ ๊ตฌ์กฐ๋ก ์ปฌ๋ฌ ์ด๋ฏธ์ง์์ ์ ํ ์ด๋ฏธ์ง๋ก ๋ณํํ๋ ์์
์ ์งํํ๋ค. ์ฌ์ ํ์ต๋ LDM์ ์ด์ ๋ชจ๋ธ ํ์ต ๋จ๊ณ์ ์ฌ์ฉํด
์์ฑ๋ ์ด์ ์ด๋ฏธ์ง์์ ์ ํ๋ฅผ ์ถ์ถํ๋ค. ์ดํ ์ถ์ถ๋ ์ ํ์ ์ด์ ๋ชจ๋ธ์ ์
๋ ฅ๋๋ ์ ํ์ L1 ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ค. ์ ํ ์์ค์ LDM์ ์ํด ์์ฑ๋
๋ ์ ํ์ ์ฐจ์ด๋ฅผ ์ค์์ผ๋ก ์ด์ ๋ชจ๋ธ์์ ์ ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ธ๋ค. ์ ํ ์์ค Lline ์ ์์ 1 ๋ํ๋ด๋ฉฐ ์์์์ G๋ ์ด์ ์์ฑ์, ldm์ ์ ํ ํ์ง ๋ชจ๋ธ, l ,h ,c๋ ๊ฐ๊ฐ ์ ํ(128 x 128 pixel), ํํธ, ์ปฌ๋ฌ ์ด๋ฏธ์ง๋ฅผ
๋ํ๋ธ๋ค.
3.4 ์ฃผํ์ ๋ถํ
์๋น์ค์์ ์ถ๋ ฅ ํด์๋๋ฅผ ๋์ด๊ธฐ ์ํด Lee et al. [19]์์ ์ ์ํ ์ฃผํ์ ๋ถํ ์ ์ฌ์ฉํ๋ค. ์
๋ ฅ ์ ํ์์ ๊ณ ํด์๋์ ํ์ํ ๊ณ ์ฃผํ ์ฑ๋ถ์ ์์ฑํ์๊ณ , ์ฑ์ ๋ชจ๋ธ์์ ์์ฑ๋ ์ฑ์ ์ด๋ฏธ์ง์์ ์ ์ฃผํ ์ฑ๋ถ์
์ถ์ถํด ํฉ์ฑํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ํฉ์ฑ ๊ณผ์ ์์๋ Linear light ํผํฉ ๋ชจ๋๋ฅผ ์ฌ์ฉํ์๋ค. ํผํฉ ์ ๋ฐ๊ธฐ ๊ฐ 127 (50\% ํ์)์ ๊ธฐ์ค์ผ๋ก,
๊ธฐ์ค ์ด์์ ๊ฐ์ ๋ฐ๊ฒ ๊ธฐ์ค ์ดํ์ ๊ฐ์ ์ด๋ก๊ฒ ํฉ์ฑํด ์์ฐ์ค๋ฌ์ด ํฉ์ฑ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์๋ค. ์ข ๋ ์์ธํ ์ฃผํ์ ๋ถํ ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ค๋ช
์ ์ฐ๊ตฌ
[19]์ ์๊ฐ๋์๋ค.
4. ํ๋ซํผ ์๊ฐ
์ด ์ฅ์์๋ ์ ์ํ๋ ์ฑ์ ์๋น์ค์ ๊ตฌ์กฐ๋ฅผ ์ค๋ช
ํ๋ค. ์๋น์ค๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ, ๋ชจ๋ธ ๊ด๋ฆฌ ๋ฐ ์ถ๋ก ์ ์ํ ์ถ๋ก ์๋ฒ์ ์ฌ์ฉ์๋ฅผ ์ํ ์๋น์ค ํ๋ฐํธ
์๋๋ก ๊ตฌ์ฑ๋๋ค. ์ถ๋ก ์๋ฒ๋ ๊ณ ์ฐจํจ์ ์กฐํฉ์ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๋ ์ ์ฒ๋ฆฌ๊ธฐ์ ์ฑ๊ธ ํค ํจํด์ผ๋ก ์ถ๋ก ๋ชจ๋ธ์ ๊ด๋ฆฌํ๋ ๋ชจ๋ธ ๊ด๋ฆฌ์๋ก ๊ตฌ์ฑ๋๋ค.
์๋น์ค๋ ์ถ๋ก ์๋ฒ์ ์๋น์ค ํ๋ฐํธ ์๋๋ฅผ ๊ฐ์ํ ๊ธฐ๋ฒ์ธ Docker๋ฅผ ์ฌ์ฉํด ์ด๋ฏธ์ง๋ก ๋ง๋ค์ด ๊ตฌ์ฑํ๋ค. ์ ์ํ๋ ์์คํ
๋ค์ด์ด๊ทธ๋จ์ ๊ทธ๋ฆผ 2์ ๊ฐ๋ค.
๊ทธ๋ฆผ 2. ์์คํ
๋ค์ด์ด๊ทธ๋จ
Fig. 2. System Diagram
4.1 ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๋ชจ๋
์ฑ์ ๋ชจ๋ธ์ ์ ํ๋ฟ๋ง ์๋๋ผ ๋ค์ํ ์
๋ ฅ์ ์ฌ์ฉํ ์ ์์ผ๋ฏ๋ก ์ ์ฒ๋ฆฌ๋ฅผ ์ํ ์์คํ
์ผ๋ก ํ์ด์ฌ์ ํด๋์ค ํธ์ถ ๋ฉ์๋๋ฅผ ์ฌ์ฉํด ๊ณ ์ฐจํจ์์ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑํ๋ค.
์ ์ํ๋ ์์คํ
์ ์ ๊ทํ, ํฌ๊ธฐ์กฐ์ , ํ
์ ๋ณํ, Lambda ํจ์ ๊ตฌํ์ ์ํ ๊ณ ์ฐจํจ์๋ฅผ ๋ง๋ค์ด ์ฌ์ฉํ๋ค. ์
๋ ฅ์ ์ํ ์ ํ ๋ฐ์ดํฐ๋ก ํด๋ผ์ด์ธํธ์์
๋ฐ์ ์ ํ ์ด๋ฏธ์ง๋ฅผ ์ด์ ๋ชจ๋ธ ๋ฐ ์ฑ์ ๋ชจ๋ธ์ ๋ฐ๋ผ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์ฌ ์ฌ์ฉํ์๋ค. ํํธ๋ ํด๋ผ์ด์ธํธ๊ฐ ์
๋ ฅ๋ฐ์ ํฌ๋ช
๋ ๋ฐ์ดํฐ๊ฐ ๋ณด์กด๋ PNG ๋ฐ์ดํฐ์์
ํํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด RGB์ alpha ์ฑ๋์ ๋ถ๋ฆฌํด ๋ฐ๋ก ์ ์ฒ๋ฆฌํ์๋ค.
4.2 ์ถ๋ก ๋ชจ๋ธ ๊ด๋ฆฌ์
์ฑ์ ๋ชจ๋ธ์ ํน์ฑ์ ๋ฐ๋ผ ๋ค๋ฅธ ์ ํ ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ ์ ์์ด์ผ ํ๋ค. ๋ฐ๋ผ์ ๋ชจ๋ ์ฑ์ ๋ชจ๋ธ์ ์ถ์ ํด๋์ค๋ฅผ ์์๋ฐ์ ์ฑ๊ธํค ํจํด์ผ๋ก ๋ชจ๋ธ์ ๊ด๋ฆฌํ๋ค.
๊ฐ ๋ชจ๋ธ์ ์ํด ์ /ํ ์ฒ๋ฆฌ ๋ฐ ์ถ๋ก ๋ฉ์๋๋ฅผ ๊ตฌํํ์๋ค. ์ถ๋ก ๋ชจ๋ธ ๊ด๋ฆฌ์๋ ์๋ฒ๊ฐ ์์ํ๊ธฐ ์ ์ธ์คํด์คํํ์ฌ ์ฌ์ฉํ๋ค. Pytorch๋ก ํ์ต๋
๋ชจ๋ธ์ ONNX ๋ชจ๋ธ๋ก ๋ณํํ๋ฉฐ ์ถ๋ก ๊ณผ์ ์์๋ ONNX ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํด CPU์์ ์ถ๋ก ์ ์งํํ๋ค. ONNX๋ ์ถ๋ก ์ ์ํ ๋ฐํ์์ด ๊ฐ๋ณ๊ณ ๋ค์ํ
ํ๋ซํผ์์ ๊ฐ์์ ์ง์ํ๋ค๋ ์ฅ์ ์ด ์๋ค. ์๋น์ ๋ง์ดํฌ๋ก์๋น์ค ์ํคํ
์ฒ ํ๋ ์์ํฌ์ธ Flask๋ฅผ ์ฌ์ฉํด ์๋ฒ๋ฅผ ๊ตฌ์ฑํ๋ค. ๊ฐ๋ฐ๋ ์๋น์ค๋ ์น์ ํตํด
โomnissiah.ys2lee.comโ์์ ์ฌ์ฉํ ์ ์๋ค.
4.3 ์๋น์ค ํ๋ฐํธ ์๋
์๋น์ค ํ๋ฐํธ ์๋์ ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 3๊ณผ ๊ฐ๊ณ ๊ฐ๋ฐ๋ ์๋น์ค ํ์์ ๊ทธ๋ฆผ 1๋ก ํ์ธํ ์ ์๋ค. ์๋์ฑ์ ์๋น์ค๋ฅผ ์ํ UI๋ React ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํด ์น ์๋น์ค๋ก ์ ์ํ๋ค. ์๋น์ค๋ ์ ํ๋ฅผ ๋ถ๋ฌ์ค๊ณ ํํธ ์ ๋ณด๋ฅผ ์ปจํธ๋กค
ํ๋ฉฐ ์ ํ ๋ฐ ํํธ ๊ทธ๋ฆฌ๊ณ ์๋ฒ๋ฅผ ํตํด ์ฑ์๋ ์ฑ์ ์ด๋ฏธ์ง๋ฅผ ์๊ฐํํ๋ค. ์๋น์ค ํ๋ฐํธ ์๋๋ โPaintsToolsโ, โPaintsCanvasโ,
โPaintsViewerโ์ ์ธ ๊ฐ์ ์ฃผ์ ์ปดํฌ๋ํธ๋ก ๊ตฌ์ฑ๋๋ค. โPaintsToolsโ๋ ํํธ ์ ๋ณ๊ฒฝ, ํํธ ์ฌ์ด์ฆ ๋ณ๊ฒฝ, ํํธ ์ํ ์ปจํธ๋กค ๋ฐ
์ฑ์ ์งํ ๊ทธ๋ฆฌ๊ณ ์ ์ฅ๊ณผ ๊ฐ์ ์ปจํธ๋กค ๊ธฐ๋ฅ ์ ๋ด๋นํ๋ค. โPaintsCanvasโ๋ ์ ํ ๋ฐ ํํธ๋ฅผ ์๊ฐํํ๊ณ ๋ ์ด์ด ๊ตฌ์กฐ๋ก ์ ํ์ ํํธ๋ฅผ ์
๋ ฅํ๋
๊ธฐ๋ฅ์ ๋ด๋นํ๋ค. โPaintsViewerโ๋ ์๋ฒ์์ ์ฑ์๋ ์ด๋ฏธ์ง๋ฅผ ์๊ฐํํ๋ ๊ธฐ๋ฅ์ ๋ด๋นํ๋ค.
๊ทธ๋ฆผ 3. ์๋น์ค ํ๋ฐํธ ์๋ ์ปดํฌ๋ํธ ํธ๋ฆฌ
Fig. 3. Service Frontend Component Tree
5. ์คํ๊ณผ ๋ถ์
5.1 ์คํ ํ๊ฒฝ
์ ์ํ ์ ๊ฒฝ๋ง ๋ชจ๋ธ ๊ตฌํ ๋ฐ ํ์ต์ ์ํด PyTorch ํ๋ ์์ํฌ [20]๋ฅผ ์ฌ์ฉํ๋ค. ํ์ต์ ์ํ ๋ฐ์ดํฐ ์
์ shuushuu-imageboard [21]์์ ์์งํ์๋ค. ๋ฐ์ดํฐ๋ ํ์ต์ ๋ถ์ ์ ์ธ ์ํฅ์ ์ค ์ ์๋ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ ์ฝ 70๋ง ์ฅ์ผ๋ก ๊ตฌ์ฑํ๋ค. ํํฐ๋ง ๋ ๋ฐ์ดํฐ๋ ํ๋ฐฑ, ํ์ด/๋ก์ฐ
ํค ์ด๋ฏธ์ง, 512 pixel ์ดํ์ ์์ ์ด๋ฏธ์ง, ์ ๋ฐ์ ์ธ ํค ํน์ ์๊ฐ์ด ํ์ชฝ์ผ๋ก ํธํฅ๋ ์ด๋ฏธ์ง ๋ฑ์ด๋ค. ๋ชจ๋ธ ํ์ต ์ ์ํด์ ํ ์ฅ์ NVIDIA
RTX 3090์ ์ฌ์ฉ ํ์ผ๋ฉฐ Arch Linux ํ๊ฒฝ์์ ํ์ต์ ์งํํ๋ค. ์๋น์ค๋ฅผ ๊ตฌ๋ํ๋ ์คํ ํ๊ฒฝ์ Intel i9-9980HZ, 32GB
RAM์ MacOS์์ ํ
์คํธ๋ฅผ ์งํํ๋ค. ์์ธ ๊ตฌ์ฑ์ ํ 1์ ๋ํ๋ด์๋ค.
๊ทธ๋ฆผ 4. ์๊ฐ์ ๋น๊ต (a): Tanpopo w/o hint [2], (b): Satsuki w/o hint [2], (c): Canna w/o hint [2], (d): Ours w/o hint [14], (e): Tanpopo [2], (f): Satsuki [2], (g): Canna [2], (h): Ours [14]
Fig. 4. Visual Comparison (a): Tanpopo w/o hint [2], (b): Satsuki w/o hint [2], (c): Canna w/o hint [2], (d): Ours w/o hint [14], (e): Tanpopo [2], (f): Satsuki [2], (g): Canna [2], (h): Ours [14]
ํ 1 ์คํ ํ๊ฒฝ
Table 1 Test Environment
HW
|
Specification
|
SW
|
Version
|
Training
|
CPU
|
Intel i9-10980XE
|
Python
|
3.8.5
|
GPU
|
NVIDIA RTX 3090
|
Pytorch
|
1.9
|
RAM
|
128GB
|
ONNX
|
1.10.2
|
OS
|
Arch Linux
|
|
|
Serving
|
CPU
|
Intel i9-9980HZ
|
Python
|
3.8.5
|
RAM
|
32GB
|
onnxruntime
|
1.8.1
|
OS
|
MacOS
|
numpy
|
1.21.2
|
|
|
flask
|
2.0.1
|
5.2 ์ถ๋ก ํ๊ฒฝ ์ฑ๋ฅ ๋น๊ต
์ ์ํ ์๋น์ค๋ CPU์์ ๋ชจ๋ธ ์ถ๋ก ์ ์ฌ์ฉํ๋ค. ์คํ์ CPU ์์ Pytorch์ TorchScript ๋ชจ๋ธ๊ณผ onnxruntime์ ์ฌ์ฉํด 512
x 512 pixel ํด์๋ ์ด๋ฏธ์ง์ ์ถ๋ก ์๊ฐ์ ๋น๊ตํ๋ค. ์คํ์ ๊ฐ๊ฐ 100ํ์ ์ถ๋ก ์ ์งํํด ํ๊ท ์๊ฐ์ ๋น๊ตํ์๋ค. ์คํ์ ์ฌ์ฉํ ์
๋ ฅ์ ๋
๋ชจ๋ธ ๋ชจ๋ ์ ํ 1x1x512x512, 1x1x128x128 ๊ทธ๋ฆฌ๊ณ ํํธ 1x4x128x128 ์ฌ์ด์ฆ์ 0์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฒกํฐ๋ฅผ ์ฌ์ฉํด ์งํํ๋ค. ํ๊ฒฝ์
๋ฐ๋ฅธ ์ถ๋ก ์๋ ๋น๊ต ๊ฒฐ๊ณผ๋ฅผ ํ 2์ ๋ํ๋ด์๋ค. ONNX๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๋ฐํ ์์คํ
์ ์คํ ํ๊ท ๊ฐ์ด 0.4040 ์ด๋ก Torchscript์ ๋น๊ตํด 5๋ฐฐ ์ด์์ ์๋๋ฅผ ๋ณด์ด๋ฉฐ ํจ์จ์ ์ธ
์ถ๋ก ์ ํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
5.3 ์ฑ์ ์ฑ๋ฅ ์๊ฐ์ ๋น๊ต
์ ์ํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ ์๋น์ค์ Petalica Paint [2]์ โTanpopoโ, โSatsukiโ, โCannaโ ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํด ์ค์ ์ ํ์ ์ฑ์์ฑ๋ฅ์ ์๊ฐ์ ์ผ๋ก ๋น๊ตํ์๋ค. ์์ฉ ์๋น์ค์ ๊ฒฝ์ฐ ์์ค
์ฝ๋๊ฐ ๊ณต๊ฐ๋์ง ์์ ๊ฐ์ ํํธ๋ฅผ ์ฌ์ฉํ ๋น๊ต๊ฐ ๋ถ๊ฐ๋ฅํ๋ฏ๋ก ํํธ๋ฅผ ์ฌ์ฉํ์ง ์์ ์ฑ์ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๋ค. ์ฑ์ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 4์ ๋ํ๋ด์๋ค. ๊ทธ๋ฆผ 4(a-d) ์ด๋ฏธ์ง๋ฅผ ํ์ธํ๋ฉด ์ ํ ํน์ฑ์ ๋ฐ๋ผ ํํธ๊ฐ ์์ ๋ ์ฑ์์ด ์ด๋ค ์์ผ๋ก ์งํ๋๋์ง ํ์ธํ ์ ์๋ค.
ํ 2 ์ถ๋ก ์ฑ๋ฅ
Table 2 Inference Performance
Runtime
|
Mean(Sec)
|
Std(Sec)
|
ONNX
|
0.4040
|
0.0127
|
TorchScript
|
2.2683
|
0.0754
|
์คํ ๊ฒฐ๊ณผ ๊ทธ๋ฆผ 4(a, e)๋ checkerboard artifacts ํ์์ ํ์ธํ ์ ์๊ณ , ๊ทธ๋ฆผ 4(c, g)์ โCannaโ ๋ชจ๋ธ์ ์์์ ์๊ณก์ ํ์ธํ ์ ์๋ค. ๊ทธ๋ฆผ 4(d)์ 2๋ฒ์งธ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ์ ์ํ๋ ๋ชจ๋ธ์์๋ ํน์ ์ ํ์ ๋ฐ๋ผ ์ฑ์์ด ๋ถ์์ ํ ๊ฒ์ ํ์ธํ ์ ์์ง๋ง ํํธ๋ฅผ ์ฌ์ฉ ํ 4(h)๋ ์์ ์ ์ผ๋ก ์ฑ์ํ
๊ฒ์ ํ์ธํ๋ค.
6. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ๋ ์๋์ฑ์ ๋ถ์ผ์์ ๊ฐ๋ฐ๋ ๋ชจ๋ธ์ ์๋นํ๊ธฐ ์ํ ํ๋ซํผ์ด ์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ONNX๋ฅผ ์ฌ์ฉํ ์๋์ฑ์ ๋ชจ๋ธ ์๋น์ค๋ฅผ ๊ฐ๋ฐํ๋ค. ์๋น์ค๋
๊ณ ์ฐจํจ์๋ฅผ ํ์ฉํ ์ ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์ ์ํ๊ณ ONNX๋ฅผ ์ฌ์ฉํด CPU ํ๊ฒฝ์์๋ ํจ์จ์ ์ธ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋๋ก ๊ฐ๋ฐํ์๋ค. ์ฑ์์ ์ํ ๋ชจ๋ธ์ ํ์ต ์ ํ
๋ฐ์ดํฐ์ ๊ณผ์ ํฉ ํ์์ ์ค์ด๊ธฐ ์ํด ์ ํ ๋ฐ์ดํฐ ์ฆ์์ ์ฌ์ฉํ๊ณ , ํ์ต ๊ณผ์ ์ ์ ์ ํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ด๊ธฐ ์ํด ์ ํ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์๋ค. ์ฑ์
๋ชจ๋ธ์ ํ์ต ์์ ์ฑ์ ๋์ด๊ธฐ ์ํด ์ด์ ์์ฑ๊ณผ ์ฑ์ ์์
์ ๋ถ๋ฆฌํ ์ด์ค ์์ฑ์๋ก ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ค. ์๋น์ค์์ ์ถ๋ ฅ ํด์๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ฃผํ์ ๋ถํ
๊ธฐ๋ฒ์ ํ์ฉํ ์ด๋ฏธ์ง ํฉ์ฑ์ ์ฌ์ฉํ์๋ค. ์๋น์ค์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด CPU์์ torchscript ์ onnxrumtime ์ ์ฌ์ฉํด ์ถ๋ก ์ฑ๋ฅ์
๋น๊ตํ ๊ฒฐ๊ณผ ONNX๋ก ๊ฐ๋ฐํ ์์คํ
์ด ํ ๊ท 0.4040์ด์ ์ถ๋ก ์ฑ๋ฅ์ ๋ณด์ฌ torchscript์ ์ฑ๋ฅ๊ณผ ๋น๊ตํด 5๋ฐฐ ์ด์์ ๋น ๋ฅธ ์ถ๋ก ์ด ๊ฐ๋ฅํ
๊ฒ์ ํ์ธํ๋ค. ๊ธฐ์กด ์๋น์ค์ ์ฑ์ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด Petalica Paint [2]์ 3๊ฐ์ง ๋ชจ๋ธ โTanpopoโ, โSatsukiโ, โCannaโ์ ์๊ฐ์ ์ผ๋ก ๋น๊ตํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ ํํธ๋ฅผ ์ฌ์ฉํ์ง ์์ ์ฑ์์์๋ ๋ชจ๋ ๋ชจ๋ธ์ด
์ ํ ํน์ง์ ๋ฐ๋ผ ์ฑ์ ์ฑ๋ฅ์ด ๋ถ์์ ํ๋ค. ํํธ๋ฅผ ์ฌ์ฉํ ๊ฒฝ์ฐ ๊ทธ๋ฆผ 4(h) ์ ์ํ ์๋น์ค์์ ๊ธฐ์กด ์๋น์ค ๊ทธ๋ฆผ 4(e)๋ณด๋ค ์ธ๊ณต๋ฌผ๊ณผ ์๊ณก ์๋ ์ฐ์ํ ํ์ง์ ์ฑ์ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์์๋ค.
Acknowledgements
This work was supported by the National Research Foundation of Korea (NRF) grant
funded by the Korea government (MSIT) (No. 2019R1G1A1100455).
References
A. Radford, L. Metz, S. Chintala, 2015, Unsupervised representation learning with
deep convolutional generative adversarial networks, arXiv preprint arXiv:1511.06434
pixiv inc., 2021, Petalica paint., https://petalica-paint.pixiv.dev/index_en.html[Online;
accessed22 October โ 2021]
P. Isola, J.-Y. Zhu, T. Zhou, A. A. Efros, 2017, Image-to-image translation with conditional
adversarial networks, in Proceedings of the IEEE conference on computer vision and
pattern recognition, pp. 1125-1134
S. Kang, J. Choo, J. Chang, 2017, Consistent comic colorization with pixel-wise background
classification, in NIPSโ17 Workshop on Machine Learning for Creativity and Design
C. Furusawa, K. Hiroshiba, K. Ogaki, Y. Odagiri, 2017, Comicolorization: semi-automatic
manga colorization, in SIGGRAPH Asia 2017 Technical Briefs, pp. 1-4
P. Hensman, K. Aizawa, 2017, cgan-based manga colorization using a single training
image, in 2017 14th IAPR International Conference on Document Analysis and Recognition
(ICDAR), IEEE, Vol. 3, pp. 72-77
L. Zhang, Y. Ji, X. Lin, C. Liu, 2017, Style transfer for anime sketches with enhanced
residual u-net and auxiliary classifier gan, in 2017 4th IAPR Asian Conference on
Pattern Recognition (ACPR), IEEE, pp. 506-511
P. Sangkloy, J. Lu, C. Fang, F. Yu, J. Hays, 2017, Scribbler: Controlling deep image
synthesis with sketch and color, in Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pp. 5400-5409
Y. Liu, Z. Qin, T. Wan, Z. Luo, 2018, Auto-painter: Cartoon image generation from
sketch by using conditional wasserstein generative adversarial networks, Neurocomputing,
Vol. 311, pp. 78-87
K. Frans, 2017, Outline colorization through tandem adversarial networks, arXiv preprint
arXiv:1704.08834
Y. Ci, X. Ma, Z. Wang, H. Li, Z. Luo, 2018, User-guided deep anime line art colorization
with conditional adversarial networks, in Proceedings of the 26th ACM international
conference on Multimedia, pp. 1536-1544
L. Zhang, C. Li, T.-T. Wong, Y. Ji, C. Liu, 2018, Two-stage sketch colorization, ACM
Transactions on Graphics (TOG), Vol. 37, No. 6, pp. 1-14
Y. Hati, G. Jouet, F. Rousseaux, C. Duhart, 2019, Paintstorch: a user-guided anime
line art colorization tool with double generator conditional adversarial network,
in European Conference on Visual Media Production, pp. 1-10
Y. Lee, S. Lee, 2020, Automatic colorization of anime style illustrations using a
two-stage generator, Applied Sciences, Vol. 10, No. 23, pp. 8699
The Linux Foundation, 2019, Onnx: Open neural network exchange., https://github.com/onnx/onnx
K. Simonyan, A. Zisserman, Very deep convolutional networks for large-scale image
recognition, in 3rd International Conference on Learning Representations, ICLR 2015,
San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings (Y. Bengio and Y.
LeCun, eds.), 2015.
H. Winnemรถller, J. E. Kyprianidis, S. C. Olsen, 2012, Xdog: an extended difference-of-gaussians
compendium including advanced image stylization, Computers & Graphics, Vol. 36, No.
6, pp. 740-753
A. Odena, V. Dumoulin, C. Olah, 2016, Deconvolution and checkerboard artifacts, Distill,
Vol. 1, No. 10, pp. e3
Yeongseop Lee, Seongjin Lee, 2020, Automatic Colorization of High-resolution Animation
Style Line-art based on Frequency Separation and Two-Stage Generator, The Transactions
of the Korean Institute of Electrical Engineers, Vol. 69p, No. 4, pp. 275~283
A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin,
N. Gimelshein, L. Antiga, A. Desmaison, 2019, Pytorch: An imperative style, high-performance
deep learning library, Advances in neural information processing systems, Vol. 32
E-Shuushuu, 2018, E-Shuushuu - Kawaii Image Board., https://e-shuushuu.net
์ ์์๊ฐ
Youngseop Lee graduated from Gyeongsang National University in 2020. He received
master degree at the Dept of Information Science, Gyeongsang National University in
2022. After graduation, he joined Funzin. His research interests includes Machine
Learning, Neural Network, Image Generation, and Image Processing.
Seongjin Lee graduated from Hanyang University in 2006. He recieved Master and
Ph.D. degree in the same university in 2008 and 2015, respectively. He worked as postdoc
in Storage Center Hanyang University till 2017 and became an assistant research professor
there. He joined Gyeongsang National University in 2017 as an assistant professor.
His research interest includes Operating System, Storage System, System Optimization,
Avionics, and Machine Learning.