๊น๋ฏผ๊ท
(Mingyu Kim)
1iD
๊น๊ฒฝ์
(Gyeongsu Kim)
1iD
์๊ธฐ์ฑ
(Kisung Seo)
โ iD
-
(Department of Electronics and Computer Engineering, Seokyeong University, Republic
of Korea.)
Copyright ยฉ The Korea Institute for Structural Maintenance and Inspection
Key words
Deep learning, Segmentation, Knowledge Distillation, Single-Model-Based KD, Self-KD, Mutual-KD
1. ์ ๋ก
์ธ๊ทธ๋ฉํ
์ด์
์ ๋จ์ํ ๊ฐ์ฒด๋ฅผ ๋ถ๋ฅํ๋ ๊ฒ์ด ์๋ ์ด๋ฏธ์ง์์ ์นดํ
๊ณ ๋ฆฌ๋ณ๋ก ํด๋นํ๋ ๊ฐ์ฒด์ ์์น์ ํํ๋ฅผ ๊ฒ์ถํ๋ ๊ธฐ๋ฒ์ด๋ค. ์ด๋ฏธ์ง์ ํฝ์
๋จ์๋ก ์นดํ
๊ณ ๋ฆฌ๋ณ
๋ถ๋ฅ๋ฅผ ์ํํ๋ ๊ณผ์ ์ ํฌํจํ๋ค[1]. ์ธ๊ทธ๋ฉํ
์ด์
์ ๋ํ์ ํ์ฉ ์๋ก์, ์์จ์ฃผํ์์ ์ฌ๋, ์ฐจ๋, ๋ฐ ๋
ธ์ ๋ฐ ์ฃผ์ ํ๊ฒฝ์ ํ์ง๋ฅผ ๋ค ์ ์๊ณ ์๋ฃ ๋ถ์ผ์์๋ ํ์์ ์ฅ๊ธฐ๋ ์กฐ์ง์
์ด์ ๋ถ์๋ฅผ ๊ฒ์ถํ๋๋ฐ ์ฌ์ฉ๋๋ค[1].
์ฃผ์ ์ฐ๊ตฌ๋ ๋ค์๊ณผ ๊ฐ๋ค. ์ด๊ธฐ ๋ชจ๋ธ์ธ Deeplab [2]์ Atrous ์ปจ๋ณผ๋ฃจ์
๊ณผ CRF(Conditional Random Field)๋ฅผ ํ์ฉํด ๋ฉํฐ์ค์ผ์ผ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฌ์ฐฉํ๋ฉฐ, ์ธ๋ฐํ ๊ฐ์ฒด
๊ฒฝ๊ณ ์ ๋ณด๋ฅผ ๋ณด์กดํ๋ค. U-Net [3]์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ์ ์คํต ์ฐ๊ฒฐ์ ํตํด ์๋ฃ ์์ ๋ฑ์์ ์ธ๋ฐํ ์ง์ญ ์ ๋ณด๋ฅผ ๋ณต์ํ์ฌ ๋์ ์ ํ๋๋ฅผ ์ ๊ณตํ๋ค. SegNet [4]์ ์ธ์ฝ๋์ pooling ์ธ๋ฑ์ค๋ฅผ ๋์ฝ๋์ ์ ๋ฌํ๋ ๊ตฌ์กฐ๋ก ๊ณต๊ฐ ํด์๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ณต์ํ์ฌ ํจ์จ์ ์ธ ์ธ๊ทธ๋ฉํ
์ด์
์ ์ํํ๋ค. PSPNet [5]์ Pyramid Scene Parsing ๋ชจ๋์ ๋์
ํด ์ ์ญ ๋ฐ ์ง์ญ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋์์ ํ์ฉํจ์ผ๋ก์จ ๋ณต์กํ ์ฅ๋ฉด์ ์ธ๊ทธ๋ฉํ
์ด์
์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ๋ค.
DeepLabV3 [6]๋ Atrous Spatial Pyramid Pooling์ ์ฌ์ฉํ์ฌ ๋ค์ํ ์ค์ผ์ผ์ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ์ถ์ถํ๊ณ , ๊ฐ์ฒด ๊ฒฝ๊ณ์ ์ธ๋ถ ์ ๋ณด๋ฅผ ์ ๋ฐํ๊ฒ
๋ถํ ํ๋ค.
์ง์์ฆ๋ฅ(Knowledge Distillation, KD) [4] ๊ธฐ๋ฒ์ ๊ท๋ชจ๊ฐ ํฌ๊ณ ํ์ต๋ Teacher(์ ์) ๋คํธ์ํฌ์์ ๊ท๋ชจ๊ฐ ์๊ณ ํ์ต๋์ง ์์ Student(ํ์) ๋คํธ์ํฌ๋ก ์ถ๋ ฅ ๋ฒกํฐ์ ๋ํ ๋ถํฌ์
์ฐจ์ด๋ฅผ ์ค์ฌ๋๊ฐ์ผ๋ก์จ ์ง์์ ์ ๋ฌํ๋ค. ์ ํ์ ์ธ ์์ฉ์ ํฐ ๋คํธ์ํฌ์ ๋ฅ๋ ฅ์ ์์ ๋คํธ์ํฌ๋ก ์ ๋ฌํ์ฌ ์ฑ๋ฅ์ ์ต๋ํ ์ ์งํ๋ฉด์ ๋คํฌ์ํฌ ๊ท๋ชจ๋ฅผ ์ถ์ํ๋
๊ฒ์ด๋ค. ๋ํ ๋์ผํ ๊ท๋ชจ๋ฅผ ์ ์งํ๋ฉด์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๊ฒฝ์ฐ์๋ ์ง์์ฆ๋ฅ๊ฐ ์ฌ์ฉ๋๋ค. KD์๋ Teacher-Student(์ดํ T-S)[7] ๊ตฌ์ฑ์ด ๋๋ฆฌ ์ฐ์ด๊ณ , ์๊ธฐ ์์ ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ Self-KD ๋ฐฉ์ [9], ๋๋ฑํ ๋ ๋คํธ์ํฌ๋ก ๊ตฌ์ฑ๋ ์ํธํ๋ ฅ ๋ชจ๋ธ์ธ Deep Mutual Learning(DML) [8]๋ ์ ์๋๊ณ ์๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๋ํ์ ์ธ ์ธ๊ทธ๋ฉํ
์ด์
๋ชจ๋ธ์ธ PSPNet์ ๋ํด์ PASCAL-VOC 2012 ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊ฐ์ง ๋จ์ผ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ง์ ์ฆ๋ฅ์ธ Self-KD์
Mutual-KD ๋ฐฉ์์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์ ๊พํ๊ณ , ๋ค์ํ ํน์ฑ ์งํ๋ฅผ ๋ถ์ํ๋ค.
2. ์ธ๊ทธ๋ฉํ
์ด์
์ธ๊ทธ๋ฉํ
์ด์
์ ๋ชจ๋ ํฝ์
์ ๋ํด ๋ถ๋ฅ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ผ๋ก, ํด๋น ํฝ์
์ด ์ด๋ค ์นดํ
๊ณ ๋ฆฌ์ ์ํด์๋์ง๋ฅผ ํ๋จํ๋ ๋ฌธ์ ์ด๋ค. ๋ค์ํ ๊ฐ์ฒด์ ๋ํด์ ์ ํํ
ํํ์ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์ ๊ณตํด์ผ ํ๊ธฐ ๋๋ฌธ์ ์ฐ์ฐ์ ์ธ ์ธก๋ฉด์์ ์ผ๋ฐ์ ์ธ ๋ถ๋ฅ ๋ฌธ์ ์ ๋นํด ์ด๋ ต๊ณ , ์ฐ์ฐ๋์ ๊ท๋ชจ๊ฐ ๋ ํฌ๋ค.
์ธ๊ทธ๋ฉํ
์ด์
์ ํฌ๊ฒ ์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
๊ณผ ์ธ์คํด์ค ์ธ๊ทธ๋ฉํ
์ด์
์ผ๋ก ๋๋๋ค. ์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
์ ์ด๋ฏธ์ง์ ์นดํ
๊ณ ๋ฆฌ ๋ง์ผ๋ก ๋ถ๋ฅํ๋ ๊ธฐ๋ฒ์ธ ๋ฐ๋ฉด ์ธ์คํด์ค
์ธ๊ทธ๋ฉํ
์ด์
์ ์นดํ
๊ณ ๋ฆฌ๋ฟ๋ง ์๋๋ผ ๊ฐ์ ์นดํ
๊ณ ๋ฆฌ ๋ด์์๋ ๊ฐ์ฒด๋ค์ ๋ถ๋ฅํ๋ ๊ธฐ๋ฒ์ด๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
์ ๋์์ผ๋ก ํ๋ฉฐ, ๊ทธ๋ฆผ 1์ ์์๊ฐ ๋์์๋ค.
๊ทธ๋ฆผ 1. ์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
์ ์ (a) ์ด๋ฏธ์ง, (b) ์ธ๊ทธ๋ฉํ
์ด์
์นดํ
๊ณ ๋ฆฌ
Fig. 1. Semantic segmentation example (a) Image, (b) Segmentation categories
๋ณธ ๋
ผ๋ฌธ์์ ๋์์ผ๋ก ํ๋ PspNet์ ResNet50์ ์ฌ์ฉํ์ฌ ํน์ง์ ์ถ์ถํ๊ณ ์ด 4๋ฒ์ ํ๊ท ํ๋ง(Adaptive Average Pooling)์
์ํํ์ฌ ๊ฐ๋ก(๋๋ ์ธ๋ก)์ ํฌ๊ธฐ๊ฐ ๊ฐ 1, 2, 3, 6์ธ ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ์ ์ถ๋ ฅ์ ์ป๋๋ค. ๊ฐ๊ฐ์ ์ถ๋ ฅ์ ResNet50์ ์ต์ข
ํน์ง๊ณผ ๊ฒฐํฉ๋์ด
์ถ๊ฐ์ ์ธ ํฉ์ฑ๊ณฑ ์ฐ์ฐ์ ํตํด ์ธ๊ทธ๋ฉํ
์ด์
์ํ๋ ๊ฒฐ๊ณผ๊ฐ ๋์จ๋ค. ๊ฐ ์ถ๋ ฅ์ ํฉํ๋ ๊ณผ์ ์์ ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ๋ก ์ธํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์ ๊ฐ์ฅ ํฐ
ํฌ๊ธฐ์ ๋ง์ถ์ด ํ๋(Up Sampling)๋ฅผ ์ํํ๋ค. ๊ทธ๋ฆผ 2์ PspNet์ ๊ตฌ์กฐ๋๊ฐ ๋์ ์๋ค.
๊ทธ๋ฆผ 2. PspNet์ ๊ตฌ์กฐ๋
Fig. 2. PSPNet architecture
3. ์ง์ ์ฆ๋ฅ
3.1 ์ ํต์ ์ง์ ์ฆ๋ฅ
์ง์ ์ฆ๋ฅ(Knowledge Distillation)๋ ๋๊ท๋ชจ๋ก ์ฌ์ ํ์ต๋ ์ ํ(teacher) ๋คํธ์ํฌ๋ก๋ถํฐ, ๋น๊ต์ ์์ ํ์(student)
๋คํธ์ํฌ๊ฐ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ฐฉํจ์ผ๋ก์จ ์ง์์ ์ ๋ฌ๋ฐ๋ ๊ธฐ๋ฒ์ด๋ค. ์ด๋ฌํ ๊ณผ์ ์ ํตํด ํ์ ๋คํธ์ํฌ๋ ๋ค์ํ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์์ผ๋ฉฐ, ์ฑ๋ฅ ํฅ์์ ์ป์
์ ์๋ค. ์ง์ ์ฆ๋ฅ๋ฅผ ์ํ ์์ค ํจ์๋ ์ (1)์ ์ ์๋์ด ์๋ค.
์ฌ๊ธฐ์, m์ ๋ฏธ๋-๋ฐฐ์น ์ฌ์ด์ฆ, $z_{i}$๋ ์ ์์ ์ถ๋ ฅ๊ฐ, $\hat{z_{i}}$๋ ํ์์ ์ถ๋ ฅ๊ฐ, $\theta$๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ, $\tau$๋
๋คํธ์ํฌ์ ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์กฐ์ ํด์ฃผ๋ ์์์ด๋ค.
3.2 Self-KD
Self-KD๋ ํ๋์ ๋ชจ๋ธ ๋ด์์ ์ค์ค๋ก ์์ฑํ ์ํํธ ๋ ์ด๋ธ์ด๋ ์ค๊ฐ ํํ์ ํ์ฉํด ์ง์์ ์ฌ์ ์ดํ๋ ๊ธฐ๋ฒ์ด๋ค. ๋ชจ๋ธ์ ์์ ์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ฐธ๊ณ ํ์ฌ
๋ณด๋ค ์ ๊ตํ๊ณ ์์ ๋ ํํ์ ํ์ตํ๋ค. ์ด ๊ณผ์ ์ ๋ชจ๋ธ ๋ณต์ก๋๋ฅผ ๋ฎ์ถ๋ฉด์ ์ฑ๋ฅ์ ๊ฐ์ ํ๊ณ ์ค๋ฒํผํ
์ ์ํํ๋ ๋ฐ ๋์์ ์ค๋ค. ๊ทธ๋ฆผ 3-(a)์ ๊ตฌ์กฐ๋๊ฐ ๋์ ์๋ค.
3.3 Mutual-KD
์ ํต์ ์ธ Mutual-KD๋ ์ฌ๋ฌ ๋ชจ๋ธ์ด ์๋ก์ ์์ธก ๊ฒฐ๊ณผ๋ ์ค๊ฐ ํํ์ ๊ณต์ ํ์ฌ ์ง์์ ์ํธ ์ ์ดํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฐ ๋ชจ๋ธ์ ์๋ ๋ชจ๋ธ์ ๊ฐ์ ์ ํ์ตํ๋ฉด์
๊ฐ๋ณ ํ๊ณ๋ฅผ ๋ณด์ํ ์ ์๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ ๊ฐ ํ์
ํจ๊ณผ๋ฅผ ๊ทน๋ํํ์ฌ ์ ์ฒด ์ฑ๋ฅ๊ณผ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ํฅ์์ํจ๋ค. ๊ทธ๋ฆผ 3-(b)์ ๊ตฌ์กฐ๋๊ฐ ๋์ ์๋ค.
๊ทธ๋ฆผ 3. ๋จ์ผ ๋ชจ๋ธ ๊ธฐ๋ฐ ๋ ์ง์์ฆ๋ฅ (a) self-KD, (b) mutual-KD
Fig. 3. Single-model-based knowledge distillation (a) Self-KD, (b) Mutual-KD
4. PspNet ๋ชจ๋ธ์ ๋จ์ผ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ง์ ์ฆ๋ฅ
4.1 ์ธ๊ทธ๋ฉํ
์ด์
๋ชจ๋ธ์ ์ง์ ์ฆ๋ฅ
์ ํต์ ์ธ ์ง์์ฆ๋ฅ๋ ๋ถ๋ฅ๋ฅผ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋์๊ธฐ ๋๋ฌธ์ ๊ฐ ๋ถ๋ฅ ์นดํ
๊ณ ๋ฆฌ์ ๋ํ ๋ฒกํฐ๋ฅผ ์ถ๋ ฅํ๊ณ ์ด์ ์ฐจ์ด๋ฅผ ํ์ตํ๋ ๋ฐฉ์์ด๋ค. ์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
์
์ด๋ฌํ ๊ณผ์ ์ ์ด๋ฏธ์ง์ ๊ฐ๋ชจ๋ ํฝ์
๋ค์ ๋ํด์ ์ํํ๋ค. ์ด๋ ํฝ์
๋ค์ ์ฑ๋์ ๊ฐ ๋ถ๋ฅ ์นดํ
๊ณ ๋ฆฌ ์ญํ ์ ํ๋ฉฐ, ํฝ์
๋ณ๋ก ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ๋ ์ฑ๋์ด
์นดํ
๊ณ ๋ฆฌ๋ก ์ ํ๋๋ค. ๊ฐ ์ฑ๋์ ํด๋นํ๋ ๊ฐ์ ๋ถํฌ์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ์ฌ ํ์ต์ ์ฌ์ฉํ๋ค. ๊ทธ๋ฆผ 4์ ์์๊ฐ ๋์ ์๋ค. ์ธ๊ทธ๋ฉํ
์ด์
์ ์ต์ข
์ถ๋ ฅ์ ์ฑ๋์ ๋ถ๋ฅํ๊ณ ์ ํ๋ ์นดํ
๊ณ ๋ฆฌ์ ์์ ๋ฐฐ๊ฒฝ์ ์ถ๊ฐํ ํํ๋ก ๊ตฌ์ฑ๋๋ค.
๊ทธ๋ฆผ 4. (a) ์ ํต์ ์ธ ์ง์์ฆ๋ฅ, (b) ์ธ๊ทธ๋ฉํ
์ด์
์ ์ง์์ฆ๋ฅ
Fig. 4. (a) Traditional knowledge distillation, (b) Knowledge distillation for segmentation
4.2 PspNet ๊ธฐ๋ฐ Self-KD
PspNet์ Self-KD๋ฅผ ์ ์ฉํ๊ธฐ ์ํด์, ๊ธฐ์กด์ FPN (Fully Feature Pyramid Networks) [10]์ ๋ณํํ๊ณ FPN์ ๊ฒฐํฉํ์ฌ ๊ทธ๋ฆผ 5์ ๊ฐ์ด ๊ตฌ์ฑํ๋ค. FPN์ ResNet์ ๊ฐ Stage์์ ์ถ๋ ฅ๋ ํน์ง๋ค์ ์ค์๋๋ฅผ ํ๋จํ๋ ์ญํ ์ ์ํํ๋ค. ๊ทธ๋ฆผ 5์ ์ข์ธก์์ ResNet๊ณผ FPN์ ์ถ๋ ฅ์ ๊ฐ๊ฐ์ Psp Module์ ํตํด ์ต์ข
์์ธก์ ์ํํ๋ค.
๊ทธ๋ฆผ 5. Self-KD ๊ธฐ๋ฒ์ ์ ์ฉํ PspNet ๊ตฌ์กฐ๋
Fig. 5. PspNet structure diagram using the Self-KD technique
๊ตฌ์ฒด์ ์ผ๋ก, ๊ฐ Stage์์ ๋์จ ํน์ง๋งต์ Stage 4์์ Stage 1 ๋ฐฉํฅ์ผ๋ก ํฉ์ฑ๊ณฑ๊ณผ ์์ํฉ ๊ณผ์ ์ ์ํํ๋ค. ์ดํ ์ด์ ๊ณผ์ ์์ ๋์จ ํน์ง๋งต์
์ฌ์ฉํ์ฌ ์ด์ ๊ณผ ๋ฐ๋ ๋ฐฉํฅ์ผ๋ก ํ๋ฒ ๋ ์ํํ๋ค. FPN์ ์ฐ์ฐ๋์ ๊ฐ์๋ฅผ ์ํด ์ผ๋ฐ ํฉ์ฑ๊ณฑ ๋์ Depth-Wise ํฉ์ฑ๊ณฑ [11]์ ์ฌ์ฉํ๋ค. ํ์ต๊ณผ์ ์์๋ ResNet์ ์ํฅ์ ์ฃผ์ง ์๋๋ก ์ญ์ ํ๋ฅผ ์ฐจ๋จํ๋ค.
ResNet๊ณผ FPN์ ์ถ๋ ฅ์ ํ๊ท ์ ๊ณฑ ์ค์ฐจ๋ก ํ์ต๋์ด ์๋ก์ ํน์ง ์ถ์ถ์ ํฅ์์ํจ๋ค. ํ๊ท ์ ๊ณฑ ์ค์ฐจ๋ ์ (3)๊ณผ ๊ฐ๋ค.
ResNet๊ณผ FPN์ ๊ฑฐ์ณ ๋์จ ์ถ๋ ฅ์ Pyramid Pooling ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ ฅ ์ด๋ฏธ์ง์ ๋ํ ์์ธก์ ์์ฑํ๋ค. ์์ฑ๋ ์์ธก์ ์ ๋ต๊ณผ์
๊ต์ฐจ ์ํธ๋กํผ(CE)๋ก ํ์ต๋๋ค. ์์ธก๊ณผ ์ ๋ต์ ์ฐจ์ด์ ๋ํ ์์คํจ์๋ ์ (4)์ ๊ฐ๋ค. H์ W๋ ์ด๋ฏธ์ง์ ๊ฐ๋ก์ ์ธ๋ก ํฌ๊ธฐ๋ฅผ, Z๋ ์์ธก๊ฐ, y๋ ๋ชฉํ๊ฐ์ ๋ํ๋ธ๋ค.
๊ทธ๋ฆผ 5์ ์ฐ์ธก๊ณผ ๊ฐ์ด PsP ๋คํธ์ํฌ์ FPN์์ ์์ฑ๋ 2๊ฐ์ ์ต์ข
์ถ๋ ฅ์ ์ฐจ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ (5)์ ์ํด ์ง์ ์ฆ๋ฅ๋ฅผ ์ํํ๋ค. ์ฌ๊ธฐ์, KL์ Kullback-Leibler divergence, $Z_{h,\: w}^{Psp}$๋ Psp์์
์์ฑ๋ ์์ธก, ๊ทธ๋ฆฌ๊ณ $Z_{h,\: w}^{FPN}$๋ FPN๊ตฌ์กฐ์์ ์์ฑ๋ ์์ธก์ ์๋ฏธํ๋ค. T๋ ์ง์์ฆ๋ฅ์์ ์ฌ์ฉ๋๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ก ๋ณธ ๋
ผ๋ฌธ์์๋
1์ ์ฌ์ฉํ๋ค.
์ต์ข
์์คํจ์๋ ์ (6)์ ๋์ ์๋ค. ๋น์ค ๊ณ์์ธ $\alpha$๋ 10์ ์ฌ์ฉํ๊ณ $\beta$, $\gamma$์ ๊ฐ์ 1๋ฅผ ์ฌ์ฉํ๋ค.
4.3 PspNet ๊ธฐ๋ฐ Mutual-KD
PspNet์ Mutual KD๋ฅผ ์ ์ฉํ๊ธฐ ์ํด ๋ ๊ฐ์ ๋ชจ๋ธ์ ๋ถ๊ธฐ ๊ตฌ์กฐ๋ก ์ค๊ณํ์์ผ๋ฉฐ, ๊ทธ๋ฆผ 6๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋๋ค.
๊ทธ๋ฆผ 6. Mutual-KD ๊ธฐ๋ฒ์ ์ ์ฉํ PspNet ๊ตฌ์กฐ๋
Fig. 6. PspNet structure diagram using the Mutual-KD technique
๊ทธ๋ฌ๋ ๋ ๋ชจ๋ธ์ด ๋๋ฑํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ฉด ์์ธก๊ฐ์ด ์ง๋์น๊ฒ ์ ์ฌํด์ง ์ ์๊ธฐ ๋๋ฌธ์, Psp Module์ ๋ณํ์ ๊ฐํ์ฌ ์ฐจ์ด๋ฅผ ๋์๋ค. ๊ฐ๊ฐ์ ResNet์์
์ถ์ถ๋ ํน์ง์ด Psp Module ๋ด๋ถ์ Pyramid Pooling (PP)์ ํตํด ์ฒ๋ฆฌ๋์ด ์ต์ข
์์ธก์ ์์ฑํ๋ค. Mutual KD๋ ์ผ๋ฐ์ ์ผ๋ก
์๋ก ๋๋ฑํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ง๋ง, ๋ณธ ๋
ผ๋ฌธ์์๋ ํ๊ท ํ๋ง(Adaptive Average Pooling) ํฌ๊ธฐ๋ฅผ ๊ฐ๊ฐ 1, 2, 3, 6๊ณผ 1, 3,
5, 7๋ก ๋ค๋ฅด๊ฒ ๊ตฌ์ฑํ์ฌ ๋ ์ถ๋ ฅ์ ์ฐจ์ด๋ฅผ ๋์๋ค. ์ด๋ ๊ฒ ์์ฑ๋ 2๊ฐ์ ์ต์ข
์ถ๋ ฅ์ ์ (7)์ ๋ฐ๋ผ ์๋ก์ ์ฐจ์ด๋ฅผ ํ์ตํ๋ค. 4.2์ ์์ ์ฌ์ฉํ ์ (5)์ ์์คํจ์์ ๋์ผํ๋ฉฐ, $Z_{h,\: w}^{Psp1}$๋ ์ฒซ ๋ฒ์งธ PP์์ ์์ฑ๋ ์์ธก์ด๊ณ , $Z_{h,\: w}^{Psp2}$๋ ๋ ๋ฒ์งธ
PP์์ ์์ฑ๋ ์์ธก์ ์๋ฏธํ๋ค.
์์ฑ๋ ์์ธก์ 4.2 ์ ์ ์ (4)๋ฅผ ํตํด ์ ๋ต๊ณผ์ ๊ต์ฐจ ์ํธ๋กํผ(Cross Entropy)๋ก ํ์ต๋๋ค. ์ต์ข
์์คํจ์๋ ์ (8)์ ๋์์๋ค. $\alpha$, $\gamma$์ ๊ฐ์ 1๋ฅผ ์ฌ์ฉํ๋ค.
5. ์คํ ๋ฐ ๊ฒฐ๊ณผ ๋ถ์
5.1 ์คํ ํ๊ฒฝ
PASCAL-VOC 2012 ๋ฐ์ดํฐ์
์ ๊ฐ์ฒด ๊ฒ์ถ๊ณผ ์ธ๊ทธ๋ฉํ
์ด์
์ ์ํด ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ก, 20๊ฐ์ ์นดํ
๊ณ ๋ฆฌ๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ํ์ต์ฉ ์ด๋ฏธ์ง 1,464์ฅ๊ณผ
ํ
์คํธ์ฉ ์ด๋ฏธ์ง 1,449์ฅ์ผ๋ก ๊ตฌ์ฑ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ PyTorch 1.7.1 ํ๊ฒฝ์์ ๊ตฌํ๋์์ผ๋ฉฐ, NVIDIA RTX 2080 GPU๋ฅผ ์ฌ์ฉํ์ฌ
์ํ๋์๋ค.
์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
์ ๊ฒฝ๋ง์ ํ๊ฐ๋ฅผ ์ํด, ์ (10)์์ ์ ์๋ mIoU (mean Intersection over Union) ์ฑ๋ฅ ์งํ๋ฅผ ์ธก์ ํ์์ผ๋ฉฐ, ์ฌ๊ธฐ์ C๋ ๋ฐ์ดํฐ์
์ ์นดํ
๊ณ ๋ฆฌ ์๋ฅผ ์๋ฏธํ๋ค.
5.2 ์ ๋์ ์คํ ๊ฒฐ๊ณผ
PASCAL-VOC 2012 ๋ฐ์ดํฐ์
์ 20๊ฐ ํด๋์ค์ ๋ํ ํ๊ท ์ฑ๋ฅ์ธ mIoU ์์น ๊ฒฐ๊ณผ๊ฐ ํ 1์ ๋์์๋ค. PSPNet์ ์ ์๋ ๋ ๊ฐ์ง ์ง์์ฆ๋ฅ ๊ธฐ๋ฒ์ ์ฑ๋ฅ์ด ๋น๊ต๋์๋ค. ๋จผ์ , Self KD๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ PSPNet ์ฑ๋ฅ์ ๋นํด 0.56%,
Mutual KD์์๋ 0.82%์ ์ฑ๋ฅํฅ์์ด ์์๋ค. ์ด๋ฅผ ํตํด, PSPNet ์์ ๋ง์ ๊ฐ์ง๊ณ ์ง์์ฆ๋ฅํ Self KD ๋ฐฉ์์ ๋นํด์ ๋ ๊ฐ์ PSPNet์
๊ฐ์ง๊ณ ์ํธ์ ์ผ๋ก ์ง์์ฆ๋ฅํ Mutual KD ๋ฐฉ์์ ์ฑ๋ฅ์ด ์ฐ์ํจ์ ์์ ์๋ค. ๋จ์ผ ๋ชจ๋ธ ๋ง์ผ๋ก ์ฑ๋ฅํฅ์์ ์ป๊ธฐ๊ฐ ์ด๋ ค์ด ์ํฉ์์ ๋จ์ผ ๋ชจ๋ธ ๊ธฐ๋ฐ
์ง์์ฆ๋ฅ์ ์ ์ ๋ฐ ์ด์ ์ ์ฉ ํ๋น์ฑ์ ํ์ธํ ์ ์์๋ค.
ํ 1์ ํ๊ท ์ฑ๋ฅ ์์น ์ธ์ 20๊ฐ ์นดํ
๊ณ ๋ฆฌ์ ๋ํ ์ธ๋ถ ์์น ๊ฒฐ๊ณผ๊ฐ ํ 2์ ๋์ ์๋ค. ๊ฐ ์นดํ
๊ณ ๋ฆฌ๋ณ ์ฑ๋ฅ์ ์ข
๋ฅ์ ๋ฐ๋ผ ์ต๊ณ 92%์ BG(Back Ground)๋ถํฐ ์ต์ 26%์ Chair๊น์ง ํฐ ํธ์ฐจ๊ฐ ์กด์ฌํจ์ ์
์ ์๋ค. Mutual-KD ์ฑ๋ฅ์ ๊ธฐ์คํ์ฌ ๋ด๋ฆผ์ฐจ์์ผ๋ก ์ ๋ฆฌํ์๊ณ , ์นดํ
๊ณ ๋ฆฌ๋ณ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๊ตต๊ฒ ํ์ํ์๋ค.
ํ 1 ์ง์์ฆ๋ฅ ๊ธฐ๋ฒ๋ณ ์ฑ๋ฅ ๋น๊ต
Table 1 Performance comparison of knowledge distillation methods
Method
|
mIoU
|
PSPNet
|
68.29
|
Self KD
|
68.85
|
Mutual KD
|
69.35
|
ํ 2 ์ง์์ฆ๋ฅ ๊ธฐ๋ฒ๋ณ ์นดํ
๊ณ ๋ฆฌ ์ฑ๋ฅ ๋น๊ต (mutual KD ์ฑ๋ฅ ๊ธฐ์ค์ผ๋ก ๋ด๋ฆผ์ฐจ์)
Table 2 Category performance comparison by knowledge distillation methos (in descending
order by mutual KD performance)
Method
|
BG
|
Bus
|
Plane
|
Cat
|
Bird
|
Cow
|
Car
|
Train
|
Person
|
Sheep
|
MTB
|
Dog
|
Horse
|
Boat
|
Bottle
|
TV
|
Table
|
Plant
|
Bike
|
Sofa
|
Chair
|
PSPNet
|
91.91
|
84.54
|
81.24
|
81.76
|
79.20
|
78.45
|
78.20
|
77.96
|
75.49
|
69.98
|
73.75
|
72.86
|
71.00
|
68.13
|
66.87
|
65.16
|
55.97
|
54.42
|
45.08
|
35.22
|
26.77
|
Self KD
|
92.15
|
85.45
|
82.54
|
82.83
|
78.62
|
77.04
|
80.00
|
78.91
|
76.08
|
72.08
|
74.49
|
74.42
|
70.59
|
67.64
|
67.94
|
64.81
|
56.26
|
50.52
|
46.78
|
39.09
|
27.55
|
Mutual KD
|
92.27
|
86.04
|
83.64
|
81.73
|
79.97
|
77.43
|
81.12
|
78.46
|
76.43
|
74.57
|
74.90
|
72.43
|
69.18
|
69.42
|
70.91
|
65.24
|
59.29
|
51.81
|
45.85
|
37.00
|
28.61
|
5.3 ์ธ๊ทธ๋ฉํ
์ด์
๊ฒฐ๊ณผ ์์
mIoU ํ๊ฐ์งํ๋ ์ ๋์ ์์น ๊ฒฐ๊ณผ๋ก์, ์ด๋ฏธ์ง ๋ด์ ์นดํ
๊ณ ๋ฆฌ๋ณ ํฝ์
์์ ์์กดํ๊ธฐ ๋๋ฌธ์ [12], ๊ฐ ๋ฌผ์ฒด์ ๋ฐฐ๊ฒฝ์ ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ๋๋ค. ๋ํ ์์น๋ง์ผ๋ก๋ ์ธ๊ทธ๋ฉํ
์ด์
๊ฒฐ๊ณผ์ ๋ํ ์ ์ฑ์ ์ธ ๋ถ์์ด ์ด๋ ต๋ค. ๋ฐ๋ผ์, ๊ทธ๋ฆผ 7์ ์ฃผ์ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง๋ฅผ ์์ํ์๋ค. (a)๋ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ ์ด๋ฏธ์ง, (b)๋ ์ ๋ต, ๊ทธ๋ฆฌ๊ณ (c), (d), (e)๋ ์์๋๋ก PspNet, Self-KD, Mutual-KD ๊ธฐ๋ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค.
๊ทธ๋ฆผ 7. ์ธ๊ทธ๋ฉํ
์ด์
๊ฒฐ๊ณผ ์ด๋ฏธ์ง์ ์์
Fig. 7. Example of segmentation result images
์๋ก๋ถํฐ Bus, Bird, Car, Cow, Horse, Person ์์ผ๋ก ์ ๋ ฌ๋์ด ์๊ณ , ๊ฐ ๊ฐ์ฒด์ ๋ํ ์ธ๊ทธ๋ฉํ
์ ์
๋ถ์๋ฅผ ํด๋น ์ปฌ๋ฌ๋ก ํ์ํ์๋ค.
๋นจ๊ฐ ์ ์ ์์ผ๋ก ์ ๋ต๊ณผ์ ์ฃผ์ ์ฐจ์ด ๋ถ๋ถ์ ํ์ ํ์์ผ๋ฉฐ, ์ด ๋ถ๋ถ์์ ๊ธฐ๋ฒ๋ณ ์ ๋ต๊ณผ์ ์ฐจ์ด๊ฐ ๋๋ ทํ๊ฒ ๊ตฌ๋ถ๋๋ค. ๋ํ์ ์ผ๋ก, Bus ์นดํ
๊ณ ๋ฆฌ์์
PspNet(c)์ ๋๋ก ์์ญ์ Bus๋ก ์์ธกํ ๋ฐ๋ฉด Self-KD(d) ์ Mutual-KD(e)์ ๊ฒฝ์ฐ ๊ฒฝ๊ณ๋ฅผ ๋ช
ํํ ๊ตฌ๋ถํด ์ค์ ์ฐจ๋ ์์ญ๋ง์
์ธ์ํ์๊ณ , Cow ์นดํ
๊ณ ๋ฆฌ์์๋ PspNet(c)์ด ์์ ์ผ๋ฃฉ๋ฌด๋ฌ๋ฅผ Horse๋ก ์๋ชป ์์ธกํ ๋ฐ๋ฉด Self-KD(d)์ Mutual-KD(e)๋
Cow ์นดํ
๊ณ ๋ฆฌ๋ก ์๋ง๊ฒ ์์ธก๋์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ง์์ฆ๋ฅ๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ๊ฐ ์ ์ฑ์ ์ธ ์ธก๋ฉด์์ ํฅ์๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ํ, Bird์์ Self-KD(d)์
๊ฒฐ๊ณผ๊ฐ PspNet(c)๊ณผ ์ ์ฌํ๊ฒ ์๋จ์ ์๋ฅผ ๊ฑฐ์ ๊ตฌ๋ณํ์ง ๋ชปํ ๋ฐ ๋นํด Mutual-KD(e)์์๋ ์๋นํ ๋น์จ๋ก ์ด๋ฅผ ์ธ์ํ์์ ๋ณด์ฌ์ค๋ค.
์ถ๊ฐ์ ์ผ๋ก, ์ต์ข
์์ธก์ ์ฃผ์ ์ํฅ์ ์ฃผ๋ ๋ถ๋ถ์ ํ์ธํ๋๋ฐ ์ฐ์ด๋ Grad-CAM [13]์ ์ฌ์ฉํ์ฌ ์์ธก์ ๋ํ ๋ณด์กฐ์ ์ธ ํ๊ฐ๋ ์ํํ์๋ค. ๊ทธ๋ฆผ 8์ Grad-CAM์ ์ฌ์ฉํ ์ฃผ์ ๊ฒฐ๊ณผ ์ด๋ฏธ์ง๋ฅผ ์์ํ์๋ค. (a)๋ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ ์ด๋ฏธ์ง, (b)๋ ์ ๋ต, ๊ทธ๋ฆฌ๊ณ (c), (d), (e)๋ ์์๋๋ก PspNet, Self-KD, Mutual-KD ๊ธฐ๋ฒ์ Grad-CAM์ ํํธ๋งต ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ธ๋ค.
๋ํ์ ์ผ๋ก, TV/Monitor ์นดํ
๊ณ ๋ฆฌ์ PspNet(c)์ Grad-CAM ํํธ๋งต์ ์ด๋ฏธ์ง ์ ๋ฐ์ ํ์ฑํ ๋ ๋ฐ๋ฉด Self-KD(d)์ Mutual-KD(e)์
Grad-CAM ํํธ๋งต์ ํด๋น ๊ฐ์ฒด์ ์ง์ค๋์๋ค. ์ด ๊ฒฝ์ฐ์๋ Mutual-KD(e)๊ฐ Self-KD(d)์ ๋นํด ์ข ๋ ๊ฐ์ฒด ์์ญ์ ์ง์ค๋๋ ๊ฒ์
ํ์ธํ ์ ์๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์ง์์ฆ๋ฅ๋ฅผ ์ ์ฉํ ๊ฒฝ์ฐ๊ฐ PspNet(c)์ ๋นํด ์ด๋ฏธ์ง์ ์ ์๋ฏธํ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ฌ ์์ธกํ์์์ ๋ณด์ฌ์ค๋ค.
๊ทธ๋ฆผ 8. ์ธ๊ทธ๋ฉํ
์ด์
์ ๋ํ Grad-CAM ๊ฒฐ๊ณผ
Fig. 8. Grad-CAM results for segmentation
6. ๊ฒฐ ๋ก
๋ณธ ๋
ผ๋ฌธ์์๋ ์๋ฉํฑ ์ธ๊ทธ๋ฉํ
์ด์
๋ถ์ผ์์ ๋๊ฐ์ง์ ์ง์์ฆ๋ฅ ๊ธฐ๋ฒ 1) FPN์ ์ถ๋ ฅ์ ์ด์ฉํ Self KD 2) ๋์ผํ ๋ชจ๋ธ์ ์ฌ์ฉํ Mutual
KD ์ ์ฑ๋ฅ์ PASCAL-VOC 2012 ๋ฐ์ดํฐ ์
์ ๋ํด์ mIoU๋ฅผ ์ฌ์ฉํ ์ ๋ ํ๊ฐ, ์ธ๊ทธ๋ฉํ
์ด์
์์์ Grad-CAM ํํธ๋งต์ ํตํด์
์ ์ฑ ํ๊ฐ๋ฅผ ์ํํ์๋ค. ์ ๋ ํ๊ฐ๋ฅผ ํตํด ์ ์๋ ๋จ์ผ ๋ชจ๋ธ ๊ธฐ๋ฐ Self-KD์ Mutual-KD์ ์ฑ๋ฅ์ด PspNet๋ณด๋ค ์ฐ์ํจ์ ํ์ธํ์๊ณ ,
์ ์ฑ ํ๊ฐ์์ ์ธ๊ทธ๋ฉํ
์ด์
ํ์คํฌ์ ๋ํ ๋จ์ผ ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ ์ง์์ฆ๋ฅ ์ ์ฉ์ ํ๋น์ฑ์ ํ์ธํ์๋ค. ํฅํ ์ง์์ฆ๋ฅ ๊ตฌ์กฐ์ ๊ฐ์ ๋ฐ ๋ ๋์ ์ฑ๋ฅ ํฅ์์
๋ชฉํ๋ก ์ผ๊ณ ์๋ค.
References
T. Zhou, W. Xia, F. Zhang, B. Chang, W. Wang, Y. Yuan, E. Konukoglu and D. Cremers,
โImage Segmentation in Foundation Model Era: A Survey,โ arXiv preprint arXiv:2408.12957,
2024.

L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy and A. L. Yuille, โDeepLab: Semantic
image segmentation with deep convolutional nets, atrous convolution, and fully connected
CRFs,โ IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 40, no.
4, pp. 834-848, 2018. DOI:10.1109/TPAMI.2017.2699184

O. Ronneberger, P. Fischer and T. Brox, โU-Net: Convolutional networks for biomedical
image segmentation,โ Proc. Int. Conf. Medical Image Computing and Computer-Assisted
Intervention (MICCAI), pp. 234-241, 2015. DOI:10.1107/978-3-319-24574-4_28

V. Badrinarayanan, A. Kendall and R. Cipolla, โSegNet: A deep convolutional encoder-decoder
architecture for image segmentation,โ IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 39, no. 12, pp. 2481-2495, 2017. DOI:10.1109/TPAMI.2016.2644615

H. Zhao, J. Shi, X. Qi, X. Wang and J. Jia, โPyramid scene parsing network,โ in Proc.
IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 2881-2890, 2017. DOI:10.1109/CVPR.2017.660

S. C. Yurtkulu, Y. H. ลahin and G. Unal, โSemantic Segmentation with Extended DeepLabv3
Architecture,โ 2019 27th Signal Processing and Communications Applications Conference
(SIU), Sivas, Turkey, pp. 1-4, Apr. 2019. DOI:10.1109/SIU.2019.8806244

G. Hinton, O. Vinyals and J. Dean, โDistilling the knowledge in a neural network,โ
Neural Information Processing Systems (NIPS) Workshop, 2014.

Y. Zhang, T. Xiang, T. Hospedales and H. Lu, โDeep mutual learning,โ in Proc. IEEE
Conf. Computer Vision and Pattern Recognition (CVPR), pp. 4320-4328, 2018. DOI:10.1109/CVPR.2018.00454

S. H. Lee, D. H. Kim and B. C. Song, โSelf-supervised knowledge distillation using
singular value decomposition,โ in Proc. European Conf. Computer Vision (ECCV), pp.
335-350, 2018. DOI: 10.1007/978-3-030-01246-5_21

B. Cheng, A. Schwing and A. Kirillov, โPer-pixel classification is not all you need
for semantic segmentation,โ Advances in Neural Information Processing Systems (NeurIPS),
2021.

F. Chollet, โXception: Deep learning with depthwise separable convolutions,โ in Proc.
IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 1251-1258, 2017. DOI:10.1109/CVPR.2017.195

Z. Wang, M. Berman, A. Rannen-Triki, P. Torr, D. Tuia, T. Tuytelaars, et al., โRevisiting
evaluation metrics for semantic segmentation: Optimization and evaluation of fine-grained
intersection over union,โ Neural Information Processing Systems (NeurIPS), 2023.

R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh and D. Batra, โGrad-CAM:
Visual explanations from deep networks via gradient-based localization,โ in Proc.
IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp. 618-626, 2017. DOI:
10.1109/CVPR.2017.74

์ ์์๊ฐ
He is currently pursuing his BS degree in Electronics and Computer Engineering at
Seokyeong University, His research interests include deep learning, computer vision.
He is currently pursuing his BS degree in Electronics and Computer Engineering at
Seokyeong University, His research interests include deep learning, computer vision.
He received the BS, MS, and Ph.D degrees in Electrical Engineering from Yonsei University,
Seoul, Korea, in 1986, 1988, and 1993 respectively. He joined Genetic Algorithms Research
and Applications Group (GARAGe), Michigan State University from 1999 to 2002 as a
Research Associate. He was also appointed Visiting Assistant Professor in Electrical
& Computer Engineering, Michigan State University from 2002 to 2003. He was a Visiting
Scholar at BEACON (Bio/computational Evolution in Action CONsortium) Center, Michigan
State University from 2011 to 2012. He is currently Professor of Electronics Engineering,
Seokyeong University. His research interests include deep learning, evolutionary computation,
computer vision, and intelligent robotics.