๊น๋ณํ
(Byung-Hyun Kim)
1
์กฐ์์ง
(Soo-Jin Cho)
2โ
์ฑํ์
(Hong-Je Chae)
3
๊นํ๊ธฐ
(Hong-Ki Kim)
4
๊ฐ์ข
ํ
(Jong-Ha Kang)
5
-
ํ์ํ์,์์ธ์๋ฆฝ๋ํ๊ต ํ ๋ชฉ๊ณตํ๊ณผ ๋ฐ์ฌ๊ณผ์
-
์ ํ์,์์ธ์๋ฆฝ๋ํ๊ต ํ ๋ชฉ๊ณตํ๊ณผ ๋ถ๊ต์
-
์ ํ์,ํ๊ตญ๋๋ก๊ณต์ฌ ๊ตฌ์กฐ๋ฌผ์ฒ ๋๋ฆฌ
-
์ ํ์,ํ๊ตญ๋๋ก๊ณต์ฌ ์์์ง์ฌ ์ฐจ์ฅ
-
์ ํ์,ใ์์์ํํธ ์ฐจ์ฅ
Copyright ยฉ The Korea Institute for Structural Maintenance and Inspection
ํค์๋
ํฐ๋ ๊ท ์ด ํ์ง, ๋ฅ๋ฌ๋, Cascade Mask R-CNN, ๋น๊ท ์ด ํ์ต
Key words
Tunnel crack detection, Deep learning, Cascade mask R-CNN, Negative sample training
1. ์ ๋ก
ํฐ๋์ ์ฐ๊ฐ์ง์ญ์ด ๋ง์ ๋ํ๋ฏผ๊ตญ์ ๊ณ ์๋๋ก์ ๊ณ ์์ฒ ๋ ์์ค๋ฌผ์ ๊ตฌ์ฑํ๋ ์ฃผ์ ํ ๋ชฉ ์์ค๋ฌผ์ด๋ค. ํ์ง๋ง, ๊ณ ์๋๋ก์ ๊ณ ์์ฒ ๋ ์ด์ฉ์ ํน์ฑ์, ์ฐจ๋์ด๋
์ด์ฐจ์ ํตํ์ ์ฐจ๋จํ๊ธฐ ์ฝ์ง ์์, ์ธ๋ ฅ์ ์ก์ ์ ๊ฒ์ ๊ธฐ๋ฐํ์ฌ ์์ ์ง๋จ์ ์ค์ํ๋๋ฐ ๋ง์ ์ด๋ ค์์ด ๋ฐ๋ฅธ๋ค. ๋ํ ์ต๊ทผ ํฐ๋ ์๊ณต ๊ธฐ์ ์ ๋ฐ๋ฌ๋ก ์ธํ
์ฅ๊ฑฐ๋ฆฌ ํฐ๋์ ์ฆ๊ฐ๋ ์ก์ ์ ๊ฒ ๊ธฐ๋ฐ์ ์์ ์ง๋จ ๋ฐฉ๋ฒ์ ๋ณํ๋ฅผ ์ ๋ํ๊ณ ์๋ค.
์ด๋ฌํ ์ก์ ์ ๊ฒ ๊ธฐ๋ฐ ํฐ๋ ์์ ์ง๋จ์ ์ด๋ ค์์ ๊ทน๋ณตํ๊ณ , ํจ์จ์ ์ธ ํฐ๋ ์์ ์ง๋จ์ ์ํํ๊ธฐ ์ํ์ฌ, ์์์ฅ๋น ๋ฐ ์์์ฒ๋ฆฌ๋ฅผ ์ด์ฉํ ํฐ๋ ์์ ์ง๋จ
๊ธฐ๋ฒ์ ๋ํ ์ฐ๊ตฌ๊ฐ ๊พธ์คํ ๋ณด๊ณ ๋๊ณ ์๋ค. ์์์ ์ด์ฉํ ์์ ์ง๋จ์ ์ธ๊ด ์์ ๋ฟ ์๋๋ผ ๋ณ์ ์ธก์ ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์ ์ฉ๋๊ณ ์๋ค(Sanpei and Mizoguchi, 2018). Yamaguchi et al.(2007)์ ๊ท ์ด์ ๊ฐ ํฝ์
์์์ ์งํ๋ฐฉํฅ์ ๊ณ ๋ คํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์ ์ํ์๋ค. Yu et al.(2007)์ ์๋ํ๋ ํฐ๋ ๊ท ์ด ํ์ง๋ฅผ ์ํ์ฌ ์ด๋์ ๋ก๋ด์ ์ ์ํ๊ณ ํ์คํ ๊ทธ๋จ ํํํ์ ๊ฒฝ๊ณ๋ถ ํ์ง(Edge Detection) ๋ฑ์ ์ด๋ฏธ์ง์ฒ๋ฆฌ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ
๊ท ์ด ํ์ง๋ฅผ ์ํํ์๋ค. ์ต๊ทผ์๋ ๋ฅ๋ฌ๋ ๊ธฐ์ ์ ๋ฐ๋ฌ๋ก ์ธํ์ฌ ์์์ฒ๋ฆฌ๋ฅผ ์ด์ฉํ ํฐ๋ ์์ํ์ง ๊ธฐ์ ์ ๋ฐ๋ฌ ๋ํ ๊ฐ์ํ๋๊ณ ์๋ค. Lee et al.(2019)์ ์ค๋
์นด๋ฉ๋ผ๋ก ๊ตฌ์ถ๋ ์ดฌ์ ์์คํ
์ ํธ๋ญ์ ํ์ฌํ์ฌ ํฐ๋ ์ค์บ์ ์ํํ์์ผ๋ฉฐ, ์ด๋ฏธ์ง ๋ถ๋ฅ(Image Classification) ๋ฅ๋ฌ๋ ๋ชจ๋ธ์
ํฐ๋ ์ด๋ฏธ์ง์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ๋ฐฉ์์ผ๋ก ์ ์ฉํ์ฌ ํฐ๋ ํ๋ฉด์ ๊ท ์ด๊ณผ ๋น๊ท ์ด ์์ญ์ผ๋ก ์ด์ง๋ถ๋ฅ(Binary Classification)ํ์๋ค. Song et al.(2019)์ ํฐ๋์ ์ค์น๋ ์ฒ ๋ ๋ ์ผ์์ ์ดํ ๊ฐ๋ฅํ ์ค์บ๋ ์ฅ๋น๋ฅผ ๊ฐ๋ฐํ๊ณ ์ดฌ์๋ ์ด๋ฏธ์ง์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๊ท ์ด์ ํ์งํ๋ ์์คํ
์ ๊ตฌ์ถํ์๋ค.
Li et al.(2020)์ ์์ฉ ์นด๋ฉ๋ผ(DSC-WX700 camera)๋ฅผ ์กฐํฉํ ์ดฌ์์ฅ๋น๋ฅผ ์ด์ฉํ์ฌ ํฐ๋ ํ๋ฉด์ ์์์ ์ทจ๋ํ๊ณ ํฝ์
๋จ์๋ก ๋ฌผ์ฒด์ ํ์์ ์ถ์ ํ๋ U-Net(Ronneberger et al., 2015)์ ์ด์ฉํ์ฌ ๊ท ์ด ํ์ง๋ฅผ ์ํํ์๋ค. ์ถ๊ฐ์ ์ผ๋ก ํฐ๋ ๊ท ์ด ํ์ง ๋ฟ ์๋๋ผ ์์คํํธ์ ์ฝํฌ๋ฆฌํธ์ ๋ํด์๋ ๋ฅ๋ฌ๋ ์ ๊ฒฝ๋ง์ ์ด์ฉํ๋ ์ฐ๊ตฌ๊ฐ ๋ณด๊ณ ๋ ๋ฐ
์๋ค(Choi et al., 2019; Kim and Cho, 2019; Kim and Cho, 2020; Jang et al., 2021).
ํฐ๋ ๊ท ์ด ํ์ง๋ฅผ ์ํ์ฌ ๋ค์ํ ๋
ผ๋ฌธ๋ค์ด ๋ณด๊ณ ๋์์ง๋ง, ๊ธฐ์กด ๋
ผ๋ฌธ๋ค์ ์๋์ ๊ฐ์ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์๋ค. ๋จผ์ , ํ
์คํธ ๋ฒ ๋๊ฐ ๋๋ ํฐ๋์ ์ ์ฒด ์์ญ์ด
์๋๋ผ, ์ดฌ์๋ ์ด๋ฏธ์ง์ ์ผ๋ถ ์์ญ๋ง์ ์ฌ์ฉํ์ฌ ๊ท ์ด ํ์ง ์๊ณ ๋ฆฌ์ฆ์ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค. ๋ํ, ์ถ๊ฐ์ ์ผ๋ก ํฐ๋์ ์กด์ฌํ ์ ์๋
๋ค์ํ ํํ์ ๋น๊ท ์ด ๋ฌผ์ฒด์ ๋ํ ์ ํ๋ ๊ฒ์ฆ์ ์ํํ์ง ์์๋ค. ์ผ๋ฐ์ ์ผ๋ก ๊ท ์ด์ ์ด๋ฏธ์ง์์ ๋งค์ฐ ๊ฐ๋๊ณ ๊ธธ๊ฒ ๋ป์ ํํ๋ก ๋ํ๋๋ค. ํฐ๋ ๋ด์๋
์ด์ ์ ์ฌํ ํ์์ ๋ฌผ์ฒด๊ฐ ๋ง์ด ์กด์ฌํ๋๋ฐ(์: ์ ์ , ๊ฑฐ๋ฏธ์ค), ์ด๋ค์ ๊ท ์ด ํ์ง ์๊ณ ๋ฆฌ์ฆ์ด๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ํํ๋ ํฐ ์์ธ์ด ๋๋ค. ๋ฐ๋ผ์
์ค๋ฌด์ ์ ์ฉ ๊ฐ๋ฅํ ํฐ๋ ๊ท ์ด ํ์ง ์์คํ
์ ๊ฐ๋ฐํ๊ธฐ ์ํด์๋, ๋๊ท๋ชจ ํ
์คํธ ๋ฒ ๋์์์ ์ ํ๋ ๊ฒ์ฆ๊ณผ, ๋น๊ท ์ด ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฅํ ์ ์๋ ์ฑ๋ฅ์ด ํ์์ ์ผ๋ก
์๊ตฌ๋๋ค.
๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ธฐ์กด ์์๊ธฐ๋ฐ ํฐ๋ ๊ท ์ด ํ์ง ์ฐ๊ตฌ์ฌ๋ก๋ค์ ๋จ์ ์ ๊ทน๋ณตํ๊ธฐ ์ํ์ฌ, ๋น๊ท ์ด ๋ฌผ์ฒด ํ์ต์ ๊ธฐ๋ฐํ 6๋จ๊ณ ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋
๋ชจ๋ธ ๊ฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ์๋ค. ์ ์๋ ํ๋ ์์ํฌ๋ ํฐ๋์์ ์ทจ๋๋ ์ด๋ฏธ์ง ๋ด ๊ท ์ด ํ์, ํฝ์
๋จ์ ๊ท ์ด ๋ผ๋ฒจ๋ง, ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต, ๋น๊ท ์ด
๋ฌผ์ฒด ์์ง, ๋น๊ท ์ด ๋ฌผ์ฒด ์ฌํ์ต, ์ต์ข
ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ์ ์ด 6๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋ค. ์ ์๋ ํ๋ ์์ํฌ์ ์ผ๋ฐ ๊ท ์ด ์ด๋ฏธ์ง 1561์ฅ, ๋น๊ท ์ด ์ด๋ฏธ์ง
206์ฅ์ ์ด์ฉํ์ฌ ๊ฐ๋ณ ๋ฌผ์ฒด ์ธ๋ถํ(Instance Segmentation) ๋ชจ๋ธ์ธ Cascade Mask R-CNN์ ํ์ตํ์ฌ ๋์ ์ฑ๋ฅ์ ๊ท ์ด
ํ์ง ๋ชจ๋ธ์ ๊ฐ๋ฐํ์๋ค. ํ์ต๋ ๋ชจ๋ธ์ ํ์ฅ ์ ์ฉ์ฑ์ ๊ฒํ ํ๊ธฐ ์ํ์ฌ ์ ์ , ์ ๋ฑ ๋ฑ์ ํฌํจํ๋ ์ฝ 200m ๊ธธ์ด์ ์ค์ ํฐ๋์์ ๊ท ์ด ํ์ง๋ฅผ ์ํํ์๋ค.
๋ณธ ์ฐ๊ตฌ๋ ๊ธฐ์กด ์ฐ๊ตฌ๋ค๊ณผ ์๋์ ๊ฐ์ ์ฐจ๋ณ์ฑ์ ๊ฐ๋๋ค.
โฆํจ์จ์ ์ธ ๋น๊ท ์ด ํ์ต์ ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ , Cascade Mask R-CNN์ ์ด์ฉํ์ฌ ํ์ต์ ์ํํ์๋ค.
โฆ์ผ๋ถ ์์ญ์ ์ด๋ฏธ์ง๊ฐ ์๋, ์ค์ ํฐ๋ ํ
์คํธ๋ฒ ๋์ ํน์ ๊ฒฝ๊ฐ(Span)์์ ์ดฌ์๋ ์ด๋ฏธ์ง๋ค์ ์ด์ฉํ์ฌ ๊ฐ๋ฐ๋ ์์คํ
์ ์ ํ๋๋ฅผ ๊ฒ์ฆํ์๋ค.
2. ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ ํ๋ ์์ํฌ(Framework) ์ ์
๋ณธ ๋
ผ๋ฌธ์์๋ ์ค์ ํฐ๋์์ ํ์ฉ ๊ฐ๋ฅํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ธฐ ์ํ์ฌ Fig. 1์ ๋ํ๋ ๊ฒ๊ณผ ๊ฐ์ 6๋จ๊ณ ๋น๊ท ์ด ํ์ต ๊ธฐ๋ฐ ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. 1) ์ดฌ์๋ ์ด๋ฏธ์ง์์ ๊ท ์ด์ด ์๋ ๋ถ๋ถ์
ํ์ธํ๊ณ , ๊ท ์ด์ ํฌํจํ ์ด๋ฏธ์ง์ ๋ชฉ๋ก์ ์์
ํ์ผ์ ํํ๋ก ์ ์งํ๋ค. 2) ๊ท ์ด์ ํฌํจํ๋ค๊ณ ํ์ธ๋ ์ด๋ฏธ์ง๋ค์์, ๊ท ์ด์ด ์๋ ๋ถ๋ถ๋ง ๋ณ๋๋ก ์ ์ฅํ
๋ค, ์์ฉ ํ๋ก๊ทธ๋จ์ธ Photoshop์ ์ด์ฉํ์ฌ ํฝ์
๋จ์๋ก ๊ท ์ด์ ์์น๋ฅผ ํ์ํ๋ค. ๋ํ Photoshop์ ์ด์ฉํ์ฌ ๊ท ์ด์ ์์น๊ฐ ํฝ์
๋จ์๋ก
ํ๊ธฐ๋ ์ด๋ฏธ์ง๋ฅผ COCO (Common Object in Context) ๋ฐ์ดํฐ์
(Lin et al., 2014)์ ๊ฐ๋ณ ๋ฌผ์ฒด ์ธ๋ถํ(Instance Segmentation) ํํ๋ก ๋ณํํ๋ค. 3) COCO ๋ฐ์ดํฐ์
์ ํํ๋ก ๋ณํ๋ ํฐ๋ ๊ท ์ด ๋ฐ์ดํฐ์
์ ์ด์ฉํ์ฌ
ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ํ์ต์ ์งํํ๋ค. ํ์ต์ ์ฌ์ฉ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ 3๋จ๊ณ์ ๋ฌผ์ฒด ํ์ง ๊ณผ์ ์ ๊ฑฐ์น๋ Cascade Mask R-CNN (He et al., 2017; Cai and Vasconcelos, 2018)์ด๋ค. 4) ํ์ต๋ Cascade Mask R-CNN์ ์ด์ฉํ์ฌ ํฐ๋ ๊ท ์ด ํ์ง๋ฅผ ์ํํ๊ณ , ์ด ๋ ๊ท ์ด๋ก ํ์ ๋๋ ์คํ์ง ์ด๋ฏธ์ง๋ค์ ๋ณ๋๋ก ์ ์ฅํ์ฌ,
์คํ์ง ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ๋ค. 5) ์์ง๋ ์คํ์ง ๋ฐ์ดํฐ์
๊ณผ ์ค์ ๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ๊ฒฐํฉํ์ฌ, ์ฆ๊ฐ๋ ๋น๊ท ์ด ๋ฐ์ดํฐ์
์ ์ถ๊ฐ๋ก ๊ตฌ์ถํ๋ค. ๊ตฌ์ถ๋
๋น๊ท ์ด ๋ฐ์ดํฐ์
์ 2๋จ๊ณ์์ ๊ตฌ์ถ๋ ์ผ๋ฐ ๊ท ์ด ์ด๋ฏธ์ง์ ํฉ์ณ์ ธ ์ถ๊ฐ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ํ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต์ ์ด์ฉ๋๋ค. 6) 3-5๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ์ฌ,
์ถฉ๋ถํ ๊ท ์ด๊ณผ ๋น๊ท ์ด ์ด๋ฏธ์ง ๋ฐ์ดํฐ์
์ ์์งํ ๋ค ์ต์ข
ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ถ์ ์์ฑํ๋ค. ์ ์๋ ํ๋ ์์ํฌ์ ๊ฐ ๋จ๊ณ์ ๋ํ ์ธ๋ถ์ฌํญ์ ์ด์ด์ง๋ ๋จ๋ฝ์์
์์ ํ๋ค.
Fig. 1 Crack detection deep learning model development framework based on negative sample image training
2.1 ํฐ๋ ์ด๋ฏธ์ง ๋ด ๊ท ์ด ์์น ํ์
์ ์๋ ํ๋ ์์ํฌ์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ธ ํฐ๋ ์ด๋ฏธ์ง ๋ด ๊ท ์ด ์์น ํ์ ๋จ๊ณ๋, ์ต์ด ์ธ๋ ฅ์ ์ํ์ฌ ํฐ๋ ์ด๋ฏธ์ง ๋ด์์ ๊ท ์ด์ด ์์นํ๋ ์์ญ์ ํ์ํ๋
๋จ๊ณ์ด๋ค. ์ดฌ์๋ ์ด๋ฏธ์ง ๋ด์์ ์ธ๋ ฅ์ด ์ง์ ๊ท ์ด์ ์์น๋ฅผ ํ์ธํ๊ณ , Table 1๊ณผ ๊ฐ์ ํํ๋ก ๊ท ์ด์ ์์น๋ฅผ ๊ธฐ๋กํ๋ค. ํ์ ๋์์ด ๋ ๋ชจ๋ ํฐ๋ ์ด๋ฏธ์ง์ ๋ํ์ฌ ๊ท ์ด ๋ฐ์์ฌ๋ถ๋ฅผ ์ ๊ฒํ๋ฉฐ, ๊ท ์ด์ ๋ฐ์ ์ฌ๋ถ๋ฅผ Table 1๊ณผ ๊ฐ์ด, ์ง์ฌ๋ช
, ํฐ๋๋ช
, ์ด๋ฏธ์ง ๋ฒํธ, ๊ทธ๋ฆฌ๊ณ ๋น๊ณ ์ ํจ๊ป ๊ธฐ๋กํ๋ค. ์ฌ๊ธฐ์ ๋น๊ณ ๋์๋ ์ด๋ฏธ์ง์์ ํ์ธ๋ ํน์ด์ฌํญ์ ๊ธฐ๋กํ๋ค. ์์๋ก ๊ท ์ด์ด ์ด๋ฏธ์ง
๋ด ํ์ธ์ด ๊ฐ๋ฅํ๋, 1ํฝ์
์์ค์ผ๋ก ๊ท ์ด์ด ํ์ธ๋๋ ๊ฒฝ์ฐ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๊ธฐ ์ด๋ ต๊ธฐ ๋๋ฌธ์ ๋น๊ณ ๋์ ํด๋น ๋ด์ฉ์ ๊ธฐ๋กํ๊ฒ ๋๋ค. ์ฌ๊ธฐ์
์ต์ด ๊ท ์ด์ ์์น๋ฅผ ํ์ธํ๋ ๋จ๊ณ๋ฅผ ์ทจํ๋ ์ด์ ๋, 2๋จ๊ณ์์ ๊ท ์ด ์์ญ์ Photoshop์ ์ด์ฉํ์ฌ ๋ผ๋ฒจ๋ง ํ ๋ ๋น ๋ฅด๊ฒ ๊ท ์ด ์์ญ์ ์ฐพ์ ์
์์ ๋ฟ ์๋๋ผ, ๋๊ท๋ชจ ํ
์คํธ ๋ฒ ๋ ์ ์ ์ ์ฐธ๊ณ ์๋ฃ๋ก ์ฌ์ฉ๋ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
Table 1 Example of crack area search list
Local
Branch
|
Tunnel Name
|
Image No.
|
Crack
Occurrence
|
Remarks
|
โโ
|
AA
|
001
|
โ
|
|
โกโก
|
BB
|
005
|
ร
|
|
โณโณ
|
CC
|
010
|
ร
|
|
โโ
|
DD
|
164
|
โ
|
Crack is too narrow due to image resolution
|
...
|
...
|
...
|
...
|
...
|
2.2 Photoshop์ ์ด์ฉํ ๊ท ์ด ๋ผ๋ฒจ๋ง
์ ์๋ ํ๋ ์์ํฌ์ ๋ ๋ฒ์งธ ๋จ๊ณ๋ Photoshop์ ์ด์ฉํ ๊ท ์ด ์์น ๋ผ๋ฒจ๋ง ์์
์ด๋ค. ์ต๊ทผ ์ด๋ฏธ์ง์ฒ๋ฆฌ์ ์ด์ฉ๋๋ ๋๋ถ๋ถ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ ์ง๋ํ์ต(Supervised
Learning)์ ๊ธฐ๋ฐํ๊ณ ์์ผ๋ฉฐ, ์ง๋ํ์ต์ ์ํํ๊ธฐ ์ํด์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต์ ํ์ํ ์ ๋ต(Label)์ ์ฌ์ฉ์๊ฐ ์ง์ ์ ๊ณตํด์ผํ๋ค. ๋ณธ ์ฐ๊ตฌ์
์ฌ์ฉ๋๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ธ Cascade Mask R-CNN์ด ํฌํจ๋๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ฒ์ฃผ์ธ ๊ฐ๋ณ ๋ฌผ์ฒด ์ธ๋ถํ(Instance Segmentation)
๋ชจ๋ธ์ ๊ฒฝ๊ณ์์(Bounding Box) ๊ธฐ๋ฐ์ ๋ฌผ์ฒด์ ์์น์ ๋ณด์ ๋ฌผ์ฒด์ ํฝ์
๋จ์ ํ์์ ๋ณด๋ฅผ ํ์ต์ ์ฌ์ฉํ๋ค. ๋ฐ๋ผ์ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๊ธฐ
์ํด์๋ ์ฌ์ฉ์๊ฐ ์ง์ ๋ฌผ์ฒด์ ์์น์ ๋ณด์ ํฝ์
๋จ์ ํ์์ ๋ณด๊ฐ ๋ด๊ธด ๋ฐ์ดํฐ์
์ ๊ตฌ์ถํ ํ์๊ฐ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ Photoshop์ ์ฌ์ฉํ์ฌ ๊ท ์ด์
ํฝ์
๋จ์๋ก ๋ผ๋ฒจ๋งํ์์ผ๋ฉฐ, ๋ผ๋ฒจ๋ง๋ ๊ท ์ด์ ํ์ ์ ๋ณด๋ก๋ถํฐ ๊ฒฝ๊ณ์์์ ์์น์ ๋ณด๋ฅผ ์์ฑํ๊ณ , ์ด๋ฅผ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๊ฐ๋ณ ๋ฌผ์ฒด ์ธ๋ถํ ๋ชจ๋ธ์ ๋ฐ์ดํฐ์
ํํ ์ค ํ๋์ธ Common Object in Context์ ํํ๋ก ๋ณํํ์ฌ ์ ์ฅํ๊ฒ ๋๋ค.
2.3 Cascade Mask R-CNN
๋ณธ ์ฐ๊ตฌ์์๋ ๊ฐ๋ณ ๋ฌผ์ฒด ์ธ๋ถํ(Instance Segmentation) ๋ชจ๋ธ ์ค ํ๋์ธ Cascade Mask R-CNN์ ์ด์ฉํ์ฌ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋
๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. Cascade Mask R-CNN์ ๊ธฐ์กด Mask R-CNN ๋ชจ๋ธ์ ๋ณํํ์ฌ ๊ฐ๋ฐ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก, ๋ฌผ์ฒด์ ์์น๋ฅผ ํ์ ํ๋ Classification
Layer๋ฅผ ์ด 3๋จ๊ณ๋ก ๊ตฌ์ฑํ์ฌ, ๋ฌผ์ฒด ํ์ง์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค. Cascade Mask R-CNN์ด ๋ฌผ์ฒด๋ฅผ ํ์งํ๋ ๊ณผ์ ์ ํฌ๊ฒ 3๋จ๊ณ๋ก ๊ตฌ๋ถํ
์ ์๋ค. ๋จผ์ , 1๋จ๊ณ์์๋ Cascade Mask R-CNN์ Region Proposal Network (RPN)์ ์ด์ฉํ์ฌ ๋ฐฐ๊ฒฝ๊ณผ ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋
์์ญ์ ๊ตฌ๋ถํ๋ ์ด์ง ๋ถ๋ฅ๋ฅผ ์ํํ๋ค. 2๋จ๊ณ์์๋ Cascade Mask R-CNN์ RoIAlign ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ, RPN์ ์ํ์ฌ ๋ฌผ์ฒด๊ฐ
์๋ค๊ณ ํ๋จ๋ ์์ญ์์ ํน์ง ์ง๋(Feature Map)์ ์ถ์ถํ๊ณ , ์ถ์ถ๋ ํน์ง ์ง๋์ ๊ทผ๊ฑฐํ์ฌ ๋ฌผ์ฒด์ ์ข
๋ฅ๋ฅผ ํ๋จํ๊ณ ๋ฌผ์ฒด์ ์์น๋ฅผ ๋ณด์ ํ๋ค.
๋ง์ง๋ง์ผ๋ก 3๋จ๊ณ์์๋ Classification Layer ๋ฐ Bounding Box-Refinement layer์ ํํํ๊ฒ ๋ฐฐ์น๋ Mask Branch๋ฅผ
ํตํด ๋ฌผ์ฒด์ ํฝ์
๋จ์ ์์ญ์ ์ถ์ถํ๋ค. Cascade Mask R-CNN์ ๋ชจ๋ธ ๊ตฌ์ฑ ํํ๋ Fig. 2์ ๋ํ๋ ์๋ค. ๋ชจ๋ธ์ ๋ํ ์์ธํ ์ค๋ช
์ ๋ถ๋ก์ ์๋กํ์๋ค.
Fig. 2 Overall architecture of cascade mask R-CNN
2.4 ํ์ต๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ ๋น๊ท ์ด ์ด๋ฏธ์ง ํ์
๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ ํ๋ ์์ํฌ์ ๋ค ๋ฒ์งธ ๋จ๊ณ๋ ํ์ต๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ ๋น๊ท ์ด ์ด๋ฏธ์ง ํ์์ด๋ค. ๋น๊ท ์ด ์ด๋ฏธ์ง ํ์์ ์ํด์๋ ๋จผ์ 2๋จ๊ณ์์
์ทจ๋๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ Cascade Mask R-CNN์ ํ์ต์์ผ์ผํ๋ค. ํ
์คํธ ๋ฒ ๋๋ก ์ฌ์ฉ๋์ง ์์ ํฐ๋ ์์ญ์ ์ผ๋ถ ์ ์ ํ ๋ค, ์ ์ ๋
๋น๊ท ์ด ์ถ์ถ ๋์ ์ด๋ฏธ์ง์์ ํ์ต๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๊ท ์ด ํ์ง๋ฅผ ์ํํ๋ค. ๋น๊ท ์ด ์ถ์ถ ๋ฐฉ์์ ๋จผ์ ๋น๊ท ์ด ์ถ์ถ ๋์ ์ด๋ฏธ์ง์์ ๊ท ์ด ํ์ง๋ฅผ
์ํํ ๋ค, ๊ท ์ด์ด ์๋ค๊ณ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ด ํ๋จํ ์์ญ์ ์ ๋ถ ๋ณ๋์ ์ด๋ฏธ์ง๋ก ์ ์ฅํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ ์ฅ๋ ์ด๋ฏธ์ง์ ์ค์ ๊ท ์ด์ด ํฌํจ๋์ด ์๋์ง, ๊ท ์ด์ด
ํฌํจ๋์ด ์์ง ์์์ง ์์
์์ ์ํ์ฌ ๊ฒํ ๋๋ค. ๊ฒํ ๋ ์ด๋ฏธ์ง๋ค์ ๋ณ๋์ ๋ฐ์ดํฐ ์
์ผ๋ก ๊ด๋ฆฌ๋๋ค.
2.5 ๋น๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ์ด๋ฏธ์ง ์ฆ๊ฐ ์ํ
์ ์๋ ํ๋ ์์ํฌ์ 5๋จ๊ณ์์๋ ํ์ต๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ์ทจ๋๋ ๋น๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ์ฌ ํ์ต ์ด๋ฏธ์ง ์ฆ๊ฐ(Image Augmentation)์
์ํํ๋ค. ์ฌ๊ธฐ์ ํ์ต ์ด๋ฏธ์ง ์ฆ๊ฐ์, ์ฌ๋ฌ ๊ฐ์ง ์ด๋ฏธ์ง์ฒ๋ฆฌ๋ฅผ ํฌํจํ ์ฌ๋ฌ ๊ฐ์ง ๋ฐฉ๋ฒ๋ก ์ ์ ์ฉํ์ฌ ํ์ต ๋ฐ์ดํฐ์ ์์ ๋ฐ์ดํฐ์
์ ๋ค์์ฑ์ ํจ์จ์ ์ผ๋ก
ํ๋ณดํ๋ ๋ฐฉ๋ฒ๋ก ์ ๋งํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ทจ๋๋ ๋น๊ท ์ด ์ด๋ฏธ์ง(Negative Sample)์, ๋ฏธ๋ฆฌ ํ๋ณด๋ ๊ท ์ด ์ด๋ฏธ์ง(Clean Sample)์
ํฉ์ฑํ๋ ๋ฐฉ์์ผ๋ก ๊ท ์ด ๋ฐ์ดํฐ์
์ ์ฆ๊ฐ์์ผฐ๋ค. ์ฌ๊ธฐ์ ๋น๊ท ์ด ์ด๋ฏธ์ง๋ 3๋จ๊ณ์์ ์ทจ๋๋ ๊ท ์ด ๋ฐ์ดํฐ์
์ค, ์์
์์ ์ํ์ฌ ๊ท ์ด์ ํฌํจํ์ง ์๋๋ค๊ณ
ํ๋จ๋ ์ด๋ฏธ์ง๋ค์ ๋งํ๋ฉฐ, ๊ท ์ด ์ด๋ฏธ์ง(Clean Sample)์ ์์
์์ ์ํ์ฌ ๊ท ์ด์์ด ๋ช
ํํ๊ฒ ํ๋จ ๊ฐ๋ฅํ ์ด๋ฏธ์ง๋ค์ ๋งํ๋ค. 5๋จ๊ณ์์ ์ ์๋
๋ฐฉ๋ฒ์ผ๋ก ์ฆ๊ฐ๋ ๋ฐ์ดํฐ์
์ ์ํ์ฌ ๊ธฐ์กด ํ์ตํ์๋ ๊ท ์ด ํ์ง ๋ชจ๋ธ์ ์ถ๊ฐ๋ก ํ์ต์ ์ํค๋ฉฐ, ํ์ต ํ ๋ค์ 4๋จ๊ณ๋ฅผ ๊ฑฐ์ณ์ ๊ท ์ด ํ์ง๋ฅผ ์ํํ๊ณ , ์ด
๋ ์ทจ๋๋ ์คํ์ง ์ด๋ฏธ์ง๋ค์ ์ด์ฉํ์ฌ ์ถ๊ฐ์ ์ธ ํ์ต ๋ฐ์ดํฐ ์ฆ๊ฐ์ ์ํํ๋ค.
2.6 ์ต์ข
ํฐ๋ ๊ท ์ด ํ์ต ๋ฐ์ดํฐ ํ์
์ ์๋ ํ๋ ์์ํฌ์ ๋ง์ง๋ง 6๋จ๊ณ๋ 1-5๋จ๊ณ์์ ์ ์๋ ๊ณผ์ ์ ์ด์ฉํ์ฌ ์ทจ๋๋ ํฐ๋ ๊ท ์ด ํ์ต ๋ฐ์ดํฐ์
์ ํ์ ํ๋ ๋จ๊ณ์ด๋ค. ์ด ๋ ์ฌ์ฉ์์ ์์คํ
๊ฐ๋ฐ ๋ชฉ์ ์ ์ทจํฉํ ๋ฟ ์๋๋ผ, ์คํ์ง์ ๋น์จ์ด ์ผ์ ๋น์จ ์ดํ๋ก ๋ด๋ ค๊ฐ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ๋ค๊ณ ํ๋จ๋๋ฉด, 3-5๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ๋ ๊ณผ์ ์
์ค๋จํ๊ณ ์ต์ข
์ ์ผ๋ก ๋ฐ์ดํฐ์
์ ํ์ ํ๋ค.
3. ์ค์ ํฐ๋ ๊ท ์ด ํ์ง ๋ชจ๋ธ ๊ฐ๋ฐ ๋ฐ ๊ฒ์ฆ
๋ณธ ๋จ๋ฝ์์๋ 2์ฅ์์ ์ ์๋ ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ ํ๋ ์์ํฌ๋ฅผ ์ค์ ํฐ๋ ๊ท ์ด ํ์ง ์์คํ
๊ฐ๋ฐ์ ์ ์ฉํ๋ ๊ณผ์ ์ ์์ธ ๊ธฐ์ ํ๋ค.
3.1 ํฐ๋ ์ค์บ๋ ์ฅ๋น๋ฅผ ์ด์ฉํ ์ค์ ํฐ๋ ์ด๋ฏธ์ง ์ดฌ์ ๋ฐ ํฐ๋ ์ด๋ฏธ์ง ๋ด ๊ท ์ด ์์ญ ํ์
๋ณธ ์ฐ๊ตฌ์์ ๋ชฉํํ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ํํ๊ธฐ ์ํ์ฌ, ํ๊ตญ๋๋ก๊ณต์ฌ์ ํ์
์ ํตํ์ฌ ํฐ๋ ์ค์บ๋ ์ฅ๋น๋ฅผ ์ด์ฉํ ์ค์ ํฐ๋ ์ด๋ฏธ์ง ์ทจ๋์
์ํํ์๋ค. ํฐ๋ ์ด๋ฏธ์ง ์ดฌ์์ ์ด์ฉ๋ ํฐ๋ ์ค์บ๋ ์ฐจ๋์ ใ์๋ผ์ดํธ์์ ๊ฐ๋ฐํ์๋ค. ํฐ๋ ์ค์บ๋ ์ฐจ๋์ ์์ฉ ์ฐจ๋์ ์ฒ์ ๋ถ์ ๋ค์์ ๋์งํธ ์นด๋ฉ๋ผ์
์กฐ๋ช
์ฅ๋น๋ฅผ ํ์ฌํ๊ณ ์๋ค(Fig. 3). ์ด๋ฅผ ์ด์ฉํ์ฌ ํฐ๋ ํ๋ฉด์ ์ผ์ ๋ฉด์ ๋จ์๋ก ๋ถํ ํ์ฌ ์ดฌ์ํ๊ฒ ๋๋ฉฐ, ์ดฌ์๋ ์ด๋ฏธ์ง๋ค์ ์นด๋ฉ๋ผ์ ์ดฌ์ ๋ฐฉํฅ์ ๋ฐ๋ผ ์ด์ด ๋ถ์ฌ ์ต์ข
ํฐ๋ ํ๋ฉด
์ด๋ฏธ์ง๋ฅผ ๊ตฌ์ถํ๊ฒ ๋๋ค(Fig. 4). ํ๊ตญ๋๋ก๊ณต์ฌ์์ ๊ด๋ฆฌ ์ค์ธ ํฐ๋์์ ์ด๋ฏธ์ง ์ดฌ์์ ์งํํ์์ผ๋ฉฐ, ๊ฐ ํฐ๋์ ์ด๋ฏธ์ง๋ ์ฝ 10000ร15000์ ํด์๋๋ฅผ ๊ฐ์ง๋ค.
Fig. 3 Tunnel scanning vehicle
Fig. 4 Example of tunnel image captured by the tunnel scanning vehicle
3.2 Photoshop์ ์ด์ฉํ ๊ท ์ด ์์ญ ๋ผ๋ฒจ๋ง ์ํ ์ธ๋ถ์ฌํญ
๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ Photoshop์ ์ด์ฉํ ๊ท ์ด ๋ผ๋ฒจ๋ง์ ์๋์ ๊ฐ์ ๋จ๊ณ๋ก ์ค์ ์ํ๋์๋ค. ๋จผ์ ์์ง๋ ํฐ๋์ ์ด๋ฏธ์ง ์ค ๊ท ์ด์ ํฌํจํ๋ ์ฃผ๋ณ
์์ญ ์ฝ 1000ร1000 ์ ๋๋ฅผ ์๋ผ๋ธ๋ค. ์๋ผ๋ธ ์ด๋ฏธ์ง๋ฅผ Photoshop์ผ๋ก ๋ถ๋ฌ์จ ๋ค ์๋ก์ด ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ๊ณ , ๋ธ๋ฌ์ฌ(Brush) ํํ์
๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ท ์ด ์์ญ์ ํน์ ์์ผ๋ก ํ์ํ๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋นจ๊ฐ(RGB ์์๊ฐ: 255, 0, 0)์ ์ฌ์ฉํ์๋ค. ๊ทธ ํ ๊ท ์ด์ด ํ์๋ ์ด๋ฏธ์ง๋ฅผ
COCO ๋ฐ์ดํฐ์
์ผ๋ก ๋ณํํ์๋ค. ๋ณํ ๊ณผ์ ์, ๋จผ์ ๊ท ์ด์ด ํ์๋ ๋ ์ด์ด๋ฅผ ๋ถ๋ฌ์จ ๋ค, ์ง์ ๋ ๊ท ์ด ์์์ ์์ญ์ ์ต์ธ์ ์ฌ๊ฐํ์ ๊ฒฝ๊ณ์์์ ์ขํ๋ก
๋ณํํ๊ณ , ๊ทธ ๊ฒฝ๊ณ์์ ๋ด์์ ๊ท ์ด์ด ํฝ์
๋จ์๋ก ํ์๋ ์์ญ์ ์ขํ๋ฅผ ๋ค๊ฐํ(Polygon)์ ํํ๋ก ๋ํ๋ด๋ ๊ฒ์ด๋ค. ๋ณํ ๊ณผ์ ์ ๋ณ๋์ ํ๋ก๊ทธ๋๋ฐ
์ธ์ด๋ก ๊ตฌํ๋๋ฉด ๋ ๋น ๋ฅด๊ฒ ์งํ๋ ์ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๋ณํ ๊ณผ์ ์ pytoshop, psd-tools, pycococreatortools ๋ฑ์
Python ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ํํ์๋ค. ๋ณธ ๊ณผ์ ์ ํตํ์ฌ ์ด 1561์ฅ์ ๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ์์งํ๊ณ ์ด๋ฅผ COCO ๋ฐ์ดํฐ์
ํํ๋ก ๋ณํํ์ฌ ์ ์ฅํ์๋ค.
3.3 Cascade Mask R-CNN ํ์ต ์ธ๋ถ์ฌํญ
์์์ ๊ตฌ์ถํ ํฐ๋ ๊ท ์ด ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ Cascade Mask R-CNN์ ๊ท ์ด ํ์ง์ฉ์ผ๋ก ํ์ต์์ผฐ๋ค. ํ์ต์ ์ฌ์ฉ๋ ํ๋์จ์ด ๋ฐ ์ธ๋ถ ๋งค๊ฐ
๋ณ์(Parameter) ์ค์ ์ ์๋์ ๊ฐ๋ค. ๋จผ์ ๊ท ์ด ํ์ง์ ์ฌ์ฉ๋ ํ๋์จ์ด๋ Intel Xeon CPU, NVIDIA Titan V (24GB)
3๊ฐ, 128GB RAM์ด ํ์ฌ๋ ๋ฅ๋ฌ๋ ์ ์ฉ ๊ณ ์ฑ๋ฅ ์ํฌ์คํ
์ด์
์ด๋ค. ๋ํ Cascade Mask R-CNN ํ์ต ๊ณผ์ ์์ ๋ชจ๋ธ์ ์ธ๋ถ ์ฌํญ์ ์ ๊ทน์ ์ผ๋ก
๊ฐ์ ํ๊ธฐ ์ํด ๋ค์ํ ์ต์
๋ณ๊ฒฝ์ ์ ๊ณตํ๋ MMdetection(Chen et al., 2019)์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ํํ์๋ค. MMdetection์ ์ฌ๋ฌ ์ข
๋ฅ์ ๊ฐ๋ณ ๋ฌผ์ฒด ์ธ๋ถํ ๋ชจ๋ธ ๊ตฌํ์ ํ์ํ ์์๋ค์ ์ ๊ณตํ๋ฉฐ, ์ ์ฒด ๋ชจ๋ธ์ ํฌ๊ฒ
ํน์ง ์ถ์ถ์ ์ํ Backbone Network, ์ถ์ถ๋ ํน์ง์ ํด์๋ ํฅ์์ ์ํ Neck Network, ๊ทธ๋ฆฌ๊ณ ์ถ๊ฐ์ ์ธ ๋ฌผ์ฒด ํ์ง ๋ฐ ๋ฌผ์ฒด์
ํ์ ์ถ์ ์ ์ํ Head Network๋ก ๋ถ๋ฆฌํ์๋ค. ํ์ต์ ์ฌ์ฉ๋ ๋ฏธ๋ ๋ฐฐ์น(Mini Batch) ํฌ๊ธฐ๋ก ๊ฐ GPU์ 2๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ํ ๋นํ์ฌ
์ด 3๊ฐ์ GPU์์ ๋ฏธ๋ ๋ฐฐ์น 6์ ์ฌ์ฉํ์๋ค. ํ์ต๋ ๋ชจ๋ธ์ ๊ณผ์ ํฉ(Overfitting)์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ด 4๊ฐ์ง ์ ํ์ ์ด๋ฏธ์ง ์ฆ๊ฐ ๊ธฐ๋ฒ(Image
Augmentation)์ ๋ฌด์์๋ก ์ ํํ์ฌ ์ ์ฉํ์๋ค. ์คํ์ ์ฌ์ฉ๋ ์ด๋ฏธ์ง ์ฆ๊ฐ ๊ธฐ๋ฒ์ ์ํ ๋ฐ์ , 90๋ ํ์ , ์ ๋จ ๋ณํ ๋ฐ ๋ฐ๊ธฐ ๋ณํ์ด๋ค.
๋ชจ๋ธ ํ์ต์ ์ฌ์ฉ๋๋ ์ต์ ํ ๊ธฐ์ ์ Stochastic Gradient Descent(Robbins and Monro, 1951)๋ก, Gradient Clipping(Pascanu et al., 2013) ๋ฐ Constant Gradient Warming-up(Loshchilov and Hutter, 2016)์ผ๋ก ํ์ต ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค. Learning Rate, Weight Decay, Learning Momentum์ ๊ฐ๊ฐ 0.02, 0.0001,
0.9๋ก ์ค์ ๋์๋ค. Learning Rate๋ ๋ ๋ฒ์งธ Epoch ํ์ต๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ๋ฐ๋ณต ํ์ต์ ์ํํ๋ ๊ณผ์ ์์, ์ ์ฒด ํ์ต๋ฐ์ดํฐ์ ๋ํด 1ํ์
ํ์ต์ด ์ํ๋๋ ๊ฒฝ์ฐ๊ฐ ๋๋ ๋ 0.02๋ก ์ง์์ ์ผ๋ก ์ฆ๊ฐํ ๋ค์ 12 ๋ฒ์งธ Epoch๊ฐ ๋๋ ๋ 0.0002๋ก ๊ฐ์ํ๋๋ก ์ค์ ๋์๋ค. GPU์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ
๊ณ ๋ คํ์ฌ ๋ชจ๋ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ 800ร1333์ผ๋ก ์กฐ์ ํ๊ณ ์ต์ปค ๋ฐ์ค์ ํฌ๊ธฐ๋ฅผ 4, 8, 16, 32, 64๋ก ์ค์ ํ์๋ค. ํ์ต ์๋๋ฅผ ๋์ด๊ธฐ ์ํด
์ ์ด ํ์ต(Transfer Learning)์ ์ ์ฉํ์๋ค. ์ ์ด ํ์ต์ ์ ์ฉํ ๋ชจ๋ธ์ Cascade Mask R-CNN์ Backbone Network๋ก์,
ImageNet (Deng et al., 2009)์์ ์ฌ์ ํ์ต๋ ResNeXt-101(Xie et al., 2017)์ด๋ค. ์ ์ฒด ํ์ต์ ์ด 40 Epoch ๋์ ์ํ๋์๋ค.
3.4 ๋น๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ํ์ต ์ด๋ฏธ์ง ์ฆ๊ฐ ์ธ๋ถ์ฌํญ
์ ์๋ ํ๋ ์์ํฌ์ 4-5๋จ๊ณ์์ ์ ์ํ๋ ๋น๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ ์ด๋ฏธ์ง ์ฆ๊ฐ์ ์ธ๋ถ์ฌํญ์ ์๋์ ๊ฐ๋ค. ๋จผ์ 3.3์ ์์ ํ์ต๋ Cascade Mask
R-CNN์ ์ด์ฉํ์ฌ ํ
์คํธ์ ์ฌ์ฉ๋ ์์ธ์์๊ณ ์๋๋ก ๋ด ํ์ด9ํฐ๋์ ์ ์ธํ ํฐ๋ ์ด๋ฏธ์ง ์ค์์ ์์๋ก ์ ํ๋ ์ด๋ฏธ์ง๋ค์์ ๊ท ์ด ํ์ง๋ฅผ ์ํํ์๋ค.
๊ท ์ดํ์ง๋ฅผ ์ํํ๋ฉฐ ์ ์ฅํ ์ด๋ฏธ์ง๋ค ์ค ์ด 206์ฅ์ ์ด๋ฏธ์ง์์ ๊ท ์ด์ด ์กด์ฌํ์ง ์๋ ๊ฒ์ ํ์ธํ์๋ค. ๊ฐ ๋น๊ท ์ด ์ด๋ฏธ์ง๋ ๊ท ์ด์ด ๋ช
ํํ๊ฒ ์ดฌ์๋
์ด 30์ฅ์ ๊ท ์ด ์ด๋ฏธ์ง(Clean Sample) ์ค ์์๋ก ์ ํ๋ 1์ฅ๊ณผ ํฉ์ฑ๋์ด ์ฆ๊ฐ๋ ์ด๋ฏธ์ง์ ํฌํจ๋์๋ค. ๋ฐ๋ผ์ 3.2์ ์์ ์ทจ๋๋ 1561์ฅ์
์ด๋ฏธ์ง์ ํฉํ์ฌ ์ด 1767์ฅ์ ์ด๋ฏธ์ง๊ฐ ์ต์ข
์ ์ผ๋ก ํฐ๋ ๊ท ์ด ๋ฐ์ดํฐ์
์ผ๋ก ์ฌ์ฉ๋์๋ค. ๋ค์ ๊ตฌ์ถ๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ 3.3์ ์์ ์์ ํ ํ์ต ์ธ๋ถ์ฌํญ๊ณผ
๋์ผํ ํ๊ฒฝ์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋ค์ ํ์ตํ์์ผ๋ฉฐ, ์ด๋ฅผ ์ต์ข
์ ์ธ ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ก ํ์ฉํ์๋ค.
3.5 ์ค์ ํฐ๋ ์ด๋ฏธ์ง ๋ด ๊ท ์ด ํ์ง ๋ฐ ์ฑ๋ฅ ๊ฒ์ฆ
ํ์ต๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ ๊ฒ์ฆ์ ์ํํ๊ธฐ ์ํ์ฌ, ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋ฟ ์๋๋ผ ๋ค์ํ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฒ์ฆ์ ํ์ฉ๋๋ ์งํ์ธ ์ ๋ฐ๋(Precision)๊ณผ
์ฌํ์จ(Recall)์ ์ฌ์ฉํ์๋ค. ์ ๋ฐ๋์ ์ฌํ์จ์ ๊ณ์ฐ ๋ฐฉ๋ฒ์ Fig. 5์ ๋ํ๋ ์๋ค. ๋จผ์ ํฐ๋ ํ๋ฉด ์์์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๊ท ์ด ํ์ง๋ฅผ ์ํํ๋ค. ๊ท ์ด ํ์ง๋ฅผ ์ํํ ๋ค ๊ท ์ด ํ์ง ๊ฒฐ๊ณผ์, ํฐ๋ ํ๋ฉด์ ๋ํ๋
๊ท ์ด์ ์์น๋ฅผ ๋น๊ตํ์ฌ, ๊ฐ ๊ท ์ด ํ์ง๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์ํ๋์๋์ง ์์
์์ ์ํ์ฌ ํ๋ณํ๋ค. ๊ท ์ด ํ์ง ๊ฒฐ๊ณผ๋ True Positive(TP), False
Positive(FP) ๋ฐ False Negative(FN)๋ก ๊ตฌ๋ถ๋๋ค. ์ฌ๊ธฐ์ TP๋ ์ ์์ ์ผ๋ก ๊ท ์ด ํ์ง ๊ฒฐ๊ณผ๊ฐ ์ด๋ฃจ์ด์ง ์์ญ, FP๋ ๋ชจ๋ธ์
์ํ์ฌ ๊ท ์ด์ด ํ์ง๋์์ง๋ง, ์ค์ ๋ก ์กด์ฌํ์ง ์๋ ๊ฒฝ์ฐ, ๋ง์ง๋ง์ผ๋ก FN์ ์ค์ ๊ท ์ด์ด ์กด์ฌํ์ง๋ง ๋ชจ๋ธ์ด ๊ท ์ด ํ์ง์ ์คํจํ ๊ฒฝ์ฐ๋ฅผ ๋งํ๋ค. ์ ๋ฐ๋์
์ฌํ์จ์ ์๋ ๊ทธ๋ฆผ์ ๋ํ๋ ๊ฒ๊ณผ ๊ฐ์ด TP์ FP์ FN์ ์ํ์ฌ ๊ณ์ฐ๋๋ค. ์๋ ๊ทธ๋ฆผ์๋ ์ด 18๊ฐ์ TP, 3๊ฐ์ FP, ๊ทธ๋ฆฌ๊ณ 5๊ฐ์ FN์ด
๋ํ๋ ์๋ค. ์ฌ๊ธฐ์ ์ ๋ฐ๋๋ TP๋ฅผ TP์ FP์ ํฉ์ผ๋ก ๋๋ ๊ฐ์ ๋ฐฑ๋ถ์จ๋ก ํ์ฐํ ๊ฐ์ด๋ฉฐ, ์ฌํ์จ์ TP๋ฅผ TP์ FN์ ํฉ์ผ๋ก ๋๋ ๊ฐ์ ๋ฐฑ๋ถ์จ๋ก
ํ์ฐํ ๊ฐ์ด๋ค. ์๋ ์์์์ ํ์ธํ ์ ์๋ฏ, ํฐ๋ ํ๋ฉด์์ ์ํํ ๊ท ์ด ํ์ง ๊ฒฐ๊ณผ์์ ์ด 18๊ฐ์ TP, 3๊ฐ์ FP๊ฐ ์์ ๋, ์ ๋ฐ๋๋ ์ฝ
85%, 5๊ฐ์ FN์ด ๋ฐ์ํ์ ๋ ์ฌํ์จ์ ์ฝ 78%๋ก ๋ํ๋๋ค.
ํ์ต๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ์ค์ ํฐ๋ ์ด๋ฏธ์ง์์ ์ฑ๋ฅ ๊ฒ์ฆ์ ์ํํ์๋ค. ์ค์ ์ฑ๋ฅ ๊ฒ์ฆ์ ์ด์ฉ๋ ํฐ๋์ ์์ธ์์๊ณ ์๋๋ก์ ์์นํ ํ์ด9ํฐ๋์ด๋ฉฐ, 373-393๊ฒฝ๊ฐ์์
์ดฌ์๋ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ์ฌ ํ
์คํธํ์๋ค. Fig. 6์ ํ์ต๋ Cascade Mask R-CNN์ ์ํ์ฌ ์ํ๋ ๊ท ์ด ํ์ง ๊ฒฐ๊ณผ์ ์์๋ฅผ ๋ํ๋ธ ๊ฒ์ผ๋ก, ์ฑ๋ฅ ๊ฒ์ฆ์ ํ์ฉ๋ ์ด๋ฏธ์ง๋ ํน์ ์์ญ์ ๋ฐ์ทํ์ง
์๊ณ ์ดฌ์๋ ํฐ๋์ ์ ์ฒด ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์๋ค. ๋ํ ์ ์ , ์ฝ๋ ์กฐ์ธํธ(Cold Joint) ๋ฑ๊ณผ ๊ฐ์ด ์ง์ ํํ๋ก ๋ป์ด ์๊ธฐ ๋๋ฌธ์ ๊ท ์ด๊ณผ ์ ์ฌํ
ํํ๋ฅผ ๋๋ ์ฌ๋ฌ ๊ฐ์ง ๋ฌผ์ฒด๋ค๋ ๊ณณ๊ณณ์ ๋ถํฌํ๊ณ ์๋ค. ํฌ๊ธฐ๊ฐ ํฐ ์๋ณธ ์ด๋ฏธ์ง์์๋ ์์ ๊ท ์ด์ด ์ ๋ณด์ด์ง ์๊ธฐ ๋๋ฌธ์, Fig. 6(a)์ ๋ถ์ ์ ์ ์์ ๋ถ๋ถ์ ํ๋ํ์ฌ Fig. 6(b)์ ๋ค์ ๋ํ๋ด์๋ค. ๋ํ, Fig. 6(c)๋ ํ์ต๋ Cascade Mask R-CNN์ด Fig. 6(b)์ ์์ญ์์ ํ์งํ ๊ท ์ด์ ๋ถ์์์ผ๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. Fig. 6(c)์์ ํ์ธํ ์ ์๋ฏ์ด, ์ฃผ๋ณ์ ๋ถํฌํ๋ ์ ์ ๋ฑ์ ๊ท ์ด๋ก ํ๋จํ์ง ์๊ณ ์ฑ๊ณต์ ์ผ๋ก ๊ท ์ด ์์ญ๋ง์ ์ด๋ฏธ์ง ๋ด์์ ํ์งํ ๊ฒ์ ํ์ธํ ์ ์๋ค.
Fig. 7-9๋ ์ค์ ์ํ๋ ๊ท ์ด ํ์ง์ ์์๋ฅผ ๋ํ๋ด๋ฉฐ, Table 2๋ ํ์ง ๊ฒฐ๊ณผ์ ๋ํ ์ ๋ฐ๋ ๋ฐ ์ฌํ์จ ์ฐ์ถ ๊ทผ๊ฑฐ๋ฅผ ๋ํ๋ธ๋ค. ์คํ์ ์ฌ์ฉ๋ ๊ฒฝ๊ฐ์ ๊ตฌ์ฑํ๋ ์ด 15์ฅ(10000ร15000 ํด์๋)์ ์ด๋ฏธ์ง์ ํ์ต๋
Cascade Mask R-CNN์ ์ ์ฉํ ๊ฒฐ๊ณผ, 99%์ ์ ๋ฐ๋์ 92%์ ์ฌํ์จ๋ก ๊ท ์ด์ ํ์งํ์๋ค. Fig. 7์ ์คํ ๊ฒฐ๊ณผ ์ค ๊ฐ์ฅ ๋์ ์ ๋ฐ๋์ ์ฌํ์จ์ ๋ณด์ธ ์ด๋ฏธ์ง์ ์์๋ฅผ ๋ํ๋ธ ๊ฒ์ด๋ค. ์ฐ์ ์ ์ผ๋ก๋ 382-384 ๊ฒฝ๊ฐ์์ 100%์ ์ ๋ฐ๋์ ์ฌํ์จ๋ก
ํ์ต๋ Cascade Mask R-CNN์ด ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ํ๋์ง๋ง, ํฐ๋์ ๋ํ๋ ๊ท ์ด์ด ํจ์ฌ ์งง์๊ธฐ ๋๋ฌธ์ 385-387 ๊ฒฝ๊ฐ์ ์ต๊ณ ์ฑ๋ฅ์
๋ณด์ธ ํ
์คํธ ๋ฒ ๋๋ก ์ ์ ํ์๋ค. Fig. 7์๋ ์ค์ ํฐ๋์ ์ฒ์ ๋ถ์์ ํํ ๋ํ๋๋ ๊ฒ๊ณผ ๊ฐ์ด ์ฐจ๋์ ์ฃผํ๋ฐฉํฅ์ ๋ฐ๋ผ ๊ธธ๊ฒ ๊ท ์ด์ด ๋ฐ์ํ ๊ฒ์ ํ์ต๋ Cascade Mask R-CNN์ด ์ฑ๊ณต์ ์ผ๋ก
ํ์งํ ๊ฒ์ ํ๋๋ธ๋ค. Fig. 8์ ์คํ ๊ฒฐ๊ณผ ์ค ๊ฐ์ฅ ๋ฎ์ ์ ๋ฐ๋๋ฅผ ๋ณด์ธ ์์ญ์ธ 391-393๊ฒฝ๊ฐ์ ๋ํ๋ด๋ฉฐ, ์คํ ๊ฒฐ๊ณผ ์ค ์ ์ผํ๊ฒ 100%์ ์ ๋ฐ๋๋ฅผ ๋ฌ์ฑํ์ง ๋ชปํ ์์ญ์ด๋ค.
Fig. 8์์ ํ์ธํ ์ ์๋ฏ, ๊ท ์ด์ ์คํ์ง์ ์์ธ์ ํฐ๋ ๋ฒฝ๋ฉด ์ฝํฌ๋ฆฌํธ๋ถ์ ๋ํ๋ ์์ธ ๋ฏธ์์ ๋ฌผ๊ฒฐ ๋ฌด๋ฌ์ด๋ค. ์คํ ๊ฒฐ๊ณผ ์ค ํ ๊ตฐ๋ฐ์ ๊ฒฝ๊ฐ์์๋ง ์คํ์ง๊ฐ
๋ฐ์ํ ์คํ ๊ฒฐ๊ณผ๋ ๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ๋ ์คํ์ง๋ฅผ ์ค์ด๊ธฐ ์ํ ๋น๊ท ์ด ์ด๋ฏธ์ง(Negative Sample) ํ์ต์ด ํจ๊ณผ์ ์ผ๋ก ์๋ํ์์์ ์
์ฆํ๋ค.
Fig. 9๋ ์คํ ๊ฒฐ๊ณผ ์ค ๊ฐ์ฅ ๋ฎ์ ์ฌํ์จ์ ๋ณด์ธ ์์ญ์ ๋ํ๋ธ๋ค. Fig. 9์์ ํ์ธํ ์ ์๋ฏ, ํ์ต๋ Cascade Mask R-CNN์ 376๋ฒ ๊ฒฝ๊ฐ์ ๋ฐ์ํ ๊ท ์ด์ ์ ๋ฐ ์ ๋๋ฅผ ํ์งํ์์ผ๋, ๊ทธ ์ด์ธ์ ์์ญ์ ํ์งํ์ง
๋ชปํ์๋ค. ์ด๋ ํด๋น ๊ท ์ด๋ค์ ํฌ๊ธฐ๊ฐ ์ดฌ์๋ ์ฅ๋น ๊ธฐ์ค 1ํฝ์
๋ด์ธ์ ํฌ๊ธฐ๋ก ๋ํ๋ฌ๊ธฐ ๋๋ฌธ์ผ๋ก ํ๋จ๋๋ค. ํด๋น ๊ท ์ด์ ์ ์ฒด๋ฅผ ํ์งํ์ง๋ ๋ชปํ์์ง๋ง,
์ต์ ์ ๋ฐ ์ ๋์ ์์ญ์ ํ์งํ๋๋ฐ ์ฑ๊ณตํ์๊ธฐ ๋๋ฌธ์, ๊ท ์ด์ ๋ฐ์ ์ฌ๋ถ๋ฅผ ํ์ธํด์ผํ๋ ์์ ์ง๋จ์ ํน์ฑ์ ๋ฅ๋ฌ๋์ ์ํ ๊ท ์ด ํ์ง ๊ฒฐ๊ณผ๊ฐ ์ฐธ๊ณ ์๋ฃ๋ก
์ถฉ๋ถํ ์ฌ์ฉ๋ ์ ์์์ ๋ณด์๋ค.
Fig. 5 Evaluation method of crack detection result of the trained deep learning model
Fig. 6 Example of concrete crack detection on real-world tunnel images
Fig. 7 Example of tunnel crack detection result with the best performance (span 385-387 of Hwachon Tunnel)
Fig. 8 Example of tunnel crack detection result with the worst precision (span 391-393 of Hwachon Tunnel)
Fig. 9 Example of tunnel crack detection result with the worst recall (span 376-378 of Hwachon Tunnel)
Table 2 Evaluation result of the trained cascade mask R-CNN
Span
|
No. of TP
|
No. of FP
|
No. of FN
|
Precision
|
Recall
|
Remarks
|
373-375
|
39
|
0
|
4
|
100%
|
91%
|
|
376-378
|
25
|
0
|
8
|
100%
|
76%
|
Fig. 9
|
379-381
|
19
|
0
|
4
|
100%
|
83%
|
|
382-384
|
9
|
0
|
0
|
100%
|
100%
|
|
385-387
|
52
|
0
|
2
|
100%
|
96%
|
Fig. 7
|
388-390
|
39
|
0
|
2
|
100%
|
95%
|
|
391-393
|
38
|
2
|
0
|
95%
|
100%
|
Fig. 8
|
Average
|
99%
|
92%
|
|
4. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ์์๋ ์์์ฅ๋น์ ๋ฅ๋ฌ๋์ ์ด์ฉํ ๊ณ ์๋๋ก ํฐ๋ ๊ท ์ด ํ์ง ์์คํ
๊ฐ๋ฐ์ ์ํํ๊ธฐ ์ํ์ฌ 6๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ํฐ๋ ๊ท ์ด ํ์ง ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ
ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๊ณ ์ ์ํ ํ๋ ์์ํฌ์ ์ฑ๋ฅ์ ์ค์ ๊ตฌ์กฐ๋ฌผ์์ ํ๊ฐํ์๋ค. ์ ์๋ ํ๋ ์์ํฌ๋ ๋ค๋ฅธ ํฐ๋ ๊ท ์ด ํ์ง ๋ฐฉ๋ฒ๋ก ๋ค๊ณผ ๋ฌ๋ฆฌ, ๋น๊ท ์ด ์ด๋ฏธ์ง์
๋ํ ํ์ต์ ์ํํ์ฌ, ์ค์ ํฐ๋์์ ๋์ ์ฑ๋ฅ์ผ๋ก ๊ท ์ด ํ์ง๋ฅผ ์ํํ ์ ์๋๋ก ๊ณ ์๋์๋ค.
์ ์๋ ํ๋ ์์ํฌ๋ ํ๊ตญ๋๋ก๊ณต์ฌ์ ํ์
์ ํตํ์ฌ ์ทจ๋๋ ์ค์ ํฐ๋ ์ด๋ฏธ์ง์์ ํ๊ฐ๋์๋ค. ํฐ๋ ์ค์บ๋ ์ฐจ๋์ ํตํ์ฌ ์ค์ ํ๊ฒฝ์์ ์ทจ๋๋ ์ฝ 10000ร15000์
ํด์๋๋ฅผ ๊ฐ์ง๋ ์ด๋ฏธ์ง๋ฅผ ๋ถํ ํ์ฌ ์ด 1561์ฅ์ ๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ํ๋ํ์๋ค. ํ๋๋ ๊ท ์ด ์ด๋ฏธ์ง์์ Photoshop์ ์ด์ฉํ์ฌ ๊ท ์ด ์์ญ์ ํ์ํ
๋ค, ์ด๋ฅผ COCO ๋ฐ์ดํฐ์
์ ํ์์ผ๋ก ๋ณํํ์ฌ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ์ต์ ์ฌ์ฉํ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๊ฐ๋ณ ๊ฐ์ฒด ์ธ๋ถํ ๋ชจ๋ธ ์ค ํ๋์ธ Cascade Mask
R-CNN์ ์ด์ฉํ์ฌ ๊ท ์ด ํ์ง๋ฅผ ์ํํ์์ผ๋ฉฐ, ํ์ต๋ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ์ด 206์ฅ์ ๋น๊ท ์ด ์ด๋ฏธ์ง๋ฅผ ์ทจ๋ํ์๋ค. ๋น๊ท ์ด ์ด๋ฏธ์ง๋ก ์ฆ๊ฐ๋ ์ด 1767์ฅ์
์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ์ฌ Cascade Mask R-CNN์ ์ฌํ์ต์์ผฐ๋ค. ํ
์คํธ ๋ฒ ๋๋ก ์ฌ์ฉ๋ ํฐ๋์ ์์ธ์์ ๊ณ ์๋๋ก์ ์์ฌํ ํ์ด9ํฐ๋(3,690 m)์ด๋ฉฐ
ํ์ด9ํฐ๋์ 373-393 ๊ฒฝ๊ฐ์์ ๊ท ์ด ํ์ง๋ฅผ ์ํํ๊ณ ์ ํ๋๋ฅผ ํ๊ฐํ์๋ค. ํ์ต๋ ๊ท ์ด ํ์ง Cascade Mask R-CNN์ ๊ฑฐ๋ฏธ์ค, ์ ์ ,
ํฐ๋ ์กฐ๋ช
๋ฑ ์ฌ๋ฌ ๊ฐ์ง ์์๊ณผ ํผ๋๋ ์ ์๋ ๋ฌผ์ฒด๋ค์ด ๋ฐฐ์น๋ ์ด๋ฏธ์ง์์๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค. ์คํ ๊ฒฐ๊ณผ๋ฅผ ํตํ์ฌ ์ ์๋ ํ๋ ์์ํฌ๋ฅผ ์ด์ฉํ๋ฉด
์ค์ ํฐ๋์์ ์ฑ๊ณต์ ์ผ๋ก ๊ท ์ด ํ์ง๋ฅผ ์ํํ ์ ์์์ ๋ณด์๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๋ฒ์๋ ํฐ๋ ์ค์บ๋ ์ฅ๋น๋ก ์ดฌ์๋ ์ค์ ํฐ๋ ์ด๋ฏธ์ง์์ ๋น๊ท ์ด ํ์ต์ผ๋ก ํฅ์๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ด์ฉํ ๊ท ์ด ํ์ง ์ํ๊น์ง์ด๋ฉฐ, ์ค์ ๊ท ์ด์
ํญ์ ์์ง๋ ๋ชปํ์๊ธฐ ๋๋ฌธ์ ๊ท ์ด ํญ์ ๋ํ ์ ํ๋ ๋ฑ์ ๋ํ ์ฐ๊ตฌ๋ฅผ ์ํํ ์ ์์๋ค. ๋ง์ฝ ์ ๋ฐ์ ๊ฒ ๋ฑ์ ์ํ์ฌ ๊ท ์ด์ ํญ์ ์๊ณ ์๋ ์ด๋ฏธ์ง๋ฅผ
์ดฌ์ํ๋ค๋ฉด, ๊ท ์ด ํญ๊ณผ ๊ธธ์ด์ ์ ๋ํ์ ๋ํ ์ถ๊ฐ์ ๊ฒ์ฆ์ ์ํํ ์ ์์ ๊ฒ์ด๋ค. ๋ํ, ์ต๊ทผ ๋ค์ด์ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๊ณ ์๋ ์ดํด์ํ(Super-resolution)
๊ธฐ์ ์ ์ ์ฉํ์ฌ ์ด๋ฏธ์ง์ ํด์๋๋ฅผ ํฅ์์ํจ ๋ค, ๊ท ์ด์ ํญ์ ์ธก์ ํ๋ ์ฐ๊ตฌ๋ ์ํํ ์ ์๋ค. ํนํ ์ดฌ์ ์ฅ๋น์ ์ฑ๋ฅ ๊ฐ์ ๊ณผ ์ง์์ ์ธ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์
์ ํ๋ ํฅ์, ์ฒ๋ฆฌ ์๋ ํฅ์๋ ์ถํ ์ง์์ ๊ฐ์ ์ด ํ์ํ ๋ถ๋ถ์ด๋ผ ํ๋จ๋๋ค.
๊ฐ์ฌ์ ๊ธ
๋ณธ ์ฐ๊ตฌ๋ ๊ตญํ ๊ตํต๋ถ/๊ตญํ ๊ตํต๊ณผํ๊ธฐ์ ์งํฅ์์ ์ง์์ผ๋ก ์ํ๋์์(๊ณผ์ ๋ฒํธ 21CTAP-C163726-01).
๋ถ ๋ก
Cascade Mask R-CNN ๋ชจ๋ธ ์์ธ ์ค๋ช
Cascade Mask R-CNN์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ ์์นํ์ฌ ๋ฐฐ๊ฒฝ๊ณผ ๋ฌผ์ฒด๋ฅผ ๊ตฌ๋ถํ๋ ์ญํ ์ ํ๋ RPN์ ๋ฌผ์ฒด๊ฐ ์กด์ฌํ๋ ๊ฒ์ผ๋ก ํ๋จ๋๋ ์์ญ์ ์ขํ์,
๋ฌผ์ฒด์ฑ(Objectness) ์ ์๋ฅผ ๊ฐ ๊ฒฝ๊ณ์์(Bounding Box)๋ณ๋ก ์ถ๋ ฅํ๋ Fully Convolutional Network ๋ชจ๋ธ์ด๋ค.
RPN์ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ฅผ ์ฌ์ฉํ์ฌ CNN์์ ํ๋ํ ํน์ง ์ง๋๋ฅผ ์ค์บํ๋ฉฐ ํ๋ณด์์ญ์ ์์ฑํ๋ค. ์ฌ๋ผ์ด๋ฉ ์๋์ฐ์ ์ํ์ฌ ํ๋๋ ํน์ง ์ง๋๋ ์ ์ฐจ์์
๋ฒกํฐ๋ก ๋ณํ๋๊ณ ์ด๋ ๊ฒฝ๊ณ์์์ ์์น๋ฅผ ๋ณด์ ํ๋ Box-Regression Layer์, ๋ฌผ์ฒด๋ฅผ ๋ถ๋ฅํ๋ Box-Classification Layer๋ก
์
๋ ฅ๋๋ค. RPN์ ๊ฐ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์์น์์ ์ฌ๋ฌ ๊ฐ์ ์์ญ ์ ์(Region Proposal)์ ์์ธกํ๋ค. ๊ฐ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ๋ ํ ์์น์์
์ต๋ k๊ฐ์ ์์ญ ์ ์์ ์์ฑํ๋ค. ์ฌ๊ธฐ์์ ํ ์์น์ ์์ฑ๋ k๊ฐ์ ์์ญ ์ ์์ ์ต์ปค(Anchor)๋ผ๊ณ ํ๋ฉฐ ๊ฐ๋ก ์ธ๋ก ๋น์จ์ ๋ค๋ฅด๊ฒ ํ์ฌ ํ ์์น์์
์ฌ๋ฌ ๊ฐ์ ์ต์ปค๋ฅผ ์์ฑํ๋ค. ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ๋๋น์ ๋์ด์ ๋ํ์ฌ ๊ฐ๊ฐ 3๊ฐ์ ๋ค๋ฅธ ๋น์จ์ด ๋ถ์ฌ๋จ์ผ๋ก ๊ฐ ์ฌ๋ผ์ด๋ฉ ์์น์ k=9 ์ต์ปค๊ฐ ์์ฑ๋๋ค. ๊ฒฝ๊ณ์์์
์ขํ๋ฅผ x์ถ, y์ถ ์ขํ, ์ ์ ๋๋น์ ๋์ด๋ก ๋ํ๋ด๋ Box-Regression Layer๋ 4k ์ถ๋ ฅ์ ๊ฐ์ง๋ค. ๋ํ, ๋ฐฐ๊ฒฝ๊ณผ ๋ฌผ์ฒด์ ์ด์ง๋ถ๋ฅ(Binary
Classification)๋ฅผ ์ํํ๋ Box-Classification Layer๋ ์์ญ์ ๊ฐ์ฒด์ ์กด์ฌ๋ฅผ ์ถ์ ํ๊ธฐ ๋๋ฌธ์ 2k ์ถ๋ ฅ์ ๊ฐ์ง๊ฒ ๋๋ค.
๋ ๋ฒ์งธ ๋จ๊ณ์์ Cascade Mask R-CNN์ RPN์ ์์ญ ์ ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์ ๊ฐ ํ๋ณด ์์์์ RoIAlign Layer (RA Layer)๋ฅผ
์ฌ์ฉํ์ฌ ๊ฐ์ฒด์ ํน์ง์ ์ถ์ถํ์ฌ ๋ถ๋ฅ๋ฅผ ์ํํ๋ค. RoIAlign์ ๊ฒฝ๊ณ์์ ๋ฐ ์
๋ ฅ ์ด๋ฏธ์ง์ ํน์ง ์ถ์ถ ๊ฒฐ๊ณผ๋ฅผ ์ ์ ํ๊ฒ ์ ๋ ฌํ๋ ์ฐ์ฐ ๊ธฐ๋ฒ์ด๋ค.
RoIAlign์ RPN์์ ์ถ์ถํ ๊ฒฝ๊ณ์์์ ํด๋นํ๋ ํน์ง ์ง๋์์ wรh (์ผ๋ฐ์ ์ผ๋ก 7ร7) ํฌ๊ธฐ์ ์์ ํน์ง ์ง๋๋ฅผ ์ถ์ถํ๋ค. ์ด ๊ณผ์ ์์
์ค์(Float)๋ก ํํ๋ ํน์ง ์ง๋์์ ๊ฒฝ๊ณ ์์์ ์์น๋ ์ ์(Integer)๋ก ํํ๋๋ ํน์ง ์ง๋ ์์์ ๊ทธ ์์น๊ฐ ์ ํํ๊ฒ ํํ๋ ์ ์๋ค.
์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ์ฌ RA Layer๋ ๊ฒฝ๊ณ ์์์ ์์น ์ ๋ณด๋ฅผ ์ด์ง ์ ํ ๋ณด๊ฐ๋ฒ(Bi-Linear Interpolation)์ ์ฌ์ฉํ์ฌ
์ ํํ ์ํ๋ง ์ง์ ์ ๊ณ์ฐํ๋ค. RA Layer๋ก ์ถ์ถํ ํน์ง์ง๋๋ ๋ฌผ์ฒด์ ์์น๋ฅผ ์๋์ ์ผ๋ก ์ ํํ๊ฒ ๋ถ๋ฅํ๋๋ฐ ๊ธฐ์ฌํ ๋ฟ ์๋๋ผ ๋ฌผ์ฒด์ ํ์์ ํฝ์
๋จ์๋ก
๋ถ๋ฅํ๋๋ฐ ์ ํ๋๋ฅผ ๋์ด๊ฒ ๋๋ค.
RA Layer์์ ์ถ์ถํ ํน์ง ์ง๋๋ Box-Classification Layer์ Box-Regression Layer๋ก ์ ๋ฌ๋๋ค. ํน์ง ์ง๋๋
Box- Classification Layer์ Box-Regression Layer์ ์
๋ ฅ๋๊ธฐ ์ ์ Fully-Connected Layer์ ํํ๋ก
๋ณํ๋๋ค. ์ฌ๊ธฐ์ ๋ฌผ์ฒด์ ํด๋์ค๋ Box-Classification Layer์ ์ํด ๊ฒฐ์ ๋๋ฉฐ Box- Regression Layer๋ RPN๊ณผ ๋งค์ฐ
์ ์ฌํ ๋ฐฉ์์ผ๋ก ๊ฒฝ๊ณ ์์์ ์์น์ ํฌ๊ธฐ๋ฅผ ํฅ์์ํค๋ ์ญํ ์ ์ํํ๋ค. ์ฌ๊ธฐ์ Cascade Mask R-CNN์ ๊ฒฝ์ฐ ๊ธฐ์กด Mask R-CNN์์
ํ ๋ฒ๋ง ๋ฌผ์ฒด ๋ถ๋ฅ์ ์ฌ์ฉ๋๋ Box-Classification Layer์ Box- Regression Layer๋ฅผ ์ด 3๋ฒ ์ฌ์ฉํ์ฌ ๋ฌผ์ฒด ํ์ง์
์ ํ๋๋ฅผ ๊ฐํํ๋ค.
์ธ ๋ฒ์งธ์ด์ ๋ง์ง๋ง ๋จ๊ณ์์ Cascade Mask R-CNN์ RA Layer์์ ์ถ์ถํ ํน์ง ์ง๋๋ฅผ Mask Branch์ ์
๋ ฅํ์ฌ ๊ฒฝ๊ณ ์์์์
๋ฌผ์ฒด์ ํฝ์
๋จ์ ์์ญ์ ๊ฒฐ์ ํ๋ค. Mask Branch๋ FCN์ ํํ๋ฅผ ์ทจํ์ฌ ์ด๋ฏธ์ง์ ๋ฌผ์ฒด๋ฅผ ํฝ์
๋จ์๋ก ๋ถ๋ฅํ๋ค. RA Layer์ ์ํ์ฌ
๋์ ์ ํ๋๋ก ์ถ์ถ๋ ํน์ง ์ง๋๋ ๋ ๋์ ์ ํ๋๋ก ๋ฌผ์ฒด์ ํ์์ ์ถ์ถํ๋๋ฐ ๊ธฐ์ฌํ๋ค. ์ด ์ฐ๊ตฌ์์ Mask Branch์ ์ถ๋ ฅ ํฌ๊ธฐ๋ 28ร28๋ก
Mask R-CNN์ ์ ์ํ ๋
ผ๋ฌธ์์ ์ฌ์ฉ๋ ํฌ๊ธฐ์ ๋์ผํ๋ค. Box-Classification Layer์ ํํํ๊ฒ ๋ฐฐ์ด๋ Mask Branch๋
Box-Classification Layer์ ์ํ ๋ฌผ์ฒด ๋ถ๋ฅ ๊ฒฐ๊ณผ์ ๊ด๊ณ ์์ด ๋ฌผ์ฒด์ ํ์๋ง์ ํ์ตํ์ฌ ์ถ๋ก ์ ์ฌ์ฉํ ์ ์๋ค. ๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์์๋
Mask Branch๋ฅผ ๋ฌผ์ฒด์ ํด๋์ค์ ๊ด๊ณ์์ด ๋ฌผ์ฒด์ ํ์์ ์ถ๋ก ํ๋๋ก ํ์ต์์ผฐ๋ค.
References
Sanpei, T., and Mizoguchi, T. (2018), Fundamental Study for Real-Time Detection of
Sudden Displacement by High-Speed Laser Scanner, Journal of Structural Integrity and
Maintenance, 3(4), 227-232.
Yamaguchi, T., Nakamura, S., Saegusa, R., and Hashimoto, S. (2008), ImageโBased Crack
Detection for Real Concrete Surfaces, IEEJ Transactions on Electrical and Electronic
Engineering, Wiley Online Library, 3(1), 128-135.
Yu, S. N., Jang, J. H., and Han, C. S. (2007), Auto Inspection System Using a Mobile
Robot for Detecting Concrete Cracks in a Tunnel, Automation in Construction, Elsevier,
16(3), 255-261.
Lee, S. H., Shin, K. J., Kim, H. J., Kim, S. Y., Yoo, C. H., and Eom S. G. (2019),
Introduction of Tunnel Crack Measurement Technology Using Image Scanning, Journal
of Korean Society of Steel Construction, 31(6), 42-48.
Song, Q., Wu, Y., Xin, X., Yang, L., Yang, M., Chen, H., Liu, C., HU, M., CHAI, X.,
and Li, J. (2019), Real-time Tunnel Crack Analysis System via Deep Learning. IEEE
Access, IEEE, 7, 64186-64197.
Li, G., Ma, B., He, S., Ren, X., and Liu, Q. (2020), Automatic Tunnel Crack Detection
based on U-Net and a Convolutional Neural Network with Alternately Updated Clique.
Sensors, MDPI, 20(3), 717.
Ronneberger, O., Fischer, P., and Brox, T. (2015), U-net: Convolutional Networks for
Biomedical Image Segmentation, International Conference on Medical Image Computing
and Computer-assisted Intervention, Springer, Berlin, 234-241.
Choi, Y., Kim, J., Cho, H., and Lee, C. (2019) Asphalt Concrete Pavement Surface Crack
Detection using Convolutional Neural Network, Journal of the Korea Institute for Structural
Maintenance and Inspection, 23(6), 38-44.
Kim B., and Cho, S. (2019), Image-based Concrete Crack Assessment using Mask and Region-based
Convolutional Neural Network, Structural Control and Health Monitoring, Wiley, 26(8),
e2381(1-15).
Kim B., and Cho, S. (2020), Automated Multiple Concrete Damage Detection Using Instance
Segmentation Deep Learning Model, Applied Sciences, MDPI, 9(20), 4444(1-14).
Jang, K., An, Y.-K., Kim, S., and Cho, S. (2021) Automated Crack Evaluation of a HighโRise
Bridge Pier Using a RingโType Climbing Robot, Computer-aided Civil and Infrastructure
Engineering, Wiley, 26, 14-29.
He, K., Gkioxari, G., Dollรกr, P., and Girshick, R. (2017), Mask r-cnn. Proceedings
of the IEEE international conference on computer vision, IEEE, 2961-2969.
Cai, Z., and Vasconcelos, N. (2018), Cascade r-cnn: Delving into High Quality Object
Detection, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,
IEEE, Piscataway, 6154-6162.
Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P.,
and Zitnick, C. L. (2014), Microsoft Coco: Common Objects in Context, European Conference
on Computer Vision, Springer, Berlin, 740-755.
Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, S., Feng, W., Liu,
Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, Q., Li, B., Lu, X., Zhu,
R., Wu, Y., Dai, J., Wang, J., Shi, J., Ouyang, W., Loy, C. C., and Lin, D. (2019),
MMDetection: Open Mmlab Detection Toolbox and Benchmark, ArXiv Preprint, ArXiv, 1906.07155.
Robbins, H., and Monro, S. (1951), A Stochastic Approximation Method, The Annals of
Mathematical Statistics, Institute of Mathematical Statistics, 400-407.
Pascanu, R., Mikolov, T., and Bengio, Y. (2013), On the Difficulty of Training Recurrent
Neural Networks, International Conference on Machine Learning, PMLR, 1310-1318.
Loshchilov, I., and Hutter, F. (2016), SGDR: Stochastic Gradient Descent with Warm
Restarts, ArXiv Preprint, arXiv, 1608.03983.
Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., and Fei-Fei, L. (2009). Imagenet:
A Large-Scale Hierarchical Image Database, 2009 Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition, IEEE, Piscataway, 248-255.
Xie, S., Girshick, R., Dollรกr, P., Tu, Z., and He, K. (2017), Aggregated Residual
Transformations for Deep Neural Networks, Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, IEEE, Piscataway, 1492-1500.