๋ฐ์ํ
(Si-Hyeon Park)
1
์ ์ฑ๋ฏผ
(Seong-Min You)
1
์ก๋ํธ
(Dong-Ho Song)
1
์ด๊ด์ฌ
(Kwangjae Lee)
โ iD
-
(Dept. of Imformation Security Engineering, Sangmyung University, Korea)
Copyright ยฉ The Korean Institute of Electrical Engineers(KIEE)
Key words
Web crawling, OCR, Average Hash, Harmful advertisements identification, Harmful site identification
1. ์ ๋ก
์ต๊ทผ ์ธํฐ๋ท ๋ณด๊ธ๋ฅ ์ด ๋์์ง๋ฉด์ ๋๋ฐ, ๋ถ๋ฒ ์์ฝํ, ์๋๋ฌผ, ์ฑ๋งค๋งค ๋ฑ ์ ํด ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ์ ํด์ฌ์ดํธ๊ฐ ๋์ค์๊ฒ ์ฝ๊ฒ ๋
ธ์ถ๋๊ณ ์๋ค. ์ ํด์ฌ์ดํธ๋
์ ๋ณดํต์ ๋ง ์ด์ฉ์ด์ง ๋ฐ ์ ๋ณด๋ณดํธ ๋ฑ์ ๊ดํ ๋ฒ๋ฅ ์ 44์กฐ 7ํญ๊ณผ ๋ถ๋ฒ ์ ๋ณด ๋ฐ ๋ฐฉ์กํต์ ์์ํ์ ์ค์น ๋ฐ ์ด์์ ๊ดํ ๋ฒ๋ฅ ์ํ๋ น ์ 8์กฐ 1ํญ์ ๋ฐ๋ฅธ
์ฒญ์๋
์๊ฒ ์ ํด ์ ๋ณด ๋ฑ ์ฌ์๊ฐ ํ์ํ๋ค๊ณ ์ธ์ ๋๋ ์ ๋ณด๊ฐ ๋ค์ด๊ฐ ์ฌ์ดํธ๋ก ์๋๋ฌผ, ๋๋ฐ, ๋ง์ฝ ๊ฑฐ๋, ์์ด, ์ ์๊ถ ์๋ฐ ๋ฑ์ ๋งํ๋ค [1]. ์ต๊ทผ 5๋
๊ฐ ๋ค์ด๋ฒ, ์นด์นด์ค, ๊ตฌ๊ธ, ํธ์ํฐ ๋ฑ ์ฃผ์ ํ๋ซํผ์ ์ ํด์ฌ์ดํธ ๊ณต์ ๋๋ฌธ์ ๋ฐ์ํ๋ ์์ ์๊ตฌ ์๊ฐ ์ฝ 20๋ง ๊ฑด์ ๋ฌํ์๋ค. ๊ทธ๋ฆฌ๊ณ
์ ํด์ฌ์ดํธ ์ด์์ ๋ง๊ธฐ ์ํด 2020๋
๋ถํฐ 2022๋
8์๊น์ง ๋ถ๋ฒยท์ ํด ์ ๋ณด ์น ํ์ด์ง ์ ์ ์ฐจ๋จ ๊ฑด์๋ ์ฝ 40๋ง ๊ฑด์ ๋ฌํ์๋ค [2]. ํนํ, ์นํฐ ์ฐ์
์ด ์ฑ์ฅํ๋ฉด์ ๊ทธ์ ๊ด๋ จ๋ ๋ถ๋ฒ์ ์ธ ์์ฅ ๊ท๋ชจ๋ ๋น ๋ฅธ ์๋๋ก ์ปค์ง๊ณ ์๋ค. 2015๋
๋ถํฐ 2020๋
๊น์ง 5๋
๊ฐ ์นํฐ ๋ฑ ์ฝํ
์ธ
์ ์๊ถ์ ๋ถ๋ฒ ์นจํดํ ์ฌ์ดํธ ์๊ฐ 21,043๊ฐ์ ๋ฌํ๋ฉฐ ์ฝํ
์ธ ๋ถ๋ฒ ์ ํต ์ฌ์ดํธ๊ฐ ๋์์์ด ์์ฐ๋๊ณ ์๋ค [3]. ์ด๋ฌํ ์ ํด์ฌ์ดํธ๋ค์ ์ผ์ฐจ์ ์ผ๋ก ์ ์๊ถ์์ ๊ด๋ จ ์๋น์ค ์ฐ์
์ ์ํด๋ฅผ ๋ผ์น๋ฉฐ, ์ด์ฐจ์ ์ผ๋ก ์ฌ๋๋ค์ด ์ ํด ์ ๋ณด์ ๋ฌด๋ถ๋ณํ๊ฒ ๋
ธ์ถ๋์ด ๋๋ฐ, ์ฑ๋งค๋งค,
๋ถ๋ฒ ์์ฝํ ๊ฑฐ๋ ๋ฑ ๋ค์ํ ์ฌํ์ ๋ฌธ์ ๋ก ์ด์ด์ง๋ ์์ธ์ด ๋๋ค [4]-[5]. ๋ํ ์ด ์ฌ์ดํธ๋ค์ ๋๋ถ๋ถ ํด์ธ์ ์๋ฒ๋ฅผ ๋๊ณ ์์ด ๊ตญ๋ด์์ ํด์ธ ์๋ฒ๋ฅผ ๊ฐ์ ๋ก ํ์ํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก ํด๋น ์ฌ์ดํธ์ ์ ์ํ๋ ๊ฒ์ ์ฐจ๋จํ๋ ๋ฐฉ์์ผ๋ก
๊ท์ ํ๋ค [6]. ๋ฐ๋ผ์ ์ ํด์ฌ์ดํธ์ ์ ์์ ์ฐจ๋จํ๊ธฐ ์ํด์๋ ์ฐ์ ์ผ๋ก ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ๊ณ ๋ถ๋ฅํ ์ ์์ด์ผ ํ๋ค. ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ๋ ๊ณผ๊ฑฐ์ ์ฐ๊ตฌ๋ ์ฌ์ดํธ์
HTML ์ฝ๋ ๋๋ ์น ํฌ๋กค๋ง์ ์ด์ฉํ ์ ๋ณด ์์ง๊ณผ ๋ถ์ํ์ฌ ๋ถ๋ฅํ์๋ค [7]-[8]. ๊ทธ๋ฆฌ๊ณ ์ฌ์ดํธ์ ๋๋ฉ์ธ ๋ณ๊ฒฝ ํจํด ๋ถ์์ด๋ ๋ฐฐ๋๊ด๊ณ ๋ฅผ ํตํ ๊ด๊ณ ์ฃผ ๋ถ์๋ค๋ ์ฐ๊ตฌ๋์๋ค [9]-[10].
๋ณธ ๋
ผ๋ฌธ์์๋ ์ ํด์ฌ์ดํธ ์ ๋ฐฐ๋ ๊ด๊ณ ์ ์ด๋ฏธ์ง๋ฅผ ์ด์ฉํ์ฌ ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ์ ์ํ๋ ๋ฐฉ์์ ์์งํ ์ ํด์ฌ์ดํธ์ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง์
Esay OCR์ ํ์ฉํ์ฌ ํค์๋๋ฅผ ์ถ์ถํ๊ณ ๋น๊ตํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ฐ๊ตฌ๋ฅผ ์งํํ์๋ค. ์์ง๋ ์ ํด์ฌ์ดํธ์ 2,557๊ฐ์ ๋ฐฐ๋ ๊ด๊ณ ์ด๋ฏธ์ง ๋ฐ OCR๋ฅผ
ํ์ฉํ์ฌ ์ถ์ถํ ํค์๋๋ก ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ๊ตฌ์ฑํ์๋ค. ์ดํ ๊ฒ์ฌ ๋์์ ์ฌ์ดํธ๋ช
, Average Hash ๋ฑ์ผ๋ก ์ ์ฌ์ฑ์ ๋น๊ตํ์ฌ ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ๋ค.
์ด๋ฅผ ํตํด URL์ ์ฃผ๊ธฐ์ ์ผ๋ก ๋ณ๊ฒฝํ๋๋ผ๋ ๋ฐฐ๋๊ด๊ณ ํ๋ณ์ ํตํด ์๋กญ๊ฒ ์๊ฒจ๋๋ ์ ํด์ฌ์ดํธ๋ฅผ ์ฐจ๋จํ๊ณ ๊ทผ์ ํ ์ ์๋ค.
2. ์ ํด์ฌ์ดํธ ํน์ง๊ณผ ๊ด๋ จ ์ฐ๊ตฌ
2.1 ์ ํด์ฌ์ดํธ์ ํน์ง
์ ํด์ฌ์ดํธ๋ ๋ค์๊ณผ ๊ฐ์ ๊ณตํต์ ์ธ ํน์ง์ ๊ฐ์ง๊ณ ์๋ค. ์ฒซ์งธ, ๋ฐฐ๋๊ด๊ณ ๋ฅผ ํตํด ์์ต์ ์ฐฝ์ถํ๊ธฐ ๋๋ฌธ์ ๋ค์์ ๋ฐฐ๋๊ด๊ณ ๊ฐ ์กด์ฌํ๋ค. ๋์งธ, ๋ถํน์ ๋ค์์
์ฌ์ดํธ์์ ์ ์ฌํ ๋ฐฐ๋๊ด๊ณ ๋ฅผ ๋ฐ๋ณต ์ฌ์ฉํ๋ค. ์
์งธ, ์ฌ์ ๊ธฐ๊ด์ ๋จ์์ ํํผํ๊ธฐ ์ํด ์ฃผ๊ธฐ์ ์ธ URL ๋ณ๊ฒฝ ํจํด์ ๋ณด์ธ๋ค [9].
๋จผ์ , ๋ค์์ ๋ฐฐ๋๊ด๊ณ ๊ฐ ๊ฒ์ฌ๋ ์ ํด์ฌ์ดํธ๋ ์ผ๋ฐ์ ์ธ ์น ์ฌ์ดํธ์ ๋ฐฐ๋๊ด๊ณ ์๋ ๋ค๋ฅด๊ฒ ํ ๊ตฌ์ญ์ ๋ค์์ ๊ด๊ณ ๊ฐ ๋ฐฐ์ด๋์ด ์๋ค. ๊ด๊ณ ๊ฐ ๋ง์ด ๊ฒ์ฌ๋
๋ฉ์ธ ํ์ด์ง ๊ฒฝ์ฐ, ํ๊ท ์ 1,050๋ง ์์์ 3,750๋ง ์ ์ด์์ ์์ต์ด ๋ฐ์ํ๋ ๊ฒ์ผ๋ก ํ์
๋์ด ์ ํด์ฌ์ดํธ์ ์ฃผ ์์
์์ ์ญํ ์ ํ๋ค [10]. ์ฌ์ดํธ ๋ด ๋ฐฐ๋๊ด๊ณ ๋ค์ ์์น๋ ์ด์ฉ์๋ค์ ๋์ ๋๊ธฐ ์ฝ๊ฒ ์๋จ์ ๋ฐฐ์น๋๋ค. ๋ํ Animated GIF ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ์์, ๊ทธ๋ฆผ๊ณผ ํ๋ คํ
์๊ฐ์ ํจ๊ณผ๋ฅผ ํตํด ์ฌ์ดํธ ์ด์ฉ์์ ์์ ์ ์ฌ๋ก์ก๋๋ค. ๋ฐฐ๋๊ด๊ณ ๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด โ์ ๊ทโ, โ์ฒซ์ถฉโ, โ๋งค์ถฉโ, โ์์ ๊ฒ์ฆโ, โ๋จนํ๊ฒ์ฆโ, โ์นด์ง๋
ธโ ๋ฑ ํน์ ์์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ณด๋ฅผ ํจ์ถ์ ์ผ๋ก ์ ๋ฌํจ๊ณผ ๋์์ ์ฌ๋๋ค์
ํํนํ๋ ๊ธ์ด ์ฃผ๋ก ์ด๋ฃจ๊ณ ์๋ค. ๋ฐฐ๋๊ด๊ณ ์ 73%๋ ๋ถ๋ฒ ๋๋ฐ ์ฌ์ดํธ๋ก ์ฐ๊ฒฐ๋๋ค [11].
๊ทธ๋ฆผ 1. ์ ํด์ฌ์ดํธ ๋ฐฐ๋๊ด๊ณ ๋ฐฐ์น์ ์
Fig. 1. Examples of posting banner ads on harmful sites
๋ค์์ผ๋ก, ์ด๋ค ์ ํด์ฌ์ดํธ์ ์ ๊ทผํ๋๋ผ๋ ๋์ผ ๋๋ ์ ์ฌํ ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณดํ๋ ๋ฐฐ๋๊ด๊ณ ๋ฅผ ํํ๊ฒ ๋ฐ๊ฒฌํ ์ ์๋ค. ์ด๋ฌํ ๋ฐฐ๋๋ค์ ํน์ง์ ๊ธฐ๋ณธ ํ์์
์ ๊ณตํ๋ ๋ด์ฉ์ ๊ฐ์ง๋ง, ๋ชจ์, ํฌ๊ธฐ ๋๋ ์ผ๋ถ ํ
์คํธ ๋ด์ฉ์ ๋ณ๊ฒฝํ์ฌ ๊ฒ์ฌ๋๋ค. ๊ทธ ์์๋ก, ๊ทธ๋ฆผ 2์ ๊ฐ์ด 5๊ฐ์ ๋ค๋ฅธ ์ ํด์ฌ์ดํธ์์ ์ ์ฌํ ๋ฐฐ๋๊ด๊ณ ๋ฅผ ๋ณผ ์ ์์ผ๋ฉฐ, ์ ์ฒด์ ์ธ ๋ฐฐ๋ ์ด๋ฏธ์ง์ ๊ตฌ์ฑ๊ณผ โ์ ๊ทโ, โ๋ฌดํ๋งค์ถฉโ, โ๊ฐ์
์ฝ๋โ ๋ฑ์ ํ๋ณด๋ด์ฉ์
๊ฐ์ผ๋ ๋ฐฐ๋์ ํ
์คํธ ๋ฐ ์ด๋ฏธ์ง ๋ฐฐ์น ํํ์ ์ผ๋ถ ํ
์คํธ ๋ด์ฉ์ด ๋ณ๊ฒฝ๋์ด ๊ฒ์ฌ๋จ์ ์ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก, ๋๋ถ๋ถ์ ์ ํด์ฌ์ดํธ๋ ๋จ์์ ํํผํ๊ธฐ ์ํด IP์ ๋๋ฉ์ธ์ ๋ณ๊ฒฝํ๋ค. ์ ํด์ฌ์ดํธ๋ ๋๋ถ๋ถ ๋๋ฉ์ธ๋ค์ ๋ง์ง๋ง์ ์ซ์๋ฅผ ๋ถ์ฌ ์ฃผ๊ธฐ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋
๋ฐฉ๋ฒ์ผ๋ก ๋๋ฉ์ธ์ ๋ณ๊ฒฝํ๋ค. ๊ทธ๋ฆผ 3์ ๋ชจ ์ ํด์ฌ์ดํธ์ URL ๋ณ๊ฒฝ ํจํด์ ๋ํ๋ธ ๊ฒ์ผ๋ก, ์ฃผ๊ธฐ์ ์ผ๋ก ๋๋ฉ์ธ์ ๋ณ๊ฒฝํ์ฌ โtorrent*** 58.comโ ๋๋ฉ์ธ์ด โtorrent***60.comโ์ผ๋ก
๋ณ๊ฒฝ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ด ์ฌ์ดํธ๋ค์ ์ด์ ๋๋ฉ์ธ์ผ๋ก ์ ์ํ์ ๋ โ๋๋ฉ์ธ ๋ณ๊ฒฝ ์ฃผ์ ์๋ดโ ํ๋ฉด์ ๋ณด์ฌ์ค๋ค. ์ด ํ๋ฉด์์ ์๋ก์ด ์ฌ์ดํธ๋ก
์ ์ํ ์ ์๋ ๊ฒฝ๋ก๋ฅผ ์๋ดํ๋ค๋ ํน์ง์ ๊ฐ์ง๋ค.
๊ทธ๋ฆผ 2. ์๋ก ๋ค๋ฅธ ์ ํด์ฌ์ดํธ์์ ์ ์ฌํ ๋ฐฐ๋๊ด๊ณ ๋ฐ๋ณต ์ฌ์ฉ
Fig. 2. Use similar banner ads on different harmful sites
๊ทธ๋ฆผ 3. ์ ํด์ฌ์ดํธ์ ๋๋ฉ์ธ ๋ณ๊ฒฝ ํจํด์ ์
Fig. 3. An Example of domain change patterns of harmful sites
2.2 ๊ด๋ จ ์ฐ๊ตฌ
์ฅ์ค์ [7]์ ์ ํด์ฌ์ดํธ์ HTML ์ฝ๋๋ฅผ ์ค์ ์ผ๋ก ๋ถ์ํ์ฌ ์ป์ ์ ํด์ฌ์ดํธ์ ํน์ง์ผ๋ก ์ ํด ์ฌ๋ถ๋ฅผ ํ๋ณํ ์ ์๋ ์์คํ
์ ์ ์ํ์๋ค. ์ถ์ถ๋ ํน์ง์ผ๋ก๋ ๋๋ฉ์ธ์
๋ถ์ ์ํ์ค ๋ฒํธ, HTML ๋ฉํ ๋ฐ์ดํฐ, ํ์ดํผ ๋งํฌ๋ฅผ ํฌํจํ ์ด๋ฏธ์ง, ํ์ดํ์ ์ฌ์ฉ๋ ํค์๋๊ฐ ์๋ค. ์ด๋ฅผ ์ด์ฉํด ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ์์ง๋ง, HTML์ด
๋ณ์กฐ๋์ด ์๊ฑฐ๋ ํน์ ํ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง์ง ์๋ ๊ฒฝ์ฐ ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ๊ธฐ ์ด๋ ต๋ค๋ ์ ๊ณผ HTML ์ฝ๋ ์ธ์์ ์๋ณํ ์ ์๋ ํน์ง๋ค์ ์์งํ๊ธฐ ์ด๋ ต๋ค๋
ํ๊ณ๊ฐ ์๋ค. ์ถ์น์ฉ ๋ฑ [8]์ ์น ํฌ๋กค๋ง์ ์ด์ฉํ์ฌ ์ ํด์ฌ์ดํธ ๋ค์ํ ์ ๋ณด๋ฅผ ์์งํ๋ ์์คํ
์ ์ ์ํ์๋ค. ํจ๊ณผ์ ์ผ๋ก ์ ํด์ฌ์ดํธ ์ ๋ณด๋ฅผ ์์งํ๊ธฐ ์ํด ๋งํฌ ๋ชจ์ ์ฌ์ดํธ๋ค์ Seed
URL๋ก ์ง์ ํ๋ค. ์น ์ฌ์ดํธ์ HTML๊ณผ URL์ ๊ธฐ๋ฐ์ผ๋ก ์ ํด ์ ๋ณด๋ฅผ ์๋ณํ ํ ์ฌ์ดํธ์ ์ ๊ทผํ์ฌ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์์๋ ์์งํ์ง ๋ชปํ Google
Analytics ID์ SNS ์ ๋ณด, CDN ์ฌ์ฉ ์ ๋ณด ๋ฑ ์ ํด์ฌ์ดํธ์ ์ ๋ณด๋ฅผ ์์งํ์๋ค. ์ด ์ ๋ณด๋ค์ ๊ธฐ๋ฐ์ผ๋ก ์ ํด์ฌ์ดํธ์ ํ๋ณ๋ฅ ์ ๋์ด๊ณ ์ฐจ๋จํ๋
๋ฐ ๊ธฐ์ฌํ์ง๋ง, Seed URL์ธ ๋งํฌ ๋ชจ์ ์ฌ์ดํธ๊ฐ ์ฐจ๋จ๋๊ฑฐ๋ ์์ด์ง๋ฉด ์ ๋ณด ์์ง์ด ์ด๋ ค์ธ ์ ์๋ค. ์ ์ค์ ๋ฑ [9]์ ์ ํด์ฌ์ดํธ์ ๋๋ฉ์ธ ๋ณ๊ฒฝ ํจํด์ ์ด์ ์ ๋๊ณ ์ฐจ๋จํ๋ ๋ฐฉ์์ ์ ์ํ๋ค. ๋๋ฉ์ธ ๋ณ๊ฒฝ ๋ฐฉ์์๋ Second-level, Top-level, ์ ์ฒด
์ฃผ์ ๋ณ๊ฒฝ ๋ฐฉ์์ด ์๋ค. ๋ณ๊ฒฝ๋๊ธฐ ์ ์ ํด์ฌ์ดํธ์ HTML ํ๊ทธ์ ๋๋ฉ์ธ์ด ๋ณ๊ฒฝ๋ ํ ์ ํด์ฌ์ดํธ์ HTML ํ๊ทธ๋ฅผ Longest Common Subsequence(LCS)
์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ์ ์ฌ๋ ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํด ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ์๋ค. ํ์ง๋ง ๋๋ฉ์ธ ๋ด Top-level, ์ ์ฒด์ฃผ์ ๋ณ๊ฒฝ ๋ฐฉ์์ ๋ํด์๋ ์์ธก์ด ์ด๋ ต๊ณ
์ฃผ๊ธฐ์ ์ด์ง ์์ ๊ฐฑ์ ๊ธฐ๊ฐ์ผ๋ก ํ๋ณํ๋ ๋ฐ ํ๊ณ๊ฐ ์์๋ค. ๊ฐํ์ฐ ๋ฑ [10]์ ์ ํด์ฌ์ดํธ ๋ด์ ๋ฐฐ๋๊ด๊ณ ๋ฅผ ๋ถ์ํ๊ณ ์ถ์ ํ์ฌ ๊ด๊ณ ์ฃผ๋ฅผ ๋ถ์ํ๋ ์์คํ
์ ๊ตฌํํ์๋ค. ์ ํด์ฌ์ดํธ๋ ์๋ก ์ ๊ธฐ์ ์ผ๋ก ์ฐ๊ฒฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ ์ ์ ์ด์ ์
๋์ด ๊ด๊ณ ์์ต ์ถ์ ๊ธฐ๋ฒ์ ์ด์ฉํ์ฌ ๊ด๊ณ ์์ต ํ๋ฆ์ ์ต์ข
๋จ๊ณ์ ์๋ ์ฌ์ดํธ๋ฅผ ์ต์ข
๊ด๊ณ ์ฃผ๋ก ๊ท์ ํ๊ณ ์์ถํด ๋ด๋ ๋ฐ์ ๋ชฉ์ ์ ๋์๋ค.
3. ์ ํด์ฌ์ดํธ ํ๋ณ ์์คํ
๋ณธ ๋
ผ๋ฌธ์์๋ ๋ฐฐ๋๊ด๊ณ ํน์ง์ ๋ถ์ํ์ฌ 7๊ฐ์ ์์ง ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ์๋ค. ์ฌ์ดํธ ๋ด ๋ฐฐ๋๊ด๊ณ ๋ฅผ ์์ง ํ ์ ํด์ฌ์ดํธ ์ฌ๋ถ๋ฅผ ํ๋ณํ๋ค. ๊ทธ๋ฆผ 4๋ ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ๋ ์์คํ
์ ๊ฐ๋
๋์ด๋ค. ์น ํฌ๋กค๋ง์ ํตํด 6๊ฐ์ ์์ง ๋ฐ์ดํฐ์ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง๋ฅผ ์์งํ๋ค. ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง๋ฅผ ์ ์ฒ๋ฆฌ, OCR
๊ณผ์ ์ ํตํด ๋ฐฐ๋๊ด๊ณ ์ ํค์๋๋ฅผ ์ถ์ถํ๋ค. ๋ํ, Average Hash ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ด๋ฏธ์ง์ ๊ณ ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ค. ์์ง๋ 7๊ฐ์ ๋ฐ์ดํฐ๋ ELK
stack์ ์ด์ฉํด ๊ตฌ์ถํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฝ์
ํ์ฌ ๊ด๋ฆฌํ์๋ค.
๊ทธ๋ฆผ 4. ์ ์ํ๋ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ ํด์ฌ์ดํธ ํ๋ณ ์์คํ
Fig. 4. A diagram of a proposed image-based harmful site identification system
3.1 ์ ํด์ฌ์ดํธ ํน์ง ๋ฐ์ดํฐ ์ ์
์ ํด์ฌ์ดํธ์ ๋ถ๋ฅ๋ฅผ ์ํด 2์ฅ์์ ์ธ๊ธํ ์ ํด์ฌ์ดํธ์ ํน์ง์ ๋ถ์ํ์ฌ Site Name, URL, Category, Base64encoding, AverageHash,
Banner URL, Keyword๋ก 7๊ฐ์ ํน์ง ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ์๋ค. ์ ์ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ๋ค. Site Name๊ณผ URL์ ๋ฐฐ๋๊ด๊ณ ๋ฅผ ํฌํจํ ์ฌ์ดํธ
์ด๋ฆ๊ณผ URL์ด๋ค. ํด๋น ์ ๋ณด๋ฅผ ํตํด ๋์ผํ ๋๋ฉ์ธ์์ ์ซ์๋ฅผ ์ฆ๊ฐ์ํค๋ฉฐ URL์ ๋ณ๊ฒฝํ๋ ์ฌ์ดํธ๋ฅผ ํ๋ณํ ์ ์๋ค. Category๋ ์ ํด์ฌ์ดํธ์์
์ ๊ณตํ๋ ์ฃผ์ ์๋น์ค๋ฅผ ๊ธฐ์ค์ผ๋ก Gamble, Torrent, Porno, Streaming, Webtoon์ผ๋ก ๋ถ๋ฅํ์๋ค. Base64encoding์
AverageHash๋ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง๋ฅผ ๊ฐ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ด์งํํ ๊ฐ์ด๋ค. Base64 ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๋ฉด ๋ฐฐ๋ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ด๋๋ฆฌ๋ก ์ฝ๊ฒ ๋ณํํ
์ ์๋ค. ํ์ง๋ง ์ ํด์ฌ์ดํธ์ ๊ฒ์ฌ๋๋ ๋ฐฐ๋๊ด๊ณ ํน์ฑ์ ๊ฐ์ ์ฌ์ดํธ์ ๋ํ ๋ฐฐ๋๊ด๊ณ ์ผ์ง๋ผ๋ ์ฌ์ดํธ๋ง๋ค ํฌ๊ธฐ, ๋ด์ฉ ๋ฑ์ด ์กฐ๊ธ์ฉ ๋ค๋ฅด๋ค. ๋ฐ๋ผ์ Base64๋ก
์ธ์ฝ๋ฉํ๋ฉด ์ ์ฌ ์ด๋ฏธ์ง๋ ์ฐพ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์๋ค. ๋ฐ๋ผ์ ์ด๋ฏธ์ง์ ํฝ์
์ ํด์๊ฐ์ผ๋ก ๋ํ๋ด์ด ์ ์ฌํ ์ด๋ฏธ์ง๋ฅผ ์ฐพ๋ Average Hash ์๊ณ ๋ฆฌ์ฆ์
์ฌ์ฉํ์๋ค [12]. ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ผ์ ํ ํฌ๊ธฐ๋ก ์ถ์ํ๊ณ ์ ์์ญ์ ํ์์กฐ๋ก ๋ณํํ์ฌ ์ด๋ฏธ์ง์ ๊ฐ ํฝ์
์ ํ๊ท ์ ๊ณ์ฐํ๋ค. ๊ฐ ํฝ์
์ ์ด๋์ด ์ ๋๊ฐ
ํ๊ท ๋ณด๋ค ํฌ๋ฉด 1, ํ๊ท ๋ณด๋ค ์์ผ๋ฉด 0์ผ๋ก ๊ณ์ฐํ๋ค. Keyword๋ ๋ฐฐ๋๊ด๊ณ ์์ ๊ณตํต์ผ๋ก ๋ฐ๊ฒฌ๋๋ 20๊ฐ์ ํค์๋๋ฅผ ์ ์ ํ์๊ณ OCR์ ํตํด ๋ถ์๋
ํ
์คํธ์์ ๋จ์ด๊ฐ ๋ฐ๊ฒฌ๋๋ ๊ฒฝ์ฐ ํด๋น ํค์๋๋ฅผ ์ ์ฅํ๋ค. ๋ถ๋ฒ ๋ฐฐ๋๊ด๊ณ ๊ฒ์ฌ ์ฌ๋ถ๋ฅผ ์ ์ ์์ผ๋ฉฐ ํด๋น ๋ฐ์ดํฐ๋ก ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ๋ค.
๊ทธ๋ฆผ 5. ์ ์ํ๋ OCR ์ ์ฒ๋ฆฌ ๊ณผ์
Fig. 5. A proposed OCR pre-processing Process
3.2 ์น ํฌ๋กค๋ง์ ํตํ ์ ๋ณด ์์ง
์น ํฌ๋กค๋ง์ ์ ์ ํ ์ ํด์ฌ์ดํธ ํน์ง ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ธฐ ์ํด์ ์ฌ์ฉํ๋ฉฐ, ํจ์จ์ ์ธ ์์ง์ ์ํด ์ ํด์ฌ์ดํธ ๋งํฌ๊ฐ ๋ชจ์ฌ์๋ ์ฌ์ดํธ๋ฅผ ์ฃผ ๋์์ผ๋ก ์ผ์
ํฌ๋กค๋ง์ ์งํํ์๋ค. ์ฌ์ดํธ๋ง๋ค ๋ฐฐ๋๊ด๊ณ ๊ฐ ์์นํ ๊ตฌ์กฐ๊ฐ ๋ค๋ฅด์ง๋ง, ๋๋ถ๋ถ์ ๊ด๊ณ ๋ ๊ฐ์ ํฌ๊ธฐ์ ๋ฐ๋ณต๋ ๋ฐฐ์ด ๊ตฌ์กฐ๋ฅผ ๋ณด์ธ๋ค. ๋ํ ์ฌ์ฉ์ ๋์ ์
๋๋ ๋ฉ์ธ ์ฌ์ดํธ ์ค๊ฐ์ด๋ ์๋จ์ ๊ณ ์ ๋ ํํ๋ก ๋ฐฐ์น๋์ด ์๋ค๋ ํน์ง์ ๊ฐ์ง๋ค. ๊ทธ๋ฆฌ๊ณ ๋ฐฐ๋๊ด๊ณ ๋ <a> ํ๊ทธ๋ฅผ ํ์ฉํด ๋ค๋ฅธ ์น ์ฌ์ดํธ๋ก ์ด๋ํ๋
๊ณตํต์ ์ด ์๋ค. <a> ํ๊ทธ์ ๋น์ทํ ๊ธฐ๋ฅ์ ํ๋ HTML ํ๊ทธ๋ <div>, <li> ๋ฑ์ด ์๋ค. ์น ํฌ๋กค๋ง์ Beautifulsoup ๋ชจ๋๊ณผ Selenium
๋ชจ๋์ ์ฌ์ฉํด ํ์ํ ๋ฐ์ดํฐ๋ฅผ ์ถ์ถํ์๋ค. ์ธ๋ถ์ ์ผ๋ก <a> ํ๊ทธ์ โhrefโ ์์ฑ๊ฐ์ ์ถ์ถํ์ฌ BannerURL์ ์์งํ์๋ค. ๊ทธ๋ฆฌ๊ณ <img>
ํ๊ทธ์์ โsrcโ ์์ฑ์ ์ถ์ถํ์ฌ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง๋ฅผ ์์งํ๊ณ โsrcโ ์์ฑ์์ ํ์ฅ์ ํ๊ธฐ๊ฐ ๋์ง ์์ ๋งํฌ๋ ์ด๋ฏธ์ง์ ์ ํ์ ํ๋จํด์ฃผ๋ imghdr
๋ชจ๋์ ์ฌ์ฉํ์๋ค.
ํฌ๋กค๋ง ์งํ ์ค ์ ๋ณด ์์ง ๋งคํฌ๋ก๋ฅผ ์ฐจ๋จํ๋ ์ํฐ-ํฌ๋กค๋ง(Anti-Crawling) ๊ธฐ๋ฒ์ด ์ ์ฉ๋ ์ฌ์ดํธ๋ฅผ ๋ค์ ๋ฐ๊ฒฌํ์๊ณ , ์ด ๊ฒฝ์ฐ ์น ํ์ด์ง ์ ์
์์ฒญ ์ HTTPใHeader ์์ญ์ User-Agent ๊ฐ์ ์ถ๊ฐํ์ฌ ํด๊ฒฐํ์๋ค. ๋ํ ๋ฐฐ๋๊ด๊ณ ๋ ์ฃผ๋ก ๋ค์ค ํ๋ ์ ์ ๋๋ฉ์ด์
์ ์ฌ์ฉํ๋ Animated
GIF ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ ํฌ๋กค๋ง ์ png๋ jpg์ ๊ฐ์ ์ด๋ฏธ์ง์ ๋นํด ๋ค์ด๋ก๋ ์๋๊ฐ ๋๋ฆฌ๋ค. ๋ฐ๋ผ์ ์ด๋ฏธ์ง ์์ง ์๋๋ฅผ ํฅ์ํ๊ธฐ ์ํด
Headless Mode, Multi Processing ๊ธฐ์ ์ ์ ์ฉํ๋ค. Headless Mode๋ ์ค์ ์ฐฝ์ ๋์ฐ์ง ์๊ณ Background Mode๋ก
์คํํ์์ผ๋ฉฐ, Multi Processing์ ๊ธฐ๋ณธ์ ์ผ๋ก 1๊ฐ์ ํ๋ก์ธ์ค๋ง์ ์ฌ์ฉํ๋ Python์์ ์ฌ๋ฌ ๊ฐ์ ํ๋ก์ธ์ค ์ฌ์ฉ์ด ๊ฐ๋ฅํ๊ฒ ํ์๋ค.
3.3 ๋ฐฐ๋๊ด๊ณ ๋ถ์์ ํตํ ํค์๋ ์ถ์ถ
๋ณธ ์ฐ๊ตฌ์์๋ ์ด๋ฏธ์ง ์ ์์ด๋ค์ ํค์๋๋ก ๊ท์ ํ๊ณ ๊ณตํต์ผ๋ก ๋ฑ์ฅํ๋ ํค์๋ ์ถ์ถํ๋ ๊ณผ์ ์ ์ํํ์๋ค. ์ด ๊ณผ์ ์ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง์์ ๋ฌธ์๋ฅผ ์ถ์ถํ๋
Optical Character Reader (OCR)์ ๋ฌธ์๋ฅผ ํค์๋๋ก ๋ฌถ๊ธฐ ์ํ ํ๊ตญ์ด ์์ฐ์ด ์ฒ๋ฆฌ(Natural Language Processing;
NLP)๋ก ๋๋ ์ง๋ค.
OCR์ ํ
์คํธ ์ด๋ฏธ์ง๋ฅผ ๊ธฐ๊ณ๊ฐ ์ฝ์ ์ ์๋ ํ
์คํธ ํฌ๋งท์ผ๋ก ๋ณํํ๋ ์ํํธ์จ์ด ๊ธฐ์ ์ด๋ค. OCR์ ์ฌ์ฉํ๋ฉด ์ด๋ฏธ์ง๋ฅผ ํ
์คํธ ๋ฌธ์๋ก ๋ณํํ์ฌ ๋ด์ฉ์
ํ
์คํธ ๋ฐ์ดํฐ๋ก ์ ์ฅํ ์ ์๋ค. ๋ฐฐ๋๊ด๊ณ ๋๋ถ๋ถ์ ์ฌ๋ฌ ๊ฐ์ ์ ์ ์ด๋ฏธ์ง๋ค๋ก ์ฐ๊ฒฐ๋์ด ์ด๋ฃจ์ด์ง Animated GIF ์ด๋ฏธ์ง์ด๋ฏ๋ก OCR ์ ์ฒ๋ฆฌ๊ฐ
ํ์ํ๋ค. ์ ์ ์ด๋ฏธ์ง๋ค์ ๊ฐ๊ฐ ๋ด๊ณ ์๋ ์ ๋ณด๊ฐ ์กฐ๊ธ์ฉ ๋ค๋ฅด๋ค. ๋ฐ๋ผ์ ๋ฐฐ๋๊ด๊ณ ์์ ์๋ ๋ชจ๋ ํ
์คํธ ์ ๋ณด๋ฅผ ์ป๊ธฐ ์ํด์ ํ๋ ์ ๋ถํ ์ ์ํํ์๋ค.
๊ทธ๋ฆฌ๊ณ OCR์ ์์์ ์์, ์๊ณก ๋ฑ์ผ๋ก ์ธํ ์ธ์๋ฅ ์ ํ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด์ ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋ ์ด์ค์ผ์ผ๋ก ํํํ๊ณ ํฌ๊ธฐ ์กฐ์ ์ ์ํํ์๋ค. ์ด๋ฏธ์ง ํฌ๊ธฐ
์กฐ์ ์ ์๋ณธ ์ด๋ฏธ์ง์ ๊ฐ๋ก, ์ธ๋ก ๊ฐ๊ฐ 2๋ฐฐ ํ๋ํ๊ณ ํฌ๊ธฐ ๋ณํ์ผ๋ก ์ธํด ํฝ์
์ฌ์ด์ ๊ฐ์ ๊ฒฐ์ ํ๊ธฐ ์ํด ์ด๋ฏธ์ง ํ๋ํ ๋ ๋ง์ด ์ฐ์ด๋ ๋ฐ์ด ํ๋น
๋ณด๊ฐ๋ฒ์ ์ ์ฉํ๋ค.
์์งํ ๋ฐฐ๋๊ด๊ณ 2,557๊ฐ์ ๋ํ์ฌ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ์งํํ์์ผ๋ฉฐ ์ ์ฒ๋ฆฌ ํ ์ด๋ฏธ์ง๋ค์ OCR์ ์ด์ฉํด ํ
์คํธ๋ฅผ ์ถ์ถํ๋ค. ์ถ์ถ๋ ํ
์คํธ ๊ฒฐ๊ณผ์ ๋ฐฐ๋๊ด๊ณ
์ ํ
์คํธ๋ฅผ ํ ๊ธ์์ฉ ๋น๊ตํด๋ณธ ๊ฒฐ๊ณผ Tesseract OCR ๊ธฐ์ค ์ ์ฒ๋ฆฌ ์ ์ถ์ถ ์ ํ๋๋ ํ๊ท 7%์ด๋ฉฐ, ์ ์ฒ๋ฆฌ ํ ์ ํ๋๋ 63%์ด์๋ค. ์ด
๊ฒฐ๊ณผ๋ ๋ฐฐ๋๊ด๊ณ ์ ํ๋ คํ ์ด๋ฏธ์ง ํจ๊ณผ๋ก OCR ์ ์ฒ๋ฆฌ๋ฅผ ์ํํ์ง ์์ผ๋ฉด ์ธ์์ด ์ด๋ ค์ฐ๋ฉฐ, ์ ์ฒ๋ฆฌ ํ์๋ ์ธ์๋ฅ ์ด ๋จ์ด์ง๋ฏ๋ก ์ถ๊ฐ์ ์ธ ๋
ธ๋ ฅ์ด ํ์ํจ์
๋ณด์ฌ์ค๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ Tesseract OCR ์ธ์๋ Easy OCR์ ์ด์ฉํ์์ผ๋ฉฐ, ์ฌ์ฉ์ํ์ต์ ์ถ๊ฐํ์ฌ OCR์ ์ฑ๋ฅ ๊ฐํํ๋ ์คํ์ ์ํํ์๋ค.
์ด๋ฏธ์ง ์ ์์ฃผ ๋ฑ์ฅํ๋ ์์ด๋ค์ ํค์๋๋ก ๊ท์ ํ๊ธฐ ์ํด์ NLP๋ฅผ ์ฌ์ฉํ์๊ณ , ๋ผ์ด๋ธ๋ฌ๋ฆฌ ํ์ฉ์ฑ์ด ๋ฐ์ด๋ python์ ์ด์ฉํ์๋ค. ์ฌ์ฉํ NLP
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ KoNLPy์ด๋ฉฐ, ์ด๋ฅผ ํตํด ์ถ์ถํ ํต์ฌ ํค์๋๋ โ๋งค์ถฉโ, โ์นด์ง๋
ธโ, โ์ฝ๋โ, โ๋๋ฐโ, โ๋ฏธ๋๊ฒ์โ, โ๋ฃฐ๋ โ ๋ฑ์ด ์์๋ค. ํ์ง๋ง
KoNLPy๋ฅผ ์ฌ์ฉํ์ฌ ๋ช
์ฌ ๋จ์๋ก ๊ตฌ๋ถํ์์ ๋ โ์ฒซ์ถฉโ, โํ์ด๋ฐฑโ ๋ฑ์ ๋ช
์ฌ๋ก ์ธ์ํ์ง ๋ชปํ๊ณ ๋ถํดํ๋ ๋ฑ ์คํ๋ ค ํต์ฌ ํค์๋๋ค์ ์ถ์ถํ์ง ๋ชปํ๋
ํ๊ณ์ ์ด ์กด์ฌํ๋ค. ๋ฐ๋ผ์ ํํ์ ๋ถ์์ผ๋ก ๋ฐฉํฅ์ ๋ฐ๊ฟ ๋ถ์ํ์์ผ๋ฉฐ, ๊ผฌ๊ผฌ๋ง(Kkma), ์ฝ๋ชจ๋(Komoran), ๋ฉ์นด๋ธ(Mecab), ํ๋๋(Hannanum)
๋ฑ ๋ค์ํ ํํ์ ๋ถ์๊ธฐ๋ค์ ์ถ๊ฐ๋ก ์คํํ์๊ณ ์ต์ข
์ ์ผ๋ก KoNLpy์ ํํ์ ๋ถ์๊ธฐ์ธ Kkma๋ฅผ ์ฌ์ฉํ์ฌ ํค์๋๋ฅผ ์ถ์ถํ์๋ค.
3.4 Average Hash๋ฅผ ํตํ ์ ์ฌํ ๋ฐฐ๋๊ด๊ณ ์ฐพ๊ธฐ
๋ค์์ ์ ํด์ฌ์ดํธ์์ ๊ฐ๊ฑฐ๋ ์ ์ฌํ ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ๋ค๋ ์ ์ ์ด์ ์ ๋์ด ์ ์ฌ ์ด๋ฏธ์ง๋ฅผ ํ๋ณํ ์ ์๋ Average Hash ์๊ณ ๋ฆฌ์ฆ์ ์ฑํํ์๋ค
[13]. Average Hash๋ ์ด๋ฏธ์ง์ ๊ณ ์ ํ fingerprint๋ฅผ ๋ถ์ฌํ๊ธฐ ์ํด ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ์์ถํ ์ด๋ฏธ์ง๋ฅผ ํด์ ํจ์๋ฅผ ์ด์ฉํ์ฌ ๋ํํ ์
์๋ ํ๋์ ๊ฐ์ผ๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ์ถ์ถํ ์ด๋ฏธ์ง์ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ ์ฅ๋ ์ด๋ฏธ์ง์ Average Hash์ ์ฐจ๋ฅผ ์ด์ฉํ์ฌ ์ ์ฌ๋๋ฅผ
๊ตฌํ์๋ค. ์ด ๊ฐ์ 0์ ๊ฐ๊น์ธ์๋ก ๋์ผ ๋๋ ์ ์ฌํ ์ด๋ฏธ์ง๋ก ํ๋ณํ๋ค.
3.5 ELK stack ํ์ฉํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ตฌ์ถ
๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ๊ตฌ์ถํ๋ฉด ์ถ์ ํ ๋ฐ์ดํฐ์์ ๋น๊ต๋ฅผ ํตํ ํ๋ณ ๊ธฐ๋ฅ๊ณผ ์ถํ ์ฐ๊ตฌ์ ํ์ฉ๋ ์ ์์ผ๋ฏ๋ก ์ ํด์ฌ์ดํธ ํ๋ณ ์ธ์๋ ๋ถ์์ ์ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ
๊ตฌ์ถํ์๋ค. ํนํ, ELK stack์ ํธ๋ฆฌํ ๋ฐ์ดํฐ ์ ์ฅ, ๋น ๋ฅธ ๊ฒ์, ๋ถ์๊ณผ ์๊ฐํ๋ฅผ ํ ์ ์๋ Elasticsearch, Kibana๋ฅผ ๊ฐ์ง๊ณ
์์ด ์ด๋ฅผ ์ด์ฉํด ๊ตฌ์ถํ์๋ค. ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ตฌ์ฑ์ 1๊ฐ์ ํ๋ ๋น ๋ฐฐ๋๊ด๊ณ 1๊ฐ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ์์ผ๋ฉฐ ๋ํ๋จผํธ๋ก๋ Site Name, URL,
Category, Base64encoding, AverageHash, BannerURL, NLP Keyword0-5๋ก ์ด 12๊ฐ์ ๋ํ๋จผํธ๋ก ๊ตฌ์ฑํ์๋ค.
Elasticsearch๋ ์ ๋ณด ๊ฒ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, ํ์ฅ์ฑ์ด ๋ฐ์ด๋๋ฉฐ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ๊ฑฐ์ ์ค์๊ฐ์ผ๋ก ์ ์ํ๊ฒ ์ ์ฅ, ๊ฒ์ ๋ฐ ๋ถ์์ ์ํํ ์ ์๋ค๋
์ฅ์ ์ด ์๋ค. ๊ทธ๋ฆฌ๊ณ ๊ฒ์ ๊ธฐ๋ฅ๋ฟ๋ง ์๋๋ผ ๊ฒ์ํ ๋ฐ์ดํฐ๋ฅผ ์ง๊ณํ ์ ์๋ ๊ธฐ๋ฅ๋ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ ํด์ฌ์ดํธ์ ํน์ง์ ๊ณ ๋ คํ์ฌ ์ ์ ํ ๋ํ๋จผํธ๋ค์
๋ํ ์ง๊ณ์ ์ถ์ ๋ ๋ฐ์ดํฐ์์ ๋น๊ต๋ฅผ ํตํด ํ๋ณํ๋ ๊ธฐ๋ฅ์ ํ์ฉํ์๋ค. ๋ํ Kibana๋ ๋ถํน์ ๋ค์ ์ ํด์ฌ์ดํธ์์ ๋ฐ๋ณตํ์ฌ ์ฌ์ฉ๋ ๋ฐฐ๋๊ด๊ณ ๋ค,
์นดํ
๊ณ ๋ฆฌ๋ณ ํ๋์ ์ ํด์ฌ์ดํธ ๋น ๊ฒ์ฌ๋ ๋ฐฐ๋๊ด๊ณ ์ ์, ์ฌ์ดํธ URL์ด ์ผ์ ํ ํจํด์ผ๋ก ์ง์์ ์ธ ๋ณ๊ฒฝ์ด ๋ฐ์ํ๋ ์ฌ์ดํธ๋ค๊ทธ๋ฆฌ๊ณ ๊ด๊ณ ๋ฐฐ๋๋ค์ด ์ฃผ๋ก
๊ฐ์ง๋ ํค์๋๋ค์ ๋น๋์ ๋ฑ์ ์ ์ฉํ์ฌ ๋ํ๋ฅผ ๊ตฌํํ์๋ค.
4. ์คํ ๊ฒฐ๊ณผ ๋ฐ ๊ณ ์ฐฐ
4.1 ์คํ ํ๊ฒฝ
์ ์ํ ์ด๋ฏธ์ง ๊ธฐ๋ฐ ์ ํด์ฌ์ดํธ ํ๋ณ ๋ฐฉ๋ฒ์ ์คํ ํ๊ฒฝ์ ํ 1๊ณผ ๊ฐ๋ค. ์ด์์ฒด์ ๋ Windows 11์ ์ฌ์ฉํ๊ณ CPU์ GPU๋ ๊ฐ๊ฐ AMD Ryzen5 5600x 6-Core, GTX 3070์ ์ฌ์ฉํ์๋ค.
๊ฐ๋ฐ์ธ์ด๋ Python์ด๋ฉฐ 3.10.7 ๋ฒ์ ์ ์ฌ์ฉํ์๋ค. ์น ํฌ๋กค๋ง์ Beautifulsoup 4.12.0 ๋ฒ์ ๊ณผ Selenium 4.9.0 ๋ฒ์ ์
์ฌ์ฉํ๊ณ , OCR ์ ์ฒ๋ฆฌ๋ฅผ ์ํ OpenCV-python์ 4.6.66๋ฒ์ ์ด๋ฉฐ, OCR์ Easy OCR 1.6.2 ๋ฒ์ ์ ์ฌ์ฉํ์๋ค. ๊ทธ๋ฆฌ๊ณ NLP๋
KoNLPy 0.4.3 ๋ฒ์ ์ด๋ฉฐ, ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ ELK stack 8.4.2 ๋ฒ์ ์ด๋ค.
ํ 1 ์คํ ํ๊ฒฝ
Table 1 Experimental environments
๊ตฌ๋ถ
|
๋ฒ์
|
OS
|
Windows 11
|
CPU
|
AMD Ryzen5 5600x 6-Core
|
GPU
|
GTX 3070
|
Language
|
Python 3.10.7
|
Web Crawling
|
Beautiful Soup 4.12.0
Selenium 4.9.0
|
OCR pre-processing
|
OpenCV-python 4.6.66
|
OCR
|
Easy OCR 1.6.2
|
NLP
|
KoNLPy 0.4.3
|
Database
|
ELK stack 8.4.2
|
4.2 ์น ํฌ๋กค๋ง์ ๋ฐ์ดํฐ ์์ง ์๋ ์ธก์
์น ํฌ๋กค๋ง์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด์ โ**๋ท์ปดโ ์ฌ์ดํธ์์ 19๊ฐ์ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง ์์ง์ ๊ธฐ์ค์ผ๋ก ์ค์ ํ๋ค. ์๋ฌด๋ฐ ๊ธฐ์ ์์ด ์์งํ์ ๊ฒฝ์ฐ ์ฝ 12.5์ด๊ฐ
์์๋๋ค. Chrome ๋ธ๋ผ์ฐ์ ๋ฅผ ์ฌ์ฉํ Selenium์ Headless Mode๋ ์ค์ ์ฐฝ์ ๋์ฐ์ง ์๊ณ Background Mode๋ก ์คํํ๋ค.
์ด๋ ์ค์ ๋ก ์ฐฝ์ ๋์ ์ ๋๋ณด๋ค ์๋๋ฅผ ํฅ์ํ ์ ์์์ง๋ง, ๊ธฐ๋ณธ ์ค์ ์์ ๋ณด์ด๋ ํฌ๋กค๋ง ์๋์ ํฌ๊ฒ ์ฐจ์ด ๋์ง ์์๋ค. Python์ ๊ธฐ๋ณธ์ ์ผ๋ก
1๊ฐ์ ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ๋ค. ๋ฐ๋ณต๋ ์์
๊ณผ ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ ์์
์ ์ฌ๋ฌ ๊ฐ์ ํ๋ก์ธ์ค๋ก ๋ณ๋ ฌ ์ฒ๋ฆฌํ์ฌ ๋์์ ์ฒ๋ฆฌํ๋ค๋ฉด ์๋ํฅ์์ ํฐ ๋์์ ์ค
์ ์๋ค. 4๊ฐ์ ํ๋ก์ธ์ค๋ฅผ ์ค์ ํ์ฌ ์์งํ์ ๋ ์ฝ 3.34์ด๊ฐ ์์๋์์ผ๋ฉฐ ์ด๋ ๊ธฐ๋ณธ์๋์ ๋นํด 4๋ฐฐ ๋น ๋ฅธ ์๋๋ก ํฅ์๋ ๊ฒ์ ํ์ธํ์๋ค. ํ๋ก์ธ์ค
์ฆ๊ฐ ์ ์์ง ์๋ ์ญ์ ํจ๊ป ์ฆ๊ฐํ์ง๋ง, ์ ์ ํ๋ก์ธ์ค ์ด์์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ ์น ์ฌ์ดํธ์์ ๊ณต๊ฒฉ์ ํฌ๋กค๋ง์ผ๋ก ์ธ์ํ์ฌ ์ฐจ๋จํ ์ ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ
์ ์์ผ๋ฉฐ ๋คํธ์ํฌ ๋ฌธ์ ๋ก ์ธํ ์ค๋ฅ๋ ์ง์ฐ์ด ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ๋ฐ๋ผ์ ์ ์ ํ ํ๋ก์ธ์ค๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์ ์ธ ํ๊ฒฝ์ ์ ์งํ๋ ๊ฒ์ด ์ค์ํ๋ค.
ํ 2 ์น ํฌ๋กค๋ง์ ๋ฐ์ดํฐ ์์ง ์์ ์๊ฐ ๋น๊ต
Table 2 Comparison of web crawling data collection speed
|
Normal
|
Headless
Mode
|
Multi-
processing
(2-core)
|
Multi-
processing
(4-core)
|
Process
Time
|
12.5sec
|
11.5sec
|
5.65sec
|
3.34sec
|
4.3 ๋ฐฐ๋๊ด๊ณ ์ OCR ์ธ์๋ฅ ์ธก์
๋ฐฐ๋๊ด๊ณ ์์๋ ํน์ ํ ํค์๋๊ฐ ๋ฐ๋ณต ์ฌ์ฉ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฌํ ํน์ง์ ์ด์ ์ ๋์ด ํจ์จ์ ์ธ ํค์๋ ์ถ์ถ์ ์ํด์ Easy OCR ๊ธฐ๋ณธ ์ ๊ฒฝ๋ง ๋ชจ๋ธ์ด ์๋
ํน์ ํค์๋์ ๋์ ์ธ์๋ฅ ์ ๋ณด์ด๋ ์ฌ์ฉ์ํ์ต Easy OCR ๋ชจ๋ธ์ ๊ตฌํํ๋ค. ์ด ๋ชจ๋ธ์ ์ฌ์ฉ์๊ฐ ์ง์ ํ์ต์ํค๊ณ ์ ํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๋ค. ํ์ต
๊ธฐ์ ๊ณผ ๊ธฐ๋ณธ ๊ธฐ์ ์ด ๋ํด์ ธ ์ด๋ฏธ์ง ์ ํ
์คํธ๋ฅผ ์ถ์ถํ๋ค. ์ฌ์ฉ์ํ์ต์ ํ์ํ ํ์ต๋ฐ์ดํฐ 12,500๊ฐ๋ฅผ ์์ฑ ๋ฐ ํ์ต์์ผฐ๋ค. ์์ ์๊ฐํ Tesseract
OCR, Easy OCR, ์ฌ์ฉ์ํ์ต Easy OCR ๋ชจ๋ธ์ ๋ํด ์์งํ ๋ฐฐ๋๊ด๊ณ ์ค ์์๋ก ์ ์ ํ์ฌ ์ธ์๋ฅ ๋น๊ต๋ฅผ ์งํํ๋ค. ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด ์๋์
์ (1)์ ์ ์ฉํ๋ค. ์ด ์์์ ์ด๋ฏธ์ง ์์ ์๋ ๋ชจ๋ ๋ฌธ์์์ ์ ํํ๊ฒ ์ธ์ํ ๋ฌธ์์ ๋น์จ์ ์ ์ํ๋ค.
์คํ ๊ฒฐ๊ณผ๋ ํ 3์์ ๋ณด๋ ๋ฐ์ ๊ฐ์ด Tesseract OCR์ ํ๊ท 63% ์ธ์๋ฅ ์ ๋ณด์๊ณ Easy OCR์ ์ธ์๋ฅ ์ ํ๊ท 84%๋ฅผ ๋ณด์๋ค. ํ์ง๋ง ์ฌ์ฉ์ํ์ต Easy
OCR์ ์ธ์๋ฅ ์ ์ธก์ ํ ์ ์์๋ค. ์ฌ์ฉ์ํ์ต ๋ชจ๋ธ์ ๋ฐ์ดํฐ๋ฅผ ํ์ต์์ผฐ์ ๋๋ ๋์ ์ธ์๋ฅ ์ ํ์ธํ์๋ค. ๊ทธ๋ฌ๋ ๋ฐฐ๋๊ด๊ณ ์ ์ค์ ์ ์ฉํ์ฌ OCR์
์งํํ์์ ๋๋ ๋ฎ์ ์ธ์๋ฅ ์ ๋ณด์ด๋ฉฐ ๋๋ถ๋ถ ์ค์ธ์์ด ๋๋ ํ์์ด ๋์๋ค. ์ด๋ฌํ ์ด์ ๋ก๋ ๊ธฐ์กด ์ ์ฒ๋ฆฌ ์ ์ฐจ๊ฐ ์ฌ์ฉ์ํ์ต Easy OCR ๋ชจ๋ธ์๋
์ ํฉํ์ง ์์๋ค. ๋ํ ๋ฐฐ๋๊ด๊ณ ๋ง๋ค ํฐํธ์ ํฌ๊ธฐ๊ฐ ๋ค๋ฅธ ์ ๊ณผ ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์
์ ๋ถ์กฑ์ ๊ณผ์ ํฉ์ ๋ฐ์์์ผ ์คํ๋ ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ ํ๊ณ์ ์ด ๋ณด์๋ค.
๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์์๋ Easy OCR ๋ชจ๋ธ๋ก ํค์๋ ์ถ์ถ์ ์ํํ์๋ค.
ํ 3 OCR ์ธ์๋ฅ ์ธก์
Table 3 A measurement of OCR recognition accuracy
|
Tesseract
OCR
|
Easy OCR
|
User-trained Easy OCR
|
Accuracy
|
63%
|
84%
|
-
|
4.4 Kibana๋ฅผ ํตํ ์์ง ๊ฒฐ๊ณผ ๊ทธ๋ํ
๋ณธ ์ฐ๊ตฌ์์๋ ELK stack์ ๋ฐ์ดํฐ๋ฅผ ์ถ์ ํ์๊ณ 12๊ฐ์ ๋ํ๋จผํธ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ Kibana๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์๊ฐํํ์ฌ ํ๋์ ๋ณด๊ธฐ
์ฝ๋๋ก ํ์ ๊ทธ๋ํ๋ก ๋ํ๋๋ค. ํ 4๋ Keyword ๋ํ๋จผํธ๋ฅผ ํ์ฉํ ๊ฒ์ผ๋ก ๋์ ๋น๋์๋ฅผ ๊ฐ์ง๋ ์์ 4๊ฐ์ ํค์๋๋ฅผ ๊ทธ๋ํ๋ก ํํํ์๊ณ , ์ด๋ฅผ ํ๋ก ์ ๋ฆฌํ์๋ค. ํค์๋๋ โ์ฝ๋โ๊ฐ
32.3%๋ก ๊ฐ์ฅ ๋์ ๋น๋์๋ฅผ ๊ฐ์ง๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ผ๋ฉฐ ๋ค์์ผ๋ก โ๋งค์ถฉโ, โ์นด์ง๋
ธโ๊ฐ ๋ค๋ฅผ ์ด์๋ค. ์ต์ข
์ ์ผ๋ก ๋๋ฐ์ฌ์ดํธ๋ก ์ด์ด์ง๋ ๋ฐฐ๋๊ด๊ณ ๊ฐ
๋๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ์ ๋๋ฐ๊ณผ ๊ด๋ จ๋ ํค์๋๊ฐ ๋ง์ด ํฌํจ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
ํ 4 ์ ํด์ฌ์ดํธ์ ํค์๋ ๋น๋ ๋ถ์
Table 4 A keyword frequency analysis of harmful sites
โ์ฝ๋โ
|
โ๋งค์ถฉโ
|
โ์นด์ง๋
ธโ
|
โ์ ๊ทโ
|
others
|
32.3%
|
31.7%
|
17.8%
|
8.70%
|
8.84%
|
ํ๋์ ์ ํด์ฌ์ดํธ์ ์น ํ์ด์ง์ ๊ฒ์๋๋ ๋ฐฐ๋๊ด๊ณ ๋ ์ ๊ฒ๋ 4๊ฐ์์ ๋ง๊ฒ๋ 191๊ฐ์ ๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง๋ฅผ ์์งํ ์ ์์๋ค. ๊ฐํน ํน์ดํ๊ฒ ๋ง์ ์์
๋ฐฐ๋๊ด๊ณ ๋ฅผ ๊ฒ์ฌํ๊ณ ์๋ ์ฌ์ดํธ๊ฐ ์กด์ฌํ์์ง๋ง ์ฝ 20๊ฐ์ฉ ๊ฒ์ฌํ๊ณ ์๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์๋ค. ๊ทธ๋ฆฌ๊ณ ์ ํด์ฌ์ดํธ์ URL์ ์ฃผ๊ธฐ์ ์ผ๋ก ๋ณ๊ฒฝ๋๋ฏ๋ก URL์
๋ฐ๋ฅธ ๋ฐฐ๋๊ด๊ณ ์ ์์ ๊ด๊ณ์ฑ์ ๋น๊ตํด๋ณด์๋ค. ๊ทธ๋ฆผ 6์ URL๊ณผ Site Name ๋ํ๋จผํธ๋ฅผ ํ์ฉํ ๊ฒ์ผ๋ก ๋ํ๋ก 7๊ฐ์ ์ฌ์ดํธ๋ฅผ ๋ฝ์ ๋ฉํฐ๋ ๋ฒจ ํ์ด ์ฐจํธ๋ก ํํํ์๋ค. ๋์ผ ์์์์ URL ๋ณ๊ฒฝ ํจํด์
๋ณด์ด๋ ์๋งํผ ๋ํ์ผ๋ก ๋ถํ ๋์ด ํํ๋๋ฉฐ ๋ํ์ ๋ฉด์ ์ ๋ฐฐ๋๊ด๊ณ ๊ฐ์๋ฅผ ๋ปํ๋ค. ์ด๋ ์ ํด์ฌ์ดํธ ๋๋ฉ์ธ์ด ๋ณ๊ฒฝํ๋ฉฐ ์ด์ํ๊ณ ์๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
๋ํ ๋๋ฉ์ธ์ด ๋ณ๊ฒฝ๋๋ฉด์ ์ฌ์ดํธ๊ฐ ๊ธฐ์กด์ ๋ฐฐ๋๊ด๊ณ ๊ฐ์๋ฅผ ์ ์งํ๊ฑฐ๋ ๋ณ๊ฒฝ๋๋ ๊ฒฝ์ฐ๋ ํ์ธํ ์ ์๋ค. ํด๋น ์ฐจํธ๋ก ์ผ์ ํ ๋๋ฉ์ธ ๋ณ๊ฒฝ์ ํตํด ์ฌ์ ๊ธฐ๊ด์
์ฐจ๋จ์ ํํผํ๋ ์ฌ์ดํธ๋ฅผ ๊ทธ๋ฃนํํ์ฌ ๋ณผ ์ ์๋ค. ์ถ๊ฐ๋ก ๊ฒ์๋ ๋ฐฐ๋๊ด๊ณ ์ ์ ์ฌ์ฑ์ ํ์ธํ๋ฉด URL ๋ณ๊ฒฝ ์ฌ๋ถ๋ฅผ ์ ์ ์๋ค.
๊ทธ๋ฆผ 7์ Average Hash๋ก ์ถ์ถํ ๊ณ ์ ์ ๋ณด๋ฅผ ํ์ฉํ ํ ์ฌ์ดํธ ๊ฐ ๋ฐฐ๋๊ด๊ณ ์ ์ฌ์ฑ์ ๋น๊ตํ ๊ฒฐ๊ณผ์ด๋ค. x์ถ์ Average Hash ๊ฐ์ด๋ฉฐ y์ถ์
๋์ผ/์ ์ฌํ ๋ฐฐ๋๊ด๊ณ ๊ฐ ์ฌ์ฉ๋ ์ฌ์ดํธ ๊ฐ์๋ฅผ ๋ํ๋ธ๋ค. Average Hash ๊ฒฐ๊ณผ๋ ์ด๋ฏธ์ง์ ๊ณ ์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฏ๋ก ์๋ก ๋ค๋ฅธ ๋ฐฐ๋๊ด๊ณ ๋ผ๋ฉด ๊ฐ์ด
ํฌ๊ฒ ๋ฐ๋๋ค. โ001f023e00ff4077โ ๊ฐ์ 13๊ฐ์ ๋ค๋ฅธ ์ฌ์ดํธ์ ๊ฒ์๋ ๋ฐฐ๋๊ด๊ณ ์ด๋ฉฐ, ๊ฐ์ ๋ด์ฉ์ ํ๋ณดํ๊ณ ์์์ ๋ณด์ฌ์ฃผ๋ ์์ด๋ค.
๊ทธ๋ฆผ 6. ์ ํด์ฌ์ดํธ์ ๋๋ฉ์ธ ๋ณ๊ฒฝ ํจํด ์๊ฐํ
Fig. 6. A visualization of domain change patterns of harmful sites
๊ทธ๋ฆผ 7. Average Hash๋ก ์ถ์ถํ ๊ณ ์ ์ ๋ณด๋ฅผ ํ์ฉํ ํ ์ฌ์ดํธ ๊ฐ ๋ฐฐ๋๊ด๊ณ ์ ์ฌ์ฑ ๋น๊ต
Fig. 7. A comparison of similarity between banner ads between sites using an average
hash technique
4.5 ์ ํด์ฌ์ดํธ ํ๋ณ ์คํ
์์ ์คํ์ผ๋ก ์์ง ๋ฐ์ดํฐ ์ค Site Name, AverageHash, Keyword๋ฅผ ํ์ฉํ์ฌ ์ ํด์ฌ์ดํธ๋ฅผ ํ๋ณํ ์ ์์๋ค. ๋ฐ์ดํฐ๋ฒ ์ด์ค ์
Site Name ๋ํ๋จผํธ์ ๋์กฐํ์ฌ ์ ํด์ฌ์ดํธ๋ก ์ฌ์ฉ๋ ์ฌ์ดํธ ์ด๋ฆ์ธ์ง ํ์ธํ์ฌ ํ๋ณํ๊ณ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฝ์
๋ AverageHash ๊ฐ๋ค๊ณผ ํ๋ณํ
์ฌ์ดํธ์ ์๋ ์ด๋ฏธ์ง์ AverageHash ๊ฐ์ ์ฐ์ฐํ์ฌ ์ผ์ ํ ์ ์ดํ ๊ฐ์ด๋ 0์ ๊ฐ์ ๊ฐ์ง๊ฒ ๋๋ฉด ์ ํด์ฌ์ดํธ ๋ฐฐ๋๊ด๊ณ ๊ฐ ๊ฒ์ฌ๋ ๊ฒ์ ๊ฐ์ฃผํ์ฌ
์ ํด์ฌ์ดํธ๋ก ํ๋ณํ๋ค. ๋ง์ง๋ง์ผ๋ก ์ด๋ฏธ์ง์์ ์ ํด์ฌ์ดํธ ๋ถ๋ฒ ๋ฐฐ๋๊ด๊ณ ์์ ์ฃผ๋ก ์ฌ์ฉํ๋ ํน์ ํค์๋๊ฐ ๋ฐ๊ฒฌ๋๋ ๊ฒฝ์ฐ ์ ํด์ฌ์ดํธ๋ก ํ๋ณํ๋ค. ๊ทธ๋ฆผ 8์ ์ค์ ์ ํด์ฌ์ดํธ์ธ xx๋ท์ปด๊ณผ ์ ์์ฌ์ดํธ์ธ ๋ค์ด๋ฒ์ผํ์ ํ๋ณ์ ์์ฐํ ๊ฒฐ๊ณผ์ด๋ค.
๊ทธ๋ฆผ 8. ์ ํด์ฌ์ดํธ ํ๋ณ ์์ฐ
Fig. 8. A demonstration of identifying harmful sites
5. ๊ฒฐ ๋ก
๋ณธ ๋
ผ๋ฌธ์ ์น ํฌ๋กค๋ง์ ์ด์ฉํด ์ ํด์ฌ์ดํธ์ ํน์ง ๋ถ์ ๋ฐ ์ถ์ถ์ ํ์๋ค. ์ ํด์ฌ์ดํธ์ ๋ถ์์ ์ํด์ 2022๋
10์~12์ 2๊ฐ์๊ฐ 2,557๊ฐ์
๋ฐฐ๋๊ด๊ณ ์ด๋ฏธ์ง๋ฅผ ์์งํ์๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก OCR์ ์ด์ฉํด ํค์๋๋ฅผ ์ถ์ถํ์๊ณ , Average Hash๋ฅผ ์ด์ฉํด ์ด๋ฏธ์ง์ ๊ณ ์ ์ ๋ณด๋ฅผ ์ถ์ถํ์๋ค.
Site Name, URL, Category, Base64encoding, AverageHash, Banner URL ๋ฑ์ ๋ฐ์ดํฐ๋ค๊ณผ ์ถ์ถํ ํค์๋๋ค์
๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฝ์
ํ๊ณ ์ดํ Kibana์ Dashboard๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์๊ฐํํ์๋ค. ๋ํ๋ ๋ฐ์ดํฐ๋ฅผ ์์ฝํด๋ณด๋ฉด ์์ง๋ ๋ฐฐ๋๊ด๊ณ ์์ ์นดํ
๊ณ ๋ฆฌ๋ฅผ
Gamble๋ก ๊ฐ์ง๋ ๋ฐฐ๋๊ด๊ณ ๊ฐ 37.2%๋ก ๊ฐ์ฅ ๋ง์ด ์ฐจ์งํ์๋ค. OCR๋ก ์ถ์ถ๋ ํค์๋ ์ค ์์ 3๊ฐ๋ โ์ฝ๋โ, โ๋งค์ถฉโ, โ์นด์ง๋
ธโ ์์ด์์ผ๋ฉฐ
์ด์ธ์๋ โ์ฒซ์ถฉโ, โํ์ด๋ฐฑโ, โ์ฌ๋ค๋ฆฌโ ๋ฑ์ด ์์๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค. ์์ง ๋ฐ์ดํฐ ์ค Site Name, AverageHash, Keyword๋ฅผ
ํ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๋น๊ต๋ฅผ ํตํด ์ ํด์ฌ์ดํธ ํ๋ณ์ด ๊ฐ๋ฅํ๋ค.
๋ณธ ๋
ผ๋ฌธ์์ ์ ๊ณตํ๋ ์์คํ
์ ํ์ฉํ๋ฉด ์ ํด์ฌ์ดํธ์ ์์
์์ด ๋๋ ๋ฐฐ๋๊ด๊ณ ๋ก ํ๋ณํ์ฌ ํจ๊ณผ์ ์ผ๋ก ์ฐจ๋จํ๋ ๋ฐฉ์์ด ๋๋ฉฐ, ๋ฐฐ๋๊ด๊ณ ๋ฅผ ํตํด ๋ค๋ฅธ ๋ถ๋ฒ
์ฌ์ดํธ๋ค์ด ์ ๊ธฐ์ ์ผ๋ก ์ฐ๊ฒฐ๋๋ฏ๋ก ์ฐ์์ ์ผ๋ก ์ฐจ๋จํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค. ์ถํ ์ฃผ๊ธฐ์ ์ผ๋ก ์ ํด์ฌ์ดํธ ๋ฐฐ๋๊ด๊ณ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ ๋ง์ ์์ ๋ฐ์ดํฐ๋ฅผ
๋ฐ์ดํฐ๋ฒ ์ด์ค์ ์ฝ์
ํ์ฌ ํ์ต์ํจ๋ค๋ฉด ์ ํด์ฌ์ดํธ์ ๋ํ ํ๋ณ์ ์ ํ๋๊ฐ ๋์ฑ ์ฆ๊ฐํ ๊ฒ์ด๋ฉฐ ๋ณด๋ค ์ ๊ตํ ๋ถ๋ฅ ๋ชจ๋ธ๋ก ๋ฐ์ ํ์ฌ, ๋ ๋์ ์ ํ๋์ ๋ํฅ
ํ์
์ผ๋ก ์ ํด์ฌ์ดํธ๋ฅผ ๊ทผ์ ํ๋ ๋ฐ ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ค.
References
Wikipedia. โharmful sites,โ https://ko.wikipedia.org/wiki/์ ํด์ฌ์ดํธ.
Y. D. Seo. โEven if illegal and harmful information sites are blocked, they only change
the number and operate them openly,โ https://www.koit.co.kr/news/articleView.html?idxno=104645.
H. W. Kim, โ21,043 webtoon illegal distribution sites for 5 years,โ https://it.chosun.com/site/data/html_dir/2020/10/21/20
20102101118.html.
Kocca, โTaking precautions to eradicate illegal distribution of webtoons,โ https://www.kocca.kr/kocca/koccanews/report
view.do?menuNo=204767&nttNo=428.
B. G. Song, โA Study on the Illegal Gambling of Children and Adolescents through Illegal
Webtoon Sites,โ Korean Assoc. Addiction Crime Rev., vol. 12, no. 2, pp. 1-17, 2022.
W. H. Kim, H. J. Yu, and W. B. Ji, โA Study of the Expertsโ Perception on the Improvement
of Advertiseme ts in Copyright Infringement Websites,โ Asia-Pacific J. Convergent
Res. Interchange, vol. 8, no. 1, pp. 25-36, 2022.
J. Jang, K. Lim, and S. Lee, โAn Harmful site collection system using Characteristic
of HTML and URL,โ J. Digital Forensics, vol. 16, no. 1, pp. 54-63, 2022.
S. Choo, Y. Hwang, and S. Lee, โMethods for Collecting Harmful Websites Using Web
Crawling,โ J. Digit. Forensics, vol. 15, no. 3, pp. 127-138, 2021.
J. Jeong and S. Lee, โBlocking method of harmful sites based on domain change pattern,โ
J. Digital Forensics, vol. 15, no. 3, pp. 39-53, 2021.
H. Kang, Y. Choi, and S. Lee, โAnalysis of advertisers by tracking banner ads on piracy
websites,โ J. Digital Forensics, vol. 15, no. 3, pp. 15-26, 2021.
H. H. Kim. โ73% of illegal webtoon banners are illegal gambling sites,โ https://www.ajunews.com/view/2022101916
4958143.
M. Sajjad, I. U. Haq, J. Lloret, W. Ding, and K. Muha mmad, โRobust image hashing
based efficient authentic ation for smart industrial environ ment,โ IEEE Trans. Ind.
Inform., vol. 15, no. 12, pp. 6541-6550, 2019.
E. Taskesen, โDetection of Duplicate Images Using Image Hash Functions,โ Towards Data
Science, Jan. 29, 2022. [Online]. Available: https://towardsdatascience.com/detection-of-duplicat
eimages-using-image-hash-functions-4d9c53f04a75.
์ ์์๊ฐ
He has been studying as B.S. degree in information security engineering from sangmyung
University. Cheonan, korea in 2023.
His research interests include digital forensic and cybercrime response.
He has been studying as B.S. of Information Security Engineering, Sangmyung University,
Cheonan, korea.
His research interests include information protection and mobile app development.
He has been studying as B.S. of Information Security Engineering, Sangmyung University,
Cheonan, Korea.
His research interests include network communication and network security.
Kwangjae Lee received his Ph.D. degree from Department of Electrical and Computer
Engineering of Korea University in 2014. Now he is a professor of Department of Information
Security Engineering in Sangmyung University.