์์ค๊ฒฝ
(Yun Kyoung Yang)
1
๋ฐ์ง์ฒ
(Jin Chul Park)
2โ
-
์ค์๋ํ๊ต ๊ฑด์ถ๊ณตํ๊ณผ ๋ฐ์ฌ๊ณผ์ ,
(Ph.D. Course, Graduate School, Department of Architectural Engineering, Chung-Ang
University, Seoul, 06974, Korea)
-
์ค์๋ํ๊ต ๊ฑด์ถํ๋ถ ๊ต์
(Professor, School of Architecture and Building Science, Chung-Ang University, Seoul,
06974, Korea)
Copyright ยฉ 2016, Society of Air-Conditioning and Refrigeration Engineers of Korea
ํค์๋
์ธ๊ณต์ง๋ฅ, ์ธ๊ณต์ ๊ฒฝ๋ง, ์๋์งํจ์จ, ์๋ฃ๊ฑด๋ฌผ
Key words
Artificial intelligence, Artificial Neural Network, Energy efficiency, Healthcare Building
1. ์ ๋ก
์ง๊ตฌ์จ๋ํ ํ์๊ณผ ์ง์์ ์ธ ๋๊ฐ๋ฐ๋ก ์ธํด ๋ฐ์ํ๋ ์ด์๊ธฐํ ํ์์ ์ด์ ์ค๋ ์ผ์ด ์๋๋ฉฐ ์ธ๋ฅ์ ์ฌ๊ฐํ ์๊ธฐ๋ก ๋๋๋๊ณ ์๋ค. ํนํ, ์ง๊ตฌ ์จ๋ํ์
์ฃผ๋ฒ์ผ๋ก ์ง๋ชฉ๋๊ณ ์๋ ํ์์ ๋ฐ์์ ์ค์ด๊ธฐ ์ํด ์ ์ธ๊ณ๊ฐ ๋ค๊ฐ์ ์ธ ๋
ธ๋ ฅ์ ํ๊ณ ์๋ ์ค์ ์ด๋ค. 2011 Building Energy Data Book์
์๋ฃ์ ๋ฐ๋ฅด๋ฉด ๋ฏธ๊ตญ ์ด์๋์ง ์ฌ์ฉ๋์ 41%๊ฐ ๊ฑด๋ฌผ ์๋์ง๋ก ์ฌ์ฉ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ ์ฐ์
, ๊ตํต ๋ฑ์ ๋ค๋ฅธ ๋ถ์ผ๋ณด๋ค๋ ๊ฑด์ถ๋ถ์ผ์์์ ์๋์ง ์๋น๋ฅผ
์ค์ด๋ ์ ๊ทผ์ด ์ฌํ ๊ฒฝ์ ์ ๋ฌธ์ ๋ฅผ ๊ณ ๋ คํ ๋ ์๋์ง ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๊ฐ์ฅ ํจ์จ์ ์ธ ์ ๊ทผ์ด๋ผ ๋งํ๊ณ ์๋ค.(1) ์ด์ ๊ฑด๋ฌผ ์๋์ง ์ ๊ฐํ๋ ๋ฐฉ์๊ณผ ์นํ๊ฒฝ ์๋์ง ์ฌ์ฉ์ ๋ํ ๊ด์ฌ์ด ์ฆ๊ฐํ๊ณ ์๋๊ฒ ํ์ค์ด๋ค. 2000๋
์ดํ ์ฐ๋ฆฌ๋๋ผ ๊ฒฝ์ฐ๋ ๊ฑด๋ฌผ์ ์๋์ง ์ฌ์ฉ๋์
์ง์์ ์ผ๋ก ์ฆ๊ฐ ์ถ์ธ๋ฅผ ๋ณด์ด๊ณ ์๋ค. 2013๋
๋ ๊ธฐ์ค์ผ๋ก ๊ฑด๋ฌผ๋ณ ์๋์ง ์ฌ์ฉ ํํฉ์ ์ดํด๋ณด๋ฉด, ์ํํธ์ ์๋์ง ์ฌ์ฉ๋๋น์ค์ 17.7%, ์์ฉ์ 15.8%,
ํ๊ต๋ 14.6%, ๋ณ์์ 12.1%๋ฅผ ์ฐจ์งํ๋ค. ๋ํ, ๊ฑด๋ฌผ ์๋์ง์ ์ฌ์ฉํํฉ์ ์ดํด๋ณด๋ฉด, ์ ๊ธฐ ์ฌ์ฉ๋ ๋น์ค์ด ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ ๊ฐ์ด๋ฐ, ํนํ
๋ณ์์ ์ ๊ธฐ ์ฌ์ฉ ๋น์ค์ 46.9%๋ก ์ ๊ธฐ ์ฌ์ฉ์ ๋ํ ์์กด๋๊ฐ ๋์ ํธ์ด๋ค.(2)
ํ์ฌ ํจ์จ์ ์ผ๋ก ์๋์ง๋ฅผ ์ ๊ฐํ ์ ์๋ ๋ฐฉ์์ผ๋ก ICT(Information & Communication Technology)ํ์ฉ๊ณผ ์ธ๊ณต์ง๋ฅ(AI,
Artificial intelligence)์ ๋ํ ๊ด์ฌ์ด ๋์์ง๊ณ ์๋ค. ์ธ๊ณต์ง๋ฅ์ ์ ์ฉ์ ํ๊ฒฝ ์ค๋น ๋ถ์ผ์์ ๊ฐ์ฅ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๊ณ ์์ผ๋ฉฐ, ์ฃผ๋ก
๊ฑด๋ฌผ ์๋์ง ์ต์ ํ ๋ฐ ๊ณต์กฐ ์์คํ
์ ์ด์ ํ์ฉ๋์ด ์พ์ ํ ๊ฑด๋ฌผ ํ๊ฒฝ ์กฐ์ฑ์ ์ํ ๊ธฐ์ ๋ก ์ฌ์ฉ๋๋ ๊ฒ์ผ๋ก ๋ถ์๋์๋ค. ์ด๋ ๊ธฐ์กด์ ๊ฑด๋ฌผ ํ๊ฒฝ์ ์ด๋ณด๋ค
์ง๋ณด๋ ์ ์ด๋ฐฉ๋ฒ์ด๋ฉฐ, ํนํ ๊ฑด๋ฌผ ๋ถํ ๋ฐ ์จ์ด ํ๊ฒฝ ์์ธก์ ๋ฐํ์ผ๋ก ๊ณต์กฐ์์คํ
์ ์ต์ ์ด์ ํ๋ ๊ด์ ์์ ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.(3)
๋ณธ ์ฐ๊ตฌ์์๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ๋ค์ ์์ธก ์ ํ๋๋ฅผ ๋น๊ตํ๊ณ ์ต์ ํ๋ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ฑด๋ฌผ ์๋์ง ํจ์จ์ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ๊ธฐ์ด ์ฐ๊ตฌ๋ฅผ ๋ชฉ์ ์ผ๋ก ํ๋ค.
2. ์ฐ๊ตฌ๋ฒ์ ๋ฐ ๋ฐฉ๋ฒ
๋ณธ ์ฐ๊ตฌ์์๋ ํฌ์ค์ผ์ด ๊ฑด๋ฌผ ๋์์ผ๋ก ๋ยท๋๋ฐฉ ์๋์ง ์๋น๋๊ณผ ์๊ฐ๋ณ ๋ถํ ํจํด์ ๋ถ์ํ๊ณ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๋ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ ๊ณ ๊ธ ๋ฅ๋ฌ๋
๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๋น๊ต ํ๊ฐํ์ฌ ์๋์ง ํจ์จ ์์ธก์ ์ํ ์ต์ ์ ๋ชจ๋ธ์ ์ ์ํ์๋ค. MLR, SVM, ANN ๋ฑ ๋ํ์ ์ธ ์์ธก ๋ชจ๋ธ์ ์์น ํด์
๋ฐ ํ๋ก๊ทธ๋๋ฐ ์ํํธ์จ์ด์ธ MATLAB(Matrix Laboratory)๊ณผ Rํ๋ก๊ทธ๋๋ฐ์ ํตํด ์ฐ๊ตฌํ์๊ณ , ASHRAE(4)์ Great Building Energy Predictorโ
ข ์คํ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๋์ ๊ฑด๋ฌผ์ธ ํฌ์ค์ผ์ด ๊ฑด๋ฌผ์ ์ด์ฉํ์ฌ 2016๋
๋ถํฐ 2017๋
๊น์ง
์ผ๋ณ ์๋์ง ์๋น ๊ฐ๊ณผ ์ค๋น ๋ถ์ผ ๊ตฌ์ฑ ์์์ ๋ฐ๋ฅธ ์๋์ง ์๋น ์ํฅ๋ ๋ถ์์ ์งํํ์๋ค. ์ดํ ์ถ๋ ฅ ๊ฐ๊ณผ์ ์๊ด๊ด๊ณ๋ถ์์ ํตํด ์
๋ ฅ๋ณ์๋ฅผ ์ ์ ํ์ฌ
ํ์ต์ ์ค์ํ์์ผ๋ฉฐ ์์ธก๋ ์๋์ง์ฌ์ฉ๋๊ณผ ์ค์ ๊ฑด๋ฌผ์ ์๋์ง ์ฌ์ฉ๋์ ๋น๊ตํ์ฌ ์ต์ ํ๋ ๋ชจ๋ธ์ ๊ฐ๋ฐํ์๋ค
2.1 ASHRAE ๋ฐ์ดํฐ
ASHRAE(4)์ Great Building Energy Predictorโ
ข๋ฐ์ดํฐ๋ Building_metadata(primary_use, square_feet,
year_built, floor_count)์ weather_data(air_temperature, cloud_coverage, precip_depth_1_hr,
sea_level_pressur, wind_speed, timestamp)๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์๊ด๋ถ์์ ์ํด ASHRAE(4)์์ ์์ง๋ 1000์ฌ ๊ฐ์ ๊ฑด๋ฌผ ์ค ํฌ์ค์ผ์ด ๋ถ๋ฌธ 30๋ง์ฌ ๊ฐ์ ๋ฐ์ดํฐ ์
์ ์ด์ฉ, ์์ธก ๋ชจ๋ธ์ ์ ๋ณ๋ ํ๊ฒฝ ๋ณ์๋ฅผ ์ ํํ์ฌ 166,799๊ฐ์ ๋ฐ์ดํฐ๋ฅผ
์ ๋ณํ์๋ค. ์ ๋ณ๋ ๋ฐ์ดํฐ๋ ๊ฑด๋ฌผ ๋ฉด์ , ๊ณต๊ธฐ ์จ๋ถ, ๊ตฌ๋ฆ์, ํด์๋ฉด ์๋ ฅ, ๋ฐ๋ ์๋, ์ผ์ผ ์๊ฐ์ด๋ฉฐ, ๊ฒฐ์ธก์น๋ฅผ ์ ์ธํ ํญ๋ชฉ๋ณ 94,179๊ฐ์ ๋ฐ์ดํฐ๋ฅผ
์์ธก๋ชจ๋ธ ๋ถ์์ ํ์ฉํ์๋ค. Fig. 1์ ํฌ์ค์ผ์ด ๊ฑด๋ฌผ๋ค์ ์ผ๋
๊ฐ ํ๊ท ์๋์ง ์๋น๋์ ๋ณด์ฌ ์ฃผ๋ฉฐ, 6์ ๋ง๋ถํฐ 8์ ๋ง๊น์ง์ ์๋์ง ์๋น๋์ด ๊ฐ์ฅ ๋ง๋ค.
Fig. 1 A year's worth of measurements (2016~2017)
2.2 ์๊ด๋ถ์
์๋์ง ํจ์จ ์์ธก ๋ชจ๋ธ ์ฐ๊ตฌ์ ์์ ์ฌ์ ์ฐ๊ตฌ๋ก ๋ณ์๊ฐ ์๊ด๊ด๊ณ ๋ถ์์ ์ค์ํ์๋ค. R ํ๋ก๊ทธ๋๋ฐ์ โcorrgramโ ํจํค์ง๋ฅผ ์ด์ฉํ์ฌ ASHRAE(4)์์ ์ ๊ณตํด ์ฃผ๋ ๋ฐ์ดํฐ ๋ณ์๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ์ดํด๋ณด์๋ค. ํผ์ด์จ ์๊ด ๊ณ์(Pearson Correlation Coefficient, PCC)๋ ๋
๋ณ์ X์ Y ๊ฐ์ ์ ํ ์๊ด๊ด๊ณ๋ฅผ ๊ณ๋ํํ ์์น๋ค. ํผ์ด์จ ์๊ด ๊ณ์๋ ์ฝ์-์๋ฐ๋ฅด์ธ ๋ถ๋ฑ์์ ์ํด +1๊ณผ -1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ง๋ฉฐ, +1์ ์๋ฒฝํ
์์ ์ ํ ์๊ด๊ด๊ณ, 0์ ์ ํ ์๊ด๊ด๊ณ ์์, -1์ ์๋ฒฝํ ์์ ์ ํ ์๊ด๊ด๊ณ๋ฅผ ์๋ฏธํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์๊ด๊ด๊ณ๋ ํผ์ด์จ ์๊ด๊ด๊ณ๋ฅผ ์๋ฏธํ๋ ์๊ด
๊ณ์์ด๋ค. Fig. 2์์ ์๋์ง ์๋น๋๊ณผ ๊ฐ์ฅ ๋์ ์๊ด๋๋ฅผ ๋ณด์ด๋ ๊ฒ์ด โ๊ฑด๋ฌผ ๋ฉด์ (square_feet)โ์ผ๋ก ์๊ด ๊ณ์ ๊ฐ์ด 0.77์ด์๋ค. ์ด๋ ๊ฑด๋ฌผ์ ๋๋๋ฐฉ
์๋น๋์ด ๊ฑด๋ฌผ์ ํฌ๊ธฐ์ ๋น๋กํ๊ธฐ ๋๋ฌธ์ด๊ธฐ์ ์๋์ง ํจ์จ ๋ชจ๋ธ ์ ์ฉ์ ์์ด์ ์ ์คํด์ผ ํ๋ค. ๊ณต๊ธฐ์จ๋(air_temperature)์ ๊ตฌ๋ฆ์(cloud_coverage)์
์์ ์๊ด ๊ด๊ณ ๊ฐ์ด -0.25, ๋ฐ๋์๋(wind_speed)์ ํด์๋ฉด ์๋ ฅ(sea_level_pressur)์ด -0.22, ์ผ์ผ์๊ฐ(timestamp)์ด
0.20์ ์๊ด๊ด๊ณ๊ฐ ์์์ ์ดํด๋ณด์๋ค. ๋ฌด์๋ณด๋ค๋ ์๋์ง ์๋น๋๊ณผ ๊ฐ์ฅ ๋์ ์๊ด๋๋ฅผ ๋ณด์ด๋ ๊ฑด๋ฌผ๋ฉด์ ์ ์ ์ธํ ํ๊ฒฝ ์์ธ๋ค์ ํผ์ด์จ ์๊ด ๊ณ์๊ฐ
0.05๋ณด๋ค ์๊ฒ ๋ํ๋ฌ๋ค. ์ด๋ ASHRAE(4) ๋ฐ์ดํฐ์ ํ๊ฒฝ ๋ณ์๋ค์ ์ด์ฉํ ์๋์ง ํจ์จ ์์ธก ๋ชจ๋ธ์ด ๋งค์ฐ ์ ํ ์ ์ผ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ์ด๋ฌํ ์ฌ์ ์๊ด๋ถ์์ ํตํด, ์์ธก ๋ชจ๋ธ์ ์ฌ์ฉํ
ํ๊ฒฝ ๋ณ์๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๊ฒฐ์ ํ์๋ค(๊ฑด๋ฌผ ๋ฉด์ , ๊ณต๊ธฐ ์จ๋ถ, ๊ตฌ๋ฆ๋, ํด์๋ฉด ์๋ ฅ, ๋ฐ๋ ์๋, ์ผ์ผ ์๊ฐ).
Fig. 2 Correlation analysis (Helathcare building of ASHRAE)
2.3 ์์ธก ๋ชจ๋ธ ๋น๊ต
๋ณธ ์ฐ๊ตฌ์์๋ ๋ํ์ ์ธ ์์ธก ๋ชจ๋ธ๋ก ๋ค์ค ์ ํ ํ๊ท(Multiple Linear Regression, MLR) ๋ชจ๋ธ๊ณผ ๋จธ์ ๋ฌ๋ ๊ณ ๊ธ ๋ชจ๋ธ ์ค ํ๋์ธ
์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine, SVM) ๋ชจ๋ธ์ ์ฌ์ฉํ์๊ณ , ์ด์ ํจ๊ป ์ต๊ทผ์ ํ์ฉ๋๊ฐ ๋์์ง๊ณ ์๋ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ
์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๋ชจ๋ธ์ ๋น๊ต ํ๊ฐํ์ฌ ์๋์ง ํจ์จ ์์ธก์ ์ํ ์ต์ ์ ๋ชจ๋ธ์ ์ ์ํ์๋ค.
2.3.1 ๋ค์ค ์ ํ ํ๊ท(Multiple Linear Regression, MLR)
๋ค์ค ์ ํ ํ๊ท(MLR) ๋ชจ๋ธ์ ์์ธก ๋ถ์ผ์ ์์ด, ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก์ ์์นํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ค.(5, 6) ๊ณผ๊ฑฐ์
๋ชจ๋ธ์ ๊ธฐ์ค์ผ๋ก ํ์ฌ ๋ฏธ๋์ ๋ชจ๋ธ์ ์์ธกํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํจํด์ ์๋ณํ๋ค. ๊ฑฐ์ ๋ชจ๋ ์ ํ์ ๋ฐ์ดํฐ์ ์ ์ฉ ๊ฐ๋ฅํ๊ณ , ์์ฑ๊ณผ ๊ฒฐ๊ณผ ๊ฐ ๊ด๊ณ์ ๊ฒฌ๊ณ ์ฑ๊ณผ
ํฌ๊ธฐ๋ฅผ ์ถ์ ํ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
2.3.2 ์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine, SVM)
์ํฌํธ ๋ฒกํฐ ๋จธ์ (SVM)์ ๊ธฐ๊ณํ์ต ๋ถ์ผ ์ค์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ชจ๋ธ์ค ํ๋๋ก, ์ฃผ์ด์ง ๋ฐ์ดํฐ์ ๊ฒฐ์ ๊ฒฝ๊ณ(Decision Boundary),
์ฆ ๋ถ๋ฅ๋ฅผ ์ํ ๊ธฐ์ค ์ ์ ์ ์ํ์ฌ ์์ธกํ๋ ๋ฐฉ๋ฒ์ด๋ค. SVM์ ๋ฒกํฐ๊ณต๊ฐ์ ํตํด ๊ณ์ฐ์ด ์ด๋ฃจ์ด์ง๋ ์๋ก ๋ค๋ฅธ ์ฑํฅ์ ๊ฐ๋ ํน์ฑ์ ๊ตฌ๋ถ ๊ฒฝ๊ณ๊ฐ ์ํฌํธ
๋ฒกํฐ์ ์ํด ๊ฒฐ์ ๋ ๋ ๋ง์ง์ด ๊ฐ์ฅ ํฐ ๊ฐ์ ๊ฐ๋๋ก ํ๋ ๋ฐฉ์์ด๋ค.(7)
2.3.3 ์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN)
์ธ๊ณต์ ๊ฒฝ๋ง(ANN)์ ์๋ฌผํ์ ๋ด๋ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ๊ณต ๋ด๋ฐ์ ํตํด, ๋ณต์ก ํ ๊ณ์ฐ์ด ์ด๋ฃจ์ด์ง ๋์ ์ํธ์์ฉ์ ๊ณ์ฐ ๋ชจ๋ธ๋ก ๊ตฌํํ ๊ฒ์ผ๋ก์ ๋ฅ๋ฌ๋์
ํต์ฌ ์ญํ ์ ํ๊ณ ์๋ค.(8) ๊ฐ๋ณ ์ธ๊ณต ๋ด๋ฐ๋ค์ด ๋ชจ์ฌ ๊ฑฐ๋ํ ๋คํธ์ํฌ๋ฅผ ๊ตฌ์ฑํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๊ณ ์๋ ANN์ ๋ฐ์ดํฐ์ ํจํด๊ณผ ๊ด๊ณ๋ฅผ ํ์งํ์ฌ ์ง์์ ์์งํ๊ณ ํ๋ก๊ทธ๋๋ฐ์ด ์๋
๊ฒฝํ์ ํตํด ํ์ต์ด ์ด๋ฃจ์ด์ง๋ค. ๊ท๋ชจ๊ฐ ํฌ๊ณ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์ฒ๋ฆฌ ํ ์ ์๋ค.
Fig. 3 Artificial neural network (ANN)
2.4 ๋ชจ๋ธ ์ฑ๋ฅ ๊ฒ์ฆ ๋ฐฉ๋ฒ
์์ธก ๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด K-fold ๊ต์ฐจ ๊ฒ์ฆ์ ์ค์ํ์๊ณ , ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ(RMSE, Root Mean Square Error)์ ๊ฒฐ์ ๊ณ์(R-squared,
coefficient of determination) ์งํ๋ค์ ์ด์ฉํ์ฌ ๋ชจ๋ธ ํ๊ฐ๋ฅผ ์ค์ํ์๋ค.
2.4.1 K-fold ๊ต์ฐจ ๊ฒ์ฆ
K-fold ๊ต์ฐจ๊ฒ์ฆ์ ๊ฐ์ฅ ์ผ๋ฐ์ ์ด๊ณ ๋ง์ด ์ฌ์ฉ๋๋ฉฐ ๊ฐ๋ ฅํ ๊ต์ฐจ ๊ฒ์ฆ ๋ฐฉ๋ฒ ์ค ํ๋์ด๋ฉฐ, ๋ง ๊ทธ๋๋ก ๋ฐ์ดํฐ ์
์ K๊ฐ์ ๋ค๋ฅธ ๋ฐ์ดํฐ ์
์ ๊ตฌ์ฑํ๊ณ
๋ชจ๋ธ์ ๊ฐ ํ์ตํ๋ ๋ฐฉ๋ฒ์ผ๋ก K๋ฒ ๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ด๋ค. K-fold์์ K๋ ์ฐ๋ฆฌ๊ฐ ์ง์ ํ ์ ์๋ค. ์์ Fig. 4์์๋ K๋ฅผ 5๋ก ์ง์ ํ์๊ณ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์์๋ก 1/5๋ก ๋๋์ด์ validation set์ ํ ๋ฒ์ฉ ๋ฒ๊ฐ์๊ฐ๋ฉด์ ๋ฐ์ดํฐ ์
์ ๊ตฌ์ฑํ๋ค. ๊ฐ ๋ฐ์ดํฐ๋ฅผ
ํ์ตํ๊ณ validation์ผ๋ก ํ๊ฐ๋ฅผ ํ ๋ค์ 5๊ฐ์ ๊ฒฐ๊ณผ์ ๋ํด ํ๊ท ์ ๋ด์ด ์ต์ข
์ฑ๋ฅ์ ๊ตฌํ๋ค. ์ด๋ฐ ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๋ค๋ฉด ์ฐ์ ๋ชจ๋ธ ํ๊ฐ๋ถ๋ถ์์
๊ณ ์ ๋ validation set์ด ์๋๊ธฐ ๋๋ฌธ์ ์กฐ๊ธ ๋ ์ ๋ขฐ์ฑ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค. ๋ํ, CV(Cross Validation)๋ฅผ ์ฌ์ฉํ๋
๊ฐ์ฅ ํฐ ์ด์ ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ธ๋ฐ, โํ๋์ validation set์ ์ ๋ง์ถ๊ธฐ ์ํ ํ๋์ด ์๋๋ผ ๋ค๋ฅธ validation set์ ์
๋ง์ถ๊ธฐ ์ํ ํ๋์ ํ๊ธฐ ๋๋ฌธ์ ๊ณผ์ ํฉ์ ํผํ๋ ํ์ต์ ํ ์ ์๋ ๊ฒ์ด๋ค. K๋ ์ฐ๋ฆฌ๊ฐ ์ง์ ์ง์ ํ ์ ์์ง๋ง ํต์์ ์ผ๋ก 5, 10์ผ๋ก ๋ง์ด ์ฌ์ฉํ๋ฉฐ,
์ค์ํ ๊ฒ์ K๊ฐ ์ ์ด์ง์๋ก bias๋ ์ปค์ง ๊ฒ์ด๊ณ K๊ฐ ์ปค์ง๋ค๋ฉด variance๊ฐ ์ปค์ง๋ค. ๋ํ K๊ฐ ํฌ๋ค๋ฉด ์๊ฐ๋ ๋ง์ด ๊ฑธ๋ฆด ๊ฒ์ด๋ค. K-fold
cross-validation ์ ์ต์ข
test error๋ CVโฆ๋ก ๋ํ๋ด๋ฉฐ, ์์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์ ์(1)๊ณผ ๊ฐ๋ค.
Fig. 4 K-fold cross validation
2.4.2 ์ฑ๋ฅ ํ๊ฐ ์งํ
์์ธก ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ์ํด RMSE์ R-squared๋ฅผ ์ฌ์ฉํ์๋ค. ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ๋ ์(2)์ ๊ฐ์ด ์ ์๋๋ค.
๊ฒฐ์ ๊ณ์๋ ๋ถ์ฐ๊ธฐ๋ฐ ์์ธก ์ฑ๋ฅ ํ๊ฐ์งํ๋ก์ ํ๊ท๋ถ์. ํต๊ณ์ ๋ถ์์์ ๋ง์ด ์ฐ์ด๋ ๊ฐ๋
์ผ๋ก 0์ผ์๋ก ์๊ด๊ด๊ณ๊ฐ ์ ๊ณ 1์ผ์๋ก ์๊ด๊ด๊ณ๊ฐ ๋์ ๊ฒ์ด
ํน์ง์ด๋ค. ์์์ ์(3)๊ณผ ๊ฐ์ด ์ฃผ์ด์ง๋ค.
3. ์๋์ง ํจ์จ ์์ธก ๋ชจ๋ธ ๋น๊ต
3.1 ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต
K-fold ๊ต์ฐจ ๊ฒ์ฆ์ ํตํด MLR์ SVM ๊ทธ๋ฆฌ๊ณ ANN ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํจ๊ป ๋น๊ต ๋ถ์ํ์๋ค. Fig. 5๋ 3๊ฐ ๋ชจ๋ธ๋ค์ RMSE ์ค์ฐจ๊ฐ์ ๋ณด์ฌ์ค๋ค. RMSE ์ค์ฐจ๋ ๊ฐ์ด ์ ์์๋ก ๋ชจ๋ธ ์ฑ๋ฅ์ ์๋ฌ๊ฐ ์ ์์ ์๋ฏธํ๋ค. ANN ๋ชจ๋ธ์ ๊ฒฝ์ฐ RMSE ๊ฐ(ํ๊ท
153.2)์ ๋ณด์ด๋ฉฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ๊ทธ๋ฌ๋ ๊ต์ฐจ ๊ฒ์ฆ์ ํตํ RMSE ๊ฐ์ ๋ณํ๊ฐ ๋งค์ฐ ํฐ ๊ฒ์ ๋ณด์๊ธฐ์, ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๊ฐ ํ์ํ๋ค.
๋ค๋ฅธ ๋ ๋ชจ๋ธ์ ํ๊ท RMSE ๊ฐ์ SVM (198.9), MLR(197.3)์ผ๋ก ๋งค์ฐ ๋๊ฒ ๋ํ๋ฌ๊ธฐ์ ANN๋ณด๋ค ๋ชจ๋ธ ์ค์ฐจ๊ฐ ํฐ ๊ฒ์ ํ์ธํ์๋ค.
Fig. 6์ K-fold ๊ต์ฐจ ๊ฒ์ฆ์ R-squared ๊ฐ์ ๋ณด์ฌ์ฃผ๋ฉฐ, RMSE์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค. R-squared๋ ์์ธก ์ฑ๋ฅ ํ๊ฐ์งํ๋ก 0๋ณด๋ค
1์ผ์๋ก ์๊ด๊ด๊ณ๊ฐ ๋์ ๊ฒ์ผ๋ก ๋ณธ๋ค. ANN ๋ชจ๋ธ์ ํ๊ท ๋ชจ๋ธ์ R-squared ๊ฐ์ (0.74)๋ก ๊ฐ์ฅ ๋๊ฒ ๋ํ๋๋ฉฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๊ณ ,
SVM (0.56), MLR (0.55) ์์ผ๋ก ๋ํ๋ฌ๋ค. ์ด ๊ฒฐ๊ณผ๋ค์ ์ธ๊ณต์ง๋ฅ ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ ANN ๋ชจ๋ธ์ ์์ธก ์ ํ๋๊ฐ ๋์์ ๋ณด์ฌ์ฃผ์๋ค. ๊ทธ๋ฌ๋
์ด์ ๋์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ์๋์ ์ผ๋ก ๋์ ๋ฒ์์ ๋ชจ๋ธ ์ ํ๋๋ฅผ ๋ณด์๊ธฐ์ ANN ๋ชจ๋ธ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
Fig. 5 RMSE of prediction models from K-fold CV
Fig. 6 R-squared of prediction models from K-fold CV
3.2 ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ
ANN ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ดํผํ๋ผ๋ฏธํฐ(Hyperparameter)์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ์ ํฐ ์ํฅ์ ์ค๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ๋ ์ต์ ์ ํ๋ จ๋ชจ๋ธ์ ๊ตฌํํ๊ธฐ ์ํด
๋ชจ๋ธ์ ์ค์ ํ๋ ๋ณ์๋ก ํ์ต๋ฅ (Learning Rate), ๋ฐฐ์น ํฌ๊ธฐ(batch Size), ํ๋ จ ๋ฐ๋ณต ํ์(Epochs), ๊ฐ์ค์น ์ด๊ธฐํ(Weight
Initialization)๋ฑ์ ๊ฒฐ์ ํ ์ ์๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ์ ํต์ฌ์ โ์ต์ ๊ฐโ์ด ์กด์ฌํ๋ ๋ฒ์๋ฅผ ์ฐพ๋ ์ผ์ด๋ค. ๋ฒ์๋ฅผ ์ค์ด๊ธฐ ์ํด ๋๋ต์
๋ฒ์๋ฅผ ๋จผ์ ์ค์ ํ๊ณ ๊ทธ ๋ฒ์ ๋ด์์ ๋ฌด์์๋ก ํ์ดํผํ๋ผ๋ฏธํฐ ๊ฐ์ ๊ณ ๋ฅด๊ณ ๊ทธ ๊ฐ์ผ๋ก ์ ํ์ฑ์ ํ๊ฐํ๋ค. ์ ์์
์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ฉด์ ํ์ดํผํ๋ผ๋ฏธํฐ์
์ต์ ๊ฐ ๋ฒ์๋ฅผ ์ขํ์ ์ต์ ํํ๋ค. Table 1์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฐ๋ฅธ R-squared ๊ฐ์ ๋ณด์ฌ์ค๋ค. ํ๋ ๋ ์ด์ด์ ์ธต์๋ 1๊ฐ~3๊ฐ๋ฅผ ์คํํ์๊ณ , ๊ฐ ์ธต๋ง๋ค ๋ ์ด์ด ์๋ 50๊ฐ๋ถํฐ 50๊ฐ์ฉ
๋๋ ค๋๊ฐ๋ฉด์ 200~300๊ฐ๊น์ง ๋๋ฆฌ๋ฉฐ ๋ชจ๋ธ์ ๋น๊ตํ์๋ค. ํ์ฑ ํจ์์ ๊ฒฝ์ฐ, ํ์ดํผ๋ณผ๋ฆญ ํ์ ํธ(Tanh)์ ์๊ทธ๋ชจ์ด๋(Sigmoid) ํจ์๊ฐ ๊ฒฝ์ฌ(ReLU)
ํจ์ ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์๊ธฐ์, Sigmoid ํจ์๋ฅผ ์ ์ฉํ์๋ค(Tanh ํจ์์ ๊ฒฐ๊ณผ๊ฐ๋ sigmoid ํจ์์ ๊ฒฐ๊ณผ๊ฐ๊ณผ ๊ฑฐ์ ์ฐจ์ด๊ฐ ์์๋ค). ์ผ๋ฐํ
์ฑ๋ฅ(regulization strength, Lambda)์ 0.1๋ก ์ ํ์๋ค. Fig. 7์ ํ์ดํผ ํ๋ผ๋ฏธํฐ์ ๋ชจ๋ธ ๋ณต์ก๋(์ธต์ X ๋ ์ด์ด์์ ๋ก๊ทธ ์ค์ผ์ผ)์ ๋ฐ๋ฅธ ANN ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ(RMSE, R-squared)๋ฅผ ๋ณด์ฌ์ค๋ค.
๋ชจ๋ธ ๋ณต์ก๋๊ฐ 2.5 ๊ทผ์ฒ์์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐ(R-squared 0.9 ์ด์)ํ์๊ณ , ๊ทธ ์ดํ์๋ ๋ณต์ก๋๊ฐ ์๋ฌด๋ฆฌ ์ฆ๊ฐํ๋๋ผ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์
ํฌ๊ฒ ๊ฐ์ ๋์ง ์๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค. ๋ํ ํ๋ ๋ ์ด์ด์ ๊ฐ์๊ฐ ๋ง์ ๊ฒ๋ณด๋ค๋ ํ๋ ๋ ์ด์ด์ ์ธต์๋ฅผ ๋ง๊ฒ ํ๋ ๊ฒ์ด ๋์ฑ ํจ๊ณผ์ ์ธ ๊ฒ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ
๋ถ์์ ํตํด์ ์ ์ ์์๋ค. Fig. 8์ ANN์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํ ๋ชจ๋ธ๋ก ์์ธกํ ์๋์ง ์๋น๋๊ณผ ์ค์ ์๋์ง ์๋น๋์ ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋ค. ํ๊ท ์ ๊ณฑ๊ทผ ํธ์ฐจ๋ (92.35)๋ก ๋งค์ฐ
๋ฎ์(R-squared ๊ฐ 0.91) ๊ฐ์ผ๋ก ๋งค์ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค. ์ด๋ MLR ๋ถ์์ ๊ฒฐ๊ณผ RMSE(197.0)์ ๋น๊ตํ์์ ๋ ๋งค์ฐ ๋์
์์ธก ์ ํ๋๋ฅผ ๋ํ๋ธ๋ค.
Fig. 7 Hyper parameter optimization for ANN
Fig. 8 Response plot of Artificial Neural Network (ANN) for validation/test data
Table 1 Hyper parameter optimization for ANN
Number of fully connected layers
|
first layer size/ second layer size/ third layer size
|
RMSE
|
MAE
|
MSE
|
R-squared
|
Time(sec)
|
1
|
25/-/-
|
136.19
|
92.40
|
18548
|
0.80
|
77.52
|
50/-/-
|
133.96
|
90.32
|
17946
|
0.80
|
231.65
|
100/-/-
|
133.13
|
90.41
|
17723
|
0.80
|
693.50
|
200/-/-
|
127.02
|
83.35
|
16134
|
0.82
|
1913.40
|
300/-/-
|
125.81
|
82.07
|
15828
|
0.83
|
3071.80
|
2
|
25/25/-
|
106.36
|
62.77
|
11313
|
0.88
|
405.73
|
50/50/-
|
92.35
|
53.62
|
8529
|
0.91
|
887.67
|
100/100/-
|
86.74
|
50.08
|
7523
|
0.92
|
3959.80
|
200/100/-
|
89.55
|
51.74
|
8019
|
0.91
|
4075.60
|
200/200/-
|
81.63
|
46.72
|
6663
|
0.93
|
5866.00
|
3
|
25/25/25
|
107.02
|
61.36
|
11453
|
0.87
|
609.68
|
50/50/50
|
87.49
|
47.80
|
7654
|
0.92
|
1337.50
|
100/100/100
|
85.12
|
46.07
|
7245
|
0.92
|
4332.10
|
200/100/200
|
76.47
|
40.17
|
5847
|
0.94
|
7047.30
|
200/200/200
|
75.00
|
39.54
|
5625
|
0.94
|
10223.00
|
4. ๊ฒฐ ๋ก
๋ณธ ์ฐ๊ตฌ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์์ธก ์ ํ๋๋ฅผ ๋น๊ตํ๊ณ ์ต์ ํ๋ ๋ชจ๋ธ์ ํ์ฉํ์ฌ ๊ฑด๋ฌผ ์๋์ง ํจ์จ ์์ธก ๋ชจ๋ธ ์ฐ๊ตฌ๋ฅผ ๋ชฉ์ ์ผ๋ก ํ์๋ค. ๋์ ๊ฑด๋ฌผ์ธ ํฌ์ค์ผ์ด
๊ฑด๋ฌผ์ ์ด์ฉํ์ฌ ์ผ๋ณ ์๋์ง ์๋น๊ฐ๊ณผ ์ค๋น ๋ถ์ผ ๊ตฌ์ฑ ์์์ ๋ฐ๋ฅธ ์๋์ง ์๋น ์ํฅ๋ ๋ถ์์ ์งํํ์ฌ, ์์ธก๋ ์๋์ง์ฌ์ฉ๋๊ณผ ์ค์ ๊ฑด๋ฌผ์ ์๋์ง ์ฌ์ฉ๋์
๋น๊ตํ์ฌ ์ต์ ํ๋ ๋ชจ๋ธ์ ์ ์ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ์์ฝํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
(1) ๋จผ์ ๋ฐ์ดํฐ ๋ณ์๊ฐ์ ์๊ด๊ด๊ณ ๋ถ์๊ฒฐ๊ณผ ์๋์ง ์๋น๋๊ณผ ๊ฐ์ฅ ๋์ ์๊ด๋๋ฅผ ๋ณด์ด๋ ๊ฒ์ด ๊ฑด๋ฌผ ๋ฉด์ ์ผ๋ก ํผ์ด์ค๋ง ์๊ด๊ณ์ ๊ฐ์ด (0.77)์ด์๋ค.
์ด๋ ๊ฑด๋ฌผ์ ๋๋๋ฐฉ ์๋น๋์ด ๊ฑด๋ฌผ์ ํฌ๊ธฐ์ ๋น๋กํ๊ธฐ ๋๋ฌธ์ด๊ธฐ์ ์๋์ง ํจ์จ ๋ชจ๋ธ ์ ์ฉ์ ์์ด์ ์ ์คํด์ผ ํ๋ค๋ ๊ฒฐ๊ณผ๋ก ์ด๋ ๋ฐ์ดํฐ์ ํ๊ฒฝ ๋ณ์๋ค์
์ด์ฉํ ์๋์ง ํจ์จ ์์ธก ๋ชจ๋ธ์ด ๋งค์ฐ ์ ํ ์ ์ผ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
(2) ๋ค์ค ์ ํ ํ๊ท(Multiple Linear Regression, MLR)๊ณผ ์ํฌํธ ๋ฒกํฐ ๋จธ์ (Support Vector Machine, SVM),
์ธ๊ณต์ ๊ฒฝ๋ง(Artificial Neural Network, ANN) ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ต ๋ถ์ํ์๋ค. ANN ๋ชจ๋ธ์ ๊ฒฝ์ฐ ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ(RMSE,
Root Mean Square Error) ๊ฐ์ด ํ๊ท (153.2)๋ฅผ ๋ณด์ด๋ฉฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค. ๊ทธ๋ฌ๋ ๊ต์ฐจ ๊ฒ์ฆ์ ํตํ ๋ชจ๋ธ ์ฑ๋ฅ์ ์์ธก
์ ํ๋์ ๋ณํ๊ฐ ๋งค์ฐ ํฐ ๊ฒ์ ๋ณด์๊ธฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๊ฐ ํ์ํ๋ค.
(3) ANN ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฐ๋ผ ๊ฒฐ๊ณผ ๊ฐ์ ํฐ ์ํฅ์ ์ค๋ค. ์ต์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ANN ๋ชจ๋ธ์ ํตํด ์์ธก๋ ์๋์ง ์๋น๋๊ณผ
์ค์ ์๋์ง ์๋น๋์ ์ฐจ์ด๋ฅผ ๋ณด์ด๋ฉฐ MLR ๋ถ์์ ๊ฒฐ๊ณผ RMES (197.0)๊ณผ ๋น๊ตํ์์ ๋, ๋งค์ฐ ๋์ ์์ธก ์ ํ๋๋ฅผ ๋ํ๋ธ๋ค.
๋ณธ ์ฐ๊ตฌ๋ฅผ ํตํด ์๋์ง ํจ์จ ์์ธก์ ์ํ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ด ๋์์ ํ์ธํ ์ ์์๋ค. ๊ทธ๋ฌ๋ ํ์ดํํ๋ผ๋ฏธํฐ์ ๋ฐ๋ฅธ ๋ชจ๋ธ ์ ํ๋์ ์ฐจ์ด๊ฐ
ํฌ๋ฏ๋ก ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ์ฐ๊ตฌ๊ฐ ํจ๊ป ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค. ๋ํ ๋ณธ ์ฐ๊ตฌ๋ ํ์ ๋ฐฐ์ถ๋์ ์๋น๋ถ๋ถ์ ์ฐจ์งํ๋ ๊ฑด์ถ๋ถ์ผ์์ ํฌ์ค์ผ์ด ๊ฑด๋ฌผ ๋์์ผ๋ก๋ง
์์ธก ๋ชจ๋ธ์ ๊ฒ์ฆ ํ์๊ธฐ์ ๋ค๋ฅธ ๋ถ๋ฌธ์ ์๋์ง ํจ์จ ์์ธก ์ฐ๊ตฌ๋ ์ถ๊ฐ์ ์ผ๋ก ํ์ธํ ํ์์ฑ์ด ์๋ค. ํฅํ ์๋์ง ์ ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ๋ณธ ์ฐ๊ตฌ์ ๊ฐ์ ๋ถ์
๋ฐฉ๋ฒ์ด ๋ ํ์ค์ ์ธ ๋ฐฉ์์ผ๋ก ์ ์ํ๊ธฐ ์ํ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ๊ธฐ์ ๊ฐ๋ฐ ๋ฐ ์๋์ง ์์ธก ์ ํ๋ ํ๋ณด์ ์ฐธ๊ณ ์๋ฃ๋ก ์ฌ์ฉ๋ ์ ์์ ๊ฒ์ด๋ค.