๋ฐ์ ์
(Jungsu Park)
โ iD
-
๊ตญ๋ฆฝํ๋ฐญ๋ํ๊ต ๊ฑด์คํ๊ฒฝ๊ณตํ๊ณผ
(Department of Civil and Environmental Eng, Hanbat National University)
ยฉ Korean Society on Water Environment. All rights reserved.
Key words
Clustering, Ensemble machine learning, Gradient boosting decision tree, Water quality prediction, Water supply system, XGBoost
1. Introduction
์ทจ์์์ ์์ ์ ์์ง๊ด๋ฆฌ๋ฅผ ์ํด์๋ ์์งํํฉ์ ๋ํ ์ง์์ ์ธ ๋ชจ๋ํฐ๋ง๊ณผ ํจ๊ป ์์ง์ ๋ณํ์ ๋ํ ์์ธก์ด ํ์ํ๋ค. ํ์ฒ ๋ฐ ์ ์์ง ๋ฑ ์ทจ์์ ์์ง์
์ ๊ธฐ๋ฌผ์ง ๋ฐ ์์์ผ๋ฅ ๋ฑ ๋ค์ํ ์ค์ผ์์ ์ํด ์ํฅ์ ๋ฐ๊ฒ ๋๋ฉฐ ์์ค์ ๋ถ์ ์ฌ(suspended sediment)๋ ์ทจ์์์ ์์ง๊ณผ ์์ํ์ ์ํฅ์
๋ฏธ์น๋ ์ค์ํ ์ธ์์ค ํ๋์ด๋ค(Packman and MacKay, 2003; Singer et al., 2013). ๋ํ ๊ฐ์ฐ์ ์ ๋์ฆ๊ฐ์ ๋ฐ๋ฅธ ๋ถ์ ์ฌ ๋๋(suspended sediment concentration, SSC)์ ์ฆ๊ฐ๋ ์ทจ์์ ๊ณ ํ์์ ์์ธ์ด
๋๋ฉฐ ์ ์์ฒ๋ฆฌ ๋น์ฉ์ ์ฆ๊ฐ ๋ฐ ์์ง์ฌ๊ณ ๋ฐ์ ๋ฑ ์ ์์ฒ๋ฆฌ๊ณต์ ์๋ ๋ค์ํ ์ํฅ์ ๋ฏธ์น๊ฒ ๋๋ค(Lin et al., 2004; Park and Lee, 2020).
์ต๊ทผ ๋ค์ํ ๋ถ์ผ์์ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐํ ๋ชจํ์ ์ ์ฉ์ด ํ๋ฐํ๊ฒ ๋์ด๋๊ณ ์์ผ๋ฉฐ, ๋ฌผํ๊ฒฝ๋ถ์ผ์์๋ ์ด๋ฌํ ๊ณ ๋ํ๋ ๋ฐ์ดํฐ ๋ถ์ ์๊ณ ๋ฆฌ์ฆ์ ์์ง
์์ธก ๋ฐ ๊ด๋ฆฌ์ ์ ์ฉํ๊ธฐ ์ํ ์ฐ๊ตฌ๊ฐ ๊ณ์๋๊ณ ์๋ค(Haghiabi et al., 2018; Li et al., 2021; Muhammad et al., 2015). ๋ํ์ ์ธ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ธ ์ธ๊ณต์ ๊ฒฝ๋ง(artificial neural network, ANN) ๋ฟ ์๋๋ผ support vector machine
(SVM), ensemeble ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ธ random forest (RF), ๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด ANN ๋ชจํ์ ํ๊ณ๋ฅผ ๊ฐ์ ํ์ฌ ๋จธ์ ๋ฌ๋ ๋ถ์ผ์ ํ๊ธฐ์ ์ธ
๋ฐ์ ์ ์ด๋ฃจ์ด๋ธ ๋ฅ๋ฌ๋(deep learning) ๋ชจํ์ค ์๊ณ์ด ์๋ฃ์ ๋ถ์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ํ์ ๊ฒฝ๋ง(recurrent neural network)
๊ธฐ๋ฐ์ long short term memories (LSTM) ๋ฑ ๋ค์ํ ๋จธ์ ๋ฌ๋ ๋ชจํ์ด ํ๋ ์์ธก์ ์ ์ฉ๋๋ ๋ฑ ๊ด๋ จ๋ถ์ผ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ
์๋ค(Park and Lee, 2020; Stevenson and Bravo, 2019; Wang et al., 2021).
Ensemble ๋จธ์ ๋ฌ๋ ๋ชจํ์ weak learner๋ก ๋ถ๋ฆฌ๋ ์ฌ๋ฌ ๊ฐ์ ๋ชจํ์ ํจ๊ป ์ฌ์ฉํ์ฌ ์์ธก์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ฉฐ RF์ gradient
boosting decision tree (GBDT) ๋ฑ์ด ๋ํ์ ์ธ ensemble ๋จธ์ ๋ฌ๋ ๋ชจํ์ด๋ค(Sutton, 2005; Zhang, Qian et al., 2018). ๋๊ฐ์ง ๋ชจํ ๋ชจ๋ ํ๊ท๋ถ์(regression) ๋ฐ ๋ถ๋ฅ(classification) ๋๊ฐ์ง ๋ฐฉ์ ๋ชจ๋์ ์ ์ฉ์ด ๊ฐ๋ฅํ๊ณ ์ถฉ๋ถํ ์
๋ ฅ์๋ฃ๋ฅผ ํ๋ณดํ
๊ฒฝ์ฐ ๋์ ์์ธก์ฑ๋ฅ์ ๋ณด์ฌ ์ต๊ทผ๊น์ง๋ ๊ฐ์ฅ ๋๋ฆฌ ํ์ฉ๋๋ ๋จธ์ ๋ฌ๋ ๋ชจํ์ค ํ๋์ด๋ฉฐ, ์์ง๋ถ์ผ์๋ ํ์ฉ์ด ์ ์ฐจ ๋๊ณ ์๋ค(Hollister et al., 2016; Uddameri et al., 2020).
๋จธ์ ๋ฌ๋ ๋ชจํ์ ๋ฌผ๋ฆฌ์ ํน์ ํํ์ ๊ด๊ณ์ ๊ธฐ๋ฐํ ๋ณ๋์ ๊ณ์ ๋ฑ์ ๊ตฌํ์ง ์์๋ ๋ชจํ์ ์ฌ์ฉ๋๋ ๋
๋ฆฝ๋ณ์์ ๋ณต์กํ ๋น์ ํ๊ด๊ณ(non-linear)๋ฅผ
๊ฐ์ง๋ ์ข
์๋ณ์์ ๋ํด์๋ ์ข์ ์์ธก์ฑ๋ฅ์ ๋ณด์ด๋ ์ฅ์ ์ด ์๋ค. ๋จธ์ ๋ฌ๋ ๋ชจํ์ ์ฑ๋ฅ์ ์
๋ ฅ์๋ฃ๋ก ํ์ฉ๋๋ ํญ๋ชฉ์ ๊ตฌ์ฑ๊ณผ ์ธก์ ๋น๋ ๋ฐ ์ ์ ํ ์ ์ฒ๋ฆฌ
๋ฑ์ ํฌํจํ๋ feature engineering์ ์ํด ๋ง์ ์ํฅ์ ๋ฐ๊ฒ ๋๋ฉฐ, ๋ชจํ์ ์ฑ๋ฅ์ ์ต์ ํํ๊ธฐ ์ํด์๋ ์ ์ ํ ์
๋ ฅ ๋ณ์์ ๊ตฌ์ถ์ด ์ค์ํ๋ค(Park, 2021).
์ทจ์์์ผ๋ก ํ์ฉ๋๋ ํ์ฒ ๋ฐ ์ ์์ง ๋ฑ์์์ ๋ถ์ ์ฌ ๋๋(suspended sediment concentration, SSC)๋ ๊ฐ์ฐ๋, ์ ์ฌ(sediment)
๋ฐ์์์ ํน์ฑ, ์ ์ฌ ๋ฐ์์๊ณผ ์ธก์ ์ง์ ์ ๊ฑฐ๋ฆฌ, ๊ฐ์ฐ ๋ฐ์ ์ด์ ์ ๋ฌด๊ฐ์ฐ ์ผ์, ์ต๋ ๊ฐ์ฐ๊ฐ๋ ๋ฑ ์์ฐ์ ์์ธ๊ณผ ํจ๊ป(Hicks et al., 2000; Park and Hunt, 2017; Warrick, 2015; Warrick et al., 2013) ๊ฑด์ค๊ณต์ฌ, ๋์
ํ๋ ๋ฑ ์ธ๊ฐํ๋ ๊ทธ๋ฆฌ๊ณ ๊ธฐํ๋ณํ ๋ฑ ๋ค์ํ ํ๊ฒฝ์ธ์์ ์ํฅ์ ๋ฐ๊ฒ ๋๋ค(Gray et al., 2016; Gray et al., 2015). ํ์ฒ ์ ๋(Q)๋ SSC์ ์ํฅ์ ์ฃผ๋ ๊ฐ์ฅ ์ค์ํ ์ธ์ ์ค ํ๋์ด๋ค. ํ์ง๋ง SSC๋ Q์ธ์๋ ์ฌ๋ฌ ๊ฐ์ง ํ๊ฒฝ์์ธ์ ์ํฅ์ ๋ฐ์ผ๋ฏ๋ก, ๋์ผ
์ฅ์์์ ๋์ผํ Q๊ฐ ๋ฐ์ํด๋ ์ฐ๋, ๊ณ์ ๋ฐ ์ ํ ๊ฐ์ฐ์กฐ๊ฑด ๋ฑ์ ๋ฐ๋ผ SSC๊ฐ ํฐ ์ฐจ์ด๋ฅผ ๋ณด์ด๊ธฐ๋ ํ๊ณ , Q์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ตฌ๊ฐ๋ณ๋ก SSC์ Q์
์๊ด๊ด๊ณ๊ฐ ๋ค๋ฅด๊ฒ ๋ํ๋๊ธฐ๋ ํ๋ค(Walling, 1977; Warrick, 2015).
๋ณธ ์ฐ๊ตฌ์์๋ ์ต๊ทผ ๊น์ง๋ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ํ์ ์ธ ensemble ๋จธ์ ๋ฌ๋ ๋ชจํ์ค ํ๋์ธ Gradient boosting decision tree
(GDBT)๋ฅผ ํ์ฉํ์ฌ Q๋ฅผ ๋
๋ฆฝ๋ณ์๋ก ์ด์ฉํ์ฌ SSC๋ฅผ ์์ธกํ๋ ๋ชจํ์ ๊ตฌ์ถํ์๋ค. ๋ชจํ์ ๊ตฌ์ถ์ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๋ฐ์ํ๊ธฐ ์ํด ์๋ฃ์ ํน์ฑ์
๋ฐ๋ผ ๊ตฐ์งํ(clustering)๋ฅผ ์ํํ๋ ๋จธ์ ๋ฌ๋ ๋น์ง๋ ํ์ต(unsupervised learning) ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ธ k-ํ๊ท ๊ตฐ์งํ(k-means
clustering, KMC) ๋ชจํ์ ์ด์ฉํ์ฌ Q์ ๋ฐ๋ผ ์
๋ ฅ์๋ฃ์ ๊ตฐ์งํ๋ฅผ ์ํํ๊ณ , GBDT ๋ชจํ์ ์ด์ฉํ์ฌ ๊ฐ๊ฐ์ ๊ตฐ์ง์ ์ต์ ํ๋ SSC ์์ธก
๋ชจํ์ ๊ตฌ์ถํ์๋ค. ๋ํ ๋น๊ต๋ฅผ ์ํ์ฌ ๋ณ๋์ ๊ตฐ์งํ๋ฅผ ์ํํ์ง ์๊ณ ์ ์ฒด์๋ฃ๋ฅผ ์
๋ ฅ์๋ฃ๋ก ์ด์ฉํ๋ GBDT ๋ชจํ์ ๊ตฌ์ถํ์ฌ ์
๋ ฅ์๋ฃ์ ๊ตฐ์งํ ์ํ์ฌ๋ถ์
๋ฐ๋ฅธ ๋ชจํ ์ฑ๋ฅ์ ๋น๊ตํ์ฌ, ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ ๋ชจํ์ ๊ตฌ์ถ์ด ๋ชจํ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์๋ค.
2. Materials and Methods
2.1 Data sources
๋ฏธ๊ตญ ์ง์ง์กฐ์ฌ๊ตญ(United States Georogical Survey, USGS)์ ๊ตญํ ๊ด๋ฆฌ์ ์ฐ๊ตฌ๋ฅผ ์ํด ๋ฏธ๊ตญ ์ ์ญ์ ํ์ฅ์ธก์ ์๋ฅผ ์ค์นํ์ฌ ์ฅ๊ธฐ๊ฐ์
๊ฑธ์ณ ์ ๋๊ณผ SSC๋ฅผ ์ธก์ ํ๊ณ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๊ณต๊ฐํ๊ณ ์์ผ๋ฉฐ, ๋ณธ ์ฐ๊ตฌ์์๋ USGS์์ ์ด์ํ๋ ํ์ฅ์ธก์ ์ ์ค ๋ฏธ๊ตญ Calfironia Reedwood
Creek์ ์์นํ 2๊ฐ ์ง์ (Blue Lake ๋ฐ Orick)์ Q ๋ฐ SSC ์ผ์ผ ์ธก์ ์๋ฃ๋ฅผ ํ์ฉํ์๋ค(Table 1) (USGS, 2014). ๋ฏธ๊ตญ ์๋ถ์ฐ์์ ์์นํ Redwood Creek์ ์ง์คํด์ฑ ๊ธฐํ ์ง์ญ์ ์ํ๋ฉฐ 10์๊ฒฝ๋ถํฐ ์ฐ๊ธฐ๊ฐ ์์๋์ด ์ด๋ฌํด ๋ด๊น์ง ๊ณ์๋๊ณ ์ดํ 9์๊ฒฝ๊น์ง
๊ฑด๊ธฐ๊ฐ ์ด์ด์ง๋ ๊ฐ์ฐ ํน์ฑ์ ๊ฐ์ง๊ณ ์๋ค. Orick ์ง์ ์ ๊ฐํ๊ตฌ๋ก๋ถํฐ ์ฝ 6km ์๋ฅ์ ์์นํ๋ฉฐ ํ์ฒ์ Blue Lake์์ Orick์ ๊ฑฐ์ณ
ํํ์์ผ๋ก ์ ์
ํ๊ฒ ๋๋ค(USGS, 2009).
Table 1. Research sites
Sites
|
Watershed area (ใข)
|
Location
|
USGS site number
|
Observation period
|
Latitude
|
Longitude
|
Blue Lake
|
175
|
40โฆ54โฒ22โณ
|
123โฆ48โฒ51โณ
|
11481500
|
Oct 1, 1972- April 30, 1992
|
Orick
|
717
|
41โฆ17โฒ58โณ
|
124โฆ03โฒ00โณ
|
11482500
|
March 19, 1970- April 30, 1992
|
2.2 Model development
๋ณธ ์ฐ๊ตฌ์์๋ ensemble ๋จธ์ ๋ฌ๋ ๋ชจํ์ธ GBDT ๋ชจํ์ ์ด์ฉํ์ฌ ํ์ฒ์ SSC๋ฅผ ์์ธกํ๋ ๋ชจํ์ ๊ตฌ์ถํ์๋ค. GBDT๋ RF์ ํจ๊ป ๋ํ์ ์ธ
ensemble ๋จธ์ ๋ฌ๋ ๋ชจํ ์ค ํ๋์ด๋ค. RF๋ ์์ฌ๊ฒฐ์ ๋๋ฌด(decision tree, DT)๊ธฐ๋ฐ์ ๋ค์์ weak learner๋ฅผ ์์ฑํ๊ณ ๊ฐ
weak learner์์ ๋
๋ฆฝ์ ์ผ๋ก ์์ฑ๋ ๊ฒฐ๊ณผ์ ํ๊ท ์ ์ด์ฉํ์ฌ ์์ธก๊ฐ์ ์ฐ์ ํ๋ ๋ฐ๋ฉด, GBDT ๋ชจํ์ ์ ๋จ๊ณ weak learner์ ์์ธก๊ฐ์
๋ค์ ๋จ๊ณ์ weak learner์ ๊ตฌ์ถ์ ํ์ฉํ๋ฉฐ, ์ค์ธก๊ฐ๊ณผ ์์ธก๊ฐ ๊ฐ์ ์์ฐจ๊ฐ ๋ง์ ์
๋ ฅ์๋ฃ์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ๋ชจํ์ ํ์ต์(training)
์ํํ์ฌ ๋ชจํ์ ์ฑ๋ฅ์ ํฅ์์ํค๋๋ก ๊ตฌ์ฑ๋ ๋ชจํ์ด๋ค(Chen and Guestrin, 2016; Friedman, 2001; Zhang, Bouadi et al., 2018).
GBDT ๋ชจํ์ ์์ธก์ ๋์์ด ๋๋ ํญ๋ชฉ์ ์ค์ธก๊ฐ(yobs,i)๊ณผ ๋ชจํ์ ์์ธก๊ฐ(ypred,i)์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํ๋ ์์คํจ์(L: loss function)์, ๊ฐ๋ณ DT ๋ชจํ(fk)์ ํจ์์ธ regulation ํจ์(ฮฉ)๋ก ๊ตฌ์ฑ๋ objective ํจ์(J)๋ฅผ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ๋ชจํ์ ์ต์ ํํ๋ค(Eq. 1) (Chen and Guestrin, 2016; Shin et al., 2020; Zhang, Qian et al., 2018). ๋ชจํ์ ๊ตฌ์ถ์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ GBDT ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ธ XGBoost regressor (XGB)๋ฅผ ์ด์ฉํ์์ผ๋ฉฐ, Q๋ฅผ ๋
๋ฆฝ๋ณ์๋ก ํ์ฌ
์ข
์๋ณ์ SSC๋ฅผ ์์ธกํ๋๋ก ๊ตฌ์ฑํ์๋ค. ๋ํ ์ผ๋จ์ ์๋ฃ์ ์ฐจ๋ถ์ ์ ์ฉํ์ฌ ์๊ฐ t์ ๋ํด์ 1์ผ ์ ์ Q ๋ฐ SSC์ธ Qt-1๊ณผ SSCt-1์ ์
๋ ฅ์๋ฃ๋ก ์ถ๊ฐํ์ฌ ๋ชจํ์ ๊ตฌ์ถ์ ํ์ฉํ์๋ค. ๋ชจํ์ ์ต์ ํ๋ grid search ๋ฐฉ๋ฒ์ ์ด์ฉํ์์ผ๋ฉฐ, ์
๋ ฅ์๋ฃ๋ฅผ 10๊ฐ์ set์ผ๋ก ๊ตฌ๋ถํ์ฌ
cross validation์ ์ํํ์๋ค. ๋ชจํ์ ๊ตฌ์ถ๊ณผ ์ต์ ํ ๋ฑ์ python open source library์ธ Scikit-learn์
์ด์ฉํ์ฌ ์คํํ์๋ค(Pedregosa et al., 2011).
2.3 Clustering of input variables
XGB ๋ชจํ์ ์ฌ์ฉ๋ ์
๋ ฅ์๋ฃ์ ๊ตฐ์งํ๋ฅผ ์ํด ๋น์ง๋ ํ์ต ๋ชจํ์ธ KMC์ ์ด์ฉํ์๋ค. KMC๋ ์
๋ ฅ์๋ฃ๋ฅผ ์ฌ์ ์ ๊ฐ์๊ฐ ์ ํด์ง ์์์ ๊ตฐ์ง์ ๋ถ๋ฅํ๊ณ
๊ฐ ๊ตฐ์ง์ ํ๊ท ๊ฐ(ฮผj)๊ณผ ๊ฐ ์
๋ ฅ์๋ฃ์๊ฐ() ๊ณผ์ ์ฐจ์ด๋ฅผ ์ ํด๋ฆฌ๋์ธ ๊ฑฐ๋ฆฌ(euclidean distance)๋ฅผ ์ด์ฉํ์ฌ ๊ตฌํ๊ณ ์ด๋ฅผ ์ต์ํ ํ ์ ์๋๋ก ์ต์ข
์ ์ผ๋ก ๋ถ๋ฅ๋๋ ๊ตฐ์ง์ ๊ฒฐ์ ํ๋
๋ชจํ์ด๋ค(Ahmad and Dey, 2007; Ayub et al., 2016; Song, 2017) (Eq. 2). KMC๋ python Scikit-learn library๋ฅผ ์ด์ฉํ์ฌ ์ํ๋์๋ค(Pedregosa et al., 2011).
2.4 Model evaluation
๊ตฌ์ถ๋ XGB ๋ชจํ์ ์ด์ฉํ SSC ์์ธก์ฑ๋ฅ์ ํ๊ฐ๋ ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ(root mean square error, RMSE)์ ํ๊ท ์ ๊ณฑ๊ทผ ์ค์ฐจ-๊ด์ธก๊ฐ
ํ์คํธ์ฐจ๋น(mean squared error-observation standard deviation Ratio)๋ฅผ ์ด์ฉํ์๋ค(Eq. 3 and 4).
RMSE๋ ์์ธก๊ฐ๊ณผ ์ค์ธก๊ฐ์ ์ฐจ์ด์ ์ ๋์น๋ฅผ ๋น๊ตํ๋ ์ง์๋ก RMSE๊ฐ 0์ ๊ฐ๊น์ธ์๋ก ๋ชจํ์ ์์ธก์ฑ๋ฅ์ด ์ข์์ ์๋ฏธํ๋ค. RSR์ ๋ชจํ๊ฐ ์ฑ๋ฅ์
์ ๋์ ์ธ ๋น๊ต๊ฐ ๊ฐ๋ฅํ ์ง์๋ก 0~1์ ๋ฒ์๋ฅผ ๊ฐ์ง๋ฉฐ ์ผ๋ฐ์ ์ผ๋ก RSR์ด 0.7 ์ดํ์ธ ๊ฒฝ์ฐ ์์ธก์ด ์ ์ํ๋ ๊ฒ์ผ๋ก ํ๋จํ๊ณ , 0์ ๊ฐ๊น์ธ์๋ก ๋ชจํ์
์ฑ๋ฅ์ด ์ฐ์ํ ๊ฒ์ ์๋ฏธํ๋ค(Bennett et al., 2013; Moriasi et al., 2007).
where
: Observed value at time t,
: Predicted value at time t,
: mean of observed values.
3. Results and Discussion
3.1 Characteristics of input variables and pretreatment of missing variables
๋ชจํ์ ๊ตฌ์ถ์ ์ฌ์ฉ๋ ์
๋ ฅ์๋ฃ์ ๊ธฐ์ด ํต๊ณ๋์ Table 2์ ์ ์ํ์๋ค. ๋ชจํ ๊ตฌ์ถ์ ์ฌ์ฉ๋ ์ธก์ ๊ฐ์ Blue Lake์ Orick์์ ๊ฐ๊ฐ 15% ๋ฐ 13%์ SSC์ ๊ฒฐ์ธก์น๋ฅผ ํฌํจํ๊ณ ์๋ค. ๋จธ์ ๋ฌ๋
๋ชจํ์ ๊ตฌ์ถ์ ์
๋ ฅ์๋ฃ์ ๊ฒฐ์ธก์น๊ฐ ํฌํจ๋๋ ๊ฒฝ์ฐ ์ด๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋, ๋ณด๊ฐ๋ฒ์ด๋ ์ฃผ๋ณ๊ฐ๋ค์ ํ๊ท ๊ฐ์ ์ด์ฉํด์ ๊ฒฐ์ธก์น๋ฅผ ์ถ์ ํ๋ k nearest neighbors
๋ฑ์ ํตํด ๊ฒฐ์ธก์น์ ๋ํ ์ ์ฒ๋ฆฌ๋ฅผ ์ํํ๊ฒ ๋๋ฉฐ, ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ ์ ์ ํ ์ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ์ ์ ์ด ํ์ํ๋ค.
Table 2. Characteristics of input variables
Site
|
Variables
|
Average
|
Min
|
Max
|
Standard deviation
|
Blue Lake
|
Q (ใฅ/s)
|
6.97
|
0.05
|
236.73
|
11.87
|
SSC (mg/L)
|
117.44
|
0
|
11,200
|
427.69
|
Orick
|
Q (ใฅ/s)
|
30.60
|
0.06
|
1,135.51
|
56.33
|
SSC (mg/L)
|
158.70
|
0
|
9,610
|
474.69
|
๋ณธ ์ฐ๊ตฌ์ ์ฌ์ฉ๋ ์
๋ ฅ์๋ฃ๊ฐ ์ธก์ ๋ ๋ถ๋ถ California ์ง์ญ์ 10์๋ถํฐ ์ฐ๊ธฐ๊ฐ ์์๋๊ณ ์ด๋ฌํด 2์๊ฒฝ๊น์ง ๊ฐ์ฐ๊ฐ ์ง์๋๊ฒ ๋๋ฉฐ, ์ดํ ๋ด๊ณผ
์ฌ๋ฆ ๋์์ ๊ฐ์ฐ๊ฐ ๊ฑฐ์ ๋ฐ์ํ์ง ์๋ ๊ฑด๊ธฐ๊ฐ ์ง์๋๋ค. SSC์ ๊ฒฐ์ธก์น๋ ๋๋ถ๋ถ ์ด๋ฌํ ๊ฑด๊ธฐ์ธ 3~9์์ค์ ๋ฐ์ํ์์ผ๋ฉฐ, ์ด์๊ธฐ๋ ๊ฐ์ฐ๊ฐ ๋ฐ์ํ์ง
์์ ๋ฎ์ Q์ SSC๊ฐ ์ธก์ ๋๋ ์๊ธฐ๋ก ๋ณธ ์ฐ๊ตฌ์์๋ ๋ณ๋์ ๊ฒฐ์ธก์น ๋ณด์ ์ ์ํํ์ง ์๊ณ , ์
๋ ฅ์๋ฃ์์ ๊ฒฐ์ธก๊ฐ์ ์ ๊ฑฐํ๊ณ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ ์ ์ฉํ์๋ค.
๋ํ ์ด๋ฌํ ๊ฐ์ฐ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ๊ฑด๊ธฐ๊ฐ ๋๋๊ณ ์๋ก์ด ์ฐ๊ธฐ๊ฐ ์์๋๋ 10์์ ๊ธฐ์ค์ผ๋ก ๋ชจํ์ training๊ณผ ์ฑ๋ฅ์ ํ๊ฐ๋ฅผ ์ํ testing์
์ฌ์ฉ๋๋ ์
๋ ฅ์๋ฃ๋ฅผ ๊ตฌ๋ถํ์ฌ, Blue Lake๋ 1985๋
10์ 1์ผ ์ดํ์ ์๋ฃ๋ฅผ Orick์์๋ 1984๋
10์ 1์ผ ์ดํ์ ์๋ฃ๋ฅผ testing์
ํ์ฉํ์๋ค(Fig. 1). ๋ชจํ์ training๊ณผ testing์๋ ๊ฒฐ์ธก์น๋ฅผ ์ ์ธํ๊ณ Blue Lake์์๋ ๊ฐ๊ฐ 4,271์ผ ๋ฐ 1,792์ผ, Orick์์๋ ๊ฐ๊ฐ
4,853์ผ ๋ฐ 2,157์ผ ๊ฐ ์ธก์ ๋ ๊ฐ์ด ์ฌ์ฉ๋์ด, training๊ณผ testing์ ์ฌ์ฉ๋ ์
๋ ฅ์๋ฃ์ ๋น์จ์ Blue Lake์ Orick์์
๊ฐ๊ฐ 0.70:0.30 ๋ฐ 0.69:0.31๋ก ๊ตฌ์ฑ๋์๋ค.
Fig. 1. Training and testing data.
3.2 Clustering of input SSC
KMC๋ฅผ ์ด์ฉํ์ฌ ๋ชจํ์ ๊ตฌ์ถ์ ์ฌ์ฉ๋ training ์๋ฃ๋ฅผ Q๊ฐ ๋ฎ์ ๊ตฐ์ง๊ณผ(Class 1), ๋์ ๊ตฐ์ง(Class 2)์ 2๊ฐ์ ๊ตฐ์ง์ผ๋ก ๊ตฌ๋ถํ์ฌ
XGB ๋ชจํ์ ์ ์ฉํ์์ผ๋ฉฐ, ๊ตฐ์งํ๋ฅผ ํ์ง ์์ ์ ์ฒด์๋ฃ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ์ถ๋ ๋ชจํ๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ์ฌ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ ๋ชจํ์ ๊ตฌ์ถ์ด ๋ชจํ ์ฑ๋ฅ์
๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์๋ค(Table 3 and Fig. 2).
Table 3. Clustering of input variables for the model training
Site
|
Blue lake
|
Orick
|
Class
|
Class 1 (low range)
|
Class 2 (high range)
|
Class 1 (low range)
|
Class 2 (high range)
|
Max Q (ใฅ/s)
|
22.6
|
236.7
|
96.0
|
1135.5
|
Number of observation
|
3,923
|
348
|
4,393
|
460
|
Fig. 2. Distribution of clustered input variables for the model training.
3.3 Model simulation result
Model 1. Separated model
๊ตฐ์งํ๋ฅผ ํตํด Q๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ตฌ๋ถ๋ ๋ฎ์ Q ๊ฐ์ ๊ฐ์ง๋ Class 1๊ณผ ๋์ Q ๊ฐ์ ๊ฐ์ง๋ Class 2 ๊ฐ๊ฐ์ ๋ํ์ฌ ๋ณ๋์ training์
์ํํ์ฌ ๋ชจํ์ ๊ตฌ์ถํ์๋ค. ๋ชจํ์ testing์ ๊ฐ testing ์๋ฃ๊ฐ ํด๋น๋๋ Class์์ ๊ตฌ์ถ๋ ๋ชจํ์ ์ ์ฉํ์ฌ ์ํํ์๋ค.
Model 2. Combined model
๊ตฐ์งํ๋ฅผ ํตํด ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๋ฐ์ํ์ฌ ๋ชจํ์ ๊ตฌ์ถํ Model 1๊ณผ์ ๋น๊ต๋ฅผ ์ํด Q์ ๋ฐ๋ฅธ ๊ตฌ๋ถ ์์ด ์ ์ฒด ์
๋ ฅ์๋ฃ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ์ฌ training
๋ฐ testing์ ์ํํ์๋ค.
๊ตฌ์ถ๋ ๋ชจํ์ testing ๊ฒฐ๊ณผ Blue Lake์ Orick ๋์ธก์ ์ง์ ๋ชจ๋์์, ๊ตฐ์งํ๋ฅผ ํตํด ๋ฎ์ Q์ ๋์ Q ๊ตฌ๊ฐ์ ๋ํ์ฌ ๋ณ๋์ ์ต์ ํ๋ฅผ
์ํํ Model 1์ด ์ ์ฒด์๋ฃ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ์ถ๋ Model 2๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ, ์
๋ ฅ์๋ฃ ํน์ฑ์ ๊ณ ๋ คํ ๋ชจํ ๊ตฌ์ถ์ ํตํด XGB ๋ชจํ์
์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ ๊ฒ์ ํ์ธํ์๋ค(Fig. 3).
Fig. 3. A comparison of model evaluation results.
Q์ ๋ฒ์์ ์๊ด์์ด ์ ์ฒด ์
๋ ฅ์๋ฃ๋ฅผ ๋ชจ๋ ์ด์ฉํ์ฌ ๊ตฌ์ถํ Model 2์ ๊ฒฝ์ฐ Blue Lake์ Orick์์ RSR์ด ๊ฐ๊ฐ 0.51๊ณผ 0.57๋ก
๋ถ์๋์์ผ๋, Model 1์ RSR์ Blue Lake์ Orick์์ ๊ฐ๊ฐ 0.46 ๋ฐ 0.55๋ก ๋ถ์๋์ด ๊ฐ์ ๋ SSC ์์ธก์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
RMSE๋ Blue Lake์ Orick์์ Model 2์ ๊ฒฝ์ฐ ๊ฐ๊ฐ 117.10๊ณผ 124.04๋ก Model 1์ ๊ฒฝ์ฐ ๊ฐ๊ฐ 104.05์ 118.95๋ก
๋ถ์๋์ด, RSR๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋์ง์ ๋ชจ๋์์ Model 1์ ์ฌ์ฉํ ๋ ์ฑ๋ฅ์ด ๊ฐ์ ๋์๋ค.
๋ชจํ์ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ธํ๊ธฐ ์ํด ๊ตฌ์ถ๋ Model 1๊ณผ Model 2์ testing ์๋ฃ์ ๋ํ ์ค์ธก๊ฐ๊ณผ ์์ธก๊ฐ์ ๋น๊ตํ์ฌ Fig. 4์ ์ ์ํ์๋ค. Fig. 4์ ๊ฒ์์ ์์ Model 1์ ๋ฎ์ Q ๊ตฌ๊ฐ์ ๋ํ์ฌ, ํ๋์ ์ฌ๊ฐํ์ Model 1์ ๋์ Q ๊ตฌ๊ฐ์ ๋ํด์ ๊ฐ๊ฐ ์ต์ ํ๋ ๋ชจํ์ ์์ธก๊ฐ๊ณผ ์ค์ธก๊ฐ์
๊ด๊ณ๋ฅผ ๋ํ๋ด๋ฉฐ, ๋นจ๊ฐ์ ์ผ๊ฐํ์ ์ ์ฒด์๋ฃ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ์ถํ Model 2์ ๋ชจํ์ ํตํ ์์ธก๊ฐ๊ณผ ์ค์ธก๊ฐ์ ๊ด๊ณ๋ฅผ ๋ํ๋ธ๋ค. Blue Lake์ Orick
๋์ธก์ ์ง์ ๋ชจ๋์์ ๋ฎ์ Q์ ๋์ Q์ ๊ตฌ๊ฐ์ ๋ํ์ฌ ๊ฐ๊ฐ ์ต์ ํ๋ Model 1์ด Model 2์ ๋นํด 1:1 ์ ์ ์๋์ ์ผ๋ก ๊ทผ์ ํ์ฌ ๋ถํฌํ๋
๊ฒฝํฅ์ ๋ณด์ด๋ ๊ฒ์ ์๊ฐ์ ์ผ๋ก ํ์ธํ ์ ์๋ค.
Fig. 4. A comparison of model predictions.
3.4 Comparision with arbitrarily separated model
๋ณธ ์ฐ๊ตฌ์์๋ ์๋ฃ์ ํน์ฑ์ ๋ฐ๋ผ ์
๋ ฅ์๋ฃ๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ํด KMC๋ฅผ ์ ์ฉํ์์ผ๋ฉฐ, KMC๋ฅผ ์ด์ฉํ์ง ์๊ณ ์์๋ก ์
๋ ฅ์๋ฃ๋ฅผ ๊ตฌ๋ถํ์ฌ ๊ตฌ์ถ๋ ๋ชจํ๊ณผ์
๋น๊ต๋ฅผ ํตํด KMC์ ์ ์ฉ์ ๋ฐ๋ฅธ ๋ชจํ ์ฑ๋ฅ ๊ฐ์ ํจ๊ณผ๋ฅผ ํ์ธํ์๋ค.
Blue Lake์ Orick์์ ๊ฐ๊ฐ Q=2.6 ใฅ/s ๋ฐ Q=10.5ใฅ/s๋ฅผ ๊ธฐ์ค์ผ๋ก ์
๋ ฅ์๋ฃ๋ฅผ ๊ตฌ๋ถํ ๊ฒฐ๊ณผ ๊ฐ ์ง์ ์์ ์ ์ฒด training์
์ฌ์ฉ๋ ์๋ฃ์ 50%๊ฐ ๋์ Q์ ๋ฎ์ Q ๊ตฌ๊ฐ์ ๊ฐ๊ฐ ๋ถํฌํ๋๋ก ๊ตฌ๋ถ์ด ๋์๋ค. ์ดํ Model 1๊ณผ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์์ 50%์ ํ์ 50%
Q์ ํด๋น๋๋ ๊ตฌ๊ฐ์ ๋ํด์ ๊ฐ๊ฐ ์ต์ ํ๋ฅผ ์ํํ์ฌ ๋ชจํ์ ์ฑ๋ฅ์ ๋ถ์ํ์๋ค. ๋ถ์๊ฒฐ๊ณผ Blue Lake์ ๊ฒฝ์ฐ RMSE์ RSR์ด ๊ฐ๊ฐ 112.35์
0.49๋ก ๋ถ์๋์ด, ์ ์ฒด์๋ฃ๋ฅผ ์ฌ์ฉํ Model 2์ ๋นํด์๋ ๊ฐ์ ๋ ์ฑ๋ฅ์ ๋ณด์์ผ๋ KMC๋ฅผ ์ด์ฉํ์ฌ ๊ตฐ์งํ๋ ์
๋ ฅ์๋ฃ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ์ถ๋ Model
1์ ๋นํด์๋ ๋ฎ์ ์ฑ๋ฅ ๊ฐ์ ํจ๊ณผ๋ฅผ ๋ณด์๋ค. Orick์ ๊ฒฝ์ฐ RMSE์ RSR์ด ๊ฐ๊ฐ 124.73๊ณผ 0.57๋ก ์ ์ฒด ์๋ฃ๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ์ถ๋ Model
2์ ์ ์ฌํ ๋ชจํ ์ฑ๋ฅ์ ๋ณด์๋ค. ๋ชจํ์ training์ ์ฌ์ฉ๋ ์๋ฃ๋ฅผ ์์ 50% ๋ฐ ํ์ 50%๋ก ๊ตฌ๋ถํ์ฌ ๋ชจํ์ ๊ตฌ์ถํ ๊ฒฐ๊ณผ, ์ ์ฒด์๋ฃ๋ฅผ ์ ์ฉํ๋
๋ชจํ์ ๋นํด ๋ค์ ์ฑ๋ฅ์ด ๊ฐ์ ๋๊ฑฐ๋ ๊ฑฐ์ ๊ฐ์ ๋์ง ์์ ๊ฒ์ผ๋ก ๋ถ์๋์ด, KMC๋ฅผ ์ด์ฉํ์ฌ ์
๋ ฅ์๋ฃ๋ฅผ ๊ตฐ์งํํ์ฌ ๋ชจํ์ ๊ตฌ์ถํ๋ ๊ฒฝ์ฐ์ ์ฐจ์ด๊ฐ ์์์
ํ์ธํ ์ ์์๋ค.
3.5 Optimal clustering
Elbow ์๊ณ ๋ฆฌ์ฆ์ KMC๋ฅผ ์ด์ฉํ์ฌ ๊ตฐ์ง์ k๋ฅผ ๋๋ ค๊ฐ๋ฉด์ ๊ฐ k์์์ ์ค์ฐจ์ ์ ๊ณฑํฉ(sum of squared error, SE)๋ฅผ ๊ตฌํ๊ณ k์
์ฆ๊ฐ์ ๋ฐ๋ฅธ SE์ ๊ฐ์์จ์ด ์ ์ด์ง๋ ์ง์ ์ ์ต์ ์ ๊ตฐ์ง์๋ก ๊ฒฐ์ ํ์ฌ ์
๋ ฅ์๋ฃ์ ์ต์ ๊ตฐ์ง์๋ฅผ ์ฐ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค(Park, 2018; Zhang, Bouadi et al., 2018). ๋ชจํ ๊ตฌ์ถ์ ์ฌ์ฉ๋ ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ ์ต์ ๊ตฐ์ง์๋ฅผ ํ์ธํ๊ธฐ ์ํด elbow ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ ์ต์ ๊ตฐ์ง์ ๋ถ์์ ์ํํ์๋ค. ์ด๋ฅผ ์ํด KMC๋ฅผ
์ด์ฉํ์ฌ training์ ์ฌ์ฉ๋ ์๋ฃ์ Q๋ฅผ ๊ธฐ์ค์ผ๋ก 1~10๊ฐ๋ก ๊ตฐ์ง์ k๋ฅผ ์ฆ๊ฐ์์ผ๊ฐ๋ฉด์ SE์ ๋ณํ๋ฅผ ๋ถ์ํ์๋ค. ์
๋ ฅ์๋ฃ๋ฅผ 2๊ฐ์ ๊ตฐ์ง์ผ๋ก
๊ตฌ๋ถํ ๊ฒฝ์ฐ SE๊ฐ ์ด๊ธฐ๊ฐ์ ์ ๋ฐ ์ดํ๋ก ๊ธ๊ฒฉํ ๊ฐ์ํ์์ผ๋ฉฐ ์ดํ ๊ตฐ์ง์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ SE๊ฐ ์ง์์ ์ผ๋ก ๊ฐ์ํ์์ผ๋ ๊ตฐ์ง์ k=6 ์ดํ SE ๋ณํ์จ์ด
ํฌ์ง ์์ ์ต์ ์ ๊ตฐ์ง์๋ 6๊ฐ ๋ด์ธ ์ ๋์์ ํ์ธํ ์ ์์๋ค(Fig. 5).
Fig. 5. Result of the elbow analysis.
KMC์ ํตํด ๋ชจํ ๊ตฌ์ถ์ ์ฌ์ฉ๋ training ์๋ฃ๋ฅผ k=3~6๊ฐ์ ๊ตฐ์ง์ผ๋ก ๋๋ ๊ฒฐ๊ณผ ๊ฐ์ฅ ๋ฎ์ Q ๋ฒ์์ ๊ฐ์ฅ ๋ง์ ์๋ฃ๊ฐ ๋ถ๋ฅ๋๋ ๊ฒ์ ํ์ธํ ์
์์๋ค(Fig. 6). ๊ฐ ๊ตฐ์ง๋ณ๋ก ๋ถ๋ฅ๋ ์๋ฃ์ ๋น์จ์ ๊ตฐ์ง์ k์ ๋ฐ๋ผ ์ฐจ์ด๊ฐ ์์๋ค. ๊ตฐ์ง์ k=3์ผ ๊ฒฝ์ฐ Blue Lake์ Orick์์ ๊ฐ๊ฐ ์ ์ฒด์๋ฃ์ 78%
๋ฐ 85%๊ฐ ๊ฐ์ฅ ๋ฎ์ Q์ ๋ฒ์๋ก ๋ถ๋ฅ๋์์ผ๋ฉฐ, ๊ตฐ์ง์๊ฐ ์ปค์ง์ ๋ฐ๋ผ ๊ทธ ๋น์จ์ด ์ค์ด๋ค์ด k=6์ผ ๊ฒฝ์ฐ Blue Lake์ Orick์์ ๊ฐ๊ฐ ์ ์ฒด์๋ฃ์
62% ๋ฐ 67%๊ฐ ๊ฐ์ฅ ๋ฎ์ Q์ ๋ฒ์๋ก ๋ถ๋ฅ๋์๋ค. ๊ฐ์ฅ ๋์ Q์ ๋ฒ์์๋ ๊ฐ์ฅ ์์ ์์ ์๋ฃ๊ฐ ๋ถํฌํ์ฌ k=3์ผ ๊ฒฝ์ฐ Blue Lake์๋
134์ผ, Orick์๋ 50์ผ๊ฐ์ ์ธก์ ์๋ฃ๊ฐ, k=6์ผ ๊ฒฝ์ฐ Blue Lake์์๋ 1์ผ Orick์๋ 4์ผ๊ฐ์ ์ธก์ ์๋ฃ๊ฐ ๊ฐ์ฅ ๋์ Q๊ตฌ๊ฐ์ผ๋ก
๋ถ๋ฅ๋์๋ค. ๊ตฐ์ง์๋ฅผ 3๊ฐ ์ด์์ผ๋ก ์งํํ๋ ๊ฒฝ์ฐ ๋จธ์ ๋ฌ๋ ๋ชจํ์ ๊ตฌ์ถ์๋ ์๋ฃ๊ฐ ์ถฉ๋ถํ์ง ์์ ๋ณธ ์ฐ๊ตฌ์์๋ ์ถ๊ฐ์ ์ธ ๊ตฐ์ง๋ณ ๋ชจํ๊ตฌ์ถ์ ์ํํ์ง
์์๋ค.
Fig. 6.
Distribution of the clustered training data in Redwood Creek at Orick, California
USA.
*Note: Each color represents different cluster.
๋จธ์ ๋ฌ๋ ๋ชจํ์ ์ฑ๋ฅ์ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๋ค์ํ ์ํฅ์ ๋ฐ๊ฒ ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๊ตฐ์งํ ๋ชจํ์ ์ด์ฉํ์ฌ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๋ฐ์ํ ๊ตฐ์งํ๋ฅผ ํตํ ์ ์ฒ๋ฆฌ๋ฅผ
์ํํ์ฌ ๋จธ์ ๋ฌ๋ ๋ชจํ์ ์ฑ๋ฅ์ ํฅ์์ํฌ์ ์๋ ๊ฐ๋ฅ์ฑ์ ํ์ธํ์๋ค. ํฅํ ์
๋ ฅ์๋ฃ์ ๋ค์ํ ํน์ฑ์ ๋ฐ์์ ํตํด ๋จธ์ ๋ฌ๋ ๋ชจํ์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์
์๋ ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ผ๋ก ์๊ฐ๋๋ค.
4. Conclusion
๋ณธ ์ฐ๊ตฌ์์๋ KMC์ ์ด์ฉํ์ฌ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๋ฐ๋ฅธ ๊ตฐ์งํ๋ฅผ ์ํํ๊ณ XGB๋ฅผ ์ด์ฉํ์ฌ SSC๋ฅผ ์์ธกํ๋ ๋ชจํ(Model 1)์ ๊ตฌ์ถํ๊ณ ์
๋ ฅ์๋ฃ์
๊ตฐ์งํ๊ฐ ๋ชจํ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ์๋ค. ๋ชจํ์ ๊ตฌ์ถ์๋ ๋ฏธ๊ตญ California Redwood Creek์ ์์นํ USGS ํ์ฅ์ธก์ ์ Blue
Lake์ Orick 2๊ฐ์์์ ์ฅ๊ธฐ๊ฐ ์ธก์ ๋ Q์ SSC ์ผ์ผ ์ธก์ ์๋ฃ๋ฅผ ํ์ฉํ์๋ค. ๋ชจํ์ ์ฑ๋ฅ์ RMSE ๋ฐ RSR์ ์ด์ฉํ์ฌ ํ๊ฐํ์๋ค. ๋น๊ต๋ฅผ
์ํ์ฌ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ ๊ตฐ์งํ๋ฅผ ์ ์ฉํ์ง ์๊ณ ์ ์ฒด ์
๋ ฅ์๋ฃ๋ฅผ ์ฌ์ฉํ ๋ชจํ(Model 2)๋ฅผ ๊ตฌ์ถํ์ฌ ์์ธก ์ฑ๋ฅ์ ๋ถ์ํ์๋ค.
๋ชจํ์ ์ํ ๊ฒฐ๊ณผ ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ์ง ์์ Model 2๋ Blue Lake์ Orick ๊ฐ๊ฐ์์ RSR์ด 0.51 ๋ฐ 0.57๋ก ๋ถ์๋์์ผ๋ฉฐ,
๊ตฐ์งํ๋ฅผ ํตํด ์
๋ ฅ์๋ฃ๋ฅผ Q๊ฐ ๋ฎ์ ๊ฒฝ์ฐ์ ๋์ ๊ฒฝ์ฐ์ 2๊ฐ ๊ตฐ์ง์ผ๋ก ๊ตฌ๋ถํ์ฌ ๊ฐ๊ฐ์ ์
๋ ฅ์๋ฃ์ ์ต์ ํ์ํจ Model 1์ ๊ฒฝ์ฐ RSR์ด Blue
Lake์ Orick์์ ๊ฐ๊ฐ 0.46๊ณผ 0.55๋ก ๊ฐ์ ๋๋ ๊ฒ์ ํ์ธํ์๋ค. RMSE๋ RSR๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก Model 1์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋
๊ฒ์ผ๋ก ๋ถ์๋์ด, ์
๋ ฅ์๋ฃ์ ํน์ฑ์ ๊ณ ๋ คํ ๋ชจํ์ ๊ตฌ์ถ์ ํตํด ๋จธ์ ๋ฌ๋ ๋ชจํ์ ์ฑ๋ฅ์ด ๊ฐ์ ๋๋ ์ฌ๋ก๋ฅผ ํ์ธํ ์ ์์๋ค. ํฅํ ์
๋ ฅ์๋ฃ์ ๋ค์ํ ํน์ฑ์
๋ฐ์ํ์ฌ ๋จธ์ ๋ฌ๋ ๋ชจํ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ํ์ํ ๊ฒ์ผ๋ก ์๊ฐ๋๋ค.
Acknowledgement
๋ณธ ๋
ผ๋ฌธ์ 2021๋
๋ ์ ๋ถ(๊ตญํ ๊ตํต๋ถ)์ ์ฌ์์ผ๋ก ๊ตญํ ๊ตํต๊ณผํ๊ธฐ์ ์งํฅ์์ ์ง์์ ๋ฐ์ ์ํ๋ ์ฐ๊ตฌ์
๋๋ค(21UGCP- B157942-02).
References
Ahmad A., Dey L., 2007, A k-mean clustering algorithm for mixed numeric and categorical
data, Data & Knowledge Engineering, Vol. 63, pp. 503-527

Ayub J., Ahmad J., Muhammad J., Aziz L., Ayub S., Akram U., Basit I., 2016, Glaucoma
detection through optic disc and cup segmentation using k-mean clustering, 2016 International
Conference on Computing, Electronic and Electrical Engineering (ICE Cube), pp. 143-147

Bennett N. D., Croke B. F., Guariso G., Guillaume J. H., Hamilton S. H., Jakeman A.
J., Marsili-Libelli S., Newham L. T., Norton J. P., Perrin C., 2013, Characterising
performance of environmental models, Environmental Modelling & Software, Vol. 40,
pp. 1-20

Chen T., Guestrin C., 2016, Xgboost: A scalable tree boosting system, Proceedings
of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
(KDD '16), Association for Computing Machinery, pp. 785-794

Friedman J. H., 2001, Greedy function approximation: A gradient boosting machine,
Annals of statistics, Vol. 29, No. 5, pp. 1189-1232

Gray A. B., Pasternack G. B., Watson E. B., Goni M. A., Hatten J. A., Warrick J. A.,
2016, Conversion to drip irrigated agriculture may offset historic anthropogenic and
wildfire contributions to sediment production, Science of the Total Environment, Vol.
556, pp. 219-230

Gray A. B., Pasternack G. B., Watson E. B., Warrick J. A., Goรฑi M. A., 2015, The effect
of El Niรฑo Southern Oscillation cycles on the decadal scale suspended sediment behavior
of a coastal dryโsummer subtropical catchment, Earth Surface Processes and Landforms,
Vol. 40, pp. 272-284

Haghiabi A. H., Nasrolahi A. H., Parsaie A., 2018, Water quality prediction using
machine learning methods, Water Quality Research Journal, Vol. 53, pp. 3-13

Hicks D. M., Gomez B., Trustrum N. A., 2000, Erosion thresholds and suspended sediment
yields, Waipaoa river basin, New Zealand, Water Resources Research, Vol. 36, pp. 1129-1142

Hollister J. W., Milstead W. B., Kreakie B. J., 2016, Modeling lake trophic state:
A random forest approach, Ecosphere, Vol. 7, pp. e01321

Li L., Rong S., Wang R., Yu S., 2021, Recent advances in artificial intelligence and
machine learning for nonlinear relationship analysis and process control in drinking
water treatment: A review, Chemical Engineering Journal, Vol. 405, pp. 126673

Lin W., Sung S., Chen L., Chung H., Wang C., Wu R., Lee D., Huang C., Juang R., Peng
X., 2004, Treating high-turbidity water using full-scale floc blanket clarifiers,
Journal of Environmental Engineering, Vol. 130, No. 12, pp. 1481-1487

Moriasi D. N., Arnold J. G., Van Liew M. W., Bingner R. L., Harmel R. D., Veith T.
L., 2007, Model evaluation guidelines for systematic quantification of accuracy in
watershed simulations, Transactions of the American Society of Agricultural and Biological
Engineers, Vol. 50, No. 3, pp. 885-900

Muhammad S. Y., Makhtar M., Rozaimee A., Aziz A. A., Jamal A. A., 2015, Classification
model for water quality using machine learning techniques, International Journal of
software engineering and its applications, Vol. 9, pp. 45-52

Packman A. I., MacKay J. S., 2003, Interplay of streamโsubsurface exchange, clay particle
deposition, and streambed evolution, Water Resources Research, Vol. 39, No. 4, pp.
1097

Park J., 2021, Comparative characteristic of ensemble machine learning and deep learning
models for turbidity prediction in a river, [Korean Literature], Journal of Korean
Society of Water and Wastewater, Vol. 35, pp. 83-91

Park J., Hunt J. R., 2017, Coupling fine particle and bedload transport in gravel-bedded
streams, Journal of Hydrology, Vol. 552, pp. 532-543

Park J., Lee H., 2020, Prediction of high turbidity in rivers using LSTM algorithm,
[Korean Literature], Journal of Korean Society of Water and Wastewater, Vol. 34, pp.
35-43

Park R. K., 2018, An empirical comparison and verification study on the containerports
clustering measurement using k-means and hierarchical clustering (average linkage
method Using Cross-Efficiency Metrics, and Ward Method) and Mixed Models, [Korean
Literature], Journal of Korea Port Economic Association, Vol. 34, pp. 17-52

Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel
M., Prettenhofer P., Weiss R., Dubourg V., 2011, Scikit-learn: Machine learning in
Python, Journal of Machine Learning Research, Vol. 12, pp. 2825-2830

Shin Y., Kim T., Hong S., Lee S., Lee E., Hong S., Lee C., Kim T., Park M. S., Park
J., 2020, Prediction of chlorophyll-a concentrations in the Nakdong river using machine
learning methods, Water, Vol. 12, pp. 1822

Singer M. B., Aalto R., James L. A., Kilham N. E., Higson J. L., Ghoshal S., 2013,
Enduring legacy of a toxic fan via episodic redistribution of California gold mining
debris, Proceedings of the National Academy of Sciences, Vol. 110, pp. 18436-18441

Song J., 2017, K-means cluster analysis for missing data, [Korean Literature], Journal
of Korean Data Analysis Society, Vol. 19, pp. 689-697

Stevenson M., Bravo C., 2019, Advanced turbidity prediction for operational water
supply planning, Decision Support Systems, Vol. 119, pp. 72-84

Sutton C. D., 2005, Classification and regression trees, bagging, and boosting, Handbook
of statistics, Vol. 24, pp. 303-329

Uddameri V., Silva A. L. B., Singaraju S., Mohammadi G., Hernandez E. A., 2020, Tree-based
modeling methods to predict nitrate exceedances in the Ogallala aquifer in Texas,
Water, Vol. 12, pp. 1023

United States Geological Survey (USGS), 2009, USGS(United States Geological Survey)
Water-Data Report 2009, 11482500 Redwood Creek at Orick, CA

United States Geological Survey (USGS), 2014, https://waterdata.usgs.gov/nwis (accessed
Jun. 2014), National Water Information System (NWIS)
Walling D., 1977, Assessing the accuracy of suspended sediment rating curves for a
small basin, Water Resources Research, Vol. 13, No. 3, pp. 531-538

Wang Y., Chen J., Cai H., Yu Q., Zhou Z., 2021, Predicting water turbidity in a macro-tidal
coastal bay using machine learning approaches, Estuarine, Coastal and Shelf Science,
Vol. 252, pp. 107276

Warrick J. A., 2015, Trend analyses with river sediment rating curves, Hydrological
processes, Vol. 29, No. 6, pp. 936-949

Warrick J. A., Madej M. A., Goรฑi M., Wheatcroft R., 2013, Trends in the suspended-sediment
yields of coastal rivers of northern California, 1955โ2010, Journal of Hydrology,
Vol. 489, pp. 108-123

Zhang D., Qian L., Mao B., Huang C., Huang B., Si Y., 2018, A data-driven design for
fault detection of wind turbines using random forests and XGboost, IEEE Access, Vol.
6, pp. 21020-21031

Zhang Y., Bouadi T., Martin A., 2018, An empirical study to determine the optimal
k in Ek-NNclus method, 5th International Conference on Belief Functions (BELIEF2018),
pp. 260-268
