심선희
(Sun-Hee Shim)
1aiD
김유흔
(Yu-Heun Kim)
1biD
이혜원
(Hye Won Lee)
1ciD
김민
(Min Kim)
2iD
최정현
(Jung Hyun Choi)
1d†iD
-
이화여자대학교 환경공학과
(Department of Environmental Science and Engineering, Ewha Womans University)
-
세종대학교 환경에너지공간융합학과
(Severe Storm Research Center, Ewha Womans University)
© Korean Society on Water Environment. All rights reserved.
Key words
Chlorophyll-a, Deep learning, Feature importance, Machine learning, Yeongsan river
1. Introduction
녹조현상(Algal bloom)은 전 세계적으로 담수 생태계의 주요 수질 문제로 알려져 있다(Liu et al., 2019). 일반적으로 질소나 인 등의 영양물질이 하천이나 호소로 유입되어 부영양화된 수체에 높은 수온, 강한 햇빛 그리고 물순환의 정체 조건이 충족되면
남조류의 대량 증식을 야기하여 녹조현상이 발생한다(Kim, Park et al., 2021). Chlorophyll-a (Chl-a)는 하천 내 식물성 플랑크톤 밀도를 간접적으로 나타내는 지표로 모든 광합성 조류는 Chl-a를 포함하고
있어 수체 내 Chl-a 농도를 조사함으로써 쉽게 조류 예측이 가능하다(Jung and Kim, 2017a; Park et al., 2015). 이처럼 Chl-a는 측정의 신속함과 편리성으로 여러 선행연구에서 조류 발생 정도를 확인하기 위하여 사용되는 대표적인 수질 항목으로 알려져 있다(An and Kampbell, 2003; He et al., 2022; Jung and Kim, 2017a; Kwak, 2021; Park, 2022; Park et al., 2015). 따라서, 효과적인 수질 관리를 위해서는 Chl-a 농도를 이용하여 조류의 발생에 영향을 미치는 주요 요인을 파악하고, 정량화된 과학적인 예측
모델을 구축하는 것이 필요하다(Kang and Park, 2021; Liu et al., 2019).
최근에는 지구온난화로 인한 기후변화로 하천 수온이 상승하여 하천에서 조류가 지속적으로 발생하고 있다(Kang and Park, 2021). Ma et al. (2016) 연구에서는 중국 Taihu 호수의 겨울철 남조류 발생에 지구온난화가 중요한 역할을 한다고 규명하였다. 현재 전 세계적으로 지구온난화가 진행되고 있으며,
기후변화로 인한 이상 기온, 가뭄과 홍수 등 강우 패턴의 변화가 하천과 호수의 수생태계에도 영향을 미치고 있다(Noh et al., 2014). 이러한 현상은 미래에 더욱 빠른 속도로 증가할 것으로 예상되어 수질, 기상(일사량, 강수량 등) 및 다양한 수리학적 인자를 복합적으로 평가하여
조류 발생 요인을 파악할 필요가 있다(Lee, Park et al., 2020; Liu et al., 2019).
전통적 조류 예측 방법인 물리식 기반 모델은 물리적, 화학적 및 생물학적 기작을 이론적 물리식을 바탕으로 수식화하여 예측하는 방법으로 질량 보존의
법칙을 기초로 하기에 용존산소, 총인, 총질소와 같은 수질 자료가 아닌 살아있는 생명체인 조류를 예측하는 것에는 한계가 있다(KEI, 2020). 이러한 물리식 기반 모델의 한계를 극복하기 위한 방법으로 여러 연구에서는 머신러닝 알고리즘(Machine Learning)을 이용하고 있다(Alizamir et al., 2021; Cui et al., 2021; Kim, Park et al., 2021; Lee and Kim, 2021; Park, 2022). 머신러닝 알고리즘은 모델의 학습(training)과 성능 평가(testing)를 위한 충분한 양의 자료가 확보되어야 한다는 단점이 있으나, 물리적,
화학적 및 생물학적 실험을 통한 계수 산정 등의 과정이 필요하지 않아 물리식 기반 모델보다 빠르게 모델 구축이 가능한 장점이 있다(Park, 2022). 또한, 최근에는 인터넷을 통해 빠른 속도로 다량의 자료가 공유되며 이에 발맞추어 자료 저장 능력 및 컴퓨터의 계산 능력이 향상됨에 따라 복잡한
알고리즘(Machine Learning, Artificial Intelligence)을 활용하기에 적합한 환경이 조성되고 있다(Schuwirth et al., 2019).
2001년부터 2020년까지 약 20여 년간 국제 학술지에 게재된 물환경 모델링 연구를 대상으로 문헌 조사를 수행한 논문에 따르면 물리식 기반 모델
관련 논문이 1,200편, 머신러닝을 활용한 논문이 총 1,784편으로 머신러닝을 이용한 모델의 활용도가 더 높은 것으로 나타났다(Cha et al., 2020). 머신러닝을 이용하여 Chl-a를 예측한 선행 연구로 Alizamir et al. (2021)은 Extreme Learning Machine, Group Method of Data Handling, Random Forest (RF), Classification
And Regression Tree를 이용하여 미국의 강과 호수의 Chl-a 농도를 예측하였으며, Cui et al. (2021)은 eXtreme Gradient Boosting (XGBoost)를 이용하여 중국 Nansi 호수의 Chl-a 농도를 예측하였다. 또한, Kim, Park et al. (2021)은 Artificial Neural Network, Recurrent Neural Network, Long Short-Term Memory models
및 Gated Recurrent Units를 이용하여 유해 남조류 발생을 예측하였으며, Lee and Kim (2021)은 RF와 Gradient Boosting을 이용하여 대청호의 Chl-a 농도를 예측하였고, Park (2022)은 Gradient Boosting Decision Tree을 이용하여 호소 내 Chl-a 농도를 예측하는 모델을 구축하였다.
영산강은 국내 4대 강 중 하나로 타 수계에 비하여 유로 연장이 짧고 하상계수가 커서 과거부터 하천의 유량이 부족하며 건천화에 취약하였다(Shin et al., 2016). 또한, 유역 전체 인구의 80% 이상이 유역 상류 지점인 광주광역시와 같은 인구 밀집 지역에 거주하고 있어 이에 따른 물 수요의 증가는 수생태계를
더욱 악화시키고 있다(Kim et al., 2020). 2012년 이후에는 4대강 사업의 일환으로 영산강 본류에 승촌보와 죽산보가 건설되어 보 인근 수량은 증가하였으나, 수심이 깊어지고 하천의 흐름이
지체되는 등 폐쇄성 수역의 특징을 가지게 되면서 수생태계 전반에 많은 변화가 발생하여 조류 발생 패턴이 변화하게 되었다(Jung and Kim, 2017a; Tekile et al., 2015). 그러나, 광주⋅전남 지역주민들에게 생활용수, 농업용수, 산업용수를 제공하는 기능의 역할을 수행하는 영산강은 한강과 낙동강에 비해 보 건설 이후
연구가 상대적으로 부족한 실정이다(Seo et al., 2018; Song et al., 2015). 따라서, 본 연구에서는 계절에 따라 조류 대발생이 반복되고 있는 영산강 승촌보 구간을 대상으로 선정하여 장기간의 수질측정망 데이터를 이용해 Deep
Neural Network (DNN), RF 및 XGBoost 모델을 구축하여 모델별 Chl-a 농도 예측 정확성을 확인하고자 하였다. 또한, 머신러닝
모델 학습 후 각 모델의 Feature Importance를 도출하여 Chl-a 농도 변화에 영향을 주는 주요 요인을 파악하였다. 향후 본 연구 결과는
영산강 보 인근의 Chl-a의 최적 관리 방안을 마련하기 위한 기초 자료로 활용될 수 있을 것이다.
2. Materials and Methods
2.1 연구대상지 및 분석 데이터
영산강은 전라남도 담양에서 발원하여 서해로 흐르는 강으로, 광주광역시 전역과 전라남도 7개 시⋅군을 지난다. 2012년 본류에 설치된 승촌보와 죽산보는
영산강의 중류인 광주광역시 남구 승촌동, 전라남도 나주시 다시면에 위치하고 있다(Fig. 1). 영산강의 중권역 대표 지점으로는 광주, 지석천, 나주 등이 있으며, 보 대표 지점으로는 승촌보에 가장 가깝게 위치한 광산(영본B, 용봉), 죽산보에
가장 가깝게 위치한 죽산(나주) 지점이 있다.
Fig. 1. Map of Yeongsan River Study Sites
승촌보 상류 구간에 위치한 공공하수처리장에서는 일평균 72만 톤의 방류수가 영산강으로 유입되고 있으며 이로 인해 승촌보는 방류수의 직접적인 영향을
받고 있다(Seo et al., 2018). 따라서, 본 연구에서는 1989년에 전라남도 나주시 노안면 학산리, 승촌보 상류 약 500m 지점에 설치된 광산 수질측정망 데이터를 활용하여
승촌보 개방 전⋅후 장기간에 걸친 수질 변화를 분석하였다.
현재 광산 수질측정망은 영산강물환경연구소에서 관리되고 있으며, 수질 데이터는 환경부에서 운영하는 물환경정보시스템(Water Environment Information
System)의 일별 데이터 중 승촌보가 설치된 후 개방 전 2013년부터 2017년까지 데이터와 보 완전 개방 이후 2018년부터 2021년까지의
데이터를 분석에 이용하였다(ME, 2022). 본 연구에서는 대상 수질 지표 항목으로 Water Temperature, Dissolved Oxygen (DO), Biochemical Oxygen
Demand (BOD) Chemical Oxygen Demand (COD), Suspended Solids (SS), Total Nitrogen (TN),
Nitrate (NO3-N), Ammonia (NH3-N), Total Phosphorus (TP), Phosphate (PO4-P), potential of Hydrogen (pH) 및 Chl-a를 사용하였으며, 기상 환경이 Chl-a 농도에 미치는 영향을 고려하기 위해
기상청에서 운영하는 기상자료개방포털(Open MET Data Portal) 데이터 중 2013년부터 2021년까지의 광주 지점의 평균 기온, 강우량,
최대 풍속, 최대 일사량을 일별로 측정한 데이터를 분석 항목에 포함하였다(KMA, 2022). 또한, 2018년 승촌보가 완전 개방되면서 수위 및 저수량의 변화가 관측되어 수위 변화에 따른 Chl-a 농도 변화를 살펴보기 위해 수자원공사에서
운영하는 물정보포털(My Water)의 승촌보 수위 데이터를 분석에 활용하였다(K-water, 2022).
2.2 분석 방법
2.2.1 상관성 분석(Correlation Analysis)
조류는 수질, 기상, 수량 등 다양한 환경인자에 영향을 받아 발생하며, 이러한 환경인자는 조류 발생 시 서로 영향을 미치므로 각 인자와 Chl-a와의
상관관계를 분석하여 해석할 필요가 있다(Lee, Park et al., 2020). 본 연구에서는 SPSS (ver. 25.0) 프로그램을 이용하여 분석 데이터의 정규성을 확인 후 정규분포 데이터의 경우, 피어슨 상관성 분석을
실시하고, 정규분포 데이터가 아닌 경우, 스피어만 상관성 분석을 실시하였다.
2.2.2 DNN
DNN은 입력층(input layer)과 출력층(output layer) 사이에 두 개 이상의 은닉층(hidden layer)이 존재하는 ANN 기법으로
인간의 뇌 구조인 뉴런(neuron) 구조를 모방하여 만들어진 통계학적 학습 알고리즘이다(Kriegeskorte and Golan, 2019). DNN은 입력층과 출력층, 그리고 입력층과 출력층 사이의 은닉층으로 구성된다(Chung et al., 2021). 이때 은닉층 내부에는 수많은 노드(node)가 존재하며, 노드는 인간의 뇌에서 뉴런의 역할을 담당한다(Chun et al., 2020). 입력층에서 은닉층으로 입력값이 전달되면 입력값에 대한 가중치(Weight)의 곱과 편차값(Bias)의 합이 은닉층에 전달되며 전달된 값은 활성화
함수(Activation function)를 거쳐 결과값으로 산출된다(Chung et al., 2021). 활성화 함수는 주로 비선형함수를 사용하며 가장 보편적으로 사용되는 활성화 함수로는 ReLU 함수와 tanh함수, 이진 분류에 사용되는 sigmoid함수와
다중 분류에 사용되는 softmax함수 등이 있다. 활성화 함수는 DNN의 학습 성능을 최적화(optimization)하기 위한 하이퍼파라미터(Hyper-parameter)중
하나로 DNN은 은닉층의 개수, 최적화 함수(optimizer), 드롭아웃(dropout), 테스트 횟수(epochs)와 학습 비율(learning
rate) 등 학습 성능에 영향을 미치는 다양한 하이퍼파라미터가 존재한다(Lee et al., 2021).
2.2.3 RF
RF는 결정 트리(decision tree)의 과적합(overfitting) 문제를 보완하기 위해 Breiman (2001)에 의해 소개된 앙상블(ensemble) 알고리즘의 하나로 분류 및 회귀 분석 등 다양한 문제에 폭넓게 사용되고 있다(Kim, Lee et al., 2021). 앙상블이란 주어진 자료를 통해 다수의 예측 모델을 만들어 학습한 뒤, 모델들을 하나로 결합하여 더 강한 최종 예측 모델을 만들어내는 기법이다(Kang and Park, 2019). 앙상블 방법은 크게 배깅(Bootstrap Aggregating)과 부스팅(Boosting)으로 나눌 수 있다. RF는 이 중 배깅을 사용하는
대표적인 알고리즘으로 Fig. 2의 과정을 통해 설계되어 다음 네 단계로 요약될 수 있다(Dittman et al., 2015; Kang and Park, 2019).
Fig. 2. Random Forest Algorithm
-
(1) 입력 데이터로부터 부트스트랩(Bootstrap) 샘플링을 통해 임의의 부트스트랩 표본을 추출한다. 이때, 부트스트랩이란 입력 데이터로부터 중복을
허용하여 입력 데이터와 같은 크기의 새로운 표본 집합을 생성하는 기법을 말한다.
-
(2) 부트스트랩 표본과 함께 전체 특성(feature)중 랜덤하게 m개를 선택하여 최적의 분할을 만드는 결정 트리를 생성한다.
-
(3) 위 (1), (2)번 과정을 N번 반복하여 총 N개의 결정 트리를 생성한다.
-
(4) N개의 결정 트리를 하나의 분류기로 결합하여(Aggregate) RF 모델을 만들고, 각 결정 트리의 결과를 평균하여 최종 결과를 도출한다.
위 과정을 통해 생성된 RF는 중복을 허용하여 표본을 추출하기 때문에 각 결정 트리가 예측한 결과가 비상관화(decorrelation)되어 일반화된
결과를 도출할 뿐 아니라 노이즈가 포함된 데이터에 대해서도 강한 특성을 갖게 된다(Kim and Seo, 2020; Lee, Park et al., 2020). 이로 인해 RF는 범주형 변수뿐 아니라 연속형 변수 예측에도 높은 예측력을 보여 다양한 분야에서 활용되고 있다(Kim, Lee et al., 2021).
RF의 주요 하이퍼파라미터는 무작위성을 제어하기 위한 하이퍼파라미터와 복잡도를 제어하기 위한 하이퍼파라미터로 구분된다(Müller and Guido, 2016). 무작위성을 제어하기 위한 하이퍼파라미터에는 결정 트리의 개수(n_estimators)와 각 노드를 가장 잘 분류할 수 있는 최대 특성의 개수(max_features)가
있으며, 복잡도를 제어하기 위한 하이퍼파라미터로는 트리의 최대 깊이(max_depth), 결정 트리의 말단인 리프 노드의 최대 개수(max_leaf_nodes),
노드에 넣을 수 있는 최소 샘플의 개수(min_samples_split), 리프 노드까지의 최소한의 샘플 개수(min_samples_leaf) 등이
있다(Tyralis et al., 2019).
2.2.4 XGBoost
XGBoost는 Gradient boosting 기반의 알고리즘으로, 2016년 Tianqi Chen에 의해 소개되었다(Chen and Guestrin, 2016). Gradient boosting이란 앙상블(ensemble) 알고리즘 중 하나인 부스팅(boosting)기법에 경사하강법을 적용하여 정확도가
높아지는 방향으로 가중치를 갱신하여 반복적으로 새로운 예측 모델을 만들어 강한 예측 모델을 구현하는 방법이다(Oh et al., 2019). 이때, 부스팅기법은 약한 분류기(weak classifier)를 통해 학습한 결과를 토대로 강한 분류기(strong classifier)를 만드는
방법으로 부스팅기법을 이용해 분류기 M이 Y를 예측할 확률은 다음과 같이 표현할 수 있다(Choi et al., 2020; Friedman and Popescu, 2003; Lee, Park et al., 2020). 이때, M은 트리 모델을, Y는 모델 예측 결과, errorn (n= 1~3)은 예측 시 생기는 error를 의미한다.
식 (3)에서 error1을 모델 G(x)와 error2로 상세히 분리하여 표현하고, 동일한 방법으로 식 (4)의 error2를 모델 H(x)와 error3으로 더 세밀하게 분리하여 표현할 수 있다. 이를 식 (2)에 대입하여 최종식 (5)를 만든다. 이후 식 (6)에서 더 좋은 성능의 분류기를 만들기 위하여 가중치(w1, w2, w3)를 적용하여 최적의 가중치를 찾는다. 위 과정을 통해 약한 분류기를 강한 분류기로 만들어 분류기 M을 단독 사용했을 때보다 더 높은 예측 정확도를
얻을 수 있다.
일반적인 Gradient boosting의 경우, 우수한 예측 성능을 가지고 있지만, 학습 시간이 길고 모델 최적화에 어려움이 있다(Lee and Sun, 2020). 하지만 병렬 연산 학습이 가능한 XGBoost를 이용하면 학습 시간을 단축하여 빠른 학습이 가능하며, XGBoost는 30개 이상의 하이퍼파라미터를
지원하기 때문에 다른 머신러닝보다 뛰어난 예측 성능을 보인다(Chen and Guestrin, 2016). XGBoost에서 지원하는 대표적인 하이퍼파라미터로는 결정 트리의 최대 깊이를 조정하는 Max_depth, 결정 트리 생성 시 특성 추출에 사용하는
Colsample_bytree와 결정 트리 분할 시 요구되는 손실함수(loss function)의 감소 값을 지정하는 gamma 등이 있다(Sim et al., 2022; Singha et al., 2021).
2.3 데이터 전처리 및 스케일링
데이터 전처리(Data pre-processing)는 머신러닝 모델을 통해 학습을 진행하기 전, 분석에 적합한 형태로 데이터를 변형하는 과정으로 머신러닝
모델의 성능을 높이기 위해서는 초기 데이터를 가공하는 과정이 필요하다(Lee and Sun, 2020). 광산 수질측정망의 일별 데이터는 측정 날짜와 간격이 일정하지 않고 월 4~5회 측정되어, 일별 자료가 있는 기상, 수위 데이터와의 시간적 해상도를
맞추기 위해 수질 데이터의 시간적 해상도를 높이는 보간 방법을 진행하였다. Gnauck (2004)은 불규칙하게 측정된 수질 데이터를 4가지 보간 방법을 통해 일일 데이터로 보간하여 수질 모델링 분석에 적합한 규칙적인 데이터 셋을 구성하였다. Gnauck (2004)의 연구 결과 선형 보간(linear interpolation)이 수질 데이터 사이의 간격을 채우기에 가장 적합함을 확인할 수 있었으며, 여러 선행
연구에서도 데이터 보간 시 선형 보간 방법을 이용하여, 본 연구에서도 수질 데이터는 초기 데이터를 일별 데이터로 선형 보간한 후 분석에 사용하였다(Junninen et al., 2004; Karace and baleanu, 2020; Lepot et al., 2017). 기상 데이터 인자인 평균 기온, 강우량, 최대 풍속, 최대 일사량과 수위 데이터의 경우 일별 측정 데이터가 존재하여 선형 보간하지 않고 초기
데이터를 그대로 사용하였다. 전처리를 마친 2013년부터 2021년까지 총 3287개의 일별 데이터를 전체 데이터로 구성하였으며, 이 중 목적 변수인
Chl-a 농도는 출력 데이터(output data)로, 설명 변수인 나머지 항목들을 입력 데이터(input data)로 사용하였다(Table 1). 또한, 수질측정 데이터에서 필연적으로 발생하는 이상치, 결측값 및 노이즈 등을 제거하기 위하여 Savitzky-Golay 필터를 이용하여 평활화(smoothing)
작업을 진행하였다. Savitzky-Golay 필터는 n차 다항식에 최소제곱법(method of least squares)을 이용하여 데이터를 피팅(fitting)하는
과정을 통해 데이터의 손상을 최소화하여 노이즈를 제거하는 방법이다(Savitzky and Golay, 1964). 12개의 수질 데이터는 Savitzky-Golay 필터를 이용하여 노이즈를 제거하였으나, 기상 데이터 중 강우량의 경우 평활화 작업을 진행하면
강우량이 없는 무강우일에도 소량의 강우가 있는 것으로 보정되는 등 데이터의 중요 의미가 훼손될 가능성이 있다. 이에 기상 데이터와 수위 데이터는 전체
데이터 중 상위 0.05% 이상의 백분위에 해당되는 값을 가진 데이터를 0.1%의 백분위 값으로 대체하는 보정을 진행하였다(Fig. 3, Fig. 4). Fig. 3, Fig. 4는 Savitzky-Golay 필터를 이용하여 노이즈를 제거하기 전⋅후를 나타내며 이때, before는 노이즈를 제거하기 전 데이터, after는
노이즈 제거 후 데이터, drop은 노이즈 제거 전⋅후 차이를 의미한다. 최종적으로 데이터의 단위를 0~1사이로 정규화(Normalization)하는
데이터 스케일링을 통해 데이터 간 단위 차이로 인한 분석 결과의 오차가 생기지 않도록 정규화 된 데이터를 분석 데이터로 이용하였다. 이후 분석 데이터는
모델 학습을 위해 Scikit-Learn의 model_selection 패키지 내 train_test_split 모듈을 이용하여 Train data와
Test data로 구분하였다. 2013년부터 2021년까지의 총 3287개의 일별 데이터 중 약 70%인 임의의 2301개의 데이터를 Train
data로, 나머지 30%인 986개의 데이터를 Test data로 나누어 DNN, RF 및 XGBoost 모델 학습을 진행하였다.
Table 1. Types of Variables Used
No.
|
Component
|
Source
|
Variable
|
Abbreviation
|
Sort
|
1
|
Water quality
|
Gwangsan
|
Water Temperature
|
Water Temperature
|
Input
|
2
|
Dissolved Oxygen
|
DO
|
Input
|
3
|
Biochemical Oxygen Demand
|
BOD
|
Input
|
4
|
Chemical Oxygen Demand
|
COD
|
Input
|
5
|
Suspended Solids
|
SS
|
Input
|
6
|
Total Nitrogen
|
TN
|
Input
|
7
|
Nitrate
|
NO3-N
|
Input
|
8
|
Ammonia
|
NH3-N
|
Input
|
9
|
Total Phosphorus
|
TP
|
Input
|
10
|
Phosphate
|
PO4-P
|
Input
|
11
|
Potential of Hydrogen
|
pH
|
Input
|
12
|
Chlorophyll-a
|
Chl-a
|
Output
|
13
|
Hydraulic
|
Seungchon Weir
|
Elevation
|
Elevation
|
Input
|
14
|
Weather
|
Gwangju
|
Average Temperature
|
Average Temperature
|
Input
|
15
|
Precipitation
|
Precipitation
|
Input
|
16
|
Maximum Windspeed
|
Max Windspeed
|
Input
|
17
|
Maximum Radiation
|
Max Radiation
|
Input
|
Fig. 3. Plots of input variables recorded at the study area. (before: cyan line and raw data, after: black line and smoothed data, drop: the difference between before and after)
Fig. 4. Plot of output variable recorded at the study area. (before: cyan line and raw data, after: black line and smoothed data, drop: the difference between before and after)
3. Results and Discussion
3.1 상관성 분석
SPSS (ver. 25.0)을 이용하여 Shapiro-Wilk과 Kolmogorov- Smirnov검증을 통해 분석 데이터의 정규성을 확인 후,
본 연구에는 스피어만 상관분석이 적합하다고 판단하여 스피어만 상관분석을 실시하였다. Chl-a와 수질, 기상, 수량 등 다양한 환경인자와의 상관 관계를
파악하기 위하여 실시한 상관분석 결과 중 p-value값이 0.05 미만인 값을 Fig. 5의 히트맵(heatmap) 그래프를 통해 시각화하였다.
Fig. 5. Correlation analysis of input and output data characteristics using heat map plot (p<0.05)
Chl-a와 가장 높은 양의 상관성을 가진 입력 변수는 BOD, COD, SS, pH 순으로 각각 0.62, 0.60, 0.42, 0.41의 강한
상관관계를 보였다. 유기물질을 나타내는 수질 지표인 BOD, COD는 조류가 성장함에 따라 수체 내부에서 발생하는 자생 오염물질(autochthonous
matter)과의 관련성을 추정할 수 있으며(Kim et al., 2013; Lee, Park et al., 2020), Jung and Kim (2017b)의 연구에서는 조류가 증식함에 따라 광합성에 의해 수체 내 탄산염 및 중탄산염이 흡수되어 pH가 증가한 것으로 보고하였다.
PO4-P는 –0.42로 강한 음의 상관관계를 보였고, Jung and Kim. (2017a)과 Park et al. (2008)의 연구에 따르면, 식물성 플랑크톤 현존량이 높은 시기에 PO4-P는 조류 증식과정에서 영양물질로 소모되는 것으로 보고하였다. 이에 반해 Water Temperature, NO3-N, Average Temperature는 상관계수가 0.1 미만으로 Chl-a와 유의미한 상관관계가 나타나지 않았다.
3.2 DNN, RF 및 XGBoost 모델 최적화 과정
본 연구에서 Chl-a 농도를 예측에 사용한 DNN 모델은 Python 3.9.12 환경에서 TensorFlow 2.8.0과 Keras 2.8.0을
기반으로 설계되었으며, RF와 XGBoost 모델은 각각 Python 3.9.12 환경에서 Scikit-Learn 라이브러리의 RandomForestRegressor와
XGBRegressor를 이용하였다.
모델을 구축하는 과정에서 높은 예측 성능을 얻기 위해서 최적의 하이퍼파라미터를 설정하는 작업은 필수적이다(Oh et al., 2019). Müller and Guido (2016)에 의하면 모델의 성능을 높이기 위해서 다수의 하이퍼파라미터를 활용하는 것은 오히려 모델을 복잡하게 만들 수 있다. 이에 본 연구에서는 모든 모델에서
4개의 하이퍼파라미터를 이용하였으며, Train data를 훈련시키는 과정에서 grid search를 통한 4-fold 교차검증으로 최적의 파라미터
조합을 선정하였다(Table 2). grid search는 연구자가 정의한 범위 내에서 파라미터 간의 다양한 조합을 설정한 뒤, K-fold 교차검증(K-fold cross validation)을
통해 예측 성능이 가장 우수한 파라미터 조합을 찾아내는 방법이다(Kim et al., 2018). 이때 K-fold 교차검증은 학습 데이터를 k개의 그룹으로 나눈 뒤, 1개의 fold는 Validation data로 나머지 k-1개의 fold는
Train data로 사용하여 다음 과정을 k번 반복하여 학습을 진행하는 방법이다(Ha et al., 2017).
Table 2. Hyper-parameters Used for tuning each model
ML Algorithm
|
Hyper-parameter
|
Range
|
Interval
|
Used Hyper-parameter
|
DNN
|
Number of Hidden Layer and Unit
|
100~500
|
100
|
Layer1: 400 Layer2: 400
|
Dropout rate
|
0.2~0.5
|
0.1
|
0.4, 0.3
|
Activation function
|
sigmoid, tanh, ReLU, ELU
|
tanh, elu
|
Learning rate
|
0.0001~0.001
|
0.0001
|
0.001
|
RF
|
n_estimator
|
10~50
|
10
|
50
|
max_depth
|
10~50
|
10
|
30
|
min_sample_leaf
|
1~5
|
1
|
1
|
min_sample_split
|
2~6
|
1
|
2
|
XGBoost
|
max_depth
|
5~10
|
1
|
9
|
colsample_bytree
|
0.25~1.0
|
0.25
|
0.75
|
gamma
|
0~5
|
1
|
0
|
Learning rate
|
0.001~0.01
|
0.001
|
0.05
|
학습을 통해 설정된 최적의 하이퍼파라미터 조합을 이용하여 각 모델을 학습하고 모델 예측 정확도를 비교하기 위하여 Mean Squared Error
(MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE), R-Square (R2)와 Adjusted R-Square (Adj R2)를 비교한 결과를 Table 3에 제시하였으며, Train data와 Test data의 예측 정확도를 나타내는 그림을 Fig. 6에 제시하였다. MAE는 실제값과 예측값 차이 절대값의 평균, MSE는 실제값과 예측값 차이 제곱의 평균, RMSE는 MSE의 제곱근 값으로 세 값
모두 0에 가까울수록 예측 성능이 우수하다고 평가한다. R2는 실제값과 예측값의 선형회귀분석을 통해 계산하며 값이 1에 가까울수록 모델 재현성이 높다고 판단한다. 이때, R2는 독립변수의 개수가 증가할수록 값이 증가하는 경향이 있어 이를 보완하기 위해 Adj R2를 함께 평가하였다.
Table 3. Prediction performance of the three ML models: DNN, RF, and XGBoost
Accuracy
|
Dataset
|
DNN
|
RF
|
XGBoost
|
MSE
|
Train
|
0.0023
|
0.0007
|
0.0000
|
Test
|
0.0035
|
0.0046
|
0.0027
|
RMSE
|
Train
|
0.0484
|
0.0260
|
0.0051
|
Test
|
0.0588
|
0.0678
|
0.0518
|
MAE
|
Train
|
0.0365
|
0.0190
|
0.0035
|
Test
|
0.0434
|
0.0520
|
0.0372
|
R2 |
Train
|
0.9547
|
0.9869
|
0.9995
|
Test
|
0.9348
|
0.9163
|
0.9493
|
Adj R2 |
Train
|
0.9544
|
0.9866
|
0.9995
|
Test
|
0.9344
|
0.9159
|
0.9491
|
Fig. 6. Comparison of the actual Chl-a concentration and prediction results obtained using the three ML models: DNN, RF, and XGBoost
본 연구에서 Test data를 기준으로 예측 성능을 비교하였을 때, 예측 성능이 우수한 모델은 XGBoost, DNN, RF 순으로 각각 R2값이 0.9493, 0.9348, 0.9163으로 모든 모델에서 R2값이 0.9 이상인 매우 높은 Chl-a 농도 예측 정확도를 보였다. 특히, XGBoost의 경우, Train data 학습 성능은 0.9995,
Test data는 0.9493으로 매우 높은 정확도를 보였다.
3.3 Feature Importance 분석
Feature Importance는 학습된 모델에서 목적 변수에 영향을 미치는 설명 변수의 중요도를 의미한다(Kim, Park et al., 2021). 머신러닝의 학습 데이터는 다양한 설명 변수들의 특징값들로 이루어지는데, Feature Importance는 특정 특징값이 다른 값으로 대체될
경우 발생하는 오차의 크기를 가늠하여 계산되며, Feature Importance를 통해 입력된 특징값이 결과에 미치는 영향을 파악할 수 있어 머신러닝
모델 해석에 필수적인 과정이다(Lee, Oh et al., 2020). DNN의 경우 TensorFlow의 GradientTape을 이용하였으며, RF와 XGBoost는 Scikit- Learn 라이브러리에서 제공되는
feature_importances_를 이용하여, 각 모델에 대한 Feature Importance 결과를 도출하였다(Fig. 7).
Fig. 7. Feature Importance of the prediction results obtained using the three ML models: DNN, RF, and XGBoost
앙상블 알고리즘 계열에 속하는 RF와 XGBoost는 상위 25%인 4순위까지의 Feature Importance가 BOD, COD, SS, PO4-P로 동일하게 나타났으며, 수리 인자인 Elevation에 비해 Precipitaion, Average Temperature, Max Windspeed,
Max Radiation의 기상 인자들은 상대적으로 낮은 중요도를 보였다. 각 모델을 통해 상위 50%에 도출된 인자는 DO, BOD, COD, SS,
pH, PO4-P, NH3-N, NO3-N, TN, TP, Water Temperature, Elevation이며 이 중 COD, SS, PO4-P, NH3-N는 모든 모델에서 Chl-a 농도 예측 시 높은 중요도를 가지는 주요 인자로 도출되었다.
3.4 Discussion
본 연구에서는 영산강 Chl-a 최적 관리 방안 마련을 위해 DNN, RF 및 XGboost 모델을 이용하여 모델별 예측 정확성을 확인하고, Feature
Importance를 도출하여 Chl-a농도 예측 시 영향을 미치는 주요 요인을 파악하였다. R2을 통해 평가한 예측 정확성은 모든 모델에서 0.9 이상으로 매우 높은 것을 확인할 수 있었다. 특히, XGBoost의 경우 R2 값이 Train data에서 0.9995, Test data에서 0.9493으로 매우 높은 예측 정확성을 보였다. XGBoost는 부스팅 기법을 통해
높은 정확도를 얻을 수 있어, 머신러닝 기반의 알고리즘 중에서도 정확도가 높은 것으로 알려져 있다(Han et al., 2019). 또한 최근에는 데이터 기반 온라인 경진대회 플랫폼인 Kaggle에서도 널리 사용되면서 모델의 우수성이 입증되고 있다(Lee, Oh et al., 2020).
상관성 분석 결과 BOD, COD, SS, pH, PO4-P는 Chl-a와 유의미한 상관관계를 가졌으며 BOD, COD, SS 및 PO4-P는 모든 예측 모델에서의 Feature Importance 중요도가 높게 나타났다. 반면, pH는 DNN과 XGBoost을 이용한 Feature
Importance 결과에서 상위 50% 이내 주요 인자에 포함되지 않았다. 또한, DO, NH3-N, NO3-N, TN, TP, Water Temperature 및 Elevation은 상관성 분석 결과에서는 유의미한 상관관계를 보이지 않았지만, NH3-N은 모든 모델에서, TN과 TP는 DNN과 XGBoost에서, NO3-N, Water Temperature와 DO, Elevation은 각각 DNN, RF, XGBoost에서 변수 중요도가 상위 50% 이내인 주요
인자로 도출되었다. 일반적으로 상관성 분석은 목적 변수와 설명 변수 간의 단순 선형 관계는 파악이 가능하나, 변수 간 상대적 영향도 및 비선형적 관계를
갖는 데이터에 대해서는 정확한 분석이 제한적이다(Jeong et al., 2021). 이에 반해, 머신러닝을 통해 Feature Importance를 도출하면 선형 및 비선형 관계 모두에서 상대적 중요도를 파악할 수 있다(Jeong et al., 2021; Kim and Jun, 2019). 따라서 Chl-a 농도 예측 시 영향을 미치는 주요 인자를 파악하기 위해서는 상관성 분석뿐 아니라 머신러닝을 이용한 Feature Importance
결과도 함께 분석할 필요가 있다.
낙동강 하류 물금지점에서 Chl-a와 여러 수질, 기상 및 수리 인자와 상관성 분석을 시행한 Lim et al. (2015)의 연구 결과에서 Water Temperature, pH, DO, BOD, COD, TN, NO3-N 및 PO4-P가 Chl-a와 유의미한 상관관계를 나타내었고, 기상 및 수리 인자는 상대적으로 유의미한 상관관계를 나타내지 않았다. 이는 본 연구에서 진행한
상관성 분석과 Feature Importance 결과와도 유사하였는데, 본 연구에서도 기상 및 수리 인자보다는 수질 인자가 Chl-a와 유의미한 상관성
및 모델 예측 시 높은 중요도를 나타냈다. 특히, PO4-P는 Chl-a와 높은 음의 상관성을 보였으며, Feature Importance 결과에서도 Chl-a 농도 예측 시 중요한 변수로 도출되었다.
전 세계적으로 점오염원에 의한 인(Phosphorus)의 수층 유입은 감소하는 추세지만, 비점오염원에 의한 인의 유입은 여전히 조류 발생을 야기하는
원인이 되고 있다(Lee et al., 2013). 본 연구 대상 지역인 승촌보 상류에는 영산강 유역에서 가장 큰 광주하수처리장이 위치하고 있으며, 총인 처리시설이 추가로 도입되어 PO4-P와 TP 발생량이 감소하였다(Shin et al., 2015). 그러나 Kim et al. (2020)의 연구에서는 승촌보 상류 지역에 다수의 배수문이 있어 도시, 산업지역 및 농경지로부터 오염물질이 강우 시 또는 항시 유입될 가능성이 존재한다고 하였다.
특히, 승촌보 상류에 위치한 신촌과 벽진 배수문은 타 배수문에 비해 오염부하량이 높았으며, 신촌의 경우 TP 부하량이 크고, 벽진의 경우 농경지의
비점오염물질이 혼재되어 있었다(Kim et al., 2020). 일반적으로 수생태계에서 인의 작용은 매우 복잡한 것으로 알려져 있다. 낮은 분자량을 가진 불안정한 인 화합물은 콜로이드 형성을 위해 결합하거나,
PO4-P로 빠르게 가수분해 된다(Wetzel and Likens, 2013). 이러한 인의 화학적 특징과 승촌보 상류의 높은 TP 부하량으로 인해 PO4-P가 Chl-a 농도를 예측하는 데 주요 인자가 된 것으로 판단된다(Kim and Ahn, 2022; Shin et al., 2019).
NH3-N은 본 연구에서 Chl-a 농도 예측에 활용된 모든 모델에서 주요 인자로 도출되었다. 일반적으로 NH3-N은 pH에 따라 NH3, NH4+ 형태로 나타나는데 자연수계에서 대부분 NH4+ 형태로 존재하고 있다(Seo et al., 2018). 이때 자정능력이 탁월한 하천의 경우에는 NH3-N가 유입된 후 물리적, 화학적 및 생물학적 자정작용에 의해 질산성 질소로 산화되거나 생물체로 동화되어 농도가 낮아지지만, 지속적인 오염원 유입이
있는 경우 하천에서의 NH3-N 농도가 높게 유지될 수 있다(Han et al., 2015). 공공하수처리장의 방류수는 NH3-N 농도를 증가시키는 주요 원인으로 알려져 있으며 본 연구 지점인 영산강 광산 지점의 상류에는 영산강에서 승촌보로 유입되는 광주하수처리장이 위치하고있다.
현재 광주 제1 하수처리장의 가동률은 100%에 육박하여 증설 요구가 지속되고 있으며, 방류수의 높은 총질소량을 낮추기 위해 질소 처리장치의 확충을
계획하고 있다(Kim et al., 2020).
따라서 효과적인 Chl-a관리를 위해서는 Chl-a 농도 예측 시 주요 요인으로 도출된 PO4-P와 NH3-N에 대한 연구가 더욱 필요할 것으로 보이며, NH3-N는 광주하수처리장의 총질소처리 장치 확충을 통해, PO4-P는 점오염원인 광주하수처리장보단 영산강 상류 유역의 비점오염원 관리를 통해 오염물질 관리가 필요할 것으로 사료된다.
4. Conclusion
본 연구에서는 DNN, RF 및 XGBoost 모델을 이용하여 영산강 승촌보 구간의 Chl-a 농도를 예측하였으며, Feature Importance를
통해 Chl-a 농도 예측에 영향을 주는 주요 요인을 파악하였다. 모든 모델에서 R2가 0.9 이상으로 매우 높은 예측 정확성을 확인할 수 있었으며, 그 중 XGBoost가 가장 높은 예측성을 보였다. 상관성 분석 결과 BOD, COD,
pH, SS, PO4-P가 Chl-a와 높은 상관관계를 나타냈으며, Feature Importance 결과 COD, SS, PO4-P, NH3-N가 모든 모델에서 상위 50% 이내의 주요 인자로 도출되었다. 본 연구를 통해 Chl-a 농도를 예측하기 위한 모델을 구축하고 주요 인자를 도출하는
시도를 하여 영산강 보 인근의 Chl-a 최적 관리 방안 마련을 위한 중요한 결과를 도출할 수 있다. 그러나, 머신러닝 방법은 결과값이 산출되는 원인을
정확하게 파악할 수 없으며 모형을 최적화하기 위한 명확한 기준이 없다는 점, 적용 변수에 따라 결과가 달라질 수 있다는 점에서 추가적인 연구가 필요하다(Bae and Yu, 2018). 또한, 식물성 플랑크톤의 발생 원인은 PO4-P, NH3-N과 같은 영양염류 이외에도 다양한 기상 및 수리 환경인자들의 복합적인 작용이 있으며, 계절별로 하천의 수질, 기상 조건, 수리 특성 등이 변화하기
때문에 월별로 다양한 인자들과의 비교 분석을 실시하는 추가 연구가 필요한 것으로 판단된다.
Acknowledgement
이 논문은 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(2018R1A6A1A08025520)
References
Alizamir M., Heddam S., Kim S., Mehr A. D., 2021, On the implementation of a novel
data-intelligence model based on extreme learning machine optimized by bat algorithm
for estimating daily chlorophyll-a concentration: Case studies of river and lake in
USA, Journal of Cleaner Production, Vol. 285, pp. 124868

An Y. J., Kampbell D. H., 2003, Monitoring chlorophyll a as a measure of algae in
lake Texoma marinas, Bulletin of Environmental Contamination and Toxicology, Vol.
70, No. 3, pp. 606-611

Bae S. W., Yu J. S., 2018, Predicting the real estate price index using machine learning
methods and time series analysis model, [Korean Literature], Housing Studies Review,
Vol. 26, No. 1, pp. 107-133

Breiman L., 2001, Random forests, Machine Learning, Vol. 45, No. 1, pp. 5-32

Cha Y., Shin J., Kim Y., 2020, Data-driven modeling of freshwater aquatic systems:
Status and prospects, [Korean Literature], Journal of Korean Society on Water Environment,
Vol. 36, No. 6, pp. 611-620

Chen T., Guestrin C., 2016, Xgboost: A scalable tree boosting system, Proceedings
of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,
pp. 785-794

Choi M. S., Kim C. H., Park H. M., Cheon M. A., Yoon H., Namgoong Y., Kim J. H., 2020,
Detecting errors in POS-Tagged corpus on XGBoost and cross validation, [Korean Literature],
KIPS Transactions on Software and Data Engineering, Vol. 9, No. 7, pp. 221-228

Chun B., Lee T., Kim S., Kim J., Jang K., Chun J., Shin Y., 2020, Estimation of DNN-based
Soil moisture at mountainous regions, [Korean Literature], Journal of The Korean Society
of Agricultural Engineers, Vol. 62, No. 5, pp. 93-103

Chung D. H., Yun J. S., Yang S. M., 2021, Machine learning for predicting entrepreneurial
innovativeness, [Korean Literature], Asia-Pacific Journal of Business Venturing and
Entrepreneurship, Vol. 16, No. 3, pp. 73-86

Cui Y., Meng F., Fu P., Yang X., Zhang Y., Liu P., 2021, Application of hyperspectral
analysis of chlorophyll a concentration inversion in Nansi lake, Ecological Informatics,
Vol. 64, pp. 101360

Dittman D. J., Khoshgoftaar T. M., Napolitano A., 2015, 2015 IEEE International Conference
on Information Reuse and Integration, IEEE, pp. 457-463

Friedman J. H., Popescu B. E., 2003, Importance sampled learning ensembles, Journal
of Machine Learning Research, Vol. 94305, pp. 1-32

Gnauck A., 2004, Interpolation and approximation of water quality time series and
process identification, Analytical and Bioanalytical Chemistry, Vol. 380, No. 3, pp.
484-492

Ha J. E., Shin H. C., Lee Z. K., 2017, Korean text classification using randomforest
and XGBoost focusing on Seoul metropolitan civil complaint data, [Korean Literature],
The Journal of Bigdata, Vol. 2, No. 2, pp. 95-104

Han J. H., Ko D. K., Choe H., 2019, Predicting and analyzing factors affecting financial
stress of household using machine learning: Application of Xgboost, [Korean Literature],
Journal of Consumer Studies, Vol. 30, No. 2, pp. 21-43

Han S. H., Kim Y. Y., Sung Y. G., Park I. B., Cho D. H., Nam W. K., Oh J. K., 2015,
Characteristics of organics and ammonia nitrogen discharged by pollution source from
human living, [Korean Literature], Journal of Korean Society on Water Environment,
Vol. 31, No. 4, pp. 377-386

He Y., Wang X., Xu F., 2022, How reliable is chlorophyll-a as algae proxy in lake
environments? New insights from the perspective of n-alkanes, Science of The Total
Environment, Vol. 836, pp. 155700

Jeong J. H., Jeong Y. C., Chae T. Y., 2021, Feature importance of electricity consumption
for highly energy demand commercial buildings in cooling season, [Korean Literature],
Journal of The Korean Society of Living Environmental System, Vol. 28, No. 1, pp.
29-38

Jung S. Y., Kim I. K., 2017a, Analysis of water quality factor and correlation between
water quality and Chl-a in middle and downstream weir section of Nakdong river, [Korean
Literature], Journal of Korean Society of Environmental Engineers, Vol. 39, No. 2,
pp. 89-96

Jung S. Y., Kim I. K., 2017b, Analysis of the water quality and correlation of impact
factors during summer season in changnyeong-haman weir section, [Korean Literature],
Journal of Korean Society of Water and Wastewater, Vol. 31, No. 1, pp. 83-91

Junninen H., Niska H., Tuppurainen K., Ruuskanen J., Kolehmainen M., 2004, Methods
for imputation of missing values in air quality data sets, Atmospheric Environment,
Vol. 38, No. 18, pp. 2895-2907

Kang B. K., Park J., 2021, Effect of input variable characteristics on the performance
of an ensemble machine learning model for algal bloom prediction, [Korean Literature],
Journal of Korean Society of Water and Wastewater, Vol. 35, No. 6, pp. 417-424

Kang K. H., Park H. J., 2019, Study on the effect of training data sampling strategy
on the accuracy of the landslide susceptibility analysis using random forest method,
[Korean Literature], Economic and Environmental Geology, Vol. 52, No. 2, pp. 199-212

Karaca Y., Baleanu D., 2020, A novel R/S fractal analysis and wavelet entropy characterization
approach for robust forecasting based on self-similar time series modeling, Fractals,
Vol. 28, No. 08, pp. 2040032

Kim C. W., Seo Y. G., 2020, Design and performance prediction of ultra-low flow hydrocyclone
using the random forest method, [Korean Literature], Journal of the Korean Society
of Manufacturing Technology Engineers, Vol. 29, No. 2, pp. 83-88

Kim G. H., Jung K. Y., Yoon J. S., Cheon S. U., 2013, Temporal and spatial analysis
of water quality data observed in lower watershed of Nam river dam, [Korean Literature],
Journal of the Korean Society of Hazard Mitigation, Vol. 13, No. 6, pp. 429-438

Kim H. I., Lee Y. S., Kim B., 2021, Real-time flood prediction applying random forest
regression model in urban areas, [Korean Literature], Journal of Korea Water Resources
Association, Vol. 54, No. spc1, pp. 1119-1130

Kim J., Kim J., Seo D., 2020, Effect of major pollution sources on algal blooms in
the Seungchon weir and Juksan weir in the Yeongsan river using EFDC, [Korean Literature],
Journal of Korea Water Resources Association, Vol. 53, No. 5, pp. 369-381

Kim K. M., Ahn J. H., 2022, Machine learning predictions of chlorophyll-a in the Han
river basin, Korea, Journal of Environmental Management, Vol. 318, pp. 115636

Kim S. H., Park J. H., Kim B., 2021, Prediction of cyanobacteria harmful algal blooms
in reservoir using machine learning and deep learning, [Korean Literature], Journal
of Korea Water Resources Association, Vol. 54, No. spc1, pp. 1167-1181

Kim S. W., Jun S. H., 2019, AI technology analysis using variable importance of deep
learning, [Korean Literature], Journal of the Korean Institute of Intelligent Systems,
Vol. 29, pp. 70-75

Kim Y., Kwak G. H., Lee K. D., Na S. I., Park C. W., Park N. W., 2018, Performance
evaluation of machine learning and deep learning algorithms in crop classification:
Impact of hyper-parameters and training sample size, [Korean Literature], Korean Journal
of Remote Sensing, Vol. 34, No. 5, pp. 811-827

Korea Environment Institute (KEI), 2020, Development and application of algal bloom
using artificial intelligence deep learning, https://www.kei.re.kr/elibList.es?mid=a10101000000&elibName=researchreport&act=view&c_id=732914
(accessed Dec. 2020)

Korea Meteorological Administration (KMA), 2022, Open MET Data Portal (OMDP), https://data.kma.go.kr/
(accessed Jun. 2022)

Kriegeskorte N., Golan T., 2019, Neural network models and deep learning, Current
Biology, Vol. 29, No. 7, pp. R231-R236

Kwak J., 2021, A study on the 3-month prior prediction of Chl-a concentraion in the
Daechong lake using hydrometeorological forecasting data, [Korean Literature], Journal
of Wetlands Research, Vol. 23, No. 2, pp. 144-153

K-water, 2022, My Water, https:/www.water.or.kr/ (accessed Jun. 2022)

Lee K. T., Kim M. S., Kim H. J., Kim J. H., 2021, A model to predict occupational
safety and health management expenses in construction applying multi-variate regression
analysis and deep neural network, [Korean Literature], Journal of the Architectural
Institute of Korea, Vol. 37, No. 9, pp. 217-226

Lee S. M., Kim I. K., 2021, A study on applying random forest and gradient boosting
algorithm for Chl-a prediction of Daecheong lake, [Korean Literature], Journal of
Korean Society of Water and Wastewater, Vol. 35, No. 6, pp. 507-516

Lee S. M., Park K. D., Kim I. K., 2020, Comparison of machine learning algorithms
for Chl-a prediction in the middle of Nakdong river (focusing on water quality and
quantity factors), [Korean Literature], Journal of Korean Society of Water and Wastewater,
Vol. 34, No. 4, pp. 277-288

Lee Y., Sun J., 2020, Predicting highway concrete pavement damage using XGBoost, [Korean
Literature], Korean Journal of Construction Engineering and Management, Vol. 21, No.
6, pp. 46-55

Lee Y. G., Oh J. Y., Kim G., 2020, Interpretation of load forecasting using explainable
artificial intelligence techniques, [Korean Literature], The Transactions of the Korean
Institute of Electrical Engineers, Vol. 69, No. 3, pp. 480-485

Lee Y. J., Jeong B. K., Shin Y. S., Kim S. H., Shin K. H., 2013, Determination of
the origin of particulate organic matter at the estuary of Youngsan river using stable
isotope ratios (δ13C, δ15N), [Korean Literature], Korean Journal of Ecology and Environment,
Vol. 46, No. 2, pp. 175-184

Lepot M., Aubin J. B., Clemens F. H., 2017, Interpolation in time series: An introductive
overview of existing methods, their performance criteria and uncertainty assessment,
Water, Vol. 9, No. 10, pp. 796

Lim J. S., Kim Y. W., Lee J. H., Park T. J., Byun I. G., 2015, Evaluation of correlation
between chlorophyll-a and multiple parameters by multiple linear regression analysis,
[Korean Literature], Journal of Korean Society of Environmental Engineers, Vol. 37,
No. 5, pp. 253-261

Liu X., Feng J., Wang Y., 2019, Chlorophyll a predictability and relative importance
of factors governing lake phytoplankton at different timescales, Science of the Total
Environment, Vol. 648, pp. 472-480

Ma J., Qin B., Paerl H. W., Brookes J. D., Hall N. S., Shi K., Long S., 2016, The
persistence of cyanobacterial (M icrocystis spp.) blooms throughout winter in lake
Taihu, China, Limnology and Oceanography, Vol. 61, No. 2, pp. 711-722

Ministry of Environment (ME), 2022, Water Environment Information System (WEIS), https://water.nier.go.kr/
(accessed Jun. 2022)

Müller A. C., Guido S., 2016, Introduction to machine learning with Python: A guide
for data scientists, O’Reilly Media, Inc, pp. 386
Noh S., Park H., Choi H., Lee J., 2014, Effect of climate change for cyanobacteria
growth pattern in Chudong station of Lake Daechung, [Korean Literature], Journal of
Korean Society on Water Environment, Vol. 30, No. 4, pp. 377-385

Oh J. Y., Ham D. H., Lee Y. G., Kim G., 2019, Short-term load forecasting using XGBoost
and the analysis of hyperparameters, [Korean Literature], The Transactions of the
Korean Institute of Electrical Engineers, Vol. 68, pp. 1073-1078

Park H. K., Byeon M. S., Choi M. J., Kim Y. J., 2008, The effect factors on the growth
of phytoplankton and the sources of organic matters in downstream of South-Han river,
[Korean Literature], Journal of Korean Society on Water Environment, Vol. 24, No.
5, pp. 556-562

Park J., 2022, Development of ensemble machine learning model considering the characteristics
of input variables and the interpretation of model performance using explainable artificial
intelligence, [Korean Literature], Journal of Korean Society of Water and Wastewater,
Vol. 36, No. 4, pp. 239-248

Park Y., Cho K. H., Park J., Cha S. M., Kim J. H., 2015, Development of early-warning
protocol for predicting chlorophyll-a concentration using machine learning models
in freshwater and estuarine reservoirs, Korea, [Korean Literature], Science of the
Total Environment, Vol. 502, pp. 31-41

Savitzky A., Golay M. J., 1964, Smoothing and differentiation of data by simplified
least squares procedures, Analytical chemistry, Vol. 36, No. 8, pp. 1627-1639

Schuwirth N., Borgwardt F., Domisch S., Friedrichs M., Kattwinkel M., Kneis D., Vermeiren
P., 2019, How to make ecological models useful for environmental management, Ecological
Modelling, Vol. 411, pp. 108784

Seo K., Na J. E., Ryu H. S., Kim K., 2018, Characteristics of nitro-nutrients and
phytoplankton dynamics in the Yeongsan river after weir construction, [Korean Literature],
Journal of Korean Society on Water Environment, Vol. 34, No. 4, pp. 423-430

Shin J. K., Kang B. G., Hwang S. J., 2016, Limnological study on spring-bloom of a
green algae, eudorina elegans and weirwater pulsed-flows in the midstream (Seungchon
weir pool) of the Yeongsan river, Korea, [Korean Literature], Korean Journal of Ecology
and Environment, Vol. 49, No. 4, pp. 320-333

Shin Y., Lee H., Lee Y. J., Seo D. K., Jeong B., Hong S., Heo T. Y., 2019, The prediction
of diatom abundance by comparison of various machine learning methods, Mathematical
Problems in Engineering, Vol. 2019, pp. 1-13

Shin Y., Yu H., Lee H., Lee D., Park G., 2015, The change in patterns and conditions
of algal blooms resulting from construction of weirs in the Youngsan river: Long-term
data analysis, [Korean Literature], Korean Journal of Ecology and Environment, Vol.
48, No. 4, pp. 238-252

Sim D., Lee J. Y., Jang J., Lee M., 2022, Prediction of chloride concentration in
groundwater on Jeju Island using XGBoost regression machine learning, [Korean Literature],
Journal of the Geological Society of Korea, Vol. 55, No. 2, pp. 243-256

Singha S., Pasupuleti S., Singha S. S., Singh R., Kumar S., 2021, Prediction of groundwater
quality using efficient machine learning technique, Chemosphere, Vol. 276, pp. 130265

Song J. J., Kim B. B., Hong S. G., 2015, Study on water quality change of Yeongsan
river's upstream, [Korean Literature], Journal of Korean Society of Environmental
Technology, Vol. 16, No. 2, pp. 154-159

Tekile A., Kim I., Kim J., 2015, Mini-review on river eutrophication and bottom improvement
techniques, with special emphasis on the Nakdong river, Journal of Environmental Sciences,
Vol. 30, pp. 113-121

Tyralis H., Papacharalampous G., Langousis A., 2019, A brief review of random forests
for water scientists and practitioners and their recent history in water resources,
Water, Vol. 11, No. 5, pp. 910

Wetzel R. G., Likens G. E., 2013, Limnological Analyses, third ed, Springer Science
& Business Media