한지우
(Jiwoo Han)
aiD
조용철
(Yong-Chul Cho)
biD
이소영
(Soyoung Lee)
c†iD
김상훈
(Sanghun Kim)
diD
강태구
(Taegu Kang)
eiD
-
국립환경과학원 한강물환경연구소
(Han-River Environment Research Center, National Institute of Environment Research)
© Korean Society on Water Environment. All rights reserved.
Key words
Feature Importance, GRU, LSTM, Random Forest, Recurrent Neural Network, Water Quality
1. Introduction
기후변화로 인해 전 지구적으로 기온이 상승함에 따라 국내에서도 이러한 영향으로 폭염, 태풍 및 집중호우 등의 현상이 자주 발생하고 있다. 특히 2018년에
서울의 최고 기온이 39.6℃에 달하며 기상관측 이래 역대 최고 기온으로 기록되었으며, 그에 따라 팔당호의 수온도 30℃에 육박하였다(Yu et al., 2018). 이처럼 기온 및 수온이 상승할 경우에 용존산소 및 수중 유기물 농도 등의 수질이 변하게 되고, 그에 따라 물순환 측면에서 새로운 패턴을 야기할
가능성이 존재하여 이러한 변화에 대해 대응할 수 있는 물관리 방안을 마련해야 할 필요가 있다(Kim et al., 2022; Yi et al., 2016). 팔당호는 수도권으로 물을 공급하는 단일 상수원으로 기후변화에 의한 영향으로부터 보전되어야 할 필요가 있으며, 시민에게 안전한 물을 공급하기 위해서는
이를 관리할 수 있는 다각적인 연구가 필요한 실정이다. 이를 위해 최근 호소 및 하천 등에 적용되는 물리 기반 모델을 활용하여 팔당호의 수질 관리를
진행해왔으나, 이러한 물리적 모델의 경우 파라미터의 불확실성과 입력 데이터의 구축에 어려움이 존재하여 이를 보완할 방법이 요구되는 실정이다.
최근 몇 년간 머신러닝(Machine learning) 등 자료기반 모델의 발달로 인해 이를 환경 분야에 적용하는 연구가 활발히 이루어지고 있다.
자료기반 모델은 물리 기반 모델에 비해 복잡한 상황에 대한 재현이 가능하며, 에러를 최소화할 수 있다는 장점이 있다(Ahu et al., 2019; Choi et al., 2021; Park, 2021; Park and Lee, 2020). 또한, 실시간 측정 센서 기술의 발달로 고빈도의 수질 자료를 취득할 수 있게 되면서 이러한 자료를 데이터베이스화하였으며, 자료기반 모델의 입력
데이터로 활용할 수 있게 됨에 따라 모델의 예측력이 향상될 수 있는 기반이 마련되었다. 수질 예측을 위해 머신러닝 알고리즘을 활용한 사례로는 랜덤
포레스트(Random Forest, RF)를 활용하여 지표수에서의 총질소, 용존산소, pH, 염도 등의 수질을 예측하거나(Lu and Ma, 2020; Xu et al., 2021), 서포트 벡터 머신(Support Vector Machine, SVM)을 활용하여 BOD, 클로로필-a를 예측하는 등의 연구사례가 존재한다(Park et al., 2015; Singh et al., 2011).
또한, 최근에는 시계열 데이터의 분석과 예측에 탁월한 성능을 보이는 순환신경망(Recurrent Neural Network, RNN) 계열의 딥러닝
알고리즘인 LSTM과 GRU를 환경 분야에 활발히 적용하고 있다. 물 환경 분야에서는 각 알고리즘을 활용하여 DO, 수온, pH 등의 수질 항목을
예측하는 연구가 활발히 진행되고 있다(Hu et al., 2019; Lee et al., 2022; Liu et al., 2019).
국내에서도 강이나 호소에서 머신러닝, 딥러닝 알고리즘을 활용하여 강우 유출 및 수질을 예측한 사례가 존재한다. 낙동강에서는 하굿둑의 염분을 예측하기
위해 LSTM 알고리즘을 활용하였으며, 합천댐에서는 인공신경망(Artificial Neural Network, ANN)을 활용하여 미래의 기온과 수질을
예측하고 물리기반 모델을 활용하여 향후 수질을 예측한 바 있다(Jo et al., 2022; Woo et al., 2022). 그러나 2,500만 수도권 시민의상수원수인 팔당호에서의 수질을 예측한 사례는 부족한 상황이며, 특히 딥러닝 알고리즘을 활용하여 단기 수질을 예측한
연구는 더욱 미흡한 실정이다.
따라서, 본 연구에서는 시계열 데이터에서 우수한 성능을 보이는 순환신경망 계열의 딥러닝 알고리즘인 LSTM과 GRU를 활용하여 팔당댐 앞 지점인 팔당댐2(PD2)에서의
수질 및 기상 데이터를 활용하여 약 2주간의 DO, 클로로필-a, 탁도를 예측하고자 하였다. 예측 결과를 바탕으로 수질 항목별로 가장 예측력이 좋은
최적의 모델을 선정하고자 한다. 선정된 모델을 활용한다면 사전에 수질 변동성을 파악하고 단기간의 수질을 예측하여 사전예방적 수질관리에 유용하게 활용될
수 있을 것으로 판단된다.
2. Materials and Methods
2.1 연구 대상 지역 및 데이터 수집
팔당호는 1974년에 팔당댐이 준공됨에 따라 형성된 호소형 하천이다. 팔당댐 상류 유역의 면적은 20,432 km2이며, 만수위 시 저수면적은 36.5 km2, 평균 수심은 약 6 m이다. 팔당호는 북한강, 남한강 및 경안천이 합류되는 지점에 위치하였으며 유입유량 비율은 북한강이 42%, 남한강이 55%,
경안천 등 기타 지천은 3%이다(NIER, 2017). 팔당호는 소양호 및 대청호 등과 같은 대형 저수지와는 다르게 연평균 체류 시간이 약 2.6~9.0일 정도로 매우 짧은 편에 속하며, 수문 및
기상학적 조건에 따라 하절기에 성층이 발생하여 북한강, 남한강 및 경안천이 상호 영향을 주고 있다(Kong, 2019). 이처럼 팔당호는 수체 혼합으로 인해 시공간적 변화가 크므로 수체의 특성과 변화 양상을 파악하는 것이 매우 중요하다. 팔당호에서의 실시간 수질
데이터를 수집하고 국가수질측정망 자료와의 연계성을 고려하여 PD2 지점에 실시간 다항목 수질 센서를 설치하였다(Fig. 1).
Fig. 1. (a) Monitoring Sites in the Paldang Reservoir (PD2) and (b) the sensor at PD2.
실시간 다항목 수질 센서는 2021년 7월 6일 0시부터 2022년 5월 24일 12시까지 5분 간격으로 표층의 수온, 전기전도도(Electrical
Conductivity, EC), DO, pH, 탁도, 클로로필-a, 형광용존유기물질(Fluorescent Dissolved Organic Matter,
fDOM)의 7가지 수질 항목을 수집하였다. 센서의 설치 위치가 댐의 바로 앞 지점이므로 호우로 인한 댐 방류, 센서 점검, 결빙 등에 의한 일시적
철수로 결측치가 발생하여 본 연구에서는 결측이 최소한으로 발생한 기간을 선정하여 두 개의 데이터 집단을 형성하였다(Period 1, Period 2).
Period 1은 2021년 하절기인 2021년 7월 6일 0시부터 2021년 9월 22일 23시까지로 설정했으며 학습 기간은 2021년 7월 6일
0시부터 2021년 9월 6일 23시(n = 1,513)까지, 검증 기간은 2021년 9월 7일 0시부터 2021년 9월 22일 23시(n = 383)까지로
설정하였다. Period 2는 2022년 봄인 2022년 3월 12일 0시부터 2022년 5월 24일 12시까지로 설정하였으며 학습 기간은 2022년
3월 12일 0시부터 2022년 5월 12일 23시(n = 1,488)까지, 검증 기간은 2022년 5월 13일 0시부터 2022년 5월 24일 12시(n
= 277)까지로 설정하였다. 또한, 기상청에서 제공하는 기상자료를 활용하기 위해 기상자료의 최소 시간 단위인 1시간 단위로 모든 수질 데이터를 변환하고자
매 정각에 해당하는 수질 데이터만 추출하였다(Table 1).
Table 1. Training and test set for each period
|
Period 1 |
Period 2 |
Observation Period |
2021. 07. 06. 00:00 ~ 2021. 09. 22. 23:00 (n = 1,896)
|
2022. 03. 12. 00:00 ~ 2022. 05. 24. 12:00 (n = 1,765)
|
Training Period |
2021. 07. 06. 00:00 ~ 2021. 09. 06 23:00 (n = 1,513)
|
2022. 03. 12. 00:00 ~ 2022. 05. 12. 23:00 (n = 1,488)
|
Test Period |
2021. 09. 07. 00:00 ~ 2021. 09. 22. 23:00 (n = 383)
|
2022. 05. 13. 00:00 ~ 2022. 05. 24. 12:00 (n = 277)
|
2.2 LSTM과 GRU 모델 개요
RNN은 과거에 입력된 데이터와 나중에 입력된 데이터 간의 관계를 고려해야 하는 문제를 해결하기 위해 고안된 알고리즘이다. 순환신경망은 수많은 데이터가
순서대로 입력되었을 때 먼저 입력된 데이터를 기억할 수 있고, 기억된 데이터가 얼마나 중요한지를 판단하여 별도의 가중치를 부여하여 다음 데이터로 넘어간다.
RNN의 경우 이론적으로 시간 에서 이전에 입력된 모든 데이터를 기억할 수 있으나, 은닉층(hidden layer)의 개수가 증가하면서 오차 보정을 위한 역전파(backpropagation)
시에 그래디언트 소실 문제(Vanishing Gradient Problem)로 인하여 긴 시간에 걸친 의존성은 학습할 수 없다는 단점이 존재한다.
RNN의 이러한 단점을 보완하고자 Hochreiter and Schmidhuber (1997)에 의해 LSTM이 개발되었다. LSTM은 크게 두 개의 state와 3개의 gate로 구성이 되어있다. State에는 cell state와 hidden
state가 있으며, cell state는 오랫동안 기억되고 전달해야 할 정보를 저장하는 기능을 하며, hidden state는 현 시점()에서 단기적으로 이용되는 정보를 저장하는 기능을 한다. 또한 gate는 연산을 위한 정보의 입⋅출력을 위해 존재하며 forget gate, input
gate, output gate로 구성되어 있다. 각 게이트의 역할은 다음과 같다(Table 2).
Table 2. Features of each gate in LSTM
Gates |
Feature |
Forget gate |
● Determines how much information from the past is forgotten. ● The current information and the past hidden layer values are multiplied by weights
and then added. After that, the sigmoid function is applied and the output value is
multiplied by the cell of the previous point in time. ● Since the value of the sigmoid function has a value between 0 and 1, if it is close
to 1, a lot of past information is used, and if it is close to 0, a lot of past information
is lost.
|
Input gate |
● It is recorded in the cell reflecting how important the information you actually
have at the present time. ● The sigmoid function is used to determine the information to be newly updated, and
the hypertangent function is used to generate candidate data used in the update. And
the data of the current cell is updated through the operation on the data of the past
cell and the data of the candidate cell.
|
Output gate |
● Determines the part to be output in the cell state using the sigmoid function. ● Then, it is multiplied with the cell data converted to a value between –1 and 1
through the hypertangent function to determine a new output data.
|
GRU는 LSTM의 복잡한 구조를 개선하기 위해 제안된 모델으로 LSTM과 다르게 reset gate와 update gate 2개의 gate를 가지고
있으며, cell state가 없고 hidden state로만 구성되어 있어 상대적으로 단순한 구조를 가지므로 계산속도가 빠르다(Cho et al., 2014). 각 gate의 역할은 다음과 같다(Table 3).
Table 3. Features of each gate in GRU
Gates |
Feature |
Reset gate |
● The step of removing information that is not used for the current step operation
among the hidden state information of the previous step. ● After applying weights(, ) to the output value() of the previous stage hidden state and the input data() of the current stage, respectively, the sigmoid function is used to output the results
in the range of 0 to 1. ● ( : a logistic sigmoid function, : denotes the j-th element of a vector)
|
Update gate |
● After applying weights(, ) to the output value() of the previous stage hidden state and the input data() of the current stage, respectively, the sigmoid function is used to output the results
in the range of 0 to 1. ● It determines the ratio of using the information of the past hidden state and the
input data of the current stage for the calculation of the current stage. ● |
2.3 RF 알고리즘을 활용한 변수 중요도 분석
RF 알고리즘은 Brieman (2001)에 의해 개발된 알고리즘으로 의사결정나무(Decision Tree, DT)의 과대적합 문제를 해결하기 위해 만들어졌다. RF는 서로 다른 방향으로
과대적합 되어있는 성능이 좋은 여러 개의 의사결정나무를 만들고, 이들의 평균을 통해 예측력을 유지하면서 과대적합을 줄인다. RF 알고리즘을 활용하면
특정 종속변수에 대한 상관성이 높은 독립변수를 추출할 수 있다는 장점이 있으며, 이를 변수 중요도(Feature importance)라고 한다. 변수
중요도를 결정하기 위해서는 평균 불순도 감소(Mean Decrease of Impurity, MDI)를 분석하는 방법이 있다. MDI는 RF 내 의사결정나무에서
독립변수가 마디를 분리하며 발생하는 불순도의 감소량을 누적시켜 평균시킨 값을 의미한다. 따라서 개별 트리에서의 불순도 감소분이 큰 변수를 중요 변수라고
할 수 있다. 특정 데이터 ()()이 있다고 가정한다. 이때, 는 의 형태를 갖는 차원의 독립변수 벡터이며, 는 종속변수로 실수 또는 범주를 나타내는 숫자이다. 학습된 RF 모델이 주어졌을 때, 개별 트리의 개수를 , 개별 트리의 특정 노드 에서의 불순도를 이라 하고 다음 식(1)을 모든 변수에 반복하여 계산한다.
여기서 는 인 각각의 변수를 의미하며, 은 개별 트리, 은 노드 에서의 샘플 수, 은 개별 트리 에서 분리할 때 번째 변수를 선택한 노드들의 집합, , 은 각각 노드 의 왼쪽 노드와 오른쪽 노드를 의미한다. 그 다음으로 번째 변수에 대한 중요도 는 다음 식(2)와 같이 계산한다.
2.4 LSTM 및 GRU 모델 구축
본 연구에서는 TensorFlow(version 2.8.2) 환경에서 Keras 기반의 LSTM 및 GRU 알고리즘을 이용하여 모델을 구축하였다.
모델 구축 시 LSTM과 GRU 모두 3층 구조의 stack형으로 구성하였으며, time lag는 1시간으로 설정하였다. 하이퍼파라미터 튜닝의 경우
각 층의 뉴런(neuron) 개수, dropout rate, learning rate를 특정 범위의 값으로 조정하여 최적의 조합을 찾도록 하였으며,
최적화 방법은 Li et al. (2018)이 제시한 Hyperband 알고리즘을 활용하였다.
예측하고자 하는 수질 항목은 Period 1과 2 기간의 DO, 클로로필-a, 탁도이다. 입력 변수는 기상청에서 제공하는 기상자료 중 기온, 습도,
강수량, 일사량 및 센서에서 측정되는 수온, 전기전도도, DO, pH, 탁도, 클로로필-a, fDOM, 유속 등 총 12개 항목에서 예측하고자 하는
수질 항목을 제외한 나머지 11개의 변수를 선택하였다. 그 후, 각 Period에서 testing 기간에 대해 수질 예측을 수행하였다(Table 4).
Table 4. Input variables used in the models
Target variable |
Input variables |
DO |
Water temperature, Electrical Conductivity, pH, Turbidity, Chlorophyll-a, Fluorescent
Dissolved Organic matters, Water Velocity, Air temperature, Humidity, Precipitation,
Sunlight
|
Chl-a |
Water temperature, Electrical Conductivity, Dissolved Oxygen, pH, Turbidity, Fluorescent
Dissolved Organic matters, Water Velocity, Air temperature, Humidity, Precipitation,
Sunlight
|
Turbidity |
Water temperature, Electrical Conductivity, Dissolved Oxygen, pH, Chlorophyll-a, Fluorescent
Dissolved Organic matters, Water Velocity, Air temperature, Humidity, Precipitation,
Sunlight
|
또한, 위와 같이 11가지의 모든 항목을 입력 변수로 선정했을 경우 해당 수질 항목에 미미한 영향을 끼치는 변수로 인해 모델의 예측력이 낮아질 수
있음을 고려하여 중요 변수 5가지를 추출하여, 이들을 입력변수로 한 모델의 예측력을 평가하여 비교하고자 하였다. 5가지의 중요 변수를 추출하기 위해
머신러닝 알고리즘의 하나인 RF 알고리즘을 활용하여 중요변수 5개를 추출한 후, 이를 입력변수로 활용한 모델의 예측력을 검토하고 상기 제시한 방법과
비교하였다.
2.5 모델 성능 비교
각 기간별 수질 항목에 대한 모델의 성능을 비교하기 위해 R2-score, 평균 제곱근 오차(Root Mean Square Error, RMSE),
평균 절대 백분비 오차(Mean Absolute Percentage Error, MAPE)를 활용한다(식 (3), (4), (5)). RMSE는 머신러닝 및 딥러닝 알고리즘의 성능을 평가하기 위해 널리 사용되며 값이 작을수록 예측값과 실제값의 차이가 작아 예측을 잘했음을 나타낸다.
MAPE는 예측력을 백분율로 나타내므로 모델 간 성능의 비교를 직관적으로 알 수 있다는 장점이 있으며, RMSE와 마찬가지로 값이 작을수록 예측력이
좋음을 나타낸다.
: Observed value, : Mean of observed value, : Predicted value
3. Results and Discussion
3.1 수질 항목 분포 특성
Period 1, 2 기간 내 센서로 측정한 DO, 클로로필-a, 탁도의 분포를 Table 5에 제시하였다. DO의 경우 여름철인 Period 1에서 평균이 9.80 mg/L, 사분위수 범위(InterQuartile Range, IQR)가
3.31 mg/L로 나타났으며, 봄철인 Period 2에서는 평균이 11.52 mg/L, IQR이 1.86 mg/L인 것으로 나타났다. DO는 Period
2에서 평균 농도가 더 높은 것으로 나타났으며, 이는 팔당호에서 DO 농도가 수온의 변화와 반비례 관계를 갖는다는 결과를 나타낸 선행연구의 결과와
일치하였다(NIER, 2017). 클로로필-a의 경우 Period 1에서 평균이 7.50 ㎍/L, IQR 6.62 ㎍/L, Period 2에서 평균이 9.00 ㎍/L, IQR
8.63 ㎍/L로 나타났다. 클로로필-a의 농도도 마찬가지로 봄철인 Period 2에서 더 높은 것으로 나타났다. 이는 2004년부터 2020년까지
PD2 지점의 클로로필-a 농도를 분석했을 때 봄철에 가장 높게 나타났다는 선행연구의 결과와 일치하는 것으로 나타났다(NIER, 2021). 탁도는 Period 1에서 평균이 6.13 NTU, IQR 2.94 NTU이며, Period 2에서 평균이 2.25 NTU, IQR이 1.87
NTU로 나타났다. Period 1에서 탁도가 더 높게 나타났으며 이는 강우가 자주 발생하는 여름철에 강우로 인해 전 수층이 혼합되고, 육지로부터
협잡물이 흘러들어오기 때문으로 판단된다(NIER, 2021).
Table 5. Distribution characteristics of water quality parameters by period
|
Period 1 |
Period 2 |
DO (mg/L) |
Chl-a (㎍/L) |
Turbidity (NTU) |
DO (mg/L) |
Chl-a (㎍/L) |
Turbidity (NTU) |
Mean |
9.80
|
7.50
|
6.13
|
11.52
|
9.00
|
2.25
|
SD |
2.47
|
5.09
|
6.33
|
1.34
|
6.45
|
1.09
|
Lower quartile |
7.91
|
3.68
|
3.11
|
10.56
|
3.63
|
1.25
|
Upper quartile |
11.22
|
10.31
|
6.04
|
12.42
|
12.26
|
3.12
|
IQR |
3.31
|
6.62
|
2.94
|
1.86
|
8.63
|
1.87
|
3.2 변수 중요도 분석 전 모델 성능 평가
Period 1에서 3가지 수질 항목을 제외한 11개의 모든 변수를 입력변수로 설정하고 모델을 구축한 후의 예측 결과는 다음과 같다(Fig. 2). DO, 클로로필-a, 탁도 모두에서 LSTM이 더 좋은 성능을 나타냈으며, 각 항목의 R2는 0.94, 0.87, 0.80, MAPE는 0.026, 0.202, 0.106, RMSE는 0.448, 1.800, 0.460으로 우수한 성능을
나타내었다(Table 6).
Table 6. Predicted performance results of the models for test data before feature importance (Period 1)
|
LSTM |
GRU |
DO |
Chl-a |
Turbidity |
DO |
Chl-a |
Turbidity |
R2 |
0.94
|
0.87
|
0.80
|
0.86
|
0.73
|
0.72
|
MAPE |
0.026
|
0.202
|
0.106
|
0.045
|
0.255
|
0.122
|
RMSE |
0.448
|
1.800
|
0.46
|
0.661
|
2.599
|
0.541
|
Fig. 2. Predicted performance results of the models for test data before feature importance (Period 1).
Period 2에서 3가지 수질 항목을 제외한 11개의 모든 변수를 입력변수로 설정하고 모델을 구축한 후의 예측 결과는 다음과 같다(Fig. 3). DO는 LSTM의 성능이 더 좋았으나, 클로로필-a, 탁도는 GRU가 더 좋은 성능을 나타냈다. 각 항목 중 더 우수한 성능을 가진 모델의 R2는 0.98, 0.54, 0.43, MAPE는 0.012, 0.181, 0.159, RMSE는 0.14, 0.723, 0.202로 나타났다(Table
7). DO의 경우 상당히 좋은 예측력을 나타냈으나, 클로로필-a와 탁도의 경우 Period 1에 비해 상대적으로 낮은 예측력을 나타내었다.
Table 7. Predicted performance results of models for test data before feature importance(Period 2).
|
LSTM |
GRU |
DO |
Chl-a |
Turbidity |
DO |
Chl-a |
Turbidity |
R2 |
0.98
|
0.36
|
0.43
|
0.91
|
0.54
|
0.43
|
MAPE |
0.012
|
0.220
|
0.174
|
0.019
|
0.181
|
0.159
|
RMSE |
0.140
|
0.846
|
0.202
|
0.260
|
0.723
|
0.202
|
Fig. 3. Predicted performance results of the models for test data before feature importance (Period 2).
Period 2에서 클로로필-a와 탁도에 대한 예측력이 낮은 이유는 크게 두 가지로 생각할 수 있다. 첫 번째로, training period의 데이터가
시계열 데이터의 계절성(Seasonality)을 나타낼 정도로 충분히 긴 기간이 아니기 때문으로 판단된다. 계절성이란 1년 동안 월, 분기로 반복되는
패턴을 의미하며, 호소인 팔당호의 특성상 수질이 계절에 따라 패턴이 달라지는 특성이 있다. 클로로필-a와 탁도를 예측한 기타 연구사례에서는 모델의
학습에 6년 이상의 기상, 수질 데이터를 사용하는 것으로 파악되었다(Kwak, 2021; Park and Lee, 2020; Shim et al., 2022; Wu and Wang, 2022). 그러나 본 연구에서 사용한 training period는 2.5달에 불과하여 모델이 데이터의 특성을 완전히 파악하기에는 한계가 있는 것으로 판단된다.
두 번째로, 상관성이 낮은 변수가 예측력에 영향을 끼친 것으로 판단된다. 예측력을 향상시키기 위해서는 시계열 데이터의 변동 패턴을 파악할 수 있도록
장기간의 데이터를 활용하여 모델을 훈련시키는 것이 가장 좋은 방법일 수 있으나, 결측 등의 한계점이 존재할 경우 종속변수에 미미한 영향을 끼치는 변수를
제거하여 필요한 변수만 독립변수로 선정하는 것이 최선의 방법이 될 수 있을 것으로 판단된다.
3.3 변수 중요도 분석 결과
모델의 성능을 높이기 위해 랜덤 포레스트의 변수 중요도 분석 기법을 활용하여 각 예측 수질 항목과 상관성이 높은 변수 5가지를 추출하여 이를 모델의
입력변수로 활용하고자 하였다. 각 항목별로 중요 변수를 추출한 결과는 Fig. 4, Table 8에 제시하였으며, 선행연구를 바탕으로 추출된 중요 변수와 해당 수질 항목 간에 물리화학적 상관성의 존재 여부 및 모델 개발 시 입력변수로의 사용 여부를
검토하고자 하였다.
Table 8. The rank of important variables of each water quality parameters
Rank |
DO |
Chl-a |
Turbidity |
Variables |
Importance |
Variables |
Importance |
Variables |
Importance |
1 |
pH
|
0.8105
|
pH
|
0.4226
|
fDOM
|
0.6821
|
2 |
Water temperature
|
0.1401
|
fDOM
|
0.2319
|
EC
|
0.1198
|
3 |
Chl-a
|
0.0257
|
Water temperature
|
0.1320
|
Chl-a
|
0.0873
|
4 |
fDOM
|
0.0085
|
DO
|
0.1163
|
Water temperature
|
0.0342
|
5 |
EC
|
0.0076
|
Turbidity
|
0.0514
|
Water velocity
|
0.0194
|
6 |
Turbidity
|
0.0050
|
EC
|
0.0273
|
DO
|
0.0183
|
7 |
Air temperature
|
0.0011
|
Humidity
|
0.0067
|
pH
|
0.0177
|
8 |
Humidity
|
0.0009
|
Air temperature
|
0.0064
|
Air temperature
|
0.0174
|
9 |
Water velocity
|
0.0002
|
Sunlight
|
0.0031
|
Sunlight
|
0.0027
|
10 |
Sunlight
|
0.0002
|
Water velocity
|
0.0020
|
Humidity
|
0.0012
|
11 |
Precipitation
|
0.00001
|
Precipitation
|
0.0002
|
Precipitation
|
0.00001
|
Fig. 4. Rank of important variables for each water quality parameter.
DO는 pH, 수온, 클로로필-a, 전기전도도, fDOM과 상관성이 높았다. DO는 이론적으로 산소 용해도 측면에서 수온과 반비례 관계를 갖는 것으로
알려져 있다. 클로로필-a의 농도가 증가했다는 의미는 조류가 번식하고 있음을 의미하며, 조류의 광합성으로 인해 많은 양의 산소가 발생하면서 DO는
상승한다(Ruan et al., 2008; Zhang et al., 2009). pH의 감소는 수소이온의 농도가 증가했음을 의미하며, 수소이온이 산소 및 물과 반응하게 되어 DO의 감소에 영향을 준다(Moheimani et al., 2006). fDOM은 용존유기물질(Dissolved Organic matter, DOM) 중 형광을 발생시키는 물질로 DOM의 일종이다. 하천에 DOM이
유입되거나 농도가 증가하면 용존유기탄소(Dissolved Organic Carbon, DOC)의 농도가 증가하게 되며, 이에 따라 산소 소비가 증가하여
DO가 감소하게 된다(Rixen et al., 2010). DO를 예측하기 위한 모델을 개발하고자 했던 선행연구에서는 전기전도도를 입력변수로써 포함한 모델이 더 높은 예측력을 나타냈으며, 중요 변수를
추출하기 위한 머신러닝 모델의 분류 기능을 활용했던 사례에서도 전기전도도는 항상 중요 변수로 선택되었다(Lee et al., 2022; Zhu and Heddam, 2020).
클로로필-a는 pH, fDOM, 수온, DO, 탁도 순으로 상관성이 높게 나타났다. 수온은 효소의 작용에 영향을 끼쳐 조류의 광합성과 수중 호흡의
속도를 간접적으로 조절하며, 수중의 탄산염 및 중탄산염의 양이 조절됨에 따라 pH를 변동시킨다. pH와 클로로필의 관계는 여러 선행연구에서 회귀식으로
관계를 입증하였다(Li et al., 2009; Lopes-Archilla et al., 2004; Zang et al., 2010). 또한, 조류의 성장으로 인해 생성된 클로로필-a는 부산물로써 DOM을 생성하며, 이러한 DOM으로부터 광생성물 등도 생성되는 것으로 밝혀졌다(Herzsprung et al., 2020). 최근까지 많은 선행연구에서 클로로필-a를 예측하기 위한 모델을 개발하고자 하였으며, 개발된 모델에서는 모두 DO를 입력변수의 하나로 사용하였다(Ahn et al., 2011; Garcia-Nieto et al., 2020; Kuo et al., 2007; Luo et al., 2019).
탁도의 경우 fDOM, 전기전도도, 클로로필-a, 수온, 유속 순으로 상관성이 높은 것으로 나타났다. fDOM과 탁도의 변동성은 약간의 시간 지연이
존재하지만 두 변수 간의 상관관계가 있는 것으로 밝혀졌다(Saraceno et al., 2009; Wang et al., 2021). 지표수에서 전기전도도와 탁도는 상관계수가 0.75 정도로 양의 상관관계가 있는 것으로 나타났으며, 수온이 증가하면 물의 밀도가 낮아짐에 따라
탁질물질의 침전을 증가시킬 수 있어 탁도는 감소하는 것으로 나타났다(Bhandari and Nayal, 2008; Min et al., 2011). 또한, 조류 번식으로 인해 클로로필-a 농도가 증가하면 SS 농도가 증가하게 되며 그에 따라 탁도가 증가할 수 있는 것으로 밝혀졌으며(Seo et al., 2019), 강우 및 댐 방류 등으로 유속이 증가하게 되는 경우 육지로부터 협잡물의 유입이나 하저 퇴적물의 탈리 등으로 인해 탁도가 증가할 수 있을 것으로
판단된다.
3.4 변수 중요도 분석 후 모델 성능 평가
Period 1에서 변수 중요도 분석으로 추출된 결과 변수 5가지를 입력변수로 설정하고 모델을 구축한 결과는 다음과 같다(Fig. 5). DO, 클로로필-a, 탁도 모두에서 GRU가 더 좋은 성능을 나타냈으며, 각 항목의 R2는 0.99, 0.96, 0.89, MAPE는 0.015, 0.150, 0.079, RMSE는 0.209, 0.977, 0.338로 매우 우수한 성능을
나타내었으며, 변수 중요도 분석 전과 비교하여 상당히 향상된 예측력을 보여준다(Table 9).
Table 9. Predicted performance results of the models for test data after feature importance (Period 1)
|
LSTM |
GRU |
DO |
Chl-a |
Turbidity |
DO |
Chl-a |
Turbidity |
R2 |
0.98
|
0.92
|
0.76
|
0.99
|
0.96
|
0.89
|
MAPE |
0.020
|
0.132
|
0.107
|
0.015
|
0.105
|
0.079
|
RMSE |
0.230
|
1.389
|
0.506
|
0.209
|
0.977
|
0.338
|
Fig. 5. Predicted performance results of the models for test data after feature importance (Period 1).
Period 2에서 변수 중요도 분석으로 추출된 변수 5가지를 입력변수로 설정하고 모델을 구축한 결과는 다음과 같다(Fig. 6). DO는 LSTM의 성능이 더 좋았으며, 클로로필-a, 탁도는 GRU가 더 좋은 성능을 나타냈다. 각 항목 중 더 우수한 성능을 가진 모델의 R2는 0.99, 0.7, 0.86, MAPE는 0.008, 0.134, 0.074, RMSE는 0.103, 0.580, 0.102로 나타났다(Table.
10).
Table 10. Predicted performance results of the models for test data after feature importance (Period 2)
|
LSTM |
GRU |
DO |
Chl-a |
Turbidity |
DO |
Chl-a |
Turbidity |
R2 |
0.99
|
0.66
|
0.81
|
0.95
|
0.70
|
0.86
|
MAPE |
0.008
|
0.143
|
0.090
|
0.015
|
0.134
|
0.074
|
RMSE |
0.103
|
0.621
|
0.118
|
0.198
|
0.580
|
0.102
|
Fig. 6. Predicted performance results of the models for test data after feature importance (Period 2).
변수 중요도 분석 후 Period 1에서 LSTM 모델로 탁도를 예측한 경우의 예측력을 제외하면, 모든 기간, 모든 수질 항목에서 중요 변수만 고려했을
경우의 예측력이 향상되는 것으로 나타났다. DO의 경우 두 가지 예측 기법 모두에서 기간에 상관없이 뛰어난 예측력을 나타냈으며, 클로로필-a와 탁도는
모두 GRU가 기간에 상관없이 가장 뛰어난 예측력을 보여주는 예측 기법으로 나타났다(Fig. 7, Fig. 8).
Fig. 7. Comparison of model predictive power before and after feature importance in Period 1.
Fig. 8. Comparison of model predictive power before and after feature importance in period 2.
중요도 분석 전에 수행했던 모델의 예측력에 비해 클로로필-a와 탁도의 예측력이 상당히 증가하였다. 이는 중요 변수만을 고려함에 따라 종속변수와 무관하거나
관계가 없는 변수들의 간섭이 감소하였기 때문으로 판단된다. 그러나 Period 2의 클로로필-a는 예측력이 기타 수질 항목에 비해 낮게 도출되었다.
클로로필-a는 계절에 따라 변동하는 특성이 존재하므로 training period를 계절별 특성이 모두 훈련될 수 있도록 1년 이상으로 하는 것이
좋을 것으로 판단된다.
또한, Cho et al. (2014)에 따르면 LSTM 모델에 비해 구조를 단순화시킨 GRU 모델의 계산속도가 더 빠르다는 장점이 있다. 실제로 본 연구에서는 Google Colaboratory에서
지원하는 GPU를 활용하여 해당 모델의 하이퍼파라미터 최적화, 훈련, 검증을 수행하였으며, 모든 과정을 진행하였을 때 LSTM의 경우에는 약 1시간
15분의 시간이 소요되었고 GRU의 경우에는 약 55분에서 1시간 사이의 시간이 소요되었다. 이에 따라 팔당호에서의 2주간의 단기 수질을 예측하기
위해서는 계산 소요 시간이 비교적 짧고 예측력이 우수한 GRU 모델을 활용하는 것이 더 합리적인 선택이라고 할 수 있다.
4. Conclusion
본 연구에서는 팔당호에서 과거 2달 반 동안의 실시간 수질 데이터를 활용하여 향후 2주의 수질을 예측하고자 하였다. 데이터의 수집기간은 2021년
여름철(Period 1)과 2022년 봄철(Period 2)의 2가지 기간으로 구성하였다. 수질 예측 알고리즘으로는 순환신경망 계열 딥러닝 알고리즘인
LSTM과 GRU를 활용하였으며, 예측 수질항목은 DO, 클로로필-a, 탁도로 선정하였다. 본 연구에서 도출된 결론은 다음과 같다.
(1) 센서로부터 획득한 수질 데이터와 기상청의 기상 데이터를 입력변수로 하여 DO, 클로로필-a, 탁도에 대한 예측 모델을 구축하였다. 모든 변수를
입력변수로 하였을 때는 DO를 제외하고 다른 항목의 예측력이 현저히 낮았으나, 변수 중요도 분석을 활용하여 중요 변수만 입력변수로 하였을 때는 모든
수질 항목의 예측력이 향상되는 것으로 나타났다. 그러므로 향후 수질 예측 모델을 구축할 때는 변수 중요도 분석을 우선적으로 수행해야 할 필요가 있는
것으로 판단된다.
(2) 변수 중요도 분석 이후 모델을 구축한 결과 Period 2에서 DO에 대한 예측력은 LSTM 모델이 가장 우수하였으나, Period 1에서의
DO, 클로로필-a, 탁도 및 Period 2에서의 클로로필-a, 탁도에 대한 예측력은 모두 GRU 모델이 가장 우수한 것으로 나타났다. 추후 단기
수질 예측 시에는 계산속도가 더 빠르고 예측력이 우수한 GRU 모델을 사용하는 것이 합리적인 선택인 것으로 판단된다.
(3) 본 연구에서는 센서의 잦은 결측 및 동절기(12월~3월 초) 동안의 미측정 등으로 인해 측정 기간 전체의 연속 데이터를 활용할 수 없다는 한계가
존재하였다. 호소에서의 수질은 계절에 따라 변동하는 특성이 있으므로 이러한 계절성을 모델이 학습할 수 있도록 센서로부터 결측을 최소화하여 연속 데이터를
확보할 수 있는 기술 개발 및 방안 마련이 필요하다고 판단된다. 또한, 데이터의 결측을 보간할 수 있는 기법을 활용 및 개발하여 추후 센서 운영 시
발생할 수 있는 결측에도 불구하고 우수한 예측력을 나타낼 수 있도록 연구가 진행되어야 한다.
본 연구를 통해 순환신경망 계열의 딥러닝 알고리즘이 단기간 수질 예측 시 높은 예측력을 나타내는 것으로 확인되었다. 본 연구의 방법론을 활용하면 사전에
수질의 변동성을 파악하고 단기간의 수질을 예측하여 사전예방적 수질관리에 유용하게 활용될 수 있을 것으로 판단된다.
Acknowledgement
본 논문은 환경부의 재원으로 국립환경과학원의 지원을 받아 수행하였습니다(NIER-2022-01-01-042).
References
Ahn C. Y., Oh H. M., Park Y. S., 2011, Evaluation of environmental factors on cyanobacterial
bloom in eutrophic reservoir using artificial neural networks, Journal of Phycology,
Vol. 47, No. 3, pp. 495-504

Ahu R., Yang L., Liu T., Wen X., Zhang L., Chang Y., 2019, Hydrological responses
to the future climate change in a data scarce region, Northwest China: Application
of machine learning models, Water, Vol. 11, No. 8, pp. 1588

Bhandari N. S., Nayal K., 2008, Correlation study on physico-chemical parameters and
quality assessment of Kosi river water, Uttarakhand, E-Journal of Chemistry, Vol.
5, No. 2, pp. 342-346

Brieman L., 2001, Random forests, Machine Learning, Vol. 45, pp. 5-32

Cho K., Van Merrienboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., Bengio
Y., 2014, Learning phrase representations using RNN encoder-decoder for statistical
machine translation, 1406.1078, arXiv preprint arXiv

Choi H., Suh S. I., Kim S. H., Han E. J., Ki S. J., 2021, Assessing the performance
of deep learning algorithms for short-term surface water quality prediction, Sustainability,
Vol. 13, No. 19, pp. 10690

Garcia-Nieto P. J., Garcia-Gonzalo E., Alonso Fernandez J. R., Diaz Muniz C., 2020,
A new predictive model for evaluating Chlorophyll-a concentration in Tanes reservoir
by using a gaussian process regression, Water Resources Management, Vol. 34, pp. 4921-4941

Herzsprung P., Wentzky V., Kamjunke N., Tumpling W., Wilske C., Friese K., Boehrer
B., Reemtsma T., Rinke K. J., Lechtenfeld O., 2020, Improved understanding of dissolved
organic matter processing in freshwater using complementary experimental and machine
learning approaches, Environment Science & Technology, Vol. 54, No. 21, pp. 13556-13565

Hochreiter S., Schmidhuber J., 1997, Long short-term memory, Neural Computation, Vol.
9, No. 8, pp. 1735-1780

Hu Z., Zhang Y., Zhao Y., Xie M., Zhong J., Tu Z., Liu J., 2019, A water quality prediction
method based on the deep LSTM network considering correlation in smart mariculture,
Sensors, Vol. 19, No. 6, pp. 1420

Jo B. G., Jung W. S., Lee J. M., Kim Y. D., 2022, Analysis of water quality impact
of Hapcheon dam reservoir according to changes in watershed runoff using ANN, [Korea
Literature], Journal of Wetlands Research, Vol. 24, No. 1, pp. 25-37

Kim M., Lee J., Sung K., Lim C., Hwang W., Hyun S., 2022, Potential impacts of climate
change on water temperature of the streams in Han-river basin, [Korean Literature],
Journal of Korean Society on Water Environment, Vol. 38, No. 1, pp. 19-30

Kong D., 2019, Evaluating effect of density flow from upstream on vertical distribution
of water quality at the Paldang reservoir, [Korean Literature], Journal of Korea Society
on Water Environment, Vol. 35, No. 6, pp. 557-566

Kuo J. T., Hsieh M. H., Lung W. S., She N., 2007, Using artificial neural network
for reservoir eutrophication prediction, Ecological Modelling, Vol. 200, No. 1-2,
pp. 171-177

Kwak J., 2021, A study on the 3-month prior prediction of Chl-a concentration in the
Daechong lake using hydrometeorological forecasting data, [Korean Literature], Journal
of Wetlands Research, Vol. 23, No. 2, pp. 144-153

Lee J. H., Lee J. Y., Lee M. H., Lee M. Y., Kim Y. W., Hyung J. S., Kim K. B., Cha
Y. K., Koo J. Y., 2022, Development of a short-term water quality prediction model
for urban rivers using real-time water quality data, Water Supply, Vol. 22, No. 4,
pp. 4082-4097

Li L., Jamieson K., DeSalvo G., Rostamizadeh A., Talwalkar A., 2018, Hyperband: A
novel bandit-based approach to hyperparameter optimization, Journal of Machine Learning
Research, Vol. 18, No. 1, pp. 6765-6816

Li M., Xie G. Q., Dai C. R., Yu L. X., Li F. R., Yang S. P., 2009, A study of the
relationship between the water body chlorophyll-a and water quality factors of the
offcoast of Dianchi lake, Yunnan Geographic Environment Research, Vol. 21, No. 2,
pp. 102-106

Liu P., Wang J., Sangaiah A., Xie Y., Yin X., 2019, Analysis and prediction of water
quality using LSTM deep neural networks in IoT environment, Sustainability, Vol. 11,
No. 7, pp. 2058

Lopez-Archilla A., Moreira D., Lopez-Garcia P., Guerrero C., 2004, Phytoplankton diversity
and cyanobacterial dominance in a hypereutrophic shallow lake with biologically produced
alkaline pH, Extremophiles, Vol. 8, No. 2, pp. 109-115

Lu H., Ma X., 2020, Hybrid decision tree-based machine learning models for short-term
water quality prediction, Chemosphere, Vol. 249, pp. 126169

Luo W., Zhu S., Wu S., Dai J., 2019, Comparing artificial intelligence techniques
for chlorophyll-a prediction in US lakes, Environmental Science and Pollution Research,
Vol. 26, No. 29, pp. 30524-30532

Min Y. H., Hyun D. Y., Eum C. H., Chung N., Kang S. W., Lee S., 2011, A study on relationship
of concentration of phosphorus, turbidity and pH with temperature in water and soil,
Analytical Science and Technology, Vol. 24, No. 5, pp. 378-386

Moheimani N. R., Borowitzka M. A., 2006, The long-term culture of the coccolithophore
Pleurochrysis carterae (Haptophyta) in outdoor raceway ponds, Journal of Applied Phycology,
Vol. 18, No. 6, pp. 703-712

National Institute of Environmental Research (NIER), 2017, A comprehensive study on
water quality control of Paldang watershed(Ⅲ): a assessment system to diagnose and
evaluate water pollutant, [Korea Literature], National Institute of Environmental
Research, NIER-RP2017-223

National Institute of Environmental Research (NIER), 2021, Prediction on water quality
variations in Paldang Reservoir by climate change(Ι): Application of Data-based model
through high frequency monitoring, [Korea Literature], National Institute of Environmental
Research, NIER-RP2021-138, pp. 1-50

Park J., 2021, The effect of input variables clustering on the characteristics of
ensemble machine learning model for water quality prediction, [Korea Literature],
Journal of Korean Society on Water Environment, Vol. 37, No. 5, pp. 335-343

Park J., Lee H., 2020, Prediction of high turbidity in rivers using LSTM algorithm,
[Korean Literature], Journal of Korean Society of Water and Wastewater, Vol. 34, No.
1, pp. 35-43

Park S. J., Lee D. K., 2020, Prediction of coastal flooding risk under climate change
impacts in South Korea using machine learning algorithms, Environmental Research Letters,
Vol. 15, No. 9, pp. 094052

Park Y., Cho K. H., Park J., Cha S. M., Kim J. H., 2015, Development of early-warning
protocol for predicting chlorophyll-a concentration using machine learning models
in freshwater and estuarine reservoirs, Science of the Total Environment, Vol. 502,
pp. 31-41

Rixen T., Baum A., Sepryani H., Pohlmann T., Jose C., Samiaji J., 2010, Dissolved
oxygen and its response to eutrophication in a tropical black water river, Journal
of Environmental Management, Vol. 91, No. 8, pp. 1730-1737

Ruan X. H., Shi X. D., Zhao Z. H., Ni L. X., Wu Y., Jiao T., 2008, Correlation between
chlorophyll-a concentration and environmental factors in shallow lakes in plain river
network areas of Suzhou, Journal of Lake Sciences, Vol. 20, No. 5, pp. 556-562

Saraceno J. F., Pellerin B. A., Downing B. D., Boss E., Bachand P. A., Bergamaschi
B. A., 2009, High-frequency in situ optical measurements during a storm event: assessing
relationships between dissolved organic matter, sediment concentrations, and hydrologic
processes, Journal of Geophysical research, Vol. 114, No. G4

Seo H. J., Kang I. S., Son K. R., Eun Y., Jeong W. S., Kim S. J., 2019, Evaluation
of water quality characteristics using multivariate statistical analysis in the fourth
reservoir, Journal of Environmental Analysis, Health and Toxicology, Vol. 22, No.
3, pp. 117-125

Shim S. H., Kim Y. H., Lee H. W., Kim M., Choi J. H., 2022, Comparison of chlorophyll-a
prediction and analysis of influential factors in Yeongsan river using machine learning
and deep learning, [Korean Literature], Journal of Korean Society on Water Environment,
Vol. 38, No. 6, pp. 292-305

Singh K. P., Basant N., Gupta S., 2011, Support vector machines in water quality management,
Analytica Chimica Acta, Vol. 703, No. 2, pp. 152-162

Wang X., Zhang H., Bertone E., Stewart R., Hughes S., 2021, Coupled data-driven and
process-based model for fluorescent dissolved organic matter prediction in a shallow
subtropical reservoir, Environmental Modelling & Software, Vol. 141, pp. 105053

Woo J. W., Kim Y. J., Yoon J. S., 2022, Prediction of salinity of Nakdong river estuary
using deep learning algorithm (LSTM) for time series analysis, [Korea Literature],
Journal of Korean Society of Coastal and Ocean Engineers, Vol. 34, No. 4, pp. 128-134

Wu J., Wang Z., 2022, A hybrid model for water quality prediction based on an artificial
neural network, wavelet transform, and long short-term memory, Water, Vol. 14, No.
4, pp. 610

Xu J., Xu Z., Kuang J., Lin C., Xiao L., Huang X., Zhang Y., 2021, An alternative
to laboratory testing: Random Forest-based water quality prediction framework for
inland and nearshore water bodies, Water, Vol. 13, No. 22, pp. 3262

Yi H. S., Kim D. S., Hwang M. H., An K. G., 2016, Assessment of runoff and water temperature
variations under RCP climate change scenario in Yongdam dam watershed, South Korea,
[Korean Literature], Journal of Korean Society on Water Environment, Vol. 32, No.
2, pp. 173-182

Yu S., Lee E., Park M., Kim K., Im J., Ryu I., Choi H., Byeon M., Noh H., 2018, Changes
in the water environment based on the statistical data in the lake Paldang, [Korean
Literature], Journal of Korean Society on Water Environment, Vol. 34, No. 6, pp. 688-702

Zang C., Huang S., Wu M., Du S., Scholz M., Gao F., Lin C., Guo Y., Dong Y., 2010,
Comparison of relationships between pH, dissolved oxygen and chlorophyll-a for aquaculture
and non-aquaculture waters, Water, Air, & Soil Pollution, Vol. 219, No. 1, pp. 157-174

Zhang J. Y., Huang J., Yan F., Zhang Z. Q., 2009, Preliminary study on characters
of dissolved oxygen and the relationship with pH in Meiliang lake, Journal of Fudan
University, Vol. 48, No. 5, pp. 623-627

Zhu S., Heddam S., 2020, Prediction of dissolved oxygen in urban rivers at the Three
Gorges reservoir, China: Extreme learning machines (ELM) versus artificial neural
network (ANN), Water Quality Research Journal, Vol. 55, No. 1, pp. 106-118
