Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 국토연구원 주택·부동산연구본부, 연구원 (Korea Research Institute for Human Settlements · lllsy1215@krihs.re.kr)
  2. 정회원 · 교신저자 · 국토연구원 주택·부동산연구본부, 연구위원, 공학박사 (Corresponding Author · Korea Research Institute for Human Settlements · selee@krihs.re.kr)



물순환시스템, 통계 모형, 기계학습 모형, 재귀예측
Water-cycle system, Statistical model, Machine-learning model, Recursive forecasting

1. 서 론

제1차 국가물관리기본계획(2021)은 기후 위기에 대비한 지속 가능한 물 이용 체계 확립을 목표로 물순환 전 과정의 통합 체계 구축과 용수 확보를 강조하였다. 특히 하·폐수 처리수 재이용 등 대체 수자원 활성화를 위해 공업용수로의 하수 재이용수 활용, 신·증설 하수처리장의 재이용시설 우선 설치 검토 등 법·제도·기술적 기반 마련을 추진하였다. 2023년 9월에는 동 계획 일부가 변경되고 하천유지유량 산정지침(2024년 2월)이 제정되면서 통합물관리 이행과제가 최신화되고 효율적인 물 배분체계가 구축되었다. 이는 미래 물 부족에 대비한 하천 유지유량 확보와 가뭄 대응 기술 개발을 위해 도시 하·폐수 방류량을 효과적으로 활용해야 한다는 필요성을 반영한 것이다.

한편, 자연 유출 중심의 기존 수문 모형은 도시 및 산업단지의 하·폐수 방류량을 예측하기에 설명력이 부족하다. 하·폐수 방류량은 기상변수(강우, 기온 등), 도시 및 산업 수요의 주기성(요일·계절·공휴일별 생활방식), 산업공정 가동률 등 다양한 요인의 영향을 받는다. 이러한 자연적·사회적·경제적 요인이 하·폐수 방류량의 분산과 비정상성을 유발하므로, 계측 시설과 표준화된 DB 구축과 더불어 자료 기반의 접근이 필요하다. 환경부도 제2차 수문조사기본계획(2020-2029) 변경을 통해 수문조사시설 확대, 수문 자료 서비스 고도화 등 계측-분석-활용의 전 주기 강화를 추진하고 있어 유량 예측의 기초자료 기반이 정책적으로 마련되고 있다. 그러나, 현행 자료 수집 및 관리 체계에서는 상하수도 관리 주체가 분절되어 있고 방류구–하천 간 전달 지연(시차)을 예측모형에 반영하기 위한 정교한 방법론이 필요한 상황이다.

국내외 선행 연구에서는 이러한 공백을 보완하기 위해 다양한 시계열 및 기계학습 접근을 시도해 왔다. 국내 연구는 초기에 하수처리장 지점별 방류량 단기 예측에 초점을 두었고(Yoo et al., 2020) 이후 취수~방류 연계를 입력변수에 반영하기 시작했다. 하수종말처리장 방류량 예측에서 Lee et al.(2022)은 LSTM을 적용하여 유입량, 강수량, 수위에 더해 변동성 분포(계절성)를 입력자료로 포함해 예측 정확도를 개선하였다. Kim et al.(2025)은 Bi-LSTM을 적용하여 강수량, 취수량, 하수처리장 방류량을 입력자료로 시퀀스 길이와 1~5일 리드타임에 따른 성능을 비교하였다. 국외에서도 하천 유량 및 하수도 유입량·방류량 예측을 대상으로 경험적·확률적 모형, 전통적인 시계열 기법이 초반에 주로 사용되었으나, 2000년대부터는 기계학습 모형이 도입되었다(El-Din and Smith, 2002; Szeląg et al., 2017). 최근에는 다중 시계열을 사용하는 심층학습 모형으로 예측 정확도를 높이려는 시도가 증가하고 있다. Alizadeh et al.(2021)은 통계 모형보다 딥러닝 모형이 최대 7일 선행 유량 예측에서 성능이 우수함을 보였고, Girihagama et al.(2022)은 LSTM으로 최대 5일의 하천 유량을 예측하는 실시간 모형을 개발했다. 그러나 아직 대부분의 연구는 모형의 정확도 개선에 중점을 두고 있으며, 용수 공급~급수~방류~하천수 회귀의 폐 루프를 통해 수자원 운용 의사결정까지 연결한 실증 연구는 미흡한 실정이다.

본 연구는 Lee and Lee(2023)의 후속 연구이다. 선행 연구에서는 비교적 단순한 계통 시스템(1개의 물 유입~함평군~1개의 물 유출)을 가진 함평군을 대상으로 생활용수 회귀수량 분석 방법론을 제시하였다. ARIMA(Autoregressive Integrated Moving Average) 계열의 시계열적 특성을 검토하고 TFM(Transfer Function Model) 모형 구축 가능성을 확인하였으며, 함평군의 회귀율은 43~53 %로 계절적 영향을 많이 받음을 파악하였다. 본 논문은 방법론의 범용성을 검토하고자 다음과 같이 설계하였다. 첫째, 보다 복잡한 물순환계통(취수 및 방류지점이 많고 평림댐 용수공급 구분이 어려움)을 가진 영산강 유역 내 두 지자체를 대상지로 선정하였다. 둘째, 선행 연구의 방법론상의 범위를 두 가지 방향으로 확대하였다. 통계 모형인 TFM 뿐만 아니라, DRM(Dynamic Regression Model)의 활용성을 검토하고 기계학습 모형인 GBR(Gradient Boosting Regressor), Random Forest, Ridge 회귀모형(Ridge regression; 이하 Ridge 회귀)까지 총 5가지 예측모형의 적용성을 비교하였다. 모형 검증 방식에서는 검증 기간 통계량 확인뿐만 아니라, 재귀예측을 적용하여 모형의 활용 가능한 리드타임을 검토하였다. 따라서, 본 연구에서는 선행 연구의 방법론을 복잡한 물순환시스템으로 확장하고 다양한 모형을 동일한 데이터 세트와 검증 프로토콜로 교차 비교하며 재귀예측을 통해 리드타임별 성능을 평가함으로써, 예측 결과를 수자원 운용 의사결정에 직접 활용할 수 있는 통합적 예측 및 제어 프레임을 제시하고자 한다.

2. 대상지 및 시스템 정의

본 연구의 대상지는 영산강 상류에 있는 전라남도 장성군과 담양군 일대이다(Fig. 1). 2023년 기준 급수인구는 각각 41,057명, 39,784명이며, 연간 총 취수량은 각각 약 1,908,314 m3/년과 1,665,743 m3/년으로 집계되었다.

장성군은 2025년 3월 기준 수원 2개소, 정수장 2개소, 급수 지역 11개 지점, 하수처리장 50개소로 구성된다. 물 유입은 장성정수장과 평림정수장으로, 물 유출은 공공하수처리시설(500 m3/일 이상) 2개소와 소규모 공공하수처리시설(500 m3/일 미만) 48개소로 정의하였다.

담양군은 동일 시점 기준 수원 5개소, 정수장 3개소, 급수지역 12개 지점, 하수처리장 55개소로 구성된다. 물 유입은 공급 규모가 경미한 각화정수장을 제외하고 평림정수장과 신계정수장으로 설정하였다. 물 유출은 공공하수처리시설(500 m3/일 이상) 3개소와 소규모 공공하수처리시설(500 m3/일 미만) 52개소로 분류하였다. 장성군과 담양군은 평림정수장을 공동으로 이용하므로 두 지역에 공급되는 용수를 구분하기 어렵다. 따라서 본 연구에서는 이를 하나의 통합 시스템으로 간주하였다.

Fig. 1. Location of the Water-Cycle System

../../Resources/KSCE/Ksce.2025.45.6.0765/fig1.png

Fig. 2. Formulation of the Water-Cycle System

../../Resources/KSCE/Ksce.2025.45.6.0765/fig2.png

시설 현황과 자료 가용성에 근거하여 두 지역의 물순환시스템을 3개의 유입 지점-물 전달 프로세스(블랙박스)-4개의 유출 지점으로 정의하였다. 선행 연구(Lee and Lee, 2023)와 동일하게 자료의 완전성과 연속성을 확보하기 위해 최소 4년 이상의 자료 길이와 연평균 700 m3/d 이상의 유량을 갖는 완전 계측지점을 기준으로 하였다. 유입 지점을 Xt(X1: 장성정수장, X2: 평림정수장, X3: 신계정수장), 유출 지점을 Yt(Y1: 장성처리장, Y2: 삼계처리장, Y3: 담양처리장, Y4: 고서처리장)로 표기하였다(Fig. 2).

장성군청과 담양군청에서 제공받은 시계열 자료의 범위는 다음과 같다. 유입량은 장성정수장 2016-09-08~2024-05-31(약 7년 8개월), 평림정수장 2019-01-10~2025-04-03(약 6년 2개월), 신계정수장 2019-01-01~2024-12-31(약 6년)을 확보하였다. 유출량은 장성처리장 2013-01-01~2024-12-31(약 12년), 삼계처리장 2013-01-01~2025-03-25(약 12년 2개월), 담양처리장 및 고서처리장 2020-01-01~2024-12-31(약 5년)을 구축하였다. 자료 분석의 통일성을 위해 본 연구에 활용한 기간은 2020-01-01~2024-05-31(총 4년 5개월)이며, 1일 단위로 분석하였다.

3. 예측모형 구축 방법론

3.1 자료 품질보정

자료 품질관리를 위해 먼저 결측치 탐지를 수행하였다. 일 단위 시계열 자료에 대해 날짜-변수 매트릭스를 구성하고 결측 패턴을 시각화하였다. 변수별로 총 결측 개수(건), 전체 관측일 대비 비율(%), 최장 연속 결측 길이(일)를 확인하였다. 결측 구간의 길이에 따라 단계적으로 보정하였다. 결측 구간≤1일은 선형 보간(linear interpolation)을 적용하였다. 결측 구간≥2일은 차분 차수 d=1로 고정한 ARIMA(p,1,q) 후보군(p,q∈{0,1,2}, 총 6개) 중 최소 AIC 모형을 선택하여 보간하였다. 모형 적합이 수렴하지 않거나 잔차 진단을 만족하지 못할 때는 LOCF(Last Observation Carried Forward)를 적용하였다. 보정 후 전체 시계열에 대해 결측 잔존 여부를 재점검하였다.

결측 보간 후에는 이상치 탐지를 위해 두 가지 기준을 적용하였다. 첫째, IQR 기준은 각 변수의 사분위수 Q1​, Q3​와 IQR(=Q3−Q1​)을 산출하고, 상한 Q3 + 1.5 × IQR을 초과하는 관측치를 이상치로 판정하였다. 둘째, STL 분해 기준은 시계열을 1차 차분 후 STL 분해를 수행해 잔차의 z‑점수가 ∣Z∣>4인 값을 이상치로 판단하였다. IQR 기준은 피크값 탐지에, STL 분해 기준은 단기 급등락 파악에 용이하다. 두 기준 중 하나라도 충족하는 관측치는 이상치로 간주하여 결측으로 치환한 후, 앞서 설명한 결측 보정 절차를 재적용하였다.

3.2 시계열 특성 분석

본 연구는 자기상관성이 높은 유량 자료를 활용하므로, 예측모형의 입력 피처 구성 및 구조 설계를 위해 시계열 특성 분석이 필요하다. 정제된 자료를 기반으로 시계열 특성 분석을 수행하였으며, 보정 전후의 기초 통계량(평균, 표준편차, 왜도, 첨도)을 통해 정량적으로 검증하였다. 품질 보정된 자료를 기반으로, ADF(Augmented Dickey-Fuller test)와 KPSS(Kwiatkowski-Phillips-Schmidt-Shin) 검정하여 비정상성 여부를 판단하였다. 정상성 진단 결과로 차분 차수 d의 기본값을 확정하고 AIC(Akaike Information Criterion) 상위 후보를 구성하였다. 후보 모형은 잔차 백색성(Ljung-Box, p≥α), 간명성(ΔAIC≤2이면 단순 모형 우선), 계절성(m=7, D=1)을 순차 점검하여 최종 구조를 결정하였다. 또한 교차상관함수(cross-correlation function)를 통해 유입량과 방류량 조합의 지연시간을 탐색하여 후속 단계의 외생 피처 설계 근거로 활용하였다.

3.3 예측모형의 구성

3.3.1 TFM(Transfer Function Model)

전이함수모형인 TFM은 입·출력 시계열 간의 동적 관계를 시차(lag)와 전달함수 계수로 모형화하는 방식이다. 입력변수의 변화가 일정 지연 후 출력변수에 영향을 미친다는 가정을 기반으로, 입·출력 간의 충격 반응(impulse response)을 수학적으로 표현한다. 이 모형은 입력변수의 변동이 출력에 미치는 시계열적 누적 효과를 분석할 수 있어, 강우–유출, 하수처리량–방류량 등 수문 반응 시스템 해석에 유용하다. TFM의 일반식은 Eq. (1)과 같다.

(1)
$y_{t}=c+\sum_{i=0}^{s}\omega_{i}x_{t-(b+i)}+n_{t}, \quad n_{t}\sim ARIMA(p,\: d,\: q)$

여기서 $y_{t}$는 시점 t의 출력변수, $x_{t}$는 입력변수, $c$는 상수항, $\omega_{i}$는 입력의 $i$번째 시차 효과를 나타내는 전달함수 계수, $b$는 시차, $s$는 전달함수의 차수, $n_{t}$는 잡음항을 의미한다. TFM은 일반적으로 백색화(whitening), 교차상관분석(CCF), 지연 및 차수 식별, ARIMA 잡음모형 적합 절차를 거쳐 구성된다. 먼저 입·출력 간의 교차상관이 최대인 시차 𝑏를 탐색하고 이에 따라 ​$\omega_{i}$ 계수를 추정한다. 이 과정에서 입·출력 간 시계열적 인과 관계를 명시적으로 확인할 수 있어 모형의 해석 가능성이 높고 물리적 인과 구조 해석에도 유용하다. 다만, 다수의 입력변수나 고차 전달함수를 포함할 경우 모형 식별이 복잡해지고 과적합 위험이 존재한다.

3.3.2 DRM(Dynamic Regression Model)

동적 회귀모형인 DRM은 선형 회귀 분석과 시계열 오차 모형을 결합한 형태로 외생변수의 영향을 반영하면서 종속변수의 자기상관 구조를 동시에 설명하는 방식이다. 설명변수 $x_{k,\: t-1_{k}}$를 회귀식에 포함하고 잔차 $\varepsilon_{t}$를 ARIMA 계열로 모형화해 시계열의 내재적 상관성을 고려한다. DRM은 반응변수를 하나 이상의 예측 변수와 연관시키되, 정적 회귀모형과 달리 잔차의 시계열적 특성까지 설명할 수 있다. 따라서 계절성이나 추세 같은 복잡한 패턴이 존재하는 시계열 자료의 예측에 효과적이다. 일반적인 DRM의 구조는 Eq. (2)와 같이 표현된다.

(2)
$y_{t}=\beta_{0}+\sum_{j=1}^{m}\sum_{l=0}^{L_{j}}\beta_{j,\: l}x_{j,\: t-l}+e_{t}, \quad \Phi(B)(1-B)^{d}e_{t}=\Theta(B)\epsilon_{t}$

여기서 $y_{t}$는 시점 $t$의 종속변수, $x_{j,\: t-l}$는 $j$번째 외생변수의 $l$시차, $\beta_{j,\: l}$는 회귀계수, $L_{j}$는 변수 $j$에 대해 고려한 최대 시차, $e_{t}$는 잔차항, $B$는 시차 연산자, $\Phi(B)$는 AR 다항식, $\Theta(B)$는 MA 다항식, $d$는 차분 차수. $\epsilon_{t}$는 백색잡음(white noise)을 의미한다. 이 모형은 ARIMA 과정의 오차 구조를 회귀식에 통합하여 예측의 안정성을 높인다. 단순 회귀모형 대비 시계열 오차의 자기상관을 제거함으로써 신뢰도 높은 예측 결과를 제공한다. 설명변수와 종속변수 간 관계가 선형적일 경우 효율성이 높고 계수 해석이 용이하며 모형이 단순하다는 장점이 있다. 그러나 입·출력 간 비선형성이나 상호작용이 강한 경우에는 표현력이 제한될 수 있다.

3.3.3 GBR(Gradient Boosting Regressor)

GBR은 여러 개의 약한 학습기(weak learner)를 순차적으로 학습시켜 예측 정확도를 향상시키는 부스팅(Boosting) 기반의 앙상블 기법이다(Friedman, 2001). 각 단계에서 이전 단계의 예측 오차를 계산하고 손실함수의 기울기 방향으로 새로운 결정트리를 학습하여 잔차를 점진적으로 줄인다. GBR의 일반식은 다음과 같다(Eq. (3)).

(3)
$\hat{y_{i}}=F_{M}(x_{i})=\sum_{m=1}^{M}\nu f_{m}(x_{i})$

여기서 $\hat{y_{i}}$는 관측 $i$의 예측값, $F_{M}(x_{i})$은 $M$개의 트리를 모두 반영한 최종 예측 함수, $f_{m}(x_{i})$는 $m$번째 학습 단계의 결정트리, $\nu$는 학습률, $M$은 전체 반복 학습 횟수를 의미한다. GBR은 비선형 관계와 변수 간 상호작용을 효과적으로 포착한다. 학습률과 트리 깊이 등의 하이퍼파라미터를 조정하여 예측력과 일반화 성능을 조절할 수 있다. 다만, 학습률이 과도하게 크면 과적합이 발생하고, 너무 작으면 수렴 속도가 느려져 학습 효율이 저하되는 한계가 있다.

3.3.4 Random Forest

Random Forest는 Breiman(2001)이 제안한 앙상블 트리 기반 회귀/분류 모형이다. 다수의 결정트리를 무작위성에 기반하여 학습시키고 예측값을 평균 또는 다수결 방식으로 통합하여 최종 예측을 수행한다. 회귀 문제에서는 Eq. (4)와 같이 예측값이 표현된다.

(4)
$\hat{f}(x)=\dfrac{1}{B}\sum_{b=1}^{B}f^{(b)}(x)$

여기서 $f^{(b)}(x)$는 $b$번째 트리의 예측값이며, $B$는 전체 트리 수이다. 무작위성은 두 가지 방식으로 도입된다. 첫째, 각 트리 학습 시 부트스트랩 표본을 사용한다. 둘째, 분할 기준 선택 시 전체 설명변수 중 일부 무작위 하위집합만 고려한다. 이를 통해 트리 간 상관성을 낮추고 과적합을 방지한다. 또한 변수 스케일에 덜 민감하고 결측치나 이상치에 강건하며 입력 자료에 대한 전처리 요구가 낮다. 그러나 개별 결정트리의 해석력이 약하고 변수 간 인과관계보다 예측 정확도에 초점을 맞춘 블랙박스 모형이라는 한계가 있다.

3.3.5 Ridge 회귀

Ridge 회귀는 선형 회귀모형에 L2 정규화 항을 추가한 형태이다. 회귀 계수의 크기가 과도하게 커지는 것을 제약하여 과적합을 방지하고 다중공선성 문제를 완화한다. 목적함수는 다음과 같다(Eq. (5)).

(5)
$\min_{(\beta_{0,\: }\beta)}=\sum_{i=1}^{n}(y_{i}-\beta_{0}-\sum_{j=1}^{p}\beta_{j}x_{ij})^{2}+\lambda\sum_{j=1}^{p}\beta_{j}^{2}$

여기서 $y_{i}$는 $i$번째 종속변수의 관측값, $x_{ij}$는 $i$번째 표본의 $j$번째 설명변수, $\beta_{j}$는 회귀계수, $\lambda$는 정규화 강도를 조절하는 하이퍼파라미터이다. $\lambda$=0일 경우 일반적인 최소제곱법과 동일하며, $\lambda$가 커질수록 계수의 크기를 더 강하게 제약하여 과적합을 방지한다. Ridge 회귀는 모든 설명변수가 예측에 기여한다고 가정할 때 유리하며, 계수 해석이 가능하다는 장점이 있다.

3.4 모형 학습

품질보정 및 시계열 특성 분석 결과를 입력자료로 활용하여 총 5개 모형을 동일한 조건에서 학습하였다. 모든 모형은 동일한 입·출력 변수 구조와 자료 구간을 적용하였다. 전체 분석 기간은 2020-01-01부터 2024-05-31까지이며, 시계열의 시간적 순서를 유지하면서 70 %는 학습 구간, 30 %는 검증 구간으로 분할하였다. 학습 기간은 2020-01-01부터 2023-02-02까지, 검증 기간은 2023-02-03부터 2024-05-31까지로 설정하였다.

입력변수는 유입 지점별 취수량(Xₜ), 출력변수는 방류 지점별 방류량(Yₜ)으로 구성하였으며, 교차상관함수(CCF) 분석으로 도출된 최적 시차를 반영하였다. 실제 수문·환경 관리 현장에서 실시간 관측 자료의 지연이 발생하는 상황을 모사하기 위해 재귀예측을 사용하였다. 재귀예측은 예측값을 다음 시점의 입력으로 순차 반영하여 다일(多日) 선행 예측을 수행하는 방식이다. 본 연구에서는 리드타임을 1~7일로 설정하였으며, 재귀예측을 통해 시계열 누적오차의 안정성과 예측 감쇠 특성을 분석하였다.

3.5 평가지표

3.5.1 KGE(Kling-Gupta efficiency)

KGE는 수문 모형의 예측값과 관측값의 유사도를 평가하기 위해 제안된 종합 성능 지표로서 상관성, 변동성, 편향의 세 가지 요소를 하나의 척도로 통합한 것이다. KGE는 다음과 같이 정의된다(Eq. (6)).

(6)
$KGE =1-\sqrt{(r-1)^{2}+(\alpha -1)^{2}+(\beta -1)^{2}}$

여기서 $r$은 예측값과 관측값 사이의 피어슨 상관계수, $\alpha$는 예측값과 관측값의 표준편차 비율, $\beta$는 편향을 나타낸다. KGE 값은 1에 가까울수록 모형 예측이 관측과 거의 일치함을 의미하며, 0 이하의 값은 예측 성능이 매우 낮음을 시사한다. Moriasi et al. (2007)에 따르면, 0.50 이상이면 모형 성능이 양호, 0.75 이상이면 우수하다고 판단한다. KGE는 결정계수나 Nash-Sutcliffe 효율계수(NSE) 등 기존 지표의 한계를 보완하기 위해 고안되었다. 하나의 지표로 상관관계, 분포, 평균 오차를 종합적으로 평가할 수 있다는 장점이 있다. 다만 세 구성 요소의 상대적 변화에 따라 KGE 값이 달라지므로 해석에 주의가 필요하다. 특정 요소의 값이 지나치게 크거나 작으면 전체 지표를 왜곡할 수 있다.

3.5.2 NRMSE(normalized RMSE)

NRMSE는 RMSE를 자료 규모의 기준값으로 나누어 정규화한 평균 제곱근 오차이다. 일반적으로 RMSE를 관측값의 평균이나 범위로 나누어 산정한다(Eq. (7)). 이를 통해 자료 단위나 스케일과 무관하게 오차 크기를 비교할 수 있다. 주로 서로 다른 자료 집합이나 척도를 가진 모형의 예측 정확도를 비교할 때 사용된다.

(7)
$NRMSE=\dfrac{\sqrt{\dfrac{1}{{N}}\sum_{{t}=1}^{{N}}({y}_{{t}}-\hat{{y}_{{t}}})^{2}}}{\overline{y}}$

여기서 $N$은 자료의 개수, $y_{t}$는 $t$시점의 관측값, $\hat{y}_{t}$는 $t$시점의 예측값, $\overline{y}$는 관측값의 평균이다. NRMSE 값이 작을수록 예측 오차가 자료 규모에 비해 작다는 의미이다. 또한 오차가 관측 변동의 50 % 미만이면 매우 우수, 70 % 미만이면 만족으로 처리한다. NRMSE는 단위가 없는 상대 오차이므로 서로 다른 데이터셋이나 모형의 성능을 비교하는 데 유용하다. 다만 정규화 기준에 따라 값이 달라질 수 있으므로 사용 시 해당 기준을 명시해야 한다.

3.5.3 WMAPE(Weighted MAPE)

WMAPE는 MAPE의 변형으로, 오차 항목에 가중치를 부여한 가중 평균 절대 백분율 오차 지표이다. 전체 예측 오차의 절댓값을 관측값 총합으로 나누어 백분율로 환산하며 Eq. (8)과 같이 정의된다. 일반적으로 각 시점의 실제값을 가중치로 사용하여 작은 실제값에서 발생하는 극단적인 백분율 오차 문제를 완화한다. 이는 수요 예측처럼 실제값이 0에 가까운 경우에도 안정적이고 정량적인 성능 평가를 제공한다. Lewis(1982)에 따르면, 예측 오차가 10 % 미만이면 매우 정확, 20 % 미만이면 양호로 해석할 수 있다.

(8)
$WMAPE=\dfrac{\sum_{t=1}^{N}\left | y_{t}-\hat{y_{t}}\right |}{\sum_{t=1}^{N}\left | y_{t}\right |}\times 100$

3.5.4 잔차 검정

시계열 예측모형의 신뢰성을 평가하려면 예측 정확도 지표뿐 아니라 잔차의 통계적 특성도 검토해야 한다. 본 연구에서는 예측 잔차의 자기상관성과 정규성을 확인하기 위해 Ljung-Box 검정과 Jarque-Bera 검정을 사용하였다. 두 검정은 모형의 적합성과 오차의 무작위성을 진단하는 데 유용하다.

Ljung-Box 검정은 잔차에 자기상관이 존재하는지 확인하는 귀무가설 검정이다. 잔차가 백색잡음이면 모든 시차에서 자기상관계수가 0이라는 가정을 검정하며 검정 통계량은 Eq. (9)와 같다.

(9)
$Q=n(n+2)\sum_{k=1}^{h}\dfrac{\hat{r}_{k}^{2}}{n-k}$

여기서 $n$은 표본 크기, $h$는 검정할 시차 수, $\hat{r}_{k}$는 $k$시차에서의 표본 자기상관계수를 나타낸다. 귀무가설은 “잔차에 자기상관이 없다”며, 유의확률이 0.05 이상이면 잔차가 통계적으로 백색잡음임을 의미한다. 이는 모형이 시계열의 구조를 충분히 설명하고 있음을 시사한다.

Jarque-Bera 검정은 잔차의 정규성을 검정하는 방법이다. 정규분포를 따르는 경우, 왜도(skewness)는 0, 첨도(kurtosis)는 3이어야 한다. 이 두 값을 기반으로 검정 통계량은 Eq. (10)과 같이 정의된다.

(10)
$JP=\dfrac{n}{6}\left[S^{2}+\dfrac{(K-3)^{2}}{4}\right]$

여기서 $S$는 표본 왜도, $K$는 표본 첨도, $n$은 표본 크기이다. 귀무가설은 “잔차는 정규분포를 따른다”며, 유의확률이 0.05 이상이면 잔차의 정규성을 만족한다고 판단할 수 있다. 이는 예측 구간의 신뢰성 및 가설 검정의 타당성 확보에 기여한다.

4. 결과 및 검토

4.1 도시 물순환 시계열 특성

본 연구 자료에서는 총 19건의 결측이 발견되었다(X1 18건(1.1%), Y1 1건(0.1%)). 최장 연속 결측은 X1에서 5일이었다. Y1은 선형 보간을, X1의 5일 연속 결측에는 ARIMA 기반 보간을 적용했다. LOCF가 필요한 경우는 없었으며, 최종적으로 모든 결측을 처리하였다.

결측 보간 후 이상치 탐지를 수행하였다. IQR과 STL 분해 기준을 병행한 결과, IQR 기준으로 X2와 Y3에서 각각 33건, STL 분해 기준으로 Y4에서 14건이 탐지되었다. Y4의 높은 탐지 빈도는 단주기 변동성이 상대적으로 크다는 것을 시사한다. 이상치 처리 전후 기초 통계량을 비교한 결과, 평균은 거의 변동이 없었으나 표준편차는 유의미하게 감소하여 분산 안정화를 확인하였다. 왜도는 전반적으로 완화되었고 첨도는 대부분 감소하여 분포의 극단값이 줄었다. 그러나 일부 변수에서는 높은 첨도가 잔존하였다.

정상성 검정 결과, X3는 차분 없이 정상성을 만족했고 그 외 변수는 1차 차분 후 정상성이 확보되었다. 주기성 검토에서 모두 변수가 주 7일 성분을 보여 SARIMA 모형을 평가하고 최종 채택하였다(Table 1). Ljung-Box 검정 결과 잔차의 백색성은 전반적으로 양호하였으나, Y4는 경계 수준을 보였다. 잔차 첨도는 대부분 감소하였으나 X1에서는 큰 첨도가 잔존하여 극단값 영향이 남아있음을 확인하였다.

Table 1. Summary of Final Models and Residual Statistics by Variable
variable final model (p,d,q) (P,D,Q,m) period AIC Ljing-Box Residual skewness Residual kurtosis
X1 SARIMA (1,1,2) (0,1,1,7) a week 16,265.4 0.470 -0.13 66.05
X2 SARIMA (1,1,2) (1,1,1,7) a week 18,910.9 0.654 -1.16 17.51
X3 SARIMA (0,1,2) (1,1,1,7) a week 15,577.1 0.604 +2.64 27.65
Y1 SARIMA (1,1,2) (0,1,1,7) a week 16,293.0 0.380 -0.23 1.83
Y2 SARIMA (1,1,2) (0,1,1,7) a week 16,853,1 0.561 -0.03 3.88
Y3 SARIMA (1,1,1) (1,1,0,7) a week 16,884.7 0.371 +0.04 3.10
Y4 SARIMA (2,1,1) (1,1,0,7) a week 13,338.3 0.202 -0.31 3.78

입·출력 교차상관 분석 결과(Table 2), Y1은 X2의 +7일에서 최대 상관 𝜌 = 0.404를 보였으며, X1(+13일)과 X3(+14일)도 보조 후보로 유의하였다. Y2는 X3(+3일)에서 가장 유의한 선행 관계를 나타냈고 X1(+12일), X2(+2일)가 추가로 유의하였다. Y3는 X2(+1일)에서, Y4는 X3(+17일)에서 최대 상관을 보였다. 이는 대상지 물순환의 주간 주기성과 지점별 전달 지연을 동시에 시사한다. 특히 강한 선행 구조는 TFM과 DRM의 외생 시차 설계, 그리고 Ridge 회귀, Random Forest, GBR의 lag 피처 구성에 직접 반영하였다. 또한 잔차의 백색성이 대체로 확보되어(Table 3) 모형 비교 및 리드타임 분석을 위한 자료 적정성이 충족되었다.

Table 2. Summary of Final Models and Residual Statistics by Variable
variable Leading inflow Optimal lag (days) ρ p-value Final Input Structure(Proposed)
Y1 X2 +7 0.404 2.2 × 10-45 SARIMA(1,1,2)(0,1,1)
X1 +13 0.370 1.4 × 10-37
X3 +14 0.268 8.8 × 10-20
Y2 X3 +3 0.10 1.3 × 10-9 SARIMA(1,1,2)(0,1,1)
X1 +12 0.165 2.9 × 10-8
X2 +2 0.135 5.7 × 10-6
Y3 X2 +1 0.139 2.7 × 10-6 SARIMA(1,1,1)(1,1,0)
Y4 X3 +17 0.204 6.3 × 10-12 SARIMA(2,1,1)(1,1,0)

4.2 예측모형 선정 결과

Table 3는 각 모형의 검증셋 성능을 요약하였으며, Fig. 3는 관측값과 성능이 우수한 두 모형의 결과를 비교한 것이다. 평가지표는 KGE를 우선순위로 파악하고 NRMSE와 WMAPE를 함께 고려했다. Y1은 관측 변동성이 큰 지점임에도 대부분의 모형이 NRMSE < 0.7, WMAPE < 5 %를 달성하였고, KGE도 우수하였다. Ridge 회귀가 NRMSE≈0.047, WMAPE≈3.4 %, KGE≈0.874로 최고 성능을 보였으며, TFM도 NRMSE≈0.052, WMAPE≈3.7 %, KGE≈0.906으로 동등한 수준을 나타냈다. 모든 모형의 잔차에서 Ljung-Box 검정, Jarque-Bera 검정 결과, p < 0.01로 자기상관과 비정규성이 잔존하였다. 따라서 Y1은 Ridge 회귀를 기본 모형으로 TFM을 보조 모형으로 선정하였다.

Y2는 전체 변수 중 예측 난도가 가장 높은 대상으로 나타났다. Ridge 회귀는 KGE≈0.55이고 NRMSE≈0.1, WMAPE≈7.3 %로 절대오차가 가장 작았으며, Random Forest와 GBR은 안정적인 중위권 성능을 보였다. 반면, DRM은 KGE가 발산, NRMSE와 WMAPE가 가장 큰 값을 기록하였다. 이에 따라 Y2​는 Ridge 회귀를 기본 모형으로, Random Forest를 보조 모형으로 선정하였다.

Y3의 경우, DRM이 NRMSE≈0.072, WMAPE≈5.6 %, KGE≈0.0734를 기록하며 우수한 성능을 보였다. 그 외모형도 우수한 근접 성능을 보였다. 5가지 모형 모두 Ljung-Box 검정에서 p < 0.01로 자기상관이 남았고 TFM과 GBR만 Jarque-Bera 검정에서 정규성이 양호하였다. 따라서 Y3은 DRM을 기본 모형으로, TFM을 보조 모형으로 선정하였다.

Y4는 전반적으로 우수한 예측 결과를 보였다. Ridge 회귀가 NRMSE≈0.05, WMAPE≈3.3 %, KGE≈0.832로 모든 평가지표에서 최고 성능을 기록하였고 GBR도 그에 근접한 성능을 보였다. TFM, DRM, Random Forest도 우수한 범주이나 상대적으로 다소 낮았다. 대부분의 모형은 잔차 검정에서 p < 0.01로 잔차 자기상관이 존재하였다. 따라서 Y4는 Ridge 회귀를 기본 모형으로, GBR을 보조 모형으로 활용하였다.

Table 3. Model Performance during the Validation Period
variable Model KGE NRMSE WMAPE Ljing-Box p Jarque-Bera p
Y1 TFM 0.906 0.052 3.67 < 0.01 < 0.01
DRM 0.891 0.050 3.54 < 0.01 < 0.01
GBR 0.878 0.051 3.82 < 0.01 < 0.01
Random Forest 0.837 0.054 4.04 < 0.01 < 0.01
Ridge Regression 0.874 0.047 3.44 < 0.01 < 0.01
Y2 TFM 0.419 0.119 8.39 < 0.01 < 0.01
DRM -0.643 0.318 23.98 < 0.01 < 0.01
GBR 0.510 0.103 7.46 < 0.01 < 0.01
Random Forest 0.517 0.103 7.56 0.020 < 0.01
Ridge Regression 0.550 0.100 7.34 0.025 < 0.01
Y3 TFM 0.748 0.087 6.89 < 0.01 0.536
DRM 0.734 0.072 5.60 < 0.01 < 0.01
GBR 0.668 0.082 6.63 < 0.01 0.197
Random Forest 0.674 0.084 6.79 < 0.01 0.032
Ridge Regression 0.687 0.075 6.15 < 0.01 < 0.01
Y4 TFM 0.727 0.064 4.60 < 0.01 < 0.01
DRM 0.762 0.064 4.48 < 0.01 < 0.01
GBR 0.784 0.051 3.38 < 0.01 < 0.01
Random Forest 0.760 0.053 3.63 < 0.01 < 0.01
Ridge Regression 0.832 0.050 3.32 < 0.01 < 0.01

Fig. 3. Comparison of Observed and Predicted Values by Representative Models during the Validation Period (Top To Bottom: Y1 to Y4)

../../Resources/KSCE/Ksce.2025.45.6.0765/fig3-1.png../../Resources/KSCE/Ksce.2025.45.6.0765/fig3-2.png

4.3 리드타임별 예측 정확도 및 유용성 검토 결과

선정된 모형에 재귀예측을 적용하여 1일~7일 리드타임에 대한 예측 성능을 평가하였다(Table 4, Fig. 4~7 참고). 리드타임이 증가하면 모든 모형에서 예측 정확도가 저하될 수 있다. 이를 고려하여 동일 계열의 모형을 중복 선정하기보다 4.2 예측모형 선정 결과에서 우수한 성능을 보였던 통계 모형 1종(TFM)과 기계학습 모형 1종(Ridge 회귀)을 병렬 운용하는 방식을 채택하였다. 활용성 평가는 KGE≥0.5, NRMSE<1.0, WMAPE≤12 %를 기준으로 실무 활용 가능 여부를 판단하였다. 이 기준을 충족하지 못할 경우, 추세 참고용 또는 활용 불가로 분류하였다. 잔차의 자기상관성과 정규성은 각각 Ljung-Box 검정, Jarque-Bera 검정으로 확인하였다.

Y1은 검증 구간에서 단기 예측 정확도가 매우 높았다. 1일 리드타임에서 TFM은 KGE≈0.906, NRMSE≈0.052, WMAPE≈3.67 %, Ridge 회귀는 KGE≈0.874, NRMSE≈0.047, WMAPE≈3.44 %로 두 모형 모두 우수한 성능을 보였다. 리드타임이 늘어날수록 Ridge 회귀는 성능 저하가 두드러지며 7일 예측에서는 KGE≈0.549로 감소하였다. 반면 TFM은 시차 구조를 명시적으로 반영하여 7일 리드타임에서도 KGE≈0.82, WMAPE≈5.2 %로 안정적인 성능을 유지하였다. 따라서 두 모형 모두 1~7일 전 구간에서 활용성 기준을 충족한다. 실무 적용 시 Y1의 경우, TFM은 최대 7일까지, Ridge 회귀는 5일 이내 단기 예측에 유리하다.

Y2는 두 모형 모두 전반적으로 1일 리드타임 예측부터 낮은 정확도를 보였으며 TFM은 1일에서 KGE≈0.419, NRMSE≈0.119, WMAPE≈8.39 %로 시작해 리드타임 증가에 따라 7일 KGE≈0.200까지 하락한다. Ridge 회귀는 1일에서 KGE≈0.550, NRMSE≈0.100, WMAPE≈7.34 %로 기준을 충족하지만, 2일 이후 KGE < 0.5로 급격히 저하된다. 따라서 Y2의 경우, Ridge 회귀는 1일 리드타임만 제한적 활용 가능, TFM은 전 리드타임에서 KGE 기준 미충족으로 추세 참고용이 적절하다.

Y3는 1일 리드타임에서 TFM이 KGE≈0.748, NRMSE≈0.087, WMAPE≈6.89 %, Ridge 회귀는 KGE≈0.687, NRMSE≈0.075, WMAPE≈6.15 %로 양호하다. Ridge 회귀는 리드타임이 증가할수록 성능이 저하되어 4일 이후 KGE < 0.5로 떨어진다. 반면 TFM은 3일~7일 전 구간에서 KGE≈0.70 내외, WMAPE 7~7.3 %로 안정적이다. 따라서 Y3의 경우, TFM은 최대 7일까지 실무 활용 가능, Ridge 회귀는 2~3일 이내가 적절하다.

Table 4. Prediction Accuracy by Lead Time and Model for Y1–Y4
variable lead(days) TFM Ridge Regression
KGE NRMSE WMAPE KGE NRMSE WMAPE
Y1 1 0.906 0.052 3.67 0.874 0.047 3.44
2 0.880 0.058 4.05 0.802 0.058 4.30
3 0.867 0.060 4.27 0.742 0.068 5.10
4 0.853 0.063 4.56 0.688 0.075 5.76
5 0.843 0.065 4.73 0.637 0.082 6.35
6 0.835 0.067 4.88 0.591 0.088 6.90
7 0.820 0.070 5.24 0.549 0.094 7.38
Y2 1 0.419 0.119 8.39 0.550 0.100 7.34
2 0.316 0.123 8.80 0.355 0.117 8.46
3 0.260 0.127 9.08 0.268 0.123 8.87
4 0.227 0.129 9.36 0.175 0.126 9.26
5 0.218 0.130 9.45 0.097 0.128 9.46
6 0.210 0.130 9.58 0.068 0.128 9.44
7 0.200 0.132 9.71 0.047 0.128 9.60
Y3 1 0.748 0.087 6.89 0.687 0.075 6.15
2 0.718 0.092 7.17 0.576 0.089 7.37
3 0.709 0.094 7.24 0.503 0.098 8.10
4 0.704 0.095 7.30 0.415 0.108 8.94
5 0.704 0.095 7.32 0.347 0.116 9.67
6 0.704 0.095 7.33 0.293 0.123 10.21
7 0.704 0.095 7.33 0.252 0.128 10.67
Y4 1 0.727 0.064 4.60 0.832 0.050 3.320
2 0.648 0.071 5.07 0.748 0.062 4.118
3 0.599 0.076 5.39 0.678 0.070 4.718
4 0.581 0.078 5.50 0.609 0.078 5.173
5 0.572 0.079 5.58 0.564 0.082 5.487
6 0.573 0.078 5.59 0.535 0.084 5.776
7 0.576 0.078 5.58 0.532 0.084 5.880

Y4는 단기에서 두 모형 모두 높은 정확도를 보인다. 1일 리드타임에서 TFM은 KGE≈0.727, NRMSE≈0.064, WMAPE≈4.60 %, Ridge 회귀는 KGE≈0.832, NRMSE≈0.050, WMAPE≈3.32 %이다. 리드타임이 늘어나도 TFM은 7일 KGE≈0.576, WMAPE≈5.58 %, Ridge 회귀는 7일 KGE≈0.532, WMAPE≈5.88 %로 두 모형 모두 7일까지 활용성 기준 충족한다. 따라서 Y4의 경우, 단기(1~3일)는 Ridge 회귀가 약간 우수, 4일 이후엔 TFM이 더 안정적이다.

재귀예측을 통해 생활용수 회귀수량의 리드타임별 가능성을 검토한 결과, 변수별 예측 한계가 상이했다. Y1과 Y4는 7일 선행까지 유용한 예측이 가능하며, TFM이 더 안정적이다. Y2는 예측이 매우 어려워 1일 선행까지 참고용으로만 활용해야 한다. Y3는 단기(≤3일)에는 Ridge 회귀, 중장기(≤7일)는 TFM이 적합하다.

Fig. 4. Summary of Lead-3 and Lead-7 Prediction Performance (Y1)

../../Resources/KSCE/Ksce.2025.45.6.0765/fig4.png

Fig. 5. Summary of Lead-3 and Lead-7 Prediction Performance (Y2)

../../Resources/KSCE/Ksce.2025.45.6.0765/fig5.png

본 결과는 시차 구조를 명시적으로 모델링하는 TFM이 리드타임 증가에 따라 상대적으로 견고함을 보여준다. 반면 Ridge 회귀는 단기 예측에서 우수한 성능을 보이지만 장기 예측에서는 급격한 성능 저하가 나타난다. 이는 가뭄 대응 및 하천유량 운용 계획에서 리드타임별 예측 신뢰성을 고려한 모형 선택의 중요성을 강조한다.

Fig. 6. Summary of Lead-3 and Lead-7 Prediction Performance (Y3)

../../Resources/KSCE/Ksce.2025.45.6.0765/fig6.png

Fig. 7. Summary of Lead-3 and Lead-7 Prediction Performance (Y4)

../../Resources/KSCE/Ksce.2025.45.6.0765/fig7.png

5. 결 론

기후변화와 물 수급 불균형이 심화되는 상황에서 하천 유량의 체계적 운영 및 관리와 과학적 의사결정 기반의 중요성이 국가적으로 대두되고 있다. 본 연구는 다소 복잡한 생활용수 물순환체계를 지닌 영산강 상류의 전라남도 장성군과 담양군을 대상으로 하천 수량 관리에서 생활용수 하수 방류량 예측의 정확도를 실증하였다. 연구 결과는 다음과 같다.

(1) 두 대상지가 평림정수장을 공동 이용함을 고려해 단일 통합 시스템으로 정의하였다. 완전 계측지점 기준(자료≥4년, 유량≥700 m3/d)에 따라, 3개의 유입 지점과 4개의 유출 지점을 선정하였다. 자료는 2020-01-01~2024-05-31(일 단위)로 통일해 분석하였다. 결측 19건은 선형 및 ARIMA로 보간하고 IQR 및 STL 분해 기준으로 이상치를 처리해 평균은 유지하고 그 외 기초통계량(분산, 왜도, 첨도)은 완화하였다. 정상성은 X3를 제외하고 1차 차분으로 확보하였으며 모든 변수에서 주 7일 성분이 확인되어 SARIMA 모형을 채택하였다.

(2) 교차상관 분석 결과, Y1은 X2, Y2는 X3, Y3는 X2, Y4는 X3로 지점별 선행 구조가 확인되었다. 이는 주간 주기성과 전달 지연을 시사한다. 해당 시차를 통계 모형(TFM, DRM)의 외생 시차와 기계학습 모형(Ridge 회귀, Random Forest, GBR)의 lag 피처에 반영하였다.

(3) 자료를 7:3으로 분할하여 KGE를 우선 지표로(NRMSE, WMAPE 보조) 평가한 결과, 잔차 자기상관이 대체로 잔존(p < 0.01)하였고, 정규성은 일부 모형만 충족하였다. Ridge 회귀가 Y1, Y2, Y4에서 일관되게 우수한 성능을 보였고, DRM이 Y3에서 최고 성능을 기록했다.

(4) 선택된 TFM, Ridge 회귀를 대상으로 재귀예측을 적용해 리드타임 1~7일까지 평가하였다. KGE≥0.5, NRMSE< 1.0, WMAPE≤12 %를 활용성 기준으로 삼았다. 결과적으로 Y1과 Y4는 두 모형에서 리드타임 1~7일, Y2는 Ridge 회귀로 리드타임 1일, Y3는 단기에서 Ridge 회귀와 중장기에서 TFM이 활용 가능한 것으로 확인되었다.

국가 정책적으로 하천유량의 체계적인 운영관리와 하천 가용수량에 대한 논쟁을 줄이기 위해서는 면(面)적 물순환시스템을 고려한 접근이 필요하며, 이는 유량 모니터링과 예측 역량을 향상하는 데 크게 기여할 수 있다. 이번 연구의 결과는 방류 지점만을 주로 다룬 기존 연구의 한계를 넘어 하천수를 단일 시스템 관점에서 통합적으로 다루었다는 점에서 의의가 있다. 특히 Lee and Lee (2023)가 제시한 생활용수 회귀수량 단기 예측의 토대를 확장해 면(面)적 물순환체계와 입·출력 간 시차 관계를 결합한 초기 단계의 연구로서, 향후 갈수기 등 운영 여건에서 하천유량 관리의 실효성을 제고할 가능성을 보여준다.

위와 같은 성과에도 불구하고, 한계점이 존재한다. 첫째, 일부 모형에서 우수한 성능지표를 보였음에도 잔차의 자기상관과 비정규성이 확인되어 통계적 적합도에 제약이 있었다. 둘째, 지하수나 강우와 같은 외생변수를 모형에 반영하지 못하였고 시스템 단순화를 위해 완전 계측지점에 한정함으로써 소규모 유량이나 불완전 계측지점을 다루지 못하였다. 셋째, 일 단위에 기반을 두어 주/월 단위의 계절·운영상 주기를 충분히 반영하지 못하였다.

향후 연구에서는 이러한 한계를 보완하기 위해 영향력 있는 외생변수 도입, 불완전 계측지점 추정 프레임 연구, 주·월 단위 예측모형의 실효성 평가 등을 통해 중장기 운영 의사결정 지원으로 확장할 필요가 있다.

Acknowledgements

This work was supported by Korea Environment Industry & Technology Institute(KEITI) through Water Management Program for Drought, funded by Korea Ministry of Environment (MOE)(2480000378).

References

1 
Alizadeh B., Bafti A. G., Kamangir H., Zhang Y., Wright D. B., Franz K. J. (2021). "A novel attention-based LSTM cell post-processor coupled with bayesian optimization for streamflow prediction", Journal of Hydrology, Vol. 601, pp. 126526DOI
2 
Breiman L. (2001). "Random forests", Machine Learning, Vol. 45, No. 1, pp. 5-32Google SearchGoogle Search
3 
El-Din A. G., Smith D. W. (2002). "A neural network model to predict the wastewater inflow incorporating rainfall events", Water Research, Vol. 36, No. 5, pp. 1115-1126DOI
4 
Friedman J. H. (2001). "Greedy function approximation: a gradient boosting machine", Annals of Statistics, Vol. 29, No. 5, pp. 1189-1232DOI
5 
Girihagama L., Naveed Khaliq M., Lamontagne P., Perdikaris J., Roy R., Sushama L., Elshorbagy A. (2022). "Streamflow modelling and forecasting for Canadian watersheds using LSTM networks with attention mechanism", Neural Computing and Applications, Vol. 34, No. 22, pp. 19995-20015DOI
6 
Kim J. H., Lee S., Son M. (2025). "Performance analysis of domestic wastewater discharge prediction based on sequence and lead time length using bidirectional long short-term memory", Journal of the Korean Society of Hazard Mitigation, Vol. 25, No. 3, pp. 33-42DOI
7 
Lee S., Lee S. (2023). "Construction of a short-term time-series prediction model for analysis of return flow of residential water", KSCE Journal of Civil and Environmental Engineering Research, Vol. 43, No. 6, pp. 763-774DOI
8 
Lee S. Y., Yoo H. J., Lee S. O. (2022). "Development of return flow rate prediction algorithm with data variation based on LSTM", Journal of Korean Society of Disaster and Security, Vol. 15, No. 2, pp. 45-56DOI
9 
Lewis C. D. (1982), Industrial and Business Forecasting Methods, pp. 143Google Search
10 
Moriasi D. N., Arnold J. G., Van Liew M. W., Bingner R. L., Harmel R. D., Veith T. L. (2007). "Model evaluation guidelines for systematic quantification of accuracy in watershed simulations", Transactions of the ASABE, Vol. 50, No. 3, pp. 885-900DOI
11 
Szeląg B., Bartkiewicz L., Studziński J., Barbusiński K. (2017). "Evaluation of the impact of explanatory variables on the accuracy of prediction of daily inflow to the sewage treatment plant by selected models nonlinear", Archives of Environmental Protection, Vol. 43, No. 3, pp. 74-81DOI
12 
Yoo H. J., Lee S. O., Choi S. H., Park M. H. (2020). "Development of a data-driven model for forecasting outflow to establish a reasonable river water management system", Journal of Korean Society of Disaster and Security, Vol. 13, No. 4, pp. 75-92Google SearchGoogle Search