Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 정회원 · 국토연구원 국토환경·자원연구본부, 연구원 (Korea Research Institute for Human Settlements · lllsy1215@krihs.re.kr)
  2. 교신저자 · 국토연구원 안전국토연구센터, 센터장, 공학박사 (Corresponding Author · Korea Research Institute for Human Settlements ·selee@krihs.re.kr)



물순환시스템, 회귀수량, ARIMA 모형, 전이함수모형
Water-cycle system, Return flow, ARIMA model, TFM

1. 서 론

우리나라는 산업화·도시화 및 물소비 양상 변화로 인해 용수수요는 지속적으로 증가하고 있으나 환경적·경제적인 이유로 댐 건설을 통한 수자원 확보에 어려움을 겪고 있다. 이를 해결하기 위해 제1차 국가물관리기본계획에서는 유역 특성을 고려한 하천의 물 부족 상황을 면밀하게 모니터링하고 가뭄 관리 체계의 탄력적 운영을 중시하고 있다. 하천 하류의 도시지역 가용수량 중 상당 부분은 생활용수 회귀수량과 관련된다. 그러나 아직까지 일률적인 회귀율(생·공용수 65%, 농업용수 35%) 적용으로 하천의 정확한 가용수량 파악이 어렵고 여전히 상류 댐의 과중한 의존도로 물 수급 분석체계는 미흡한 실정이다.

2010년대 이후 국내 생·공용수 회귀수량 예측을 위해 수문기상 관측자료를 활용하여 자료 기반의 모형을 구축한 사례가 있다. Lee(2012)는 D시의 S하수처리장을 대상으로 1일 단위의 4년(2005년~2008년) 간 기상(강우량, 습도, 기온) 및 하수 유입량자료와 수질오염항목을 이용하여 하수 유입량 변화를 분석하였다. Jeong and Kim(2015)은 GIS를 통해 전국 시군구별 거시적인 회귀율, 중랑물재생센터 처리구역을 대상으로 1일 단위의 2년(2011년~2012년) 간 상·하수도 통계자료를 통해 미시적인 회귀율을 추정하여 검증하였다. Yoo et al.(2020)은 청평댐 유역의 주요 3개 하수처리장을 대상으로 1일 단위의 7년(2012년~2018년) 간 강수량, 수위자료와 하수 유입량, 방류량자료를 3가지 기계학습모형인 Support Vector Machine(SVM), Long Short-Term Memory(LSTM), Gated Recurrent Units(GRU)에 적용해 하수처리장 방류량의 단기 예측모형을 개발한 바가 있다.

국외에서는 주로 하수처리장 운영 효율, 하·폐수 월류 방지 등을 목적으로 하수처리장 유입·방류량 예측을 위해 단기 예측모형(시계열분석모형, 인공신경망모형) 개발 연구가 진행되어 왔다. [2]El-Din et al.(2002)은 10분 단위의 3년(1995년~1997년) 간 강우량자료를 입력인자로 사용하여 캐나다 앨버타 주의 가장 큰 폐수처리장으로 유입되는 폐수 유입량을 인공신경망 모형인 Artificial Neural Network(ANN)를 사용하여 단기 예측을 하였다. Wei et al.(2013)은 15분 단위의 2007년 1월 1일~2008년 3월 31일 간 기상레이더 반사율, 강우 및 과거 유입량자료로 4가지 인공신경망모형인 Multi-Layer Perceptron Neural Network(MLPNN), Random forest, Boosted tree, SVM을 통해 미국 아이오와주 하수처리장의 유입량을 예측하였고 그 중 MLPNN이 가장 높은 성능을 보였다고 판단하였다. Zhang et al.(2019)은 15분 단위의 2년(2015년~ 2016년) 간 폐수 유입량자료로 Autoregressive Integrated Moving Average(ARIMA), MLPNN을 통해 폐수 유입량을 예측하였고 그 중 ARIMA 모형이 더 높은 정확도를 보였다. Karimi et al.(2019)은 1시간 단위의 2016년 4월 1일~2017년 9월 1일 간 강우량 및 지하수 수위자료를 통해 ANN, LSTM, Least Absolute Shrinkage and Selection Operator(LASSO)를 통해 하·폐수 유입량을 예측하였고 결론적으로 3가지 기법 모두 적용 가능하다고 하였다. Ding et al.(2019)은 6가지 동적 요인을 결합한 MIDAS 모형을 구축해 하수 방류량을 예측하였다.

최근까지 국내·외 연구는 하수처리장 일부 지점에 대한 하수 유입·방류량의 단기 예측모형을 개발하는데 집중한 반면 물순환계통에 대한 회귀수량의 해석과 예측은 여전히 미진한 상황이다. 따라서 본 연구는 하천의 가용수량 해석을 위해 전체 물순환계통을 고려한 회귀수량 예측모형 개발을 목표로 한다. 금번 연구에서는 용수공급체계가 비교적 단순하고 2022년~2023년 광주·전남지역 가뭄의 영향 지역인 함평군을 대상으로 물순환계통도 및 관련 DB를 구축하였다. 함평군 일대 도시지역의 유입·유출량을 중심으로 회귀수량을 해석·예측하기 위해 단기 시계열예측모형인 ARIMA 모형과 전이함수모형(Trasfer Function Model; TFM)의 활용 가능성을 검토하기로 하였다.

2. 연구방법

본 연구는 크게 1) 도시 물순환시스템의 정의, 2) 도시 물순환 시계열 특성의 이해, 3) 완전 계측지점에 대한 시계열예측모형 개발의 절차로 수행된다. Fig. 1과 같이, 물순환시스템을 정의하기 위해서는 우선적으로 연구대상지를 선정하고 해당 대상지의 물순환계통도를 조사하여 완전/불완전 계측지점으로 분류한다. 본 연구에서는 완전 계측지점을 중점으로 각 지점의 시계열 자료를 수집하여 이상치 및 결측치 제거의 품질보정 과정을 거친 후 통계량 변화를 통해 시계열 자료의 특성을 분석한다. 마지막으로 단기 시계열예측모형을 구축하여 회귀수량을 도출하였다.

Fig. 1. Steps for Development of Short-term Time-series Model for the Urban Water-cycle System
../../Resources/KSCE/Ksce.2023.43.6.0763/fig1.png

2.1 도시 물순환시스템 정의

도시의 관점에서 물순환시스템을 순차적으로 물 유입, 물 전달(도시지역으로의 공급), 물 유출(하천으로의 방류) 단계로 분류하였다. 생활용수를 대상으로 물 유입은 수원-취수장, 물 전달은 정수장-배수지-급수지역, 물 유출은 하수처리장-방류구로 정의하였다. 또한 물순환시스템의 단순화를 위해 물 전달을 블랙박스 형태로 간주하고 물 유입(취수장)과 물 유출(하수처리장)의 특성과 관계를 해석하기로 하였다.

2.1.1 연구대상지

본 연구의 대상지는 전라남도 함평군 일대로 급수인구 약 3만명(2021년 기준), 연간 총 취수량 약 2,926,042 m3(ME, 2022b)으로 영산강 유역 중 비교적 단순한 네트워크로 형성되어 있다. 대동저수지와 함평천 수원의 서비스지역으로 물순환시스템은 2023년 3월 기준 수원(2개소), 정수장(1개소), 배수지(1개소), 급수지역(6개 지점), 하수처리장(31개소)(ME, 2022a)으로 구성되어 있다(Fig. 2).

Fig. 2. Location of the Water-cycle System
../../Resources/KSCE/Ksce.2023.43.6.0763/fig2.png

2.1.2 물순환계통도 작성

물순환시스템 내 시설 위치, 제원, 연계시설, 시계열 자료를 구축하기 위해 자료생산기관 및 자료 수집 가능성을 파악하고 이를 토대로 대동저수지와 함평천 수원 서비스지역의 생활용수 물순환계통도를 작성하였다.

물 유입은 대동저수지 내 취수탑과 함평천 부근 취수펌프로 공급이 되며 함평정수장-함평배수지를 통해 함평군 내 6개 면 단위 급수지역으로 전달된다. 지역별로 2개의 공공하수처리시설(500 m3/일 이상)과 29개의 소규모 공공하수처리시설(500 m3/일 미만)을 통해 하수가 방류된다(Fig. 3).

Fig. 3. Formulation of the Water-cycle System
../../Resources/KSCE/Ksce.2023.43.6.0763/fig3.png

2.1.3 완전/불완전 계측지점 분류

지점별로 자료의 생산·관리기관, 길이, 신뢰성 등이 상이하여 완전 계측지점과 불완전 계측지점으로 분류하였다. 본 연구에서는 완전 계측지점에 집중하여 유입·유출의 관계를 정의하였다.

완전 계측지점은 충분한 자료 확보가 가능해 정확한 단기 예측모형을 구축할 수 있는 지점을 의미한다. 불완전 계측지점은 자료 이용 가능성이 낮아 비교적 단순한 추론모형을 구축해야하는 지점으로 두가지 사항을 기준으로 구분하였다.

불완전 계측지점은 첫째, 물 수요를 파악하기 위해 계절적인 요인을 확인할 수 있고 학습 및 검증을 위해 충분한 길이가 필요하므로 최소 4년 이상의 일단위 자료 확보가 힘든 지점을 의미한다. 둘째, 절대적인 유량의 크기(연평균 < 700 m3/s)가 미미한 지점이다. 유입량은 간헐적인 가동인 경우가 많아 시계열 자료의 불연속성이 큰 지점, 유출량은 수질 원격감시체계(Tele Monitoring System, TMS)가 도입되지 않은 하수처리장이 해당된다. 수질 TMS는 공공 하·폐수처리시설의 방류 수질을 실시간으로 관리하는 것을 목적(ME, 2012)으로 물환경보전법 시행령에 따라 부착대상 및 부착시기가 규정되어 있어 신속하고 정확한 측정을 가능하게 한다. 따라서 수질 TMS가 부착되어 있지 않은 사업장의 자료는 계측기기의 오작동, 수기 입력 등으로 인한 오·결측자료가 존재할 가능성이 있으므로 불완전 계측지점으로 선정하였다.

2.2 도시 물순환 시계열 특성 해석

2.2.1 자료 품질보정

수집한 시계열 형태 원시자료의 품질보정은 다음과 같이 수행하였다. 전처리 대상으로는 자료값이 존재하지 않는 결측치와 원칙적으로 측정 및 입력 오류, 외적 요인의 일시적 간섭 등으로 인해 시계열 자료의 주된 경향과 벗어난 이상치가 이에 해당한다. 결측치의 경우, 날짜 변수를 생성 및 유입·유출 시계열 자료를 입력한 후 결측 이전과 이후 2개의 근접값 평균을 적용해 결측치를 처리하였다. 이상치의 경우, Interquartile Range(IQR)를 기반으로 탐지하고 제거 후에는 위와 같은 결측치 처리방법을 통해 생성하였다.

2.2.2 시계열 자료 분석

일반적으로 시계열 자료는 추세성, 계절성, 주기성 등 비정상성의 특성을 갖는다. 시간에 상관없이 일정한 변동폭을 보이는 정상성 시계열과 시간에 따라 통계적인 특성이 변동되는 비정상성 시계열로 분류된다. 시계열 자료 분석을 통해 변수의 현상을 설명하고 통계모형이나 기계학습모형을 통해 미래를 예측할 수 있다. 비정상성 시계열 자료를 분석할 때는 자료를 정상화해야 하는데 변환, 차분, 추세제거의 방법이 있다.

Box-Jenkins 모형은 시계열 자료 분석 시 사용되는 대표적인 예측 모형으로 3단계로 구성된다. 1단계로 자기상관계수(Autocorrelation; AC)와 부분자기상관계수(Partial Autocorrelation; PAC)를 통해 모형식별을 한다. 2단계는 비조건최소제곱법, 조건최소제곱법, 최우추정법을 통해 파라미터 추정을 한다. 3단계에서는 Akaike Information Criterion(AIC)과 Schwartz Bayesian Criterion(SBC)으로 모형에서 도출된 예측값과 잔차의 적합도를 판별한다. 또한 잔차 간 상관성이 높으면 모형이 시계열 자료를 설명하지 못한다고 판단하기 때문에 Box-Ljung Q* 통계량으로 검증한다.

2.3 단기 시계열모형 개발

2.3.1 ARIMA 모형

시계열에 대한 Box-Jenkins 모형은 Auto-Regressive(AR) 모형, Moving Average(MA) 모형, Auto-Regressive Moving Average(ARMA) 모형이 있다. AR 모형은 현재 시계열 값이 과거 관측 값으로 설명되는 모형으로 다음과 같다.

(1)
$y_{t}=\alpha_{1}y_{t-1}+\alpha_{2}y_{t-2}+\cdots +\alpha_{p}y_{t-p}+\varepsilon_{t}$

Eq. (1)은 $p$차 AR 모형이라 하며 AR($p$)로 표현한다. 여기서 $y_{t}$는 현재 시계열, $\alpha_{p}$는 자기회귀계수, $p$는 자기회귀차수, $\varepsilon_{t}$는 오차항을 의미한다. MA 모형은 과거 연속적인 오차항의 영향을 받는 경우 사용되는 모형으로 다음과 같다.

(2)
$y_{t}=\varepsilon_{t}-\beta\varepsilon _{t-1}-\cdots -\beta_{q}\varepsilon_{t-q}$

Eq. (2)는 $q$차 MA 모형이라 하며 MA($q$)로 표현한다. 여기서 $\beta_{q}$는 이동평균계수, $q$는 이동평균차수를 의미한다. ARMA 모형은 AR 모형과 MA 모형의 혼합된 형태로 과거 시계열 자료와 오차항의 영향을 모두 받는 경우 사용되는 모형으로 다음과 같다.

(3)
$y_{t}=\alpha_{1}y_{t-1}+\cdots +\alpha_{p}y_{t-p}+\varepsilon_{t}-\beta\varepsilon _{t-1}-\cdots -\beta_{q}\varepsilon_{t-q}$

Eq. (3)은 ARMA($p,\: q$)로 표현한다. 비정상적 시계열 자료에 대한 Box-Jenkins 모형은 ARIMA 모형으로 다음과 같다.

(4)

$z_{t}=\alpha_{1}z_{t-1}+\alpha_{1}z_{t-2}+\cdots +\alpha_{p}z_{t-p}+\varepsilon_{t}$

$-\beta\varepsilon _{t-1}-\beta \varepsilon_{t-2}-\cdots -\beta_{q}\varepsilon_{t-q}$

Eq. (4)는 ARIMA($p,\: d,\: q$)로 표현한다. 여기서 $z_{t}$는 차분한 정상시계열, $d$는 차분차수를 의미한다. 일정 시간 사이에서 동일하게 반복되는 시계열을 계절 시계열이라 하는데 대부분의 시계열 자료는 비정상적이며 계절성을 갖고 있는 경우가 많다. 이를 비정상적 계절시계열이라 하는데 추세를 제거하는 차분을 반복적용하여 정상화한다. ARIMA$(p,\: d,\: q)(p*,\: d*,\: q*)_{s}$로 표현하며 ($p,\: d,\: q$)는 일반 모형 차수, ($p*,\: d*,\: q*$)는 계절 ARIMA 모형 차수, $s$는 시차를 의미한다.

2.3.2 전이함수모형

전이함수모형은 출력시계열이 입력시계열에 의해 설명이 가능하고 ARIMA 모형에서 입력변수를 고려한 모형이다. 전이함수에 관찰되지 않은 잡음과정이 더해진 구조로 아래의 Eqs. (5)~(6)과 같이 나타낸다.

(5)
$\nu(B)=\sum_{j=1}^{\infty}\nu_{j}B^{j}$
(6)
$Y_{t}=\beta_{0}+\nu(B)X_{t}+N_{t}$

여기서 $\nu(B)$는 전이함수, $\nu_{j}$는 충격반응함수, Xt는 입력시계열, Yt는 출력시계열, Nt는 잡음과정이다. Nt는 ARMA$(p,\: q)\times(P,\: Q)_{s}$ 모형을 따른다. 전이함수모형은 4가지 단계에 거쳐 설정이 되는데, 1) 시계열 자료의 정상화 및 ARIMA 모형 구축, 2) 입력계열의 모형화, 3) 사전백색화과정, 4) 전이함수계산, 5) 최종모형 결정 순이다. 1)의 과정은 앞서 2.3.1 ARIMA 모형에서 설명하였다. 전이함수모형에서 ARMA$(p,\: q)\times(P,\: Q)_{s}$ 모형을 적용하여 백색잡음과정을 아래의 Eq. (7)과 같이 정의한다.

(7)
$\alpha_{t}=(\theta_{a}(B)\Theta_{a}(B^{s}))^{-1}\phi_{a}(B)\Phi_{a}(B^{s})X_{t}$

여기서 at는 백색잡음과정이며 사전백색화 과정은 Eq. (7)에서 추정된 사전백색화 모수를 출력시계열에 적용하여 아래의 Eq. (8)과 같이 정의한다.

(8)
$\beta_{t}=(\theta_{a}(B)\Theta_{a}(B^{s}))^{-1}\phi_{a}(B)\Phi_{a}(B^{s})Y_{t}$

$(a,\: \beta)$의 교차상관함수 $\rho_{a\beta}(k)$를 통해 $v_{k}$를 도출한다. 전이함수 설정 시 초기추정치 $\omega_{s}$, $\delta_{r}$로 잡음과정을 산출하고 ACF와 PACF를 통해 최종모형을 아래의 Eq. (9)와 같이 결정한다.

(9)
$Y_{t}=\dfrac{\omega_{s}(B)}{\delta_{r}(B)}B X LSUP d_{t}+\dfrac{\theta(B)\Theta(B^{s})}{\phi(B)\Phi(B^{s})}a_{t}$

2.3.3 오차지표

아래 식에 제시된 매개변수들을 이용하여 기존 관측값과 도출된 예측값 간의 정확도를 비교하였다(Eqs. (10)~(13)).

(10)
$R^{2}=\dfrac{\sum_{i=1}^{N}(S_{i}-\overline{S})\times(O_{i}-\overline{O})}{\sqrt{\sum_{i=1}^{N}(S_{i}-\overline{S})^{2}\times\sum_{i=1}^{N}(O-\overline{O})^{2}}^{2}}$
(11)
$MAE =\dfrac{1}{N}\sum_{i=1}^{N}\left | S_{i}-O_{i}\right |$
(12)
$RMSE =\sqrt{\dfrac{1}{{N}}\sum_{{i}=1}^{{n}}({S}_{{i}}-{O}_{{i}})^{2}}$
(13)
$MAPE =\dfrac{100}{n}\times\sum_{i=1}^{n}\left |\dfrac{S_{i}-O_{i}}{S_{i}}\right |$

여기서 N은 자료의 수, $S_{i}$는 모형 예측값, $\overline{S}$는 모형 평균값, $O_{i}$는 관측값, $\overline{O}$는 관측 평균값을 의미한다.

3. 결과 및 검토

3.1 도시 물순환시스템 정의

함평군 대동저수지·함평천 수원의 서비스지역 내 완전 계측지점의 물순환시스템은 Fig. 4와 같이 정의되었다. 물 유입은 함평정수장에서 수질에 따라 대동저수지와 함평천을 선택적으로 취수하고 있어 단일 유입지점으로 설정(Pearson $\gamma$ = -0.95)하였다. 이후 도시 내 송수, 정수, 공급, 하수 전환, 처리장 이송 등의 물 전달을 프로세스로 처리하였다. 또한 하수처리장의 경우 최소 4년 이상의 계측자료가 존재하고 수질 TMS가 도입된 공공하수처리시설 중 연평균 유입량이 총 700 m3/s인 함평공공하수처리장을 유출지점으로 정의하였다. 함평공공하수처리장은 6년간 누적량 대비 물순환시스템 전체 유출량의 약 74%를 차지한다. 따라서 함평취수장 서비스지역의 완전 계측지점 시스템은 단일 유입지점(대동저수지 또는 함평천)-물 전달 프로세스(블랙박스)-단일 유출지점(함평공공하수처리장)으로 도출되었다. 편의상 유입지점을 Xt(X1), 유출지점을 Yt(Y1)로 표기하였다.

Fig. 4. The Water-cycle System at Complete Measurement Point
../../Resources/KSCE/Ksce.2023.43.6.0763/fig4.png

3.2 도시 물순환 시계열 특성

물순환계통 DB 구축을 위해 시계열 형태의 원시자료를 수집하였다. 연구에 활용한 기간은 총 6년(2017년 1월 1일~2022년 12월 31일)으로 1일 단위이다. 유입량은 대동저수지와 함평천 취수량이 각각 3일 결측되어 위 방식으로 보완하였고 함평공공하수처리장 유출량은 결측치가 없었다. 유입량과 유출량의 품질보정 전·후의 기초통계량(구간크기, 표준편차, 왜도, 첨도)의 변화는 전반적으로 향상하였다. 품질보정 자료를 활용한 유입·유출 간의 회귀율은 계절별로 Table 1과 같이 확인되었다.

함평군 완전 계측지점에서의 평균적인 회귀율은 Table 2와 같이 나타난다. 회귀율은 도시의 유형에 따라 다를 것으로 예상되며 함평군의 완전 계측지점 내 회귀율은 약 49%이고 불완전 계측지점 보정 시, 전체 회귀율은 약 66%로 유출량의 상당 부분이 회귀되는 것으로 확인되었다. 특히 여름과 겨울의 회귀율이 약 10~14% 차이가 있어 현재 생활용수 회귀율을 일괄적으로 65%로 적용하는 것은 계절별 변동폭이 존재할 것으로 판단된다.

Fig. 5는 유입량 및 유출량의 원자료와 1차 차분한 결과이다. 유입량과 유출량의 원자료는 유의하지만 미약한 수준의 장기 감소 추세가 있으며 자기상관함수에서도 오랜 기간 자기 상관성이 지속되어 비정상성이 높았다.

Fig. 5. Time-series Characteristics of Inflow and Outflow: (a) Inflow, (b) ACF of the 1st order Differencing of Inflow, (c) Outflow, (d) ACF of the 1st order Differencing of Outflow
../../Resources/KSCE/Ksce.2023.43.6.0763/fig5.png

자료의 추세를 제거하기 위해 1차 차분을 한 결과, 백색잡음에 가까운 시계열 특성을 보이며 자기상관함수에서 유입량은 2일, 유출량은 1일의 시차까지 신뢰한계를 넘은 후 급감하며 주기성은 크지 않았다. 2차 차분 결과도 백색잡음에 가까운 시계열을 나타내나 자기상관함수가 -0.5를 넘어 과대차분의 우려가 있다. 따라서 비정상 시계열인 유입량과 유출량 자료는 감소 추세가 있으며 유입량은 2일, 유출량은 1일의 시차까지 자기상관성이 유의미하나 주기성은 두드러지지 않는다고 해석된다. 유입량 시계열은 $X_{t}\sim ARIMA(0,\: 1,\: 1)$ 또는 $ARIMA(0,\: 1,\: 2)$, 유출량 시계열은 $Y_{t}\sim ARIMA(0,\: 1,\: 1)$ 또는 $ARIMA(0,\: 1,\: 2)$로 설명 가능할 것으로 예상되었다.

함평군 내 유입량과 함평공공하수처리장의 유출량 간 교차상관도는 동일 시점에서 0.324로 높은 수준이며 9일 이후 0.333까지 서서히 증가하다가 감소한다. 따라서 함평공공하수처리장의 유출량에 있어 함평군 내 유입량이 유의미한 영향을 주며 취수에서 방류까지 평균 9일의 지연시간을 갖는다고 해석할 수 있다.

Table 1. Analysis of Basic Statistics

Inflow

Outflow

before QC

after QC

before QC

after QC

Interval size

9,667

5,499

8,840

5,332

Standard Deviation

1,138

1,008

982

960

Skewness

0.239

0.180

0.320

0.234

Kurtosis

1.913

-0.188

0.043

-0.528

(QC: Quality Control)
Table 2. Return Flow Rate of the Hampyeong-gun Water-cycle System

All

Winter

Spring

Summer

Autumn

Return flow rate (%)

49(66)

43(58)

50(68)

53(72)

51(69)

( ) : Considering Incomplete measurement point

3.3 완전 계측지점에 대한 시계열예측모형 개발

3.3.1 ARIMA 모형 구축

ARIMA 모형을 구축하기 이전에 시계열 자료를 학습기간(2017년 1월 1일~2019년 12월 31일, 총 3년), 검증기간(2020년 1월 1일~2022년 12월 31일, 총 3년)으로 분류하였다.

도시지역 유입량의 단기 예측을 위한 최적 모형은 $X_{t}\sim$$ARIMA(p,\: d,\: q)= ARIMA(0,\: 1,\: 1)$ 구조로 Table 3에서 Box-Ljung Q* 통계를 통해 모형을 진단하였다. 취수의 인위적인 특성에도 불구하고 아래의 Eq. (14)와 같이 유의미한 모형을 도출할 수 있었다. 또한 ACF와 PACF를 통해 잔차는 백색잡음에 가깝게 안정적이라 판단되었다. 즉, Box-Ljung Q*의 p-value >> 0.05이다.

(14)
$(1-B)x_{t}=(1-\theta_{1}B)a_{t}$ → $x_{t}=x_{t-1}-0.503a_{t-1}-a_{t}$

학습기간과 검증기간의 시계열 자료의 오차지표는 Table 4와 같다. 검증기간에서 모형 정확성이 다소 저하되나 추세변동에 적응성이 양호해 단기 예측에 활용 가능한 수준이다.

도시지역 유출량의 단기 예측을 위한 최적모형은 $Y_{t}\sim$ $ARIMA(p,\: d,\: q)= ARIMA(0,\: 1,\: 2)$ 구조로 Box-Ljung Q* 통계를 통해 모형을 진단하였다. 유입량의 단기 예측모형과 마찬가지로 모형의 유의성을 확인할 수 있었으며 해당 모형은 아래의 Eq. (15)로 정의할 수 있다. ACF와 PACF를 통해 lag=3 시점에서 잔차가 일부 신뢰한계를 넘어서기도 하지만 전체적으로 백색잡음으로 볼 수 있다. 즉, Box-Ljung Q*의 p-value > 0.05이다.

(15)

$(1-B)y_{t}=(1-B)y_{t}$ →

$y_{t}=y_{t-1}-a_{t}-0.392a_{t-1}-0.141a_{t-2}$

Table 4Fig. 6, 7을 통해 유출량의 단기 예측모형 또한 검증기간에서 모형 정확성이 다소 저하되나 추세변동에 적응성이 양호해 단기 예측에 활용 가능한 수준이라고 판단되었다. 함평군의 경우 유입량보다 유출량 예측이 정확도가 높았으며 두 모형 모두 잔차가 안정적이고 매개변수가 유의미하여 단기 예측에 필요한 설명력을 지니고 있다고 판단되었다.

Fig. 6. Comparison of Observed and Predicted Values of Inflow: (a) Training Period, (b) Test Period
../../Resources/KSCE/Ksce.2023.43.6.0763/fig6.png
Fig. 7. Comparison of Observed and Predicted Values of Outflow: (a) Training Period, (b) Test Period

../../Resources/KSCE/Ksce.2023.43.6.0763/fig7.png

../../Resources/KSCE/Ksce.2023.43.6.0763/fig7-1.png

Table 3. Statistics of the ARIMA Model & TFM

Model

Lag Num

Coeff.

S.E.

t

Statistical significance

Box-Ljung Q*

Statistic

Degrees of freedom

Statistical significance

AIC

BIC

ARIMA model

Inflow

MA

1

0.50

0.03

18.9

≒ 0

20.0

17.0

0.28

13,504.9

13,584.8

24.4

16.0

0.08

12,113.6

12,343.5

Outflow

MA

1

0.39

0.03

13.9

≒ 0

2

0.14

0.03

5.0

≒ 0

TFM

Inflow

N

0

-0.01

0.01

-0.93

0.35

14.9

14.0

0.38

11,887.7

12,116.8

1

-0.02

0.01

-2.22

0.03

N,S

1

0.91

0.15

6.04

≒ 0

D

1

0.99

0.01

70.61

≒ 0

Outflow

AR

1

0.40

0.05

7.34

≒ 0

AR,S

1

-0.98

0.04

-27.99

≒ 0

MA

1

0.75

0.04

18.99

≒ 0

MA,S

1

-0.97

0.04

-23.01

≒ 0

(N: Numerator, S: Seasonal, D: Denominator)
Table 4. Comparison of Error Indices for ARIMA Models

Inflow

R2(%)

MAE(m3/day)

RMSE(m3/day)

MAPE(%)

Training

76.6

362.8

472.1

4.2

Test

61.8

456.8

609.1

5.6

Outflow

Training

91.5

168.0

248.6

3.9

Test

76.2

297.2

493.2

7.5

3.3.2 전이함수모형 구축

도시지역 유입량 Xt를 고려하여 유출량 Yt를 예측하는 전이함수모형은 Eq. (16)과 같이 구축하였다. 예측변수인 유입량의 중요도는 0.55로 유출량은 유입량과 높은 관련성이 있음을 확인할 수 있었다. Table 3에서 모든 매개변수가 유의했지만 유입량을 반영하기 위한 시차 0의 분자항 매개변수는 통계적 유의성이 충분하지 않는 한계를 보였다. 잔차는 95% 신뢰한계 구간을 벗어나지 않아 전이함수모형은 자기 상관도 문제를 극복 가능하다고 판단하였다.

(16)
$(1-\phi_{1}B)(1-\Phi_{1}B^{4})(1-B)(1-B^{4})x_{t}$ $=(1+\theta_{1}B)(1+\Theta_{1}B^{4})a_{t}$

전이함수모형도 동일한 학습기간과 검증기간을 적용하였다. Table 5Fig. 8을 통해 학습기간의 모형 정확도가 더 우수하고 전이함수모형 또한 2021년 상반기 유출량의 높은 변동성을 설명하는 데 어려움은 존재하나 전반적인 유출량 추이를 확인할 수 있었다.

ARIMA 모형과 전이함수모형을 통해 도출한 전체 회귀율은 약 49.3%, 49.5%이며 오차지표를 통해 비교한 정확도도 큰 차이를 보이지 않는 것으로 확인되었다. 그러나 전이함수모형은 유입량과 유출량의 관계를 파악할 수 있고 유입량으로 유출량을 설명할 수 있다. 이는 물순환의 관점에서 정확도에 대한 우려없이 예측 가능성 확보를 통한 모형의 유용성이 나타난다고 판단되었다.

Fig. 8. Comparison of Observed and Predicted Values during the Training/Test Period of the TFM: (a) Training Period, (b) Test Period
../../Resources/KSCE/Ksce.2023.43.6.0763/fig8.png
Table 5. Comparison of Error Indices for the TFM

R2(%)

MAE(m3/day)

RMSE(m3/day)

MAPE(%)

Training

91.1

166.5

248.0

3.9

Test

76.2

297.7

492.7

7.6

4. 결 론

본 연구는 하천의 가용수량 확보 및 해석의 정책적 필요성에 따라 생활용수 회귀수량 분석 방법론을 검토하였다. 함평군 일대 사례연구를 통해 다음의 결과를 도출하였다.

(1) 생활용수의 물순환시스템을 도시지역의 관점에서 물 유입, 물 전달, 물 유출의 프로세스로 정의하였고 완전 계측지점과 불완전 계측지점으로 구분하여 분석대상을 효과적으로 정의할 수 있었다.

(2) 유입량과 유출량 자료의 비교를 통해 대상지역에 대한 계절별 회귀율의 특성을 완전 계측지점에 대해 약 43~53%로 산정하였으며, 불완전 계측지점을 고려한 전체 시스템에 대해서는 약 58~72%로 추정하였다. 일반적으로 수자원계획 수립 시 가정하는 65%와 비교할 때 큰 차이를 보이지 않으나 회귀율에 계절적 변동성이 크다는 점을 알 수 있었다.

(3) 단기 시계열 자료 분석기법을 통해 유입량과 유출량 자료의 비정상성을 파악하였는데, 대상지역의 유입량은 2일, 유출량은 1일 시차까지 높은 자기 상관성을 보이고 있었다. 또한 유입량과 유출량 간 물 흐름 경로를 따라 평균 9일의 시차와 함께 높은 교차 상관성도 확인할 수 있었다.

(4) 일단위 시계열 자료의 비정상성을 제거하여, 유입량과 유출량에 대한 통계적으로 유의한 ARIMA 모형을 도출할 수 있었으며, 유입・유출의 관계를 구현할 수 있는 전이함수모형까지 구축할 수 있다는 가능성을 확인할 수 있었다.

본 연구를 통해 회귀수량 예측을 위한 방법론적인 가능성을 실증하였지만, 향후 수행되어야 할 많은 연구가 남겨져 있다. 그중에서도 금번 연구에서 고려하지 않았던 물순환계통의 유입과 유출의 불완전 계측지점이나 불명수, 누수 등 물순환계통 내 미계측지점에 대한 고려, 기상・수문 변수의 내생화 등은 회귀수량의 보다 정확도 높은 단기예측을 위해 필요한 연구라고 판단된다. 또한 본 연구에서는 단기 시계열 자료 모형 구축에 집중하였으나, 실무적인 범용성을 위해 기계학습모형의 가능성에 대해서도 검토할 필요가 있다. 아울러, 도시지역의 물순환 해석을 위해서는 생활용수뿐만 아니라, 국내 주요 산업단지를 중심으로 한 공업용수 회귀수량의 특성 이해와 단기 예측 방법론 개발도 필요하다.

Acknowledgements

This work is supported by the Korea Environmental Industry & Technology Institute (KEITI) grant funded by the Korea Ministry of Environment (2022003610003).

References

1 
Ding, L., Lv, Z., Han, M., Zhao, X. and Wang, W. (2019). “Forecasting China's wastewater discharge using dynamic factors and mixed-frequency data.” Environmental Pollution, Elsevier, Vol. 255, 113148, https://doi.org/10.1016/j.envpol.2019.113148.DOI
2 
El-Din, A. G. and Smith, D. W. (2002). “A neural network model to predict the wastewater inflow incorporating rainfall events.” Water Research, Elsevier, Vol. 36, No. 5, pp. 1115-1126, https://doi.org/10.1016/S0043-1354(01)00287-1.DOI
3 
Jeong, C. G. and Kim, S. J. (2015). “A study on the improvement of the calculation method of return flow for residential water.” Magazine of Korea Water Resources Association, KWRA, Vol. 48, No. 12, pp. 34-42 (in Korean).URL
4 
Karimi, H. S., Natarajan, B., Ramsey, C. L., Henson, J., Tedder, J. L. and Kemper, E. (2019). “Comparison of learning-based wastewater flow prediction methodologies for smart sewer management.” Journal of Hydrology, Elsevier, Vol. 577, 123977, https://doi.org/10.1016/j.jhydrol.2019.123977.DOI
5 
Lee, J. H. (2012). “Study on the relationship between weather conditions, sewage and operational variables of WWTPs using multivariate statistical methods.” Journal of Korean Society on Water Environment, KSWE, Vol. 28, No. 2, pp. 285-291 (in Korean).URL
6 
Lee, W. W. and Jang, I. H. (2018). Analysis of Time Series Data Using Spss (3rd ed.). Freeacademy. pp. 118-197, https://product.kyobobook.co.kr/detail/S000001762430.URL
7 
Ministry of Environment (ME) (2012). Korea Environment Corporation. Water quality TMS installation and operation manual for advanced and scientific water quality management (in Korean).URL
8 
Ministry of Environment (ME) (2021). 1st National Water Management Master Plan 2021-2030, Collaboration with relevant ministries, 11-1480000-001756-14 (in Korean).URL
9 
Ministry of Environment (ME) (2022a). 2021 Statistics of Wasteworks (in Korean).URL
10 
Ministry of Environment (ME) (2022b). 2021 Statistics of Waterworks (in Korean).URL
11 
Wei, X., Kusiak, A. and Sadat, H. R. (2013). “Prediction of influent flow rate: data-mining approach.” Journal of Energy Engineering, ASCE, Vol. 139, No. 2, pp. 118-123.DOI
12 
Yoo, H. J., Lee, S. O., Choi, S. H. and Park, M. H. (2020). “Development of a data-driven model for forecasting outflow to establish a reasonable river water management system.” Journal of Korean Society of Disaster and Security, KSDS, Vol. 13, No. 4, pp. 75-92, https://doi.org/10.21729/KSDS.2020.13.4.75 (in Korean).DOI
13 
Zhang, Q., Li, Z., Snowling, S., Siam, A. and El-Dakhakhni, W. (2019). “Predictive models for wastewater flow forecasting based on time series analysis and artificial neural network.” Water Science and Technology, IWA, Vol. 80, No. 2, pp. 243-253, https://doi.org/10.2166/wst.2019.263.DOI