강덕준
(Dejun Jiang)
1aiD
권혁구
(Hyuk-Ku Kwon)
1b,†iD
-
호서대학교 환경공학과
(Department of Environmental Engineering, Hoseo University)
Copyright © KOREAN SOCIETY ON WATER ENVIRONMENT
Key words
Algal blooms, Imbalanced regression, Isolation forest, SMOGN, XGBoost
1. Introduction
전 지구적인 기후 변화와 인간 활동에 의한 하천 내 영양염류 유입은 수생태계의 부영양화를 가속화시키는 주요 원인으로 작용하고 있다(Chapra et al., 2017). 하천 및 저수지 시스템에서 빈번하게 발생하는 Harmful Algal Blooms (HABs)은 수체 내 산소를 고갈시키고 남조류 독소를 방출하여
수생태계를 파괴한다(Feng et al., 2024). 이는 취수원 공급의 안정성을 위협하는 등 물 안보에 부정적인 영향을 미칠 수 있어 지속적인 모니터링과 관리가 중요하다(Hollister and Kreakie, 2016; Lopez Barreto et al., 2024). 수체 내 chlorophyll-a (Chl-a) 농도는 조류 발생 정도를 나타내는 대표적인 정량적 지표로 활용되며, 수질 관리 및 선제적인 조기
경보 시스템 구축을 위해서는 Chl-a 농도 변화에 대한 정확한 예측이 선행되어야 한다(Park et al., 2015).
전통적으로 수질 예측을 위해 process-based 물리적 모형이 널리 사용되어 왔으나, 모형의 구동을 위한 방대한 매개변수의 불확실성과 높은 계산
비용 등의 한계가 존재한다(Kim et al., 2018). 생물학적 요인과 다양한 물리화학적 인자 간의 비선형적 상호작용을 명확히 규명하는 데 어려움이 있다(Cheng et al., 2021). 이러한 한계를 보완하기 위해 최근 데이터 기반의 머신러닝(ML) 기법이 대안으로 대두되고 있다. 머신러닝 기법을 활용한 Chl-a 예측 연구로는
Kim and Ahn (2022)의 한강 유역 대상 XGBoost 적용 연구, Kim, Shin et al. (2021)의 ADASYN 기반 불균형 데이터 보정 연구, 그리고 Ly et al. (2021)의 한강 10년 데이터 기반 앙상블 모형 비교 연구 등이 있으며, 이들은 ML 기법이 복잡한 수질 변동성 모의에 효과적임을 보고하였다(Kim, Shin et al., 2021; Kim and Ahn, 2022; Ly et al., 2021). 현재 ANN, SVM, RF 등의 단일 모형부터 LSTM, GRU 등의 딥러닝 알고리즘, 그리고 XGBoost, LightGBM, CatBoost
등 다양한 앙상블 알고리즘이 복잡한 수질 변동성을 모의하는 데 활용되고 있다(Ahn et al., 2023; Kim, Shin et al., 2021; Wang et al., 2023).
데이터 기반 모형은 학습 데이터의 통계적 특성에 따라 예측 성능이 크게 좌우되는 특징을 가진다(Zhi et al., 2024). 현장에서 계측된 수문 및 수질 데이터는 센서의 이상이나 통신 오류 등으로 인한 stochastic noise와 결측치, 이상치를 포함할 가능성이
높다(McMillan et al., 2012). 이상치가 포함된 자료가 모형 학습에 그대로 활용될 경우 데이터의 특성이 왜곡되어 예측 성능 저하를 유발할 수 있어 적절한 전처리가 요구된다(Lee et al., 2025). 환경 데이터, 특히 조류 발생 데이터는 저농도 구간이 대부분을 차지하고 고농도 발생 사상은 드물게 나타나는 long-tailed 분포의 특성을
보인다(Merder et al., 2024). 일반적인 회귀 알고리즘은 전체적인 오차를 최소화하는 방향으로 학습되므로, 데이터의 다수를 차지하는 저농도 구간에 편향되는 경향이 있다(Liu et al., 2021). 이로 인해 실제 관리가 필요한 고농도 조류 발생 구간에 대한 예측 정확도가 현저히 떨어지는 ‘imbalanced regression’ 문제가 발생하게
된다(Glibert, 2020). 고농도 구간 예측 한계는 기존 ML 기반 Chl-a 연구에서도 공통적으로 지적되어 온 문제로, 본 연구는 이를 해결하기 위한 통합적 접근법을 제안한다는
점에서 차별성을 가진다(Kim, Shin et al., 2021; Shin et al., 2021).
선행 연구들에서는 불균형 문제를 해결하기 위해 데이터를 발생⋅비발생 문제로 단순화하거나, 단순한 오버샘플링 기법을 적용해 왔다(Jeong et al., 2022). 분류 접근법은 연속적인 농도 변화를 예측하는 데 한계가 있으며, 단순 오버샘플링은 overfitting을 유발할 위험이 있다(Shin et al., 2021). 최근에는 Isolation Forest (IForest), LOF 등의 비지도 학습 기반 이상치 탐지 기법과 함께, 데이터의 분포를 고려하여 가상의
데이터를 생성하는 Synthetic Minority Over-sampling Technique for Regression (SMOTER), Synthetic
Minority Over-sampling Technique for Regression with Gaussian Noise (SMOGN) 등의 고도화된
데이터 증강 기법의 적용성이 검토되고 있다(Park et al., 2024). 하지만 실제 하천 수질 데이터에 대해 이상치 제거와 불균형 해소 기법을 통합적으로 적용하여 예측 성능을 평가한 연구는 다소 미흡한 실정이다(Ly et al., 2021).
본 연구에서는 미호강 유역을 대상으로 Chl-a 농도 예측을 위한 머신러닝 모형을 구축하고, 데이터 전처리 및 증강 기법이 모형의 성능에 미치는 영향을
분석하였다. IForest 알고리즘을 적용하여 다변량 이상치를 탐지 및 제거하여 학습 데이터의 품질을 확보하였다. 데이터 불균형 해소를 위해 Gaussian
Noise (GN) 주입 기법과 SMOGN 알고리즘을 각각 적용하고, 대표적인 앙상블 모델인 XGBoost를 이용하여 각 시나리오별 예측 성능을 비교⋅평가하였다.
이를 통해 고농도 조류 발생 사상에 대한 예측력을 제고하고, 데이터 불균형이 존재하는 하천 수질 예측 모형의 성능 개선 가능성을 확인하고자 한다.
2. Materials and Methods
2.1. 연구대상 지역 및 데이터 구축
본 연구의 대상 지역은 금강 수계의 주요 지류인 미호강 유역으로 선정하였다(Kim, Jones et al., 2021). 미호강은 대한민국 중부권에 위치하며 청주시와 세종시 등 도심지와 광범위한 농경지를 관류하는 특성을 보인다(Legesse et al., 2022). 지리적 특성으로 인해 강우 시 유역 내 점오염원 및 비점오염원으로부터 다량의 영양염류가 하천으로 유입되어 수질 오염에 취약한 특성을 보인다(Kim et al., 2014). 본 연구에서는 환경부 국립환경과학원 물환경정보시스템에서 제공하는 국가 수질자동측정망 자료를 활용하여 데이터를 구축하였다(Yu et al., 2024). 분석 기간은 2016년 4월 1일부터 2025년 4월 1일까지이며, 약 9년 동안 수집된 시계열 자료를 바탕으로 데이터셋을 구성하였다.
조류 발생 예측 모형의 구축을 위해 수질 및 수생태계 변화에 영향을 미치는 주요 인자를 선별하였다. 조류 발생의 정량적 지표인 Chl-a를 종속변수로
설정하였다(Reckhow et al., 2005). 독립변수로는 수온(Temp), 수소이온농도(pH), 전기전도도(EC), 용존산소(DO), 탁도(NTU), 총유기탄소(TOC) 등 총 6가지 물리화학적
수질 인자를 선정하여 활용하였다(Kim and Ahn, 2022). 전처리 과정을 거치기 전의 raw data는 총 3,288개로 집계되었다.
2.2. 이상치 탐지 및 데이터 전처리
수질 데이터의 신뢰성을 확보하기 위해 우선적으로 결측치 제거 과정을 수행하였다. 독립변수인 수온, pH, EC, DO, NTU, TOC 및 종속변수인
Chl-a 중 하나의 항목이라도 결측이 존재하는 경우 해당 데이터를 분석에서 제외하였다. 결측치 제거 후 초기 3,288개의 데이터 중 2,054개의
유효 데이터가 확보되었다.
이후 회귀 모형의 학습 성능을 저하시킬 수 있는 다변량 이상치를 식별하기 위하여 IForest 알고리즘을 적용하였다(Liu et al., 2020). IForest는 고차원 데이터셋 내에서 정상 데이터와 다른 분포를 보이는 이상치를 탐지하는 데 효과적인 것으로 알려져 있다(Shao et al., 2020). 알고리즘 구현에는 Python의 Scikit-learn 라이브러리를 활용하였으며, 데이터셋 내 이상치 비율을 결정하는 contamination
매개변수는 0.03으로 설정하였다(Lee and Park, 2025). 앙상블 학습을 위한 base estimator의 수는 100으로 설정하였으며, 분석의 재현성을 위해 random state를 고정하였다(Ashraf and Islam, 2023). IForest 적용 결과, 전체 데이터의 약 3.02%에 해당하는 62개의 데이터가 이상치로 판별되어 제거되었다. 제거된 데이터는 주로 탁도와
Chl-a 간의 상관관계 등에서 일반적인 하천의 거동 범위를 벗어나는 특이점을 보인 것으로 확인되었다. 최종적으로 이상치가 제거된 1,992개의 데이터셋이
머신러닝 모형 구축 및 데이터 불균형 해소 전략 적용에 활용되었다.
데이터 스케일링과 관련하여, SMOGN 알고리즘 적용 시 k-최근접 이웃 기반의 거리 계산이 목표 변수(Chl-a)의 크기에 의해 왜곡되지 않도록,
독립변수와 종속변수 전체에 대해 Standard Scaling을 선행 적용하였다(Zhang et al., 2024). SMOGN을 통한 합성 샘플 생성 후에는 역변환(inverse transform)을 수행하여 원래의 물리적 단위로 복원하였다.
2.3. 데이터 불균형 해소 전략
일반적으로 하천 수질 데이터는 저농도 구간이 빈번하게 관측되고 고농도 조류 발생 구간은 드물게 나타나는 long-tailed 분포 특성을 보인다(Wang and Convertino, 2023). 이러한 데이터 불균형은 회귀 모형이 고농도 구간을 과소예측하게 만드는 원인이 되므로 적절한 데이터 증강 기법의 적용 중요성이 대두되고 있다(Mori et al., 2022). 본 연구에서는 이를 해결하기 위해 GN 주입 기법과 SMOGN 알고리즘을 적용하여 그 효과를 비교⋅분석하고자 한다. 두 기법 모두 학습 데이터(Train
set)에 한하여 적용하였으며, 증강 전후의 Chl-a 분포 변화 및 합성 샘플의 통계적 특성을 검토하여 데이터 품질을 확인하였다. 증강된 학습 데이터는
원본 평가 데이터(Test set)와 엄격히 분리되어 모형 평가에 사용되었다.
2.3.1. Gaussian Noise 증강
GN 기법은 Chl-a 농도 분포의 상위 구간에 대해 선택적으로 노이즈를 주입하여 데이터를 증강하는 방식이다(El Bilali et al., 2021). 증강 대상 구간의 선정을 위해 상위 15%, 10% (각각 분위수 0.85, 0.90)의 2가지 임계값을 설정하여 시나리오를 구성하였다. 선정된
임계값을 초과하는 데이터에 대해 해당 변수 표준편차의 5%인 가우시안 노이즈를 추가하여 가상 데이터를 생성하였고 고농도 구간의 샘플 수를 2배로 확충하였다.
2.3.2. SMOGN 알고리즘
SMOGN은 연속형 변수의 희소 영역을 보간하여 데이터를 생성하는 기법으로, 데이터의 중요도를 결정하는 relevance function의 설정이
중요하다(Lee et al., 2025). 본 연구에서는 Chl-a 농도의 희소 영역 정의를 위해 0.65, 0.85의 2가지 relevance threshold를 적용하여 최적의 매개변수를
탐색하였다. 데이터 생성 과정에서는 k-nearest neighbors 알고리즘을 기반으로 한 extreme sampling 기법을 활용하여 고농도
구간의 데이터를 보간 및 증강하였으며, k값은 5, 섭동(perturbation) 수준은 0.02로 설정하였다 (Table. 1)(Arteaga et al., 2023).
Table 1. Key parameters of the data augmentation methods (GN and SMOGN).
|
Hyperparameter
|
GN
|
SMOGN
|
|
Threshold
|
Top 10%/15%
|
0.65/0.85
|
|
Noise / Perturbation
|
$\sigma$ = 5%
|
Perturbation level = 0.02
|
|
Augmentation factor
|
2.0$\times$
|
-
|
|
Sampling method
|
-
|
Extreme sampling (k-NN, k=5)
|
|
Synthetic samples added
|
82 (total: 893)
|
454 (total: 1,265)
|
|
Random Seed
|
92
|
92
|
2.4. 머신러닝 모델 구축 및 학습
Chl-a 농도 예측을 위한 모형으로는 앙상블 기반의 XGBoost 알고리즘을 선정하였다. XGBoost는 과적합 방지와 빠른 연산 속도 등의 장점이
있어 수질 예측 분야에서 ANN, SVM, RF, LSTM 등 다양한 머신러닝 기법과 함께 널리 활용되고 있다(Xie et al., 2024). 모형의 구축은 (1) 전처리된 원본 데이터를 활용한 Baseline 모형, (2) GN 기법으로 증강된 데이터를 활용한 모형, (3) SMOGN으로
증강된 데이터를 활용한 모형의 3단계로 구분하여 수행하였다(Fig. 1).
각 증강 기법의 최적 성능 도출을 위해 앞서 설정한 다양한 임계값 시나리오(GN: 상위 10∼15%, SMOGN: threshold 0.65∼0.85)에
대해 예비 모형 전 성능을 평가하였다. 평가 결과 가장 우수한 성능을 보인 조건을 최종 비교 분석 대상으로 선정하였다. 시계열 데이터의 시간적 의존성을
반영하기 위해 데이터셋의 분할은 시간 순서에 따른 chronological split 방식을 적용하였다(Cerqueira et al., 2020). 전체 데이터의 80%에 해당하는 과거 데이터(2016년 4월∼2023년 9월)를 학습용(Training set)으로, 나머지 20%에 해당하는
최근 데이터(2023년 9월∼2025년 4월)를 평가용(Test set)으로 엄격히 분리하였다(Train: 811개, Test: 203개). 학습
데이터에 대해 시간적 순서를 보존하는 5-Fold 시계열 교차 검증(Time-Series Cross-Validation)을 수행하여 모형의 일반화
성능 및 견고성을 추가로 검증하였다(Cerqueira et al., 2020). 모형 간의 공정한 비교를 위해 모든 XGBoost 모형의 하이퍼파라미터는 동일하게 적용하였다(Table 2).
Table 2. Hyperparameters of the XGBoost model optimized for Chl-a prediction.
|
Hyperparameter
|
Value
|
|
Number of Estimators
|
200
|
|
Learning Rate
|
0.1
|
|
Max Tree Depth
|
6
|
|
Subsample Ratio
|
0.8
|
|
Column Subsample
|
0.8
|
|
Random Seed
|
92
|
Fig. 1. Schematic diagram of the research methodology.
2.5. 모델 성능 평가
구축된 머신러닝 모델의 예측 성능 평가는 수문 및 수질 분야에서 통용되는 통계적 지표인 결정계수(R2), 평균 제곱근 오차(RMSE), 평균 절대 오차(MAE)를 활용하였다(Zhu et al., 2022). 각 지표의 산정 식은 다음과 같다:
여기서 $n$은 데이터의 개수, $y_i$는 실측값, $\hat{y}_i$는 예측값, $\bar{y}$는 실측값의 평균을 의미한다. 전체 데이터에
대한 성능 평가와 더불어, 실제 수질 관리에서 중요성이 높은 고농도 조류 발생 구간에 대한 예측력을 검증하기 위해 구간별 평가를 추가로 수행하였다.
평가 데이터셋을 기준으로 상위 25%에 해당하는 고농도 구간(>8.65 µg/L, N=51)에 대해 별도로 R2, RMSE, MAE를 산출하여 분석하였다. 해당 임계값은 연구 대상 지역의 조류 경보 발령 기준(∼10 µg/L)에 근접한 농도 구간으로, 실무적
수질 관리의 핵심 구간에 해당하며, 평가 데이터셋 내 통계적 유의성 검토를 위한 최소 표본 수를 확보할 수 있는 기준으로 설정하였다. 이는 조류경보
기준 농도를 임계값으로 활용한 Shin et al. (2021) 및 고농도 구간을 상위 분위수로 정의한 Kim, Shin et al. (2021)의 접근 방식과 일관성을 가진다. 모형 간 성능 비교의 공정성을 확보하기 위해, 데이터 증강(GN 및 SMOGN)은 학습 데이터에만 적용하였으며 평가
데이터셋은 원본 데이터를 사용하였다(Kim, Shin et al., 2021; Shin et al., 2021). 모든 모형에 동일한 하이퍼파라미터 및 random seed를 적용하여 결과의 재현성을 확보하였다.
본 연구에서는 미호강 유역의 수질 자동측정망 자료를 기반으로 IForest를 이용한 이상치 제거 과정을 수행하고, 데이터 불균형 해소를 위해 GN
및 SMOGN 기법을 적용하여 데이터를 증강하였다. 이후 XGBoost 알고리즘을 통해 각 시나리오별 Chl-a 예측 모형을 구축하고, 전체 구간
및 고농도 구간에 대한 예측 성능을 비교⋅평가함으로써 데이터 증강 기법의 적용성을 확인하고자 한다.
3. Results and Discussion
3.1. 기초 통계 및 이상치 탐지 결과
초기 수집된 raw data는 3,288개였고, 결측치 제거 과정을 거쳐 2,054개의 유효 데이터가 1차 분석에 선정되었다. 이상치 탐지 적용 전
입력 변수들의 기초 통계 분석 결과, 종속변수인 Chl-a의 평균 농도는 32.35 µg/L, 표준편차는 40.00 µg/L로 분석되었다. 최솟값은
0.80 µg/L, 최댓값은 250.80 µg/L로 나타나 데이터 내에 평수기의 안정적인 수질과 고농도 algal bloom 사상이 혼재되어 있음을
확인하였다(Table 3).
IForest 알고리즘의 contamination 비율을 3.0%로 설정하여 분석을 수행한 결과, 전체의 3.02%에 해당하는 62개의 레코드가 이상치로
식별되었다. 이를 제외한 1,992개(96.98%)의 데이터가 cleaned dataset으로 분류되었다. 이상치 그룹과 정상 데이터 그룹 간의 수질
특성을 비교 분석한 결과, 이상치 그룹의 평균 Chl-a 농도는 99.91 µg/L로 정제된 데이터 평균(30.25 µg/L) 대비 약 230.3%
높게 나타났다. 특히 탁도 항목에서 가장 큰 편차를 보였는데, 이상치 그룹의 평균 탁도는 123.35 NTU인 반면 정제된 그룹은 10.71 NTU에
불과하여 1,000% 이상의 차이를 보였다. 이는 IForest 알고리즘이 센서 오류나 집중 호우와 같은 일시적 물리적 교란에 의한 비대표적 극한
사상을 효과적으로 선별한 것으로 판단된다.
Table 3. Descriptive statistics of input variables before anomaly detection.
|
|
Mean
|
Std
|
Min
|
25%
|
50%
|
75%
|
Max
|
|
Temp (°C)
|
17.18
|
8.31
|
1.30
|
9.40
|
17.50
|
24.38
|
33.90
|
|
pH
|
7.38
|
0.38
|
6.30
|
7.10
|
7.30
|
7.50
|
9.00
|
|
EC (µS/cm)
|
590.09
|
135.41
|
142.00
|
503.00
|
589.50
|
689.00
|
955.00
|
|
DO (mg/L)
|
8.43
|
2.18
|
1.40
|
6.90
|
8.60
|
10.00
|
14.20
|
|
Turbidity (NTU)
|
14.11
|
34.68
|
0.30
|
2.70
|
6.60
|
11.90
|
658.50
|
|
TOC (mg/L)
|
4.40
|
1.29
|
1.50
|
3.50
|
4.30
|
5.20
|
8.90
|
|
Chl-a (µg/L)
|
32.35
|
40.00
|
0.80
|
5.60
|
13.20
|
47.48
|
250.80
|
Fig. 2. Time series of observed Chl-a concentrations, with training (blue) and testing
(orange) periods separated at September 2023 (a). Kernel density distributions of
the training set before and after augmentation using Gaussian Noise (b) and SMOGN
(c) are shown at two threshold levels.
이상치 제거 후 Chl-a의 평균은 32.35 µg/L에서 30.25 µg/L로, 표준편차는 40.00 µg/L에서 35.98 µg/L로 감소하여
데이터의 안정성이 확보되었다.
3.2. 데이터 불균형 해소 기법에 따른 분포 변화
Training set의 Chl-a 농도 빈도 분포는 right-skewed 비대칭 형태를 보였다(Seifi et al., 2025). Fig. 2에 제시된 바와 같이, Baseline 분포는 10 µg/L 미만의 저농도 구간에 데이터가 밀집되어 있으며 고농도 구간으로 갈수록 빈도가 급격히 감소하는
롱테일 특성을 나타냈다.
GN 증강 기법의 효과를 분석하기 위해 고농도 임계값을 상위 15%와 상위 10%로 설정하여 두 가지 모형(GN Model 1, GN Model 2)을
구축하였다. GN 기법 적용 결과, 기존 분포의 전체적인 형태는 유지하면서 tail regions의 밀도가 소폭 증가하는 경향을 보였다. GN Model
1은 122개의 가상 샘플을 추가하여 총 933개로 확장되었으며, GN Model 2는 82개를 추가하여 893개의 데이터를 확보하였다. GN 모형의
밀도 곡선이 Baseline과 유사한 형태를 보이는 것은 해당 기법이 기존 고농도 데이터 포인트 주변을 보강하는 역할에 그치며, 분포 구조 자체를
근본적으로 변화시키지는 못함을 시사한다.
SMOGN 알고리즘은 목표 변수의 분포를 유의미하게 변화시키는 것으로 나타났다(Fig. 2). 관련성 임계값을 각각 0.65와 0.85로 설정한 SMOGN Model 1과 SMOGN Model 2는 각각 454개와 587개의 합성 샘플을
생성하여 학습 데이터 크기를 1,265개와 1,398개로 증가시켰다. SMOGN 기법은 저농도 구간의 피크를 완화하고, 50-100 µg/L 범위의
중⋅고농도 구간 확률 밀도를 현저히 증가시켰다. 특히 threshold 0.65 조건에서 최적의 성능을 보인 점은 SMOGN이 극단적인 피크값뿐만
아니라 넓은 범위의 ‘고농도’ 영역을 보간할 때 효과적임을 의미한다.
3.3. 예측 모델 성능 비교 평가
구축된 모형들의 예측 성능을 평가하기 위해 전체 테스트 셋과 고농도 서브셋에 대한 RMSE 및 R2 값을 산출하여 비교하였다(Fig. 3). 데이터 균형 처리를 수행하지 않은 Baseline 모형은 전체 구간에서 RMSE 4.82 µg/L, R2 0.78로 양호한 성능을 보였다. 그러나 8.65 µg/L를 초과하는 고농도 구간에서는 RMSE가 9.40 µg/L로 급증하고 R2는 0.37로 급락하였다. 이는 불균형 데이터로 학습된 일반적인 머신러닝 모형이 희소한 극한 사상을 예측하는 데 한계가 있음을 시사한다.
GN Model 1과 GN Model 2의 전체 RMSE는 각각 4.72 µg/L, 4.52 µg/L로 감소하였으며, R2는 각각 0.79, 0.81으로 소폭 향상되었다. 고농도 구간에서 GN Model 2는 R2 0.45를 기록하여 Baseline 대비 약 22.2%의 성능 개선을 확인하였다. 이는 노이즈 주입을 통한 데이터 보강이 모델의 일반화 성능 향상에
기여한 것으로 판단된다.
Fig. 3. Comparison of overall and high-concentration prediction performance for GN
and SMOGN augmentation strategies, measured in terms of RMSE (a, b) and R² (c, d),
against the baseline model.
SMOGN-Model 1는 전체 RMSE 4.49 µg/L, R2 0.81로 모든 비교군 중 가장 우수한 성능을 나타냈다. 특히 고농도 구간에서의 성능 향상이 두드러졌는데, RMSE는 8.54 µg/L로 감소하였고
R2는 0.48을 기록하였다. 이는 Baseline 모형 대비 R2가 약 30.25% 향상된 결과이다. Fig. 4의 산점도 분석 결과에서도 Baseline 모형은 고농도 값을 과소평가하는 경향을 보인 반면, SMOGN Model 1는 40 µg/L 이상의 구간에서도
1:1 기준선 주변에 대칭적으로 분포하여 예측 정확도가 개선되었음을 확인하였다. 5-Fold 시계열 교차 검증 결과, Baseline 모형의 CV
RMSE는 9.82 µg/L (±6.84)로 fold 간 편차가 크게 나타나 계절적 변동에 취약함을 확인하였다. SMOGN 기법의 고농도 구간 예측
편향 완화 효과는 hold-out 평가 데이터셋 기반 성능 비교를 통해 확인하였다. 단순한 노이즈 주입 방식인 GN 기법과 달리, SMOGN은 고차원
특성 공간 내에서 희소 영역의 매니폴드(manifold) 구조를 보존하는 생성적 보간(generative interpolation) 방식으로 합성
샘플을 생성한다. 이로 인해 모형이 실제 고농도 조류 발생 사상의 특성 패턴을 보다 충실히 학습할 수 있었던 것으로 판단되며, GN 기법 대비 고농도
구간에서의 우월한 예측 성능으로 나타난 것으로 해석된다. 본 연구의 결과는 ADASYN 기반 오버샘플링을 적용하여 고농도 구간 예측 성능을 향상시킨
Kim, Shin et al. (2021)의 연구와 유사한 방향성을 보이나, 분류(classification) 문제가 아닌 연속형 회귀(regression) 문제에 데이터 균형 기법을 적용하였다는
점에서 차별성을 가진다(Kim, Jones et al., 2021). 또한 Ly et al. (2021)의 연구에서 단일 모형 대비 앙상블 기법의 우수성이 보고된 바와 같이, 본 연구에서도 XGBoost 기반의 앙상블 학습이 고농도 구간 예측에 효과적임을
확인하였다(Ly et al., 2021).
Fig. 4. Scatter plots of predicted versus measured Chl-a concentrations for the Baseline,
GN-Model (a), and SMOGN-Model (b).
3.4. 고농도 구간별 오차 분석
예측 성능을 보다 세밀하게 분석하기 위해 테스트 데이터를 Chl-a 농도에 따라 4분위수(0-25%, 25-50%, 50-75%, 75-100%)로
구분하여 MAE를 산출하였다(Fig. 5). 0-50%에 해당하는 저농도 구간에서는 모든 모형의 MAE가 0.61∼0.73 µg/L 범위로 유사한 수준을 보였다.
수질 관리의 핵심 대상인 상위 25% 고농도 구간에서는 모형 간 성능 차이가 확연하게 나타났다. Baseline 모형의 MAE는 6.77 µg/L로
가장 높았으나, GN-Model 2는 6.47 µg/L로 오차가 다소 감소하였다. 반면 SMOGN-Model 1는 6.07 µg/L의 가장 낮은 MAE를
기록하여 Baseline 대비 약 10.3%의 오차 감소율을 보였다. 고농도 구간에서의 R2 개선율을 비교했을 때, SMOGN(30.25%)이 GN(22.23%)보다 월등히 우수한 것으로 분석되었다. 이는 특성 공간 내에서 합성된 샘플들이
모델로 하여금 극한 사상의 패턴을 학습하는 데 필요한 정보를 효과적으로 제공했기 때문으로 사료된다.
Fig. 5. Comparison of Mean Absolute Error (MAE) distribution across different Chl-a
concentration quartiles for the Baseline, GN-Model 2, and SMOGN-Model 1.
3.5. 변수 중요도 분석
XGBoost 알고리즘의 gain 지표를 기반으로 산출된 feature importance 결과는 Fig. 6와 같다. 모든 모형에서 pH와DO가 가장 영향력 있는 인자로 도출되었다. Baseline 모형의 경우 pH의 중요도가 0.32로 가장 높았으며,
DO(0.25), TOC(0.15) 순으로 나타났다. 이는 조류의 광합성 활동이 pH 상승을 유발하고 유기물 부하에 기여한다는 기존의 수질학적 기작과
일치한다.
SMOGN-Model 1의 경우 DO(0.42)가 주된 인자로 Baseline(0.25) 대비 크게 상승하였고, pH(0.25)가 Baseline(0.32)
대비 하락하였다. 이는 고농도 데이터의 균형 학습을 통해 모델이 조류 대발생 시 수반되는 용존산소 증가 현상을 주요한 예측 신호로 인지하게 되었음을
시사한다. SMOGN 적용이 모델의 물리적 해석력을 강화시키는 데 기여한 것으로 판단된다.
Fig. 6. Relative feature importance scores for predicting Chl-a concentration in the
Baseline, GN-Model 2, and SMOGN-Model 1.
4. Conclusion
본 연구에서는 미호강 유역의 수질 모니터링 데이터의 한계를 극복하고 Chl-a 농도 예측의 정확도를 제고하기 위해 데이터 기반의 머신러닝 프레임워크를
개발하였다. 현장 데이터에 내재된 센서 오류와 고농도 조류 발생 사상의 희소성 문제를 해결하기 위해 이상치 탐지 및 데이터 증강 기법을 통합적으로
적용하였다. IForest 알고리즘을 활용하여 전체 데이터의 3.02%에 해당하는 다변량 이상치를 제거함으로써 모델 학습을 위한 견고한 baseline을
확보하였다. 또한 불균형 데이터로 인한 회귀 모형의 예측 편향을 완화하기 위해 GN 주입과 SMOGN 알고리즘을 적용하고, XGBoost 모델을 통해
그 효과를 검증하였다. 시계열 데이터의 특성을 반영하기 위해 chronological split 방식의 학습/평가 데이터 분할과 5-Fold 시계열
교차 검증을 적용함으로써 모형의 미래 예측 성능을 보다 객관적으로 평가하였다. 본 연구는 이상치 탐지(IForest), 불균형 회귀 해소(SMOGN),
앙상블 예측(XGBoost)을 통합한 재현 가능한 머신러닝 파이프라인을 제안하고, 고농도 조류 발생 구간에 대한 예측 성능 개선 가능성을 정량적으로
입증하였다는 점에서 학술적 기여를 가진다.
분석 결과, 단순한 노이즈 주입 방식인 GN 기법은 고농도 예측 성능을 일부 개선하였으나, 다양한 합성 샘플을 생성하는 SMOGN 기법이 월등히 우수한
성능을 보였다. SMOGN이 적용된 XGBoost 모형은 전체 구간에서 가장 높은 예측 정확도(R2=0.81, RMSE=4.49 µg/L)를 달성하였으며, 특히 고농도 구간에서의 설명력(R2)을 baseline 대비 30.25% 향상시키는 결과를 나타냈다. 변수 중요도 분석을 통해 SMOGN 적용 시 용존산소에 대한 모델의 민감도가 증가함을
확인하였으며, 이는 조류 발생 시의 물리적 특성을 모델이 보다 잘 반영하고 있음을 의미한다.
따라서 본 연구에서는 IForest를 이용한 전처리, SMOGN을 이용한 데이터 증강, 그리고 XGBoost를 이용한 예측 모형 구축의 3단계 프로세스를
통해 데이터 불균형이 심한 하천 환경에서의 수질 예측 신뢰성을 크게 향상시킬 수 있음을 확인하였다. 본 연구의 한계로는 평가 기간(2023년 9월∼2025년
4월)이 고농도 조류 발생 사상이 상대적으로 적은 시기에 해당하여 고농도 구간의 평가 표본 수가 제한적이었다는 점을 들 수 있다. 향후 연구에서는
보다 다양한 수문기상 조건을 포함하는 장기 평가 데이터셋을 구축하고, 다양한 머신러닝 기반의 조류 조기 경보 시스템을 구축하는 데 있어 실용적인 가이드라인을
제공할 것으로 기대된다.