The Journal of
the Korean Society on Water Environment

Bimonthly

ISSN : 2289-0971 (Print)
ISSN : 2289-098X (Online)
KCI Accredited Journal

Editorial Office

Tel. +82-2-389-0650
Fax. +82-2-385-3702
E-mail. kswe@kswe.org

[

Research article

]

The Journal of the Korean Society on Water Environment

JKSWE Vol. 41, No. 5, p.313-320

ISSN (print) :

2289-0971

ISSN (online) :

2289-098X

Received : 26 May 2025Revised : 02 August 2025Accepted : 05 August 2025

DOI :

https://doi.org/10.15681/KSWE.2025.41.5.313

데이터 이상치가 조류 발생 예측 머신러닝 모형의 성능에 미치는 영향 분석

The Impact of Data Anomalies on the Performance of Machine Learning Models for Algae Bloom Prediction

이은지 (Eunji Lee) ¹iD 박정수 (Jungsu Park) ²^†iD

국립한밭대학교 환경공학과 (Department of Environmental Engineering, Hanbat National University)
국립한밭대학교 건설환경공학과 (Department of Civil and Environmental Engineering, Hanbat National University)

¹석사과정, lej03140@naver.com, https://orcid.org/0009-0002-2688-6682

^2,†Corresponding author, 부교수, parkjs@hanbat.ac.kr, https://orcid.org/0000-0002-9780-6988

^†Corresponding Author, E-mail : parkjs@hanbat.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/ licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Abstract

Field data often contain various anomalies due to natural variability and errors from sensors and experimental procedures. Since these anomalies can negatively affect model performance, it is crucial to detect and handle them. This study developed machine learning models to predict chlorophyll-a, a quantitative indicator of algal blooms, using water quality data collected in the field from 2015 to 2024 as independent variables. It also analyzed the impact of anomaly removal through an anomaly detection algorithm on model performance. First, datasets were constructed by randomly introducing anomalies into 5%, 10%, 15%, and 20% of the original data. Then, the Isolation Forest (IForest), an anomaly detection algorithm, was employed to detect and remove these anomalies. The effect of anomaly removal was assessed by applying the cleaned data to Extreme Gradient Boosting (XGBoost), an ensemble machine learning algorithm. The model trained on the original data achieved a root mean squared error (RMSE) of 7.541, while the RMSE of models trained on data with anomalies ranged from 8.777 to 17.503. Models trained on datasets with lower anomaly ratios demonstrated better performance. In contrast, models trained on data from which anomalies had been removed using IForest showed RMSE values ranging from 7.645 to 8.067. Similarly, better performance was observed in models trained on data with lower anomaly ratios prior to removal, although the performance differences based on the proportion of anomalies were relatively small. The results of this study demonstrate that anomaly removal can enhance the performance of machine learning models.

Key words

Anomaly detection, Isolation forest, Water quality prediction, XGBoost

1. Introduction

하천, 저수지 등에서의 조류의 과도한 발생은 먹는물 공급의 안정성을 저해하고 수체내 산소 고갈 등 생물 서식 환경에 부정적인 영향을 줄 수 있어 지속적인 관리가 중요하다^{(Blix and Eltoft, 2018)}. 하천 현장 등에서 조류 발생에 따른 적정한 관리의 수행을 위해서는 조류 발생 현황에 대한 분석과 예측이 중요하며, chlorophyll-a (chl-a) 농도는 하천의 부영양화 및 조류 발생 정도를 나타내는 데에 널리 사용되는 중요한 정량적 지표이다^{(Chen et al., 2024)}.

효율적 조류 관리를 위해서는 조류 발생의 예측이 필요하나 조류의 발생에는 수질, 기상 및 수리 특성 등 많은 인자가 영향을 주며 수체별로 영향인자가 다양하여 정확한 예측이 쉽지 않다^{(Kim et al., 2021)}. 최근 인공지능 기반 모형이 우리 사회의 다양한 분야에서 빠르게 활용되고 있으며, 조류 발생 예측을 위해서도 다양한 인공지능 기반 모형의 활용이 지속되고 있다^{(Cha et al., 2020;} ^{Park et al., 2024)}. 일반적으로 인공지능 기반 모형은 모형의 구축에 활용된 데이터의 속성을 학습하여 구축되는 데이터 기반 모형의 특징을 가지고 있으며, 데이터 기반 모형의 특성상 모형 구축에 활용된 입력자료의 특성이 모형의 성능에 크게 영향을 주게 된다. 따라서 복잡한 모형이 항상 좋은 성능을 보이는 것은 아니며, 현재까지도 인공신경망, support vector machine (SVM), decision tree 등 비교적 초기에 개발된 모형부터 딥러닝 등과 같이 복잡한 알고리즘까지 다양한 인공지능 기반 모형이 조류 발생 예측에 활용되고 있다^{(Park et al. 2024)}.

Artificial neural network 등 비교적 단순한 신경망 모형부터 보다 복잡한 딥러닝 알고리즘인 long short-term memory (LSTM) 및 gated recurrent unit (GRU) 같은 recurrent neural network 등과 함께 Random Forest, extreme gradient boosting (XGBoost), light gradient boosting machine (LightGBM) 등 다양한 앙상블 모형도 조류 발생 예측을 위한 모형 구축에 활용되고 있다. 또한 모형의 입력자료로는 수온(temperature, TEMP), 수소이온농도(pH), 전기전도도(electronic conductivity, EC), 용존산소농도(dissolved oxygen, DO), 총유기탄소농도(total organic carbon, TOC), 총질소(total nitrogen, TN), 총인(total phosphorus, TP), 생물화학적산소요구량(biochemical oxygen demand, BOD), 화학적산소요구량(chemical oxygen demand, COD), 암모니아성질소, 질산성질소, 인산염인 등 다양한 수질 및 기상인자 등 환경인자가 모형의 구축에 활용되고 있다^{(Kim et al., 2021;} ^{Lee and Kim, 2021;} ^{Park at al., 2023)}.

모형의 성능이 모형 구축에 활용되는 데이터 특성에 많은 영향을 받게 되는 특성으로 인공지능 기반 모형의 효율을 높이기 위한 양질의 데이터 확보가 중요하다. 특히 현장 취득 자료의 특성상 다양한 자연 현상 외에 현장 측정 센서의 이상, 수질 실험에서 발생하는 오류 등 다양한 원인으로 인해 데이터에 오류와 이상치 등이 포함될 수 있다. 이상치가 포함된 자료가 인공지능 기반 모형의 구축에 활용 될 경우 데이터의 특성이 왜곡되어 모형의 성능이 저하할 수 있어 이상치의 적정한 확인 및 제거와 처리 과정을 통한 데이터의 품질관리가 중요하다^{(Uddin et al., 2024)}.

최근 다양한 머신러닝 기반 이상치 탐지 알고리즘을 이상치 분석에 활용하기 위한 연구가 지속되고 있으며, isolation forest (IForest), SVM 등 다양한 모형들이 이상치 탐지에 널리 활용되고 있다^{(Almuhtaram et al., 2021;} ^{Nassif et al., 2021)}. 수질 자료의 경우도 이상치 탐지를 통한 자료의 품질관리가 중요하며 전통적인 통계적 분석 방법부터 머신러닝 까지 다양한 방법이 이상치 탐지에 활용되고 있다. ^{Lee et al. (2017)}은 통계적 분포에 기반한 방법인 interquartile range (IQR)을 활용하여 수질자동측정망 자료의 이상치를 선별하는 연구를 진행하였으며, ^{Kim (2014)}은 EDA 방법을 적용하여 통계학적 계산을 통해 월별, 연도별, 지역별 하천의 특이점을 분석하였다. 또한 ^{Kim et al. (2018)}은 IForest 알고리즘을 사용하여 정수장의 수질 자료의 이상치를 탐색하는 연구를 진행하였다.

머신러닝을 수질 자료의 이상치 탐지 등에 활용하는 연구는 아직 초기 단계이며, 특히 다양한 이상치가 포함된 데이터가 수질 예측을 위한 머신러닝 모형의 성능에 미치는 영향에 대한 연구 사례는 제한적이다. 본 연구에서는 이상치가 포함된 측정자료가 하천 조류 발생을 예측하는 머신러닝 모형의 성능에 미치는 영향에 대한 분석을 수행하였다. 이를 위해 현장 측정자료를 이용하여 조류 발생을 예측하는 머신러닝 모형을 구축하였으며 임의로 생성된 이상치를 자료에 추가하여, 이상치의 추가 정도에 따른 모형의 성능 변화를 분석하였다. 또한 이상치 탐지 알고리즘을 이용하여 입력자료의 이상치를 제거하고 이에 따른 모형의 성능 개선 정도를 확인하여 이상치의 제거에 따른 모형의 성능 개선 가능성을 확인하였다.

2. Materials and Methods

2.1 연구대상 지역

본 연구에서는 머신러닝 모형의 구축 및 이상치 분석을 위해 환경부 국립환경과학원 물환경정보시스템의 자동측정망 갑천지점(S03002)에서 2015년 1월 1일부터 2024년 12월 31일까지 측정된 현장 일일 수질 측정 자료를 활용하였다(Fig. 1)^{(NIER, 2025)}. 갑천은 대전 등 대도시 도심을 통과하여 금강 본류로 유입되는 하천으로 2016년 약 80 mg/㎥ 이상, 2018년 90 mg/㎥ 및 지난 2024년 70 mg/㎥ 이상의 최대 chl-a 농도가 확인되는 등 조류 발생이 지속되고 있으며, 다양한 점오염원 및 비점오염원이 유입에 따른 수질 오염의 우려가 있어 지속적인 관리가 중요한 지역이다.

측정된 수질 자료 중 TEMP (℃), pH, EC (μs/cm), DO (mg/L), TOC (mg/L)를 독립변수로 사용하고 조류 발생의 주요 인자인 chl-a (mg/㎥)를 모형의 예측 대상인 종속변수로 사용하였다. 모형 구축에 사용된 측정자료는 항목별로 12–19%의 결측치를 포함하였으나 결측 구간이 대부분 수질 변화가 크지 않은 구간에 분포하였으며 선형 보간법을 활용하여 자료의 결측값을 보간하였다. 결측치의 보간은 python 라이브러리인 scikit-learn을 활용하여 수행하였다^{(Pedregosa et al., 2011)}.

Fig. 1. Research site.

2.2 이상치 생성

본 연구에서는 환경부 국립환경과학원에서 제공하는 물환경정보시스템에 공개된 자동측정망 확정 자료를 분석에 활용하여 이상치가 포함된 데이터가 인공지능 기반 모형의 성능에 미치는 영향에 대한 분석을 수행하였다. 분석을 위해 공개된 확정 자료를 모두 정상적인 데이터로 분류하고, 전체 데이터 중 인공지능 기반 모형의 학습(training)에 사용된 종속변수에 대하여 5%, 10%, 15% 및 20%의 비율로 임의로 선택된 위치의 원 측정값에 0.1-10배 범위의 값을 임의로 적용하여 이상치를 생성하였다. 이상치의 생성을 위한 프로그램은 NumPy, Pandas 등 python 라이브러리를 활용하여 구축하였다 ^{(Harris et al., 2020;} ^{McKinney, 2010)}.

2.3 이상치 탐지 모형

이상치를 추가한 데이터에서 이상치를 제거하는 것이 모형의 성능에 미치는 영향을 분석하기 위해 5%, 10%, 15% 및 20%의 이상치를 추가하여 새롭게 구성된 training 데이터에 대하여 각각 대표적인 decision tree 기반 이상치 탐지 모형 중 하나인 IForest를 활용하여 이상치를 확인하였다.

IForest는 이상치는 전체 데이터에서 상대적으로 적은 수를 차지하며 정상 데이터와는 다른 특성을 가지므로 이상치는 적은 수의 분할만으로도 다른 데이터와 쉽게 구분될 수 있다는 원리에 기반한 이상치 탐지 알고리즘이다. IForest는 분석 대상 데이터에 대한 임의의 이진 분할을 반복하며, 이 과정을 통해 자료가 tree 구조로 분할되는 isolation tree를 생성하게 된다. 이러한 tree 구조 내에서 이상치는 정상치에 비해 빠르게 분류되는 특징이 있어 tree 내에서 root 노드로부터의 경로 길이가 짧아지는 경향을 보이게 되며, IForest는 이러한 경로 길이에 따라 정상치와 이상치를 판단한다^{(Liu et al., 2008)}. IForest는 이상치 탐지를 위해 데이터 간의 거리 계산 등 복잡한 계산이 필요하지 않아 상대적으로 빠른 구현이 가능하면서 대용량 데이터에 대해서도 우수한 성능을 보여 현재까지도 널리 활용되고 있다^{(Liu et al., 2008;} ^{Liu et al., 2024;} ^{Yepmo et al., 2024)}.

이상치로 판별된 데이터는 선형보간을 통해 계산된 데이터로 대체하여 이상치를 제거한 새로운 데이터로 구축하였으며, 이상치 탐지 및 데이터의 보간은 scikit-learn 등 python 라이브러리를 활용하였다^{(Pedregosa et al., 2011)}.

IForest를 이용한 이상치 탐지 성능에 대한 평가는 분류 모형의 정량적 성능평가에 널리 활용되는 지표인 Precision, Recall, F1-score 및 Precision-Recall Curve (PR Curve)를 활용하여 수행하였다. 모형의 성능을 확인하기 위해서 분류모형의 성능 평가지표 중 하나인 혼동행렬(Confusion matrix)을 적용하였다(Table 1). 모형 성능 평가 및 시각화 등은 scikit-learn, Pandas, Matplotlib 등 python open soruce library를 사용하여 구축된 프로그램을 이용하였다^{(Hunter, 2007;} ^{McKinney, 2010;} ^{Pedregosa et al., 2011)}.

본 연구에서는 IForest의 이상치 탐지 성능을 비교하기 위해, 모형이 이상치로 판단할 비율을 정의하는 하이퍼파라미터인 contamination을 ‘auto’로 설정하였고, 분석에 사용된 트리 수(n_estimators)는 100, 각 트리 생성 시 사용되는 샘플 수(max_samples)는 ‘auto’로 지정하였다.

Precision, Recall, F1-score는 실제 이상치와 정상치를 모형이 각각 이상치와 정상치로 구분하는 결과에 대한 혼동행렬(confusion matrix)을 이용하여 아래와 같이 산출할 수 있다. Table 1에서 TP (True positive)는 실측값이 이상치일 때 모형이 이상치로 판단하는 경우, FP (False Positive)는 실측값이 정상값일 때 모형이 이상치로 잘못 판단하는 경우, FN (False Negative)는 실측값이 이상치일 때 모형이 정상값으로 잘못 판단하는 경우, TN (True Negative)은 실측값이 정상값일 때 모형이 정상값으로 판단하는 경우를 나타낸다.

Table 1 Confusion matrix

Contents		Actual
Contents		Abnormal	Normal
Prediction	Abnormal	TP	FP
Prediction	Normal	FN	TN

평가지표인 Precison은 모형이 예측한 이상치 중 실제로 이상치인 비율을, Recall은 실제 이상치 중에서 모형이 이상치로 판단한 비율을, F1-Score는 Precision과 Recall의 조화평균을 나타내며 각각 아래와 같이 산출된다(Eqs. 1-3).

(1)

Precision = $\dfrac{TP}{TP + FP}$

(2)

Recall = $\dfrac{TP}{TP + FN}$

(3)

F1-Score = $2\times\dfrac{Precision \times Recall}{Precision +Recall}$

PR Curve는 모형의 이상치와 정상치의 구분을 위한 모형의 분류 기준을 다양하게 바꾸어가면서 각 조건에서의 Precision과 Recall을 계산하여 시각화한 그래프로 PR Curve의 아래 면적인 area under curve (AUC-PR) 값이 클수록 분류 모형의 성능이 좋은 것으로 판단한다.

2.4 모형 구축

본 연구에서는 측정자료의 이상치가 조류 발생을 예측하는 머신러닝 모형의 성능에 미치는 영향을 비교하기 위해, 다양한 형태의 자료에 대해서 우수하고 안정적인 성능을 보여 최근까지도 널리 활용되는 대표적인 앙상블 머신러닝 알고리즘인 XGBoost를 모형 구축에 활용하였다^{(Chen and Guestrin, 2016;} ^{Grinsztajn et al., 2022;} ^{Park et al., 2024)}. 앙상블 머신러닝은 다수의 개별 모형 결과의 앙상블 과정을 통하여 모형의 최종 성능을 향상시키는 방법이다. XGBoost는 대표적인 앙상블 머신러닝 모형인 gradient boosting decision tree 모형을 구현한 알고리즘으로 weak learner로 불리는 다수의 개별 모형의 결과를 앙상블하여 최종적인 모형의 결론을 도출하며 전 단계의 weak learner의 결과를 다음 단계 weak learner의 구축에 적용하여 모형의 성능을 단계적으로 향상시킨다^{(Chen and Guestrin, 2016)}.

입력 데이터 중 2015년 1월 1일부터 2022년 12월 31일까지의 자료를 모형의 training에 사용하였고 2023년 1월 1일부터 2024년 12월 31일까지의 데이터를 구축된 모형의 성능에 대한 평가(testing)를 위해 사용하여, training과 testing에 사용한 자료의 비율을 각각 80% 및 20%로 구성하였다. 구축된 모형의 성능을 최적화는 python 라이브러리인 scikit-learn의 grid search를 활용하였다^{(Pedregosa et al., 2011)}.

이상치가 모형의 성능에 미치는 영향을 분석하기 위해 이상치를 추가하지 않은 원본 데이터를 적용하여 구축한 모형 (M0)과 함께 모형에 이상치를 각각 5%, 10%, 15% 및 20% 추가한 자료를 training에 활용한 M5, M10, M15 및 M20 모형을 구축하였다. 또한 이상치 탐지 모형을 이용하여 이상치를 제거함에 따른 머신러닝 모형의 성능 변화를 비교하기 위해, 이상치 탐지 모형을 통해 이상치를 제거한 데이터를 training에 활용한 R5, R10, R15 및 R20 모형을 포함하여 총 9개의 모형을 구축하였다(Fig. 2).

Fig. 2. Schematic diagram of the model development process.

구축된 모형의 성능평가를 위해 머신러닝 알고리즘의 정량적 모형 성능평가 지표인 root mean squared error (RMSE), RMSE-observation standard deviation ratio (RSR), Nash-Sutcliffe efficiency (NSE)를 활용하였다(Eqs. 4-6). 식에서 $y_{t}$는 실측값을 $\hat{y_{t}}$는 모형의 예측값을, $\overline{y_{t}}$는 실측값의 평균을 나타내며, n은 데이터 측정 횟수이다. RMSE는 모형의 예측값과 데이터의 실측값의 차이를 정량화하는 지표로 0에 가까운 값을 가질수록 모형의 예측 성능이 우수하다고 판단할 수 있다. RSR은 0–∞의 범위의 값을 가지며, 0에 가까울수록 그 모형은 실측값을 잘 예측하는 것으로 볼 수 있으며, NSE는 -∞–1.0의 범위의 값을 가지며 1에 가까울수록 모형이 데이터의 실측값을 잘 예측한다고 판단한다^{(Bennett et al., 2013;} ^{Moriasi et al., 2007)}.

(4)

RMSE = $\sqrt{\dfrac{\sum_{t =1}^{n}(y_{t}-\hat{y}_{t})^{2}}{n}}$

(5)

RSR = $\dfrac{\sqrt{\sum_{t = 1}^{n}(y_{t}-\hat{y}_{t})^{2}}}{\sqrt{\sum_{t = 1}^{n}(y_{t}-\overline{y}_{t})^{2}}}$

(6)

NSE = $1 -\dfrac{\sum_{t = 1}^{n}(\hat{y}_{t}- y_{t})^{2}}{\sum_{t = 1}^{n}(y_{t}-\overline{y}_{t})^{2}}$

3. Results and Discussion

3.1 이상치 생성 결과

이상치를 추가하지 않은 원본의 데이터와 각각 5%, 10% 15%, 및 20% 비율의 이상치를 추가한 데이터가 모형의 training에 활용되었다. 학습된 각 모형의 성능 평가는 별도의 이상치를 추가하지 않은 testing 데이터를 공통으로 활용하여 수행하였다. 모형의 구축에 활용된 종속변수의 기본 통계값을 Table 2에 제시하였다. 원본 데이터와 비교하면 이상치를 추가한 비율이 클수록 평균값과 최대값이 증가하는 것을 확인할 수 있다. 표준편차 역시 이상치 추가 비율이 클수록 커지는 경향을 보였다. 최소값은 이상치 포함 비율에 따른 일률적인 경향을 보이지는 않았다.

Table 2 Statistical characteristics of the model input data.

Content	Training					Testing
Content	Original	5%	10%	15%	20%	Testing
Average	15.20	18.29	21.48	24.30	27.20	13.56
Max	119.40	419.05	540.03	540.43	692.57	70.10
Min	1.50	0.49	1.35	0.88	0.47	0.50
Standard deviation	13.87	27.29	36.22	41.70	47.37	10.90

3.2 이상치 탐지 결과

모형의 구축에 사용된 training 자료에 대하여 IForest를 이용한 이상치 탐지 결과를 Fig. 3에 나타내었다. Fig. 3의 x축은 이상치 탐지에 적용된 데이터의 이상치 추가 비율 (%)를 나타내며, y축은 평가지표인 Precsion과, Recall, F1-Score의 값을 나타낸다.

Fig. 3. Comparison of anomaly detection model performance according to the proportion of anomalies.

성능 검사 지표로 사용한 Precision과 Recall은 각각 정밀도와 재현율로 모형이 이상치로 예측한 데이터가 실제로 이상치인 비율과 실제로 이상치인 데이터 중 모형이 이상치로 예측한 비율을 나타낸다. 분석 결과 이상치 추가 비율이 5%, 10%, 15% 및 20%로 증가함에 따라 Precision도 0.223, 0.402, 0.538 및 0.663으로 단계적으로 증가하는 경향을 보였으나, Recall의 경우 이상치가 증가함에 따라 0.685에서 0.533까지 저하하는 것을 확인하였다. F1-Score은 Precision과 Recall의 조화평균으로 두 지표의 성능을 평가하는 데 도움을 주며 데이터 불균형이 있는 경우에서의 성능 평가에 도움을 줄 수 있다. Precision의 변화와 유사하게 이상치를 추가한 비율이 증가함에 따라 F1-Score은 증가하는 경향을 보였다.

Fig. 4는 모델 구축에 사용된 학습 데이터에 IForest를 적용하여 이상치를 탐지한 후, 이상치 추가 비율(5%, 10%, 15% 및 20%)에 따라 도출된 PR Curve를 나타낸다. Fig. 4의 x축은 Recall을 나타내며, y축은 Precision을 나타낸다. 데이터에 포함된 이상치의 비율이 증가할수록 AUC-PR 값도 함께 증가하는 경향을 보였다.

Fig. 4. Comparison of PR Curves based on the proportion of anomalies.

이상치 분석 결과의 시각적 비교를 위해 머신러닝 모형에 사용된 원본 데이터와 이상치를 추가한 데이터 및 모형에 의해 이상치로 판별된 데이터를 Fig. 5에 제시하였다. 이상치를 포함한 비율이 증가할수록 이상치의 최대값이 증가함을 보이며, 모형이 임의로 추가한 이상치 중 비교적 큰 값을 가지는 이상치를 전체적으로 잘 탐지하는 것을 시각적으로 확인할 수 있다.

Fig. 5. Comparison of anomaly detection results.

본 연구에서는 하천 현장에서 수집된 수질 측정자료를 이상치 분석에 활용하였다. 해당 자료는 실험실과 같은 통제된 환경이 아닌 기상 변화, 오염원 유입 등 다양한 외부 요인의 영향을 받는 실제 현장 조건에서 측정된 것으로 이상치에 대한 절대적 기준을 명확히 정의하기는 어렵다. 이러한 한계를 고려하여 본 연구에서는 물환경정보시스템에 공개된 ｢확정 자료｣를 기준으로 하고 여기에 명확히 정의된 이상치 데이터를 추가한 데이터를 구성하여 분석을 수행하였다. 분석 결과 이상치 비율이 증가할수록 AUC-PR 값이 향상되는 등 이상치 탐지 성능이 전반적으로 개선되는 경향을 확인할 수 있었다. 하지만 데이터 기반 모형의 특성상 분석 결과는 모형의 학습에 적용된 데이터의 특성에 따라 달라질 수 있으며, 향후 보다 다양한 유형의 이상치를 포함한 데이터를 활용한 지속적인 연구를 통해 이상치 탐지 모형의 특성에 대한 이해와 현장 적용성을 높일 수 있을 것으로 판단된다.

3.3 XGBoost 모형 성능 평가

XGBoost 모형의 training을 위해 원본 데이터를 활용한 M0와 5%–20%의 이상치를 추가한 데이터를 이용하여 training된 M5, M10, M15, M20 및 이상치 탐지 알고리즘을 이용하여 이상치를 제거한 데이터를 활용하여 training된 R5, R10, R15, R20의 testing 데이터에 대한 성능을 Fig. 6에 비교하였다. 이상치를 포함한 모형인 M5, M10, M15, 및 M20의 RMSE는 각각 8.777, 11.660, 12.753 및 17.503였으며 원본 데이터를 활용한 모형인 M0의 RMSE는 7.542로 분석되어 이상치의 비율이 높을수록 성능의 저하가 크게 발생하는 것으로 나타났다. 반면 이상치 탐지 알고리즘을 이용하여 이상치를 제거한 R5, R10, R15, 및 R20의 경우 RMSE가 각각 7.645, 7.666, 7.789, 및 8.067로 분석되어 이상치가 추가된 데이터를 활용한 모형에 비해 모형의 성능이 크게 향상된 것을 확인할 수 있었다. 특히 이상치를 제거하여 구축된 모형의 경우 원본 데이터를 이용한 모형에 비해 여전히 다소 낮은 성능을 보이나 그 차이는 크지 않은 것으로 분석되어, 이상치 탐지 알고리즘을 이용한 머신러닝 모형의 성능 향상이 가능함을 보여주었다.

다른 평가 지표인 RSR도 유사한 경향을 보였다. 이상치를 추가한 자료로 학습된 모형인 M5의 RSR은 0.805였으나 이상치를 제거한 모형인 R5의 RSR은 0.701로 분석되어 IForest의 이상치의 제거에 따른 모형의 성능 개선 효과를 확인할 수 있었다. 또한 이상치의 비율이 높을수록 이상치 제거에 따른 모형의 성능 향상 폭이 커지는 경향을 보였으며 M20과 R20의 RSR이 각각 1.605와 0.740으로 성능 개선 효과가 가장 큰 것으로 분석되었다. R5, R10, R15 및 R20의 RSR은 각각 0.701, 0.703, 0.714 및 0.740으로 원본을 이용한 모형인 M0의 0.692에 비해 다소 낮은 성능을 보였으며, 이상치를 제거하기 전 데이터의 이상치 비율이 높을수록 이상치를 제거한 이후에도 모형의 성능이 다소 저하되는 경향을 가지는 것으로 확인되었다. NSE도 RMSE 및 RSR과 유사한 경향을 보이는 것으로 분석되었으며, 전체적으로 IForest를 이용한 이상치의 제거에 따라 XGBoost 모형의 성능이 안정적으로 개선됨을 확인할 수 있었다. 이상치의 추가 및 제거에 따른 XGBoost 모형 예측 결과의 시계열 변화를 Fig. 7에 제시하였으며 이상치의 제거에 따른 머신러닝 모형의 성능 개선을 시각적으로 확인할 수 있다.

Fig. 6. XGBoost model performance at different anomaly proportions.

Fig. 7. Comparison of XGBoost model predictions trained on data with different anomaly ratios

4. Conclusion

본 연구에서는 현장 측정자료의 이상치를 제거한 후 이를 머신러닝 모형에 적용하여 이상치 제거가 모형 성능에 미치는 영향을 분석하였다. 이를 위해, 먼저 대표적인 이상치 탐지 머신러닝 알고리즘인 IForest를 활용하여, 측정자료에 5%, 10%, 15% 및 20%의 비율로 이상치를 추가한 자료에 대하여 이상치를 탐지하고, 모형을 통해 탐지된 이상치를 제거하였다. IForest의 이상치 탐지 성능은 5%–20%의 이상치 추가 비율에 따라 0.4845–0.6842의 AUC-PR 값을 보였으며, 이상치 포함 비율이 높을수록 탐지 모형의 성능이 높은 것으로 나타났다. 이후, 입력 자료의 이상치 제거가 머신러닝 모형 성능에 미치는 영향을 정량적으로 평가하기 위해, 이상치가 추가되지 않은 원본 자료, 5%–20%의 이상치를 추가한 자료, 그리고 IForest를 이용하여 이상치를 제거한 자료를 이용하여 각각 학습된 XGBoost 모형의 성능을 비교하였다.

분석 결과 이상치를 추가하지 않은 원본 자료로 학습된 모형(M0)의 RSR은 0.692였으며, 5%–20%의 이상치를 추가한 자료로 학습된 모형 M5–M20의 RSR값은 0.805–1.605로 원본 자료로 학습된 모형에 비해 성능이 저하되며, 이상치의 비율이 높을수록 성능 저하 정도가 큰 것을 확인할 수 있었다. 반면 이상치 탐지 모형인 IForest를 활용하여 이상치를 제거한 자료를 이용하여 학습된 모형 R5-R20이 경우 RSR이 0.701–0.740의 값을 보여 원본을 이용하여 학습된 모형에 비해서는 다소 성능이 저하되었으나 이상치 제거에 따라 XGBoost 모형의 성능이 개선됨을 확인하였다.

최근 하천의 조류 발생을 예측하기 위해 머신러닝 모형을 적용하는 연구가 활발히 이루어지고 있다. 데이터 기반 모형인 머신러닝 모형의 성능은 모형 구축에 사용된 데이터의 특성에 크게 영향을 받는다. 그러나 현장 측정자료는 다양한 형태의 오류 및 이상치를 포함할 수 있으며, 이러한 데이터 이상은 모형 성능 저하의 원인이 될 수 있다. 본 연구의 결과는 현장 측정자료의 이상치 제거에 따른 머신러닝 모형의 성능 개선 가능성을 보여주었으며, 향후 보다 다양한 유역에서 측정된 현장 자료를 활용한 지속적인 연구를 통해 머신러닝 모형의 성능을 더욱 향상시키고, 물환경관리 기술의 고도화와 효율성 개선에 기여할 수 있을 것으로 판단된다.

Acknowledgement

이 논문은 환경부의 폐자원에너지화 전문인력 양성사업으로 지원되었습니다.

References

Almuhtaram, H., Zamyadi, A., and Hofmann, R. (2021). Machine learning for anomaly detection in cyanobacterial fluorescence signals, Water Research, 197-117073. https://doi.org/10.1016/j.watres.2021.117073

Bennett, N. D., Croke, B. F. W., Guariso, G., Guillaume, J. H. A., Hamilton, S. H., Jakeman, A. J., Marsili-Libelli, S., Newham, L. T. H., Norton, J. P., Perrin, C., Pierce, S. A., Robson, B., Seppelt, R., Voinov, A. A., Fath, B. D., and Andreassian, V. (2013). Characterising performance of environmental models, Environmental Modelling & Software, 40, 1-20. https://doi.org/10.1016/j.envsoft.2012.09.011

Blix, K. and Eltoft, T. (2018). Machine learning automatic model selection algorithm for oceanic chlorophyll-a content retrieval, Remote Sensing, 10(5), 775. https://doi.org/10.3390/rs10050775

Cha, Y., Shin, J., and Kim, Y. (2020). Data-driven modeling of freshwater aquatic systems: Status and prospects, Journal of Korean Society on Water Environment, 36(6), 611-620. https://doi.org/10.15681/KSWE.2020.36.6.611

Chen, C., Chen, Q., Yao, S., He, M., Zhang, J., Li, G., and Lin, Y. (2024). Combining physical-based model and machine learning to forecast chlorophyll-a concentration in freshwater lakes, Science of the Total Environment, 907, 168097. https://doi.org/10.1016/j.scitotenv.2023.168097

Chen, T. and Guestrin, C. (2016). Xgboost: A scalable tree boosting system, Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794. https://doi.org/10.1145/2939672.2939785

Grinsztajn, L., Oyallon, E., and Varoquaux, G. (2022). Why do tree-based models still outperform deep learning on typical tabular data?, Advances in Neural Information Processing Systems, 35, 507-520. https://doi.org/10.48550/arXiv.2207.08815

Harris, C. R., Millman, K. J., Van Der Walt, S. J., Gommers, R., Virtanen, P., Cournapeau, D., Wieser, E., Taylor, J., Berg, S., Smith, N. J., Kern, R., Picus, M., Hoyer, S., van Kerkwijk, M. H., Brett, M., Haldane, A., Fernández del Río, J., Wiebe, M., Peterson, P., Gérard-Marchant, P., Sheppard, K., Reddy, T., Weckesser, W., Abbasi, H., Gohlke, C., and Oliphant, T. E. (2020). Array programming with NumPy, Nature, 585(7825), 357-362. https://doi.org/10.1038/s41586-020-26 49-2

Hunter, J. D. (2007). Matplotlib: A 2D graphics environment, Computing in Science & Engineering, 9(3), 90-95. https://doi.org/10.1109/MCSE.2007.55

Kim, J. T. (2014). Lowess and outlier analysis of biological oxygen demand on Nakdong main stream river, Journal of the Korean Data and Information Science Society, 25(1), 119-130. [Korean Literature] https://doi.org/10.7465/jkdi.2014.25.1.119

Kim, J., Park, N. S., Yun, S., Chae, S. H., and Yoon, S. (2018). Application of isolation forest technique for outlier detection in water quality data, Journal of Korean Society of Environmental Engineers, 40(12), 473-480. [Korean Literature] https://doi.org/10.4491/KSEE.2018.40.12.473

Kim, S. H., Park, J. H., and Kim, B. (2021). Prediction of cyanobacteria harmful algal blooms in reservoir using machine learning and deep learning, Journal of Korea Water Resources Association, 54(12), 1167-1181. [Korean Literature] https://doi.org/10.3741/JKWRA.2021.54.S-1.1167

Lee, J. H., Moon, B. J., Yoon, H. G., Ha, H. J., Kim, J. A., Yoon, J. S., Kil, H. K., Lee, M. Y., and Jung, K. (2017). A study on outlier detection in automated water quality monitoring data using local regression models, Proceedings of Conference of the Korean Society of Environmental Engineers, 456-457. [Korean Literature]

Lee, S. M. and Kim, I. K. (2021). A comparative study on the application of boosting algorithm for Chl-a estimation in the downstream of Nakdong River, Journal of Korean Society of Environmental Engineers, 43(1), 66-78. [Korean Literature] https://doi.org/10.4491/KSEE.2021.43.1.66

Liu, F. T., Ting, K. M., and Zhou, Z. H. (2008). Isolation forest, 2008 Eighth IEEE International Conference on Data Mining, Pisa, Italy, 413-422, https://doi.org/10.1109/ICDM.2008.17

Liu, T., Zhou, Z., and Yang, L. (2024). Layered isolation forest: A multi-level subspace algorithm for improving isolation forest, Neurocomputing, 581, 127525. https://doi.org/10.1016/j.neucom.2024.127525

McKinney, W. (2010). Data structures for statistical computing in Python, Proceedings of the 9th Python in Science Conference, Austin, 445(1), 51-56. https://doi.org/10.25080/Majora-92bf1922-00a

Moriasi, D. N., Arnold, J. G., Van Liew, M. W., Bingner, R. L., Harmel, R. D., and Veith, T. L. (2007). Model evaluation guidelines for systematic quantification of accuracy in watershed simulations, Transactions of the ASABE, 50(3), 885-900. https://doi.org/10.13031/2013.23153

Nassif, A. B., Talib, M. A., Nasir, Q., and Dakalbab, F. M. (2021). Machine learning for anomaly detection, A systematic review, Ieee Access, 78658-78700. https://doi.org/10.1109/ACCESS.2021.3083060

National Institute of Environmental Research. (NIER). (2025). Water Environment Information System (WEIS), https://water.nier.go.kr/ (accessed March 16. 2025).

Park, J., Patel, K., and Lee, W. H. (2024). Recent advances in algal bloom detection and prediction technology using machine learning, The Science of The Total Environment, 173546. https://doi.org/10.1016/j.scitotenv.2024.173546

Park, S., Son, S., Bae, J., Lee, D., Seo, D., and Kim, J. (2023). Estimation of Chlorophyll-a concentration in Nakdong River using machine learning-based satellite data and water quality, hydrological, and meteorological factors, Korean Journal of Remote Sensing, 39(5), 655-667. [Korean Literature] https://doi.org/10.7780/kjrs.2023.39.5.1.15

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., and Dubourg, V. (2011). Scikit-learn: Machine learning in Python, Journal of Machine Learning Research, 12, 2825-2830.

Uddin, M. G., Rahman, A., Taghikhah, F. R., and Olbert, A. I. (2024). Data-driven evolution of water quality models: an in-depth investigation of innovative outlier detection approaches-A case study of Irish Water Quality Index (IEWQI) model, Water Research, 255, 121499. https://doi.org/10.1016/j.watres.2024.121499

Yepmo, V., Smits, G., Lesot, M. J., and Pivert, O. (2024). Leveraging an isolation forest to anomaly detection and data clustering, Data & Knowledge Engineering, 151(5), 102302. https://doi.org/10.1016/j.datak.2024.102302

뒤로가기

No part of this publication may be reproduced or distributed in any form or any means, or stored in a data base or retrieval system, without the prior permission of the publisher ( www.kswe.org ).

JKSWE

JKSWE The Journal of
the Korean Society on Water Environment

Editorial Office

Journal XML

Journal Information

The Impact of Data Anomalies on the Performance of Machine Learning Models for Algae Bloom Prediction

Abstract

Key words

1. Introduction

2. Materials and Methods

2.1 연구대상 지역

2.2 이상치 생성

2.3 이상치 탐지 모형

(1)

(2)

(3)

2.4 모형 구축

(4)

(5)

(6)

3. Results and Discussion

3.1 이상치 생성 결과

3.2 이상치 탐지 결과

3.3 XGBoost 모형 성능 평가

4. Conclusion

Acknowledgement

References

Article Information (continued)

Key words

JKSWE The Journal ofthe Korean Society on Water Environment

Editorial Office

Journal XML

Journal Information

The Impact of Data Anomalies on the Performance of Machine Learning Models for Algae Bloom Prediction

Abstract

Key words

1. Introduction

2. Materials and Methods

2.1 연구대상 지역

2.2 이상치 생성

2.3 이상치 탐지 모형

(1)

(2)

(3)

2.4 모형 구축

(4)

(5)

(6)

3. Results and Discussion

3.1 이상치 생성 결과

3.2 이상치 탐지 결과

3.3 XGBoost 모형 성능 평가

4. Conclusion

Acknowledgement

References

Article Information (continued)

Key words

JKSWE The Journal of
the Korean Society on Water Environment