2.1 연구 대상 지역 및 데이터 수집
본 연구에서는 4대강(한강, 금강, 낙동강, 영산강) 본류 및 지류의 생물측정망 지점에서 2016년부터 2021년까지 수집된 수질, 수문, 기상 자료
및 저서성 대형무척추동물 자료를 활용하여 분석을 수행했다(Fig. 1). 한강, 금강, 낙동강, 영산강 본류의 유로 연장은 각각 480 km, 395 km, 510 km, 115 km이며, 유역 면적은 각각 22,298
km², 9,903 km², 23,690 km², 3,473 km²이다(Ji et al., 2012; Yu et al., 2018). 온난한 계절성 기후의 영향을 받으며, 연간 강수량의 54% (약 1,300 mm)가 여름철인 7월부터 9월까지 발생한다. 기온의 경우 가장 따뜻한
8월에는 월평균 기온이 22.1°C에서 31.0°C까지, 가장 춥고 건조한 1월에는 –7.2°C에서 3.6°C까지의 기온 범위가 나타난다(KMA, 2021).
현재 저서성 대형무척추동물의 경우 생물측정망 지점별로 연 2회, 봄(4∼5월)과 가을(9∼10월)에 한 번씩 조사를 실시하고 있다(NIER, 2021). 생물측정망 지점의 경우 2008년부터 540개에서 시작해 2016년까지 3,035개로 지속적으로 증가해왔다(Table 1). 2015년까지는 모든 생물측정망 지점에서 매년 조사를 실시했고, 2016년부터 일반 지점 2,814지점은 3년(매년 약 938개)에 한 번씩,
상시지점(221개)은 매년 조사를 실시한다. 본 연구는 현행 BMI 등급체계가 시행된 시점인 2016년부터 2021년까지의 생물측정망 지점에서 수집된
총 13,912건의 표본 단위의 모니터링 자료를 수집했다.
Table 1 Number of survey points by year
Year
|
2008
|
2009
|
2010
|
2011
|
2012
|
2013
|
2014
|
2015
|
2016∼2018
|
2019∼2021
|
Point
|
640
|
720
|
800
|
880
|
960
|
960
|
960
|
960
|
3,035
|
3,035
|
모니터링 자료 내 저서성 대형무척추동물 자료의 경우, 출현 종의 개체 수와 종별 개체밀도(개체/m2) 자료를 기반으로 계산된 BMI 자료를 수집했다. 통계분석에 활용할 환경인자는 모니터링 자료 내에 저서성 대형무척추동물의 영향인자 중 가용한 변수로
총 8가지이다. 이는 pH, 5일 BOD(5-day biochemical oxygen demand, BOD5)(mg/L), 총질소(Total nitrogen,
T-N)(mg/L), 총인(Total phosphorus, T-P)(mg/L)의 4가지 수질 변수와 수심(cm), 유속(cm/s) 같은 수문 변수,
그리고 대한민국 기상청에서 수집한 평균 기온(℃)과 일일 강수량(mm)의 2가지 기상 변수로 구성된다. 현행 저서성 대형무척추동물 건강성 평가 등급
기준 산정에 활용된 총부유물질(Total suspended solids, TSS)(mg/L)의 경우 생물측정망 자료 내에서의 결측 비율이 전체 자료의
94.94%로 매우 높아 활용 변수에서 제외했다.
MRT 기반의 다변량 통계분석에 앞서 데이터의 구조적 특성을 고려해 데이터 전처리를 수행했다. 먼저 각 변수에서 결측치가 포함된 행을 제거했다. 또한,
마할라노비스 거리(Mahalanobis distance)를 기반으로 이상치를 탐지하고 제거했다. 마할라노비스 거리는 다변량 데이터에서 각 변수의 분산을
고려하여 거리를 계산하는 방법으로, 이상치를 식별하는 데 적합한 방법론이다(De Maesschalck et al., 2000). 각 데이터셋의 변수들을 표준화(standardization)한 후, 데이터 표본($x$)과 평균 벡터($\mu$)의 차이를 공분산 행렬의 역행렬을
반영하여 마할라노비스 거리를 계산하였다(식 (1)). 마할라노비스 거리기반 이상치를 판별하기 위한 적절한 임계값을 설정하기 위해, 각 항목의 데이터 값이 평균($\mu$)에서 얼마나 떨어져 있는지를
표준편차 단위($\sigma$)로 나타내는 Z-score를 확인하였다(식 (2)). Z-score가 3 이상인 데이터를 이상치로 간주하였으며, 이는 데이터 값의 평균에서 3 표준편차 이상 떨어진 값으로 전체 데이터의 약 0.3%에
해당하는 매우 드문 데이터 값임을 의미한다(Anusha et al., 2019). 분석 결과, pH를 제외한 다른 항목들에서 약 100∼200개의 데이터를 이상치로 판별하였으며, 평균적으로 약 139개의 이상치가 확인되었다(Table 2). 이를 바탕으로 마할라노비스 거리 기반 이상치 판별을 위해 전체 데이터의 약 1%를 이상치로 제거하도록 임계값을 7.5로 설정하였다(Fig. 2). 최종적으로, 1,020개의 결측치와 104개의 이상치를 제거하였으며, 총 12,788개의 데이터 표본을 MRT 구축에 활용하였다.
Fig. 2. Distribution of Mahalanobis distance in the dataset.
Table 2 Number of outliers detected based on z-score (≥3) for each dependent variable
Dependent variable
|
Velo
(cm/s)
|
Temp
(℃)
|
BOD
(mg/L)
|
T-N
(mg/L)
|
Depth
(cm)
|
T-P
(mg/L)
|
Prec
(mm)
|
PH
|
Count
|
126
|
68
|
163
|
195
|
190
|
130
|
239
|
2
|
$
x: Data \,point \\
\mu : Mean \,vector \,of \,data\\
\sum : Covariance
$
$
Z :z-score\\
X : Data \,point \\
\mu : Mean \,of \,data\\
\sigma : Standard \,deviation \,of \,data
$
2.2 Multivariate Regression Tree (MRT)
본 연구에서는 MRT를 활용하여 BMI 등급 체계와 환경변수 간의 관계를 분석하고, BMI의 최적 분할점을 체계적으로 탐색하였다. MRT는 기존의
Classification and Regression Tree (CART) 방법론을 확장한 분석 기법으로, 독립변수를 기준으로 데이터를 이진 트리
구조로 분할하며, 각 노드에서 종속변수의 편차를 최소화하는 방향으로 작동한다(Breiman et al., 1984). 트리 생성 과정은 뿌리 노드에서 시작하여 데이터를 반복적으로 이진 분할하며, greedy search를 통해 각 단계에서 종속변수 편차를 최소화하는
독립변수의 최적 분할 기준을 탐색한다. 이를 통해 데이터의 복잡한 구조와 종속변수 간의 관계를 반영한 최적화된 트리를 구축할 수 있다(De’Ath, 2002; Larsen and Speckman, 2004).
본 연구에서는 BMI를 독립변수로 설정하고, 환경변수를 종속변수로 사용하여 다변량 데이터의 구조와 변수 간의 상호작용을 반영한 트리를 구축하였다.
생성된 트리는 5개의 노드를 가지는 구조를 기본으로 설정하여 BMI 등급 분할점을 결정하였으며, 이를 통해 BMI와 환경변수 간의 다변량 관계를 정량적으로
평가하였다(Segal, 1992; Zhang, 1998). 추가적으로, 생성된 트리를 2∼4개의 노드를 가지는 구조로 축소하여 각 트리에서 도출된 분할점과 BMI 등급 간의 차이를 비교하였다. 이러한 분석은
BMI 등급 수의 조정이 분류 성능과 해석에 미치는 영향을 평가하기 위해 수행되었다.
2.3 후속 분석
MRT 기반 새로운 BMI 등급체계의 유용성을 확인하기 위해 후속 분석을 수행하였다. 먼저 변수중요도 지수(variable importance index)를
계산하여 MRT 기반 BMI 등급체계와 현행 BMI 등급체계에 대하여 환경변수들이 등급화에 미친 영향의 상대적 중요도를 분석하고, 주요 환경변수에
대한 BMI 등급 간 자료 분포 변별력을 평가하였다. 또한, 랜덤포레스트(random forest) 기반 인공지능 모델을 활용하여 MRT 기반 BMI
등급체계와 현행 BMI 등급체계를 각각 예측하고 재현성을 비교하였으며, MRT 기반 BMI 분류 시 등급 수 조정에 따른 예측력 변화를 추가적으로
분석하였다. 연구 흐름도는 Fig. 3과 같다.
Fig. 3. Research flow chart.
2.3.1 변수중요도 지수 계산
MRT의 결과에 대한 변수들의 영향력을 정량적으로 평가하기 위해 변수중요도 지수를 활용하였다(Duarte et al., 2021). 변수중요도 지수는 각 변수가 군집(cluster) 생성에 미치는 영향을 백분율로 나타내 변수 간의 상대적인 중요도를 비교할 수 있게 한다. 변수중요도
지수는 다음의 식에 따라 계산한다. 계산된 변수중요도 지수는 전체변수들의 상대적 중요도를 나타내며, 백분율(%)로써 각 변수 간의 중요도를 비교할
수 있다. 변수중요도 지수는 다음의 식에 따라 도출하였다(식 (3), 식 (4), 식 (5)).
$
i : Number\, of \,data\\
k : Number \,of\, clusters\\
d : Number\, of\, variables\\
n_{s}: Number\, of\, data\, in\, clusters \\
x_{1},\: ... ,\: x_{d}: Variables \,in \,data\\
\psi_{r,\: s}(i): Squared \,difference \,between \,mean \,values \,of\\
clusters \,and \,cluster\\
{I}_{{i}}:Variable \,importance \,index
$
여기서 $i$는 데이터의 표본 단위, $k$는 군집의 수, $d$는 변수의 개수, $n_{s}$는 군집 s에서의 데이터 표본 단위이다. 변수중요도
지수의 계산은 먼저 데이터에서 고려할 변수들($x_{1}$, ...,$x_{d}$)을 선정한 후, 각 변수에 대해 군집 $s$와 $r$간 평균값의
제곱 차이($\psi_{r,\: s}(i)$)를 다음 식 (5), 식 (6)을 통해 계산한다. 마지막으로 계산된 값들을 바탕으로 각 변수의 중요도 지수($I_{i}$)를 식 (7)을 통해 산출한다. 변수중요도 지수는 전체변수들의 상대적 중요도를 나타내는데, 백분율(%)로 표현되어 전체가 100%로 각 변수 간의 중요도를 비교할
수 있다.
앞서 수행된 MRT를 통한 BMI의 분할점을 기반으로 산출된 변수중요도 지수를 통해 각 군집의 형성에 대한 각 변수의 영향력을 평가한다. 본 연구에서는
먼저 MRT를 통한 BMI의 분할점을 기반으로 데이터를 재분류했다. 변수중요도의 정확한 비교를 위해 변수들의 표준화를 수행하였다. 각 환경변수들에
대한 변수중요도 지수를 계산해 MRT 결과에 대한 변수들의 우선순위를 확인한 후, 현행 BMI의 등급체계 산정에 활용된 변수 중 MRT에 활용한 BOD,
TP와 변수중요도가 높은 환경변수 데이터의 분포를 확인하였다. 현행 BMI의 등급체계 기반의 데이터와 MRT 결과 기반의 데이터 각각의 변수들의 등급별
박스도표를 확인하고, 등급별 데이터의 평균치를 계산한 후 서로 비교하였다.
2.3.2 분류모델 예측 성능 비교
본 연구에서는 재분류된 BMI 평가등급을 예측하기 위해 다변량 환경변수를 입력변수로 포함한 분류모델과, 비교를 위해 현행 BMI 등급체계를 예측하는
분류모델을 개발하였다. 이를 통해, BMI 등급체계에 다양한 환경변수를 반영함으로써 예측 성능이 개선되는지 검증하였다. 또한, BMI 등급체계를 2∼4개
노드로 축소하여 분할한 분류모델을 개발해, 등급 수 조정이 분류 성능에 미치는 영향을 확인하고 하천 수생태계 관리에 있어 보다 용이한 분류모델을 제시하고자
하였다. 분류모델 개발을 위한 기계학습 알고리즘으로는 랜덤포레스트를 활용하였다. 모델링 시 전처리된 데이터를 훈련 데이터와 평가 데이터로 8:2 비율로
분할하여 사용하였다. 분류모델의 성능을 향상시키기 위해 하이퍼파라미터 최적화를 수행하여 모델의 매개변수를 조정하였다.
랜덤포레스트는 배깅 방법의 확장으로 다수의 의사결정트리를 생성하고 이들의 예측을 집계하여 최종 예측을 수행하는 앙상블 학습 방법이다(Liaw and Wiener, 2002). 각 트리는 데이터의 부트스트랩 표본을 이용해 독립적으로 구성되고, 각 노드에서 무작위로 선택된 일부 예측변수들의 부분 집합을 고려해 최적의 분할을
탐색한다(Svetnik et al., 2003).
분류모델의 성능 비교는 평가 데이터를 기반으로 이루어졌다. 성능 평가지표로는 분류모델의 평가지표인 accuracy와 Cohen’s kappa statistic을
활용하였다. 이를 통해 MRT 기반의 BMI 등급체계가 분류모델의 예측 성능 개선에 얼마나 영향을 주었는지 확인하였다. accuracy는 모델이 정확하게
분류한 표본의 비율을 나타내는 지표로, 전체 예측 중 올바르게 분류된 표본의 비율을 의미한다(Diebold and Mariano, 2002). accuracy는 0부터 1 사이의 값을 가지는데 1에 가까워질수록 예측력이 좋은 것으로 해석한다. Cohen’s kappa statistic은
모델의 예측과 실측 간의 일치도를 나타내는 지표로, 우연에 의한 일치를 고려해 예상되는 정확도를 보정한다. 이는 무작위로 예측한 것에 대한 예상 정확도를
고려하여 모델의 성능을 더 정확하게 평가할 수 있다(Blackman and Koval, 2000; Park and Kim, 2015). 이는 데이터에 불균형이 존재할 때 더 정확하고 공정하게 평가할 수 있다. Cohen’s kappa statistic은 –1부터 +1 사이의 값을
가지는데, 1은 예측값이 실제로 모두 실측값과 완전히 일치하는 것을 의미하고 0에 가까워질수록 우연에 의한 일치, 음의 값은 예측값과 실측값 간의
일치가 기대되는 것보다 적음을 의미한다. 각 평가지표를 계산하는 수식은 다음과 같다(식 (6), 식 (7)).
$
P_{0}: Relative\, observed\, agreement\\
P_{C}: Hypothetical \,probabily \,of \,chance \,agreement
$
여기서 식 (9)의 $P_{O}$는 실제로 일치하는 표본의 비율이고 $P_{C}$는 우연히 일치한 것으로 예상이 되는 표본의 비율을 의미한다.
추가적으로 분류모델의 성능 평가에서 변수중요도를 확인하기 위해 Mean Decrease Accuracy (MDA)와 Mean Decrease Gini
(MDG) 지표를 활용하였다(Han et al., 2016). 이를 통해 분류모델이 BMI 등급 간 환경 차이에 얼마나 영향을 받는지 확인함과 동시에 MRT 결과에서의 변수중요도와 결과를 비교하여 MRT가
효과적으로 수행되었는지 확인했다. MDA는 특정 변수의 값을 무작위로 섞었을 때 모델 예측 성능(accuracy)의 감소 정도를 측정하여, 해당 변수의
중요성을 평가한다. MDG는 트리 기반 모델에서 변수에 의해 감소된 지니 불순도를 기반으로 변수의 기여도를 계산한다. 두 지표 모두 값이 클수록 모델
성능에 중요한 변수로 해석된다. 지니 불순도는 특정 노드에서 클래스 𝑖에 속하는 데이터 비율($p_{i}$)을 사용하여, 각 클래스의 비율($(p_{i})^{2}$)을
모두 더한 값을 1에서 빼는 방식으로 계산하였다(식 (8)).
$p_{i}: Probability\,of\,selecting\,a\,sample\,with\,label\,i$