The Journal of
the Korean Society on Water Environment

The Journal of
the Korean Society on Water Environment

Bimonthly
  • ISSN : 2289-0971 (Print)
  • ISSN : 2289-098X (Online)
  • KCI Accredited Journal

Editorial Office


  1. 서울시립대학교 환경공학과 (Department of Environment Engineering, University of Seoul)
  2. 경기대학교 생명과학과 (Department of Life Science, Kyonggi University)
  3. 국립환경과학원 물환경공학연구과 (Environmental Engineering Research Division, National Institute of Environmental Research)



Aquatic ecosystem, Benthic macroinvertebrates, Benthic Macroinvertebrates Index (BMI), Multivariate regression tree (MRT), Random forest, Variable importance index

1. Introduction

산업화 및 도시화로 인한 폐기물 배출 및 대규모 개발은 하천 서식지의 파괴를 일으켜 수생태계 건강성 악화를 초래한다(An et al., 2006). 또한, 기후 변화로 인한 연중 기온 상승과 강수량 패턴의 변화는 하천 유량의 변동성을 높이고 수위의 불규칙성을 초래하여 서식지 구조에 영향을 미칠 수 있다(Palmer et al., 2008). 하천 내 서식지의 급격한 변화는 생물 다양성을 감소시키고 특정 종의 서식지 파괴나 멸종을 초래할 수 있다(Han et al., 2024). 하천 수생태계 건강성은 유역 내 환경 상태를 평가하는 핵심적인 지표로서, 환경적 변화 및 인간 활동의 영향을 종합적으로 반영하는 중요한 요소이다(Jeon et al., 2010). 하천 수생태계 건강성 평가는 현재의 환경 상태를 파악하고 잠재적인 문제를 발견하여 적절한 대응조치를 취할 수 있는 기반을 마련하는 역할을 수행한다(Kim and Joo, 2017).

“하천 수생태계 현황 조사 및 건강성 평가(’14∼’20)”에 따르면 현재 우리나라 하천 수생태계 건강성 평가를 목적으로 부착돌말류, 저서성 대형무척추동물, 어류, 수변식생, 서식 및 수변환경 총 5가지 항목에 대한 조사가 시행되고 있다. 생물학적 평가항목 중 저서성 대형무척추동물은 하천 수생태계의 건강성을 평가하는 중요한 지표생물로 활용된다. 이들은 하천 수생태계 먹이사슬의 1차 혹은 2차 소비자로서 물환경의 변화에 민감하게 반응해 다양한 환경요인과 서식지의 상태에 따라 다양한 종별 분포가 나타난다(Go et al., 2021; Pennak, 1989; Yoon et al., 1992a). 대부분의 일생을 물에서 보내며 수집이 수월해 수역의 생물학적 상태를 나타내는 신뢰성 높은 지표로 전 세계적으로 널리 연구 및 평가에 사용되고 있다(Kong et al., 1999; Won et al., 2006). 현재 우리나라에서는 저서성 대형무척추동물평가지수(benthic macroinvertebrate index, BMI)가 하천 수생태계 건강성 평가를 위해 도입되어 현재까지 활용 중이다(NIER, 2019; 2021).

초기 BMI의 등급체계는 최상(A), 양호(B), 보통(C), 불량(D)으로 총 4개 등급으로 나누어져 생물 건강성 등급의 평가가 이루어졌다(NIER, 2012). 이후 2016년 “생태하천 복원사업 중기 종합계획(’16∼’20)”에 따라 조사급체계도 매우 좋음(A), 좋음(B), 보통(C), 나쁨(D), 매우 나쁨(E) 총 5개 분할의 등급체계로 개선이 이루어졌다. 개선된 BMI의 등급체계의 기준은 BMI 값과 생화학적산소요구지점 및 조사주기, BMI의 계산 방식이 일부 달라짐과 동시에 생물화학적 5일 BOD(BOD5), 총부유물질(TSS), 총인(TP)의 장기 평균 농도와의 다중회귀식을 기반으로 산정되었다(Kong et al., 2018).

현행 BMI 등급체계는 유기오염, 영양상태, 무기오염을 대변하는 세 가지 수질변수만을 반영하나, 수질변수 외에도 다양한 환경 요인들이 저서성 대형무척추동물과 유의한 상관관계를 가진다(Yoon et al., 1992b). 특히 하천의 유속은 그 특성에 따라 저서성 대형무척추동물의 종 다양성에 차이가 생기기 때문에 수생태 건강성 평가에 있어 반영이 필수적이다(Ciutti et al., 2004; Kong and Kim, 2015). 그러므로 저서성 대형무척추동물의 등급체계의 설정에 있어 다양한 환경 인자들을 고려할 필요성이 있다. 또한, 현행 BMI 등급체계는 2015년 이전의 자료에 근거해 수립되었으므로 이로 인한 제한점이 존재할 수 있다. 따라서 근래에 발생한 물환경 변화, 특히 새로운 오염원의 출현이나 기후 변화에 따른 수리⋅수문 변화에 따른 수생태의 반응을 반영할 수 있도록 최신 자료를 활용한 BMI 등급화 결과를 분석할 필요가 있다.

따라서, 본 연구의 목적은 다양한 환경변수의 영향을 정량적으로 반영하도록 BMI 등급을 재분류하고 새로운 분류 기준의 유용성을 확인하는 것이다. 이를 위해 다변량 통계분석 기법 중 하나인 다변량 회귀나무(Multivariate Regression Tree, MRT)를 활용하여 새로운 BMI 등급체계를 제안하였고, 이를 현행 BMI 등급체계와 비교, 고찰하였다.

2. Materials and Methods

2.1 연구 대상 지역 및 데이터 수집

본 연구에서는 4대강(한강, 금강, 낙동강, 영산강) 본류 및 지류의 생물측정망 지점에서 2016년부터 2021년까지 수집된 수질, 수문, 기상 자료 및 저서성 대형무척추동물 자료를 활용하여 분석을 수행했다(Fig. 1). 한강, 금강, 낙동강, 영산강 본류의 유로 연장은 각각 480 km, 395 km, 510 km, 115 km이며, 유역 면적은 각각 22,298 km², 9,903 km², 23,690 km², 3,473 km²이다(Ji et al., 2012; Yu et al., 2018). 온난한 계절성 기후의 영향을 받으며, 연간 강수량의 54% (약 1,300 mm)가 여름철인 7월부터 9월까지 발생한다. 기온의 경우 가장 따뜻한 8월에는 월평균 기온이 22.1°C에서 31.0°C까지, 가장 춥고 건조한 1월에는 –7.2°C에서 3.6°C까지의 기온 범위가 나타난다(KMA, 2021).

Fig. 1. Study sites.

../../Resources/kswe/KSWE.2025.41.1.18/fig1.png

현재 저서성 대형무척추동물의 경우 생물측정망 지점별로 연 2회, 봄(4∼5월)과 가을(9∼10월)에 한 번씩 조사를 실시하고 있다(NIER, 2021). 생물측정망 지점의 경우 2008년부터 540개에서 시작해 2016년까지 3,035개로 지속적으로 증가해왔다(Table 1). 2015년까지는 모든 생물측정망 지점에서 매년 조사를 실시했고, 2016년부터 일반 지점 2,814지점은 3년(매년 약 938개)에 한 번씩, 상시지점(221개)은 매년 조사를 실시한다. 본 연구는 현행 BMI 등급체계가 시행된 시점인 2016년부터 2021년까지의 생물측정망 지점에서 수집된 총 13,912건의 표본 단위의 모니터링 자료를 수집했다.

Table 1 Number of survey points by year

Year

2008

2009

2010

2011

2012

2013

2014

2015

2016∼2018

2019∼2021

Point

640

720

800

880

960

960

960

960

3,035

3,035

모니터링 자료 내 저서성 대형무척추동물 자료의 경우, 출현 종의 개체 수와 종별 개체밀도(개체/m2) 자료를 기반으로 계산된 BMI 자료를 수집했다. 통계분석에 활용할 환경인자는 모니터링 자료 내에 저서성 대형무척추동물의 영향인자 중 가용한 변수로 총 8가지이다. 이는 pH, 5일 BOD(5-day biochemical oxygen demand, BOD5)(mg/L), 총질소(Total nitrogen, T-N)(mg/L), 총인(Total phosphorus, T-P)(mg/L)의 4가지 수질 변수와 수심(cm), 유속(cm/s) 같은 수문 변수, 그리고 대한민국 기상청에서 수집한 평균 기온(℃)과 일일 강수량(mm)의 2가지 기상 변수로 구성된다. 현행 저서성 대형무척추동물 건강성 평가 등급 기준 산정에 활용된 총부유물질(Total suspended solids, TSS)(mg/L)의 경우 생물측정망 자료 내에서의 결측 비율이 전체 자료의 94.94%로 매우 높아 활용 변수에서 제외했다.

MRT 기반의 다변량 통계분석에 앞서 데이터의 구조적 특성을 고려해 데이터 전처리를 수행했다. 먼저 각 변수에서 결측치가 포함된 행을 제거했다. 또한, 마할라노비스 거리(Mahalanobis distance)를 기반으로 이상치를 탐지하고 제거했다. 마할라노비스 거리는 다변량 데이터에서 각 변수의 분산을 고려하여 거리를 계산하는 방법으로, 이상치를 식별하는 데 적합한 방법론이다(De Maesschalck et al., 2000). 각 데이터셋의 변수들을 표준화(standardization)한 후, 데이터 표본($x$)과 평균 벡터($\mu$)의 차이를 공분산 행렬의 역행렬을 반영하여 마할라노비스 거리를 계산하였다(식 (1)). 마할라노비스 거리기반 이상치를 판별하기 위한 적절한 임계값을 설정하기 위해, 각 항목의 데이터 값이 평균($\mu$)에서 얼마나 떨어져 있는지를 표준편차 단위($\sigma$)로 나타내는 Z-score를 확인하였다(식 (2)). Z-score가 3 이상인 데이터를 이상치로 간주하였으며, 이는 데이터 값의 평균에서 3 표준편차 이상 떨어진 값으로 전체 데이터의 약 0.3%에 해당하는 매우 드문 데이터 값임을 의미한다(Anusha et al., 2019). 분석 결과, pH를 제외한 다른 항목들에서 약 100∼200개의 데이터를 이상치로 판별하였으며, 평균적으로 약 139개의 이상치가 확인되었다(Table 2). 이를 바탕으로 마할라노비스 거리 기반 이상치 판별을 위해 전체 데이터의 약 1%를 이상치로 제거하도록 임계값을 7.5로 설정하였다(Fig. 2). 최종적으로, 1,020개의 결측치와 104개의 이상치를 제거하였으며, 총 12,788개의 데이터 표본을 MRT 구축에 활용하였다.

Fig. 2. Distribution of Mahalanobis distance in the dataset.

../../Resources/kswe/KSWE.2025.41.1.18/fig2.png

Table 2 Number of outliers detected based on z-score (≥3) for each dependent variable

Dependent variable

Velo

(cm/s)

Temp

(℃)

BOD

(mg/L)

T-N

(mg/L)

Depth

(cm)

T-P

(mg/L)

Prec

(mm)

PH

Count

126

68

163

195

190

130

239

2

(1)
$D^{2}=(x-\mu)^{T}\sum^{-1}(x-\mu)$

$ x: Data \,point \\ \mu : Mean \,vector \,of \,data\\ \sum : Covariance $

(2)
$Z =\dfrac{X -\mu}{\sigma}$

$ Z :z-score\\ X : Data \,point \\ \mu : Mean \,of \,data\\ \sigma : Standard \,deviation \,of \,data $

2.2 Multivariate Regression Tree (MRT)

본 연구에서는 MRT를 활용하여 BMI 등급 체계와 환경변수 간의 관계를 분석하고, BMI의 최적 분할점을 체계적으로 탐색하였다. MRT는 기존의 Classification and Regression Tree (CART) 방법론을 확장한 분석 기법으로, 독립변수를 기준으로 데이터를 이진 트리 구조로 분할하며, 각 노드에서 종속변수의 편차를 최소화하는 방향으로 작동한다(Breiman et al., 1984). 트리 생성 과정은 뿌리 노드에서 시작하여 데이터를 반복적으로 이진 분할하며, greedy search를 통해 각 단계에서 종속변수 편차를 최소화하는 독립변수의 최적 분할 기준을 탐색한다. 이를 통해 데이터의 복잡한 구조와 종속변수 간의 관계를 반영한 최적화된 트리를 구축할 수 있다(De’Ath, 2002; Larsen and Speckman, 2004).

본 연구에서는 BMI를 독립변수로 설정하고, 환경변수를 종속변수로 사용하여 다변량 데이터의 구조와 변수 간의 상호작용을 반영한 트리를 구축하였다. 생성된 트리는 5개의 노드를 가지는 구조를 기본으로 설정하여 BMI 등급 분할점을 결정하였으며, 이를 통해 BMI와 환경변수 간의 다변량 관계를 정량적으로 평가하였다(Segal, 1992; Zhang, 1998). 추가적으로, 생성된 트리를 2∼4개의 노드를 가지는 구조로 축소하여 각 트리에서 도출된 분할점과 BMI 등급 간의 차이를 비교하였다. 이러한 분석은 BMI 등급 수의 조정이 분류 성능과 해석에 미치는 영향을 평가하기 위해 수행되었다.

2.3 후속 분석

MRT 기반 새로운 BMI 등급체계의 유용성을 확인하기 위해 후속 분석을 수행하였다. 먼저 변수중요도 지수(variable importance index)를 계산하여 MRT 기반 BMI 등급체계와 현행 BMI 등급체계에 대하여 환경변수들이 등급화에 미친 영향의 상대적 중요도를 분석하고, 주요 환경변수에 대한 BMI 등급 간 자료 분포 변별력을 평가하였다. 또한, 랜덤포레스트(random forest) 기반 인공지능 모델을 활용하여 MRT 기반 BMI 등급체계와 현행 BMI 등급체계를 각각 예측하고 재현성을 비교하였으며, MRT 기반 BMI 분류 시 등급 수 조정에 따른 예측력 변화를 추가적으로 분석하였다. 연구 흐름도는 Fig. 3과 같다.

Fig. 3. Research flow chart.

../../Resources/kswe/KSWE.2025.41.1.18/fig3.png

2.3.1 변수중요도 지수 계산

MRT의 결과에 대한 변수들의 영향력을 정량적으로 평가하기 위해 변수중요도 지수를 활용하였다(Duarte et al., 2021). 변수중요도 지수는 각 변수가 군집(cluster) 생성에 미치는 영향을 백분율로 나타내 변수 간의 상대적인 중요도를 비교할 수 있게 한다. 변수중요도 지수는 다음의 식에 따라 계산한다. 계산된 변수중요도 지수는 전체변수들의 상대적 중요도를 나타내며, 백분율(%)로써 각 변수 간의 중요도를 비교할 수 있다. 변수중요도 지수는 다음의 식에 따라 도출하였다(식 (3), 식 (4), 식 (5)).

(3)
$\overline{x}_{i,\: s}=\dfrac{1}{n_{s}}\sum_{j:x_{i,\: j}\in G_{s}}x_{i,\: j}$
(4)
$\psi_{r,\: s}(i)=(\overline{x}_{i,\: r}-\overline{x}_{i,\: s})^{2}$
(5)
$ I_{i}=\left[\dfrac{2}{(k-r)(k-1)}\sum_{r=1}^{k-1}\sum_{s=r+1}^{k}\psi_{r,\: s}(i)\right]\\ \div \left[\dfrac{2}{d(k-r)(k-1)}\sum_{j=1}^{d}\sum_{r=1}^{k-1}\sum_{s=r+1}^{k}\psi_{r,\: s}(j)\right]\\ =\left[\sum_{r=1}^{k-1}\sum_{s=r+1}^{k}\psi_{r,\: s}(i)\right]\div \left[\sum_{j=1}^{d}\sum_{r=1}^{k-1}\sum_{s=r+1}^{k}\psi_{r,\: s}(j)\right] $

$ i : Number\, of \,data\\ k : Number \,of\, clusters\\ d : Number\, of\, variables\\ n_{s}: Number\, of\, data\, in\, clusters \\ x_{1},\: ... ,\: x_{d}: Variables \,in \,data\\ \psi_{r,\: s}(i): Squared \,difference \,between \,mean \,values \,of\\ clusters \,and \,cluster\\ {I}_{{i}}:Variable \,importance \,index $

여기서 $i$는 데이터의 표본 단위, $k$는 군집의 수, $d$는 변수의 개수, $n_{s}$는 군집 s에서의 데이터 표본 단위이다. 변수중요도 지수의 계산은 먼저 데이터에서 고려할 변수들($x_{1}$, ...,$x_{d}$)을 선정한 후, 각 변수에 대해 군집 $s$와 $r$간 평균값의 제곱 차이($\psi_{r,\: s}(i)$)를 다음 식 (5), 식 (6)을 통해 계산한다. 마지막으로 계산된 값들을 바탕으로 각 변수의 중요도 지수($I_{i}$)를 식 (7)을 통해 산출한다. 변수중요도 지수는 전체변수들의 상대적 중요도를 나타내는데, 백분율(%)로 표현되어 전체가 100%로 각 변수 간의 중요도를 비교할 수 있다.

앞서 수행된 MRT를 통한 BMI의 분할점을 기반으로 산출된 변수중요도 지수를 통해 각 군집의 형성에 대한 각 변수의 영향력을 평가한다. 본 연구에서는 먼저 MRT를 통한 BMI의 분할점을 기반으로 데이터를 재분류했다. 변수중요도의 정확한 비교를 위해 변수들의 표준화를 수행하였다. 각 환경변수들에 대한 변수중요도 지수를 계산해 MRT 결과에 대한 변수들의 우선순위를 확인한 후, 현행 BMI의 등급체계 산정에 활용된 변수 중 MRT에 활용한 BOD, TP와 변수중요도가 높은 환경변수 데이터의 분포를 확인하였다. 현행 BMI의 등급체계 기반의 데이터와 MRT 결과 기반의 데이터 각각의 변수들의 등급별 박스도표를 확인하고, 등급별 데이터의 평균치를 계산한 후 서로 비교하였다.

2.3.2 분류모델 예측 성능 비교

본 연구에서는 재분류된 BMI 평가등급을 예측하기 위해 다변량 환경변수를 입력변수로 포함한 분류모델과, 비교를 위해 현행 BMI 등급체계를 예측하는 분류모델을 개발하였다. 이를 통해, BMI 등급체계에 다양한 환경변수를 반영함으로써 예측 성능이 개선되는지 검증하였다. 또한, BMI 등급체계를 2∼4개 노드로 축소하여 분할한 분류모델을 개발해, 등급 수 조정이 분류 성능에 미치는 영향을 확인하고 하천 수생태계 관리에 있어 보다 용이한 분류모델을 제시하고자 하였다. 분류모델 개발을 위한 기계학습 알고리즘으로는 랜덤포레스트를 활용하였다. 모델링 시 전처리된 데이터를 훈련 데이터와 평가 데이터로 8:2 비율로 분할하여 사용하였다. 분류모델의 성능을 향상시키기 위해 하이퍼파라미터 최적화를 수행하여 모델의 매개변수를 조정하였다.

랜덤포레스트는 배깅 방법의 확장으로 다수의 의사결정트리를 생성하고 이들의 예측을 집계하여 최종 예측을 수행하는 앙상블 학습 방법이다(Liaw and Wiener, 2002). 각 트리는 데이터의 부트스트랩 표본을 이용해 독립적으로 구성되고, 각 노드에서 무작위로 선택된 일부 예측변수들의 부분 집합을 고려해 최적의 분할을 탐색한다(Svetnik et al., 2003).

분류모델의 성능 비교는 평가 데이터를 기반으로 이루어졌다. 성능 평가지표로는 분류모델의 평가지표인 accuracy와 Cohen’s kappa statistic을 활용하였다. 이를 통해 MRT 기반의 BMI 등급체계가 분류모델의 예측 성능 개선에 얼마나 영향을 주었는지 확인하였다. accuracy는 모델이 정확하게 분류한 표본의 비율을 나타내는 지표로, 전체 예측 중 올바르게 분류된 표본의 비율을 의미한다(Diebold and Mariano, 2002). accuracy는 0부터 1 사이의 값을 가지는데 1에 가까워질수록 예측력이 좋은 것으로 해석한다. Cohen’s kappa statistic은 모델의 예측과 실측 간의 일치도를 나타내는 지표로, 우연에 의한 일치를 고려해 예상되는 정확도를 보정한다. 이는 무작위로 예측한 것에 대한 예상 정확도를 고려하여 모델의 성능을 더 정확하게 평가할 수 있다(Blackman and Koval, 2000; Park and Kim, 2015). 이는 데이터에 불균형이 존재할 때 더 정확하고 공정하게 평가할 수 있다. Cohen’s kappa statistic은 –1부터 +1 사이의 값을 가지는데, 1은 예측값이 실제로 모두 실측값과 완전히 일치하는 것을 의미하고 0에 가까워질수록 우연에 의한 일치, 음의 값은 예측값과 실측값 간의 일치가 기대되는 것보다 적음을 의미한다. 각 평가지표를 계산하는 수식은 다음과 같다(식 (6), 식 (7)).

(6)

$ Accuracy=\\ \dfrac{True \,Posives+True \,Negatives}{True \,Posives+True \,Negatives+False \,Posives+False \,Negatives} $

(7)
$K(Cohen's \,kappa\,statistic)=\dfrac{P_{O}-P_{C}}{1-P_{C}}$

$ P_{0}: Relative\, observed\, agreement\\ P_{C}: Hypothetical \,probabily \,of \,chance \,agreement $

여기서 식 (9)의 $P_{O}$는 실제로 일치하는 표본의 비율이고 $P_{C}$는 우연히 일치한 것으로 예상이 되는 표본의 비율을 의미한다.

추가적으로 분류모델의 성능 평가에서 변수중요도를 확인하기 위해 Mean Decrease Accuracy (MDA)와 Mean Decrease Gini (MDG) 지표를 활용하였다(Han et al., 2016). 이를 통해 분류모델이 BMI 등급 간 환경 차이에 얼마나 영향을 받는지 확인함과 동시에 MRT 결과에서의 변수중요도와 결과를 비교하여 MRT가 효과적으로 수행되었는지 확인했다. MDA는 특정 변수의 값을 무작위로 섞었을 때 모델 예측 성능(accuracy)의 감소 정도를 측정하여, 해당 변수의 중요성을 평가한다. MDG는 트리 기반 모델에서 변수에 의해 감소된 지니 불순도를 기반으로 변수의 기여도를 계산한다. 두 지표 모두 값이 클수록 모델 성능에 중요한 변수로 해석된다. 지니 불순도는 특정 노드에서 클래스 𝑖에 속하는 데이터 비율($p_{i}$)을 사용하여, 각 클래스의 비율($(p_{i})^{2}$)을 모두 더한 값을 1에서 빼는 방식으로 계산하였다(식 (8)).

(8)
$G(Gini\, Impury)= 1 -\sum(p_{i})^{2}$

$p_{i}: Probability\,of\,selecting\,a\,sample\,with\,label\,i$

3. Results and Discussion

3.1 MRT 결과 분석

MRT를 수행한 결과, ‘매우 좋음’ 등급은 BMI가 91.45 이상일 때, ‘좋음’ 등급은 82.25 이상 91.45 미만, ‘보통’ 등급은 70.35 이상 82.25 미만, ‘나쁨’ 등급은 51.95 이상 70.35 미만, 마지막으로 ‘매우 나쁨’ 등급은 51.95 미만으로 분할되었다(Fig. 4). 이는 현행 BMI 건강성 평가 기준과 비교하였을 때, MRT에서 도출된 분할점이 현행 기준의 분할점보다 전반적으로 더 높은 경향이 나타났다(Fig. 5). 예를 들어, 현행 기준에서 ‘매우 좋음’ 등급은 BMI가 80 이상으로 설정되어 있으나, MRT 결과에서는 91.45 이상으로 상승하였다. 특히 ‘매우 좋음’, ‘좋음’ 같은 상위 등급의 경우, 분할점이 상향 조정됨과 동시에 해당 등급의 범위가 좁아져 현행 등급체계보다 엄격하게 설정되었다.

Fig. 4. Primary splits derived from multivariate regression tree models. The tree is constrained to a size of 5 nodes. A tree model is created based on the split point of the independent variable, BMI. Different colors represent the BMI grade associated with each final split node. N denotes the number of observations at each node.

../../Resources/kswe/KSWE.2025.41.1.18/fig4.png

Fig. 5. Comparison of the distribution of a) BMI grades based on MRT-based grade system b) BMI grades based on current grade system.

../../Resources/kswe/KSWE.2025.41.1.18/fig5.png

MRT 기반 BMI 등급체계에서의 데이터 분포를 분석한 결과, ‘매우 나쁨’ 등급에 해당하는 데이터가 3,756개로 가장 많았으며, 이어서 ‘나쁨’ 등급이 2,912개, ‘보통’ 등급이 2,980개, ‘좋음’ 등급이 2,443개, ‘매우 좋음’ 등급이 697개로 나타났다. 반면, 현행 BMI 등급체계에서는 ‘매우 좋음’ 등급이 3,774개로 가장 많았고, 이어서 ‘좋음’ 등급이 3,367개, ‘보통’ 등급이 2,157개, ‘나쁨’ 등급이 1,968개, ‘매우 나쁨’ 등급이 1,522개로 확인되었다. MRT 기반 등급체계에서는 하위 등급(‘매우 나쁨’ 및 ‘나쁨’)에서 데이터가 집중되었으나, 상위 등급(‘매우 좋음’ 및 ‘좋음’)의 비율이 대폭 감소하였다. 이는 MRT가 다양한 환경변수를 종합적으로 고려하여 BMI 등급을 분류함으로써 상위 등급에 보다 엄격한 기준을 적용했음을 의미한다. 반면, 현행 BMI 등급체계는 상위 등급 데이터의 비중이 과도하게 높아 실제 환경 조건을 과대평가했을 가능성이 있음을 확인했다. 이러한 결과는 환경변수와 BMI 간의 다변량 관계를 통합적으로 분석함으로써 실제로 환경이 우수한 지역을 명확히 구분하고, 보다 신뢰도 높은 평가 결과를 제공할 수 있음을 보여준다.

3.2 변수중요도 분석 결과

변수중요도 지수 산정을 통해 다양한 환경변수가 MRT 기반 BMI 등급화에 미치는 영향을 분석하였다(Fig. 6). 그 결과, 유속의 변수중요도 지수가 53.38%로 가장 높은 BMI 등급 구분에 가장 큰 영향을 미치는 것으로 나타났다. 이는 유속이 저서성 대형무척추동물의 서식지 안정성, 퇴적물 이동, 먹이 공급 등과 같은 서식 환경에 직접적으로 영향을 미치는 특성으로서 저서성 대형무척추동물 군집구조 및 조성에 영향을 미쳤기 때문인 것으로 사료된다(Table 3).

Fig. 6. Visualization of variable importance index results.

../../Resources/kswe/KSWE.2025.41.1.18/fig6.png

Table 3 Calculation of variable importance index in MRT-based grade system. Most significant variable is marked in bold

Dependent variable

Velo

(cm/s)

Temp

(℃)

BOD

(mg/L)

T-N

(mg/L)

Depth

(cm)

T-P

(mg/L)

Prec

(mm)

PH

Variable importance index (%)

53.83

12.92

12.36

12.08

5.54

2.68

0.52

0.06

다음으로 기온이 12.92%로 높은 변수중요도를 보였는데, 이는 기온 변동에 따라 저서성 대형무척추동물의 서식지가 변화하면서 군집구조에 영향을 미치기 때문으로 판단된다. 이는 우리나라의 뚜렷한 사계절 특성을 고려할 때, 저서성 대형무척추동물의 건강성이 계절적 변동성을 보인다는 것을 의미한다.

BOD, T-N의 변수중요도 지수도 각각 12.36%, 12.08%로 기온과 유사한 중요도를 보여 저서성 대형무척추동물이 수질 변화에도 민감하게 반응함을 보여준다. 수심은 5.54%의 변수중요도를 기록하였고, T-P, 수심, 일일 강수량은 각각 2.68%, 1.93%, 0.77%로 낮은 변수중요도를 보여 하천 환경의 일부 특성만이 BMI 등급에 큰 영향을 미치는 것으로 나타났다.

이러한 결과는 저서성 대형무척추동물의 건강성이 하천의 물리적 특성과 화학적 특성 간의 상호작용에 의해 크게 영향을 받는다는 것을 의미한다. 특히 유속은 단일 변수로 가장 높은 중요도를 기록한 만큼, 수생태계 건강성 평가에서 우선적으로 고려해야 할 요소임을 보여준다. 또한, 기온도 저서성 대형무척추동물이 계절적 기온 변화에 민감하게 반응하도록 하며, 군집구조와 서식지 안정성에 중요한 영향을 미치는 것으로 나타났다. BOD, T-N과 같은 수질 변수도 생물학적 건강성과 밀접한 연관성을 가지며, 이를 포함한 종합적인 접근이 건강성 평가의 신뢰성을 높일 수 있다. 이러한 분석은 저서성 대형무척추동물의 건강성 평가를 통해 유속 변화와 계절적 기온 변동성, 주요 수질 변수의 영향을 구분해야 함을 시사한다.

3.3 변수들의 등급별 데이터 분포 비교 결과

현행 BMI 등급체계에서 환경변수의 등급별 분포 변화를 분석한 결과, BOD와 TP의 경우 E등급에서 A등급으로 갈수록 데이터의 평균값이 점진적으로 증가하는 경향이 관찰되어, 등급 간 분포 차이를 확인했다(Table 4). 그러나 유속의 경우 A, B, C 등급 간 변별력은 나타났으나, D와 E 등급 간 변별력은 떨어지는 것으로 나타났다. 등급 간 데이터 평균을 비교한 결과 D등급에서의 유속 평균은 18.2 m/s, E등급에서의 유속 평균은 18.4 m/s로, E등급에서 오히려 높은 유속이 확인되었다. 이는 현행 BMI 등급체계에서 유속과 같은 물리적 특성를 충분히 반영하지 못해 하위 등급 간의 구분이 뚜렷하지 못한 것으로 판단된다.

MRT 기반으로 재분류된 BMI 등급별 데이터 분포를 확인한 결과, BOD와 TP 뿐만 아니라 유속에 대해서도 등급 간 데이터 분포의 변별력이 나타났다(Fig. 7a). 유속의 등급 간 데이터 평균을 비교하였을 때, A등급은 48.6 cm/s, E등급은 18.4 cm/s로 현행 BMI의 등급체계와 비교하여 등급 간 변별력이 더 뛰어나다는 사실을 확인하였다(Table 4a). 두 번째로 높은 변수중요도를 보인 기온의 경우, 현행 BMI 등급체계에 비해 A등급과 E등급 간의 평균 차이가 크게 나타났다. 반면, BOD와 T-P에서는 A등급과 E등급 간 평균 차이가 작았으나, 평균값이 A > B > C > D > E 순으로 순차적으로 분포하였다. 이는 MRT 기반 BMI 등급체계가 현행 BMI 등급체계에서 보다 하천의 유속, 기온과 같은 물리적 특성을 효과적으로 반영했음을 보여준다.

Fig. 7. Boxplot comparison of a) the distribution of variables by grade based on MRT-based grade system and b) the distribution of variables by grade based on current grade system.

../../Resources/kswe/KSWE.2025.41.1.18/fig7.png

종합적으로, MRT 기반 BMI 등급의 재분류를 통해 현행 체계에서 등급 간 변별력이 낮았던 환경변수의 변별력이 상당히 향상되었음을 확인하였다. 이러한 결과는 MRT를 통해 BOD와 T-P뿐만 아니라, 저서성 대형무척추동물과 상관성이 높은 유속이나 기온 같은 변수에서도 BMI 등급체계를 적용하여 등급 간 데이터 분포의 변별력이 새롭게 드러났음을 의미한다. 이는 MRT가 다양한 환경변수 간의 상호작용을 통합적으로 분석함으로써, 환경변수와 BMI 간의 관계를 보다 정밀하게 반영한 결과이다. 특히, 다양한 환경요인에 영향을 받는 저서성 대형무척추동물의 건강성이 MRT 기반 체계에서 유속과 같은 물리적 특성을 등급 간 차이를 효과적으로 반영함으로써, 저서성 대형무척추동물의 건강성을 보다 효과적으로 평가할 수 있는 근거를 제공한다. 또한, MRT가 현행 BMI 등급체계가 시행된 2016년 이후의 생물측정망 데이터를 활용하여 환경적 변화를 반영하는 분류 기준을 설정했기 때문에, 현행 체계보다 현재 환경 상태를 더 정확히 진단할 수 있을 것으로 판단된다. 따라서, 본 연구의 접근 방식은 저서성 대형무척추동물의 건강성 평가에서 환경변수를 종합적으로 고려하고 변별력이 높은 기준을 제공하여, 더 정확하고 신뢰성 있는 평가를 가능케 할 수 있음을 시사한다.

Table 4 Mean of data for each grade of variables(Velocity, BOD, T-P). a) based on MRT-based grade system and b) based on current grade system

A

B

C

D

E

Velocity (cm/s)

62.0

47.6

35.5

26.1

18.5

Temp (℃)

17.7

18.7

19.4

19.8

20.2

BOD (mg/L)

1.16

1.49

1.90

2.29

3.36

T-P (mg/L)

0.026

0.030

0.040

0.058

0.098

a) MRT-based grade system

A

B

C

D

E

Velocity (cm/s)

48.6

32.9

24.3

18.2

18.4

Temp (℃)

18.6

19.5

19.9

20.2

20.3

BOD (mg/L)

1.47

1.99

2.43

3.13

3.79

T-P (mg/L)

0.030

0.046

0.059

0.083

0.125

b) Current BMI grade system

3.4 저서성 대형무척추동물의 건강성 예측결과

MRT 기반 BMI 등급의 재분류가 저서성 대형무척추동물의 건강성 등급 분류모델의 예측 성능 향상에 얼마나 기여하였는지 확인하기 위해 분류모델링 후 성능을 비교하였다. 기존의 5등급 체계에서의 분류모델의 성능뿐만 아니라 2, 3, 4개 분할의 등급체계에서의 분류모델의 예측 성능도 확인하였다. 각 모델링의 조건에서 하이퍼파라미터 최적화를 수행한 결과는 Table 5와 같다.

Table 5 Results of hyperparameter optimization of random forest classifier model. * Maximum depth of each tree ** Number of trees

Number of grades

MRT-based grade system

Current grade system

max_depth*

n_esti**

max_depth

n_esti

5

10

110

10

360

4

10

480

-

-

3

10

310

-

-

2

10

360

-

-

Table 6 Performance of the classification model based on MRT-based grade system. *Cohen’s kappa statistic. Highest accuracy by grade is marked in bold

Number of grades

MRT-based grade system

Current grade system

accuracy

CK*

accuracy

CK*

5

0.472

0.301

0.457

0.283

4

0.517

0.347

-

-

3

0.648

0.391

-

-

2

0.780

0.560

-

-

현행 BMI 등급체계를 기반으로 한 분류모델의 성능을 확인해보았을 때, accuracy는 0.457이며, Cohen’s kappa 계수는 0.283으로 나타났다(Table 6). MRT 결과 기반 분류모델 성능의 경우 accuracy는 0.472이고, Cohen’s kappa 계수는 0.301이었다. 또한, 등급 수가 적어질수록 분류모델의 성능도 같이 증가하였는데, 마지막 2개 등급 분할에서의 accuracy는 0.780, Cohen’s kappa 계수는 0.560까지 향상되었다.

5개 등급의 랜덤포레스트 분류모델에서의 변수중요도를 MDA와 MDG 지표를 통해 평가한 결과, 앞선 변수중요도 지수의 결과와 유사하게 유속, BOD가 모든 지표에서 높은 중요도를 나타내며, 등급 간 차이를 설명하는 데 중요한 변수로 작용하였다(Fig. 8). 특히, 유속은 두 지표 모두에서 가장 높은 중요도를 기록하며 저서성 대형무척추동물의 서식지 특성을 결정짓는 주요 요인임을 확인하였다. 반면, 강수량, 기온과 같은 일부 변수는 낮은 중요도를 보여, 등급화 과정에서의 기여도가 상대적으로 적었다. 특히, 기온의 경우에는 MRT 결과에 대해서는 높은 변수중요도가 나타났으나 분류모델에서의 변수중요도는 낮았다. 이는 기온이 MRT 기반 군집 간 등급 차별성에는 큰 기여를 했으나, 분류모델에서는 다른 변수들과의 상관관계 및 모델이 예측에 활용한 비선형적 상호작용 속에서 상대적 중요도가 낮아진 것으로 판단된다. 이러한 결과는 MRT 기반 BMI 등급체계가 다양한 환경변수 간의 상호작용을 잘 반영하여 기존 체계보다 개선된 평가 기준으로 활용될 수 있음을 보여준다.

MRT 결과 기반의 분류모델이 다양한 환경변수들을 종합적으로 고려하여 더 나은 예측 성능을 보였다. 이는 모델 내 높은 변수중요도를 보인 유속과 같은 물리적 특성을 MRT를 통해 변수에 대한 등급 간 구분을 명확히 한 것이 성능 향상에 기여한 것으로 판단된다. 그러나 여전히 일부 등급 간 데이터 분포의 변별력이 부족한 환경변수가 존재하여, 분류모델의 성능 향상에 한계가 발생한다. 활용되는 변수의 증가로 모델이 복잡해지면서 과적합의 가능성이 높아져, 예측 성능의 향상이 제한된 것으로 판단된다. 하지만 이러한 결과는 현행 BMI 등급체계 기반의 분류모델도 일정 수준 이상의 예측 성능을 보이지만, 성능 향상의 여지가 충분히 존재한다는 것을 의미한다.

또한, 등급 수를 조정한 결과, 4개 등급에서는 accuracy가 0.517, Cohen’s kappa 계수가 0.347, 3개 등급에서는 accuracy가 0.648, Cohen’s kappa 계수가 0.391, 2개 등급에서는 accuracy가 0.780, Cohen’s kappa 계수가 0.560으로 나타나, 3개 이하의 분할에서 예측 성능이 크게 향상됨을 확인하였다. 분류모델의 특성상 분할의 수가 적어지면 예측 성능이 향상되는 것이 일반적이지만, 실제 하천 수생태계의 훼손 여부를 판단하기 위한 지표인 BMI에 다양한 등급체계를 적용해 개별 등급 간의 상대적 건강성 차이를 더 잘 반영함과 동시에 예측력을 향상시킬 수 있음을 시사한다.

Fig. 8. Comparison of Mean Decrease Accuracy and Mean Decrease Gini for variables in a) MRT-Based grade system and b) current grade system.

../../Resources/kswe/KSWE.2025.41.1.18/fig8.png

4. Conclusion

본 연구는 BMI의 새로운 등급체계를 제안하고, 이를 통해 저서성 대형무척추동물과 환경인자 간의 상관성을 효과적으로 반영할 수 있음을 확인하였다. 기존 BMI 등급체계는 유속과 같은 주요 환경인자에 대한 변별력이 부족하여, 저서성 대형무척추동물의 건강성을 정확히 평가하는 데 한계가 있었다. 그러나 본 연구에서는 추가적인 저서성 대형무척추동물의 건강성 평가지표의 개발 없이 BMI 등급 구분의 재조정만으로 등급 간 환경 상태의 변별력을 개선하고, 신뢰성 높은 건강성 평가와 등급 예측이 가능함을 입증한 데 의의가 있다.

연구 결과, 새로운 BMI 등급체계는 BOD, T-P 등 수질 지표뿐만 아니라 유속과 같은 환경인자 기반의 등급 간 변별력을 효과적으로 반영하였다. 이를 통해 저서성 대형무척추동물의 건강성 평가와 등급 예측 성능이 향상되었으며, 등급 수가 적을수록 재분류의 효과가 극대화됨을 확인하였다.

향후 연구에서는 저서성 대형무척추동물과 상관성이 높은 환경변수를 추가 발굴하고, 데이터 분포와 등급 간 변별력을 고려한 평가등급 체계를 최적화하는 작업이 필요하다. 또한, 다양한 AI 알고리즘을 적용하여 분류모델의 예측 성능을 더욱 개선함으로써, 수생태계 건강성 평가의 신뢰도를 제고할 수 있을 것으로 기대된다. 이러한 결과는 수생태계 관리 및 보전 전략 수립에 중요한 기초자료로 활용될 것이며, 지속 가능한 환경 관리를 위한 과학적 기반을 제공할 것으로 판단된다.

Acknowledgement

본 논문은 환경부의 재원으로 국립환경과학원의 지원을 받아 수행하였습니다.(NIER-2024-01-01-050).

References

1 
An, K. G., Lee, J. Y., Bae, D. Y., Kim, J. H., Hwang, S. J., Won, D. H., Lee, J. K., and Kim, C. S. (2006). Ecological assessments of aquatic environment using multi-metric model in major nationwide stream watersheds, Journal of Korean Society on Water Environment, 22(5), 796-804. [Korean Literature]URL
2 
Anusha, P. V., Anuradha, C., Murty, P. C., and Kiran, C. S. (2019). Detecting outliers in high dimensional data sets using Z-score methodology, International Journal of Innovative Technology and Exploring Engineering, 9(1), 48-53. https://doi.org/10.35940/ijitee.A3910.119119DOI
3 
Blackman, N. J. M. and Koval., J. J. (2000). Interval estimation for Cohen’s kappa as a measure of agreement, Statistics in medicine, 19(5), 723-741. https://doi.org/10.1002/(sici)1097-0258(20000315)19:5<723::aid-sim379>3.0.co;2-aDOI
4 
Breiman, L., Friedman, J. H., Olshen, R. A., and Stone, C. J. (1984). Classification and tree regression, Monterey, California: Wadsworth and Brooks/Cole.URL
5 
Ciutti, F., Cappelletti, C., Monauni, C., and Siligardi, M. (2004). Influence of substrate composition and current velocity on macroinvertebrates in a semi-artificial system, Journal of Freshwater Ecology, 19(3), 455-460.DOI
6 
De Maesschalck, R., Jouan-Rimbaud, D., and Massart, D. L. (2000). The mahalanobis distance, Chemometrics and Intelligent Laboratory Systems, 50(1), 1-18. https://doi.org/10.1016/S0169-7439(99)00047-7DOI
7 
De’Ath, G. (2002). Multivariate regression trees: A new technique for modeling species–environment relationships, Ecology, 83(4), 1105-1117. https://doi.org/10.2307/3071917DOI
8 
Diebold, F. X. and Mariano, R. S. (2002). Comparing predictive accuracy, Journal of Business & Economic Statistics, 20(1), 134-144. https://doi.org/10.1198/073500102753410444DOI
9 
Duarte, J., Vieira, L. W., Marques, A. D., Schneider, P. S., Pumi, G., and Prass, T. S. (2021). Increasing power plant efficiency with clustering methods and variable importance index assessment, Energy and AI, 5, 100084. https://doi.org/10.1016/j.egyai.2021.100084DOI
10 
Go, B., Shin, J., and Cha, Y. (2021). Development of benthic macroinvertebrate species distribution models using the Bayesian optimization, Journal of Korean Society of Water and Wastewater, 35(4), 259-275. https://doi.org/10.11001/jksww.2021.35.4.259DOI
11 
Han, H., Guo, X., and Yu, H. (2016). Variable selection using mean decrease accuracy and mean decrease gini based on random forest, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS), Beijing, 219-224. https://doi.org/10.1109/ICSESS.2016.7883053DOI
12 
Han, J. H., Han, B. H., and Kwak, J. I. (2024). A study on changes in habitat enviroment of wild birds in urban rivers according to climate change - A case study of Tancheon ecological and landscape conservation area, Journal of the Korean Institute of Landscape Architecture, 52(2), 79-95. [Korean Literature] https://doi.org/10.9715/KILA.2024.52.2.079DOI
13 
Jeon, D. Y., Lee, S. L., Son, J. W., Cha, Y. U., Kwon, K. W., and Yoo, P. J. (2010). Aquatic ecosystem health assessment in middle reach of Suyoung River using characteristics of benthic macroinvertebrate and fish fauna, Journal of Korean Society on Water Environment, 26(6), 934-942. [Korean Literature]URL
14 
Ji, U., Hwang, M. H., Im, G. S., and Gang, S. U. (2012). Analysis of watershed characteristics and land use in the four major rivers basin using GIS, Water for future, 45(10), 26-33. [Korean Literature]URL
15 
Kim, J. J. and Joo, H. S. (2017). Fish fauna and the health assessment of independent streams flowing into the Yellow Sea in Korea: A case of the Jeonnam and Jeonbuk Provinces, Korean Journal of Environmental Biology, 35(4), 533-544. [Korean Literature] https://doi.org/10.11626/KJEB.2017.35.4.533DOI
16 
Kong, D. and Kim, A. R. (2015). Analysis on the relationship between biological indices and survey area of benthic macroinvertebrates using mathematical model, Journal of Korean Society on Water Environment, 31(6), 610-618. [Korean Literature] https://doi.org/10.15681/KSWE.2015.31.6.610DOI
17 
Kong, D. S., Ryu, J. K., and Yoon, I. B. (1999). Assessment and restoration of aquatic environment using benthosbiomonitoring, biomanipulation, ecotechnology, Proceedings of Symposium on Environmental Changes and Insect Resources, Korean Entomological Institute, Korea University, 69-92. [Korean Literature]URL
18 
Kong, D., Son, S. H., Hwang, S. J., Won, D. H., Kim, M. C., Park, J. H., Jeon, T. S., Lee, J. E., Kim., J. H., Kim, J. S., Pakr, J., Kwak, I. S., Jun, Y. C., Park, Y. S., Ham, S. A., Lee, J. Y., Park, H. K., Park, S. J., Kwon, Y., Kim, P., and Kim, A. R. (2018). Development of benthic macroinvertebrates index (BMI) for biological assessment on stream environment, Journal of Korean Society on Water Environment, 34(2), 183-201. [Korean Literature] https://doi.org/10.15681/KSWE.2018.34.2.183DOI
19 
Korea Meteorological Administration (KMA). (2021). Climatological normals of Korea, Korea Meteorological Administration. [Korean Literature]URL
20 
Larsen, D. R. and Speckman, P. L. (2004). Multivariate regression trees for analysis of abundance data, Biometrics, 60(2), 543-549. https://doi.org/10.1111/j.0006-341X.2004.00202.xDOI
21 
Liaw, A. and Wiener, M. (2002). Classification and regression by random forest, R news, 2(3), 18-22.URL
22 
National Institute of Environmental Research (NIER). (2012). Guidelines on the current status survey of aquatic ecosystems and methods of evaluation of health, etc - River Part -, National Institute of Environmental Research. [Korean Literature]URL
23 
National Institute of Environmental Research (NIER). (2019). Guidelines on the current status survey of aquatic ecosystem and methods of evaluation of health, etc - River Part -, No. 2019-52, National Institute of Environmental Research. [Korean Literature]URL
24 
National Institute of Environmental Research (NIER). (2021). Stream/river ecosystem survey and health assessment, NIER-SP2021-123, National Institute of Environmental Research. [Korean Literature]URL
25 
Palmer, M. A., Reidy Liermann, C. A., Nilsson, C., Flörke, M., Alcamo, J., Lake, P. S., and Bond, N. (2008). Climate change and the world’s river basins: anticipating management options, Frontiers in Ecology and the Environment, 6(2), 81-89. https://doi.org/10.1890/060148DOI
26 
Park, C. U. and Kim, H. J. (2015). Measurement of inter-rater reliability in systematic review, Hanyang Medical Reviews, 35(1), 44-49. [Korean Literature] https://doi.org/10.7599/hmr.2015.35.1.44DOI
27 
Pennak, R. W. (1989). Fresh-water invertebrates of the United States. 3rd ed., Wiley, New York, 628.URL
28 
Segal, M. R. (1992). Tree-structured methods for longitudinal data, Journal of the American Statistical Association, 87(418), 407-418. https://doi.org/10.2307/2290271DOI
29 
Svetnik, V., Liaw, A., Tong, C., Culberson, J. C., Sheridan, R. P., and Feuston, B. P. (2003). Random forest: A classification and regression tool for compound classification and QSAR modeling, Journal of chemical information and computer sciences, 43(6), 1947-1958. https://doi.org/10.1021/ci034160gDOI
30 
Won, D. H., Jun, Y. C., Kwon, S. J., Hwang, S. J., Ahn, K. G., and Lee, J. K. (2006). Development of Konan Saprobic Index using benthic macroinvertebrates and its application to biological stream environment assessment, Journal of Korean Society on Water Environment, 22(5), 768-783. [Korean Literature]URL
31 
Yoon, I. B., Kong, D., and Ryu, J. K. (1992a). Studies on the biological evaluation of water quality by benthic macroinvertebrates (2) Effects of environmental factors to community, Korean Society of Environmental Biology, 10(1), 40-55. [Korean Literature]URL
32 
Yoon, I. B., Kong, D., and Ryu, J. K. (1992b). Studies on the biological evaluation of water quality by benthic macroinvertebrates (3) Macroscopic simple water quality evaluation, Korean Society of Environmental Biology, 10(2), 77-84. [Korean Literature]URL
33 
Yu, N., Shin, M., Seo, J., Park, Y. S., and Kim, J. (2018). A study to define USLE P factor from field survey in the four major watersheds, Journal of The Korean Society of Agricultural Engineers, 60(2), 37-44. [Korean Literature] https://doi.org/10.5389/KSAE.2018.60.6.013DOI
34 
Zhang, H. (1998). Classification trees for multiple binary responses, Journal of the American Statistical Association 93, 180-193. https://doi.org/10.2307/2669615DOI