3.1.1 수질 시계열 자료에 대한 다변량통계분석
수질 시계열 자료에 대한 주성분 분석의 적합성은 Bartlett의 구형성 검정(sphericity test)과 KMO 검정(Kaiser-Meyer-
Olkin test)을 통해 평가되었다. Bartlett 구형성 검정결과 금호A와 금호B 지점은 유의수준 5%에서 p-value<0.05로 귀무가설을
기각하게 됨으로써 통계학적으로 주어진 수질 시계열 자료는 주성분 분석에 적합하다고 할 수 있다. 또한 KMO 검정 결과, 금호A와 금호B의 KMO
값은 각각 0.715 및 0.623으로서 두 지점 모두 KMO>0.5이므로 주어진 수질 시계열 자료의 적합성을 확인하였다.
수질 시계열에 대한 상관분석 결과는 Fig. 4와 같다. 금호A의 경우, DO는 수온과, BOD는 COD, T-P 및 TOC와, COD는 SS, T-P, TOC 및 유량과, SS는 TOC 및 유량과,
T-P는 TOC와, TOC는 유량과 상관성이 있는 것으로 분석되었다. 이 중에서 BOD와 COD의 상관계수는 0.702, COD와 TOC의 상관계수는
0.886으로서 상대적으로 높은 상관성을 가지는 것으로 나타났다. 금호B의 경우, DO는 수온과, BOD는 COD 및 TOC와, COD는 SS, T-P
및 TOC와, SS는 T-P 및 유량과 상관성이 있는 것으로 분석되었다. 이 중에서 DO와 수온의 상관계수는 -0.769, COD와 TOC는 0.775,
SS와 유량은 0.794로서 상대적으로 높은 상관성을 보여주었다. 따라서 유기오염물질 지표인 BOD, COD 및 TOC는 강한 양의 상관관계를, 유량과
SS는 강한 양의 상관관계를 나타냈으며, 수온과 DO는 강한 음의 상관관계를 나타냈다.
Fig. 4. Correlation matrix plots for water quality time series (temp: water temperature, EC: electrical conductivity, and Q: river discharge).
Table 1. Contribution and correlation of variables for the first and second principal components (Geumho A)
First principal component
|
Second principal component
|
Variables
|
Contribution (%)
|
Correlation
|
Variables
|
Contribution (%)
|
Correlation
|
COD
|
20.805
|
0.913
|
temp
|
27.210
|
-0.744
|
TOC
|
20.436
|
0.905
|
T-N
|
19.749
|
0.634
|
BOD
|
13.626
|
0.739
|
EC
|
17.632
|
0.599
|
T-P
|
12.921
|
0.719
|
DO
|
11.631
|
0.487
|
SS
|
10.851
|
0.659
|
BOD
|
8.304
|
0.411
|
Q
|
9.683
|
0.623
|
Q
|
6.376
|
-0.360
|
DO
|
3.554
|
-0.377
|
SS
|
4.351
|
-0.298
|
T-N
|
3.219
|
0.359
|
pH
|
4.300
|
-0.296
|
pH
|
3.199
|
-0.358
|
COD
|
0.238
|
-0.070
|
EC
|
1.457
|
0.242
|
TOC
|
0.186
|
-0.062
|
Q: river discharge, EC: electrical conductivity, and temp: water temperature
|
Table 1과 2는 각각 금호A 및 금호B에서의 주성분에 대한 변수의 기여율(contribution)을 분석한 결과로서 주어진 주성분과 가장 유의미하게 연관된 변수들을
확인할 수 있다. 기대평균기여율(expected average contribution)보다 높은 기여율을 가지는 변수들은 금호A에서 제1주성분의 경우
COD, TOC, BOD, TP, SS 및 유량, 제2주성분의 경우 수온, TN, 전기전도도 및 DO로 나타났으며, 이러한 변수들은 각 주성분에 대한
기여도가 크기 때문에 분석에서 중요하게 고려될 수 있다. 금호B에서는 제1주성분의 경우 COD, SS, TP, TOC 및 유량, 제2주성분의 경우
수온, TN, 전기전도도, BOD 및 DO가 기대평균기여율보다 높은 기여율을 가지는 중요한 변수로 고려되었다.
Table 2. Contribution and correlation of variables for the first and second principal components (Geumho B)
First principal component
|
Second principal component
|
Variables
|
Contribution (%)
|
Correlation
|
Variables
|
Contribution (%)
|
Correlation
|
COD
|
20.717
|
0.870
|
temp
|
20.852
|
-0.719
|
SS
|
20.343
|
0.862
|
T-N
|
20.767
|
0.718
|
T-P
|
13.850
|
0.712
|
EC
|
18.622
|
0.680
|
TOC
|
13.027
|
0.690
|
BOD
|
16.277
|
0.636
|
Q
|
12.691
|
0.681
|
DO
|
15.821
|
0.627
|
DO
|
6.169
|
-0.475
|
COD
|
2.676
|
0.258
|
BOD
|
4.893
|
0.423
|
TOC
|
2.129
|
0.230
|
temp
|
4.716
|
0.415
|
pH
|
1.717
|
-0.206
|
EC
|
2.291
|
-0.289
|
T-P
|
0.793
|
0.140
|
pH
|
1.267
|
-0.215
|
SS
|
0.212
|
0.073
|
Fig. 5는 금호A 및 금호B의 주성분 분석 결과로부터 나타낸 상관원(correlation circle)을 보여준다. 변수상관도(variable correlation
plot)라고도 불리는 상관원은 주성분(제1주성분(PC-1), 제2주성분(PC-2)) 공간상에서의 좌표를 이용하여 변수들을 벡터로 나타낸 그래프이다.
상관원은 모든 변수들 간의 관계를 보여주며, 함께 그룹을 이루고 있는 변수들은 양의 상관성을 나타낸다. 금호A에서 TOC, COD 및 T-P, 금호B에서
TOC, COD, T-P, SS 및 유량은 양의 상관을 나타내고 있다. 반면에 원점을 기준으로 반대편에 위치한 변수들은 음의 상관성을 나타낸다. 예를
들어, 금호A와 금호B에서 DO와 수온은 원점을 기준으로 서로 반대편에 위치하며 음의 상관성을 나타내고 있다. 한편, 원점과 변수간의 거리, 즉 변수벡터의
크기(화살표의 길이)는 제1주성분과 제2주성분으로 구성된 주성분 공간에서 변수의 표현력을 나타낸다. 즉, 원점에서 멀리 떨어져 있는 변수들은 주성분
공간에서 변수의 정보를 잘 설명할 수 있음을 의미하며, 높은 표현력을 가진 변수는 상관원의 원주에 가깝게 위치한다. 반면에 낮은 표현력을 가진 변수들은
주성분에 의해 효과적으로 설명될 수 없음을 의미하며, 이 경우 상관원의 중심에 가깝게 위치하게 된다. 금호A의 경우 COD, TOC 및 BOD, 금호B의
경우 COD, SS, 수온, BOD 등이 상관원의 원주에 가깝게 위치하고 있으며, 높은 표현력을 나타내고 있다. 즉, 해당 주성분을 해석하는데 더
중요한 변수라고 할 수 있다.
Fig. 5. Correlation circles for water quality time series.
Fig. 6은 금호A와 금호B에 대한 행렬도(biplot)를 나타낸다. 행렬도는 다변량 자료의 개체와 변수들 각각의 군집, 그리고 그들 간의 관계를 저차원 공간에서
시각적으로 나타낸 그래프이다. 행렬도에서 서로 가깝게 모여 있는 개체들은 유사한 개체 간의 군집을 형성하며, 서로 이루는 각도가 작은 변수들은 상관성이
매우 높음을 나타낸다. 금호A 및 금호B에 대한 수질변수들은 3개의 군집을 형성하며, 수질변수들 뿐만 아니라 행렬도에서 점으로 표시된 수질자료 개체들은
대체로 계절에 따라 군집을 이루고 있다. 따라서 수질변수 측면에서는 제1군집 = (DO, 전기전도도, T-N), 제2군집 = (pH, 수온), 제3군집
= (BOD, T-P, TOC, COD, SS, 유량)과 같이 3개의 군집이 형성되며, 계절 측면에서는 제1군집은 겨울, 제2군집은 봄~여름, 제3군집은
봄~가을(pH), 여름(수온)으로 구분될 수 있다(Fig. 6 and Table 3). 따라서 제1주성분 축(PC-1 축)에 근접하고 유량과 높은 상관성을 가지는 제3군집의 TOC, COD, T-P 및 SS는 전형적인 비점오염 특징을
가지는 반면, 제2주성분 축(PC-2 축)에 근접하고 유량과 무관하며 수온과 반비례 관계인 제1군집의 T-N은 토양 또는 발생원으로부터 지연 유출
특징을 나타내었다.
Table 3. Cluster composition for water quality variables and season
Clusters
|
Variables
|
Season
|
1
|
DO, EC, T-N
|
Winter
|
2
|
BOD, TOC, COD, T-P, SS, Q
|
Spring-Summer
|
3
|
pH, temp
|
Spring-Autumn (pH), Summer (temp)
|
Fig. 6. Biplots for water quality times series.
3.1.2 수질공간자료에 대한 다변량통계분석
본 연구에서는 소유역별로 측정된 수질자료의 소유역 평균값을 이용하여 수질공간자료에 대한 주성분 분석 및 군집분석을 실시하였다. 수질공간자료에 대한
주성분 분석의 적합성은 Bartlett 구형성 검정과 KMO 검정을 통해 분석하였다. Bartlett 구형성 검정 결과, p-value<0.05로
유의수준 5%에서 귀무가설을 기각하며, KMO 검정 결과, KMO(=0.510)>0.5이므로 주어진 수질공간자료는 주성분 분석에 대한 적합성을 나타낸다.
Fig. 7은 수질공간자료에 대한 상관행렬도를 나타낸다. 수질공간자료에 대한 상관분석 결과, BOD는 T-P 및 전기전도도와 매우 강한 양의 상관관계를 가지고,
T-N과 강한 양의 상관관계를 가지는 것으로 나타났다. T-N은 BOD, T-P 및 전기전도도와 강한 양의 상관관계를 가지고, COD 및 TOC와
보통의 양의 상관관계를 가진다. T-P는 BOD와 매우 강한 양의 상관관계를 가지고, T-N, 전기전도도 및 COD와 강한 양의 상관관계를 가지며,
TOC와 보통의 양의 상관관계를 가지는 것으로 나타났다. 유량은 SS, COD 및 TOC와 보통의 양의 상관관계를 보여주었다. SS는 COD 및 TOC와
강한 양의 상관관계를 가지고, 유량과 보통의 양의 상관관계를 가지는 것으로 나타났다. COD는 TOC와 매우 강한 양의 상관관계를 가지고, T-P
및 SS와 강한 양의 상관관계를 가지며, T-N 및 유량과 보통의 양의 상관관계를 가지는 것으로 분석되었다. TOC는 COD와 매우 강한 양의 상관관계를
가지고, SS와 강한 양의 상관관계를 가지며, T-N, T-P 및 유량과 보통의 양의 상관관계를 나타내었다.
Fig. 7. Correlation matrix plot for spatial water quality data.
Table 4는 수질공간자료의 주성분에 대한 변수 기여율을 나타낸다. 기여율과 상관성에 기초하여 제1주성분의 경우 T-P, T-N, COD, TOC, BOD 및
전기전도도, 제2주성분의 경우 SS, 유량, BOD, 전기전도도 및 TOC가 기대평균기여율보다 높은 기여율을 가지는 중요변수로 분석되었다. 따라서
제1주성분은 도시적 특성과 농업활동 및 토지이용에 따른 유기오염물질과 영양염류로 설명되며, 제2주성분은 유기오염물질과 계절 및 강우-유출 요인으로
설명되었다.
Table 4. Contribution and correlation of variables for the first and second principal components (spatial water quality data)
First principal component
|
Second principal component
|
Variables
|
Contribution (%)
|
Correlation
|
Variables
|
Contribution (%)
|
Correlation
|
T-P
|
20.48
|
0.905
|
SS
|
24.931
|
0.838
|
T-N
|
17.671
|
0.84
|
Q
|
23.679
|
0.817
|
COD
|
17.038
|
0.825
|
BOD
|
13.599
|
-0.619
|
TOC
|
14.779
|
0.768
|
EC
|
12.882
|
-0.602
|
BOD
|
13.615
|
0.738
|
TOC
|
12.008
|
0.582
|
EC
|
13.029
|
0.721
|
COD
|
8.746
|
0.496
|
SS
|
2.167
|
0.294
|
T-N
|
1.948
|
-0.234
|
pH
|
0.632
|
-0.159
|
T-P
|
1.21
|
-0.185
|
Q
|
0.589
|
0.153
|
pH
|
0.995
|
-0.167
|
본 연구에서는 주성분 분석으로부터 얻은 성분적재량(component loading)과 주성분 점수(principal component score)를
계층적 군집분석(hierarchical cluster analysis)에 적용하여 유사한 수질특성을 가지는 변수 및 소유역들을 각각 군집화하였다.
성분적재량에 대한 군집분석은 수질변수에 대한 군집화 결과를 제공하였다. 수질변수에 대한 군집분석 결과(Fig. 8), 제1군집은 도시적 특성과 농업활동 및 토지이용에 따른 유기오염물질 및 영양염류로 구성되며, 제2군집은 유기오염물질과 계절 및 강우-유출 관련
변수로 구성되었다. 한편, 주성분 점수에 대한 군집분석은 수질특성의 유사성에 기초하여 소유역을 유형화하였다. 소유역에 대한 공간 군집화 결과, 3개의
군집이 도출되었다(Fig. 8). 제1군집(영천댐 및 자호천 유역)은 임야 비중이 높고 농경지 점유율이 낮은 최상류 유역 특성을 나타내고, 영양염류로 인한 오염 잠재성은 낮은
특성을 나타내는 소유역들로 군집화되었다. 이에 반하여, 제3군집(신녕천, 금호강시점, 오목천, 남천 및 동촌수위표 유역)은 도시하수, 농업 및 산업활동이
복합적으로 작용하여 유기오염물질 및 영양염류로 인한 오염도가 높은 소유역들로 구성되었다. 제2군집(고촌촌, 고현천, 금호강상류 및 청통천 유역)은
도심지 비율이 낮지만 농업활동이 활발하여 비점오염물질 및 영양염류로 인한 오염이 일부 발생하는 소유역들로 나타났다.
Fig. 8. Cluster analysis for spatial water quality variables.