본 절에서는 Vine Copula에 대한 기본적 이론 배경을 설명하고 2.2절에서는 이를 활용한 기후변화 모델에 적합하는 방법을 제시하고자 한다.
2.1 Vine Copula 기법
Vine Copula는 Joe(1996)를 통해 처음 소개되어 이후 Cooke (1997)과 Bedford and Cooke(2001)과 Bedford and Cooke (2022)에서 연구방법이 발전하여 최근에는 다변량 의존성 구조를 고려한 분석에서 효과적인 모델링 방법으로 인식되고 있다. 이러한 쌍구조 관계를 Cooke(1997)과 Bedford and Cooke(2001)과 Bedford and Cooke(2022)에 구체화하였으며, Vine이라는 다층구조로 묘사하였다. 이러한 방식은 기존에 다변량 데이터의 유연성을 확보하기 위해서 다양한 Copula를 활용하기에는
제한적이라는 단점이 있었으나, Vine Copula는 이변량 Copula의 조합으로 구성된 구조를 활용하여 다양한 Copula 함수를 적용가능하다.
그러나, Vine Copula를 활용 시, 자료의 특성에 따라 적절한 Copula 함수를 선택하여야 한다. 본 연구에서는 Copula 함수를 적용하기
위하여 극치 자료라는 특성을 고려하여 함수를 선정하였다.
일반적으로 Copula 기법을 활용하기 위해서는 특정 조건을 만족하여야 하며, Copula를 다변량으로 확장 시에 이를 확인하여야 한다.
(1) $u_{j}=0 일 때,\: C(u_{1},\: \cdots ,\: u_{n})=0$이 성립한다.
(2) 임의의 $v=(v_{1},\: \cdots ,\: v_{n})\in[0,\: 1]^{n},\: u_{i}\le v_{i}$에 대하여 다음
부등식이 성립된다.
$\sum_{i_{1}=1}^{2}\cdots\sum_{i_{n}=1}^{2}(-1)^{i_{1}+\cdots +i_{n}}C(x_{1i_{1}},\:
\cdots ,\: x_{\ni_{n0}})\ge 0$
여기서, $x_{j1}=v_{j}$ and $x_{j2}=v_{j}$ for all $j\in\{1,\: \cdots ,\: n\}$.
(3) $C(1,\: \cdots ,\: 1,\: u_{j},\: 1,\: \cdots ,\: 1)=u_{j}$가 성립한다.
반면, Vine Copula의 경우 변수들의 관계를 단일 Copula 함수로 의존관계를 규명하지 않고 이변량 Copula의 관계성으로 구조를 구성하여
기존의 다변량 Copula 기법의 문제를 해소할 수 있다. 해당 기법은 Sklar 이론(Sklar, 1959)에 의하여 Copula 함수를 Eq. (1)과 같이 표현할 수 있으며, 이를 계층적으로 분석하는 방법이다. 따라서, Vine Copula는 이변량 Copula 함수를 활용하여 쌍구조(pair-copula
constrution)로 표현하는 함수로, Eq. (2)을 연속적으로 사용한다고 할 수 있다.
다변량 분포확률 $F(x_{1},\: ...,\: x_{d})$에 대하여 각각의 주변분포확률인 $F_{i}(x_{i})= Pr[X_{i}\le x_{i}]$를
Copula 함수를 의미하는 $C$로 표현할 수 있다. 만약 다변량 분포의 밀도함수 $f$가 존재하면, 다음과 같이 표현하면 Eq. (2)와 같이 표현 가능하다.
이를 활용하여 이변량에 대한 조건부 분포형을 다음과 같이 Eq. (3)과 같이 표현할 수 있다.
이를 삼변량에 대하여 확장하기 위하여 특정대상에 대한 변수를 $X_{i}$로 정의하고, 이 변수들의 누가확률분포를 $F_{i}$로 나타내어 삼변량
Copula의 구조를 Eq. (4)와 같이 표현할 수 있다.
Sklar 정리에 의하여 $f_{2\vert 1}\left(x_{2}\vert x_{1}\right)$와 $f_{3\vert 1,\: 2}\left(x_{3}\vert
x_{1},\: x_{2}\right)$를 전개하여 Eq. (4)를 재산정하면 다음 Eq. (5)~Eq. (7)에 따라 전개된다.
여기서, $C_{1,\: 2}$, $C_{1,\: 3}$과 $C_{2,\: 3 \vert 1}$은 변수의 의존관계에 따라 전개식이 일부 다른 형태로
전개되어 다변량 분석이 가능하다. 또한, 해당 전개식은 의존관계를 $x_{1}$에 의존하도록 가정하여 모델을 단순화하여 전개하였다. Kurowicka and Cooke(2006)의 이론에 따라 다변량에 대한 Regular Vine(R-vine)는 차례대로 $N_{i}$ 노드로 연결된 나무(연결된 비순환 그래프) $T_{1},\:
...,\: T_{d-1}$과 $E_{i}$ 에지(edge)로 구성된다. 단순한 규칙성을 가진 Regular Vine(R-vine)은 순차적으로
노드($N_{i}$)로 연결된 Tree($T_{1},\: ...,\: T_{d-1}$) 구조와 $E_{i}$라는 에지(edge)로 구성된다(Kurowicka and Cooke, 2006). 각 Tree($T_{1}$)는 $N_{1}= 1,\: ...,\: d$ d개의 노드와 에지($E_{1}$)로 구성되며 $i = 2,\: ...,\:
d-1$에 대하여 $T_{i}$는 $N_{i}= E_{i-1}$ 노드로 나타낼 수 있다. $T_{i}$에 공통 노드를 공유하는 경우에만 $T_{i}$의
2개의 에지가 $T_{i+1}$에 연결된다.
R-vine는 조건부를 받는 노드(conditioned node)와 조건을 주는 노드(conditioning node)로 구성된다(Bedford and Cooke, 2001; Kurowicka and Cooke, 2006). 에지를 $e = j(e),\: k(e)\vert D(e)$으로 표현할 수 있으며 $D(e)$는 조건을 주는 노드를 의미하며 이를 7차원으로 확장시킨
R-vine 구조는 Fig. 1과 같이 표현할 수 있다(Dißmann et al., 2013).
Fig. 1과 같은 구조로 구성된 다변량 Copula는 각종 에지 $E_{i}$, $e = j(e),\: k(e)\vert D(e)$의 이변량 Copula
밀도 $c_{j(e),\: k(e)\vert D(e)}$로 조합으로 구축된다. Kurowicka and Cooke(2006)의 Theorem 4.2를 따르면 R-vine의 우도(likelihood)는 Eq. (8)에 의해 추정될 수 있다.
여기서, $x_{D(e)}$는 $D(e)$에 포함된 첨자의 $x =(x_{1},\: ...,\: x_{d})'$의 하부 벡터를 나타낸다.
Fig. 1. 7-dimensional Regular Vine Copula
2.2 Vine Copula 기반 기후변화모델 빈도분석
본 연구에서는 Vine Copula를 활용하여 종속구조를 파악하여 CORDEX-EA에서 제공하는 RCM에 적용하였다. 연구절차는 다음과 같다. 첫째,
관측자료로부터 시간별 연최대강우량을 추출하여 누적확률을 산정한다. 둘째, 지속시간별 누적확률을 본 연구에서 제안된 모델의 입력자료로 하여 의존관계를
파악한다. 셋째, RCMs 자료로부터 일단위 연최대강우량을 고정하고 관측자료에서 추출한 의존관계에 따라 24시간 이하의 지속시간에 대한 극치자료를
생성한다. 넷째, 도출된 극치자료에 대하여 빈도분석을 수행하여 설계강우량을 산정한다. 다음 Fig. 2는 연구절차를 도시화한 것이다.
Fig. 2. Flow Chart of the Proposed Framework Temporal Downscaling to Sub-daily AMRs under Climate Change
Copula 기법은 수문기상자료의 종속 구조를 파악하기 위한 도구로 변수간의 의존관계를 규명하여 가뭄 및 홍수의 위험도 평가 뿐만 아니라 상세화의
방법 등 다양하게 활용되고 있다. 특히 기후변화 모델에서 제공하는 자료에 대한 통계학적 상세화를 수행 시 중요한 도구로 인식되고 있다. 그러나, 다양한
수문기상변량에 대한 의존관계를 규명하기 위하여 이변량 이상의 다변량의 자료를 일반적인 Copula 기법을 적용은 수학적인 경계조건, 복잡한 종속구조를
규명해야 한다는 어려움이 있다. 특히, 수공구조물과 밀접한 연관이 있는 설계강우량은 분포형의 극단치에 대한 분석이 이루어지므로, 일반적인 다변량 Copula
모델링을 활용하여 여러 지속시간에 대한 분포형의 관계를 규명하는 과정은 변수 수가 증가하여 계산 시간이 크게 소요될 뿐 아니라 매개변수 선택에 따라
매우 민감하게 반응하여 극단치에 대한 종속성을 반영하기 어려운 문제가 있다. 따라서, Vine Copula 기법을 활용하여 다수의 지속시간에 따른
연최대강우량에 대한 의존관계를 유연하게 대처할 수 있다.
Vine Copula는 앞서 언급한 바와 같이 변수의 관계를 이변량 Copula로 연결하여 의존관계를 파악하며 본 연구에서는 다양한 Copula 함수
중에 극단치에 대한 모의를 수행하는 Archimedean Copula에 해당하는 Clayton, Gumbel, Frank Copula와 이를 회전한
Survival Clayton, Survival Gumbel, Survival Frank Copula와 일반적으로 활용하는 Gaussian Copula
및 무작위 변수간의 양의 상관관계 분석에 유용한 Joe Copula 함수를 고려하였다(Masseran, 2021). Table 1은 본 연구에서 활용한 Archimedean Copula 함수와 Gaussian Copula에 대한 식을 의미한다.
Table 1. The Bivariate Copula Families Considered in this Study
Name of Copula
|
Functions
|
Range
|
Clayton
|
$[\max(u^{-\theta}+\upsilon^{-\theta}-1;0)]^{-1/\theta}$
|
$\theta\in[-1,\: \infty]$
|
Frank
|
$\exp(-((-\log(u))^{\theta}+(-\log(\upsilon))^{\theta})^{1/\theta})$
|
$\theta\in R$
|
Gumbel
|
$-\dfrac{1}{\theta}\log(1+\dfrac{(\exp(-\theta u)-1)(\exp(-\theta u)-1)}{\exp(-\theta)-1})$
|
$\theta\in[-1,\: \infty]$
|
Gaussian
|
$C_{R}^{Gauss}(u)=\Phi_{R}(\Phi^{-1}(u_{1}),\: \cdots ,\: \Phi^{-1}(u_{n}))$
|
|
Joe
|
$C\left(u_{1},\: u_{2}\right)=1-\left[\left(1-u_{1}\right)^{\theta}+\left(1-u_{2}\right)^{\theta}-\left(1-u_{1}\right)^{\theta}\left(1-u_{2}\right)^{\theta}\right]^{1/\theta}$
|
$\theta\in[-1,\: \infty]$
|
Table 1에서 $u$,$v$는 주변분포의 누적확률분포를 의미하며, 0과 1사이의 값을 가지며, Copula 매개변수 $\theta$의 범위가 각 함수에 따라
제한되어 있음을 확인할 수 있다. 다양한 Copula 함수로부터 최적 Copula를 선정하기 위하여 우도함수(likelihood function)와
매개변수의 개수까지 반영하는 AIC(Akaike Information Criteria)에 따라 결정하였다. 앞서 명시한 Vine Copula 이론에
따라 지속시간별 자료를 변수 $X_{1},\: X_{2},\: ...,\: X_{8}$ 로 정의하고 이에 대한 누가확률분포를 $F_{1}\left(x_{1}\right),\:
F_{2}\left(x_{2}\right),\: ....,\: F_{n}\left(x_{n}\right)$로 나타내면 Eq. (9)과 같다.
관측자료로부터 지속시간 3시간, 6시간, 9시간, 12시간, 15시간, 18시간, 21시간, 24시간에 대한 연최대강우량을 추출하고 kendall’s
$\tau$ 순위상관계수에 의하여 강한 상관관계를 갖는 변량을 쌍구조로 연결하여 순차적으로 의존관계구조를 파악하였다.