Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 충남대학교 토목공학과 박사과정 (Chungnam National University ․ remon2561@naver.com)
  2. 정회원 ․ 충남대학교 토목공학과 박사과정 (Chungnam National University ․ macgioh@naver.com)
  3. 종신회원 ․ 교신저자 ․ 충남대학교 토목공학과 교수 (Corresponding Author ․ Chungnam National University ․ civilman@cnu.ac.kr)



Measurement data, Sequential-wise data, Individual-wise data, Information content, Linear regression analysis
계측데이터, 순차적 데이터 관점, 개별 데이터 관점, 정보량, 선형회귀분석

1. 서 론

댐, 교량과 같은 중요 토목구조물에는 유지・관리를 위해 다양한 계측기가 설치되어 있다. 계측기는 시간에 따라 대상 시스템과 관련된 지속적인 계측 값을 제공하게 된다. 이러한 계측의 1차 적 목적은 계측데이터를 통한 대상 시스템과 관련된 정보의 제공이다(KHNP, 2024; K-water, 2024; KRC, 2024). 따라서 계측데이터는 데이터가 가지는 정보량에 의해 평가될 수 있다. 초기 정보량의 정의는 Shannon(1948)에 의해 제안되었다. Shannon에 의해 정의된 개별 계측데이터가 가지는 정보량은 Eq. (1)과 같다.

(1)
$I(x)=-\log_{2}P(x)$

여기서, $I(x)$는 사건 $x$가 발생했을 때 얻는 정보량 (비트 단위, bit), $P(x)$는 사건 $x$가 발생할 확률이다.

전체 계측 시간 이력이 가지는 정보량은 Eq. (2)와 같이 전체 계측 시간에 걸친 평균적인 정보량(엔트로피)으로 정의된다.

(2)
$H(X)=-\sum_{x}P(x)\log_{2}P(x)$

여기서, $X$는 확률변수, $x$는 확률변수 $X$가 가질 수 있는 값, $P(x)$는 확률 변수 $X$가 $x$값을 가질 확률, $H(X)$는 확률 변수 $X$의 엔트로피(평균 정보량)이다. 이때, 이러한 정보량의 정의는 대상 계측데이터를 생성한 시스템의 거동이나 상태와 같은 시스템 자체의 정보와 상관없이 순수하게 계측 값에 의해 감소되는 불확실성 정도 자체를 의미한다. 즉 Shannon에 의해 정의된 데이터 정보량은 계측데이터가 의미와 상관없이 전달할 수 있는 순수한 정보의 크기를 나타낸다. 이러한 정의의 경우 순수한 백색잡음 형태의 데이터가 매우 높은 정보량을 가질 수도 있다(Shannon, 1948; Bishop, 2006; Jurafsky and Martin, 2023). 따라서 이와 같이 정의되는 계측데이터 정보량의 크기는 공학적 계측에서 필요로 하는 대상 시스템과 관련된 유용한 정보량의 크기를 정의하지 못한다.

토목공학에서 계측이 이루어지는 목적은 계측데이터를 통해 대상시스템과 관련된 공학적으로 유용한 정보를 획득하는 것으로 우리가 관심을 가지는 계측데이터의 정보량은 계측데이터가 가지는 대상 시스템의 거동과 관련된 공학적으로 유용한 정보량의 크기로 정의할 수 있다. 토목 시스템의 공학적 거동은 토목 시스템에 가해진 시스템 입력에 의해 발생하는 시스템 출력으로 표현된다. 댐, 교량 등과 같은 토목 시스템에 가해진 수위 변동, 온도변화, 풍하중, 지진하중 등과 같은 외부 하중을 나타내는 시스템 입력에 의해 발생하는 토목 시스템의 거동은 시스템 출력으로 나타내게 된다. 이때, 시스템 출력은 시스템 입력의 특징과 시스템의 현재 상태에 의해 결정되게 된다. 따라서, 공학적으로 유용한 시스템 출력, 또는 계측데이터는 시스템 입력에 대한 시스템 거동과 관련된 계측 값을 의미한다.

시스템의 공학적 거동은 입력에 따른 시스템 거동에 의해 결정되며, 따라서 공학적 유용성 측면에서 계측데이터의 정보량은 시스템 입력에 의한 시스템 거동을 시스템 출력이 얼마나 잘 설명하고 있는지로 나타낼 수 있다. 계측데이터에 포함된 시스템 상태와 관련된 의미 있는 정보량 중 공학적으로 유용한 사용 가능한 정보량의 크기는 동일 데이터라도 계측데이터를 취급하는 관점에 따라 다르다. 시계열로 주어지는 계측데이터는 두 가지 관점에서 취급할 수 있다. 단일 데이터 관점(Point-wise) 및 순차적 데이터 관점(Sequential-wise)이다(Bishop, 2006; Jurafsky and Martin, 2023). 개별 데이터 관점 데이터 분석방법은 선형 회귀분석(linear regression), 로지스틱 회귀분석(logistic regression) 등(Jurafsky and Martin, 2023)이 있으며 최근 들어 순차적 관점 분석방법의 사용이 시도되고 있다. 순차적 관점에서의 데이터 분석방법은 HMM, ARIMA, LSTM 등이 있다(Jurafsky and Martin, 2023; Hyndman and Athanasopoulos, 2018). 일반적인 토목 계측데이터 분석에 많이 사용되어왔던 방법은 선형회귀분석이다.

본 연구에서는 공학적 유용성 관점에서 계측데이터에 포함된 사용 가능한 정보량을 개별 데이터 관점과 순차적 데이터 관점에서 평가할 수 있는 방법을 제안하고, 이들의 비교를 통해 동일한 데이터라고 해도 데이터를 취급하는 관점에 따라 사용 가능 정보량의 차이가 발생함을 보인다. 그리고 이로부터 일반적인 계측데이터 분석에 많이 사용되는 선형회귀분석의 한계를 보인다.

2. 단일 및 순차적 데이터 관점에서 계측데이터의 공학적으로 유용한 정보량 평가

2.1 단일 데이터 관점에서 계측데이터의 공학적으로 유용한 정보량 평가

개별 데이터 관점에서 계측된 각각의 데이터들은 독립된 데이터들로 취급된다. 개별 데이터 관점에서 시스템 입력과 출력 데이터 사이의 관계를 표현하는 방법 중에 많이 사용되는 방법은 산포도이다. Fig. 1은 실제 양수발전 댐에서 1시간 간격으로 24시간 동안 계측된 수위-간극수압 시간이력을 표현한 산포도이다. 간극수압은 댐의 상태를 나타내는 중요한 요소들 중 하나이다. 개별 데이터 관점 데이터 분석방법 중 일반적으로 많이 사용되어 온 방법은 선형회귀분석이다(Fuller, 1987; Bera et al., 2005; Montgomery et al., 2012; Lee and Kim, 2014). 댐 계측데이터 분석 시 일반적으로 산포도에 대해 선형회귀분석을 통해 시스템 입·출력 사이의 선형회귀 모델식을 결정하고, 결정된 식을 사용하여 주어진 시스템 입력에 대한 시스템 출력을 연속적으로 예측한다.

동일한 계측데이터라도 데이터 분석방법에 따라 계측데이터의 공학적 유용성이 다르다. 즉, 분석방법에 따라 계측데이터가 가지고 있는 대상 시스템의 거동과 관련된 정보들 중 사용 가능한 정보의 양이 달라지게 되며, 정보의 활용도에 차이가 생기게 된다.

선형회귀모델과 같은 개별 데이터 관점에서 계측데이터가 가지는 정보량 즉, 계측데이터가 가진 전체 정보량 중 선형회귀모델이 사용 가능한 대상 계측데이터의 공학적으로 유용한 정보량의 크기는 선형회귀모델이 대상 계측데이터가 가지고 있는 시스템 거동과 관련된 전체 정보량 중 얼마나 많은 부분을 반영하고 있는가로 평가될 수 있다. 선형회귀모델은 계측데이터 전체 정보량 중 모델 생성에 반영된 정보량만을 사용하여 예측을 수행한다.

다음과 같이 정의되는 결정계수($R^{2}$)는 회귀분석과 같은 개별 데이터 관점 데이터 처리에서 계측데이터가 가지고 있는 전체 정보량 등 얼마나 많은 부분을 회귀분석 모델이 반영·활용하는가를 나타낸다.

(3)
$R^{2}=(\gamma_{xy})^{2}=(\dfrac{COV(X,\: Y)}{\sigma_{x}\bullet\sigma_{y}})^{2}$

여기서, $\gamma_{xy}$는 입력신호 X와 출력신호 Y의 상관계수, $COV(X,\: Y)$는 입력신호와 출력신호의 공분산, $\sigma_{x}$, $\sigma_{y}$는 각각 입력신호 X와 출력신호 Y의 분산이다.

결정계수 값이 1에 가까울수록 회귀분석모델이 계측데이터가 가지고 있는 공학적으로 유용한 전체 정보량을 반영·예측에 잘 활용하고 있음을 나타내며, 0에 가까울수록 신호가 가지고 있는 정보량을 잘 반영·활용하고 있지 못함을 나타낸다(Bendat and Piersol, 2010). 따라서 결정계수는 선형회귀모델을 사용하는 개별데이터 관점에서 데이터 분석에서 계측데이터가 가지고 있는 공학적으로 유용한 정보량 크기를 전체 정보량 크기에 대한 상대적 값으로 나타내고 있다고 볼 수 있다.

2.2 순차적 데이터 관점에서 계측데이터의 공학적으로 유용한 정보량 평가

Fig. 1에서 표현된 데이터는 순차적 관점에서 노드(node)와 엣지(edge)로 구성된 그래프로 Fig. 2와 같이 나타낼 수 있다. 노드는 개별 계측데이터 정보이며, 엣지는 노드와 노드 사이의 관계를 나타낸다. Fig. 12를 비교해보면 동일 데이터라고 해도 관점(개별 데이터/순차적 데이터)에 따라 표현되는 정보량의 차이(엣지의 유무)가 존재함을 볼 수 있다.

Fig. 1. 24-hour Scatter Plot of Water Level-Pore Water Pressure
../../Resources/KSCE/Ksce.2025.45.6.0801/fig1.png
Fig. 2. 24-hour Scatter Plot of Water Level-Pore Water Pressure with Edge and Node
../../Resources/KSCE/Ksce.2025.45.6.0801/fig2.png

순차적 관점에서는 개별 계측치 값 크기뿐만 아니라 계측데이터 시계열에 존재하는 패턴이나 주기적 특성을 활용하여 대상 시스템 거동을 예측하거나 대상 시스템과 관련된 정보를 획득하게 된다(Bishop, 2006; Box et al., 2015; Hyndman and Athanasopoulos, 2018; Taylor and Latham, 2018; Jurafsky and Martin, 2023).

순차적 데이터 관점에서 데이터를 활용하는 경우 기여도 함수(coherence function) 결정을 통해 계측데이터의 공학적 유용성을 평가할 수 있다.

(4)
$\gamma_{xy}^{2}(f)=\dfrac{\vert G_{xy}(f)\vert^{2}}{G_{xx}(f)G_{yy}(f)}=\dfrac{\vert S_{xy}(f)\vert^{2}}{S_{xx}(f)S_{yy}(f)}$

기여도 함수는 시스템 거동에 의한 출력신호(댐 계측 신호)를 구성하는 개별 주파수 성분들에 대한 시스템 입력 신호(시스템 거동을 유발하는 댐 수위와 같은 요소)를 구성하는 개별 주파수 성분들의 기여도(coherence)를 나타낸다. 기여도 함수는 0에서 1사이의 값을 가진다. 댐에 설치된 간극수압계 계측기록의 경우 계측된 간극수압을 구성하는 개별 주파수(또는 주기 또는 패턴) 성분들에 대한 댐 수위를 구성하는 동일 주파수(또는 주기 또는 패턴) 성분들의 기여도를 나타낸다(Bendat and Piersol, 2010).

이때 계측 신호를 구성하는 개별 주파수 (또는 주기 또는 패턴) 성분들은 계측 신호의 시간에 따른 변화 경향 또는 계측데이터 열(sequence)에 존재하는 패턴을 나타낸다. 기여도 함수가 1에 가까울수록 시스템 거동의 표현인 출력신호를 구성하는 시계열 패턴에 대해 입력신호에 존재하는 동일한 형태의 시계열 패턴들에 의한 기여도가 커짐을 나타낸다. 즉, 기여도 함수가 클수록 출력신호에 존재하는 거의 모든 패턴이 입력신호에 의한 시스템 거동으로 설명할 수 있게 된다. 따라서 기여도 함수는 시퀀스(Sequence) 형태의 시스템 입력과 관련하여 대상 시스템 거동과 관련된 활용 가능한 시퀀스 형태의 출력신호 크기를 나타낸다. 즉 기여도 함수의 크기가 1에 가까울수록 순차적 데이터 관점에서 계측데이터가 가지는 공학적 유용성이 큰 정보량의 크기가 계측데이터가 가질 수 있는 전체 정보량의 크기에 다가가게 된다.

따라서 기여도 함수를 사용하여 순차적 데이터 관점에서의 계측데이터가 가지는 공학적으로 유용한 정보량을 평가할 수 있다. 기여도 함수를 이용한 계측데이터가 가지는 공학적으로 유용한 정보량 정도를 평가하기 위해 다음과 같은 가중 기여도 함수(weighted coherence function)를 정의하였다.

1) 입력신호의 파워스펙트럴함수(Power spectral function) 결정. 2) 1)에서 결정된 파워스펙트럴함수에서 일정 크기 이상을 가지는 주파수 성분들의 주파수($f_{th,\: i}; i=1\sim N$)와 크기($Mag(f_{th,\: i})$) 결정 3) 입력·출력신호 사이의 기여도 함수($Coh(f)$) 결정 4) 2)에서 결정된 주파수 성분에 해당하는 기여도 값을 결정하고, 2)에서 얻어진 주파수 성분의 크기를 가지고 가중평균하여 계측 신호의 가중 기여도 함수 $Coh_{weighted}$를 결정

(5)
$Coh_{weighted}=\dfrac{\sum_{i=1}^{N}Coh(f_{th,\: i})\times Mag(f_{th,\: i})}{\sum_{i=1}^{N}Mag(f_{th,\: i})}$

순차적 데이터 관점에서 공학적으로 유용한 계측데이터 정보량은 가중 기여도 함수와 계측데이터 정보량의 곱으로 정의된다. 이러한 정보량의 크기는 계측데이터에 시스템 거동과 관련된 정보들 중 사용 가능한 정보량의 크기를 나타낸다. 가중기여도 함수 크기 자체는 순차적 데이터 관점에서 계측데이터의 전체 정보량 중 사용 가능한 정보량 비율을 나타낸다. 결정된 가중 기여도 함수의 크기가 1에 가까워질수록 계측데이터의 패턴에 기반한 시스템 거동예측의 정확도가 높아지게 된다.

2.3 개별 데이터 및 순차적 데이터 관점에서 계측데이터의 공학적으로 유용한 정보량 크기 평가 및 비교

시스템 입력에 의해 발생하는 시스템 거동을 표현하는 시스템 출력 즉 계측데이터의 개별 및 순차적 데이터 관점에서 공학적으로 유용한 사용 가능 정보량 평가 및 비교를 위해 수치 모의시험을 수행하였다.

Fig. 3. Single Input-Single Output (SISO) System for Simulating Measurements
../../Resources/KSCE/Ksce.2025.45.6.0801/fig3.png

댐과 같은 토목구조물 시스템에 대한 입력(ex. 댐 수위 변동)에 대해 간극수압계와 같은 감지기 계측 값으로 표현되는 시스템 거동은 Fig. 3과 같이 근사적으로 간단하게 표현할 수 있다.

이때 시스템은 입력에 대해 출력을 생성하는 transfer function으로 Eq. (6)과 같이 근사적으로 표현할 수 있다.

(6)
$H(f)=A(f)e^{-i\phi(f)}$

여기서, $A(f)$는 입력신호와 출력신호를 구성하는 동일 주파수 성분 크기 비이며, 출력신호에서 발생하는 입력신호의 증폭 크기를 나타낸다. $\phi(f)$는 시스템에 의해 발생하는 입력신호와 출력신호를 구성하는 동일 주파수 성분 사이의 위상차를 나타낸다. 두 주파수 성분 사이의 위상차는 시간 축에서 지연을 나타낸다(출력신호로 표현되는 시스템 거동이 입력신호보다 지연된 시간에 발생).

Fig. 4. Power Spectral Density Function of Dam Water Level Data
../../Resources/KSCE/Ksce.2025.45.6.0801/fig4.png

Fig. 3에 주어진 모델 중 간단 단순한 형태는 잡음이 0이며, 가장 단순한 형태의 transfer function을 가지는 경우이다. 가장 단순한 형태의 transfer function은 선형시스템으로 전체 주파수에서 동일한 크기 증폭과 위상차를 발생시키는 형태이다. 즉 모든 주파수에 대해 $A(f)$와 $\phi(f)$가 상수인 경우이다.

Fig. 4는 양수발전 댐의 수위 계측데이터의 파워스펙트럴밀도함수(power spectral density function)이다. 그림을 보면 2~3개의 주된 주파수 성분이 있음을 확인할 수 있다. 일반적으로 토목구조물과 같은 시스템의 입력신호(or 하중)의 경우 2~3개의 주된 에너지를 가지는 주파수 성분으로 구성되어 있다. 본 연구에서는 크기 1을 가지는 두 개의 주된 주파수 성분으로 구성된 입력에 대해 다음과 같은 4종류의 가장 단순한 형태를 가지는 transfer function을 모사하고, 이러한 시스템의 출력, 즉 계측데이터를 생성하였다.

Table 1. System Setup for Numerical Simulation

$A(f)$ $\phi(f)$
Transfer function 1 1 30°
Transfer function 2 1 45°
Transfer function 3 1 60°
Transfer function 4 1 90°

본 연구에서 사용된 시스템(transfer function)은 시스템 입력신호를 구성하는 각 주파수 성분의 크기와 동일한 크기의 주파수 성분들을 출력하며, 입력과 출력을 구성하는 주파수 성분들 사이에 30°, 45°, 60°, 90°의 위상차(시간 축 상에서의 지연)를 가지게 된다.

Fig. 5는 두 개의 주파수 성분으로 구성된 입력신호에 대해 Table 1에 주어진 transfer function들에 의해 생성된 출력신호들을 그린 그림이다.

Fig. 6Fig. 5에 주어진 시스템 입력-출력 계측 신호로부터 결정된 산포도이다. 이 산포도는 개별 데이터 관점에서 분석을 수행하는 선형회귀모델 생성에 사용된다.

이때 시스템 출력은 시스템 입력에 대해 완벽한 인과관계를 가지게 되며, 출력신호를 구성하는 계측 값은 100 % 입력에 대한 시스템 거동과 관련된 수치가 된다. 즉 출력신호들은 시스템 거동(평가)과 관련하여 100 % 공학적 유용성을 가지는 정보들로 구성되어 있으며, 출력신호가 가지는 정보량은 100 % 공학적으로 유용한 정보량이다.

Fig. 5. Input and Output Signals of the System. (a) Phase Delay $\theta =30^{\circ}$, (b) Phase Delay $\theta =45^{\circ}$, (c) Phase Delay $\theta =60^{\circ}$, (d) Phase Delay $\theta =90^{\circ}$
../../Resources/KSCE/Ksce.2025.45.6.0801/fig5.png
Fig. 6. Scatter Plot with Linear Regression Model. (a) Phase Delay $\theta =30^{\circ}$, (b) Phase Delay $\theta =45^{\circ}$, (c) Phase Delay $\theta =60^{\circ}$, (d) Phase Delay $\theta =90^{\circ}$
../../Resources/KSCE/Ksce.2025.45.6.0801/fig6.png

선형회귀모델에 의한 개별 데이터 관점에서 계측 신호에 들어있는 공학적으로 유용한 사용 가능 정보량의 상대적 크기를 평가하기 위해 Fig. 6에 주어진 입·출력 계측 신호 쌍들에 대해 결정계수를 결정하였다. Fig. 7은 주어진 입력신호와 입력신호에 의한 시스템 거동인 출력신호 사이의 결정계수를 계산하고, 계산된 결정계수를 시스템 위상차(delay)에 따라 그린 그림이다. 그림을 보면 입·출력신호 사이, 즉 입력 하중과 시스템 거동의 위상차(시간차)가 커질수록 결정계수의 값이 감소함을 볼 수 있다. 즉 위상차가 커질수록 계측데이터가 시스템 거동과 관련된 모든 정보를 포함/표현하고 있다 하더라도 개별 데이터 관점에서 계측데이터가 가지는 공학적으로 유용한 활용 가능 정보량의 크기는 감소함을 알 수 있다.

Fig. 7. Coefficient of Determination and Weighted Coherence Function Magnitude according to Phase Delay
../../Resources/KSCE/Ksce.2025.45.6.0801/fig7.png

순차적 데이터 관점에서 동일한 계측신호에 대해 공학적으로 유용한 활용 가능 정보량을 평가하였다. 결정계수를 계산하는데 사용된 Fig. 5에 주어진 신호들에 대해 2.2장에서 언급된 방법에 따라 가중 기여도 함숫값을 결정하였다. 결정된 값은 Fig. 7에 결정계수와 같이 나타내었다. 그림을 보면 가중 기여도 함숫값은 위상차 크기에 상관없이 1의 값을 가짐을 볼 수 있다. 즉 계측 시계열의 순서 정보를 이용하는 순차적 관점에서는 계측데이터가 가지고 있는 대상 시스템 거동과 관련된 실제 정보량을 모두 정확히 활용할 수 있음을 알 수 있다.

위상차에 따른 가중 기여도함수 크기와 결정계수 크기를 비교해보면 입력-출력신호 사이에 위상차가 존재하는 시스템의 경우, 위상차가 커짐에 따라 입·출력신호 사이에 완벽한 인과관계를 가지는 경우(출력신호의 모든 부분이 시스템 거동과 관련되어 있는 경우, 즉 시스템 거동과 관련된 정보로만 출력신호가 100 % 구성되어 있는 경우)라도 선형회귀모델과 같은 개별 데이터 관점 분석은 계측데이터가 가지고 있는 대상 시스템의 거동과 관련된 의미 있는 정보의 활용도가 감소함을 즉, 사용 가능 정보량이 감소함을 볼 수 있다. 이에 반해 동일 신호에서 순차적 관점에서 데이터 분석을 수행하는 경우 위상차 크기에 상관없이 계측데이터에 포함되어있는 대상 시스템의 거동을 효과적으로 표현·활용할 수 있음을 볼 수 있다. 즉 순차적 데이터 관점 분석은 개별 데이터 관점과 달리 계측데이터에 포함되어 있는 대상 시스템 거동과 관련된 정보를 모두 사용할 수 있다.

2.4 계측 시계열 데이터 분석 시 선형회귀모델의 한계

선형회귀모델은 시계열 계측데이터를 개별 데이터 관점에서 분석한다. 선형회귀모델의 목적은 시스템 입력에 대한 시스템 거동인 출력신호를 예측하는 데 있다. 따라서 선형회귀모델의 성능은 동일 입력에 대한 시스템 출력과 선형회귀모델에 의한 결과 비교를 통해 이루어진다.

Fig. 8. Comparison of Predicted System Output from Case-based Regression Models with Measured System Output. (a) Phase Delay $\theta =30^{\circ}$, (b) Phase Delay $\theta =45^{\circ}$, (c) Phase Delay $\theta =60^{\circ}$, (d) Phase Delay $\theta =90^{\circ}$
../../Resources/KSCE/Ksce.2025.45.6.0801/fig8.png

Table 1에 주어진 CASE 별 생성된 입·출력신호들에 의해 결정된 선형회귀모델 식들을 Fig. 6에 산포도와 함께 나타내었다. Fig. 8은 결정된 회귀분석모델식을 사용하여 입력신호에 따라 예측된 출력값과 실제 출력값을 비교한 그림이다.

Fig. 8을 보면 시스템이 유발하는 위상차(지연)가 커짐에 따라 시스템 입력에 대해 선형회귀모델을 사용하여 결정된 시스템 출력 예측치와 실제 시스템 출력값 사이의 차이가 커짐을 볼 수 있다. 즉, 완벽한 인과관계를 가지는 입·출력신호를 사용하여 결정된 선형회귀 모델식이라도 입·출력신호 사이에 지연이 존재하는 시스템의 경우 대상 시스템의 거동을 제대로 표현하지 못하는 경우가 발생할 수 있음을 알 수 있으며, 이러한 오류 상황은 피할 수 없다. 이러한 오류에 의해 선형회귀모델에 의한 예측치의 최댓값은 실제 시스템 출력 계측 값에 비해 작고 예측치 최솟값은 계측 값 최솟값에 비해 큰 값을 가지게 된다. 이러한 계측치 최댓값과 최솟값은 대상 시스템 평가 시, 이상상태를 알리는 인덱스로 사용될 수 있다. 따라서 예측치 최댓값이 실제 계측 값보다 작은 값을 가지게 되고, 예측치 최솟값이 계측 값보다 큰 값을 가지게 되면, 실제 시스템 상태를 잘못 판단할 수 있게 된다.

3. 실제 계측데이터에서 개별/순차적 관점의 공학적으로 유용한 정보량 크기 비교 및 선형 회귀모델의 평가

실제 토목 시스템에서 측정된 계측데이터에서 개별/순차적 관점에서 공학적으로 유용한 사용 가능 정보량의 차이를 평가하기 위해 양수발전 댐에서 계측된 데이터를 이용하였다.

Fig. 9는 양수발전 댐에서 1년간 1시간 간격으로 계측된 댐 수위와 간극수압 계측 시간이력이다. Fig. 10은 댐 수위-간극수압 산포도이다. Fig. 9에 주어진 입력(댐 수위 계측)과 출력(간극수압 계측) 시간이력에 대해 가중 기여도함수와 결정계수를 결정하였다. 결정된 가중 기여도 함수의 크기는 0.985이며, 결정계수의 크기는 0.564이다. 이 크기를 보면 실제 계측 데이터가 가지고 있는 정보량은 개별 데이터 관점에서는 모두 이용하지 못함을 알 수 있고 이에 반하여 순차 데이터 관점에서는 계측 데이터가 가지고 있는 거의 모든 정보량의 활용이 가능함을 알 수 있다.

이 값들은 Fig. 7에 표현된 위상차에 따른 결정계수와 기여도 함수 그림에 더하여 Fig. 11에 나타냈다. Fig. 11에서 댐 수위-간극수압의 결정계수와 가중 기여도 함수 크기는 대략 41도의 위상차에 해당함을 볼 수 있다. 가중 기여도 함수 크기를 보았을 때 출력신호는 입력신호에 따른 댐 거동과 관련된 정보를 거의 모두 포함하고 있는 것으로 판단된다.

이러한 위상차는 댐과 같은 시스템의 입력요소인 수위 변화와 댐 거동에 의해 발생하는 다양한 출력 요소들 사이에 존재할 수 있다. 이러한 입·출력신호 사이의 위상차들은 선형회귀분석 모델 생성 시 계측데이터가 댐 거동과 관련된 완전한 정보를 가지고 있어도 선형회귀모델이 계측데이터에 포함되어있는 시스템 거동과 관련된 의미 있는 정보를 완전히 사용하지 못하게 하며, 결정된 선형회귀모델을 사용하여 입력(수위)에 따른 댐 출력(간극수압 등) 예측 시 항상 실제 거동과 차이가 발생하게 한다.

Fig. 9. Time Series of Measured Water Level and Pore Water Pressure
../../Resources/KSCE/Ksce.2025.45.6.0801/fig9.png
Fig. 10. Scatter Plot and Linear Regression Model Based on the Data of Fig. 9
../../Resources/KSCE/Ksce.2025.45.6.0801/fig10.png
Fig. 11. Coefficient of Determination and Weighted Coherence Function Magnitude with Measured Data according to Phase Delay
../../Resources/KSCE/Ksce.2025.45.6.0801/fig11.png

실제 계측데이터에서 선형회귀모델의 성능을 평가하기 위해 Fig. 12에서 Fig. 10에 주어진 실제 댐 계측 산포도를 사용하여 결정된 회귀분석 모델을 사용하여 댐수위에 따라 간극 수압을 예측하고, 이를 이듬해 1년간 계측된 실제 계측 간극수압과 비교하였다. 그림을 보면 실제 시스템 출력의 상한과 하한에 비해 예측치의 상한은 작고 하한은 커짐을 볼 수 있다. 이러한 결과는 댐 입력-출력 계측데이터 사이에 존재하는 위상차(delay)에 의해 발생한다. 이런 입·출력신호 사이에 위상차가 존재하게 되면 계측데이터가 가지고 있는 공학적으로 유용한 댐 관련 정보량에 상관없이 선형회귀분석모델은 대상 시스템의 거동 표현에 한계가 생기게 된다. 댐과 같은 토목구조물 유지관리에서는 계측데이터의 상한과 하한이 중요하다. 예측치가 계측치 상한보다 작은 값을 그리고 계측치 하한보다 큰 값을 예측하는 경우, 경우에 따라 잘못된 구조물 상태 평가가 이루어질 수 있다.

Fig. 12. Comparison of Predicted Pore Water Pressure from Linear Regression Model (Fig. 10) with Measured Data. (a) Time Domain : 1 year, (b) Time Domain : 1000 hr ~ 3000 hr, (c) Time Domain : 6000 hr ~ 8000 hr
../../Resources/KSCE/Ksce.2025.45.6.0801/fig12.png

댐과 같이 시스템 입력(수위 변동)과 다양한 계측기에 의한 계측치들로 이루어지는 시스템 출력 사이에 위상차(또는 시간 지연)가 발생하는 경우, 계측치의 품질과 상관없이 선형회귀분석모델에 의한 예측은 한계를 가지게 된다. 따라서 시스템 입·출력 사이에 위상차가 존재하는 경우, 시스템 유지관리를 위한 계측데이터 활용은 선형회귀분석 모델이 아닌 순차 데이터 관점에서 개발된 예측 모델을 사용하여야 한다.

4. 결 론

본 연구에서는 다양한 시스템 입력에 의한 시스템 출력, 즉 시스템 거동을 기록한 계측치가 포함하고 있는 정보량 중 사용 가능 정보량을 개별 데이터 관점과 순차 데이터 관점에서 평가할 수 있으며, 동일 계측치라고 하더라도 개별 데이터 관점과 순차 데이터 관점에서 사용 가능 정보량의 크기는 다를 수 있음을 보였다.

개별 데이터 관점과 순차 데이터 관점에서 공학적으로 유용한 계측치의 사용 가능 정보량의 크기를 결정하기 위해 개별 데이터 관점의 경우 결정계수, 순차 데이터 관점의 경우 가중 기여도 함수를 제안 적용하였다. 이때 결정계수와 가중 기여도 함수 크기는 0에서 1사이의 값을 가지며, 계측치가 가지고 있는 전체 정보량 중 사용 가능 정보량 비를 나타낸다.

수치 모의실험을 통해 시스템 거동을 완전히 표현하는 계측치를 생성하고 이에 대해 결정계수와 기여도 함수를 결정하였다. 이러한 계측치는 시스템 상태에 따른 시스템 거동과 관련된 완전한 정보를 포함하고 있다. 이때 시스템 거동이 시스템 입력에 대해 시간축 상에서 지연(위상차)을 보이는 경우 개별 데이터 관점에서는 계측치가 가지는 정보를 완전히 사용 못하게 되며, 이러한 경향은 지연시간의 크기가 증가함에 따라 커지게 됨을 보였다. 이에 반하여 순차 데이터 관점의 경우 개별 데이터 관점과 달리 지연 시간에 상관없이 계측치가 가지는 정보를 완전히 사용할 수 있음을 볼 수 있었다. 이러한 이유는 개별 데이터 관점은 개별 계측치 정보를 독립적으로 이용하는데 반하여 순차 데이터 과점은 개별 계측치 정보와 개별 계측치 사이에 존재하는 관계 정보 또한 이용하기 때문이다.

선형회귀모델은 대표적인 개별 데이터 관점 모델로서 개별 데이터 관점이 가지는 제한 사항을 가지게 된다. 즉 시스템 상태를 완전히 표현하는 시스템 입력과 출력신호를 사용하여 선형회귀모델을 생성하는 경우에도, 시스템이 위상차, 즉 입·출력신호 사이에 지연을 유발하는 경우 시스템 거동을 정확히 예측할 수 없는 한계를 가진다. 이러한 한계는 지연 시간이 커질수록 커지게 됨을 볼 수 있었다. 이러한 내재적 한계는 수치 모의실험을 통한 예측치와 시스템 출력치의 비교 그리고 실제 댐 계측기록을 사용한 선형회귀모델 생성 및 이를 이용한 예측과 실제 계측치 비교를 통해 확인하였다.

시스템 거동 예측 시, 시스템이 입·출력 신호 사이의 지연을 유발하는 경우 순차적 데이터 관점을 사용하는 데이터 분석모델인 LSTM이나 HMM이 개별 데이터 관점에 기반한 선형회귀모델에 비해 계측치가 가지고 있는 정보량의 활용 측면 및 이를 활용한 예측에서 보다 효과적일 것으로 생각된다.

References

1 
Bendat J. S., Piersol A. G. (2010), Random data: Analysis and measurement proceduresGoogle Search
2 
Bera A. K., Ghosh A., Ghosh A. (2005). "Regression model for bearing capacity of a square footing on reinforced pond ash", Geotextiles and Geomembranes, Vol. 23, No. 3, pp. 261-285DOI
3 
Bishop C. M. (2006), Pattern recognition and machine learningGoogle Search
4 
Box G. E. P., Jenkins G. M., Reinsel G. C., Ljung G. M. (2015), Time series analysis: Forecasting and controlGoogle Search
5 
Fuller W. A. (1987), Measurement error modelsGoogle Search
6 
Hyndman R. J., Athanasopoulos G. (2018), Forecasting: Principles and practiceGoogle Search
7 
Jurafsky D., Martin J. H. (2023), Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognitionGoogle Search
8 
(2024), Instrumentation report for dam safety monitoringGoogle Search
9 
(2024), Reservoir instrumentation management reportGoogle Search
10 
(2024), Dam instrumentation and monitoring reportGoogle Search
11 
Lee C., Kim Y. (2014). "Long-term settlement prediction of center-cored rockfill dam using measured data", Journal of the Koreang Geo-Environmental Society, Vol. 15, No. 11, pp. 21-27DOI
12 
Montgomery D. C., Peck E. A., Vining G. G. (2012), Introduction to linear regression analysisGoogle Search
13 
Shannon C. E. (1948). "A mathematical theory of communication", Bell System Technical Journal, Vol. 27, No. 3, pp. 379-423DOI
14 
Taylor S. J., Letham B. (2018). "Forecasting at scale", The American Statistician, Vol. 72, No. 1, pp. 37-45DOI