Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 68, No. 9, p.1060-1066

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 14 August 2019Accepted : 29 August 2019

DOI :

http://doi.org/10.5370/KIEE.2019.68.9.1060

Design of a Reinforcement Learning-Based Disturbance Observer for Line Fault Detection of a Single Machine Infinite Bus System

1기 무한모선 시스템의 선로 고장판별을 위한 강화학습 기반 외란관측기 설계

장수영 (Su Young Jang) ¹iD 손영익 (Young Ik Son) ^†iD 강상희 (Sang Hee Kang) ²

(Dept. of Electrical Eng., Myongji University, Korea)
(Dept. of Electrical Eng., Myongji University, Korea)

^†Corresponding Author : Dept. of Electrical Eng., Myongji University, Korea. E-mail : sonyi@mju.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

According to the increase of electric power demand in the modern society the power system is gradually expanding. This results in a growing need for an intelligent method of fast determination and protection against various failures in the power system. As the computer platform is improved, the system fault detection and reliable protection devices have been trying to enhance their performances using artificial intelligence techniques. If a failure occurs in the single-machine infinite bus(SMIB) system. the electrical output of the generator changes, which can be regarded as a result of an external disturbance input. This paper presents a line fault detection method by using a reinforcement learning-based disturbance observer that estimates the magnitude of the equivalent disturbance. Reinforcement learning is an algorithm that models the relationship between the behavior of an agent and the reward from environment. This paper has adopted the Deep Q-Network for training of the proposed disturbance observer. The performance of the proposed reinforcement learning-based disturbance observer is verified by computer simulations. The results show that the disturbance can be estimated successfully and the estimate can be used to detect the line fault.

Key words

Single-machine infinite-bus system, Reinforcement learning, Deep Q-Network, Disturbance observer, Fault detection, Out-of-step

1. 서 론

현대 사회의 전력 수요 증가에 따라 전력시스템은 점진적으로 확장되고 있다. 계통의 복잡성 증가 및 발전단지의 집중화와 송전 용량 증가로 전력 시스템에 고장이 발생할 경우 국가 산업 및 국민 생활에 막대한 피해를 야기할 수 있다. 따라서 시스템에 발생한 고장을 신속하게 판단하고 보호하는 방안이 필요하며 이를 위한 연구가 지속되고 있다^[1-^7].

시스템에 인가된 외란이 심할 경우 발전기의 기계적인 입력과 전기적 출력 사이의 불균형이 생기고, 이로 인한 전력 시스템의 전기$-$기계적인 진동이 감쇠하지 않으면 탈조(out-of-step) 상태가 될 수 있다^[1-^4]. 시스템이 동기를 유지하지 못하고 탈조하게 되면 넓은 지역에 정전이 파급되는 등의 문제가 발생하기 때문에 R-X 평면상에서 임피던스 궤적의 변화를 측정하는 등 동기탈조 보호 기법이 적용되고 있다^[1-^,4 ^8-^10].

최근 컴퓨터의 플랫폼이 개선되면서 기존의 시스템 고장판단 및 보호 기법 또한 인공지능 기법을 이용하여 성능을 개선하려는 연구가 진행되고 있다^[20,^21,^23,^27]. Radial basis function neural network를 이용하여 시스템의 과도 안정성을 추정하거나^[20], Thyristor controlled series capacitor 제어에 사용하여 그 성능을 개선하였다^[23]. 거리 계전기의 오작동을 방지하기 위해 Fuzzy 및 adaptive-neuro-fuzzy inference system을 함께 사용하거나^[21], support vector machine이나 random forest, decision tree를 사용하는 방법이 연구되고 있다^[27].

본 논문에서는 시스템의 불확실성에 대한 강인성 향상 기법으로 활용되고 있는 외란 관측기^[12-^14]와 강화학습 기법을 사용한 새로운 선로 고장판별 방법을 제안한다. 1기 무한모선(Single-Machine Infinite Bus; SMIB) 시스템을 대상으로 큰 부하 변동 혹은 기타 요인에 의해 고장이 발생했을 때 선로 임피던스의 변화에 따른 전기적 출력의 변화량을 외란으로 정의하고 추정한다. 이때 강화학습의 알고리즘 중 하나인 Deep Q-Net- work^[25]를 이용하여 외란 관측기의 이득을 결정하였다.

강화학습은 인간의 행동 심리학에서 출발하였으며 행동과 보상의 상호 관계를 포착하여 공식적인 모델로 만든 것이다^[18]. 그 중 Deep Q-Network는 딥마인드에서 개발한 알고리즘으로 알파고와 이세돌 9단의 대국으로 많은 연구자들의 이목을 끌었고 그 성능을 입증하는 기회가 되었다^[26].

본 논문에서 제안하는 강화학습 기반 외란관측기의 성능은 1기 무한모선 시스템에 발생한 3상 단락 고장을 판별하는 모의실험을 통해 확인하였다. 추정된 외란은 고장 위치를 계산하기 위한 방법으로도 활용될 수 있다. 모의실험은 Matlab과 python을 이용하여 진행하였다.

논문의 2.1.1절은 1기 무한모선 시스템을 소개하고 2.1.2절은 외란의 정의와 고장 위치에 따른 외란 크기의 변화를 설명한다. 2.2.1절과 2.2.2절은 각각 강화학습과 Deep Q-Network를 소개하고, 2.2.3절은 Deep Q-Network 기반 외란관측기를 설계한다. 2.3절에서는 Deep Q-Network의 실제학습과 제안하는 외란관측기를 이용한 고장판별 모의실험을 진행하였으며 마지막 결론으로 논문의 끝을 맺는다.

2. 본 론

2.1 시스템 모델과 외란 정의

2.1.1 1기 무한모선 시스템

본 논문에서는 그림 1과 같은 1기 무한모선 시스템(Single Machine Infinite Bus System, SMIB)을 고려한다. 무한모선은 전압의 크기가 일정하고 위상은 0이며, 언제나 충분한 양의 발전량과 부하량을 가진다^[3]. 그림 1에서 $F$로 표시된 곳은 고장 발생 지점이다. 본 논문에서는 고장 발생으로 인한 임피던스의 변화를 외란으로 정의한다.

그림. 1. 1기 무한모선 시스템

Fig. 1. Single Machine Infinite Bus System

1기 무한모선 시스템은 다음과 같은 비선형 2계 미분 방정식을 통해 해석이 가능하다^[1-^4].

(1)

$\dfrac{H}{\pi f_{0}}\ddot\delta = P_{m}-P_{e}(\delta)+ P_{d}$

위 식에서 $H$는 단위 관성 계수, $f_{0}$는 동기 주파수, $\delta$는 전력각, $P_{m}$은 발전기에 인가되는 기계적 입력, $P_{e}$는 발전기의 전기적 출력, $P_{d}$는 고장 발생으로 인한 추가적인 외란이다. 이 때 발전기의 전기적 출력은 아래와 같이 다시 쓸 수 있다^[1].

(2)

$P_{e}(\delta)=\dfrac{| E || V |}{X}\sin(\delta)=: P_{\max}\sin(\delta)$

위 식의 $X$는 발전기와 무한모선 사이의 리액턴스, $E$는 발전기 유기 기전력, $V$는 무한모선 전압이다.

식 (1)-(2)를 상태 공간 방정식으로 다시 쓰면 아래와 같다.

(3a)

$ \begin{align*} \dot\delta & =\omega_{\Delta} \end{align*}$

(3b)

$ \begin{align*} \dot\omega_{\Delta}& =\dfrac{\pi f_{0}}{H}\left(P_{m}-P_{\max}\sin(\delta)+ P_{d}\right) \end{align*}$

위 식에서 $\omega_{\Delta}$는 동기 주파수에 대한 각주파수 편차이고, 고장 발생 이전에는 동기 주파수를 유지하고 있다고 가정한다. 선로에 고장이 발생하기 전에는 발전기의 기계적 출력과 전기적 출력이 평형을 이루고 있고, 동기 각속도로 회전하므로 전력각 $\delta$는 일정 값으로 평형 운전을 한다. 따라서 사고 발생 직전($P_{d}= 0$)의 초기 상태는 아래와 같다.

(4)

$\begin{align*} \delta(0)& =\sin^{-1}\left(\dfrac{P_{m}}{P_{\max}}\right),\:\omega_{\Delta}(0)& = 0 \end{align*}$

선로에 고장이 발생하면 발전기와 무한모선 사이의 리액턴스 $X$가 변하고, 식(2)에 따라 $P_{\max}$가 바뀌므로 발전기의 전기적 출력($P_{e}$)이 변화하게 된다. 이후 계통은 동기를 유지할 경우 새로운 평형점으로 수렴하게 된다. 이와 같은 과정을 표현하기 위해 식(3)에 댐핑항을 추가하여 다시 쓰면 아래와 같다.

(5a)

$\begin{align*} \dot\delta & =\omega_{\Delta} \end{align*}$

(5b)

$\begin{align*} \dot\omega_{\Delta}& =\dfrac{\pi f_{0}}{H}\left(P_{m}-P_{\max}\sin(\delta)+ P_{d}-\dfrac{D}{\omega_{0}}\omega_{\Delta}\right) \end{align*}$

위 식에서 $D$는 댐핑 계수이고, 일반적으로 0 ~ 2[pu] 범위의 값을 가진다^[4]. 다음 절에서는 고장 위치에 따른 외란 $P_{d}$를 정의한다.

$\quad$

2.1.2 고장 위치에 따른 외란의 크기

선로에 고장이 발생하면 발전기와 무한모선 사이의 리액턴스 $X$가 변하게 되는데, $X$의 변화량은 고장 지점에 따라 다르다. 그림 1의 발전 모선(1번 모선)에서 고장 지점까지의 거리 비율을 $\lambda(0\le\lambda\le 1)$라고 하면 고장 지점이 발전 모선과 가까울수록 $\lambda$는 0에 가깝고 멀수록 1에 가깝다. 3상 단락 고장시 고장 후의 $X$를 $X_{post}$라고 정의하면 다음과 같이 쓸 수 있다^[1].

(6)

$X_{post}=X_{s}+X_{L1}+ X_{s}X_{L1}/(\lambda X_{L2})$

위 식에서 $X_{s}$는 변압기 및 발전기 d축 과도 리액턴스, $X_{L1}$과 $X_{L2}$는 각각 건전 선로 및 고장 선로의 리액턴스이다.

고장 거리 비율 $\lambda$가 0에 가까우면 $X_{post}$가 무한대의 값을 가지므로 고장 지점이 발전 모선 근처이면 $P_{\max}$는 0에 가까워 전력을 거의 공급하지 못하는 상황이 된다. 반대로 고장 지점이 무한 모선에 가까울수록($\lambda\approx 1$) $X_{post}$는 $X_{s}+X_{L1}$$+ X_{s}X_{L1}/X_{L2}$에 가깝다. 한편 고장 선로가 차단된 후의 $X_{post}$는 $X_{s}+X_{L1}$이므로 고장 중의 $P_{\max}$는 차단 후의 $P_{\max}$보다 커질 수 없다.

본 논문은 고장으로 인한 $P_{\max}$의 변화량을 외란의 크기($d$)로 가정한다. 식(2)에서 고장 전후 $E$와 $V$는 동일하고 고장 전후의 리액턴스가 각각 $X_{pre}$ 및 $X_{post}$라면 $P_{\max}$의 크기 변화량 $d$와 외란 $P_{d}$는 아래 식과 같다.

(7a)

$d =\dfrac{| E | | V |}{X_{pre}}-\dfrac{| E | | V |}{X_{post}}$,

(7b)

$P_{d}= d\sin(\delta)$

따라서 본 논문에서 고려하는 SMIB 계통은 아래와 같다.

(8a)

$\begin{align*} \dot\delta & =\omega_{\Delta} \end{align*}$

(8b)

$\begin{align*} \dot\omega_{\Delta}& =\dfrac{\pi f_{0}}{H}\left(P_{m}-(P_{\max}-d)\sin(\delta)-\dfrac{D}{\omega_{0}}\omega_{\Delta}\right) \end{align*}$

한편, 식(6)와 식 (7a)로부터 $\lambda$와 $d$의 관계식을 구하면 아래와 같다. 이는 관측기가 추정한 외란이 참값과 유사하다면 근사적으로 고장 위치를 결정할 수 있음을 의미한다.

(9)

$\lambda =\dfrac{X_{s}X_{L1}}{X_{L2}\left(\dfrac{| E | | V |}{P_{\max}- d}-X_{s}-X_{L1}\right)}.$

다음 절에서는 외란의 크기 $d$를 추정하기 위한 강화학습 기반 외란 관측기를 설계한다.

2.2 강화학습 기반 외란 관측기 설계

2.2.1 강화학습

강화학습은 행동(Action)에 따른 보상(Reward)을 주며 행위자(Agent)를 학습시키는 방법이다. 즉, 행위자의 행동은 환경(Environment)에 영향을 미치고, 특정 행동은 환경의 상태(State)를 변화시켜 이에 따른 보상을 받게 된다^[16]. 이를 단순화하면 그림 2와 같이 나타낼 수 있다.

강화학습은 지도학습(Supervised learning)과 달리 입력 값과 미리 획득한 출력 값이 필요하지 않다는 장점이 있다. 반면에 강화학습 알고리즘에서는 행위자의 행동과 그에 따른 보상이 명확하게 제시되어 있어야한다. 하지만 보상을 최대로 받을 수 있는 행동에 대한 정보는 가지고 있지 않기 때문에, 행위자는 어떤 행동이 큰 보상을 받을 수 있을지 에피소드를 반복하며 스스로 학습해야 한다. 이렇게 가장 큰 보상을 받을 수 있는 최적의 행동을 찾는 것을 기대보상의 최적화라고 하며, 강화학습은 한 에피소드 안에서의 총 보상이 가장 커지는 방향으로 학습이 진행된다. 본 논문은 강화학습의 여러 가지 알고리즘 중 Deep Q-Network을 이용하였다.

그림. 2. 강화학습의 기본 구조 ^[18]

Fig. 2. Structure of reinforcement learning ^[18]

2.2.2 Deep Q-Network

Deep Q-Network는 Q-Learning 알고리즘 중 하나로 주어진 환경에서 현재 상태와 행동을 입력으로 주면 다음 행동에 대한 기댓값을 출력해주는 Q함수를 학습시켜 최적의 행동을 구하는 알고리즘이다[25]. 이 때 Q함수는 아래 그림과 같은 deep neural network를 사용한다.

그림. 3. Deep neural network

Fig. 3. Deep neural network

그림 3에서 입력은 현재 행동을 통해 도달한 현재 상태들이고, 출력은 현재 상태에서 취할 수 있는 다음 행동들에 대한 기댓값들이다.

그림 3과 같은 deep neural network의 학습은 참고문헌 ^[25]를 참고하여 아래 식과 같은 비용 함수를 최소화 하는 방향으로 진행한다.

(10)

$\min\sum_{t=0}^{T} Q\left(s_{t}, a_{t} | \theta\right)-\left(r_{t}+\gamma \max _{a^{\prime}} Q\left(s_{t+1}, a^{\prime} | \overline{\theta}\right)\right)$

위 식에서 $s_{t}$는 현재 상태이고 $a_{t}$와 $a'$은 각각 현재 행동과 다음 상태에서 취할 수 있는 행동들이다. $r_{t}$는 현재 행동으로 인해 받은 보상이다. $\theta$와 $\overline{\theta}$는 각각 main network와 target network에 포함되어 학습 중에 최적이라고 가정한 $Q\left(s_{t},\: a_{t}\right)$가 변하는 문제를 해결하였다. 또한 사용하는 데이터들 간의 관계에 의해 network의 학습이 다른 방향으로 진행되는 문제를 해결하기 위해 아래와 같이 메모리에 저장된 상태, 행동, 보상, 다음 상태 중 임의의 값을 선택하여 network를 학습시킨다.

(11)

$D_{train}={rand}\left(\left[\begin{matrix}S,\: &A,\: &R,\: &NS\end{matrix}]\right)\right.$

위 식에서 $D_{train}$은 식(10)에서 사용할 데이터이다. $S$, $A$, $R$, $NS$는 매 스텝 데이터를 저장하는 버퍼로 각각 현재의 상태, 현재의 행동, 현재 행동을 취함으로써 받은 보상, 다음 상태의 행렬이다. ${rand}$는 행렬 $\left[\begin{matrix}S,\: &A,\: &R,\: &NS\end{matrix}]\right.$의 임의의 열 데이터를 반환하는 함수이다.

Deep neural network의 학습은 위와 같은 방식으로 이뤄지고, deep neural network를 통해 구한 기댓값 Q를 이용하여 최적의 행동을 선택하는 방법은 아래와 같다.

(12)

$\begin{align*} \begin{aligned}\pi(s)= \\\end{aligned}\begin{aligned}\arg\max \\^{a}\end{aligned}\begin{aligned}(Q(s,\: a))\\\end{aligned} \end{align*}$

위 식에서 $\pi(s)$는 정책(policy)으로 현재 상태에서 취할 수 있는 행동 중 가장 큰 기댓값(Q값)을 가지는 행동으로 결정된다. 이 때 식(12)의 정책만을 사용하면 지역 최적값에 빠져 전역 최적값을 찾을 수 없을 확률이 커지기 때문에 본 논문은 식(12)에 아래와 같은 $\epsilon$-greedy한 정책을 추가하여 사용하였다.

(13)

$\pi(s)=\left\{\begin{array}{ll}{\underset{a}{\arg \max }(Q(s, a))} & {\text { for } \epsilon \leq E} \\ {\operatorname{rand}(a)} & {\text { for } \epsilon>E}\end{array}\right.$

위 식에서 $E$는 일정한 값을 가지는 상수이고, $\epsilon$은 무작위 값으로 학습이 진행됨에 따라 점점 작아진다. 즉, 학습이 되지 않았을 초반 상태는 deep neural network의 기댓값을 확률에 따라 사용하지 않고 무작위 행동을 취함으로써 다양한 경우를 경험하여 안정적인 학습이 가능하도록 한다.

Deep Q-Network의 학습과 최적의 행동을 선택하는 과정을 정리하면 다음 그림과 같다.

그림. 4. Deep Q-Network 흐름도

Fig. 4. Deep Q-Network flowchart

다음 절에서는 Deep Q-Network를 이용하여 외란의 크기를 추정하는 외란관측기를 설계한다.

$\quad$

2.2.3 Deep Q-Network기반 외란관측기

본 절에서는 참고문헌 ^[15]를 참고하여 외란의 크기 $d$를 추정하는 DQN 기반 외란관측기를 아래 식과 같이 설계한다. 이때 1기 무한모선 시스템과 설계할 외란 관측기는 그림 4의 ‘Environment’에 해당하며 1기 무한모선의 전력각 $\delta$는 측정 가능하다고 가정한다^[9].

(14)

$\begin{aligned} \dot{\hat{\delta}} &=\hat{\omega}_{\Delta}+l_{a 1}(\delta-\hat{\delta}) \\ \dot{\hat{\omega}}_{\Delta} &=\frac{\pi f_{0}}{H}\left(P_{m}-\left(P_{\max }-\hat{d}\right) \sin (\delta)-\frac{D}{\omega_{0}} \hat{\omega}_{\Delta}\right)+l_{a 2}(\delta-\hat{\delta}) \\ \dot{\hat{d}} &=l_{a 3}(\delta-\hat{\delta}) \end{aligned}$

위 식에서 $\hat\delta$, $\hat\omega$, $\hat d$은 추정 값이다. $L_{A}=\left[l_{a l}, l_{a 2}, l_{a 3}\right]^{T}$는 관측기 이득으로 Deep Q-Network의 행동에 해당하고 식(13)을 통해 결정된다. 이 때 기존의 Deep Q-Network의 경우 하나의 행동만을 출력할 수 있지만, 본 논문의 외란관측기는 3가지의 독립적인 행동을 필요로 하므로, 아래 그림과 같이 Deep Q-Network를 확장하여 사용하는 방법을 제안한다.

그림. 5. 제안하는 Deep Q-Network

Fig. 5. Proposed Deep Q-Network

위 그림과 같이 Deep Q-Network를 확장하여 사용하게 되면 현재 상태에서 취할 수 있는 다음 행동을 각각 독립적으로 학습할 수 있다.

Deep Q-Network의 상태 $s_{1}$, $s_{2}$는 아래와 같다.

(15)

$s_{1}=|\delta-\hat{\delta}|, s_{2}=\left|\overline{\omega}_{\Delta}-\hat{\omega}_{\Delta}\right|$

위 식에서 $\overline{\omega}_{\Delta}$는 아래 식과 같은 슬라이딩모드 미분기를 이용하여 구한 1기 무한모선의 동기주파수에 대한 각주파수 편차이다. 이 때 $\lambda$와 $\alpha$는 슬라이딩모드 미분기의 이득이다^[11].

(16)

$\begin{aligned} \dot{\overline{\delta}} &=\overline{\omega}_{\Delta} \\ \overline{\omega}_{\Delta} &=\overline{\omega}_{1}-\lambda \sqrt{\left|\overline{\delta}\left(t_{i}\right)-\delta\left(t_{i}\right)\right|} \operatorname{sign}\left(\overline{\delta}\left(t_{i}\right)-\delta\left(t_{i}\right)\right) \\ \dot{\overline{\omega}_{1}} &=-\alpha \operatorname{sign}\left(\overline{\delta}\left(t_{i}\right)-\delta\left(t_{i}\right)\right) \end{aligned}$

다음 절에서는 제안하는 Deep Q-Network기반 외란관측기의 성능확인을 위해 모의실험을 진행한다.

2.3 모의실험

본 절에서는 표 1([Ex. 11.5, 2])의 파라미터를 가진 시스템에 대해 앞 절에서 설계한 관측기의 추정 성능을 모의실험 한다. 표 1의 파라미터에 의한 초기 상태 (4)는 [0.46055 0]$^{T}$이다.

표 1. 모의실험 파라미터

Table 1. Simulation Parameters

$P_{\max}$	$1.8[{pu}]$
$P_{m}$	$0.8[{pu}]$
$D$	12.5
$H$	$5[{MJ}/{MVA}]$
$\| E \|$	$1.17[{pu}]$
$\| V \|$	$1[{pu}]$
$\omega_{0}$	$120\pi[{rad}/\sec]$
$f_{0}$	$60[{Hz}]$
$X_{s}$	$j0.5[{ohm}]$
$X_{L1},\: X_{L2}$	$j0.3[{ohm}]$

Deep Q-Network의 학습을 진행하기 위해 현재 행동에 따른 reward($r_{t}$)는 아래와 같은 규칙으로 정의하였다.

(17a)

$r_{1}=\left\{\begin{array}{ll}{-\left(\nu_{1} s_{1, t}+\nu_{2} s_{2, t}\right)} & {\text { for }\left|L_{A, t}\right| \geq\left|L_{A, t-1}\right|} \\ {-\frac{\left(\nu_{1} s_{1, t}+\nu_{2} s_{2, t}\right)}{\kappa}} & {\text { for }\left|L_{A, t}\right|<\left|L_{A, t-1}\right|}\end{array}\right.$

(17b)

$r_{2}=\left\{\begin{array}{ll}{\psi_{1}} & {\text { for } \sqrt{s_{1, t}^{2}+s_{2, t}^{2}}<\xi} \\ {\psi_{2}} & {\text { for } \sqrt{s_{1, t}^{2}+s_{2, t}^{2}}<\sqrt{s_{1, t-1}^{2}+s_{2, t-1}^{2}}}\end{array}\right.$

(17c)

$r_{t}= r_{1}+ r_{2}$

위 식에서 $s_{1,\: t}$, $s_{2,\: t}$는 현재 상태이고 $s_{1,\: t-1}$, $s_{2,\: t-1}$는 이전 상태이다. $L_{A,\: t}$는 현재의 관측기 이득(현재 행동)이고 $L_{A,\: t-1}$은 이전의 관측기 이득(이전 행동)이다. $r_{1}$과 $r_{2}$는 각각 minus reward와 plus reward이고 $\nu_{1}$, $\nu_{2}$, $\kappa$는 보상 상수이다. $\xi$는 허용 오차이며 충분히 작은 값을 가진다.

그림. 6. 에피소드 당 받은 보상의 총합

Fig. 6. Total reward per episode

그림. 7. Deep Q-Network 기반 외란관측기

Fig. 7. Deep Q-Network based disturbance observer

그림. 8. Deep Q-Network 기반 외란관측기

Fig. 8. Deep Q-Network based disturbance observer

$\quad\quad\quad\quad$ (a) 실제값 $\delta$ 및 추정치 $\hat\delta$

$\quad\quad\quad\quad$ (b) 실제값 $\omega_{\Delta}$ 및 추정치 $\hat\omega_{\Delta}$

$\quad\quad\quad\quad$ (c) 외란 $d$ 및 추정치 $\hat d$

Deep neural network의 초기화는 일반적으로 널리 사용되는 Glorot uniform initializer^[22]를 사용하였다. Deep neural network의 업데이트는 다양한 network에서 좋은 성능을 보이는 Adam (Adaptive Moment Estimation) optimizer^[24]를 사용하였다. Deep Q-Network의 학습을 진행하면 그림 6과 같이 에피소드가 반복될수록 더 많은 보상을 받는 것을 확인할 수 있다.

다음으로 학습이 진행된 Deep Q-Network를 이용하여 외란의 크기를 추정하였다. 학습을 마친 Deep Q-Network를 사용하면 아래와 같이 Agent가 포함된 외란관측기를 설계할 수 있다.

그림 7의 Deep Q-Network 기반 외란관측기의 성능시험은 그림 1의 발전모선(1번 모선)의 50% 지점($\lambda = 0.5$)에서 3상 단락 고장이 발생한 상황을 가정하였다. 식(6)과 (7a)에 의하여 $\lambda = 0.5$일 경우 발생하는 외란은 1.15[pu]이다.

그림 8을 통해 제안하는 관측기가 상태 및 외란을 잘 추정하고 있음을 확인할 수 있다. 그림 8(c) 추정 과정에서 볼 수 있듯이 외란은 1초 이후에 증가하기 시작해서 1.15초 이전에 1.15[pu]로 수렴한다. 이때 수렴 여부 판단은 추정치의 변화율이 충분히 작아지는 순간으로 결정한다. 그림 8에서 차단기는 1.2초에 동작하여 계통은 일시적인 동요를 거쳐 새로운 평형점으로 수렴함을 확인할 수 있다. 결과적으로 제안하는 강화학습 기반 외란관측기로 추정한 외란의 크기를 바탕으로 선로 고장판별이 가능함을 알 수 있다.

3. 결 론

본 논문은 1기 무한모선 시스템의 선로 고장을 판별하기 위한 외란관측기 알고리즘을 제안하였다. 1기 무한모선 시스템의 선로 고장을 판별하기 위한 외란을 정의하였으며, 외란의 크기를 추정하는 강화학습 기반 외란관측기의 설계 방법을 제안하였다. 제안하는 외란관측기는 강화학습의 여러 가지 알고리즘 중 Deep Q-Network를 이용하였다. 이때 현재 상태에 따른 독립적인 행동들을 관측기 이득으로 사용하기 위해 기존의 Deep Q-Network를 개선하여 새로운 Deep Q-Network 구조를 제안하였다. 제안하는 강화학습 기반 외란관측기의 성능 확인을 위해 Deep Q-Network를 학습시켰고, 성공적으로 에피소드 당 받는 보상이 늘어나는 것을 확인하였다. 학습된 Deep Q-Network를 이용하여 실제 선로 고장 판별 모의실험을 진행하였고, 관측기가 추정한 외란의 크기가 실제 외란의 크기를 정확하게 추정함으로써 선로의 고장판별에 활용될 수 있음을 확인하였다. 향후 추정된 외란의 추가적인 활용 가능성에 대한 연구와 고장 발생 시간 및 임계고장 제거시각 정보를 이용한 동기 탈조 예측 연구를 진행할 예정이다.

Acknowledgements

본 연구는 한국전력공사의 2016년 선정 기초연구개발과제 연구비에 의해 지원되었음 (과제번호 : R17XA05-2)

References

A. R. Bergen, V. Vittal, 2000, Power System Analysis, 2nd ed., Prentice Hall

H. Saadat, 2002, Power System Analysis, 2nd ed., McGraw-Hill

G. W. Kim, S. H. Hyun, Feb 2005, Power System Analysis Using MATLAB 1, UUP

J. D. Glover, T. J. Overbye, M.S. Sarma, 2016, Power System Analysis & Design, 6th ed., Cengage Learning

S. R. Nam, J. K. Hong, S. H. Kang, J. K. Park, 2004, Analysis of characteristic frequency along fault distance on a transmission line, KIEE Trans., Vol. 53a, No. 8, pp. 432-437

D. G. Lee, S. H. Kang, 2010, Distance relaying algorithm using a DFT-based modified phasor estimation method, KIEE Trans., Vol. 59, No. 8, pp. 1360-1365

A. P. Sakis Meliopoulos, G. J. Cokkinides, P. Myrda, Y. Liu, F. Rui, L. Sun, R. Huang, Z. Tan, 2017, Dynamic state estimation-based protection: Status and Promise, IEEE Trans. Power Delivery, Vol. 32, No. 1, pp. 320-330

S. Paudyal, G. Ramakrishna, M. S. Sachdev, 2010, Application of equal area criterion conditions in the time domain for out-of-step protection, IEEE Trans. Power Delivery, Vol. 25, No. 2, pp. 600-609

E. Farantatos, R. Huang, G. J. Cokkinides, Aug 2016, A predictive generator out-of-step protection and transient stability monitoring scheme enabled by a distributed dynamic state estimator, IEEE Trans. Power Del., Vol. 31, No. 4, pp. 1826-1835

Y. Cui, R. G. Kavasseri, S. M. Brahma, 2017, Dynamic state estimation assisted out-of-step detection for generators using angular difference, IEEE Trans. Power Delivery, Vol. 32, No. 3, pp. 1441-1449

A. Levant, 1998, Robust exact differentiation via sliding mode technique, Automatica, Vol. 34, No. 3, pp. 379-384

Y. I. Son, I. H. Kim, May 2010, A robust state observer using multiple integrators for multivariable LTI systems, IEICE Trans. Fundamentals, Vol. E93-A, No. 5, pp. 981-984

W. H. Chen, J. Yang, L. Guo, S. Li, 2016, Disturbance observer-based control and related methods-An overview, IEEE Trans. Ind. Electron., Vol. 63, No. 2, pp. 1083-1095

H. Shim, G. Park, Y. Joo, J. Back, N. H. Jo, 2016, Yet another tutorial of disturbance observer: robust stabilization and recovery of nominal performance, Control Theory and Technology, Vol. 14, No. 3, pp. 237-249

J. Chang, G. N. Taranto, J. H. Chow, 1997, Dynamic state estimation using a nonlinear observer for optimal series- capacitor switching control, Int. J. Electrical Power & Energy Systems, Vol. 19, No. 7, pp. 441-447

R. S. Sutton, Aug 1991, Dyna, an integrated architecture for learning, planning, and reacting, ACM SIGART Bulletin, Vol. 2, No. 4, pp. 160-163

C. J. C. H. Watkins, P. Dayan, May 1992, Q-learning, Machine Learning, Vol. 8, No. 3-4, pp. 279-292

R. S. Sutton, A. G. Barto, 1998, Reinforcement Learning: An Introduction, MIT press

S. Russel, P. Norvig, Jan 2003, Artificial Intelligence: A Modern Approach, Prentice Hall

A. Karami, 2008, Radial basis function neural network for power system transient energy margin estimation, Journal of Electrical Engineering & Technology, Vol. 3, No. 4, pp. 468-475

M. J. Reddy, D. K. Mohanta, 2008, Adaptive-neuro-fuzzy inference system approach for transmission line fault classification and location incorporating effects of powr swings, IET Generation, Transmission & Distribution, Vol. 2, No. 2, pp. 235-244

X. Glorot, Y. Bengio, 2010, Understanding the difficulty of training deep feedforward neural networks, in Proc. of the 13th Int. Conf. Artificial Intelligence and Statistics, Vol. 9, pp. 249-256

W. Yao, J. Fang, P. zhao, S. Liu, J. Wen, S. Wang, 2013, TCSC nonlinear adaptive damping controller design based on RBF nerual network to enhance power system stability, Journal of Electrical Engineering & Technology, Vol. 8, No. 2, pp. 252-261

D. P. Kingma, J. Ba, 2015, Adam: a method for stochastic optimization, ICLR

V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, Marc G. Bellemare, A. Graves, M. Riedmiller, Andreas K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, D. Hassabis, Feb 2015, Human-level control though deep reinforcement learning, Nature, Vol. 518, No. , pp. 529-533

D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. V. D. Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis, Jan 2016, Mastering the game of Go with deep neural networks and tree search, Nature, 529, pp. 484-489

S. Das, R. Dubey, B. K. Panigrahi, S. R. Samantaray, 2017, Secured zone-3 protection during power swing and voltage instability: an online approach, IET Generation, Trans- mission & Distribution, Vol. 11, No. 2, pp. 437-446

A. Juliani, 2017, Simple Reinforcement Learning with Tensorflow, Hanbit Publishing Network

저자소개

장수영(Su Young Jang)

2018년 명지대학교 전기공학과 졸업.

2018년~현재 명지대학교 대학원 전기공학과 석사과정 재학

관심분야는 강인제어기법, 인공지능을 이용한 적응제어 기법, 산업 전자 응용.

손영익(Young Ik Son)

1995년 서울대학교 전기공학과 졸업.

2002년 동 대학원 전기·컴퓨터공학부졸업(공학박사).

2007년~2008년 코넬 대학교 방문연구원.

2016~2017년 코네티컷 대학교 방문연구원.

2003년~현재 명지대학교 전기공학과 교수.

관심분야는 강인 제어 기법, 산업 전자 응용.

강상희(Sang Hee Kang)

1985년 서울대학교 전기공학과 졸업.

1987년 동 대학원 전기공학과 졸업(공학석사).

1993년 동 대학원 전기공학과 졸업(공학박사).

1991년 및 1999년 영국 배스 대학교 방문연구원 .

2007년맨체스터 대학교 방문연구원. 1994년~현재 명지대학교 전기공학과 교수.

관심분야는 전력시스템 보호 및 디지털 신호처리.

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

1기 무한모선 시스템의 선로 고장판별을 위한 강화학습 기반 외란관측기 설계

Abstract

Key words

1. 서 론

2. 본 론

2.1 시스템 모델과 외란 정의

(1)

(2)

(3a)

(3b)

(4)

(5a)

(5b)

(6)

(7a)

(7b)

(8a)

(8b)

(9)

2.2 강화학습 기반 외란 관측기 설계

(10)

(11)

(12)

(13)

(14)

(15)

(16)

2.3 모의실험

(17a)

(17b)

(17c)

3. 결 론

Acknowledgements

References

저자소개

장수영(Su Young Jang)

손영익(Young Ik Son)

강상희(Sang Hee Kang)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers