• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Interdisciplinary Graduate Program in Medical Bigdata Convergence, Kangwon National University, Korea.)
  2. (Dept. of Computer Science and Engineering, Interdisciplinary Graduate Program in Medical Bigdata Convergence, Kangwon National University, Korea.)



Deep learning, Electricity consumption, Multi-step prediction, Generative model

1. 서 론

최근 전력수요 절감을 위한 양방향 통신이 가능한 지능형 전력량계량기(AMI)의 보급이 활발해지면서, 이를 이용한 전력수요 예측이 중요해질 것으로 예상된다. 본 논문에서는 AMI로 측정된 전력데이터의 특징을 간단하게 살펴보고, 딥러닝을 이용하여 미래 전력 수요량을 예측하는 다양한 모델을 만들고 각 모델의 성능을 비교한다.

딥러닝 모델에 데이터를 학습시키기 전에 상자 수염 그림(Boxplot)을 이용하여 데이터의 이상치를 제거하였다. 이후 자기상관함수(Auto-Correlation Function, ACF)(1)와 편자기상관함수(Partial Auto-Correlation Function, PACF)(1)를 이용하여 전력 수요량 데이터가 자기상관 특징을 갖고 있는지 살펴보고, 자기상관 특징이 잘 반영될 수 있도록 딥러닝 모델을 구축하였다.

실험에 사용한 모델은 크게 두 가지 형태로 분류할 수 있는데 먼저 단순한 완전 연결 계층(Fully Connected Layer), 합성곱(Convolution), LSTM(Long Short-Term Memory)과 같은 기본 딥러닝 모델을 순차적으로 쌓은 구조와, 과거 전력량 데이터의 특징을 인코더에서 학습하여 디코더로 전송하고, 전달받은 특징을 기반으로 전력량 예측을 수행하는 디코더로 구성된 인코더-디코더 기반의 생성 모델(Generative Model)이다. 각 모델 성능을 MSE(Mean Squared Error)를 이용하여 비교한 결과 인코더-디코더 기반의 생성 모델이 가장 높은 성능을 보여주었으며, 각 모델의 활성화 계층 출력 분포를 이용하여 생성 모델이 왜 높은 성능을 보이는지 살펴보았다.

본 논문에서는 실험을 위해 한국전력공사에서 제공받은 스마트미터기 전력 사용량 중 가정용 데이터를 사용하였다. 가정용 평균 전력량을 예측하였으며, 48시간 평균 사용량을 학습시켜 미래 24시간 평균 사용량을 예측하였다.

본 논문의 구성은 다음과 같다. 2장에서는 데이터 전처리에 대해 설명하고 특징을 분석한다. 3장에서는 실험에 사용한 딥러닝 모델들에 대해 소개하고 4장에서는 모델 훈련 방법에 대해 설명한다. 5장에서 모델 평가 및 실험 결과에 대해 설명하고, 마지막으로 6장에서 결론 및 향후 연구 과제를 제시한다.

2. 전처리 및 특징 분석

본 장에서는 실험에 사용된 데이터의 이상치 제거와 특징 분석에 대해 설명한다. 2.1장은 상자 수염 그림에서 사용하는 1분위수, 3분위수와 IQR(Inter-quartile range)을 이용하여 데이터 정상치의 최대, 최소를 결정하고 나머지를 이상치로 판단한 후 이를 제거한다. 2.2장에서는 자기상관함수와 편자기상관함수를 이용하여 데이터 특징에 대해 알아본다.

2.1 이상치 탐색 및 제거

딥러닝 모델을 이용한 효율적인 데이터 학습 및 예측을 위해 이상치 데이터 제거는 필수 과정이다. 이상치 데이터란 데이터의 평균적인 분포에서 많이 벗어난 데이터를 의미한다. 이상치 데이터가 데이터 학습 과정에서 끼치는 영향을 딥러닝 학습 과정을 통해 간단히 알아보면 다음과 같다.

그림 1은 딥러닝 예측 모델 대부분의 연산을 차지하는 곱셈 연산 계산 그래프의 역전파 과정을 나타낸다. 딥러닝 모델은 손실 함수에 대한 각 가중치의 기울기로 가중치를 갱신하는데 이때 문제가 발생할 수 있다. 그림 1에서 의 기울기가 이고, 모델에 이상치 데이터인 가 입력되었다고 가정하자. 이상치 데이터 는 다른 데이터에 비해 상당히 크거나 작은 값이고, 는 업데이트 과정에서 지나치게 크게 갱신된다. 위와 같은 이유로 모델에 데이터를 학습시키기 전에 이상치 데이터를 제거하는 과정은 필수적이다.

그림. 1. 역전파 과정(2)

Fig. 1. Backpropagation process

../../Resources/kiee/KIEE.2022.71.1.218/fig1.png

본 논문에서는 상자 수염 그림에서 사용하는 1분위수, 3분위수, IQR을 이용하여 이상치 데이터 탐지 및 제거를 수행하였다. 상자 수염 그림에서 1분위수(Q1)와 3분위수(Q3)는 데이터의 25%, 75% 지점을 의미하며, IQR은 1분위수와 3분위수 사이의 거리다. 이 개념을 이용하여 데이터 중 정상분의 최대값과 최소값을 결정하고, 최대값과 최소값을 벗어난 데이터를 이상치 데이터로 간주하였다. 수식 (1)은 최대값과 최소값을 계산한 수식이다. 그림 2는 데이터 이상치 제거 전과 후의 모습이다.

(1)
\begin{align*} maximun = Q 3 +1.5 * IQR\\ minimum = Q 1 -1.5 * IQR \end{align*}

그림. 2. 이상치 제거 전, 후의 상자 수염 그림

Fig. 2. Boxplot before and after removing outliers

../../Resources/kiee/KIEE.2022.71.1.218/fig2.png

2.2 데이터 특징 분석

시계열 데이터는 크게 자기회귀(Autoregressive, AR)와 이동평균(Moving Average, MA) 경향을 띨 수 있다. 데이터가 자기회귀 경향을 보이는 경우, 예측하고자 하는 변수가 이전 결과 값의 영향을 받는다. 이동평균 경향을 보이는 경우에는 평균값이 지속적으로 증가 또는 감소하는 특징이 있다. ACF, PACF 분석을 통해 데이터가 어떤 특징을 가지는지 살펴보고 모델 구조를 대략적으로 구상할 수 있다. 그림 3은 ACF와 PACF를 이용하여 실험에 사용된 데이터를 분석한 결과이다.

그림. 3. ACF, PACF 분석 결과

Fig. 3. Result of applying ACF and PACF

../../Resources/kiee/KIEE.2022.71.1.218/fig3.png

ACF 분석 결과를 살펴보면 데이터가 약 24시간 시차를 두고 자기회귀 경향이 높게 나타나는 것을 알 수 있다. 이는 전력데이터가 하루 단위로 규칙적인 특징을 띄고 있음을 알려준다. 다음으로 PACF 분석 결과를 살펴보면 1시간 시차 값에서 0.9에 가까운 값을 보인 이후 급격하게 감소하는 모습을 보여준다. ACF와 PACF의 결과를 통해 전력 수요량 데이터가 자기회귀 특징을 강하게 띄고 있음을 알 수 있다.

3. 딥러닝 모델

이번 장에서는 실험에 사용된 순차적으로 구성된 완전 연결 계층, 합성곱, LSTM 모델과 인코더-디코더 기반의 생성 모델에 대해서 간략하게 설명한다. 2.2절에서 살펴본 데이터의 자기회귀 특징을 이용하여 각 딥러닝 모델이 데이터의 특징을 반영하는 방식을 기술한다.

3.1 자기회귀 모델

자기회귀 모델이란 자기 자신의 데이터를 입력으로 받아 예측을 수행하는 모델을 뜻한다.

(2)
$p(x)= p(x_{t+1},\:...,\:x_{t+m}vert x_{t-n+1},\:...,\:x_{t})$

수식 (2)에서와 같이 과거 전력량 $x_{t-n+1},\:...,\:x_{t}$을 이용하여 $X=\left\{x_{t+1},\:...,\:x_{t+m}\right\}$의 미래 전력량을 예측하는 자기회기 구조를 이용하여 예측 모델을 설계하였다.

3.2 완전 연결 계층 모델

완전 연결 계층은 수식 (3)과 같이 표현할 수 있다.

(3)
\begin{align*} X\bullet W = Y\\ X =\left\{x_{i}\vert 1\le i\le inputdimension\right\}\\ W=\left\{w_{ij}\vert\begin{aligned}1\le i\le inputdimension \\ 1\le j\le outputdimension \end{aligned}\right\} \end{align*}

$X$는 모델에 입력으로 들어가는 데이터이고, $W$는 모델의 가중치로 2차원 행렬이다. 완전 연결 계층 내부에서 $X$와 $W$의 내적 계산이 일어나고, 수식 (4)와 같이 $X$의 모양을 바꿔 모델에 입력함으로써 모델 출력 결과가 이전 데이터의 영향을 받도록 하였다. 이와 같이 $X$의 모양을 바꾸면 입력 데이터의 자기회기 특징을 그대로 반영할 수 있다.

(4)
$Y =\left\{x_{1},\:x_{2},\:\cdots ,\:x_{l *d}\right\}\bullet W$

수식 (4)에서 $l$은 입력으로 들어가는 데이터의 시간을 의미하고, $d$는 차원을 의미한다. 이후 출력하고자 하는 데이터에 맞게 데이터의 형태를 변환하는 완전 연결 계층과 활성화 함수를 거쳐 최종적인 결과를 출력한다.

3.3 합성곱 모델

합성곱 모델은 수용영역(receptive field)과 필터의 곱 연산으로 계산이 진행된다. 완전 연결 계층 모델의 경우 입력 데이터 형태를 변환해야 데이터의 자기회기 특징을 반영할 수 있는 반면, 합성곱 모델의 경우 필터를 통해 적절한 수용영역을 설정하면 가능하다.

그림 4는 본 실험에서 사용한 합성곱 모델의 대략적인 계산 과정을 나타낸다. 여러 시간에 걸쳐 측정된 수용영역과 필터의 곱연산을 통해 결과를 출력한다. 완전 연결 계층 모델에서는 입력 데이터의 모양을 1차원으로 펼침으로써 자기회기 특징을 띄도록 했지만, 합성곱 모델은 필터를 통해 자기회기 특징을 띄도록 설정할 수 있다. 그림 4와 같이 필터 사이즈를 2로 설정한 합성곱 모델은 다음 예측을 수행할 때 과거 두 개의 데이터를 바탕으로(수용영역) 예측을 수행하게 된다. 합성곱 모델의 깊이, 필터 사이즈를 조절함으로써 수용영역을 조정할 수 있다. 본 실험에서는 필터 사이즈를 크게 설정함으로써 과거 48시간의 전력 사용량을 수용할 수 있도록 하였다.

그림. 4. 합성곱 연산 과정

Fig. 4. Convolution calculation

../../Resources/kiee/KIEE.2022.71.1.218/fig4.png

3.4 LSTM 모델

LSTM 모델은 입력 데이터의 시퀀스와 정보를 사용하는 지점의 거리가 멀 경우 역전파 기울기가 감소하여 학습능력이 감소하는 기울기 소실(gradient vanishing) 문제를 해결하기 위해 제안된 모델이다(3). 그림 5는 본 실험에서 사용한 LSTM 모델 구조다.

그림. 5. LSTM 연산 과정

Fig. 5. LSTM Calculation

../../Resources/kiee/KIEE.2022.71.1.218/fig5.png

그림 5에서 LSTM 모델이 입력으로 들어오는 과거 자신의 데이터 전체를 순서대로 받아 데이터 예측을 수행하고 있음을 볼 수 있다. 합성곱 모델은 필터를 통해 자기회기 특징을 고려하였다면, LSTM 모델은 데이터 입력과정과 과거 입력 데이터의 정보를 기억하는 게이트를 이용한다.

3.5 인코더-디코더 기반 생성 모델

본 논문에서는 위에서 소개한 모델들과 함께 인코더-디코더 기반 생성 모델을 이용하여 미래 전력 수요량을 예측하는 실험을 진행하였다. 전력 소비량 $X=\left\{x_{1},\:x_{2},\:...,\:x_{t}\right\}$를 예측하기 위해 수식 (5)와 같은 수식을 모델에 적용하였다.

(5)
$p(x)=\prod_{t=1}^{T} p\left(x_{t} \mid x_{1}, \ldots, x_{t-1}\right)$

모델은 기본적으로 인코더와 디코더로 구성되어 있고, 과거 전력데이터를 인코더에서 인코딩하여 디코더로 보낸다(그림 6). 디코더는 모델에서 예측한 데이터를 다시 디코더의 입력으로 받아 연속적으로 미래 전력데이터 예측을 수행한다. 모델 인코더와 디코더는 RNN 계열 모델인 GRU(4)로 구성하였다. 과거 입력 데이터를 인코더에서 인코딩한 후 디코더로 전송하여 전력량을 예측하기 때문에 자기회기 특징을 잘 반영한 모델이라고 볼 수 있다.

한편, 과거 데이터 정보를 미래의 모든 시점에서 전력량 예측을 수행할 때 참조하기 위해 인코더의 인코딩 정보를 디코더의 처음 시점에만 넣지 않고, 디코더와 연결된 완전 연결 계층에도 추가해 주었다(5). 또한, 인코더에 역순으로 입력을 주어 학습 진행을 빠르게 하였다(6).

그림. 6. 인코더-디코더 기반 생성 모델

Fig. 6. Our generative model with an encoder and decoder architecture

../../Resources/kiee/KIEE.2022.71.1.218/fig6.png

(6)
$encoder state=\phi(\left[h^{en}_{t-1}x_{0}\right]W+b)$

(7)
$\hat y_{t}=\phi(\left[h^{de_{t-1}}\hat y_{t-1}\right]W+b)(\phi is an activation function)$

수식 (6)은 인코더의 encoder state를, 수식 (7)은 디코더에서 다음 예측을 계산하는 수식이다. encoder state는 입력 데이터의 특징을 추출한 잠재공간이다. 인코더는 입력 데이터와 인코더 메모리 셀에 해당하는 $h^{en}$을 이용하여 입력 데이터에 대한 정보를 추출한다. 디코더는 처음 예측을 위해서는 encoder state를 토대로 예측을 진행하고, 이후 예측은 디코더 메모리 셀인 $h^{de}$와 이전 시점에 예측된 데이터를 이용한다. 순차적 구조의 모델과 달리 인코더-디코더 모델은 입력 데이터의 정보 추출과 실제 예측을 수행하는 부분이 따로 구성되어 있음을 알 수 있다. 따라서 기존 순차적 구조 모델보다 데이터 특징 추출과 예측 수행 면에서 더 좋은 성능을 보일 수 있을 것으로 기대된다. 실험에서는 위 모델을 전력데이터 예측에 활용하였다.

3.6 활성화 함수와 가중치 초기화

활성화 함수는 비선형 함수로 입력값을 다음 노드로 얼마나 보낼지 결정한다. 실험에서는 활성화 함수로 ReLU(7)를 사용하였다. 활성화 함수와 알맞은 가중치 초기화 방법을 선택하는 것은 매우 중요하다. 적절한 가중치 초기화 방법을 선택하지 않거나, 동일한 값으로 초기화할 경우 대칭성 문제, 기울기 소실 문제 등이 발생할 수 있다. 이를 방지하기 위해 He 초기화 방법(8)을 사용하였다.

4. 모델 훈련

이번 장에서는 딥러닝 모델의 훈련에 사용된 여러 요인들을 설명한다.

4.1 학습에 사용된 데이터

실험에는 한국전력공사에서 제공한 스마트미터기 전력 소비량 데이터를 사용하였다. 2015년 1월부터 2018년 7월까지의 일반 가정용 데이터를 이용하였으며, 약 5천 개의 가정용 전력 소비량의 평균값을 사용하였다. 전체 데이터의 70%(2015년 1월 ~ 2017년 5월)를 훈련 데이터로, 20%(2017년 6월 ~ 2018년 1월)를 하이퍼파라미터 최적화를 위한 검증 데이터로, 나머지 10%는 성능 측정을 위한 테스트 데이터로 사용하였다. 모델은 과거 48시간 동안의 전력 소비량을 입력으로 받고, 1시간~24시간 이후의 미래 소비량을 예측하게 된다.

사람처럼 딥러닝 모델도 최근에 본 데이터에 대해서 더 잘 기억하고 최근 데이터 위주로 학습되는 경향이 크기 때문에, 48시간 학습 데이터를 시간 순서대로 넣지 않고 무작위로 섞어서 입력으로 사용하였다. 모델이 오늘과 내일의 데이터를 학습하였다면, 바로 다음 날 데이터를 학습하도록 하지 않고, 학습 데이터 중 임의의 이틀을 학습시키도록 하였다. 모델이 위와 같이 학습을 진행하면 전체적인 데이터 특징을 골고루 학습하게 되고, 예측 정확도도 올라가게 된다.

한편, 예측 모델은 0과 1 사이의 값을 잘 학습하기 때문에 sklearn의 MinMaxScaler를 이용해 전력 사용량을 0~1 사이 값으로 정규화하였다.

4.2 옵티마이저

가중치를 갱신하는 옵티마이저로는 Adam(9)$(\beta =0.9)$을 사용하였고, 수식 (8)에 따라 학습률을 변화해가며 학습을 진행하였다.

(8)
lrate $=$ initial_rate $\cdot$ (decay_rate) $^{\frac{s t e p}{d e \alpha y-s t e p s}}$

4.3 손실함수

손실함수는 회기문제에서 많이 사용되는 MSE를 사용하였다. MSE의 계산식은 수식 (9)과 같다.

(9)
$MSE=\dfrac{1}{n}\sum_{i=1}^{n}\left(Y_{i}-\hat Y_{i}\right)^{2}$

4.4 모델 최적화 과정

검증 데이터를 통해 딥러닝 모델의 하이퍼파라미터 최적화를 진행하였다. 실험에서는 딥러닝 모델의 학습률, 모델 가중치 개수, 모델 층의 개수 최적화를 진행하였다. 특히 모델 층, 가중치 개수 최적화를 진행하는 과정에서는 EfficientNet(10) 최적화 과정을 참고하여 진행하였다. 최적화 과정을 통해 각 모델의 파라미터와 깊이를 결정하였다. ANN, DNN, LSTM, 생성 모델의 핵심 층인 완전 연결 계층, 합성곱 계층, LSTM, GRU 계층 모두 한 층으로 구성하였으며, 활성화 계층은 ReLU를, 가중치 초기화 방식은 He 가중치 초기화 방법을 이용하였다. 각 층별 파라미터의 개수는 16~128개를 EfficientNet의 입력으로 넣어 가장 성능이 좋은 개수로 설정하였다.

5. 실험 결과

본 장에서는 3장에서 설명한 완전 연결 계층 모델, 합성곱 모델, LSTM 모델, 생성 모델에 대한 미래 24시간 동안의 전력 소비량 예측 실험 결과를 설명한다.

5.1 모델 성능 비교

본 실험에서는 정확도 측정 기준으로 MSE를 사용하였다. 표 1은 각 모델별 성능을 나타낸다. 간단한 모델인 완전 연결 계층 모델(ANN), 합성곱 모델(CNN), LSTM 모델은 평균적으로 MSE가 0.0086 정도 나오는 반면, 생성 모델(Generative Model)은 0.0071 정도로 더 좋은 성능을 보여주었다.

표 2는 실험에서 사용한 모델별 파라미터 개수를 나타낸다. 완전 연결 계층 모델이 가장 적은 파라미터 수를 가지고 있고, 생성 모델이 가장 많은 파라미터 수를 가지고 있다. 간단한 모델 중에서는 합성곱 모델이 가장 많은 파라미터 수를 가지고 있으며 가장 높은 성능을 보여주었다. 하지만 생성 모델이 합성곱 모델보다 더 많은 파라미터 수를 가지고 있으며, 더 좋은 성능을 보여주었다. 각 모델 파라미터 수는 EfficientNet의 최적화 과정을 모방하여 결정하였다. 각 모델의 파라미터 수를 임의적으로 더 늘려도 성능이 향상되지 않는 경우를 보였으며, 표 2는 각 모델별로 검증 데이터에 대해 가장 높은 성능을 보이는 경우의 파라미터 수를 보여준다.

표 1. 예측 모델 성능 비교

Table 1. Performance comparison of the prediction models

Prediction length

24h

Input length

48h

Prediction Model

MSE

ANN

0.0088

CNN

0.0083

LSTM

0.0087

Generative Model

0.0071

표 2. 예측 모델별 파라미터 수

Table 2. Number of parameters for each prediction model

Prediction Model

Number of parameters

ANN

2K (2,360)

CNN

20K (20,024)

LSTM

5K (5,208)

Generative Model

38K (38,145)

그림 7은 24시간 동안 전력량 예측을 수행한 결과이다. 실제 전력량과 여러 딥러닝 모델이 예측한 전력량을 나타내고 있으며, 여러 딥러닝 모델 중에서 생성 모델이 실제 전력량과 가장 유사하게 전력량 예측을 수행하고 있음을 알 수 있다. 단순한 모델들은 전력 수요량의 피크 지점을 잘 예측하지 못하고 전체적인 패턴 위주로 예측하는 반면, 생성 모델은 전력 수요량의 전체적인 패턴과 피크 지점을 다른 모델에 비해서 비교적 더 잘 예측하고 있음을 확인할 수 있다.

그림. 7. 각 모델별 예측 결과

Fig. 7. Prediction result of each model

../../Resources/kiee/KIEE.2022.71.1.218/fig7.png

5.2 활성화 계층 출력을 통한 결과 분석

딥러닝 모델에서 활성화 계층 출력을 통해 모델의 표현력을 대략 알 수 있다. 신경망의 활성화 함수가 한 값에 치중된 값을 출력한다면 이는 다수의 뉴런이 같은 값을 출력한다는 뜻이고, 달리 말해 다수의 뉴런이 사용될 필요가 없다는 의미이다. 이번 절에서는 각 딥러닝 모델의 활성화 계층 출력을 살펴보고, 이를 통해 실험 결과를 간단히 해석한다. 그림 8을 보면 단순한 딥러닝 모델의 경우에는 0에 치우친 활성화 계층 출력 결과를 보여주지만, 생성 모델의 경우에는 보다 넓게 퍼져있는 출력 결과 보여준다. 이를 통해 인코더-디코더 기반 생성 모델이 다른 모델들보다 모델의 표현력이 더 좋다고 볼 수 있으며, 이는 생성 모델의 예측 성능이 더 우수한 이유를 뒷받침해준다.

그림. 8. 예측 모델별 활성화 계층 출력

Fig. 8. Activation output of each prediction model

../../Resources/kiee/KIEE.2022.71.1.218/fig8.png

6. 결 론

본 논문에서는 AMI 전력수요 데이터의 특징을 분석하고, 자기회귀 특징을 반영하여 다양한 딥러닝 모델을 학습시켜 성능을 비교하였다. 모델의 성능 평가를 위해 시계열 모델의 성능 측정 지표로 많이 사용되는 MSE를 사용하였으며, 모델 구조를 완성한 후 최적의 파라미터를 찾기 위해 단순한 반복 작업이 아닌 EfficientNet의 최적화 과정을 바탕으로 최적화를 진행하였다. 실험 결과 단순한 딥러닝 모델보다 인코더-디코더 기반의 생성 모델이 가장 좋은 성능을 보여주었으며, 이를 통해 자기회귀 특징을 가진 데이터를 예측하는데 인코더-디코더 기반 모델이 보다 적합한 모델임을 확인할 수 있었다.

보다 구체적으로, 최근 소개된 전력 수요량 예측 모델의 경우 대부분 순차적 구조의 모델을 제안하였다(11,12,13). 이러한 순차 구조 모델의 경우 입력 데이터의 특징 추출과 예측 수행을 한 번에 진행한다. 하지만 인코더-디코더 기반의 생성 모델은 입력 데이터의 특징 추출을 인코더에서 담당하고, 예측 수행을 디코더에서 담당하기 때문에 순차적 구조의 모델에 비해서 더 좋은 성능을 기대할 수 있다. 표 1에 정리된 실험 결과는 실제로 인코더-디코더 기반의 생성 모델이 보다 좋은 성능을 내고 있음을 보여준다.

한편, 인코더-디코더 기반 생성 모델은 단순한 딥러닝 모델과 비교했을 때 성능을 보다 향상시킬 수 있는 가능성이 높다. 최근에 활발히 연구되고 있는 Attention(14) 기법과 인코더만을 이용한 Self-Attention(15), 또는 BERT(16) 모델에서 사용되는 생성 기반 기술 등을 응용한다면 보다 좋은 성능의 모델을 구축할 수 있을 것으로 기대된다. 향후 연구로 이러한 최신 기술을 적용하여 다양한 예측 모델을 만들어보고 다양한 시계열 데이터에 대해서 비교 분석하는 연구를 진행하고자 한다.

Acknowledgements

This work was supported by the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (No. 2019R1F1A1063272 and 2020R1A4A3079947). This work was also partly supported by Korea Electric Power Corporation (Grant number: R18XA05).

References

1 
R. J. Hyndman, G. Athanasopoulos, Accessed on Aug 3 2021, Forecasting: principles and practice, 2nd edition OTexts: MelbourneGoogle Search
2 
David E. Rumelhart, E. Hinton Geoffrey, J. Williams Ronald, 1986, Learning representations by back-propagating errors, Nature 323.6088, pp. 533-536DOI
3 
Sepp Hochreiter, Schmidhuber Jurgen, 1997, Long shortterm memory, Neural computation 9.8, pp. 1735-1780DOI
4 
J. Chung, C. Gulcehre, K. Cho, Y. Bengio, Dec 2014, Empirical evaluation of gated recurrent neural networks on sequence modeling, in NIPS Workshop on Deep LearningGoogle Search
5 
Y. Cho, 2014, Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1724-1734Google Search
6 
I. Sutskever, O. Vinyals, 2014, Sequence to sequence learning with neural networks, In Advances in neural information processing systems, pp. 3104-3112Google Search
7 
Vinod Nair, E. Hinton Geoffrey, 2010, Rectified linear units improve restricted boltzmann machines, ICMLGoogle Search
8 
K. He, X. Zhang, S. Ren, 2015, Delving deep into rectifiers: Surpassing human-level performance on imagenet classification, In Proceedings of the IEEE international conference on computer vision, pp. 1026-1034Google Search
9 
Kingma Diederik, Ba Jimmy, 2015, Adam: A method for stochastic optimization, in ICLRGoogle Search
10 
Mingxing Tan, Le Quoc, 2019, EfficientNet: Rethinking model scaling for convolutional neural networks, International Conference on Machine Learning PMLRGoogle Search
11 
Yein Kim, Seeun Lee, Youngsung Kwon, 2020, Proposal of a Step-by-Step Optimized Campus Power Forecast Model using CNN-LSTM Deep Learning, Journal of the Korea Academia-Industrial cooperation Society, Vol. 21, No. 10, pp. 8-15DOI
12 
Kwang Ho Kim, Byunghoon Chang, Hwang Kyu Choi, 2019, Deep Learning Based Short-Term Electric Load Forecasting Models using One-Hot Encoding, Journal of IKEEE, Vol. 23, No. (3), pp. 852-857DOI
13 
Dohyun Kim, Ho Jin Jo, Myung Su Kim, Jae Hyung Roh, Jong-Bae Park, 2019, Short-Term Load Forecasting Based on Deep Learning Model, The transactions of The Korean Institute of Electrical Engineers, Vol. 68, No. (9), pp. 1094-1099Google Search
14 
Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, 2015, Neural Machine Translation by Jointly Learning to Align and Translate, CoRRGoogle Search
15 
Ashish Vaswani, 2017, Attention is all you need, Advances in neural information processing systemsGoogle Search
16 
K. Devlin, 2019, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, in Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. volume 1 (long and short papers), pp. 4171-4186Google Search

저자소개

김희상 (Heesang Kim)
../../Resources/kiee/KIEE.2022.71.1.218/au1.png

He received the B.S. (2018) and M.S. (2020) degrees in Computer Science from Kangwon National University.

He is currently a Ph.D. student in the Interdisciplinary Graduate Program in Medical Bigdata Convergence at Kangwon National University.

His research interests include machine learning, deep learning, timeseries data analysis, and smart healthcare.

임현승 (Hyeonseung Im)
../../Resources/kiee/KIEE.2022.71.1.218/au2.png

He received the B.S. degree in Computer Science from Yonsei University in 2006 and the Ph.D. degree in Computer Science and Engineering from POSTECH in 2012.

From 2012 to 2015, he was a Postdoctoral Researcher with the Laboratory for Computer Science at Université Paris-Sud and with the Tyrex team, Inria, France.

He is currently an Associate Professor with the Department of Computer Science and Engineering, Kangwon National University.

His research interests include programming languages, logic in computer science, big data analysis and management, machine learning, smart healthcare, blockchain, and information security.

문양세 (Yang-Sae Moon)
../../Resources/kiee/KIEE.2022.71.1.218/au3.png

He received the B.S., M.S., and Ph.D. degrees from KAIST in 1991, 1993, and 2001, respectively, all in Computer Science.

From 1993 to 1997, he was a Research Engineer with Hyundai Syscomm, Inc.

From 2002 to 2005, he was a Technical Director with Infravalley, Inc.

He was a Visiting Scholar with Purdue University from 2008 to 2009.

He is currently a Professor with Kangwon National University.

His research interests include data mining, knowledge discovery, big data analysis and management, distributed processing systems, storage systems, access methods, multimedia information retrieval, and mobile/wireless and network communication systems.