송은채
(Eunchae Song)
1iD
허진
(Jin Hur)
1†iD
-
(Dept. of Climate and Energy Systems Engineering, Ewha Womans University, Republic
of Korea. E-mail : eunchae616@ewha.ac.kr)
Copyright © The Korean Institute of Electrical Engineers
Key Words
DBSCAN, IQR, Outlier, Power Curve, Wind Power Forecasting
1. 서 론
기후 위기 대응과 탄소 중립을 위한 전 세계적인 에너지 전환 속에서 풍력 에너지가 핵심적인 역할을 하고 있다. 2024년 전 세계적으로 117GW의
신규 풍력 발전 설비가 계통에 추가되며, 전 세계 누적 설치 용량은 1,136GW에 도달했다. 신규 육상풍력 설치량은 2년 연속으로 100GW를 돌파했으며,
국내의 풍력발전 성장세도 가파르게 증가하고 있다 [1]. 제11차 전력수급기본계획에 따르면, 2038년 재생에너지 발전설비의 정격 용량을 121.9GW로 전망하고 있으며, 이는 전체 비중의 47.3%에
해당하는 수치이다. 이 중 풍력에너지는 40GW를 차지할 것으로 예상된다 [2].
풍력에너지는 바람이 가진 변동성과 간헐성의 특징을 갖기 때문에, 전력망의 주요 발전원으로 포함될 경우 전력망의 운영에 영향을 미칠 수 있다. 또한
인버터 기반 발전 방식은 전통적인 동기발전기와 달리 관성 성분을 포함하고 있지 않기 때문에 전력망 사고 시 주파수 변화에 대한 저항력을 약화해, 급격한
주파수 변동을 유발하고 계통 안정도를 저해하는 요인으로 작용한다. 따라서 풍력 발전량 예측의 정확도 향상은 전력망의 안정적인 운영을 위해 필수적이다
[3].
그림 1. 한국의 전원믹스 전망
Fig. 1. South Korea’s Power Generation Mix Outlook
풍속과 풍력 발전량의 대응 관계를 직접적으로 설명하는 출력 곡선(Power Curve)은 풍력 발전량 예측에 자주 사용되는 방법 중 하나이다. 정확한
출력 곡선을 얻기 위한 방법은 크게 모수적 방법과 비모수적 방법으로 구분된다. 모수적 방법은 모델의 형태를 미리 가정하고, 소수의 매개변수(Parameter)로
모델의 정의하기에 빠르고 간단하다는 특징이 있다. 모수적 방법에는 다항회귀(Polynomial Regression), 로지스틱(Logistic) 함수,
스플라인 보간(Spline Interpolation) 등이 대표적이다. 비모수적 방법은 모델의 형태를 미리 가정하지 않으며, 모델의 구조와 복잡성이
데이터 자체에 의해 결정되어 유연성과 높은 정확도가 가능하다는 장점이 있다. GRNN(General Regression Neural Network),
MLP(MultiLayer Perceptron), SVR(Support Vector Regression) 등이 비모수적 방법에 포함된다 [4,
5,
6]. 본 논문에서는 모수적 방법과 비모수적 방법 모두 활용하여 이상치 제거 기법이 다양한 출력 곡선 모델링에 효과적으로 적용됨을 확인하였다.
그림 2. 전형적인 풍력 터빈 출력 곡선
Fig. 2. Typical Wind Turbine Power Curve
출력 곡선 모델링의 성능은 이상치 처리 여부에 좌우된다. 출력 제한이나 센서 오류 등으로 인해 발생하는 이상치는 모델의 예측 정확도를 저하하므로,
데이터 전처리 과정에서 효과적으로 제거되어야 한다. 그러나 기존의 이상치 제거 기법들은 실제 발전단지 데이터의 복잡하고 가변적인 특성에 대응하는 데에
한계가 있다. 4분위법, 3-σ 규칙 등의 통계 기반 기법들은 이상치 분포가 복잡할 경우 성능이 저하되며, DBSCAN(Density-Based
Spatial Clustering Of Applications With Noise)과 같은 클러스터링 기법은 이상치가 불규칙하게 분포할 때 탐지 성능이
떨어진다. 또한 Isolation Forest와 같은 머신러닝 기반 기법들은 별도의 레이블링이 필요하거나 모델의 일반화 성능 확보가 어렵다 [7].
이러한 한계를 극복하기 위해, 본 연구에서는 풍속 구간을 분할하고 DBSCAN의 파라미터를 자동으로 최적화한 후 IQR(Interquartile Range)을
활용하여 극단적인 이상치를 제거하는 ‘적응형 DBSCAN’ 방법론을 제안한다. 실제 발전단지 데이터는 해당 지역의 고유한 풍속 특성이나 센서 오류
등으로 인해, 특정 풍속 구간에 데이터가 집중되는 경향이 있다. 그 결과, 전체 데이터의 밀도 분포는 국소적으로 매우 밀집된 영역과 희소한 영역이
혼재하는 불균일한 특성을 보인다. 이러한 불균일성은 모든 구간에 대해 단일 파라미터를 적용하는 기존 DBSCAN 기법의 이상치 탐지 성능을 저하하는
주요 원인이 된다. 본 연구에서 제안하는 방법론은 풍속 구간별로 데이터 밀도 특성을 분석하므로 불규칙하고 복잡한 분포를 가진 이상치도 효과적으로 탐지할
수 있다. 또한 사용자의 개입을 최소화하고 데이터 특성에 맞춰 파라미터를 자동으로 조정함으로써 기존 DBSCAN 기법보다 높은 유연성을 확보하였다.
본 연구는 실제 발전사업자의 운영 환경에 즉시 적용 가능한 실용성을 확보했다는 데 의의가 있다.
첫째, 본 모델은 '기상 예보 데이터'를 입력으로 미래 발전량을 예측하도록 설계되었다. 이는 발전량을 예측하여 입찰해야 하는 발전사업자의 실제 운영
시나리오를 그대로 반영한 것으로, 재생에너지 입찰제도 참여와 같은 실질적인 재무적 의사결정을 직접 지원한다.
둘째, 이러한 예측 기능을 넘어, 본 연구에서 제안하는 출력 곡선 모델은 발전단지의 정상 상태를 정의하는 강력한 기준선으로 작동한다. 이는 복잡하며
‘예측’ 자체에만 집중하는 경향이 있는 기존 딥러닝 모델들과는 차별적으로, 운영자가 예측값과 실측값의 차이를 분석하여 실시간 상태 모니터링 및 이상
징후나 고장 진단이 가능해진다. 이는 예측이 어려운 터빈의 기계적 결함이나 성능 저하 문제에 신속하게 대응하는 운영 및 유지보수 효율화를 가능하게
한다.
마지막으로, 많은 출력 곡선에 대한 선행 연구가 단일 터빈을 다루는 것과 달리, 본 연구는 전력 거래의 기본 단위인 발전단지 전체를 대상으로 한다.
후류 효과나 개별 터빈의 가동 상태가 복합적으로 얽힌 실측 데이터를 직접 다룸으로써, 현장 적용 시 발생하는 괴리를 최소화했다.
따라서 본 연구에서 제안하는 '적응형 DBSCAN' 기반의 출력 곡선 모델은, 단순한 성능 분석 도구를 넘어 재무적 의사결정과 안정적인 설비 운영을
동시에 지원하는 데 실질적으로 기여할 수 있다.
2. 데이터
2.1 제주 발전량 및 풍속 데이터
본 연구에서는 제주 풍력발전단지 A의 데이터를 활용하였다. 데이터는 15분 단위로 기록되었으며, 설비용량은 60MW이다. 데이터의 전체 기간은 2021년
10월 1일부터 2022년 2월 28일까지 총 5개월의 데이터이다.
풍력발전의 이상치 유형은 표 1과 같이 4가지로 구분할 수 있다 [8,
9].
제주 풍력발전단지 A의 출력 곡선 산점도를 확인한 결과(그림 3), 터빈 고장이나 유지보수, 출력제한의 원인으로 발생하는 수평으로 군집된 이상치는 드물게 발생하였다. 반면, 유형 4의 산발적인 이상치가 다수 포함되어
있었다. 또한 개별 터빈이 아닌 발전단지 전체 데이터를 사용했기 때문에, 낮은 풍속에서도 일부 설비가 발전하는 구간이 존재하여 출력 곡선상 0MW가
아닌 10MW 부근부터 곡선 형태가 나타났다. 설비 용량인 60MW 이상의 출력도 과부하 운전이나 센서 고장. 제어 시스템 문제 등으로 인해 일부
관측되었다. 그러나, 10MW 미만 및 60MW 초과 데이터가 모두 빈번히 분포하여 단순히 제거하기 어려워 본 연구에서는 모든 데이터를 포함하여 분석을
진행하였다 [10].
Train 기간은 2021년 10월 1일부터 2022년 1월 31일까지로, Test 기간은 2022년 2월 1일부터 2022년 2월 14일까지로 설정하였다.
표 1. 이상치 유형
Table 1. Outlier Type
|
Type
|
Characteristic and Key Causes
|
|
1
|
Bottom -Curve Stacked
|
Data horizontally distributed at or near zero generation
- Key Causes: Turbine failure, Communication equipment failure, Measurement terminal
failure, Unplanned maintenance
|
|
2
|
Mid -Curve Stacked
|
Data horizontally distributed below the power curve
- Key Causes: Wind curtailment, Communication failure
|
|
3
|
Top -Curve Stacked
|
Data horizontally distributed above the power curve
- Key Causes: Wind speed sensor failure, Communication error
|
|
4
|
Around -Curve Scatterd
|
Data scattered irregularly and sporadically around the power curve
- Key Causes: Signal propagation noise, Sensor failure, Extreme weather conditions
|
그림 3. 제주 풍력발전단지 A의 출력 곡선
Fig. 3. Jeju Wind Farm A’s Power Curve
2.2 기상 예보 데이터
실측 데이터를 기반으로 생성한 출력 곡선의 성능을 검증하는 테스트 과정에서는 수치 예보 모델(NWP, Numerical Weather Prediction)
데이터를 활용하였다. 본 연구에서는 사용자가 해당 지점의 과거 풍속 및 발전량 데이터를 보유하고 있다고 가정하였기에, 여러 공개 예보 모델의 과거
데이터를 실측 풍속과 비교하여 가장 적합한 모델을 선택하였다. 그 결과, 실측값과의 상관계수(R2)가 0.84로 가장 높고 평균 절대 오차(MAE)가 0.94 m/s로 가장 낮은 GFS(Global Forecast System) 모델을 최종적으로
선택하였다.
GFS는 미국 국립환경예측센터(NCEP, National Centers for Environmental Prediction)의 전 지구 수치 예보
모델로, 약 13km의 해상도로 하루 4회, 최대 16일까지의 전 지구 대기 예측을 제공한다. 본 연구에서는 GFS 기반 예보 자료를 활용하되, 지형
정보를 반영하여 최적 격자 셀을 선택하고, 15분 단위로 세분화된 시계열 형태로 가공한 오픈 소스 플랫폼의 데이터를 이용하였다 [11].
3. 적응형 DBSCAN 기반 이상치 제거
3.1 DBSCAN
DBSCAN은 데이터의 밀도를 기반으로 군집을 형성하고 이상치를 탐지하는 알고리즘이다. 이 기법은 군집을 구성하는 최소 거리(eps)와 최소 이웃
개수(min_samples)라는 두 가지 핵심 파라미터를 사용한다. DBSCAN은 임의의 한 점에서 시작하여, 자신의 eps 반경 내에 min_samples
이상의 데이터가 존재하면 그 점을 핵심점(Core Point)으로 정의하고 군집을 확장해 나간다. 이 과정에서 어떤 군집에도 속하지 못하는 점들은
최종적으로 이상치(Noise)로 분류된다 [12].
그림 4. DBSCAN의 이상치 탐지 방법
Fig. 4. DBSCAN's Outlier Detection Method
그림 5. 적응형 DBSCAN의 순서도
Fig. 5. Flowchart of Adaptive DBSCAN
그림 5는 적응형 DBSCAN을 활용하여 이상치 제거를 하는 과정을 순서도로 나타낸 것이다. 풍속 구간별로 DBSCAN의 파라미터를 탐지하고 적용하여 이상치를
제거하고, 그 결과를 활용해 출력 곡선을 모델링하였다.
3.2 풍속 구간별 DBSCAN 파라미터 설정
DBSCAN 파라미터 설정은 k-최근접 이웃(KNN, K-Nearest Neighbor) 거리 분포와 그 기울기 변화를 분석하여 두 주요 파라미터(eps,
min_samples)를 자동으로 결정하는 방법을 활용하였다 [12].
먼저, 각 변수의 단위 차이로 인한 왜곡을 방지하기 위해 풍속과 발전량을 StandardScaler로 정규화했다.
이후 DBSCAN의 최적 파라미터를 찾기 위해, 최소 이웃 수(min_samples, k)의 후보군을 3부터 50까지 설정했다. k의 하한값 3은
2차원 데이터(풍속, 발전량)의 안정적인 밀도 추정을 위한 최소 이웃 수(2+1)이며, 상한값 50은 이상치 제거 과정에서 정상 데이터의 과도한 손실을
막기 위한 경계이다.
최적 파라미터는 각 k값에 대해 k-거리(k-distance) 분포의 변화율이 가장 큰 지점에서 찾을 수 있으며, 이 지점은 정상 데이터와 이상치의
경계가 가장 명확하게 드러나는 최적의 이웃 수(k*)를 의미한다. 이를 위해 각 k 후보에 대해 모든 데이터 샘플로부터 k번째 이웃까지의 거리(di(k))를 계산하고, 이 거리들의 평균(μk)과 분산(σk)을 산출했다 (식 1). 그다음, 분산의 기울기(gk)를 계산하여 (식 2), gk가 최대가 되는 지점의 k를 최적 이웃 수(k*)로 결정했다.
최종적으로, 결정된 k*를 min_samples로, 이때의 평균 이웃 거리 μk*를 eps로 설정했다 (식 3) [15].
그림 6은 풍속 구간별로 KNN 기반 DBSCAN 파라미터를 자동으로 산정하는 과정을 시각화한 결과이다. x축은 최소 이웃 수 k를, 왼쪽 축은 k-거리의
평균(파란색 선)을, 오른쪽 축은 분산의 기울기(초록색 점선)을 나타낸다. k가 증가함에 따라 평균 k-거리는 점진적으로 증가하지만, 분산의 기울기는
데이터 밀도 변화가 급격히 일어나는 구간에서 피크를 보인다. 본 연구에서는 이러한 피크 지점을 최적 이웃 수(min_samples) k로 탐지하였으며,
해당 시점의 평균 거리를 eps로 설정하였다. Zone 1, Zone 2, Zone 3에서 보듯이, 각 풍속 구간의 데이터 밀도 분포에 따라 k가
상이하게 도출되며, 이는 제안한 방식이 구간별 데이터 특성에 적응적으로 반응함을 보여준다.
이러한 자동화 방식은 풍속 구간마다 데이터 밀도 분포가 달라지는 상황에서도 일관된 통계적 기준으로 최적의 파라미터를 도출할 수 있으며, 사용자의 주관적인
개입을 최소화하는 장점이 있다.
그림 6. 적응형 DBSCAN의 파라미터 선택 방법
Fig. 6. A Parameter Selection Method of Adaptive DBSCAN
3.3 풍속 구간 설정
3.2의 풍속 구간별 파라미터 설정 방법을 다양한 구간 분할 방법에 적용하여 적절한 방법을 선정하였다.
이론적인 출력 곡선의 관점에서 풍속은 크게 시동(Cut-in) 풍속 이하, 시동 풍속부터 정격(Rated) 풍속까지, 정격 풍속부터 정지(Cut-out)
풍속, 정지 풍속 이상의 네 가지로 구분할 수 있다. 그러나, 제주 풍력발전단지 A에서는 학습 기간에 정지 풍속 이상의 데이터가 포함되지 않았으며,
해당 구간은 출력이 0으로 일정하여 별도의 복잡한 모델링이 불필요하므로 주요 분석 구간 개수를 3개로 정의하여 각 방법론의 성능을 비교했다. 그림 7은 각 방법론을 활용하여 이상치를 제거한 후의 출력 곡선이며, 파란색 점은 이상치 제거 후 남겨진 정상치를 의미한다.
첫 번째 구간 분할 방법으로는 PWLF(Piecewise Linear Fit)를 적용하였다. PWLF는 원본 시계열 데이터를 일련의 직선 구간으로
근사하는 기법이다. 본 연구에서는 pwlf 라이브러리를 활용하여, 풍속-출력 관계의 전체 구간을 3개의 구간으로 나누도록 설정하고, 이 조건에서 전체
근사 오차를 최소화하는 최적의 경계점을 탐지하였다. 이렇게 탐지된 경계점은 두 변수 간의 선형적 관계가 통계적으로 유의미하게 변하는 지점을 의미하며,
이를 각 구간을 구분하는 기준으로 사용하였다 [13].
두 번째로는, K-Means 클러스터링을 구간 분할 방법으로 적용하였다. 이 방법은 풍속과 출력 변수를 정규화한 2차원 공간에서 데이터의 군집 특성을
직접 파악한다. 본 연구에서는 KMeans 알고리즘을 사용하여 전체 데이터를 3개의 군집으로 나누도록 설정하였다. 이렇게 형성된 각 군집은 풍속과
출력 특성이 통계적으로 유사한 데이터 그룹을 나타낸다 [14].
마지막으로, 3분위수 및 4분위수 기반 분할 방법은 풍속 데이터를 기준으로 전체 데이터의 개수를 동일하게 나누는 방식이다. 이 방법은 데이터 포인트가
밀집된 풍속 범위는 좁게 분할하고, 반대로 데이터가 희소한 풍속 범위는 넓게 나누는 특성이 있다. 이는 데이터 분포의 밀도 차이를 자연스럽게 반영하여
각 구간이 통계적으로 유사한 수의 샘플을 갖도록 보장하는 장점이 있다.
그림 7. 풍속 구간 분할 방법 비교
Fig. 7. Comparison of Wind Speed Segmentation Methods
다양한 구간 분할 전략을 Zonal DBSCAN 방법론에 적용하여 비교한 결과, PWLF 방식은 이상치에 민감하여 풍속-출력 관계를 정확히 반영하는
경계점을 탐지하는 데 한계가 있었다. 특히 하단의 데이터 군집과 고풍속의 산발적인 데이터를 제거하는 데에 효과적이지 않았다. 4분위수 방식은 분위수별로
포함된 데이터가 매우 적어지는 문제가 있었다. 반면, K-means 방법과 3분위수 방법은 이상치를 효과적으로 제거했다. 그중 3분위수 분할 방식이
풍속을 기준으로 구간 경계가 명확하고, 데이터 밀도를 효과적으로 반영하여 각 구간의 데이터 수가 균형을 이루며, 모델이 더 빠르고 단순하다는 점에서
가장 균형 잡힌 방법으로 판단되었다.
따라서 본 연구의 최종 모델은 학습 데이터의 풍속 분포를 3분위수를 기준으로 세 개의 구간으로 나누었으며, 각 구간에 대해 DBSCAN 파라미터를
개별적으로 최적화하였다.
3.4 적응형 DBSCAN 기반 이상치 제거
앞서 구한 풍속 구간과 구간별로 최적화된 파라미터를 활용하여 DBSCAN을 적용하면 이상치를 효과적으로 제거할 수 있다. 기존의 DBSCAN과 비교했을
때, 구간별 DBSCAN은 특히 저풍속 구간에서 이상치 탐지 성능이 우수하였다. 그림 8은 학습데이터에 각각 구간별 DBSCAN과 기존 DBSCAN을 활용하여 이상치를 제거한 후의 출력 곡선을 나타낸다.
그림 8. 이상치 제거 기법에 따른 출력 곡선 비교
Fig. 8. Comparison of Power Curves by Outlier Removal Method
구간별 DBSCAN을 통해 이상치를 제거했으나, 해당 방법은 출력 곡선 상단부에 군집 형태로 나타나는 특정 유형(유형 3)의 이상치를 탐지하지 못하는
한계가 있었다. 이를 보완하기 위해 잔차 분석과 IQR 기법을 결합하여 추가적인 제거 과정을 수행했다.
먼저, 정제된 데이터를 0.5m/s 간격의 풍속 구간으로 세분화하고, 구간별 발전량의 중앙값을 계산하여 기준 발전 곡선을 생성했다. 이후 각 데이터의
실제 발전량에서 해당 구간의 중앙값을 빼서 잔차를 계산하였다. 다음으로, 이 잔차들의 전체 분포에 1사분위수(Q1)와 3사분위수(Q3)를 계산하여
잔차의 사분위수 범위를 도출하였다 (식 4).
이 때, 표준 IQR 규칙에서 사용되는 $1.5\times IQR$ 대신 $2.5\times IQR$를 이상치 판단 경계값으로 설정하여 기준을 완화했다
(식 5). 여기서 Fl은 하한 경계값, Fu은 상한 경계값을 의미한다. 최종적으로 잔차가 이 범위를 벗어나는 데이터를 이상치로 식별하여 제거하였다 [16].
이는 1차 단계에서 대부분의 이상치가 이미 제거되었으므로, 2차 단계에서는 아주 극단적인 값만을 선별적으로 제거하기 위해서이다. 그 결과, 구간별
DBSCAN이 놓쳤던 이상치 군집까지 효과적으로 제거할 수 있었다.
그림 9. 적응형 DBSCAN을 활용한 이상치 제거 후의 출력 곡선
Fig. 9. Power Curve after Outlier Removal Using Adaptive DBSCAN
제안된 이상치 제거 방법론의 일반화 성능을 검증하기 위해, 제주 풍력발전단지 B에도 동일한 절차를 적용했다. 그 결과, 이상치들이 다른 환경에서도
효과적으로 제거되는 것을 확인했으며, 이를 통해 본 방법론이 특정 데이터에 국한되지 않고 범용적으로 활용될 수 있음을 입증했다.
4. 출력 곡선 모델링
4.1 다항 회귀(Polynomial)
다항 회귀 방법은 출력 곡선 모델링에서 가장 널리 사용되는 방법이며, 풍속(v)을 입력으로 하여 출력(p)을 예측하는 k차 다항식은 아래와 같다.
풍속 데이터를 다항 특성으로 변환한 뒤, 최소제곱법(Least Square Method)을 사용하여 모델의 계수(ck)를 학습했다. 여러 차수를 실험한 결과, 고차항일수록 데이터의 분포를 잘 따라가는 것을 확인하여 추후 비교할 때는 7차 다항 회귀 곡선을 활용하여
예측을 진행했다 [4].
4.2 구간 분할 다항 회귀(Bins-Polynomial)
구간 분할 다항 회귀 기법은 다항 회귀에 구간 분할을 결합한 방법으로 계산 효율성과 적합 정확도를 높일 수 있다. 먼저 전체 풍속 데이터를 0.5m/s
간격의 구간(bin)으로 나눴다. 그다음, 각 풍속 구간의 중심점을 계산하고, 이 중심점들만을 대푯값으로 사용하여 다항 회귀 곡선을 생성했다 [4].
4.3 스플라인 보간(Spline)
그림 10. Spline 50%를 이용한 출력 곡선 모델링
Fig. 10. Power Curve Modeling Using the Spline 50%
스플라인 보간은 특정 지점들을 부드러운 곡선으로 연결하는 기법이다. 먼저 0.5m/s 단위로 풍속 구간을 설정한 후, 각 구간의 25%, 50%,
75% 분위수를 각각 계산했다. 25%와 75% 분위수에 해당하는 값으로 보간 곡선을 생성했을 시에는 극단적인 경향만을 반영하여 전체적인 예측 정확도가
크게 떨어지는 것을 확인하였다. 따라서 데이터의 중심 경향을 잘 나타내는 50% 분위수 지점들을 연결한 스플라인 곡선을 최종 모델로 채택하여 비교를
진행했다 [5].
4.4 SVR(Support Vector Regression)
SVM(Support Vector Machine)은 널리 사용되는 지도학습 모델이며, SVR(Support Vector Regression)은 이를
회귀 문제에 적용한 형태이다. SVR은 데이터의 변동성을 고려할 수 있고, 노이즈에 민감하지 않아 높은 예측 정확도를 제공한다.
SVR의 목적함수는 식 7과 같으며, 모델의 복잡도와 예측 오차 간의 균형을 최적화하는 것이 목표이다. 식의 첫 번째 항은 회귀 평면의 기울기 크기를 최소화하여 모델 복잡도를
줄이는 정규화 항이며, 두 번째 항은 허용 오차(ε)를 초과하는 예측 오차에 대한 페널티를 부여함으로써 과적합을 방지하고 일반화 성능을
향상한다.
제약조건인 식 8은 오차의 상·하한 경계를 정의하며, 슬랙 변수($\xi_{i}, \xi_{i}^{*}$)는 허용 오차를 초과한 데이터에 대한 여유(margin)로서
모델이 노이즈 데이터에도 안정적으로 학습될 수 있도록 한다 [17].
그림 11. 학습 데이터의 출력 곡선 모델링
Fig. 11. Train data’s Power Curve Modeling
5. 예측 및 평가
5.1 평가 지표
본 연구에서 예측 정확도는 NMAE(Normalized Mean Absolute Error, %)를 사용하여 평가하였다. 발전기의 정격 용량을 기준으로
오차를 정규화하므로, 설비 용량이 다른 발전기나 발전단지의 예측 성능을 객관적으로 비교하는 데 적합한 지표이다. 수식은 아래와 같으며, yi는 실제 발전량, yp는 예측 발전량을 의미한다.
5.2 풍력발전 출력 예측 결과
그림 12. 출력 곡선 모델링을 활용한 풍력발전 출력 예측 순서도
Fig. 12. Flowchart of Wind Power Prediction Using Power Curve Modeling
그림 12는 출력 곡선 모델링을 활용한 풍력발전 출력 예측 순서도이다.
제안된 출력 곡선 모델링 방법론의 순수 성능을 검증하기 위해 먼저 실측 풍속을 입력으로 사용하여 예측 정확도를 평가했으며, 그 결과는 표 2과 같다. 적응형 DBSCAN을 포함하여, 이상치 제거 전 및 기존 DBSCAN 적용 후의 예측 오차를 네 가지 출력 곡선 모델에 대해 비교한 결과이다.
예보 풍속의 불확실성이 배제된 시나리오에서 제안된 적응형 DBSCAN과 50% 스플라인 보간 모델 조합이 NMAE가 8.12%로 가장 낮게 나타났다.
해당 NMAE는 테스트 데이터 세트에도 본질적으로 내재된 이상치가 포함되어 있음을 반영한 결과이다. 즉, 학습 데이터의 이상치를 제거하여 모델의 물리적
특성을 보정했음에도 불구하고, 테스트 데이터에 존재한 출력제한이나 센서 오류와 같은 이상치들은 NMAE 증가의 원인이 된다.
표 2. 실측 풍속 기반 풍력발전 출력 예측 결과(NMAE)
Table 2. Prediction Results Based on Measured Wind Speed (NMAE)
|
Method
|
Adaptive DBSCAN
|
DBSCAN
|
Without Cleaning
|
|
Spline 50%
|
8.12%
|
8.23%
|
8.30%
|
|
SVR
|
8.19%
|
8.27%
|
8.33%
|
|
Bins-Polynomial (7th)
|
8.20%
|
8.27%
|
8.35%
|
|
Polynomial (7th)
|
8.30%
|
8.57%
|
8.87%
|
표 3는 실제 운영 환경의 실용성을 검증하기 위해 예보 풍속을 입력으로 사용하여 예측 성능을 평가하였다. 표 3의 결과는 표 2의 경향성과 일치하며, 모든 모델에서 제안된 적응형 DBSCAN을 적용했을 때, NMAE가 가장 낮게 나타나 예측 정확도가 가장 높았다.
특히, 이상치의 영향을 크게 받는 7차 다항 모델에서 성능 향상 폭이 두드러졌다. 7차 다항 모델의 경우 이상치 제거 전 NMAE가 11.54%였으나,
적응형 DBSCAN 적용 후 11.13%로 약 0.41%의 오차 감소를 보였다. NMAE는 전체 데이터에 대한 평균 오차이므로, 그 비중은 작으나
모델의 물리적 특성을 왜곡하는 이상치를 제거한 효과가 수치상으로는 소폭으로 나타날 수 있다. 하지만 이러한 정량적 개선 폭보다, 모델의 왜곡을 방지하고
물리적 특성을 보정한 정성적 효과가 더 큰 의미를 갖는다. 반면, SVR과 구간 분할 다항 회귀 모델은 기법 자체적으로 이상치의 영향을 완화하는 특성이
있어, 이상치 제거에 따른 오차 향상 폭이 상대적으로 작았다. 하지만 적응형 DBSCAN을 적용했을 때 여전히 가장 좋은 성능을 보였으며, 이는 데이터에
극단적인 이상치가 많아질수록 제안된 방법론의 효용성이 더 커질 것임을 시사한다.
표 3. 예보 풍속 기반 풍력발전 출력 예측 결과(NMAE)
Table 3. Prediction Results Based on Forecast Wind Speed (NMAE)
|
Method
|
Adaptive DBSCAN
|
DBSCAN
|
Without Cleaning
|
|
Spline 50%
|
10.70%
|
10.89%
|
10.98%
|
|
SVR
|
10.85%
|
10.92%
|
11.06%
|
|
Bins-Polynomial (7th)
|
10.95%
|
10.96%
|
11.11%
|
|
Polynomial (7th)
|
11.13%
|
11.21%
|
11.54%
|
본 연구에서는 실제 운영 환경에서의 실용성을 검증하기 위해 최종적으로 기상 예보 풍속을 입력으로 사용한 예측 결과를 분석했다. 그림 13과 14는 가장 우수한 성능을 보인 50% 스플라인 보간 모델의 예측 결과를 각각 시계열 그래프와 출력 곡선으로 나타낸 것이다.
그림 13. Spline 50% 모델의 시계열 예측 결과
Fig. 13. Time Series Plot of Prediction Results
그림 14. Spline 50% 모델의 예측값 분포
Fig. 14. Power Curve after Spline 50% Prediction
먼저, 그림 14 (a)는 그림 13의 실측 풍속 기반 예측(붉은색 점선)을 출력 곡선 형태로 나타낸 것으로, 예측점이 실제 발전량의 경향성을 정밀하게 추종함을 보여준다. 이는 생성된
스플라인 보간 모델이 해당 발전단지의 물리적 특성을 잘 학습했음을 증명한다.
그림 14 (b)는 그림 13의 예보 풍속 기반 예측(파란색 점선)을 출력 곡선으로 나타낸 것이다. 이 경우 역시, 예측된 발전량은 전체적인 증감 패턴과 경향성을 잘 포착했으며,
본 연구에서 제안한 모델이 실제 발전량 예측 시나리오에도 효과적으로 적용될 수 있음을 보여준다.
다만, 그림 13의 시계열 그래프와 그림 14 (b)의 출력 곡선에서 공통으로 관찰되는 산발적인 오차은 출력 곡선 모델의 한계라기보다, 예보 풍속과 실측 풍속 간의 오차에서 비롯된 것으로 분석된다.
즉, 예보 풍속이 실측 풍속과 크게 차이 났던 구간에서 예측 오차가 집중적으로 발생하며, 실측 풍속을 활용한 예측에 비해 산발적인 출력 곡선이 그려진다.
따라서 향후 예보 풍속을 보정할 시, 본 모델의 예측 성능이 그림 14 (a)에 근접할 만큼 더욱 정확한 예측이 가능할 것으로 판단된다.
6. 결 론
본 연구에서는 실제 발전단지 데이터의 불균일한 밀도 분포 문제를 해결하기 위해, '적응형 DBSCAN' 기반의 이상치 제거 방법론을 제안하였다. 제안된
기법은 먼저 데이터의 풍속 분포(3분위수)를 기준으로 전체 데이터를 세 구간으로 분할한다. 그다음, 구간별로 k-거리 분산의 기울기가 최대가 되는
지점을 탐색하여 해당 구간에 최적화된 DBSCAN의 핵심 파라미터(eps, min_samples)를 자동으로 결정한다. 이렇게 최적화된 파라미터를
사용하여 구간별 DBSCAN을 먼저 적용하고, 이어서 IQR 기법으로 남은 극단적 이상치를 추가로 처리한다. 이렇게 정제된 데이터를 출력 곡선 모델링에
적용하여 최종적으로 발전량 예측 정확도를 향상했다.
본 연구는 서론에서 제시한 '발전사업자의 실제 운영 환경'에 초점을 맞춘 실용성을 검증하였다. 첫째, '기상 예보 데이터'를 입력으로 하는 실제 운영
시나리오에 제안된 모델을 적용하여, 불확실한 미래의 발전량을 효과적으로 예측함을 확인하였다. 이는 본 방법론이 재생에너지 입찰 시장에서 발전사업자의
수익을 극대화할 수 있는 실질적인 재무적 의사결정 도구로 기능할 수 있음을 입증한다.
둘째, 본 연구에서 정제된 데이터로 생성한 출력 곡선 모델은 단순 '예측' 기능을 넘어, '발전단지의 정상 상태를 정의하는 기준선'으로서의 가치를
지닌다. 이는 복잡한 딥러닝 모델과 차별화되는 지점으로, 운영자가 예측값과 실측값의 괴리를 분석하여 실시간 상태 모니터링 및 이상 징후 및 고장 진단에
즉시 활용할 수 있다.
마지막으로, 본 연구는 단일 터빈이 아닌 '발전단지 전체'를 대상으로 하였다. 데이터 밀도가 불균일한 실제 데이터 환경에서, 제안된 '적응형 DBSCAN'
기법이 다양한 이상치 유형에 높은 대응력을 보이는 것을 확인하였다. 또한, 이를 다른 환경의 발전단지에 적용했을 때도 효과적으로 이상치가 제거되는
것을 확인하여, 서론에서 제기한 방법론의 일반화 가능성을 입증하였다.
향후 연구에서는 제안된 방법론을 더욱 고도화할 계획이다. 먼저, DBSCAN 파라미터 탐지의 자동화 정밀도를 높이고, 풍속 외에 기온, 풍향, 기압
등 다양한 기상 변수를 입력으로 하는 다변량 출력 곡선 모델을 적용하여 예측 성능을 향상시키고자 한다. 또한, 예측 정확도에 가장 큰 영향을 미치는
입력 변수인 예보 풍속 자체의 오차를 보정하는 연구를 병행하여, 출력 곡선 모델링을 통한 발전량 예측의 신뢰도를 높일 것이다.
Acknowledgements
본 연구는 한국전력공사 2024년도 착수 사외공모 기초연구(No. R24XO01-1)의 지원을 받아 수행한 연구 과제입니다. & 이 성과는 정부(과학기술정보통신부)의
재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2025-23524849).
References
2025, Global Wind Report 2025

2025, The 11th Basic Plan for Electricity Supply and Demand

K. Y. Yap, C. R. Sarimuthu, J. M.-Y. Lim, 2019, Virtual Inertia-Based Inverters for
Mitigating Frequency Instability in Grid-Connected Renewable Energy System: A Review,
Applied Sciences, Vol. 9, No. 24, pp. 5300

X. Haiyan, C. Yuqing, W. Shu, Y. Yuan, 2020, Research on Modeling of Wind Speed–Power
Curve for Wind Farm, pp. 2382-2386

T. Ouyang, A. Kusiak, Y. He, 2017, Modeling Wind-Turbine Power Curve: A Data Partitioning
and Mining Approach, Renewable Energy, Vol. 102, pp. 1-8

Y. Wang, Q. Hu, L. Li, A. M. Foley, D. Srinivasan, 2019, Approaches to Wind Power
Curve Modeling: A Review and Discussion, Renewable and Sustainable Energy Reviews,
Vol. 116

H. Yang, J. Tang, W. Shao, J. Yin, B. Liu, 2025, Wind Power Data Cleaning Using RANSAC-Based
Polynomial and Linear Regression with Adaptive Threshold, Scientific Reports, Vol.
15, No. 1

M. Zou, 2024, Offshore Wind Turbine Wind Speed Power Anomaly Data Cleaning Method
Based on RANSAC Regression and DBSCAN Clustering, pp. 1-8

X. Shen, X. Fu, C. Zhou, 2019, A Combined Algorithm for Cleaning Abnormal Data of
Wind Turbine Power Curve Based on Change Point Grouping Algorithm and Quartile Algorithm,
IEEE Transactions on Sustainable Energy, Vol. 10, No. 1, pp. 46-54

F. Bilendo, A. Meyer, H. Badihi, N. Lu, P. Cambron, B. Jiang, 2023, Applications and
Modeling Techniques of Wind Turbine Power Curve for Wind Farms—A Review, Energies,
Vol. 16, No. 1, pp. 180

2025, Global Forecast System (GFS), NOAA

D. He, X. Wu, X. Zheng, Z. Weng, T. Wang, 2022, Frequency Hopping Signal Sorting Based
on Spectrum Monitoring Data by Adaptive DBSCAN, pp. 16-22

R. Duvignau, V. Gulisano, M. Papatriantafilou, V. Savic, 2018, Piecewise Linear Approximation
in Data Streaming: Algorithmic Implementations and Experimental Analysis, arXiv

C. Paik, Y. Yung, Y. J. Kim, 2023, Power Curve Modeling of Wind Turbines Through Clustering-Based
Outlier Elimination, Applied System Innovation, Vol. 6, No. 2, pp. 41

N. Rahmah, I. S. Sitanggang, 2016, Determination of Optimal Epsilon (Eps) Value on
DBSCAN Algorithm to Clustering Data on Peatland Hotspots in Sumatra, IOP Conference
Series: Earth and Environmental Science, Vol. 31, No. 1, pp. 012012

Y. Zhao, 2018, Data-Driven Correction Approach to Refine Power Curve of Wind Farm
Under Wind Curtailment, IEEE Transactions on Sustainable Energy, Vol. 9, No. 1, pp.
95-105

B. Park, J. Hur, 2017, Accurate Short-Term Power Forecasting of Wind Turbines: The
Case of Jeju Island’s Wind Farm, Energies, Vol. 10, No. 6, pp. 812

저자소개
She received the B.S. degree in Climate and Energy Systems Engineering from Ewha Womans
University, South Korea, 2025. She is currently a graduate student at the Department
of Climate and Energy Systems Engineering, Ewha Womans University. Her research interests
include wind power forecasting.
He received his B.S. and M.S. degrees in Electrical Engineering from Korea University,
Seoul, Korea, in 1997 and 1999, respectively, and his Ph.D. degree in Electrical and
Computer Engineering from the University of Texas at Austin in 2012. He is currently
an Professor with the Department of Climate and Energy Systems Engineering at Ewha
Womans University. His research interests are in all areas related to integrating
high-level renewable energy into electric power systems.