• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Electronics and Computer Engineering, Seokyeong University, Korea E-mail: sbroh1@skuniv.ac.kr)



Ensemble Model, Radial Basis Function Neural Networks, Nonlinear Least Square Estimation, Bootstrap Sampling

1. 서 론

다수의 패턴 인식 관련 문제에서 신경망 분류기 기반의 설계 방식이 모델의 학습능력, 일반화 능력, 모델의 강인성 측면에서 명백한 이점을 보이고 있다[1]. 이러한 신경회로망을 이용한 패턴 분류기들 중에서 다층 퍼셉트론 (Multi-Layer Perceptron; MLP)이 널리 사용되고 있다. 다층 퍼셉트론은 복잡한 판별함수를 근사화하기 위하여 학습될 수 있다고 알려져 있다[2]. 이러한 학습 능력을 보유한 다층 퍼셉트론의 경우, 비선형성이 높은 판별함수를 추정하기 위하여 네트워크 층의 수를 증가시키게 되면, 추정해야 할 매개변수의 수도 증가하게 된다. 많은 수의 매개변수를 적절하게 학습시키기 위해서는 학습의 반복횟수 또한 증가하여야 한다.

방사형 기저함수 신경회로망은 이러한 일반적인 다층 퍼셉트론의 단점을 개선하여 다층 퍼센트론의 훌륭한 대안으로 인식되어 진다. 방사형 기저함수 신경회로망의 장점은 전역 최적 근사화 능력, 일반화 능력, 그리고 학습의 빠른 수렴성과 같은 이점을 가지고 있다고 알려져 있다[3]. 위에 열거한 방사형 기저함수 신경회로망의 장점은 다층 퍼셉트론을 대체할 만한 대안으로서 가치가 있지만 단점도 가지고 있다. 방사형 기저함수 신경회로망의 경우 네트워크에 의해 생성된 판별함수가 약한 비선형성을 가진다 (상대적으로 단순하다). 이와 같은 단점은 은닉층에 존재하는 방사형 기저함수의 기하학적인 모양의 제한에 기인한다. 그러나 방사형 기저함수의 복잡도가 증가하면 과적합 현상이 발생한다. 본 논문에서는 이와 같은 방사형 기저함수 신경회로망의 구조적 제한과 과적합 현상을 극복하기 위하여 앙상블 (ensemble) 기법의 일종인 Bagging 방법에 기반한 방사형 기저함수 신경회로망 앙상블 분류기를 제안한다.

앙상블 모델은 기본 모델들을 결합하여 최종 출력을 계산하는 모델로 다양성을 확보하기 위하여 동일한 모델을 다른 학습 데이터를 이용하여 학습하거나 다른 종류의 기본 모델들을 동일 학습 데이터를 이용하여 학습시킨다[4-6].

일반적인 앙상블 모델의 경우 기본 모델의 출력을 결합하는 방식은 hard voting과 soft voting을 사용한다 [7]. 제안된 앙상블 모델에서는 soft voting 방법의 일종인 기본 모델 출력의 선형 결합 방법을 이용한다. 선형 결합에 사용되는 매개변수는 기본 모델의 가중치를 의미하며 앙상블 모델의 출력은 기본 모델들의 가중합으로 표현된다. 선형 결합의 매개변수는 nonlinear least square estimation 방법을 이용하여 결정한다.

본 연구를 통해 1) Bootstrap 샘플링을 통해 획득된 학습데이터를 이용하여 학습된 기본모델들의 로짓 (logit)을 가중합을 이용해 결합하는 방법을 제시하며, 2) 기본 모델의 가중치를 최적화 하기 위한 학습 알고리즘을 제시한다.

본 논문은 다음과 같은 구조를 가지고 있다. 2장에서는 제안된 앙상블 모델의 기본 모델로 사용된 방사형 기저함수 신경회로망의 구조와 설계 방법에 대해 설명하고, 3장에서는 Bagging 모델의 설계 방법을 제시하고 기본 모델로 방사형 기저함수 신경회로망을 사용한 앙상블 모델의 구조와 학습 방법을 제안한다. 4장에서는 제안된 앙상블 모델의 성능을 평가하기 위하여 다양한 기계학습 데이터 집합을 이용하여 분류 성능을 제시한다. 5장에서는 결론을 도출한다.

2. 방상형 기저함수 신경회로망 (Radial Basis Function Neural Networks)

본 연구에서 제안된 앙상블 모델의 기본 모델(base model)은 방사형 기저함수 신경회로망 이다. 방사형 기저함수 신경회로망의 구조는 그림 1과 같다. 그림 1에 보인 네트워크는 전통적인 방사형 기저함수 신경회로망의 확장된 구조이다. 확장된 방사형 기저함수 다항식 신경회로망의 은닉층은 퍼지 클러스터링 기법 (Fuzzy C-Means Clustering; FCM)을 적용하여 입력공간에서 입력 패턴의 분포를 분석하여 정의된다. FCM에 의해 정의된 receptive field는 식 (1)과 식 (2)와 같이 정의된다 [8,9].

(1)
$$ \Gamma_k\left(\mathbf{x}_n\right)=\mu_{k n}=\frac{1}{\sum_{l=1}^R\left(\frac{\left\|\mathbf{x}_n-\mathrm{v}_k\right\|}{\left\|\mathbf{x}_n-\mathbf{v}_l\right\|}\right)^{2 /(p-1)}} $$
(2)
${v}_{j}=\dfrac{\sum_{n=1}^{N}(u_{jn})^{p}{ x}_{n}}{\sum_{n=1}^{N}(u_{jn})^{p}}$

입력공간에서 데이터의 분포를 분석하여 정의된 방사형 기저함수와 해당 기저함수에 의해 정의된 부 공간에 할당된 선형 함수 (3)를 이용한 네트워크의 출력은 (4)와 같다.

(3)
$f_{jn}= a_{j0}+\sum_{k=1}^{m}a_{jk}x_{nk}$

여기서, $m$은 입력 변수의 개수를 의미한다.

(4)
$z_{kn}=\sum_{r=1}^{R}\gamma_{r}({}{x}_{n})f_{kr}({}{x}_{n})$

여기서, $R$은 설계자가 정의한 receptive field의 개수를 나타낸다.

본 연구에서 사용된 방사형 기저함수 신경회로망을 패턴 분류기로 사용되며, 이를 위하여 네트워크의 출력을 확률로 변환하기 위하여 softmax 함수를 사용한다.

그림 1에서 $sigma=softmax$ 함수를 의미하며, 식 (5)과 같이 표현된다.

(5)
$s_{j}=\dfrac{\exp(z_{j})}{\sum_{k=1}^{C}\exp(z_{k})}$

여기서, $j=1,\: \cdots ,\: C$, $C$는 클래스의 개수를 의미한다.

방사형 기저함수 신경회로망의 최종 출력은 식 (6)과 같다.

(6)
$\hat{y}=\arg\max_{k}s_{k}$

그림 1. 방사형 기저함수 신경회로망 구조

Fig. 1. Structure of Radial Basis Function Neural Networks

../../Resources/kiee/KIEE.2024.73.8.1429/fig1.png

3. 방사형 기저함수 신경회로망 기반 앙상블 모델

본 연구에서는 다수의 방사형 기저함수 신경회로망을 결합한 앙상블 모델을 제안하고 이를 패턴 분류기로 사용한다. 앙상블 방법의 일종인 Bagging(Bootstrap aggregation) 방법을 사용하여 기본 모델인 방사형 기저함수 신경회로망을 결합한다.

그림 2는 Bagging 방법을 이용하여 결합한 방사형 기저함수 신경회로망 기반 앙상블 모델의 일반적인 구조를 보인다. 그림 2에서 $z_{j}^{(l)}$은 $l$번째 모델의 $j$번째 클래스와 관련된 출력을 의미하여 식 (4)와 같이 정의된다. $\hat{s}^{(l)},\: l=1,\: \cdots ,\: M$은 $l$번째 모델의 최종 출력을 의미하며 식 (6)을 통해 계산된다.

그림에 보인 것과 같이 M개의 방사형 기저함수 신경회로망을 결합한 앙상블 모델의 최종 출력은 각 모델의 출력들의 다수결에 의해 결정되는 majority vote 방법을 사용한다.

(7)과 식 (8)에 보인 바와 같이 앙상블 모델의 결합 방법인 Majority Vote 방법은 기본 모델들의 최종 결론을 단순히 다수결을 통해 앙상블 모델의 최종 예측을 결정한다.

(7)
$\hat{y}=\arg\max_{y\in Y}\sum_{m=1}^{M}1(\hat{s}^{(m)}= y)$
(8)
$1(a)=\begin{cases} 1,\:&a\: is\: true\\ 0,\: &a\: is\: false\end{cases}$

여기서, $\hat{y}$는 최종 예측 클래스 레이블을 나타내며, $Y$는 클래스 레이블 전체 집합을 의미한다.

그림 2. 방사형 기저함수 신경회로망을 이용한 앙상블 모델의 구조

Fig. 2. Structure of Ensemble Model based on Radial Basis Function Neural Networks

../../Resources/kiee/KIEE.2024.73.8.1429/fig2.png

4. 가중결합 방사형 기저함수 신경회로망 앙상블 모델

기존 Bagging 기법을 이용한 앙상블 모델은 majority vote 방법을 이용하여 여러 기본 모델들의 예측 결과를 결합한다 [10]. 표 1은 기존 앙상블 기법들의 장단점을 보인다. 표 1에 보인 것과 같이 기존 앙상블 기법들은 장점과 단점을 가지고 있다.

Bagging 기법을 사용한 앙상블 모델에서 이용되는 Majority Vote를 기본 모델들의 예측 결과를 결합하기 위한 결합 방법으로 이용하여 앙상블 모델의 최종 예측을 도출 할 경우 기본 모델의 예측 결과가 가지고 있는 각 클래스의 신뢰도나 중요도를 고려하지 않고 최종 예측을 얻게 된다. 즉 기본 모델들의 예측 결과인 각 클래스 레이블에 대한 확률 추정치를 반영한 결합결과를 도출하는 것이 아니라 클래스 레이블에 대한 기본 모델이 추정한 회수를 비교하여 최종 예측을 수행한다.

이와 같은 majority voting 을 대신하여 각 기본 모델들의 출력을 선형 결합한 결과를 앙상블 모델의 최종 출력으로 정의하여 사용한다. 제안된 앙상블 모델의 기본 모델은 기존 방사형 기저함수 신경회로망을 변경하여 사용하며 네트워크 구조는 그림 3과 같다. 제안된 앙상블 모델의 기본 모델은 그림 1에 보인 방사형 기저함수 신경회로망의 구조를 차용하였으며, 방사형 기저함수 신경회로망의 최종 클래스 레이블 선택 부분을 제거하고 사용한다.

표 1 앙상블 기법의 장단점 비교

Table 1 Comparison of advantages and disadvantages of eansemble techniques

장점

단점

배깅

(Bagging)

기본 모델 예측값을 조합하여 분산을 줄임

강인한 모델구축 가능

기본 모델들 사이의 상관관계를 낮추어 앙상블 모델의 성능 개선

쉬운 병렬화

편향 (bias)을 감소 능력 제한

기본 모델이 보완적이지 않은 성능 향상 기대 어려움

계산량 증가

부스팅

(Boosting)

이전 모델의 오류를 개선하는데 중점을 두고 다음 기본 모델 설계

편향과 분산 감소

적응형 학습 프로세스

예측 성능 개선

과적합 현상 발생 가능성 증가

계산 비용 증가

구현 및 최적화 어려움

스태킹

(Stacking)

다양한 모델의 장점을 결합한 메타 모델

다양한 모델 결합을 통한 견고성 확보 가능

다양한 유형의 기본 모델 이용 가능

구현 복잡성 증가

메타 모델이 정규화 (Regularization) 되지 않으면 과적합 현상 증가

기본 모델과 메타 모델을 선택에 따라 성능 좌우

계산 비용 증가

그림 3에 보인 신경회로망을 기본 모델로 사용하는 앙상블 모델의 구조는 그림 4와 같다.

기본 모델의 예측 결과들은 식 (9)를 이용하여 결합된다.

(9)
$\hat{s}_{k}=\sum_{j=1}^{M}w_{j}s_{k}^{(j)}$

여기서, $\hat{s}_{k}$는 k번째 클래스와 관련된 기본 모델들의 출력을 선형 결합한 값이다. $w_{j}$는 j번째 기본 모델의 가중치를 의미한다. 각 기본 모델은 가중치를 가지고 있으며 이는 학습을 통해 최적화 된다.

그림 3. 앙상블 모델의 기본 모델의 네트워크 구조

Fig. 3. Structure of Base Model in Ensemble Model

../../Resources/kiee/KIEE.2024.73.8.1429/fig3.png

그림 4. 앙상블 모델의 네트워크 구조

Fig. 4. Structure of Proposed Ensemble Model

../../Resources/kiee/KIEE.2024.73.8.1429/fig4.png

그림 5에서는 앙상블 모델의 결합 방법을 비교한 결과를 보여준다. 그림에 보인 바와 같이 각 기본 모델의 예측 값이 동일한 경우라도 결합 방법이 다르면 앙상블 모델의 최종 예측 값이 다르다.

Hard Vote 방법 다시 말하면 Majority Vote 방법을 이용하여 앙상블 모델의 최종 예측 값을 도출 할 경우 각 기본 모델의 예측 값의 신뢰도가 무시되어 결합 되는 것을 볼 수 있다. 이에 반해 Soft Vote의 경우 각 기본 모델의 최종 예측 값의 합을 최종 예측 값 도출 시에 사용함으로 기본 모델에서 제공하는 정보를 무시하지 않고 최종 결과 도출에 이용한다고 할 수 있다.

(10)은 기본 모델의 예측결과들을 결합한 값을 softmax 함수의 입력으로 사용하여 클래스 확률을 계산하기 위하여 이용된다.

(10)
$y_{k}=\dfrac{\exp(\hat{s}_{k})}{\sum_{j=1}^{C}\exp(\hat{s_{j}})}$

그림 5. 앙상블 모델의 결합 방법 비교 (Hard Vote Vs. Soft Vote)

Fig. 5. Comparison of Aggregation Method in Ensemble Model (Hard vote vs. Soft Vote)

../../Resources/kiee/KIEE.2024.73.8.1429/fig5.png

학습 가능한 매개변수 $w_{j}$를 최적화하기 위한 목적함수는 cross entropy를 이용하여 식 (11)과 같이 정의하여 사용한다.

(11)
$L({ w})= -\dfrac{1}{N}\sum_{n=1}^{N}\sum_{c=1}^{C}t_{nc}·\ln(y_{nc})$

목적함수 $L$을 최소화하는 매개변수 벡터 $w=\left[\begin{matrix}w_{1w_{2\cdots w_{M}}}\end{matrix}\right]^{T}$를 추정하기 위하여 Nonlinear Least Square Estimation (NLSE)를 사용한다.

목적함수의 비선형성으로 인하여 반복적인 연산을 통해 목적함수를 최소화 하는 근사 해 ${ w}^{*}$를 찾는다. 본 연구에서는 목적함수를 최소화하는 해를 구하기 위하여 뉴턴법을 이용한다. 일반적으로 뉴턴법은 주어진 함수를 0으로 만드는 ${ x}$를 찾는 문제를 푸는 방법이다. 이를 최적화 문제에 적용하면, 주어진 목적함수의 미분 함수를 0으로 만드는 해를 구하기 위하여 뉴턴법을 사용한다. 목적함수의 미분 함수가 0이 되는 조건은 구한 해가 최적해가 되기 위한 필요조건이다. 목적함수의 매개변수 $w_{k}$에 대한 미분함수는 식 (12), 식 (13), 식 (14)와 같다.

(12-1)
\begin{align*} \dfrac{\partial L}{\partial w_{k}}& =\dfrac{1}{N}\sum_{n=1}^{N}\sum_{c=1}^{C}(y_{nc}-t_{nc}) · z_{nc}^{(k)}\\& =\dfrac{1}{N}\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(k)})^{T}\end{align*}
(12-2)
$\mathbf{y}_n=\left[y_{n 1} y_{n 2} \cdots y_{n C}\right] \in R^{1 \times C}$
(12-3)
$\mathbf{t}_n=\left[t_{n 1} t_{n 2} \cdots t_{n C}\right] \in R^{1 \times C}$
(12-4)
${}{z}_{n}^{(k)}=\begin{bmatrix}z_{n1}^{(k)}&z_{n2}^{(k)}&\cdots &z_{n C}^{(k)}\end{bmatrix}\in R^{1\times C}$

여기서, $C$는 클래스 레이블의 개수를 의미하고, $N$은 데이터의 개수를 의미한다.

(12)를 벡터 형태로 정리하면 식 (13)와 같이 정의된다.

(13)
\begin{align*}{}{g}({}{w})=\dfrac{\partial L}{\partial{}{w}}& =\dfrac{1}{N}\begin{bmatrix}\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(1)})^{T}\\\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(2)})^{T}\\\vdots \\\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(M)})^{T}\end{bmatrix}\\ & =\dfrac{1}{N}\sum_{n=1}^{N}{}{Z}_{n}\left({}{y}_{n}-{}{t}_{n}\right)^{T} \end{align*}

여기서, ${ Z}_{n}=\begin{bmatrix}{ z}_{n}^{(1)}\\{ z}_{n}^{(2)}\\\vdots \\{ z}_{n}^{(M)}\end{bmatrix}\in R^{M\times C}$.

(15)가 목적함수의 미분함수이므로 목적함수의 미분함수를 영 벡터로 만드는 매개변수를 뉴턴법을 이용하여 찾는 최적화 문제로 변경하여 해결한다. 다시말하면 ${ g}({ w}^{+})={}0$는 목적함수 $L({ w})$를 최소화하는 필요조건이다.

뉴턴법을 이용하여 ${ g}({ w})={}0$을 만족하는 ${ w}$를 찾기위해 아래 식 (14)를 이용한다.

(14-1)
${}{w}_{k+1}={}{w}_{k}-({}{g}'({}{w}_{k}))^{-1}·{}{g}({}{w}_{k})$
(14-2)
${}{g}'({}{w})=\dfrac{1}{N}\sum_{n=1}^{N}{}{Z}_{n}\left({diag}({}{y}_{n})-{ y}_{n}^{T}{ y}_{n}\right){}{Z}_{n}^{T}$
(14-3)
$ \begin{align*}{}{w}_{k+1} & ={}{w}_{k}-{}{g}'({}{w}_{k})^{-1}{}{g}({}{w}_{k})\\ & ={}{w}_{k}-\left(\sum_{n=1}^{N}{}{Z}_{n}\left({diag}({}{y}_{n})-{}{y}_{n}^{T}{}{y}_{n}\right){}{Z}_{n}^{T}\right)^{-1}\left(\sum_{n=1}^{N}{}{Z}_{n}({}{y}_{n}-{}{t}_{n})^{T}\right) \end{align*}$

매개변수 과적합 현상을 방지하기 위하여 목적함수에 매개변수의 L2 norm 항을 panalty 항으로 추가하여 (15)와 같이 변경하여 사용한다.

(15)
$L=-\dfrac{1}{N}\sum_{n=1}^{N}\sum_{c=1}^{C}t_{nc}·ln y_{nc}+\lambda\sum_{m=1}^{M}w_{m}^{2}$
L2 Regularization이 적용된 목적함수의 미분함수는 식 (16)과 같다.
(16)
\begin{align*}{}{g}({}{w})=\dfrac{\partial L}{\partial{}{w}}& =\dfrac{1}{N}\begin{bmatrix}\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(1)})^{T}+\lambda w_{1}\\\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(2)})^{T}+\lambda w_{2}\\\vdots \\\sum_{n=1}^{N}({}{y}_{n}-{}{t}_{n})({}{z}_{n}^{(M)})^{T}+\lambda w_{M}\end{bmatrix}\\& =\dfrac{1}{N}\sum_{n=1}^{N}{}{Z}_{n}({}{y}_{n}-{}{t}_{n})^{T}+\lambda{}{w}\end{align*}

목적함수의 2계 미분함수는 식 (17)과 같다.

(17)
${}{g}'({}{w})=\dfrac{1}{N}\sum_{n=1}^{N}{}{Z}_{n}\left({diag}({}{y}_{n})-{}{y}_{n}^{T}{}{y}_{n}\right){}{Z}_{n}^{T}+\lambda{ I}$

목적함수의 미분함수와 2계 미분함수를 이용하여 목적함수 식 (15)를 최소화하는 매개변수는 식 (18)을 이용하여 찾는다.

(18)
\begin{align*}{}{w}_{k+1}={}{w}_{k}-\left(\dfrac{1}{N}\sum_{n=1}^{N}{}{Z}_{n}\left({diag}({}{y}_{n})-{}{y}_{n}^{T}{}{y}_{n}\right){}{Z}_{n}^{T}+\lambda{}{I}\right)^{-1}\\·\left(\dfrac{1}{N}\sum_{n=1}^{N}{}{Z}_{n}({}{y}_{n}-{}{t}_{n})^{T}+\lambda{}{w}_{k}\right)\end{align*}

제안된 앙상블 모델의 설계를 위한 순서도는 그림 6과 같다.

그림 6. 제안된 앙상블 모델 설계 순서도

Fig. 6. Design Flowchart of Proposed Ensemble Model

../../Resources/kiee/KIEE.2024.73.8.1429/fig6.png

5. 실험 및 결과고찰

본 연구에서는 기본 모델로 방사형 기저함수 신경회로망을 사용하여 앙상블 모델의 설계 방법을 제안한다. 기존 앙상블 모델의 경우 기본 모델의 예측 값을 결합 (aggregation) 하기 위하여 다수결 방식을 채택하여 앙상블 모델의 최종 예측 값을 결정한다. 제안된 앙상블 모델의 기본 모델의 예측 값의 결합을 위하여 가중치 합 방식을 채택하였고, 각 기본 모델에 할당되는 가중치 값을 비선형 LSE 기법을 사용하여 최적화 한다. 제안된 방식으로 설계된 앙상블 모델의 패턴 분류성능을 평가 검증하기 위하여 다수의 기계학습 벤치마크 데이터가 사용된다. 실험에 사용된 기계학습 데이터는 웹사이트 (https://archive.ics.uci.edu)에서 다운로드 할 수 있다. UCI machine learning repository 기계학습 데이터는 기계 학습 모델의 성능 평가 및 상호비교를 위해 사용된다. 제안된 앙상블 모델의 일반화 성능을 검증하기 위하여 5 fold cross-validation [11] 기법을 사용한다.

표 2는 제안된 앙상블 모델의 패턴 분류 성능 평가를 위해 사용된 머신러닝 데이터들의 세부 사항을 보인다. 표 2는 제안된 앙상블 모델의 hyper-parameter에 대한 세부 정보를 표시한다.

표 2 평가용 기계학습 데이터 특성

Table 2 Characteristic of machine learning data set for evaluation

Data

입력변수 수

데이터 수

클래스 수

Australian (1)

42

690

2

Balance (2)

4

625

3

Bupa (3)

6

345

2

German (4)

24

1000

2

Glass (5)

9

214

6

Hayes (6)

5

132

3

Ionosphere (7)

34

351

2

Iris (8)

4

150

3

Pima (9)

8

768

2

Sonar (10)

60

208

2

Thyroid (11)

5

215

3

Vehicle (12)

18

846

4

Wine (13)

13

178

3

zoo (14)

16

101

7

표 3에는 제안된 앙상블 모델의 초기 파라미터에 대한 세부적인 정보를 보인다. 앙상블 모델의 hyper-parameter는 기본 모델인 방상형 기저함수 신경회로망의 초기 파라미터와 기본 모델의 결합과 학습에 관련된 hyper-parameter로 구성된다. 제안된 앙상블 모델의 패턴 분류 성능을 평가하기 위한 평가 지수로 패턴 분류율을 사용하며, 식 (19-1) 같이 정의된다.

(19-1)
$CR=\dfrac{1}{N}\sum_{n=1}^{N}g(t_{n},\: y_{n})·100(\%)$
(19-2)
$g(a,\: b)=\begin{cases}1,\:{}{if} & {a}={b}\\0,\: {}{if} &{a}\ne{b}\end{cases}$
표 4는 제안된 앙상블 모델의 hyper-parameter 중 하나인 regularization parameter ($\lambda$)의 변화에 따른 분류 성능을 데이터에 따라 나타낸다. 표 3에 보인 실험 결과에 의하면 regularization parameter ($\lambda$)가 0.01일 때 가장 우수한 성능을 보인다. 표 5는 기존 연구된 패턴 분류기와 제안된 방사형 기저함수 신경회로망을 기본 모델로 사용하는 앙상블 모델의 패턴 분류 성능을 비교한 표이다.

표 3 제안된 앙상블 모델의 hyper-parameter

Table 3 Hyper parameters of proposed ensemble model

Hyper-parameter

Value

앙상블 모델 관련 Hyper-parameters

기본모델의 수 (M)

2, 3, 5

Regularization parameter ($\lambda$ )

0.01, 0.05, 0.1

기본 모델 (RBFNNs) Hyper-parameters

Radial Basis Function 수 (R)

2, 3, 5, 7, 9

Fuzzification Coefficient (p)

1.2, 1.5, 2.0, 2.5, 3.0

표 4 제안된 앙상블 모델의 Regularization parameter ($\lambda$) 값에 따른 분류 성능 (%) 비교

Table 4 Comparison of classification performance (%) of proposed ensemble model according to variation of regularization parameter($\lambda$)

Data

$\lambda$ =0 $\lambda$ =0.01 $\lambda$ =0.05 $\lambda$ =0.1

mean

std

mean

std

mean

std

mean

std

1

81.59

5.16

87.68

1.15

87.68

2.11

87.83

1.88

2

89.76

1.54

90.56

2.36

90.56

0.67

89.60

1.26

3

71.01

7.03

73.62

4.85

72.46

5.89

69.28

8.29

4

66.60

6.80

77.60

1.08

77.30

2.41

77.10

1.88

5

44.88

9.07

73.77

9.98

73.38

3.41

75.23

2.16

6

58.38

6.04

63.70

5.81

59.80

6.11

54.64

16.32

7

80.07

5.18

91.17

3.10

89.75

1.84

89.45

1.67

8

95.33

3.80

96.00

3.65

91.33

5.06

90.00

6.67

9

78.13

2.11

77.99

3.06

76.81

5.80

76.83

4.08

10

72.13

3.07

84.10

8.01

86.00

6.36

84.63

4.29

11

90.70

6.78

95.35

1.64

93.95

3.12

93.02

2.85

12

66.89

15.01

77.66

2.81

72.93

2.59

69.98

3.92

13

76.94

13.31

98.87

1.54

96.60

5.09

97.16

2.86

14

48.38

18.56

97.05

2.70

95.00

3.54

95.10

3.37

표 5 제안된 앙상블 모델과 기존 패턴 분류기의 분류 성능 (%) 비교

Table 5 Results of comparative analysis between proposed ensemble model and already studied pattern classifiers in terms of classification perforamance (%)

No.

Proposed Ensemble Model

Ada-

Boost*

MLP*

SVM*

PART*

$\lambda$=0.01 $\lambda$=0.05 $\lambda$=0.1

1

87.68

87.68

87.83

84.78

83.13

85.46

83.04

2

90.56

90.56

89.60

79.36

91.15

87.46

80.48

3

73.62

72.46

69.28

71.2

70.0

73.28

72.2

4

77.60

77.30

77.10

72.7

71.15

76.66

70.1

5

73.77

73.38

75.23

78.5

66.09

56.83

71.97

6

63.70

59.80

54.64

85.58

72.7

54.68

84.1

7

91.17

89.75

89.45

92.67

96.4

96.33

94.0

8

96.00

91.33

90.00

71.2

70.0

73.28

72.2

9

77.99

76.81

76.83

72.92

74.62

76.98

74.33

10

84.10

86.00

84.63

83.15

82.01

76.39

71.61

11

95.35

93.95

93.02

94.42

91.35

88.51

93.95

12

77.66

72.93

69.98

77.3

80.95

73.5

71.16

13

98.87

96.60

97.16

94.43

98.03

98.59

90.51

14

97.05

95.00

95.10

92.1

95.96

94.28

92.1

*: Pattern Classifier implemented in WEKA [12]

표 5에 보인 바와 같이 기존 패턴 분류기들의 패턴 분류 성능과 제안된 앙상블 모델을 분류 성능을 비교하면, 제안된 앙상블 모델이 14개의 데이터들 중에서 10개의 데이터에서 우수한 성능을 보임을 알 수 있다.

표 6은 논문에 보고된 기존 앙상블 모델의 패턴 분류 성능과 제안된 패턴 분류기의 성능을 비교한 결과를 보인다. 표 5에 보인 비교 결과는 제안된 앙상블 모델의 패턴 분류 성능이 기존 벤치마크 앙상블 모델에 비해 모두 우수하다는 것을 보인다.

표 6 제안된 앙상블 모델과 벤치마크 패턴 분류기의 분류 성능 (%) 비교

Table 6 Comparison of classification erformance (%) between proposed ensemble model and already reported benchmark ensemble models

Data

Bechmark ensemble Model

Classification Rate

Australian

Abellan & Castellano [13]

86.81%

Xiao et al. [14]

86.89%

Yang et al. [7]

84.29%

Proposed Model

87.83%

German

Abellan & Castellano [13]

77.40%

Xiao et al. [14]

73.76%

Yang et al. [7]

72.82%

Proposed Model

77.60%

6. 결 론

본 연구에서는 방사형 기저함수 신경회로망을 기본 함수로 사용하는 앙상블 모델을 패턴 분류기로 사용하는 설계 방법을 제안한다. 기존 앙상블 모델의 경우 기본 모델의 예측 값을 결함하기 위하여 Majority Vote 방법을 적용한다. 제안된 앙상블 모델에서는 Soft Vote 방법을 변환한 선형 결합을 이용하여 기본 모델들의 예측 값을 결합하여 앙상블 모델의 최종 예측 값을 결정한다. 선형 결합의 파라미터 학습을 위하여 Nonlinear Least Square Estimation 방법을 이용한다.

제안된 앙상블 모델의 패턴 분류 성능을 기존 패턴 분류기와 비교를 통해 제안된 앙상블 모델이 기존 연구된 패턴 분류기에 비해 다수의 데이터에서 우수한 결과를 보임을 알 수 있었다.

Acknowledgements

This work was supported by the National Research Foundation of Korea(NRF) grant funded by the Korea government(MSIT) (RS-2023-00279445 and NRF-2023K2A9A2A06060385).

References

1 
K. Zhou, S.-K. Oh, J. Qiu, W. Pedrycz, and K. Seo, “Reinforced Two-Stream Fuzzy Neural Networks Architecture Realized With the Aid of One-Dimensional/Two-Dimensional Data Features,” IEEE Trans. On Fuzzy Systems, vol. 31, no. 3, pp. 707-721. 2023.DOI
2 
C. H. Fontes, “Refinement of the feedforward networks in multi-class classification problems using a hybrid approach combining supervised clustering and a fuzzy classifier,” Engineering Applications of Artificial Intelligence, vol. 115, 2022.DOI
3 
W. W. Y. Ng, A. Dorado, D. S. Yeung, W. Pedrycz, and E. Izquierdo, “Image classification with the use of radial basis function neural networks and the minimization of the localized generalization error,” Pattern Recognition, vol. 40, no. 1, pp. 19-32, 2007.DOI
4 
B. Halder, K. M. Azharul Hassan, T. Amagasa, Md M. Ahmed, “Autonomic active learning strategy using cluster-based ensemble classifier for concept drifts in imbalanced data stream,” Expert Systems With Appicaitons, vol. 231, 120578, 2023.DOI
5 
M. R. Toochaei, and F. Moeini, “Evoluting the performance of ensemble classifiers in stock returns prediction using effective features,” Expert Systems With Applications, vol. 213, 119186, 2023.DOI
6 
X. Niu, and W. Ma, “Semi-supervised classifier ensemble model for high-dimensional data,” Information Science, vol. 643, 119203, 2023.DOI
7 
D. Yang, B. Xiao, M. Cao, H. Shen, “A new hybrid credit scoring ensemble model with feature enhancement and soft voting weight optimization,” Expert System With Applications, vol. 238, 122101, 2024.DOI
8 
W. Pedrycz, “Conditional Fuzzy C-Means,” Pattern Recognition Letters, vol. 17, no. 6, pp. 625-632, 1996.URL
9 
H. Huang, S. K. Oh, C.-K. Wu, and W. Pedrycz, “Double iterative learning-based polynomial based-RBFNNs driven by the aid of support vector-based kernel fuzzy clustering and least absolute shrinkage deviations,” Fuzzy Sets and Systems, vol 443, pp. 30-49, 2022.DOI
10 
M. M. Rahman, M. M. Islam, K. Murase, and X. Yao, “Layered ensemble architecture for time series forecasting,” IEEE Trans. Cybern., vol. 46, no. 1, pp. 270-283, 2016.DOI
11 
J. Roy, and S. Saha, “Ensemble hybrid mahince methods for gully erosion susceotibility mapping: K-fold cross validation approache,” Artificial Intelligence in Geosciences, vol. 3, pp. 28-45, 2022.URL
12 
E. Frank, M. A. Hall, and T. H. Witten, Data Mining: Practical Machine Learning Tools and Technques, 4th ed. Amsterdam, The Netherlands: Elsevier, 2016.URL
13 
J. Abellan, and J. G. Castellano, “A comparative study on base classifiers in ensemble methods for credit scoring,” Expert Systems with Applications, vol. 73, pp. 1-10, 2017.DOI
14 
J. Xiao, X. Zhou, L. Xie, X. Gu, and D. H. Liu, “Cost-sensitive semi-supervised selective ensemble model for customer credit scoring,” Knowledge-Based Systems, vol. 189, 105118, 2020.DOI

저자소개

노석범 (Seok-Beom Roh)
../../Resources/kiee/KIEE.2024.73.8.1429/au1.png

He received his M.Sc. degrees in Computer Engineering from Wonkwang University, Korea, in 1996 and Ph. D. degrees in Control and Measurement Engineering from Wonkwang University, Korea, in 2006. He is currently an Associate Professor at Department of Electronics and Computer Engineering, Seokyeong University, Korea. His research interests include deep neural networks, fuzzy-neural networks, computational intelligence, and machine learning.

오성권 (Sung-Kwun Oh)
../../Resources/kiee/KIEE.2024.73.8.1429/au2.png

He received his B.Sc., M.Sc., and Ph.D. degrees in electrical engineering from Yonsei University, Seoul, Korea, in 1981, 1983, and 1993, respectively. He is currently a Professor with the Department of Electrical Engineering, University of Suwon, Suwon, South Korea. His research interests include fuzzy system, fuzzy-neural networks, automation systems, advanced computational intelligence, and intelligent control.