노수영
(Soo-Young Noh)
1iD
김창현
(Chang-Hyun Kim)
†iD
-
(Dep. of Electronic Engineering, Kangnam University, Republic of Korea.)
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
Maglev Conveyor System, Reinforcement Learning, Deep Deterministic Policy Gradient, Time Delay Compensation, Noise and Disturbance Rejection
1. 서 론
자기부상 물류이송시스템은 전자기력을 이용해 자기부상체를 띄워 물체를 이송함으로써 물리적 마찰이 없어 마모 및 분진의 발생을 최소화할 수 있으며,
소음과 진동이 적고 고속 이동이 가능하다는 특징을 가진다[1-2]. 특히 자기부상 물류이송시스템은 분진의 발생을 최소화할 수 있어 반도체 클린룸과 같은 고청정 환경에서 효율적이고 안정적인 물류 이송을 위한 핵심
기술로 주목받고 있다[3-4]. 반도체 공정이 미세화되고 집적도가 증가함에 따라 극히 적은 양의 분진의 발생조차도 반도체 장비의 수율에 큰 영향을 미치는 중요한 문제로 부각되고
있다[5]. 이와 같은 맥락에서 자기부상 방식을 활용한 물류 이송은 분진의 발생을 최소화함으로써 고도로 집적화된 반도체 제조 환경에서 높은 수율을 유지하고
장비 신뢰성을 제고하는 데 핵심적인 역할을 할 수 있다[6].
그러나 자기부상 시스템은 본질적으로 불안정하고 비선형적인 특성을 지니므로, 시스템 제어 시 약간의 외란, 잡음, 시간지연 등의 시스템 불확실성 요소가
추가되면 시스템 성능이 저하되거나 불안정해지는 문제가 존재한다. 기존의 PID(Proportional-Integral-Derivative)제어기나
고전적인 제어 기법만으로는 이러한 불확실성 요인을 충분히 대응하기 어려워 실제 산업 환경에서의 안정적인 운용에 제약이 있다[7].
이러한 문제를 극복하기 위한 최근의 주목 받는 접근 방식 중 하나는 강화학습(Reinforcement Learning, RL)이다[8]. 강화학습을 통한 제어는 기존의 최적제어나 적응제어의 강점을 강화학습으로 결합할 수 있다[9]. 또한 불확실성이 존재하는 비선형 시스템을 효과적으로 제어할 수 있으며 데이터 기반으로 제어기를 설계하기 때문에 시스템의 모델링이 필요없다[10-11]. 본 논문에서는 특히 딥러닝 구조의 Actor를 사용하여 상태 - 연속 액션 공간에서 효과적인 성능을 발휘하는 DDPG(Deep Deterministic
Policy Gradient) 알고리즘을 사용하였다[12-13].
본 논문에서는 정상상태 오차에 대해 신뢰성을 향상하기 위해 오차에 대한 적분기를 포함하여 1형 시스템에 대한 DDPG 기반 제어기를 설계하였다. 여기서
위치와 속도에 대한 오차를 가중을 두어 고려하는 보상함수를 통하여 급격한 위치의 변화로 인한 부상체의 충격을 줄일 수 있었다. 또한 잡음과 외란 그리고
시간지연을 고려하여 DDPG 에이전트를 학습을 시켜 잡음 강인성을 포함하고 시간 지연이 있음에도 안정적인 상태를 유지할 수 있도록 설계하였다.
이러한 딥러닝 베이스 강화학습은 비선형 시스템에 대해서 제한된 성능을 보였던 고전적 제어 방식과 달리 자기부상 시스템의 비선형성과 불확실성을 다루는
대안으로 적용될 수 있다[10]. 본 연구에서는 DDPG 기반 강화학습을 통해 자기부상 물류이송시스템의 강인한 제어기 설계를 시도하고, 시간지연 상황까지 고려한 성능을 검증하고자
한다. 이를 통해 반도체 공정 내 자기부상 물류이송시스템의 현실적 불확실성인 통신지연 또는 센서 잡음에 대해서도 안정적 제어 및 효율적인 운용에 기여가
될 것으로 기대된다[14-15].
2. 본 론
2.1 자기부상 물류이송시스템
자기부상 물류이송시스템은 전자기력을 활용하여 물체를 부상 및 이동시키는 방식으로 동작한다. 이 과정에서 이송체와 레일 간 물리적 접촉이 없으므로 마찰과
마모가 없어 분진의 발생을 최소화할 수 있다. 이는 반도체 클린룸과 같이 오염원에 민감한 환경에서 특히 중요한 이점이다. 그림 1은 자기부상 물류이송시스템의 Electromagnetic suspension(EMS) 구조를 보여주고 있으며 표 1은 시스템 설계에 사용된 주요 파라미터를 제시한다[2,16]. 이러한 파라미터를 통해 반도체 클린룸에 적합한 자기부상 물류이송시스템 환경을 모델링하였다.
이러한 자기부상체의 상태방정식은 식 (1)과 같으며
그림 1. EMS 구조
Fig. 1. Structure of EMS
표 1 자기부상 물류이송시스템의 파라미터
Table 1 Parameters of the maglev conveyor system.
Parameter
|
Description
|
Value
|
$N$
|
Coil Turns
|
$730$turns
|
$A_{p}$
|
Pole Area of Coil
|
$0.005$ ($m^{2}$)
|
$g$
|
The Gravity of Earth
|
$9.80665$ ($m/s^{2}$)
|
$\mu_{0}$
|
Vacuum Magnetic Permeability
|
$4\pi\times 10^{-7}$ ($H/m$)
|
$m$
|
Mass of the Levitated Vehicle
|
$16.667$ ($Kg$)
|
$i(t)$
|
Current of Coil
|
($A$)
|
$z(t)$
|
Gap Position
|
($m$)
|
$F_{m}(t)$
|
Attractive Force
|
($N$)
|
$F_{g}(t)$
|
Gravity Force
|
($N$)
|
$z_{ref}$
|
Desired Gap Reference
|
$0.05$ ($m$)
|
여기서 각 요소는 다음과 같다.
\begin{align*}
x(t)=\begin{bmatrix}z(t)\\\dot{z}(t)\end{bmatrix},\: A =\begin{bmatrix}0&1\\\dfrac{1}{m}\dfrac{\mu_{0}A_{p}N^{2}i_{0}^{2}}{2z_{0}^{3}}&0\end{bmatrix},\:
\\
B_{u}=\begin{bmatrix}0\\-\dfrac{1}{m}\dfrac{\mu_{0}A_{p}N^{2}}{2}\dfrac{i_{0}}{z_{0}^{2}}\end{bmatrix},\:
\\
B_{w}=\begin{bmatrix}0\\\dfrac{1}{m}\end{bmatrix},\: C =\begin{bmatrix}1&0\end{bmatrix}
\end{align*}
식 (1)에서 $x(t)$는 상태(state), $y(t)$는 출력(output), $u(t-\tau)$는 제어입력(control input), $F_{d}(t)$는
외란 입력(disturbance input), $\tau$는 시간지연(time delay), $n(t)$은 잡음 입력(noise), $z$는 자기부상체와
전자석간의 거리, $i_{0}$는 전류의 동작점, $z_{0}$는 위치의 동작점이다[16].
2.2 제안된 제어 시스템 구조
본 논문에서는 자기부상 물류이송시스템 제어에 DDPG 강화학습 알고리즘을 적용하였다. DDPG는 Actor-Critic 구조를 갖는 강화학습 알고리즘으로,
연속적인 액션인 자기부상 물류이송시스템과 같은 연속적 공간에 적합하다. 그림 2는 DDPG 강화학습의 구조로 Actor 네트워크는 주어진 상태 관측치(Observation)에 대해 최적의 행동(Action)을 산출하고, Critic
네트워크는 상태-행동 조합에 대한 가치(Q-value)를 평가함으로써 정책(Policy) 개선에 기여한다[11-12].
그림 3은 본 논문에서 제안하는 제어 시스템의 구조이며 강화학습 기반 제어기에 대한 신뢰도를 높이기 위해 전체 제어 시스템을 1형 시스템 형태로 구성한 뒤,
Agent가 산출한 액션을 기존 제어입력($u(t-\tau)$)에 합하는 방식으로 구현하였다. 이를 통해 정상 상태 오차 감소뿐만 아니라 강화학습
기반 제어기의 신뢰성을 확보하였다.
그림 2. 일반적인 DDPG 강화학습 구조
Fig. 2. General DDPG reinforcement learning structure
그림 3. 제안된 제어 시스템 구성도
Fig. 3. Proposed control system configuration diagram
2.3 DDPG 제어기 설계기법
자기부상 물류이송시스템은 불안정성이 크기 때문에 고속의 샘플링 제어가 필요하며, 이를 위해 Actor와 Critic 네트워크의 크기 및 구조를 적절히
설계하였다[12].
그림 4의 (a)는 Actor 네트워크의 구조로 Actor는 상태 정보를 입력으로 받아 제어 입력을 출력한다[13]. 본 연구에서는 상태 정보를 입력층에 도입한 뒤, 두 개의 은닉층(각 64노드, ReLu 활성화 함수) 및 Tanh 활성화 함수를 갖는 출력층을
거쳐 연속적인 제어 입력을 산출하도록 하였다.
그림 4의 (b)는 Critic 네트워크의 구조로 Critic 네트워크는 상태와 행동을 동시에 받아 해당 조합에 대한 Q-value를 추정한다[13]. 본 연구에서는 상태 입력 경로와 행동 입력 경로를 각각 별도의 은닉층(각 24노드, ReLu 활성화 함수)으로 처리한 후, 이를 합하여 최종적으로
1차원의 Q-value를 계산한다.
그림 4. Actor 와 Critic의 구조 (a) Actor의 구조, (b) Critic의 구조
Fig. 4. Actor structure of actor and critic (a) Actor structure, (b) Critic structure
강화학습에서 보상 함수는 정책 학습 방향을 결정하는 핵심 요소이다. 본 연구에서는 위치 추종 성능과 속도 안정성을 중심으로 보상 함수를 설계하였다.
위치 오차와 속도를 기반으로 타원의 형태를 갖는 지수 함수 기반 보상 함수를 정의하여, 과도응답 시 불필요한 급격한 속도 변화 없이 부드러운 제어가
이루어지도록 하였다. 위치 및 속도 제한값을 초과할 경우 큰 음의 보상을 부여하고 에피소드를 종료함으로써, 에이전트가 허용 범위를 벗어난 행동을 신속히
학습에서 배제하도록 하였다[12].
여기서
$e(t)=(\dfrac{e_{p}(t)}{a})^{2}+(\dfrac{e_{v}(t)}{b})^{2}$
이다.
식 (2)는 보상함수($r$)를 의미하며 여기서 $a$는 최대 위치 오차, $b$는 최대 속도 오차, $\alpha$는 보상함수의 첨예도, $\lambda$는
보상함수의 크기 스케일링, $e_{p(t)}$는 위치 오차, $e_{v(t)}$는 속도 오차, $T$는 에피소드 전체 타임스텝의 갯수 의미한다. 여기서
$a$와 $b$는 오차의 최대치를 의미하며 이를 넘을 경우 제어가 안된다고 판단하여 큰 음의 보상과 함께 시뮬레이션을 종료하는 것으로 학습시간을 단축할
수 있다. $\alpha$는 함수의 첨예도를 조절하며 이를 통하여 안정화된 상태에서 작은 오차의 위치와 속도에도 얼마나 큰 보상을 받게 할지 설계할
수 있다. 보상함수의 크기 조절 인자 $\lambda$를 통해 빠른 샘플링 타임으로 인한 과도한 에피소드 보상이 출력되지 않도록 크기를 스케일링 해
줄 수 있다. 설계된 보상 함수는 속도의 오차보다는 위치 오차에 더욱 민감하게 반응하도록 가중치를 두어 위치 추종을 우선적으로 하도록 설계되었으며,
첨예도 파라미터($\alpha$)를 통해 타원의 형태 변화를 유연하게 제어함으로써 더욱 정확한 제어 성능을 기대할 수 있다.
그림 5. 보상 함수 (a)열지도, (b)3차원 그래프
Fig. 5. Reward function (a) heat map, (b) 3D map
그림 5는 보상함수의 파라미터가 $a = 10$, $b = 1000$, $\lambda = 100$, $\alpha = 10$ 일때의 열지도(a)과 3차원 그래프(b)을 보여주고 있다.
자기부상 물류이송시스템은 그 불안정성 때문에 빠른 샘플링 제어가 필요하다 따라서 $T_{s}=0.5[ms]$이며 충분한 시간동안 시스템이 제어가 되는지
확인하기 위해 $T=5000$으로 5초간의 자기부상체의 동작을 학습하게 된다. Critic의 학습률은 $10^{-4}$, Actor의 $10^{-6}$
학습률은 이며 경험 버퍼의 길이와 미니 배치크기는 충분하게 $10^{6}$과 $64$를 주었다.
3. 시뮬레이션
본 연구에서는 앞서 설계한 강화학습 기반 제어기를 검증하기 위해 강화학습 에이전트를 탑재한 자기부상 물류이송시스템 모델에 대해 시뮬레이션을 수행하였다.
시뮬레이션 환경은 잡음, 외란, 및 시간지연 등의 불확실성 요인을 반영하였으며, 이를 산업적으로 가장 많이 사용되는 PID 제어기를 강화학습 기반
제어기의 계단 응답의 성능을 비교·분석하였다. 이때 PID 제어기의 계수는 Matlab/Simulink의 전달함수 기반 자동 조정 방법을 사용하여
얻었다. 또한 이를 비교·분석을 위하여 잡음과 외란이 존재하되 시간지연이 없는 경우, 잡음과 외란뿐 아니라 시간지연($\tau =1.5[ms]$)까지
존재하는 경우 두 가지로 나누어 시뮬레이션을 진행하였다.
그림 7은 잡음과 외란이 있으나 시간지연이 없는 환경에서의 강화학습 기반 제어기 계단 응답을 보여준다. 그림 7의 (a)는 과도응답을 보여주며 약간의 부족제동의 형태가 나타나는데, 이는 큰 위치 변화율에 따른 보상 함수의 패널티 구조로 인해 제어기가 급격한 응답을 지양한
결과로 해석할 수 있다. 하지만 정상상태에서는 안정적으로 목표 위치에 수렴하며, 외란 및 잡음이 존재하더라도 제어 대상이 안정화되는 것을 확인할 수
있다.
그림 6. 강화학습 기반 제어기의 설계 절차
Fig. 6. Design procedure of reinforcement learning-based controller
그림 7. 잡음과 외란이 있는 강화학습 기반 제어기로 제어되는 시스템의 응답 (a)위치, (b)속도, (c)보상, (d)제어입력
Fig. 7. Response of a system controlled by a reinforcement learning-based controller
in the presence of noise and disturbance (a)position, (b)velocity, (c)reward, (d)input
그림 7 (b)는 (a) 그림에서 확인한 것과 동일하게 시간에 따라 안정화되며 큰 속도로 제어되지 않도록 제어하고 있다.
그림 7의 (c)는 보상함수의 보상값으로 초기의 과도응답에는 위치의 오차로 인해 비교적 낮은 보상을 주지만 점차 시스템이 안정화 됨에 따라 최대의 보상을 주는 것을
볼 수 있다.
그림 7의 (d)는 시스템에 입력되는 제어 입력으로 제어 입력(A)을 의미한다. 안정적인 범위내에서 제어 입력값을 출력하고 있는 것을 보여주고 있다.
그림 8은 PID 제어기와 강화학습 기반 제어기의 응답을 비교한 결과를 나타낸다. 그림 8의 (a)는 과도응답에서의 PID 제어기와 강화학습 기반 제어기의 위치와 속도 비교이다. 여기서 강화학습 기반 제어기는 PID 대비 정착시간이 다소 길게 나타나지만,
PID 제어기의 크고 급격한 속도와는 달리 안정적인 것을 볼 수 있다.
또한 그림 8의 (b)는 정상상태에서의 PID 제어기와 강화학습 기반 제어기의 계단응답을 보여준다. 여기서 강화학습 기반의 제어기는 정상상태 오차 그리고 잡음에 대한 강인성
모두 PID와 유사한 수준으로 유지되어, 강화학습 기반 제어기가 정상상태에서 안정적이고 부드러운 제어를 수행함을 보여주고 있다.
그림 9는 PID 제어기와 강화학습 기반 제어기의 제어입력($u(t-\tau)$)의 비교를 나타낸다. 그림 9의 (a)는 과도응답 구간에서 제어기의 입력을 보여준다.
그림 8. 잡음과 외란이 있는 시스템에서 강화학습 기반 제어기 및 PID 제어기의 응답 비교: (a) 과도응답($0\sim 0.5[s]$), (b)
정상상태응답($0.5\sim 1.0[s]$)
Fig. 8. Comparison of reinforcement learning based controller and PID controller responses
in a system with noise and disturbance: (a) Transient response ($0\sim 0.5[s]$), (b)
Steady-state response ($0.5\sim 1.0[s]$)
그림 9. 잡음과 외란이 있는 시스템에서 강화학습 기반 제어기 및 PID 제어기의 입력 비교: (a) 과도응답($0\sim 0.005[s]$), (b)
정상상태응답($0.5\sim 1.0[s]$)
Fig. 9. Comparison of inputs of reinforcement learning based controller and PID controllers
in a system with noise and disturbance: (a) Transient response ($0\sim 0.005[s]$),
(b) Steady-state response ($0.5\sim 1.0[s]$)
여기서 PID 제어기의 입력은 매우 큰 진폭과 급격한 변화를 보이는데 이는 실제 하드웨어 설계 및 제어기 설계 시에 제약을 줄 수 있다. 반면 강화학습
기반 제어기는 비교적 안정적인 제어입력을 유지함으로써, 과도응답 시에도 시스템에 무리 없이 부드러운 제어 구현이 가능함을 보여준다. 또한 그림 9의
(b)는 정상상태에서 제어기의 입력과 그 확대를 보여준다. 여기서 강화학습 기반 제어기는 PID 제어기의 입력에 비교하여 더 적은 범위의 출력을 좀 더
부드럽게 출력하고 있음을 보인다.
그림 10은 잡음, 외란, 그리고 약 $1.5[ms]$의 시간지연이 추가된 상황에서의 PID 제어기와 강화학습 기반 제어기의 비교를 보여준다. 그림 10의
(a)는 과도응답에서의 PID 제어기와 강화학습 기반 제어기의 비교이다. 안정화 시간, 잡음에 대한 강인성 모두에서 강화학습 기반 제어기는 기존의 PID보다
뛰어난 성능을 보인다. 그림 10의 (b)는 정상상태에서의 PID 제어기와 강화학습 기반 제어기의 응답 비교이다. 강화학습 기반 제어기는 PID와 비교하여 정상상태에서도 잡음에 강인하며 적은
진동과 우수한 위치 추종 능력을 보여주고 있다. 마지막으로 PID 제어기는 $1.5[ms]$ 이상의 시간지연에 대해서는 제어가 되지 않는 것에 비해
강화학습 기반 제어기는 최대 $4[ms]$의 시간지연에서도 제어할 수 있다.
그림 10. 잡음과 외란 그리고 시간지연이 있는 시스템의 강화학습 기반 제어기 및 PID 제어기의 응답 비교: (a) 과도응답($0\sim 1.0[s]$),
(b) 정상상태응답($1.0\sim 2.0[s]$)
Fig. 10. Comparison of reinforcement learning based controller and PID controller
responses in a system with noise, disturbance, and time delay: (a) Transient response
($0\sim 1.0[s]$), (b) Steady-state response ($1.0\sim 2.0[s]$)
이는 강화학습 기반 제어기가 시간지연이라는 현실적 불확실성 요소까지 효과적으로 극복함을 보여주며, 실제 산업 환경에서 발생할 수 있는 잡음, 외란,
시간지연에 대한 적용성이 우수함을 보인다.
4. 결 론
본 논문에서는 비선형성과 불안정성이 내재된 자기부상 물류이송시스템에 대해, 기존 PID 제어기의 한계점을 극복하고 보다 강인한 제어 성능을 확보하기
위한 강화학습 기반 제어기 설계를 제안하였다. 반도체 클린룸과 같이 고청정 환경을 요구하는 산업 현장에서 자기부상 방식은 마찰 및 분진의 발생을 최소화하여
공정 수율 향상과 장비 신뢰성 제고에 기여할 수 있으나, 시스템 자체가 비선형적이며 외란, 잡음, 시간지연 등 다양한 불확실성 요인에 취약하다는 문제가
존재한다. 본 연구에서는 이러한 문제를 해결하기 위하여 딥러닝 기반 Actor-Critic 구조를 갖춘 DDPG 알고리즘을 활용하였으며, 위치 및
속도 오차를 중심으로 설계된 보상 함수를 통해 강화학습 에이전트가 안정적이며 부드러운 제어정책을 학습하도록 유도하였다.
시뮬레이션 결과, 강화학습 기반 제어기는 기존 PID 제어와 비교하였을 때 과도응답 구간에서 급격한 제어입력 변화를 억제하며, 잡음과 외란이 존재하는
상황에서도 높은 안정성을 유지하는 등 우수한 제어 성능을 나타내었다. 특히, 기존 PID 제어기가 제어 불가능해지는 시간지연 상황에서도 강화학습 기반
제어기는 안정적인 제어를 달성함으로써, 시간지연이라는 현실적인 제약 아래서도 뛰어난 강인성을 확보하였다. 이는 강화학습 접근법이 비선형적인 물리 현상에
유연하게 대응하며, 환경 변화와 불확실성에 대해 스스로 정책을 개선해 나가는 능력을 갖추었음을 의미한다.
이러한 연구 성과는 향후 반도체 제조 공정, 디스플레이 패널 생산, 정밀 공정 분야 등 초정밀·고청정 환경을 요구하는 다양한 산업 분야에서 강화학습
기반 제어기의 적용 가능성을 보인다. 또한 본 연구는 강화학습 제어기의 실용화를 위한 기반을 마련하는 데 의의가 있으며, 향후 다양한 강화학습 알고리즘
또는 기존 선형/비선형 제어기와의 하이브리드 접근법을 적용함으로써 제어 성능을 더욱 향상할 수 있다. 이를 통해 강화학습 기반 제어는 제어 입력 제한,
동적 환경 변화, 고차원 상태-행동 공간 등의 문제를 효과적으로 해결하고, 궁극적으로 더 복잡하고 현실적인 산업 시스템에 적용될 수 있는 잠재력을
지니게 될 것이다.
이러한 지속적인 연구 및 발전 과정을 통해 강화학습 기반 제어는 차세대 초정밀 제조 및 물류 이송 분야에서 새로운 패러다임을 제시할 것으로 기대된다.
Acknowledgements
본 논문은 2024년도 교육부 부처협업형인재양성 사업인 '반도체 전공트랙 사업'(산업통상자원부, 한국 산업기술진흥원)의 지원을 받아 수행된 연구(No.
P0022196)임
References
H. M. M. Adil, S. Ahmed, and I. Ahmad, “Control of MagLev System Using Supertwisting
and Integral Backstepping Sliding Mode Algorithm,” IEEE Access, vol. 8, pp. 51352–51362,
2020.

J. Ahn, I. Yun, H. Kim, D. Jung, J. Lee, and C. Kim, “Backstepping Controller Design
of Maglev System for Air-gap Position Control,” Jounal of the korean Society for Railway,
vol. 25, no. 3, pp. 192–202, 2022.

C.-W. Ha, S. Jung, J. Park, and J. Lim, “Magnetic Levitation Guiding System of a Ropeless
Elevator for Semiconductor Wafer Vertical Transport: Experimental Evaluation,” IEEE
Access, vol. 12, pp. 31674–31684, 2024.

L. Zhou, and J. Wu, “Magnetic Levitation Technology for Precision Motion Systems:
A Review and Future Perspectives,” International Journal of Automation Technology,
vol. 16, no. 4, pp. 386–402, 2022.

C.-W. Ha, S. Jung, J. Park, and J. Lim, “Development of a Magnetic Levitation Wafer
Handling Robot Transfer System with High-Accuracy and High-Cleanliness: Experimental
Evaluation,” Applied Sciences, vol. 13, no. 16, Art. no. 16, 2023.

W. Wang, M. Lamb, and I. J. Busch-Vishniac, “An automated loading and unloading system
for a maglev wafer transport path,” IEEE Transactions on Semiconductor Manufacturing,
vol. 6, no. 3, pp. 276–279, 1993.

D. Rosinová, and M. Hypiusová, “Comparison of Nonlinear and Linear Controllers for
Magnetic Levitation System,” Applied Sciences, vol. 11, no. 17, Art. no. 17, 2021.

J. Schöning, A. Riechmann, and H.-J. Pfisterer, “AI for Closed-Loop Control Systems:
New Opportunities for Modeling, Designing, and Tuning Control Systems,” Association
for Computing Machinery, pp 318–323, 2022.

F. L. Lewis, D. Vrabie and K. G. Vamvoudakis, “Reinforcement Learning, and Feedback
Control: Using Natural Decision Methods to Design Optimal Adaptive Controllers,” IEEE
Control Systems Magazine, vol. 32, no. 6, pp. 76–105, 2012.

J. Wu, and H. Li, “Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic
Policy Gradient Algorithm,” Mathematical Problems in Engineering, vol. 2020, no. 1,
pp. 4275623, 2020.

T. P. Lillicrap et al., “Continuous control with deep reinforcement learning,” arXiv:
arXiv:1509.02971, 2019. DOI:10.48550/arXiv.1509.02971.

S. Wongsa, and N. Kowkasai, “Deep Deterministic Policy Gradient for Magnetic Levitation
Control,” 2020 17th International Conference on Electrical Engineering/Electronics,
Computer, Telecommunications and Information Technology (ECTI-CON), pp. 796–799, 2020.

Y. Sun, J. Xu, C. Chen, and W. Hu, “Reinforcement Learning-Based Optimal Tracking
Control for Levitation System of Maglev Vehicle With Input Time Delay,” IEEE Trans.
Instrum. Meas., vol. 71, pp. 1–13, 2022.

C.-H. Kim, “Neural Network Predictive Control for Superconducting Hybrid MagLev Conveyor
Systems in Smart Factory,” ounal of the korean Society for Railway, vol. 25, no. 2,
pp. 107–112, 2022.

C.-H. Kim, H.-J. Lee, and H.-K. Jung, “Time-delay Controller Design for MagLev Conveyor
System in Smart Factory based on 6G/Beyond 5G Network Communication,” Journal of the
Institute of Electrical Engineers P, vol. 71P, no. 2, pp. 111–116, 2022.

C. Kim, “Optimal Control for a Superconducting Hybrid MagLev Transport System with
Multirate Multisensors in a Smart Factory,” Sensors, vol 24, no 2, 2024.

저자소개
He received his B.S. degree in Electronic Engineering from Kangnam University, Korea,
in 2024. He is currently pursuing an M.S. degree in Control Engineering at the same
university, where he began his graduate studies in 2024. His research interests include
robust control and the application of machine learning to magnetic levitation systems.
E-mail: nsy@kangnam.ac.kr
He received his M.S and Ph.D in Electrical Engineering from Hanyang University, Korea,
in 2006, and 2015, respectively. He was an Assistant Professor at VISION College of
Jeonju, Korea from 2016 to 2021. He joined Kangnam University, in 2021, where he is
currently an Assistant Professor with the Department of Electronic Engineering, His
research interests include the robust control, MPC, machine learning, and its application
to magnetic levitation systems, autonomous mobile robots, network congestion control,
and so on.
E-mail: chkim@kangnam.ac.kr