Mobile QR Code QR CODE : Journal of the Korean Institute of Illuminating and Electrical Installation Engineers

Journal of the Korean Institute of Illuminating and Electrical Installation Engineers

ISO Journal TitleJ Korean Inst. IIIum. Electr. Install. Eng.

  1. (Ph.D. course, Electrical Engineering, Pukyong National University, Korea)



AI reinforcement learning, Concentrated photovoltaic (CPV), Contamination-prone air filters, Inverse reflector design, Uniform illumination distribution

1. 서 론

1.1. 연구의 필요성

공기 필터는 의료 시설, 연구실, 산업 현장 등 다양한 환경에서 청정한 공기를 유지하는 데 핵심적인 역할을 한다. 그러나 필터 표면은 미생물 오염에 취약하여 성능 저하와 안전성 문제를 야기할 수 있다[1]. 이러한 문제를 해결하기 위해 필터 표면에 균일한 빛을 분포시켜 미생물 증식을 억제하고 살균 효율을 높이는 방법이 주목받고 있다[2]. 살균을 위해서는 UV-C 대역의 광원을 사용하여야 하는데, 렌즈는 장시간 사용 시 변색의 우려가 있어 금속반사판을 사용하여야 한다. 한편, 태양광 발전 분야에서도 집광형 태양광(concentrated photovoltaics, CPV) 기술이 활용되고 있다[3]. 태양광을 특정 영역에 집중시켜 발전 효율을 높이는 방식은 반사판 설계의 정밀성을 요구하며, 균일한 빛 분포는 시스템 성능과 안정성에 직접적인 영향을 미친다[4]. 따라서 공기 필터와 태양광 패널 모두에서 빛의 균일한 분포를 구현하는 반사판 설계는 중요한 연구 과제라 할 수 있다.

기존의 반사판 역설계 방법은 주로 미분방정식, 3차원 벡터 방정식, 전용 소프트웨어 등을 활용해 왔다. 하지만 이러한 접근법은 계산 복잡성이 크고, 제한된 구조만 구현할 수 있다는 한계를 지닌다. 본 연구에서는 이러한 한계를 극복하기 위해 강화학습을 기반으로 한 반사판 역설계 방법을 제안하고 이를 통해 다양한 방향에서 입사되는 빛을 특정 표면에 정확하게 조사할 수 있는 반사판을 설계하고자 하였다.

1.2. 연구의 목적 및 방법

주어진 광원에 대해 정해진 영역으로 빛을 조사하기 위한 반사판의 형상을 역으로 설계하는 것을 반사판 역설계(inverse reflector design)라고 한다[5]. 반사판 역설계를 위해 Monge–Ampère와 같은 미분방정식, 3D 벡터 방정식, LightTools (Synopsys, USA)처럼 전용 소프트웨어를 이용한 방식이 주로 사용되고 있으며, Table 1에 각각의 특성을 비교하여 정리하였다[6- 8].

Table 1. Comparison of inverse reflector design methods [6-8]

Method Merits Demerits
Differential equation

∙ High accuracy

∙ Fewer restrictions

∙ Limitations in scattering modeling

∙ Complex calculation

3D vector equation

∙ Simple calculation process

∙ BRDF based scattering modeling

∙ Relatively low accuracy

∙ Difficulty in obtaining the exact solution

Dedicated software

∙ Accurate and fast

∙ Many predefined object

∙ High cost of S/W

∙ Limited structural support

이번 연구에서는 입사된 태양광을 목표영역으로 균일하게 반사하는 반사판을 강화학습을 통해 설계하는 방법을 제안하고자 한다. 반사판 설계를 위한 주요 파라미터를 먼저 도출하고, 최적의 파라미터 값을 에이전트가 스스로 찾도록 “균일도(uniformity)”를 보상으로 갖는 강화학습 알고리즘을 구현하였다. 그리고 학습의 결과를 시뮬레이션으로 구현하여 균일도를 계산하였다.

2. 이론적 배경

2.1. 강화학습

강화학습(reinforcement learning)은 에이전트(ag-ent)가 환경(environment)과 상호작용하며 현재 상태(state)에서 보상(reward)을 최대화하는 최적의 행동(action)을 학습하는 머신러닝의 한 분야이다[9]. Fig. 1은 이러한 강화학습의 개념을 도식화한 것이다.

Fig. 1. Basic concept of reinforcement learning

../../Resources/kiiee/JIEIE.2026.40.1.21/fig1.png

강화학습은 마르코프 보상 과정(Makov reward process)의 행동 가치함수를 수학적으로 계산가능하도록 구현한 벨만 방정식(Bellman equation)을 이용한다[10]. 먼저 벨만 최적방정식은 식 (1)과 같이 정의된다[11].

(1)
$Q^*(s,a) = E[r_t + \gamma \max_{a'} Q^*(s', a')]$

(1)에서 $\gamma$는 할인율(discount rate)로 미래의 보상에 얼마나 가중치를 줄 것인지를 의미한다. 그러나 현실에서는 상태와 행동의 수가 매우 많아 최정방정식을 계산할 수가 없으며, 대신 식 (2)와 같이 최적방정식의 근사식을 사용한다[11].

(2)
$Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$

근사식에서는 최적값을 의미하는 $Q^*$대신 $Q$로 대체되며, 대신 새로운 정보에 얼마나 가중치를 줄 것인지를 의미하는 학습률(learning rate) $\alpha$를 통해 점진적으로 Q를 최적값에 가까워지도록 갱신한다.

2.2. NURBS

NURBS(Non-Uniform Rational Basis Spline)는 B-Spline 보간법의 한 종류로 knot간 간격이 일정하지 않고(non-uniform) 한 꼭지점이 곡선에 미치는 영향의 양을 결정할 수 있다는 점(rational)에서 NURBS라는 이름을 갖게 되었다[12]. NURBS를 활용하면 다양한 형태의 곡면을 자유롭게 수학적으로 모델링할 수 있어 산업계 전반에서도 폭넓게 사용되고 있다[5]. 임의의 $p$-차 NURBS 곡선은 수학적으로 식 (3)과 같이 정의된다[13].

(3)
$R(u) = \frac{\sum_{i=0}^{n} N_{i,p}(u) w_i P_i}{\sum_{i=0}^{n} N_{i,p}(u) w_i}$

여기에서, $P_i$는 NURBS 곡선을 표현하기 위한 제어점(control point)을, $w_i$는 각 제어점이 곡선에 미치는 영향인 가중치(weight)를, $N_{i,p}(u)$는 knot 벡터 $U$에 대해 정의되는 p-차의 기저함수를 각각 의미한다.

Fig. 2. NURBS representation of circular arc

../../Resources/kiiee/JIEIE.2026.40.1.21/fig2.png

Fig. 2와 같은 원호를 나타내기 위해서는 최소한 3개의 제어점이 필요하므로, 차수 $p=3$으로 한다. 그리고 원호의 시작점과 끝점에서의 knot 벡터 $u_1$과 $u_2$를 정의하여야 하고 가중치 $w$를 조정하여 원호의 모양을 결정할 수 있다.

3. 본 론

3.1. 반사판과 목표영역의 기하학적 구성

설계하고자 하는 반사판과 빛이 최종적으로 조사되는 목표영역 그리고 광원의 위치는 Fig. 3과 같이 구성하였다. 계산의 간소화를 위해 반사판은 목표영역의 가운데 동일한 $x$선상에 위치하며, 광원은 3차원 좌표 상(0,0,0)에 존재하는 것으로 가정하였다.

Fig. 3. Geometric configuration of the reflector and target area (a) y-z plane view, (b) x-z plane view

../../Resources/kiiee/JIEIE.2026.40.1.21/fig3.png

반사판의 형상은 5×5의 25개 제어점을 갖는 NURBS 곡선으로 구현하였으며, 가운데가 볼록한 기본적인 반사판의 형상 유지를 위해 Fig. 4와 같이 몇 가지 제약사항을 설정하였다.

Fig. 4. Constraints for NURBS reflector

../../Resources/kiiee/JIEIE.2026.40.1.21/fig4.png

반사판은 목표영역의 한 가운데 $x = 0$선상에 위치하므로 좌우대칭으로 두었으며, 테두리보다 가운데의 높이가 더 높도록 설정하였다. 그리고 $x^2 + y^2 \le a$와 같이 반사판의 전체 크기가 일정한 범위에 있도록 제한을 두었다. 이러한 제약사항들은 강화학습 시 무작위로 파라미터가 조정되며 반사판이 이상한 모양으로 변하지 않도록 해준다. 지금까지 Fig. 3과 4에서 언급된 파라미터들을 Table 2에 정리하였다.

Table 2. Parameters for the experiment

Parameter Description Remark
$d$ Distance between light source and target area -
$l$ Distance between light source and reflector -
$h$ Height from ground to reflector -
$a$ Horizontal length of target area Let $a = 200$
$b$ Vertical length of target area Let $b = 200$
$\Delta x, \Delta y$ Size of the light source Let $\Delta x, \Delta y = 0$
$\phi$ Beam radiation angle Let $\phi = \frac{4\pi}{3}$
$\theta$ Beam orientation angle $0 \le \theta \le \frac{\pi}{4}$
$\chi$ Vertical tilt of reflector $0 \le \chi \le \frac{\pi}{4}$
$(x_i, y_i, z_i)$ Coordinates of the control points -
$w_i$ Weight of each control point Let $w = 1$
$p$ Degree of NURBS Let $p = 3$

계산의 용이성 및 제한된 컴퓨팅 자원을 고려하여 일부 변수는 상수로 고정하고 $d$, $l$, $h$, $\theta$, $\chi$, $(x_i, y_i, z_i)$ 6개의 파라미터에 대해서만 강화학습을 통해 최적화를 수행하였다. 그리고 NURBS의 가중치 $w$는 1로 고정하여 knot 벡터 $u$와 $v$의 값은 python 제공 함수를 이용해 자동으로 할당되도록 하였다.

3.2. 실험의 수행

3.1에서 선정한 6개의 파라미터에 대해 강화학습을 수행하기 위해 식 (2)의 벨만방정식 근사식을 python으로 구현하였다. python에서 선정한 파라미터 값을 LightTools 소프트웨어로 전달하여 시뮬레이션을 수행하고, 균일도를 그 보상값으로 돌려받는다. 그리고 이를 바탕으로 다시 파라미터 값을 선정하여 LightTools로 전송하는 과정을 총 5,000회 반복하는데, Fig. 5에 전체 과정을 도식화하였다.

Fig. 5. Schematic diagram of reinforcement learning

../../Resources/kiiee/JIEIE.2026.40.1.21/fig5.png

에이전트에서 파라미터를 전달하면 LightTools에서는 freeform reflector를 통해 반사판 형상을 구현하고 목표영역으로 광선들을 조사하는데, 목표영역을 Fig. 6과 같이 $n \times n$개의 작은 영역으로 나누어 총 광선의 개수($R_T$) 대비 각 영역에 입사된 광선의 개수($R_{ij}$)를 이용하여 식 (4)와 같이 균일도($U$)를 계산하였다[14].

Fig. 6. Segmentation of the target area for uniformity calculation

../../Resources/kiiee/JIEIE.2026.40.1.21/fig6.png
(4)
$U = \frac{Min(R_{ij})}{Max(R_{ij})} (i, j \le n)$

정확한 균일도 산출을 위해서는 총 광선의 개수 $R_T$와 $n$ 값을 결정하는 것이 중요하다. 이를 위해 $R_T$와 $n$에 대해 실험을 수행하였으며, 그 결과를 Fig. 7에 표현하였다.

Fig. 7. Uniformity vs. number of rays and area divisions

../../Resources/kiiee/JIEIE.2026.40.1.21/fig7.png

Fig. 7을 살펴보면 $n \ge 10$이고 $R_T \ge 50,000$인 경우에는 균일도에 차이가 없음을 알 수 있다. 따라서 시뮬레이션에서는 $n = 10, R_T = 50,000$을 사용하였다.

3.3. 실험 결과

총 5,000회의 반복 에피소드의 결과를 Fig. 8에 나타내었다.

Fig. 8. Uniformity over reinforcement learning episodes

../../Resources/kiiee/JIEIE.2026.40.1.21/fig8.png

최초 상태(initial state)에서는 균일도 $U = 0.08$ 이었으나 최종 에피소드에서는 $U = 0.53$까지 향상되었다. 3D 벡터 방정식을 활용한 기존의 연구에서의 $U = 0.69$에 비해 다소 낮은 결과를 얻었다[7]. 이러한 결과는 Fig. 8의 (h)에도 나타나듯이, 외곽 쪽에 빛이 미치지 못하는 테두리 부분에 기인하였다. 이는 학습 과정에서 다양한 범위에 대해 학습이 이루어지지 못하고 특정 영역에 대해서만 탐색이 이루어졌기 때문이다. 강화학습을 통해 구한 각 파라미터들의 값은 Table 3과 같으며, 이를 이용해 구현한 반사판과 목표영역의 형상을 Fig. 9에 나타내었다.

Table 3. Optimal parameter values obtained via reinforcement learning

Parameter Range Value
$d$(㎜) 50 to 200, adjusted by 5 100
$l$(㎜) 10 to 30, adjusted by 0.5 13.5
$h$(㎜) -50 to 50, adjusted by 1 -20
$\theta$(˚) 0 to 45, adjusted by 0.5 0
$\chi$(˚) 0 to 45, adjusted by 0.5 5
$(x_i, y_i, z_i)$ - see below
$x_i$ -17.60 -23.81 -26.86 -26.49 -20.03
-8.98 -10.26 -11.72 -11.88 -9.17
0.00 0.00 0.00 0.00 0.00
8.98 10.26 11.72 11.88 9.17
17.60 23.81 26.86 26.49 20.03
$y_i$ -13.00 -5.06 3.71 14.30 27.28
-18.46 -8.62 1.24 13.55 36.19
-20.19 -10.18 0.00 13.07 38.51
-18.46 -8.62 1.24 13.55 36.19
-13.00 -5.06 3.71 14.30 27.28
$z_i$ 13.87 13.59 13.56 13.59 13.87
14.56 23.04 24.23 23.04 14.56
15.37 27.13 29.34 27.13 15.37
16.15 28.02 30.68 28.02 16.15
17.16 18.40 18.88 18.40 17.16

Fig. 9. Illuminance chart over reinforcement learning episodes

../../Resources/kiiee/JIEIE.2026.40.1.21/fig9.png

그리고 설계된 반사판을 Blender를 이용해 3D로 렌더링한 결과를 Fig. 10에 나타내었다. 이를 stl과 같은 형태로 변환할 경우 3D 프린팅을 통해 손쉽게 실물로 제작이 가능하다.

Fig. 10. Shape of the reflector converted to 3D

../../Resources/kiiee/JIEIE.2026.40.1.21/fig10.png

4. 결 론

이번 연구에서는 벨만 방정식을 기반으로 한 강화학습 알고리즘을 통해 입사되는 빛을 반사해 정해진 목표영역에 균일하게 조사하는 반사판의 형상을 설계하였다. 학습을 통해 6개의 파라미터에 대해 최적의 값을 도출하였으며, 시뮬레이션의 결과로 0.53의 균일도를 얻을 수 있었다. 이는 3D 벡터 방정식을 이용한 기존 방식에서의 균일도 0.69에 비하면 낮은 수준이나, 몇 가지 장점이 있다. 선행연구에서는 반사되는 빛의 경로와 광원이 겹치지 않도록 사용자가 반사판과 광원의 배치를 직접 결정하여야 하지만, 본 연구에서 제안된 방법은 에이전트가 파라미터를 자동으로 조정할 수 있어 다양한 상황에 적용이 가능하다. 그리고 방정식의 해를 구하는 수학적 계산과정 없이 파라미터의 조정과정만 거쳐 반사판의 형상을 도출하므로 프로그램으로 간단히 구현 가능하다. 다만, 하드웨어 사양이 충분하지 않는 환경에서는 학습에 매우 오랜시간이 소요될 수 있다는 단점도 있다.

향후의 연구에서는 특정 영역에서만 학습이 이루어지지 않도록 탐험확률(exploration rate)을 추가로 반영하여 강화학습 알고리즘을 수정하고, NURBS의 차수를 높이는 등의 개선을 통해 더 높은 균일도를 갖는 반사판을 설계하고자 한다. 아울러 설계된 반사판을 실제 형상으로 제작하여, 시뮬레이션을 통해 얻은 결과와 비교할 것이다.

Acknowledgements

이 논문은 2025년도 교육부 및 부산시의 재원으로 부산 RISE혁신원의 지원을 받아 수행된 지역혁신중심대학지원체계(RISE)의 결과이며(2025-RISE-02-001-008), 한국조명·전기설비학회 2025년도 추계학술대회에서 발표하고 우수추천논문으로 선정된 논문임.

References

1 
Kim Y. H., 2010, Air disinfection and cleaning system implantable in duct and AHU, Proc. of the 2010 SAREK Summer Conference, pp. 1148-1152Google Search
2 
Sharma P., 2021, Design considerations for a surface disinfection device using ultraviolet-C light-emitting diodes, Journal of Research of the National Institute of Standards and Technology, Vol. 126, No. 126045DOI
3 
Ahmed T. N., Kang E. C., Lee E. J., 2005, Performance improvement justification of a concentrating photovoltaic (CPV) system over a non concentrating PV system, Journal of the Korean Solar Energy Society, Vol. 25, No. 4, pp. 141-153Google Search
4 
Siahaan Y., Siswono H., 2019, Analysis the effect of reflector (flat mirror, convex mirror, and concave mirror) on solar panel, IJPEDS, Vol. 10, No. 2, pp. 943-952DOI
5 
Anson O., Seron F. J., Gutierrez D., 2008, NURBS based inverse reflector design, CEIGGoogle Search
6 
Brix K., Hafizogullari Y., Platen A., 2015, Solving the monge–ampère equations for the inverse reflector problem, Mathematical Models and Methods in Applied Sciences, Vol. 25, No. 5, pp. 803-837DOI
7 
Ahn J. W., Yu B. S., Ryu U. C., 2025, A study on combining simulation and 3D space vector for efficient UV-C LED reflector design, JIEIE, Vol. 39, No. 3, pp. 167-173DOI
8 
Wang L., 2010, Design, modeling and testing of optical surfaces in illumination optics, Ph.D. Thesis, The University of ArizonaGoogle Search
9 
Kaelbling L. P., Littman M. L., Moore A. W., 1996, Reinforcement learning: A survey, Journal of Artificial Intelligence Research, Vol. 4, pp. 237-285DOI
10 
Jeong H. H., 2024, Introduction of reinforcement learning, Journal of Drive and Control, Vol. 21, No. 4, pp. 250-264DOI
11 
Dong H., Ding Z., Zhang S., 2020, Deep reinforcement learning, Springer, pp. 47-123Google Search
12 
Park J. W., Lee D. G., 2000, A study on the generation of ship hull lines using NURBS method, JOET, Vol. 14, No. 1, pp. 95-101Google Search
13 
Hong C. S., Hong S. Y., Lee H. C., 1999, Analytic and discrete fairing of 3D NURBS curves, JCDE, Vol. 4, No. 2, pp. 127-138Google Search
14 
Yao Q., Zhong B., Shi Y., Ju J., 2017, Evaluation of several different types of uniformity metrics and their correlation with subjective perceptions, LEUKOS, Vol. 13, No. 1, pp. 33-45Google Search

Biography

Jae-Wook Ahn
../../Resources/kiiee/JIEIE.2026.40.1.21/au1.png

He received B.S. degree in the electronic engineering from Korea Aviation University, Korea, in 2004 and his M.S. degree in the electrical engineering from Pukyong National University, Busan, Korea, in 2021. He is now a Ph. D. student in the Department of Electrical Engineering at Pukyong National University, Busan, Korea and the government worker of ROKAF(Republic of Korea, Air Force).

Uh-Chan Ryu
../../Resources/kiiee/JIEIE.2026.40.1.21/au2.png

He received B.S. and M.S. degrees in electrical engineering from Seoul National University, Seoul, Korea, in 1997 and 1999, respectively, and his Ph. D. degree in the school of information and communications from Gwangju Institute of Science and Technology, Gwangju, Korea. Since Sep. 2013, he is a professor in the Department of Smart Electrical and Electronics Engineering at Pukyong National University, Busan, Korea.