원태연
(Taeyeon Won)
1iD
조수민
(Su Min Jo)
2iD
정지헌
(Ji Heon Jung)
3iD
장명도
(Meongdo Jang)
4†
김용민
(Yongmin Kim)
5iD
-
정회원 · 건국대학교 대학원 기술융합공학과 박사과정
(Konkuk University · teadone@konkuk.ac.kr)
-
정회원 · 건국대학교 대학원 기술융합공학과 박사과정
(Konkuk University · jsm302@konkuk.ac.kr)
-
정회원 · 한국건설기술연구원 미래스마트건설연구본부 석사후연구원
(Korea Institute of Civil Engineering and Building · jungjh97@kict.re.kr)
-
교신저자 · 건국대학교 대학원 기술융합공학과 연구교수
(Corresponding Author · Konkuk University · saimm@konkuk.ac.kr)
-
국방과학연구소 국방인공지능기술연구원 선임연구원
(Agency for Defense Development · lovefortajo@gmail.com)
Copyright © 2021 by the Korean Society of Civil Engineers
키워드
영상변환, 무감독 세그멘테이션, UNSB, 열적외 영상, 라이다
Key words
Image translation, Unsupervised segmentation, UNSB, Thermal image, LiDAR
1. 서 론
야간영상은 재난 군사작전, 감시 상황에서 매우 중요한 정보원으로서 가시성 향상을 위해 많은 연구가 진행되어 왔다(Jiang et al., 2025). 특히, 주요 영상 자료로는 열영상이 활용되었으나 다양한 색상의 부족, 복잡한 지형에 대한 세부묘사의 어려움 등이 한계점으로 지적되었다(Jiang et al., 2025). 이러한 이유로 열영상은 야간영상의 주간영상화를 위한 참조 자료로 활용되거나, 시각적 활용도를 높이기 위하여 컬러화 연구로 확장되는 방향으로 연구가
진행되고 있다.
최근 컴퓨터 비전 분야에서는 야간영상의 컬러화 기술 및 야간영상의 주간 영상화로 변환하는 기술이 활발히 연구되고 있다. 해당 기술은 적외선(IR)
카메라가 제공하는 야간 흑백 영상으로 인한 사물 식별의 한계성을 개선하여 범죄 예방 및 보안 효과를 크게 향상시켰다. 또한, 조명 시설이 열악한 농장이나
축사에서 활용도가 급증하고 있으며, 정확한 객체 인식과 색상 복원이 가능해짐에 따라 군사 감시, 자율주행 등 분야에서 새로운 응용 가능성을 열어주었다(Luo et al., 2022).
기존에는 흑백 영상의 컬러화 또는 야간영상의 주간 영상화를 위해 주로 생성적 적대 신경망(GAN) 기반의 기법들이 활용되었다. Isola et al.(2017)이 제안한 Pix2pix는 조건부 GAN(Conditional GAN)을 이용하여 짝지어진 야간 및 주간 영상을 기반으로 변환을 수행하였다. 이후
짝지어진 데이터가 없는 경우에도 야간 및 주간 영상 데이터를 활용할 수 있는 CycleGAN 알고리즘이 제안되면서 보다 다양한 영상변환 기술이 가능하였다(Zhu et al., 2017). 최근에는 GAN을 대체할 확률적 모델 기반의 Diffusion 기법이 주목받고 있으며, 그 대표적인 사례인 Palette는 흑백 영상의 컬러화를
포함한 다양한 Image-to-Image Translation 문제에 성공적으로 적용되었다(Saharia et al., 2022).
국내에서는 Lee et al.(2023)가 기존에 구축된 DB를 활용하여 열화상 영상을 가시광 RGB 도메인으로 변환하는 장소 인식 시스템을 제안하였다. 이때 영상의 구조적 및 국소적 정보
손실을 방지하기 위하여 계층적 네트워크 구조를 갖는 HRFormer를 적용하였다. 해당 방법론은 고해상도 feature map을 병렬로 연산하여 디테일한
정보를 유지하는 특성을 가지며, 이를 통하여 야간 환경에서 장소 인식이 가능함을 확인하였다.
그러나 열적외 영상은 가시영역 파장대를 이용한 광학영상과 비교하여 해상도가 낮아 가시성이 저하되는 한계가 있으며, 컬러화된 모의 영상도 광학영상과
비교하여 해상도가 떨어지는 한계점이 존재한다(Jensen, 2007). 이러한 문제를 해결하기 위하여 Jung et al.(2025)은 야간 열적외 영상, 라이다 강도 영상, 거리 영상을 정합하여 주간 컬러화 영상을 모의하였다. 또한, CycleGAN, CUT(Contrastive
Unpaired Translation), UNSB(Unpaired Neural Schrödinger Bridge), CycleGAN-turbo 등
네 가지 영상 딥러닝 모델에 적용하여 그 결과를 비교하였다. 다만, 해당 연구에서는 지형 객체별 주야간 온도변화가 다르다는 점을 고려하지 않아 야간에
획득한 영상으로부터 주간 영상을 모의하는 과정에서 객체별 온도변화를 반영하지 않은 한계가 있다.
본 연구에서는 이러한 한계를 극복하기 위해 열적외 영상, 라이다 강도 영상, 라이다 거리 영상에 더하여, 객체 피복별 비열 특성을 반영한 무감독 세그멘테이션
영상을 추가 학습 데이터로 사용하였다. 또한, Diffusion 기반의 짝지어진 데이터 없이 학습 가능한 UNSB 모델에 적용하여 광학 영상을 모의하였다.
2. 실험자료 및 전처리
실험 학습자료 구성에 사용된 센서는 라이다, 열적외 카메라, 광학카메라 총 3종으로, 야간 상황 및 조도가 낮은 환경에서의 영상 획득을 위해 열적외
센서와 능동형 센서인 라이다를 채택했다. 또한, 페어 학습자료로 사용하기 위해 광학 디지털 카메라 영상을 채택했다.
본 연구에서 사용한 열적외 카메라는 FLIR사의 Boson 제품을 사용하여 640*512의 비교적 고해상도 열적외 영상을 획득할 수 있으며, 열적외
센서 화소 크기는 12 ㎛를 획득하였다. 또한, 대상 온도 감지 범위는 0℃~500℃이며, HFOV(Horizontal Field of View)는
50°로 촬영 가능한 소형센서이다. 획득된 열적외 영상은 센서 출력값을 실제 복사량 및 온도로 변환하기 위해 방사보정을 수행하였으며, 영상의 물리적
해석 가능성을 높이기 위해 화소 단위 보정값을 적용하였다.
라이다는 광학 영상, 열적외 영상과 정합을 위해 전방으로 레이저를 비추고 수신기에서 반사되는 산란광을 포착하는 솔리드 스테이트 방식의 라이다인 SOSLAB사의
ML-120 제품을 사용해 영상을 획득했다. ML-120 제품은 화각 120°×35°(H×V)를 가지고, 초당 645,120 데이터 포인트를 획득
가능하며, 최대 감지거리는 80 m까지 가능하다. 광학 디지털카메라는 insta360 ONE RS 4K 카메라로, 해상도는 8000×6000(4:3),
8000×4500(16:9), 4000×3000 (4:3), 4000×2250(16:9)을 가지며 고해상도 영상을 촬영할 수 있고, 16 mm의 초점거리를
가진다.
실험 지역은 모의하고자 하는 대상이 존재하고, 식생 및 보행로와 주변 건물이 다양하게 분포해 있는 장소를 선정하여 대학교 캠퍼스 내부에서 촬영을 진행했다.
실험영상은 전방에 기념비와 황소상, 교가비가 존재하고 식생과 보행로가 좌우로 대칭적으로 배치되어 있다. 촬영은 주야간의 온도변화가 뚜렷하게 나타날
수 있는 맑은 날씨에서 라이다, 열적외, 광학 영상 쌍으로 주야간 500쌍을 촬영했고, 대상을 바라보며 반원 방향으로 회전하며 촬영을 진행했다. 주야간으로
촬영한 500쌍의 학습데이터 중 473쌍은 Train 자료로, 27쌍은 Validation 자료로 사용하였다.
촬영 영상을 학습자료로 사용하기 위해 획득한 주야간 촬영 자료 중 라이다 자료에서는 결측값의 제거와 이종 센서 간의 일관성 유지를 위해 선형 보간을
진행하고, 센서 간의 화각 및 FOV의 차이로 인한 촬영 왜곡의 제거를 위해 체커보드를 통한 내부표정요소를 산출하여 센서 간 캘리브레이션을 진행했다.
또한, 라이다 강도 영상은 센서 특성상 잡음이 존재하므로 임계값을 설정해 이상치를 제거하였다. 임계값의 기준은 강도 영상의 히스토그램 분석을 통해,
평균 화소값보다 비정상적으로 높은 값을 가지는 화소를 이상치로 분류했고, 주간 강도 영상에서는 98.7 %, 야간 강도 영상은 99.1 %로 설정해
이상치를 제거했다. 이후 정규화된 각 센서 영상을 딥러닝 모델에 사용하기 위해 도메인 A, B 영상 모두 4밴드 영상으로 구성하였다. 도메인 A는
열적외 영상, 라이다 강도 영상, 라이다 거리 영상을 Python의 GDAL 라이브러리 중 Image Composite 기능으로 정합하여 3밴드 영상을
구성했고, 도메인 B는 RGB 형태의 광학영상을 구성하여 영상 간 채널 일관성을 확보하였다. 또한, 각 영상에 대하여 CNN 기반 비지도 이미지 분할을
수행하여 생성된 영상을 각각의 영상 마지막 밴드에 추가하였다.
주야간의 학습자료는 동일한 위치에서 동일한 각도로 촬영을 진행해도 촬영 조건과 우연오차 등으로 주야간 영상 간의 기하 차이가 존재한다. 그러므로,
실험에서는 영상 모의 정확도 향상을 위해 주야간 영상 간의 오차를 줄이고자 엣지 검출 기반 중심점 매칭 알고리즘을 통해 영상 내 겹치는 영역을 잘라내었다.
또한, 모든 학습 검증 영상은 16비트 정수형의 640*344 크기를 가지는 영상으로 구성했다.
3. 제안 방법
3.1 무감독 세그멘테이션
무감독이란 학습데이터에 정답을 제공하지 않은 경우에도 패턴 혹은 구조를 통하여 스스로 찾아내는 기계학습의 일종이다(Wang, 2021; Bengio et al., 2014). 무감독 세그멘테이션이란 레이블, 즉 정답을 제공하지 않고서 영상을 어떠한 군집으로 학습하는 것을 의미한다. 이때 군집 레이블은 비슷한 특징을 가진
화소끼리 동일한 레이블로 자동 클러스터화된다. 해당 논문에서는 CNN(Convolution Neural Network)을 이용하여 영상 내 각 화소의
특징 벡터를 추출하고, 이 특징들을 기반으로 화소들을 클러스터링하여 임시의 레이블을 생성하였다(Kanezaki, 2018). 이때 세 가지 제약 조건을 만족시키도록 학습을 수행하였는데, 첫 번째 조건으로는 특성 유사성(feature similarity)으로, 비슷한 특징을
가진 화소들이 동일한 레이블로 분류되도록 설정하였다. 두 번째 조건은 공간 연속성(spatial continuity)으로, 인접한 화소들이 같은 레이블을
갖도록 설정하였다. 마지막으로, 세 번째 조건은 클러스터 수를 제한하여 가능한 많은 수의 세그먼트를 갖도록 유도하였다. 또한, 이러한 세 가지 조건을
만족시키기 위하여 반복적인 최적화 과정을 수행하였다.
Kanezaki(2018)이 제안한 이 방법론은 순전파(forward) 과정을 통하여 특징을 추출하고, 추출된 특징들은 위의 첫 번째, 세 번째 조건을 적용하여 화소 간의
군집화된 레이블을 생성한다. 이후 레이블 정제(Superpixel Refinement) 과정을 통하여 할당된 레이블 간의 공간 연속성 제약을 적용하였다.
마지막으로, 역전파(Backward) 과정에서는 정제된 레이블과 네트워크 출력 간의 Softmax Cross-Entropy Loss를 계산하였다.
이 계산된 손실값을 기반으로 모든 컨볼루셔널 계층과 분류자들에 역전파하여 가중치를 조정하였다. 해당 무감독 세그멘테이션 과정은 Fig. 1에 나타내었다.
Fig. 1. Workflow of CNN-Based Unsupervised Segmentation and Gradient-Based Learning
3.2 UNSB
확산(Diffusion) 모델은 두 임의의 분포 간에 가우시안 노이즈를 점진적으로 첨가하면서 상호 변환하는 방법으로 동작한다(Ho et al., 2020). 이러한 두 임의의 분포를 연결하는 방식은 확률 미분 방정식(SDE, Stochastic Differential Equation)을 기반으로, 한
분포를 오염시키고 다른 분포를 복원하는 연속적인 과정으로 진행된다(Song et al., 2021). 그러나 고차원의 복잡한 데이터에서는 학습데이터가 충분하지 않거나 특징이 부족해 차원의 저주(curse of dimensionality) 현상이
발생하고, 모델 성능이 저하되거나 학습이 어려워지는 문제가 발생하였다(Kim et al., 2024).
이러한 일반적인 확산 모델의 문제점을 해결하기 위하여 Kim et al.(2024)는 확산 모델을 기반으로 UNSB(Unpaired Neural Schrödinger Bridge)를 제안하였다. 이 방법론은 시작 분포와 목표 분포를
연결하여 확률적 경로를 찾는 Schrödinger Bridge 문제를, 복잡한 분포 간의 직접적인 변환은 피하되 여러 개의 작은 단계로 나누어 변환을
수행하도록 하였다. 또한 각 단계에서 생성자(generator)와 판별자(discriminator)가 적대적 학습하는 구조를 이루고 있으며, 해당
구조를 통하여 원래의 A 이미지 분포들을 B 이미지 분포들로 점차 이동시켰다. 이때, 중간 단계에서 발생하는 분포들은 마치 마르코프 체인(Markov
Chain)처럼 연쇄적으로 상호작용을 일으켜 이전 결과를 바탕으로 새로운 상태의 결과물을 생성하였다. 다음 과정은 Fig. 2에서 확인할 수 있으며, 이러한 방식으로 기존 확산 모델보다 안정적으로 분포 간 변환 과정을 수행할 수 있고, 고차원 데이터를 사용할 때의 학습 성능을
개선하였다.
Fig. 3에서는 본 연구의 전반적인 실험 흐름도를 나타내었다. Fig. 3의 Train A와 B는 UNSB 모델의 학습 데이터로 사용하였다. Train A는 야간에 촬영한 열적외 영상과 라이다 강도 영상, 거리 영상을 정합한
3밴드 영상과 해당 영상의 무감독 세그멘테이션을 수행한 1밴드 영상을 최종 정합한 영상이며 학습데이터로 사용하였다. Train B에서는 주간에 촬영한
RGB 3밴드 영상과 해당 영상의 무감독 세그멘테이션을 수행한 영상을 정합하여 학습 데이터로 사용하였다.
Fig. 3. Experimental Flowchart
Fig. 2. Training Workflow of the UNSB Model
4. 결과 및 분석
본 연구에서는 야간 열적외영상을 주간 광학영상으로 변환하고자 Unsupervised segmentation 기법과 UNSB 기법을 결합하여 모의영상을
생성하였다. 이때 입력한 영상의 크기는 정합된 영상을 기반으로 잘라낸 640*344이며, 모델의 주요 파라미터는 경험적으로 조정하여 Epoch: 400,
pool_size: 50, lambda_NCE: 1.2, lambda_SB: 1.2, lr: 0.0002, batch_size: 1로 설정하였다.
이후 학습된 모델 중 10 에포크마다 저장된 모델에 test A 데이터를 입력하여 결과 영상을 획득하였고, 결과 영상과 test B 데이터를 사용하여
정량적 평가를 진행하였다.
우선 정량적 평가에 앞서 시각적으로 분석하기 위하여 test B 영상과 생성된 결과 영상을 나란히 놓고 비교하였다. 아래 영상들은 후술할 정량적 평가와
정성적 평가에서 비교적 좋은 결과를 보여주는 120 에포크 모델을 사용한 결과들이다. Fig. 4, 5, 6, 7은 차례대로 실제 영상, 입력 영상, 레이블 영상, 그리고 모의 영상 순으로 배치한 결과들이다.
잘못된 이미지 변환이 주로 이루어진 곳은 하늘, 식생, 그리고 건물 부분이었으며, 주로 색 번짐 혹은 잘못된 객체의 배치와 같은 증상이 나타났다.
하지만 그 외의 부분인 건물의 창문, 동상과 같은 부분은 세부적인 요소들에 대해 컬러화가 정상적으로 변환된 것을 확인할 수 있다. 하지만 바닥의 선,
조명과 같은 객체들은 온도의 변화에 영향을 끼치지 않고 학습으로 인하여 배치되기에 확률적으로 높은 곳들에 적용이 되어 무작위하게 변환이 일어난 것으로
추정한다. 또한, 하늘과 식생의 잘못된 변환은 학습 영상 중 대부분 영상에 하늘이 포함되어 있지만, 나무의 테두리와 같은 특징을 제외하면 하늘과 나무를
구분할 수 있는 명확한 특징이 존재하지 않기에 두 객체 레이블 사이에 혼동이 발생한 것으로 추정한다. 이는 입력 영상인 열적외, 라이다 강도 영상,
거리 영상을 정합한 3밴드 영상에서 하늘과 식생에 대한 뚜렷한 차이가 존재하지 않고, 이를 무감독 세그멘테이션한 결과에서도 잘못된 분류가 발생하여
특정 부분에 잘못된 모의가 일어난 것으로 추정한다.
본 실험에서는 시각적인 분석뿐만이 아니라 정량적인 분석을 위하여 성능지표로써 RMSE, R2와 PSNR(Peak Signal-to-Noise Ratio), SSIM(Structural Similarity Index Map)을 산출하였다.
PSNR(Peak Signal-to-Noise Ratio)은 영상의 손실 정보를 평가하여 유사성 측정에 사용되는 지표로, 높은 값을 보일수록 두 영상이
서로 유사함을 의미한다(Wang et al., 2004). SSIM(Structural Similarity Index Map)은 두 영상 간의 밝기, 대비, 구조 세 가지 요소를 비교하여 높을수록 원 영상과
구조적으로 유사함을 나타낸다(Hore and Ziou, 2010). 이러한 분석을 통하여 모델이 학습 과정에서 어떠한 성능 변화 양상을 보여주는 것인지를 확인하고, 모델 개선 방향과 학습 조기 종료 시점 등을 확인할
수 있었다.
모델의 성능 변화는 Fig. 8에서 확인할 수 있듯 10~40 에포크 구간에서 RMSE가 빠르게 감소하고, PSNR과 SSIM 지수가 상승하여 학습으로 생성된 출력 영상과 실제
영상 간의 구조적 유사성 복원 성능을 확보하는 것을 확인할 수 있다. 특히 RMSE의 경우, 58.42(10 에포크)에서 51.44(40 에포크)로
감소하는 것을 확인 할 수 있다. 이후 모델은 점차 안정화되며 SSIM의 값이 0.57~0.59 구간에서 완만히 증가하였다. 160 에포크 이후의
구간에서는 전반적인 지표의 큰 변화 없이 소폭의 진동으로 모델이 수렴 상태에 도달했음을 보여주었다. 이때, PSNR은 약 14.16~14.21 사이에서
유지되며, SSIM 역시 0.59 내외로 유지된다. 이는 Table 1에서 확인 할 수 있듯 추가적인 학습이 성능 향상에 크게 기여하지 않았음을 시사한다. 따라서 모델이 안정적인 결과를 도출하는 구간은 120~150
에포크 사이이며, 그들 중 SSIM 0.593, PSNR 14.34, R2 0.218을 보여주는 120 에포크가 가장 균형잡힌 성능을 보여준다고 판단하였다. 이는 시각적인 평가에서도 좋은 결과를 얻은 에포크이기도 하다.
이러한 결과를 평가 지표들에 대한 관계를 이용하여 분석한 것은 다음과 같다. SSIM과 PSNR은 일반적으로 동반 상승 혹은 하강하는 경향을 보이며,
이는 구조적 유사성과 전반적인 영상 품질이 함께 향상되는 특성과 부합하다. 또한, RMSE와 PSNR은 음의 상관관계를 가지고, 이는 RMSE가 감소할수록
PSNR이 증가하는 일반적인 영상 복원, 변환 모델의 특성과 일치한다.
하지만 시각적으로 좋아 보이는 것과 달리 RMSE, SSIM, PSNR은 비교적 낮은 수치를 도출하였는데, 이는 UNSB 모델로 생성한 결과물이 SDE의
역연산을 통하여 복원되는 과정 중, 뚜렷한 윤곽이나 픽셀 패치의 뭉개짐이 발생하여 정확도 평가에 악영향을 끼친 것으로 예상한다. 이는 무감독 세그멘테이션
기법으로도 식생, 하늘과 같은 화소들에 대하여 군집화가 잘 이루어지지 않았음을 의미한다. 특히, 해당 기법으로부터 레이블이 임의의 숫자로 부여되었기에
영상 별로 다른 동일 개체 군집이어도 다른 숫자의 레이블로 관리된다. 이런 레이블을 사용하여 영상을 생성하기 때문에 주변 화소들을 오염시키면서 평가
지표들에 악영향을 끼친 것으로 예상하였고, 레이블별 모의 정확도를 평가하기에 적절치 않다고 판단하여 이는 평가에서 제외하였다. 또한, test A
영상과 test B 영상 간에 정확한 정합이 이루어지지 않아, 옳게 추정을 한 이미지의 화소도 잘못 추정을 한 것으로 평가되어 실제 정확도는 보다
더욱 높을 것으로 추정한다.
Fig. 4. Example of Real Image Used in the Experiment (a), Input Image (b), Ground
Truth Label (c), and Simulated Image (d)
Fig. 5. Example of Real Image Used in the Experiment (a), Input Image (b), Ground
Truth Label (c), and Simulated Image (d)
Fig. 6. Example of Real Image Used in the Experiment (a), Input Image (b), Ground
Truth Label (c), and Simulated Image (d)
Fig. 7. Example of Real Image Used in the Experiment (a), Input Image (b), Ground
Truth Label (c), and Simulated Image (d)
Fig. 8. Graph of Performance Metric Changes on Test Images by Training Epoch
Table 1. Performance Metrics per Epoch on Test Images
epoch
|
RMSE
|
R2
|
SSIM
|
PSNR
|
epoch
|
RMSE
|
R2
|
SSIM
|
PSNR
|
110
|
56.38678
|
-0.03798
|
0.540402
|
13.10884
|
210
|
49.86528
|
0.188466
|
0.56412
|
14.17516
|
120
|
48.92592
|
0.218806
|
0.593264
|
14.34005
|
220
|
49.26475
|
0.20794
|
0.576945
|
14.28015
|
130
|
50.29259
|
0.174519
|
0.579915
|
14.10093
|
230
|
49.85157
|
0.188967
|
0.579001
|
14.17726
|
140
|
49.24794
|
0.208435
|
0.585537
|
14.28336
|
240
|
49.83294
|
0.189567
|
0.58493
|
14.18053
|
150
|
49.82385
|
0.189838
|
0.582952
|
14.18225
|
250
|
49.60977
|
0.196759
|
0.586431
|
14.21979
|
160
|
50.20191
|
0.177522
|
0.572069
|
14.11646
|
260
|
49.55062
|
0.19873
|
0.584924
|
14.22985
|
170
|
49.79339
|
0.190816
|
0.57216
|
14.18764
|
270
|
49.91363
|
0.186951
|
0.586541
|
14.16642
|
180
|
49.33702
|
0.205564
|
0.572837
|
14.26769
|
280
|
49.91085
|
0.18704
|
0.587659
|
14.16692
|
190
|
50.0775
|
0.18159
|
0.571238
|
14.13802
|
290
|
49.76902
|
0.191647
|
0.590435
|
14.19167
|
200
|
54.97016
|
0.013783
|
0.533435
|
13.32867
|
300
|
49.92305
|
0.186639
|
0.585652
|
14.16481
|
5. 결 론
야간에 촬영한 열적외 영상의 주간 영상화를 수행하였고, 주야간 사이의 객체별 온도 변화특성을 반영하기 위해 무감독 세그멘테이션 기법을 적용한 분할과정을
도입하였다. 야간영상은 광학 영상을 배제한 라이다 강도 영상, 거리 영상 그리고 열적외 영상을 사용하였고, 영상 딥러닝 기반 UNSB 모델을 이용해
모의 영상을 생성하였다. CNN 기반의 무감독 세그멘테이션 기법을 적용 시, 특성 유사성, 공간 연속성, 클러스터 수 제한과 같은 세 가지 제약 조건을
만족하도록 하였다. 실험결과, 시각적으로 유사한 형상을 모의하였고, 영상 내 세부적인 요소들의 색상이 정상적으로 변환되었다. 그러나 영상의 하늘,
식생 부분에서는 잘못된 변환이 발견되었는데, 이는 객체 레이블 간 구분할 수 있는 특징이 명확하지 않았기 때문으로 추정한다. 정량적 지표의 산출 결과,
SSIM 0.593, PSNR 14.34, R2 0.218의 값을 보였다. 정량적 지표가 비교적 낮게 나타난 원인으로는, 딥러닝 기반 모의 과정에서 픽셀 패치가 뭉개지는 현상이 발생했거나 무감독
세그멘테이션 영상 생성 과정에서 군집화가 효과적으로 이루어지지 않았을 가능성을 들 수 있다. 이러한 결과는 야간 열적외 영상의 주간 영상화 모의가
시각적으로 효과적인 결과를 제공하지만, 일부 객체의 특징이 부족하여 군집화가 불완전할 경우 성능이 저하될 수 있음을 보여준다. 향후, 객체별 분할
정확도를 향상시키기 위한 고도화된 세그멘테이션 기법의 개발이 필요하며, 정량적 지표를 개선하기 위한 알고리즘의 연구도 추가적으로 수행되어야 한다.
Acknowledgements
This work was supported by KOITA grant funded by MSIT(R&DCENTER Capability Enhancement
Project, 1711199726).
References
"Bengio, Y., Courville, A. and Vincent, P. (2014). “Representation learning: A review
and new perspectives.” IEEE Transactions on Pattern Analysis and Machine Intelligence,
Vol. 35, No. 8, pp. 1798-1828, https://doi.org/10.1109/TPAMI.2013.50."

"Ho, J., Jain, A. and Abbeel, P. (2020). “Denoising diffusion probabilistic models.”
Advances in Neural Information Processing Systems, Vol. 33, pp. 6840-6851, https://doi.org/10.48550/arXiv.2006.11239."

"Hore, A. and Ziou, D. (2010). “Image quality metrics: PSNR vs. SSIM.” 2010 20th International
Conference on Pattern Recognition (ICPR), Istanbul, Turkey, 23-26 August 2010, pp.
2366-2369, https://doi.org/10.1109/ICPR.2010.579."

"Isola, P., Zhu, J. Y., Zhou, T. and Efros, A. A. (2017). “Image-to-image translation
with conditional adversarial networks.” IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pp. 5967-5976, https://doi.org/10.1109/CVPR.2017.632"

"Jensen, J. R. (2007). Remote sensing of the environment: An earth resource perspective.
Pearson Prentice Hall."

"Jiang, Q., Zhou, T., He, Y., Ma, W., Hou, J., Abdul Ghani, A. S., Miao, S. and Jin,
X. (2025). “CMMF-Net: A generative network based on CLIP-guided multi-modal feature
fusion for thermal infrared image colorization.” Intelligence & Robotics, Vol. 5,
No. 1, pp. 34-49, https://doi.org/10.20517/ir.2025.03."

"Jung, J. H., Park, J., Hwang, C., Lee, J. and Eo, Y. D. (2025). “Colorization based
on LiDAR and thermal image.” Journal of the Korean Society of Surveying, Geodesy,
Photogrammetry and Cartography, Vol. 43, No. 1, pp. 91-99, https://doi.org/10.7848/ksgpc.2025.43.1.91
(in Korean)."

"Kim, B., Kwon, G., Kim, K. and Ye, J. C. (2024). “Unpaired image-to-image translation
via neural schrödinger bridge.” The 12th International Conference on Learning Representations
(ICLR 2024), Vienna, Austria, https://doi.org/10.48550/arXiv. 2305.15086."

"Kanezaki, A. (2018). “Unsupervised image segmentation by backpropagation.” IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), 15-20 April 2018,
pp. 1543-1547, https://doi.org/10.1109/ICASSP.2018.8462533."

"Lee, S., Kim, T. and Choi, Y. (2023). “Pseudo-RGB-based place recognition through
thermal-to-RGB image translation.” Journal of Korea Robotics Society, Vol. 18, No.
1, pp. 48-52, https://doi.org/10.7746/jkros.2023.18.1.048 (in Korean)."

"Luo, F., Li, Y., Zeng, G., Peng, P., Wang, G. and Li, Y. (2022). “Thermal infrared
image colorization for nighttime driving scenes with top-down guided attention.” IEEE
Transactions on Intelligent Transportation Systems, Vol. 23, No. 9, pp. 15808- 15823."

"Saharia, C., Chan, W., Chang, H., Lee, C. A., Ho, J., Fleet, D. J. and Norouzi, M.
(2022). “Palette: Image-to-image diffusion models.” IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), pp. 18661-18671, https://doi.org/10.48550/arXiv.2111.05826."

"Song, Y., Sohl-Dickstein, J., Kingma, D. P., Kumar, A., Ermon, S. and Poole, B. (2021).
“Score-based generative modeling through stochastic differential equations.” International
Conference on Learning Representations (ICLR), https://doi.org/10.48550/arXiv.2011.13456."

"Wang, D. (2001). “Unsupervised learning: Foundations of neural computation.” Neural
Networks, Vol. 22, No. 2, pp. 101-102, https://doi.org/10.1609/aimag.v22i2.1565."

"Wang, Z., Bovik, A. C., Sheikh, H. R. and Simoncelli, E. P. (2004). “Image quality
assessment: From error visibility to structural similarity.” IEEE Transactions on
Image Processing, Vol. 13, No. 4, pp. 600-612, https://doi.org/10.1109/TIP.2003.819861."

"Zhu, J. Y., Park, T., Isola, P. and Efros, A. A. (2017). “Unpaired image-to-image
translation using cycle-consistent adversarial networks.” IEEE International Conference
on Computer Vision (ICCV), pp. 2223-2232, https://doi.org/10.1109/ICCV.2017.244."
