심승보
(Seungbo Shim)
1†
양엄지
(Eomzi Yang)
2
-
종신회원, 한국건설기술연구원 지반연구본부 수석연구원, 교신저자
-
비회원, 한국건설기술연구원 지반연구본부 박사후연구원
Copyright © The Korea Institute for Structural Maintenance and Inspection
키워드
암맹 초해상화, 안정적인 확산 기법, 철근 및 배근 영상, 합성 데이터, 딥러닝
Key words
Blind super-resolution, Stable Diffusion, Rebar images, Synthetic data, Deep learning
1. 서 론
철근 콘크리트는 고층 건물을 시공하는데 뼈대와 같은 역할을 한다. 시공이 복잡하지 않고 철근, 골재, 물, 시멘트와 같은 재료를 쉽게 수급할 수 있어,
현재 널리 활용되는 시공법 중 하나이다(Shin et al., 2021). 이러한 공법이 널리 사용되는 이유는 콘크리트의 인장력이 압축력에 비해서 매우 약하기 때문이다. 이러한 점을 보완하기 위해서 철근을 삽입하여 구조적
안전성을 확보하고 있다. 이처럼 콘크리트 공사에서 철근 공사는 건축물의 구조적 안전성과 직접적인 인과관계가 있는 관계로 작업자의 주의뿐만 아니라 관리자의
관심도 필요하다.
최근에는 철근 및 배근 상태를 영상 기반으로 기록하고 분석하려는 시도가 증가하고 있으며, 이러한 방식은 기존의 수기 기록 또는 단순 사진 촬영 방식보다
반복 측정과 디지털 기반의 이력 관리에 유리하다. 특히 360도 카메라, 보디캠, 폐쇄회로 텔레비전(Closed Circuit TeleVision,
CCTV) 등 다양한 영상 장비를 활용한 접근 방식에 대한 현장 적용의 기술적 가능성을 입증하고 있다(Seong et al., 2023; Lee et al., 2022). 그러나 이들 기술은 모션 블러나 현장 잡음과 같은 요인으로 인해 영상의 선명도가 저하된다는 문제를 내포하고 있어, 보다 정밀한 시각 정보 확보를
위한 기술적 보완이 요구된다(Feng et al., 2025).
철근 배근 상태의 자동 인식 및 계량화를 위한 인공지능 기반 접근도 활발히 연구되고 있다. 예를 들어, 객체 탐지 분야에서 널리 활용되는 실시간 딥러닝
모델인 YOLO를 기반으로 한 철근 계수 시스템이나, 합성곱 신경망(CNN)과 호모그래피 기법을 결합한 철근 탐지 연구는 현장 자동화 가능성을 보여주고
있다(Sun et al., 2025). 그러나 이들 모델 역시 근본적으로 입력 영상의 품질에 민감하며, 특히 저해상도 영상에서는 철근 간 간격, 배열, 손상 여부 등의 세부 구조 정보를
정확히 인식하는 데 한계가 존재한다.
더 나아가, 영상의 품질 저하 및 구조 왜곡은 단순 인식 정확도를 저해하는 데 그치지 않고, 철근 배근 공사의 품질관리와 시공검토 과정 전체에 영향을
미칠 수 있다. 실제로 철근 배근 작업 이후에 설계도면과 시공 상태의 차이를 관찰하고 기록하기 위해서는 선명한 영상이 필요하다. 그러나 이러한 기술들은
현장 모션 블러나 잡음뿐 아니라 영상 압축 저장으로 인해 영상이 흐릿해지고 세부 구조가 손실이 발생될 수 있으며, 이는 이후 철근 배근 상태의 구조
정보 판단과 기록 정확성에 영향을 미친다(O’Byrne et al., 2022). 따라서 현장 영상으로부터 구조 형태를 손실 없이 정밀하게 복원할 수 있는 기술적 보완이 필수적이다.
최근 개정된 조례에서는 철근 배근 과정을 영상 매체로 기록하도록 규정하고 있다. 그러나 실제 현장에서는 낮은 품질의 영상이 빈번하게 취득되어, 신뢰성
있는 기록 자료를 확보하는 데 한계가 발생한다. 특히 건설 현장에서 수집된 철근 배근 영상은 초기부터 저해상도, 비정형 블러, 잡음 등 다양한 열화
요인을 포함하고 있는 경우가 많다. 이러한 환경에서는 고해상도 참조 영상 없이 저해상도 영상만을 기반으로 고화질 영상을 복원하는 것이 매우 어렵다.
이러한 문제를 해결하기 위한 접근으로 암맹 초해상화(blind super-resolution)가 제안되며, 이는 영상의 열화 유형이나 강도에 대한
사전 정보 없이도 구조적 형태를 보존한 고해상도 영상을 복원하는 기술이다(Zhang et al., 2024). 따라서 암맹 초해상화는 건설 현장 영상에 내재한 다양한 품질 저하 요소를 보정하고, 정확한 구조 정보를 복원하려는 본 연구의 방향성과 이론적으로
밀접하게 연결된다.
따라서 본 연구는 Stable Diffusion X4를 활용하여 철근 배근 영상의 정밀 구조 복원을 가능하게 하는 암맹 초해상화 알고리즘을 제안하고자
한다. 제안된 방법은 저해상도 영상만을 입력으로 받아 원본 구조의 왜곡 없이 정밀한 고해상도 영상을 복원함으로써, 철근 및 배근 상태의 정확한 판단과
구조물 품질관리를 위한 기반 기술로 활용될 수 있다. 이는 영상 기반 구조물 관리 기술의 신뢰성 확보를 위한 핵심적 접근이다.
2. 문헌조사
건설 현장은 복잡한 주변 환경과 비정형 작업으로 인해 예기치 못한 상황이 빈번히 발생한다. 이러한 이유로 영상을 이용한 모니터링 연구가 활발하게 진행되고
있다. 우선, Kulinan et al. (2024)은 BIM(Building Information Modeling)과 컴퓨터 비전의 통합 적용을 통해 3D 현장 정보와 실시간 영상 데이터를 결합,
평균 13.2 cm 오차의 정확도로 작업자 안전 위험을 추적하는 프레임워크를 제안하였다. Wang (2025)은 작업자의 개인보호장구 착용 여부를 실시간 검출하기 위해 YOLOv10과, 지역적⋅전역적 특징을 모두 학습할 수 있는 계층적 비전 트랜스포머 모델인
Swin Transformer 백본을 결합한 모델을 이용하였다. 이 모델은 다중 카메라 및 벤치마크 데이터셋 기반 평가에서 평균 87.32%를 기록하며,
전통적 객체 탐지보다 우수한 성능을 입증한 기술로 소개되었다. Chharia et al. (2025)은 건설 현장에서 발생하는 안전 위반 인식을 단순 2D 객체 탐지에서 3D 멀티뷰 장면 이해로 재정의하고, Synthetic Indoor Construction
Site Generator(SICSG)를 통해 다양한 합성 데이터를 생성하여 기존 대비 7.6% 성능 향상을 달성하는 기술을 개발하였다. 끝으로,
Xiao et al. (2024)은 ChatGPT와 컴퓨터 비전을 연계해 현장 영상을 분석하고 자동으로 일일 공사 보고서를 생성하는 프레임워크가 제안되었으며, 홍콩 실제 현장에서
한 달간 검증되어 문서화 부담을 크게 경감하는 효과를 보였다. 이들 연구는 BIM⋅딥러닝⋅3D 멀티뷰 이해⋅합성 데이터 생성⋅생성형 AI를 아우르는
최신 기술 융합을 통해, 건설 현장 안전 모니터링과 관리 자동화를 정밀하고 확장 가능한 형태로 구현할 수 있음을 보여준다.
이처럼 건설현장에는 영상을 이용한 모니터링 기술들이 활발하게 연구되고 있다. 이러한 맥락에서 살펴볼 때, 영상에서 표현되는 객체의 선명도는 알고리즘의
성능을 결정하는 중요한 역할을 하게 된다. 이와 관련하여 Zhang et al. (2021)은 저해상도 원격탐사 영상에서도 고품질 건물 추출이 가능하도록, 내부 쌍 생성과 에지 인지 초해상화 모듈을 포함한 SRBuildingSeg 프레임워크를
설계하였다. 이 방식은 2×, 4×, 8× 배율에서 mIoU 기준 최대 9.38% 성능 향상을 기록하며, 경계⋅윤곽 복원이 후속 건물 추출 정확도에
결정적임을 입증하였다. Zeng et al. (2023)은 대규모 건설 현장의 네트워크⋅자원 제약 환경을 고려해, 블록 기반 압축 센싱과 효율적 채널 어텐션을 결합한 EHDCS-Net을 개발하였다. 다운스케일
특징 맵에 대한 비선형 변환과 픽셀 셔플 복원을 통해 메모리⋅연산량을 줄이면서도 기존 대비 높은 재구성 정확도와 복원 속도를 확보하였다. Asif et al. (2025)은 Advanced StyleGAN 기반 SR과 Swin Transformer 기반 특성 추출을 결합한 하이브리드 모델을 통해, 저해상도⋅가려짐⋅저조도
등 복잡한 조건에서도 원격탐사 영상의 소형 객체를 정밀 검출하였다. 주요 데이터셋에서 F1 점수 0.93을 달성하며 YOLOv9 계열 대비 우수한
성능을 보였다. 끝으로 Jiang and Chen (2020)은 전통 신경망 기반 블라인드 복원의 지역 최소 수렴 문제를 해결하기 위해, 파형 변환 기반 잡음 제거와 순간 혼돈을 도입한 혼돈 신경망을 적용하였다.
Toeplitz 행렬과 라플라스 연산자를 이용해 연결 가중치를 산출하고 반복 복원 과정을 거쳐, 평균 9.273 ms의 처리 속도와 99.045%의
영상 선명도를 달성하였다. 이들 연구는 건설 현장 영상의 복잡한 열화 환경에서도 구조적 정보를 보존하며 고해상도 영상을 복원하는 데 중점을 두었다.
이를 통해 영상 기반 모니터링 시스템의 근본적인 성능 향상을 도모하였으며, 이러한 접근은 철근 배근 영상에도 동일하게 적용될 수 있다.
3. 철근 배근 영상 초해상화
3.1 철근 배근 영상 데이터의 수집
철근 배근 장면은 주로 건축물 시공 현장에서 관찰된다. 그러나 이러한 장면은 건설 현장에서 직접 카메라로 촬영해야만 데이터를 얻을 수 있다. 철근
콘크리트 작업이 한창 진행되고 있는 현장에서 이러한 데이터 수집은 시공 작업을 방해할 뿐만 아니라 안전상 위험성이 높다. 최근 건설 현장에 고정형
CCTV를 설치하여 시공 상황을 관찰하는 시스템이 소개되었다(Seong et al., 2023). 이러한 장치는 작업자나 시공 과정을 방해하지 않고 영상 데이터를 수집할 수 있다는 장점이 있다. 하지만, 이러한 방법은 시공 현장에 사각지대가
있을 수밖에 없고, 다양한 데이터를 확보하기 어렵다.
본 연구에서는 다양한 영상 데이터를 확보하기 위해서 웹 크롤링(web crawling) 기술을 사용하였다. 이는 인터넷에 존재하는 웹사이트를 자동으로
탐색하면서 관련 정보를 수집하는 기술이다. 본 연구에서는 철근 콘크리트 작업 현장을 촬영한 영상을 수집하는 데에 이 기술을 적용하였다. 이 때 사용하는
키워드는 Table 1과 같다. 10개의 언어를 통해서 검색의 범위를 넓히고 다수의 영상 데이터를 확보할 수 있도록 하였다. 이 키워드 외에도 “건설현장 철근”, “기둥
철근 케이지” 등 추가 검색어를 포함해 총 200개의 키워드를 활용하여 영상 데이터를 수집하였다.
웹 크롤링을 통해 수집된 영상 데이터는 Fig. 1과 같다. 각각의 언어에 의해 검색된 영상은 해당 언어를 사용하는 국가의 특징을 어느 정도 담고 있다. 예를 들어, 한국어를 통해 검색된 영상에는
한국어로 된 표지판이 포함되어 있다. 또한, 중국어, 힌두어, 아랍어, 뱅갈어로 탐색된 영상에는 해당 언어가 captioning으로 각각의 그림에
삽입된 것을 알 수 있다. 이러한 방법으로 검색된 영상은 크기가 일정하지는 않지만 모두 ‘철근’ 키워드를 포함하는 것으로 나타났다. 이 방법을 통해서
총 검색된 영상 수는 총 2,800여장이고, 최종적으로 영상의 크기를 512 × 512로 변경하였다. 그리고 이중에서 1,600여장을 훈련용 데이터,
450여장은 검증용 데이터, 나머지 450여장은 실험용 데이터로 사용하였다.
Fig. 1 Dataset for rebar images
Table 1 Multilingual translations for key words
|
Language
|
Key words
|
|
Korean
|
철근 배근 작업
|
|
English
|
rebar installation work
|
|
Spanish
|
trabajo de colocación de armadura
|
|
Portuguese
|
trabalho de armadura de aço
|
|
French
|
travaux de ferraillage
|
|
Chinese
|
钢筋绑扎作业
|
|
Hindi
|
इस्पात सुदृढीकरण कार्य
|
|
Arabic
|
تركيب حديد التسليح
|
|
Russian
|
работы по вязке арматуры
|
|
Bengali
|
রড বাঁধার কাজ
|
3.2 철근 및 배근 장면의 텍스트 데이터 수집
최근에는 영상을 새롭게 편집하기 위해 해당 영상을 설명하는 텍스트 데이터를 활용하는 방식이 널리 사용되고 있다. 트랜스포머(Transformer)
모델의 등장으로 서로 다른 형태의 데이터를 정교하게 연계할 수 있게 되었으며, 이를 통해 멀티모달 형식의 데이터 처리도 가능해졌다(Vaswani et al., 2017). 특히 어텐션 메커니즘의 query, key, value 간 관계가 학습 과정을 거쳐 데이터 세트에 최적화되면서, 텍스트 데이터와 영상 데이터가
유기적으로 연결될 수 있게 되었다. 이로써 개별 단어가 지닌 의미론적 지식(semantic knowledge)을 더욱 자연스럽고 정밀하게 표현할 수
있게 되었으며, 그 결과 텍스트 기반 영상 생성 제어 또한 한층 정교해졌다.
본 연구에서도 이를 위해 수집된 영상에 대응하는 텍스트 데이터가 필요하다. 즉, 각 영상의 상황을 구체적으로 설명할 수 있는 텍스트가 확보되어야 한다.
비록 철근 콘크리트 영상은 특정 검색어를 바탕으로 수집되었지만, 이러한 키워드만으로는 영상에 담긴 모든 상황을 충분히 표현하기 어렵다. 더불어, 모든
영상에 대한 설명문을 사람이 직접 작성하는 방식은 시간과 비용이 과도하게 소요되어 비효율적이다. 이러한 문제를 해결하기 위해 본 연구에서는 ChatGPT
Application Programming Interface(API)를 활용하였다. ChatGPT는 영상을 입력받아 해당 내용을 설명하는 캡션(caption)을
자동으로 생성하는 기능을 제공한다. 일반적으로는 대화형 방식으로 사용되지만, 본 연구에서는 대량의 데이터를 신속하게 확보하기 위해 Python 기반
API 방식을 적용하였다. 이를 통해 모든 영상에 대한 텍스트 데이터를 Fig. 2와 같이 구축하였다.
Fig. 2 Dataset: (a) damage image and (b) text data
3.3 초해상화 생성형 AI 활용 및 신경망 모델 훈련
본 연구에서 제안된 초해상화(super-resolution, SR) 기법을 학습하기 위해, 먼저 고해상도(high-resolution, HR) 영상을
인위적으로 축소하여 저해상도(low-resolution, LR) 영상을 생성한 뒤 이를 복원하는 방식을 적용하였다. 구체적으로는 512×512 크기의
HR 영상을 256×256으로 축소하여 LR 영상을 제작하고, 이를 HR 영상과 함께 학습 데이터로 활용하여 초해상화 신경망(SRNet)을 훈련하였다.
훈련 과정에서 SRNet은 LR 영상을 입력으로 받아 출력된 SR 영상이 HR 영상과의 차이를 최소화하도록 가중치가 갱신되며, 이를 통해 실제 고해상도
구조와 유사한 복원 결과를 생성할 수 있도록 학습된다. 이러한 절차는 알고리즘 성능을 객관적으로 평가하기 위해 초해상화 연구에서 널리 활용되는 일반적인
실험 설계 방식이다. 이러한 방식으로 훈련된 모델은 실제 현장에서 취득한 영상을 입력으로 하여 2배의 해상도로 복원할 수 있으며, 이를 통해 현장
영상의 품질을 향상시키고 보다 선명한 시각 정보를 확보할 수 있다.
본 연구에서 사용한 영상 데이터는 웹 크롤링을 통해 수집된 것으로, 초기 단계부터 고품질의 영상을 확보하기 어려운 한계가 있다. 일반적으로 SR 알고리즘을
개발하기 위해서는 고해상도 훈련 데이터가 필수적이지만, 크롤링 영상은 이를 직접 제공하지 못한다. 이러한 문제를 해결하기 위해, 본 연구에서는 Fig. 3과 같이 Stable Diffusion X4(SDX4) 모델을 활용하였다. SDX4는 잠재 확산 모델(latent diffusion model)에
기반한 초해상화 기법으로, 저해상도 영상을 잠재 공간(latent space)으로 변환한 뒤 점진적인 잡음 제거 과정을 통해 고해상도의 영상을 복원한다(Rombach et al., 2022). 학습 단계에서는 원본 영상에 가우시안 잡음을 점차 주입하는 전방 확산(forward diffusion) 과정을 수행하며, 이후 역방향 과정(reverse
diffusion)에서는 U-Net 기반 신경망이 확률적 샘플링을 통해 잡음을 단계적으로 제거하면서 원본 영상을 복원한다. 이 과정에서 포함된 attention
mechanism은 영상의 지역적 특징과 전역적 문맥 정보를 동시에 학습할 수 있도록 하여, 세부 텍스처와 전체 구조 간의 균형 잡힌 복원을 가능하게
한다. SDX4모델은 이러한 확산 과정을 바탕으로 입력 해상도의 4배 크기의 출력을 생성하며, 픽셀 공간에서 직접 연산하는 기존 방법과 달리 잠재
공간에서 학습이 이루어지기 때문에 계산 효율성을 높이면서도 구조적 정합성과 시각적 선명도를 유지할 수 있다. SDX4는 영상과 해당 텍스트 데이터를
입력받아 해상도를 4배 향상시키는 인공지능 모델이다. 이를 적용하기 위해, 먼저 훈련용 철근 배근 영상을 HR 영상으로 간주하였다. 그리고 해당 HR
영상을 256×256 크기로 축소해 저해상도 영상을 생성한 뒤, 다시 절반 크기인 128×128로 축소하여 SDX4에 입력하였다. 그 결과, 해상도가
4배 향상된 X4 영상(X4 image)을 생성하여 훈련 데이터로 활용하였다.
이렇게 확보한 X4 영상은 LR 영상과 함께 SRNet 학습에 활용하였다. X4 영상의 해상도는 512×512이므로, 이를 절반 크기로 축소하여 LR
영상과 동일한 해상도로 맞춘 후 학습에 사용한다. 학습 과정에서는 LR 영상과 축소된 X4 영상을 SRNet에 입력하고, 이를 통해 생성된 SR 영상이
각각 HR 영상과 X4 영상과 동일해지도록 훈련을 진행한다. 손실 함수로는 평균제곱오차(Mean Square Error, MSE)를 사용하여, 출력
영상이 각 목표 영상과 얼마나 유사한지를 정량적으로 평가한다. 결과적으로, 제안한 방법은 기존 HR 영상뿐 아니라 Stable Diffusion 기반으로
생성된 X4 영상을 함께 활용함으로써, 신경망을 보다 다양하고 풍부한 데이터로 학습시킬 수 있는 효과적인 접근법임을 확인하였다.
Fig. 3 Training Framework of Super Resolution Network with Stable Diffusion Model
4. 실험 결과 및 논의
4.1 평가 지표
본 연구에서는 생성된 철근 및 배근 영상의 품질을 정량적으로 평가하기 위하여 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structural
Similarity Index) 두 가지 지표를 활용하였다. 이 두 평가지표는 초해상화 영상 연구 분야에서 널리 사용되고 있으며, 각각 영상의 복원
정밀도 및 구조적 유사성을 평가하는 데에 강점을 가진다. PSNR은 Eq. (1)과 같이 고해상도 참조 영상과 복원된 영상 간의 픽셀 단위 차이를 기반으로 품질을 정량화하는 지표로, 다음과 같이 정의된다.
여기서 MAX는 영상의 최대 화소값으로 일반적으로 255다. MSE는 두 영상 간의 평균 제곱 오차를 의미한다. PSNR 값이 클수록 복원 영상이
참조 영상과 더 유사함을 나타낸다.
SSIM은 Eq. (2)와 같이 인간의 시각적 인지를 반영하여 영상의 밝기(luminance), 대비(contrast), 구조(structure)를 종합적으로 비교하는 지표로,
다음과 같이 정의된다.
여기서 μₓ, μᵧ는 각 영상의 평균, σₓ, σᵧ는 분산, σₓᵧ는 공분산이며, C₁, C₂는 계산의 안정성을 위한 상수이다. SSIM 값은 0에서
1 사이의 값을 가지며, 1에 가까울수록 두 영상 간의 구조적 유사성이 높음을 의미한다.
본 연구에서는 두 지표 모두를 종합적으로 고려함으로써 생성된 영상의 화질뿐만 아니라 구조적 정확도까지 정량적으로 평가하였다. 이를 통해 학습된 초해상화
모델의 실질적 성능을 객관적으로 검증할 수 있었다.
4.2 실험 환경 및 조건
실험에서는 총 500 epoch 동안 훈련을 진행하였다. 10 epoch마다 훈련된 가중치를 저장하고 검증용 데이터를 이용해서 정확도를 평가하였다.
이렇게 평가된 결과 중 가장 높은 PSNR 값을 기록한 epoch을 선정하였다. 선정된 모델을 실험용 데이터 세트에 적용하여 최종 성능을 평가하였다.
모델에 사용한 최적화 함수는 Adam을 사용했고, learning rate는 0.001이다. Beta-1과 beta-2는 각각 0.9와 0.999로
설정하였다.
초해상화를 구현하기 위해서 사용한 모델은 3가지다. 이들은 MSRN(Li et al., 2018), RCAN(Zhang et al., 2018), HAN (Liu et al., 2021)이다. MSRN(Multi-Scale Residual Network)은 다양한 스케일의 커널을 병렬적으로 활용하여 다중 해상도 특징을 추출하고, 이를
잔차 블록으로 연결하는 구조를 통해 복잡한 영상 세부 정보를 효과적으로 복원한다. 이 모델은 저해상도 영상 내의 텍스처와 경계선을 여러 스케일에서
동시에 학습할 수 있다는 점에서 높은 표현력을 가진다. RCAN(Residual Channel Attention Network)은 매우 깊은 CNN
구조 위에 채널 어텐션 메커니즘을 도입하여, 채널 간 상호작용과 중요도 차이를 학습할 수 있도록 설계되었다. 이를 통해 영상의 고주파 정보와 세밀한
질감을 효과적으로 보존하며, 특히 복잡한 구조물의 복원에 강점을 보인다. HAN (Hierarchical Attention Network)은 계층적
self-attention 구조를 도입하여 국소적인 특징뿐 아니라 전역적인 문맥 정보까지 반영할 수 있도록 구성된 신경망이다. 특히 구조적인 정보가
중요한 철근 및 배근 영상에서 효율적인 메모리 사용과 함께 높은 복원 성능을 보인다. 이 3가지 모델을 대상으로 초해상화 알고리즘을 개발하고 평가하였다.
본 연구에서는 초해상화 모델 훈련하기 위해 Intel Xeon 6226R 2.9 GHz, 320 GB 메모리, NVIDIA Quadro 8000을
사용하였으며, 운영체제는 Ubuntu 22.04를 사용하였다. 딥러닝 프레임워크는 PyTorch를 사용하였다.
4.3 실험 결과 비교 및 분석
본 연구에서는 초해상화 알고리즘을 개발하기 위해 영상의 해상도를 2배로 높이는 실험을 수행하였으며, 그 결과는 Table 2와 Table 3에 각각 제시하였다. 기존 방법(baseline method)은 일반적인 초해상화 기법을 적용하여 얻은 결과를 의미하고, 제안 방법(proposed
method)은 수집된 영상과 더불어 Stable Diffusion X4 모델로 생성한 합성 영상을 훈련에 활용하는 방법이다.
Table 2는 검증용 데이터(Validation dataset)에 대한 성능 평가 결과를 나타낸다. 세 가지 대표적인 초해상화 모델(MSRN, RCAN, HAN)에
제안 기법을 적용한 결과, 모든 지표에서 기존 방법 대비 성능이 향상되었다. 예를 들어, MSRN 모델은 PSNR이 28.00 dB에서 28.34
dB로, SSIM이 88.74%에서 89.31%로 개선되었다. RCAN과 HAN 모델 역시 유사한 향상 경향을 보였으며, 평균적으로 PSNR은 27.75
dB에서 28.19 dB로, SSIM은 88.19%에서 89.00%로 향상되었다.
Table 3은 실험용 데이터(Test dataset)에 대한 성능 평가 결과를 보여준다. MSRN 모델은 PSNR이 27.58 dB에서 27.95 dB로, SSIM이
88.28%에서 88.90%로 향상되었다. RCAN 모델 역시 전반적으로 성능이 개선되었으며, HAN 모델은 SSIM이 87.31%에서 88.52%로
상승하여 기존 방법 대비 1.21%의 향상을 기록하였다.
또한 세 모델에 대한 평균 성능 향상 폭을 정량적으로 분석한 결과, Test dataset 기준으로 PSNR은 평균 0.45 dB, SSIM은 평균
0.85% 향상을 보였다. 이러한 결과는 제안 기법이 다양한 신경망 모델에 적용 가능하며, 안정적인 초해상화 성능을 제공한다. 따라서 본 연구의 방법은
기존 초해상화 신경망에 적용 가능한 효과적인 프레임워크로서, 철근 및 배근 영상의 구조적 특징과 고주파 정보를 보다 정밀하게 복원할 수 있음을 보여준다.
Table 2 Performance Evaluation Results on Validation Dataset
|
Metrics
|
Baseline method
|
Proposed methods
|
|
MSRN
|
RCAN
|
HAN
|
Avg.
|
MSRN
|
RCAN
|
HAN
|
Avg.
|
|
PSNR (↑)[dB]
|
28.00
|
27.73
|
27.52
|
27.75
|
28.34
|
28.06
|
28.17
|
28.19
|
|
SSIM (↑)[%]
|
88.74
|
88.05
|
87.77
|
88.19
|
89.31
|
88.73
|
88.95
|
89.00
|
Table 3 Performance Evaluation Results on Test Dataset
|
Metrics
|
Baseline method
|
Proposed methods
|
|
MSRN
|
RCAN
|
HAN
|
Avg.
|
MSRN
|
RCAN
|
HAN
|
Avg.
|
|
PSNR (↑)[dB]
|
27.58
|
27.33
|
27.12
|
27.34
|
27.95
|
27.66
|
27.76
|
27.79
|
|
SSIM (↑)[%]
|
88.28
|
87.58
|
87.31
|
87.72
|
88.90
|
88.29
|
88.52
|
88.57
|
4.4 실험 결과 영상 비교
본 연구에서는 Stable Diffusion X4에 의한 초해상화 영상을 대신하여 새로운 방법을 제안하였다. 이를 검증하기 위해 먼저 Stable
Diffusion X4를 적용한 초해상화 결과를 관찰하였으며, 이는 Fig. 4에 제시하였다. Fig. 4의 목적은 동일한 입력 영상에 대해 선형 보간 확대와 Stable Diffusion X4 기반 4배 초해상화가 시각 품질과 구조 정합성에 미치는 차이를
예시적으로 제시하는 데 있다. Fig. 4(a) 선형 보간은 픽셀 보간에 기반하여 구조 왜곡을 유발하지 않는 반면, 경계가 전반적으로 흐릿해지고 세부 질감이 소실되는 한계를 보인다. Fig. 4(b) Stable Diffusion X4 결과는 윤곽선 선명도와 미세 텍스처 표현이 현저히 개선되지만, 원본 구조 대비 환각적(hallucinatory)
디테일이 일부 삽입되거나 직선성 저하와 같은 구조적 불일치가 국소 영역에서 관찰될 수 있다. 이는 확률적 샘플링을 통해 시각적 세부를 추정⋅보강하는
확산 모델의 특성에 기인하며, 시각 품질 향상과 구조 정합성 간의 트레이드오프를 내포한다. 따라서 Fig. 4에서는 선명도 향상이라는 장점과 구조 왜곡 가능성이라는 단점이 동시에 나타난다. 이러한 관찰을 바탕으로, 본 연구에서는 철근 및 배근 영상의 특수성을
고려하여 원형 구조의 보존과 세부 묘사 간 균형을 동시에 달성할 수 있는 새로운 초해상화 기법이 필요하다.
이를 위해 본 연구에서는 Stable Diffusion X4 모델의 영상 복원 능력을 활용한 새로운 훈련 기법을 제안하였다. Stable diffusion이
저해상도 영상에서 고해상도의 선명한 영상을 생성할 수 있다는 점에 착안하여, 이를 초해상화 신경망의 훈련 데이터로 활용함으로써 성능 향상을 도모하였다.
제안된 기법을 철근 배근 영상에 적용하여 초해상화 실험을 수행하였으며, 그 결과는 Fig. 5에 제시하였다. Fig. 5에서 (a) 열은 원본 철근 배근 영상, (b) 열과 (c) 열은 각각 기존 방법과 제안 방법으로 생성한 초해상화 영상이다. 첫 번째 행을 살펴보면,
(b) 열에서는 철 구조물 위에 놓인 철근이 왜곡되어 직선 형태를 유지하지 못하는 반면, (c) 열에서는 보다 정확하고 일관된 형상이 유지됨을 확인할
수 있다. 두 번째 및 세 번째 행에서도 유사한 경향이 나타난다. 기존 방법에서는 철근의 직진성이 저하되어 형태 왜곡이 두드러지며, 이는 초해상화
과정에서 영상 품질 저하가 발생했음을 의미한다. 반면, 제안된 방법을 적용한 (c) 열에서는 철근의 윤곽과 형태가 상대적으로 온전하게 복원되어, 구조적
특징이 보다 잘 보존되고 있음이 확인된다. 이러한 결과는 Stable Diffusion X4로 생성한 고품질 영상이 초해상화 신경망 훈련에 효과적으로
기여했음을 보여준다. 따라서 제안한 방법은 실제 촬영 영상의 왜곡을 줄이고, 보다 선명하고 구조적으로 정확한 철근 배근 영상을 복원하는 데 효과적인
접근법임을 알 수 있다. 비록 Table 2와 3에서 언급한 PSNR과 SSIM의 향상 폭은 수치적으로 크지 않지만, Fig. 5에서 확인되듯이 제안 기법은 기존 방법과 비교하여 철근의 직선성을 보다 안정적으로 유지하고 세부 텍스처를 더 선명하게 보존하였다. 이러한 점은 철근
및 배근 구조의 인식 정확성을 높이는 데 중요한 의미를 갖는다.
본 연구의 목적은 고해상도 영상이 주어진 조건에서의 일반적인 초해상화 알고리즘 개발이 아니라, 저해상도 영상만을 입력으로 하는 암맹 초해상화 방법을
제안하는 데 있다. 이를 검증하기 위해 Fig. 5의 (a)열에 제시된 영상은 상대적으로 해상도가 높고 선명한 원본 이미지를 선별하여 제시하였다. 이에 반해 (b)열과 (c)열은 비지도 학습 기반의
초해상화 과정을 거친 결과 영상이다. 그러므로 본질적으로 원본 영상과 동일한 수준의 화질을 복원하기는 어렵다. 이는 암맹 초해상화가 일반적인 초해상화
접근과 달리 고해상도 원본 영상을 활용하지 않고 저해상도 입력만으로 학습되기 때문에 나타나는 한계이며, 결과적으로 복원 영상에서는 화질 저하나 국소적
구조 왜곡이 불가피하게 나타날 수 있다. 그럼에도 불구하고 제안된 방법은 기존 방법과 비교할 때 윤곽선 보존과 직선성 유지에서 상대적으로 개선된 결과를
보였으며, 이는 저해상도 영상만 주어진 상황에서도 일정 수준 이상의 구조적 특징 복원이 가능함을 의미한다.
Fig. 4 Super resolution comparison: (a) Linear interpolation (b) Stable Diffusion
X4
Fig. 5 Result images: (a) Original images, (b) Baseline method, (c) Proposed method
5. 결 론
본 연구에서는 Stable Diffusion X4 모델을 활용하여 철근 및 배근 영상의 해상도를 향상시키는 새로운 암맹 초해상화 알고리즘을 제안하였다.
웹 크롤링을 통해 수집된 저해상도 영상과 Stable Diffusion 기반으로 생성한 고품질 X4 영상을 함께 활용함으로써, 기존 고해상도 데이터만으로
학습한 경우보다 다각화된 훈련 환경을 구현하였다. 이를 통해 MSRN, RCAN, HAN 등 다양한 초해상화 신경망 모델에서 PSNR과 SSIM 모두에서
일관된 성능 향상을 확인하였다. 특히, 제안 기법은 실제 철근 배근 영상의 구조적 특징과 고주파 정보를 보다 정밀하게 복원함으로써, 형태 왜곡을 최소화하고
시각적 선명도를 크게 향상시켰다.
실험 결과, 제안된 방법은 기존 대비 평균 0.45 dB의 PSNR 향상과 0.85%의 SSIM 향상을 달성하였으며, 이는 제안 기법이 다양한 신경망
모델에 쉽게 적용 가능한 범용 프레임워크임을 시사한다. 또한, Stable Diffusion 기반 합성 데이터의 활용은 고품질 참조 영상 확보가 어려운
건설 현장 환경에서 실질적인 대안이 될 수 있음을 보여주었다. 그럼에도 불구하고 Stable Diffusion 기반 합성 영상은 확률적 샘플링 과정에서
철근 및 배근의 표면 텍스처 정보가 왜곡될 수 있는 한계를 지닌다. 향후 연구에서는 이러한 왜곡을 최소화하기 위해 구조적 제약 조건을 반영한 fine-tuning이나
도메인 적응 기법 등 새로운 튜닝 기술을 적용하여 구조적 정합성을 강화할 필요가 있다. 또한 본 연구에서는 웹 크롤링을 통해 다양한 언어와 검색어를
활용하여 다국적⋅다양한 환경의 데이터를 수집함으로써, 단일 현장 데이터에서 발생할 수 있는 편향을 완화하고자 하였다. 그러나 웹 크롤링 데이터는 검색어
의존성이나 특정 장면의 과대표집과 같은 한계를 지닐 수 있다.
향후 연구에서는 제안 기법을 더 다양한 건설 구조물 및 손상 유형 영상으로 확장 적용하고, 야간⋅저조도⋅악조건 환경에서도 안정적인 성능을 발휘할 수
있도록 모델의 강건성을 강화할 계획이다. 나아가 3D 영상 정보와 결합한 다중 모달 초해상화 기법 개발을 통해, 건설 현장 영상 기반의 자동화된 상태
진단 및 품질 관리의 신뢰성을 한층 제고할 수 있을 것으로 기대된다. 또한, 철근 및 배근의 상태를 보다 정확하게 인지하기 위해서는 데이터 취득 과정과
촬영 방식의 개선이 필수적이다. 특히 현장 영상의 기하학적 왜곡을 줄이고 구조적 형태를 정밀하게 기록하기 위해 정사영상(orthophoto) 촬영
기법의 도입이 요구된다. 이러한 개선은 제안된 초해상화 기법의 적용 타당성을 높이는 동시에, 실제 시공 현장에서 활용 가능한 신뢰성 높은 데이터 세트를
구축하는 데 기여할 것으로 기대된다. 나아가, 향후 연구에서는 초해상화 결과를 배근 간격, 철근 개수, 직경, 굽힘 각도와 같은 구조 인식 지표와
연계하여 검증함으로써, 제안 기법이 건설 현장의 실질적 품질 관리와 자동화된 상태 진단에 직접적으로 기여할 수 있도록 발전시켜 나갈 것이다.
감사의 글
본 연구는 한국건설기술연구원의 2025년 주요사업(과제번호: 20250053-014 UWB 융합 센서 기반 보디캠을 이용한 3차원 영상 기록
점검 시스템 개발 및 성능 검증)의 재원으로 수행된 연구 결과입니다.
References
Shin, Y., Heo, S., Han, S., Kim, J., and Na, S. (2021), An image-based steel rebar
size estimation and counting method using a convolutional neural network combined
with homography, Buildings, 11(10), 463.

Seong, J., Kim, H. S., and Jung, H. J. (2023), The detection system for a danger state
of a collision between construction equipment and workers using fixed CCTV on construction
sites, Sensors, 23(20), 8371.

Lee, M.-H., Woo, U., Choi, H., Kang, S., and Choi, K.-K. (2022), Development of remote
measurement method for reinforcement information in construction field using 360 degrees
camera, Journal of the Korea Institute for Structural Maintenance and Inspection,
26(6), 157–166 (in Korean).

Feng, J., Hamilton-Fletcher, G., Ballem, N., Batavia, M., Wang, Y., Zhong, J., Porfiri,
M., and Rizzo, J. R. (2025), Robust computer-vision based construction site detection
for assistive-technology applications. arXiv preprint arXiv:2503.04139.

Sun, T., Fan, Q., and Shao, Y. (2025), Deep learning-based rebar detection and instance
segmentation in images, Advanced Engineering Informatics, 65, 103224.

O’Byrne, M., Vibhoothi, V., Sugrue, M., and Kokaram, A. (2022), Impact of video compression
on the performance of object detection systems for surveillance applications. arXiv.

Zhang, J., Zhou, Y., Bi, J., Xue, Y., Deng, W., He, W., Zhao, T., Sun, K., Tong, T.,
Gao, Q., and Zhang, Q. (2024), A blind image super-resolution network guided by kernel
estimation and structural prior knowledge. Scientific Reports, 14(1), 9525.

Kulinan, A. S., Park, M., Aung, P. P. W., Cha, G., and Park, S. (2024), Advancing
construction site workforce safety monitoring through BIM and computer vision integration,
Automation in Construction, 158, 105227.

Wang, S. (2025), Automated non-PPE detection on construction sites using YOLOv10 and
transformer architectures for surveillance and body worn cameras with benchmark datasets,
Scientific Reports, 15(1), 27043.

Chharia, A., Ren, T., Furuhata, T., and Shimada, K. (2025), Safe-Construct: Redefining
Construction Safety Violation Recognition as 3D Multi-View Engagement Task. In Proceedings
of the Computer Vision and Pattern Recognition Conference (pp. 5811-5820).

Xiao, B., Wang, Y., Zhang, Y., Chen, C., and Darko, A. (2024), Automated daily report
generation from construction videos using ChatGPT and computer vision, Automation
in Construction, 168, 105874.

Zhang, L., Dong, R., Yuan, S., Li, W., Zheng, J., and Fu, H. (2021), Making low-resolution
satellite images reborn: a deep learning approach for super-resolution building extraction,
Remote Sensing, 13(15), 2872.

Zeng, T., Wang, J., Wang, X., Zhang, Y., and Ren, B. (2023), An efficient deep learning-based
high-definition image compressed sensing framework for large-scene construction site
monitoring, Sensors, 23(5), 2563.

Asif, M., Abrar, M., Ullah, F., Salam, A., Amin, F., de la Torre, I., Villar, M. G.,
Garay, H., and Choi, G. S. (2025), A novel hybrid deep learning approach for super-resolution
and objects detection in remote sensing, Scientific Reports, 15(1), 17221.

Jiang, C., and Chen, Q. (2020), Construction of blind restoration model for super-resolution
image based on chaotic neural network, Chaos, Solitons & Fractals, 131, 109498.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ...
and Polosukhin, I. (2017), Attention is all you need. Advances in neural information
processing systems, 30.

Li, J., Fang, F., Mei, K., and Zhang, G. (2018), Multi-scale residual network for
image super-resolution. In Proceedings of the European conference on computer vision
(ECCV) (pp. 517-532).

Zhang, Y., Li, K., Li, K., Wang, L., Zhong, B., and Fu, Y. (2018), Image super-resolution
using very deep residual channel attention networks. In Proceedings of the European
conference on computer vision (ECCV) (pp. 286-301).

Liu, J., Wang, Y., Xiang, S., and Pan, C. (2021), Han: An efficient hierarchical self-attention
network for skeleton-based gesture recognition. arXiv preprint arXiv:2106.13391.

Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. (2022), High-resolution
image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference
on computer vision and pattern recognition (pp. 10684-10695).
