Mobile QR Code QR CODE

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.
  • Indexed by
  • Korea Citation Index (KCI)

  1. 정회원, 한국건설기술연구원 지반연구본부 수석연구원



Crack detection, DreamBooth, Stable diffusion, Data augmentation, Deep learning
균열 탐지, 드림부스, 스테이블 디퓨전, 데이터 증강, 딥러닝

1. 서 론

전 세계적으로 인프라 구조물이 설계 수명을 초과하거나 수명 한계에 도달하면서, 구조적 안정성과 공공 안전이 직접적으로 위협받고 있다. 교량과 터널 등 콘크리트 기반 시설은 사회와 경제 활동의 핵심 인프라이자 국가 경쟁력의 근간이다. 이들의 노후화는 단순한 유지관리 차원을 넘어 사회 전반에 큰 영향을 미친다. 미국에서는 전체 고속도로 교량의 약 42%가 50년 이상 된 노후 구조물로 분류되며, 이 중 상당수는 긴급한 보수가 필요한 상태로 보고되고 있다(Bah et al., 2025). 교량 보수가 늦어지면 교통사고 위험이 커질 뿐 아니라 장기적으로 국가 경제에도 부정적인 영향을 준다. 일본도 상황이 비슷하다. 국토교통성(MLIT, 2024)은 앞으로 10년 안에 교량의 약 48%가 설계 수명인 50년을 넘길 것으로 예상하며, 이 노후화는 교량뿐 아니라 도로 터널 같은 지하 구조물에도 확산될 가능성이 크다고 보고한다. 이와 같은 통계는 인프라 노후화가 단순한 시간 경과의 문제가 아니라, 사회 안전과 국가의 지속가능성에 직접 연관된 심각한 구조적 위협으로 이어진다.

이러한 노후화는 시간이 지남에 따라 물리적 손상으로 이어진다. 특히 콘크리트 구조물의 경우 균열, 박락, 철근 노출 등이 환경적⋅재료적 요인으로 발생하며, 이는 유지관리와 안전 확보에 심각한 영향을 미친다. Shim et al. (2023)은 자율주행 로봇과 Convolutional Neural Network(CNN) 기반의 머신러닝 모델을 활용하여 터널 내부 콘크리트 표면 손상을 자동 점검하는 시스템을 제안하였다. 이 연구는 육안 점검의 한계를 넘어서는 비접촉식 정밀 탐지를 가능하게 하였으며, 무인화 점검을 통해 유지관리 효율성을 높일 수 있음을 보여주었다. 또한 Odeh et al. (2025)은 복잡한 환경 조건에서도 박락과 철근 노출을 정량적으로 탐지하고 평가할 수 있는 자동화 플랫폼을 개발하였다. 이를 통해 손상의 깊이와 범위를 정확히 파악하고, 유지관리 의사결정의 신뢰성을 향상시킬 수 있음을 확인하였다. 이와 같이 머신비전과 딥러닝 기반 자동화 탐지 기술은 기존 수동 점검의 위험과 오류를 줄이고 구조물의 안전성을 향상시키는 기술로 제안되었다.

이러한 점검 자동화 기술의 핵심은 손상을 정밀하게 탐지하는 신경망 모델에 있다. Chen et al. (2023)은 다단계 특성 추출과 통계 기반 손실 함수를 결합한 딥러닝 기반 균열 분할 프레임워크를 제안하였으며, 이를 통해 정밀도 94.51%, IoU 82.26%, F1-score 90.27%를 달성하였다. Yu (2025)는 DeeplabV3+를 경량화하여 박락, 철근 노출, 백태, 균열 등 여러 손상을 동시에 화소 단위로 분할할 수 있는 모델을 개발하였다. 이 모델은 mIoU 75.24%, mPA 84.68%, 52.6 FPS의 성능을 기록하여 정확성과 실시간성을 동시에 확보하였다. 이러한 연구들을 통해 신경망 모델을 활용해 구조물 손상을 화소 단위에서 정밀하게 인식하고 점검할 수 있는 가능성을 보여주었다.

신경망 모델에 집중된 연구는 그간 많은 변화와 발전을 거듭해왔다. 초기에는 Support Vector Machine, Random Forest 같은 전통적인 기계학습 방법이 사용되었으나, 최근에는 CNN, 완전합성곱 신경망, Transformer 계열 모델이 적용되면서 탐지 정확도가 크게 향상되었다. Li et al. (2019)은 완전합성곱 신경망을 이용해 균열을 화소 단위로 추출하여 탐지 정밀도를 높였다. 이 성과들은 딥러닝 기반 접근이 수작업 점검이나 단순 영상 처리보다 훨씬 우수한 성능을 제공함을 보여준다. Wang et al. (2022)은 Transformer 기반 분할 신경망에 온라인 하드 샘플 마이닝을 적용하여 복잡한 배경에서도 균열을 정밀하게 분할할 수 있는 모델을 제시했고, 이는 기존 CNN 기반 모델보다 균열 경계 인식 성능을 향상시켰다. Gan et al. (2024)은 Faster R-CNN을 사용해 교량 하부 균열을 검출하고 이를 BIM과 연계하여 3차원 모델링을 수행하는 방법을 제안하였다. 이 연구는 탐지를 넘어 구조물 자산 관리와 유지보수 계획에도 활용될 수 있음을 보여준다. Rostami et al. (2025)은 Segment Anything Model(SAM)에 selective fine-tuning을 적용하여 적은 데이터로도 높은 성능과 일반화 능력을 확보할 수 있음을 입증하였다. 이처럼 최근 연구들은 다양한 신경망 구조와 방법을 적용하여 균열 탐지의 정확도, 환경 적응성, 실용성을 동시에 개선하고 있다.

하지만 이러한 신경망 모델의 성능은 궁극적으로 충분하고 다양한 학습 데이터 확보에 크게 좌우된다. 콘크리트 구조물의 다양한 손상, 특히 균열, 박락, 철근 노출, 백태, 초목 등을 모두 포함하는 데이터 세트를 확보하는 것은 현실적으로 매우 어렵다. 또한 현장에서 손상 데이터를 직접 수집하려면 많은 비용과 시간이 들고, 안전 문제 때문에 모든 조건을 만족하는 영상을 얻는 것도 사실상 불가능하다. 이를 해결하려면 제한된 데이터를 보완하고 모델의 일반화 성능을 높일 수 있는 실제 수준의 데이터 생성과 증강 연구가 필요하다. 최근에는 딥러닝 기반 합성 기법과 생성 모델을 활용해 실제와 유사한 손상 영상을 제작하고, 이를 통해 데이터 수집 비용을 줄이면서 다양한 열화 조건을 학습에 반영하려는 연구가 활발히 진행되고 있다. 이에 따라 노후 인프라 유지관리 분야에서도 데이터 부족 문제를 해결하기 위한 실질적인 증강 연구의 필요성이 더욱 커지고 있다. 또한 이러한 데이터를 활용해 신경망 모델을 학습함으로써 손상 탐지 성능을 높이고, 현장 적용 가능성을 강화하는 것이 중요하다.

실제로 딥러닝 기반 손상 탐지의 가장 큰 한계는 충분한 훈련 데이터를 확보하기 어렵다는 점이다. 대형 구조물 손상 영상은 수집에 많은 비용과 위험이 따르고, 모든 조건을 반영하기도 어렵다. 이를 보완하기 위해 최근 연구에서는 합성 데이터를 적극 활용하고 있다. Xu et al. (2023)은 댐 균열을 대상으로 합성 데이터를 생성해 기존 공공 데이터와 결합하여 탐지 성능을 크게 높였고, 균열 길이와 폭을 정량화하는 것도 가능함을 보였다. Hartmann and Klauck (2025)은 균열 전파 과정을 물리 기반 시뮬레이션으로 모델링해 합성 데이터를 만들었으며, 이를 통해 신경망이 균열의 발생과 성장 과정을 학습할 수 있음을 입증하였다. Hu et al. (2025)은 복잡한 슬래브 궤도 환경에서 합성 데이터를 기반으로 STC-YOLO 모델을 훈련시켜 실제 조건에서도 안정적인 균열 탐지 성능을 확보하였다. 이처럼 합성 데이터 연구는 시뮬레이션, 물리 모델링, 생성 모델을 활용한 다양한 접근을 통해 데이터 부족 문제를 해결하고 탐지 모델의 정확도와 일반화 성능을 높이는 중요한 흐름으로 자리 잡고 있다.

결국 딥러닝 기반 손상 탐지의 정확성과 실용성을 확보하기 위해서는, 제한된 실제 데이터를 보완할 수 있는 현실적이고 고품질의 합성 데이터 기반 증강 연구가 필수적이다. 최근 Xie et al. (2025)은 Stable Diffusion과 ControlNet을 결합한 CrackGen 프레임워크를 제안하여, 미세 조정을 통해 균열의 형태, 폭, 방향 등을 정밀하게 제어할 수 있는 합성 데이터를 생성하고, 이 데이터를 이용한 학습만으로 실제 데이터와 유사한 수준의 탐지 성능을 달성함을 입증하였다. 이에 본 연구는 Stable Diffusion 기반 생성형 AI와 DreamBooth 미세조정 기법을 결합하여 점검 현장의 콘크리트 표면에 대한 질감, 조도, 오염, 노후화 등 현장 환경의 특성을 정밀하게 반영한 고품질 합성 균열 데이터를 생성하였다. 이러한 접근은 단순한 합성 데이터 생성에 그치지 않고, 현장에서 수집된 실제 영상의 시각적⋅구조적 특성을 동시에 학습함으로써 데이터 부족 문제를 근본적으로 완화하고, 다양한 환경에서도 안정적인 탐지 성능을 확보할 수 있는 새로운 방향을 제시한다.

2. DreamBooth 기반 합성 균열 데이터 생성

2.1 균열 탐지 모델 개발 전략

본 연구에서는 영상과 딥러닝을 활용한 균열 탐지 알고리즘의 개발 절차를 제안하고자 한다. 제안된 절차에 따르면, 먼저 균열 탐지를 위한 영상 데이터를 훈련용, 검증용, 실험용 데이터로 분할하며, 그 비율은 각각 15%, 15%, 70%로 설정하였다. 이 비율은 기존 연구들에서 주로 사용되는 60-20-20%, 70-15-15% 또는 80-10-10% 구성과는 다르지만, 명확한 표준이 존재하지 않으며 실험 목적에 따라 조정 가능하다. 본 연구에서는 이러한 일반적 기준을 참고하되, 데이터가 제한된 실제 구조물 점검 환경을 반영하기 위해 의도적으로 역비율 형태인 15-15-70% 구성을 적용하였다. 일반적으로는 훈련 데이터의 비율을 70% 이상으로 설정하지만, 본 연구에서는 보다 현실적인 훈련 환경을 모사하기 위해 훈련 데이터 비중을 15%로 제한하였다. 기존의 딥러닝 연구들은 훈련용 데이터가 실험용 데이터보다 훨씬 많다는 가정을 전제로 하지만, 실제 현장에서는 이러한 가정이 적합하지 않다. 균열 탐지의 목적은 현장의 콘크리트 구조물 표면을 점검하는 것이며, 따라서 현장에서 수집한 데이터는 본질적으로 훈련 데이터가 아니라 실험 데이터로 간주해야 한다. 왜냐하면 현장은 점검의 대상이지, 모델 학습을 위한 데이터 취득 장소가 아니기 때문이다.

기존 연구들은 실험용 데이터보다 4∼5배 이상 많은 데이터를 확보할 수 있다고 가정하고 신경망을 훈련하고 평가하였으나, 실제 현장에서는 해당 현장에서 수집한 데이터가 전부이며 추가 확보는 불가능하다. 설령 다른 현장에서 데이터를 수집하더라도 해당 현장과의 연관성이 낮아 모델 성능 향상에 큰 기여를 하지 못한다. 이는 한 현장에서 학습된 모델을 다른 현장에 적용했을 때 성능이 크게 저하되는 현상과 같은 맥락이다. 따라서 보다 현실적인 접근은 현장에서 수집한 데이터의 일부만을 훈련용으로 사용하고, 나머지를 실험용 데이터로 사용하는 것이다. 이러한 방식은 라벨링 비용과 학습 시간을 절감할 수 있는 장점이 있다. 이를 고려하여 본 연구에서는 훈련⋅검증⋅실험 데이터의 분할 비율을 15%, 15%, 70%로 설정하는 새로운 개념을 제시하였다.

다음 단계로, 제한된 훈련용 데이터를 보완하기 위해 데이터 증강을 수행하였다. 본 논문에서는 영상 합성 방식을 증강 기법으로 채택하였으며, 기존 데이터 세트를 기반으로 실제와 유사한 영상을 대량으로 생성하였다. 특히, Stable Diffusion 모델을 활용하여 다양한 형태의 합성 균열 영상을 제작하였다(Rombach et al., 2022). 이 증강 데이터를 바탕으로 균열 탐지 신경망 모델을 훈련하고 평가하였으며, 최종적으로 증강 데이터가 탐지 정확도 향상에 미치는 영향을 분석하였다.

Fig. 1은 Stable Diffusion과 DreamBooth를 결합하여 합성 균열 데이터를 생성하고, 이를 이용해 균열 탐지 신경망을 학습하는 전체 절차를 보여준다. 먼저, Crack Dataset Preparation 단계에서는 실제 균열 영상과 마스크 영상을 구성하여 균열 데이터 세트를 준비하고, Crack-specific Token Setup 단계에서는 균열을 대표하는 고유 토큰([sks])을 설정한다. 이후 Fine-tuning with DreamBooth 단계에서는 DreamBooth를 이용해 Stable Diffusion 모델을 미세조정하여, 콘크리트 표면의 질감과 환경 특성을 학습하도록 하였다. 이렇게 훈련된 모델을 이용해서 Crack Dataset Generation 단계에서 마스크 조건을 적용해 현실적인 합성 균열 영상을 생성하며, 최종적으로 Crack Segmentation Network 단계에서 생성된 합성 데이터를 활용해 균열 분할 신경망을 학습하고 평가한다.

Fig. 1. Overview of the proposed framework for synthetic crack dataset generation and segmentation network training using Stable Diffusion and DreamBooth
../../Resources/ksm/jksmi.2025.29.6.70/fig1.png

2.2 균열 탐지를 위한 데이터 구성

본 논문에서는 선행 연구에서 공개된 콘크리트 균열 영상과 도로 균열 영상 데이터를 사용하였다(Bianchi et al., 2021). 모든 영상의 크기는 448×448 화소이며, 총 10,955장으로 구성되어 있다. 데이터는 아스팔트와 콘크리트 표면에서 발생한 균열 영상과 손상이 없는 정상 영상으로 이루어져 있으며, 본 연구에서 활용한 콘크리트 영상의 예시는 Fig. 2(a)에 제시하였다. 해당 영상들의 공통점은 균열을 촬영한 것이라는 점이며, 차이점은 색상과 형상이 다양하고, 재질과 변질 정도가 서로 다르다는 점이다. 또한 Fig. 2(b)는 균열 영상에서 균열 위치를 표시한 라벨 영상의 예시를 보여준다. 본 연구에서는 이와 같은 다양한 균열 영상과 라벨 영상을 바탕으로 신경망 모델을 학습하였다. 총 4,867장의 콘크리트 영상 중 729장은 훈련용, 717장은 검증용, 3,421장은 실험용으로 분할하여 사용하였다.

Fig. 2. Dataset: (a) crack images and (b) label images (Bianchi et al., 2021)
../../Resources/ksm/jksmi.2025.29.6.70/fig2.png

2.3 DreamBooth를 이용한 Stable Diffusion 미세조정 훈련

본 연구에서는 균열 영상 데이터를 확장하기 위해 생성형 AI 모델의 미세 조정 방법을 적용하였다. 생성형 AI는 대규모 파라미터를 포함하고 있어, 이를 처음부터 학습하기 위해서는 막대한 비용과 전산 자원이 요구된다. 이러한 제약을 극복하기 위해, 기존에 학습된 생성형 AI 모델을 사용자 도메인에 맞게 효율적으로 적응시키는 미세 조정 기법이 활용된다. 이 방법은 사전 학습된 모델의 가중치를 대부분 유지하면서, 비교적 적은 연산 비용으로 사용자의 목적에 특화된 모델을 재구성할 수 있다는 장점이 있다. 따라서 학습 시간은 짧아지고, 필요한 데이터 세트의 규모 역시 소량이어도 적용이 가능하다. 이러한 효율성을 바탕으로, 토목 분야에서도 생성형 AI를 실제 문제 해결에 접목할 수 있는 가능성이 제시된다.

본 연구에서는 여러 미세 조정 방법 중 DreamBooth를 사용하였다(Ruiz et al., 2023). DreamBooth는 Stable Diffusion 모델을 사용자의 참조 영상에 맞게 적응시키는 미세 조정 기법으로, 희귀 토큰과 소량의 참조 영상을 결합하여 새로운 개념을 모델 내부에 학습시키는 방식이다. 이 과정에서 모델은 기존 의미 지식을 유지하면서도 사용자가 원하는 대상을 반영할 수 있다. 생성형 AI 모델은 일반적으로 dog, cat, horse와 같은 잘 알려진 단어에 대해 분명하고 정확한 의미 지식을 갖고 있으므로, 이러한 단어들은 정의된 토큰으로 간주된다. 반면 xy5syt00과 같은 희귀 토큰은 고유한 의미가 없어 이에 대한 사전 지식이 존재하지 않는다. DreamBooth는 이러한 의미적 쌍이 없는 토큰을 활용하여 사용자가 원하는 대상을 모델 내부에 삽입하는 개념이다. 예를 들어 “a [V] dog”에서 [V]는 고유 식별자이고, dog는 클래스 명사다. 새로운 주제의 영상을 [V]와 결합하여 모델 내부에 새로운 의미적 쌍을 학습시키는 방식이다. 이를 통해 적은 수의 영상만으로도 짧은 시간 내에 미세 조정이 가능하다는 장점을 가진다. 특히 이 방법은 기존의 의미 지식을 유지하면서 사용자가 원하는 주제를 삽입할 수 있다는 점에서 특징적이며, 결과적으로 특정 대상을 사용자의 출력 도메인에 반영하여 새로운 영상을 생성할 수 있다.

본 연구에서는 이러한 원리를 인페인팅 기반 Stable Diffusion 모델에 적용하였다. 인페인팅 생성 방법은 마스크로 지정된 영역에 새로운 대상을 합성하면서, 마스크 외부의 배경은 원본과 일관되게 유지하는 방식이다. 이를 통해 원하는 위치와 형태로 균열을 현실감 있게 삽입할 수 있다. 본 연구에서는 이 방법을 DreamBooth와 결합하여 Fig. 3와 같이 새로운 균열 영상을 합성하였다. 미세 조정 과정에서 주제는 균열로 설정되었으며, 콘크리트 표면에서 발생한 균열 영상과 그 위치를 표시한 라벨 영상을 바인딩 대상으로 지정하였다. 또한 “[sks]”를 고유 식별자로 간주하여 출력 도메인에서 균열이 생성되도록 하였다. 결과적으로, 콘크리트 표면의 마스크 영역에 해당하는 [sks] crack을 합성하는 것을 목적으로 미세 조정을 수행하였다.

미세 조정 훈련이 완료된 후 추론 단계에서는 새로운 균열 영상을 합성하는 방법을 제안하였다. 훈련에 사용된 데이터 세트는 균열 영상과 라벨 영상의 쌍으로 구성되며, 이 라벨 영상을 인페인팅 과정의 마스크로 활용하면, 해당 영역에 균열 패턴이 반영된 합성 영상이 생성된다. 이는 원본 영상을 단순히 복원하는 것이 아니라, 라벨의 형태에 따라 새로운 균열을 현실감 있게 재구성하는 것이다. 즉, 생성 과정에서 마스크의 영역에 따라 균열 영역이 결정된다. 이러한 점에 착안하여, 서로 다른 두 개의 라벨 영상을 조합하여 새로운 마스크 영상을 생성하면, 새로운 균열 영역을 가진 영상을 얻을 수 있다. 본 연구에서는 이를 활용하여 추론 단계에서 두 개의 라벨을 결합한 마스크 영상을 입력으로 사용하였다. 이 과정에서 조합된 마스크 영상과 그 결과물로 생성된 영상은 각각 새로운 라벨 영상과 균열 영상이 되어, 결국 지도 학습에 활용 가능한 새로운 훈련용 라벨 데이터 세트를 구축할 수 있었다.

Fig. 3. DreamBooth inpaint structure for a new crack image synthesis
../../Resources/ksm/jksmi.2025.29.6.70/fig3.png

3. 실험 결과 및 논의

3.1 평가 지표 및 실험 환경

Stable Diffusion 모델로 생성된 균열 영상의 품질을 평가하기 위해 Frechet Inception Distance (FID)를 사용하였다(Heusel et al., 2017). FID는 원본 영상 집합과 생성 영상 집합 간의 특징 분포 차이를 계산하는 지표로, 식 (1)과 같이 정의된다. 여기서 $\mu_{x}$​와 $\sum_{x}$는 훈련용 균열 영상에서 계산된 평균과 분산을 나타내며, $\mu_{g}$와 $\sum_{g}$는 생성된 균열 영상에서 얻어진 평균과 분산을 의미한다. 두 값의 차이가 작을수록 두 영상 집합 간의 유사성이 높음을 의미한다.

(1)
FID(x, g): $\left.\left . ∥\mu_{x}-\mu_{g}\right .∥^{2}+Tr\left(\sum_{x}+\sum_{g}-2(\sum_{x}\sum_{g})^{0.5}\right.\right)$

다음으로 균열 탐지 성능을 정량적으로 평가하기 위해 F1 점수(F1-score)를 사용하였다 (Shim et al., 2022). F1 점수는 Precision(Pr)과 Recall(Re)의 조화 평균(harmonic mean)으로 정의되며, 클래스 불균형이 존재하는 균열 탐지 문제에서 모델의 성능을 종합적으로 판단하는 지표로 널리 활용된다. Pr과 Re는 식 (2)와 같이 정의된다. 여기서 TP(True Positive)는 균열 화소를 올바르게 균열로 예측한 수, FP(False Positive)는 비균열 화소를 균열로 잘못 예측한 수, FN(False Negative)은 균열 화소를 비균열로 잘못 분류한 수를 의미한다. 다시 말해, Pr은 탐지된 균열 중 실제 균열의 비율을 나타내며, Re는 실제 균열 중 모델이 올바르게 탐지한 비율을 의미한다. 마지막으로 F1 점수는 식 (3)과 같이 계산된다.

(2)
Pr: $\dfrac{TP}{TP+FP}$, Re$\dfrac{TP}{TP+FN}$
(3)
F1: $\dfrac{2×Pr×R e}{Pr + R e}$

본 연구에서 균열 영상 생성과 신경망 모델 학습은 Intel Xeon 6226R (2.9 GHz) CPU, 320 GB 메모리, NVIDIA Quadro 8000 GPU 3개가 장착된 환경에서 수행되었다. 운영체제는 Ubuntu 22.04를 사용하였으며, 딥러닝 프레임워크는 PyTorch를 활용하였다.

3.2 생성영상에 대한 품질 평가

DreamBooth는 주제를 생성형 AI 모델에 적절히 삽입하여 의미적 쌍을 구축하도록 한다. 본 연구에서는 주제를 균열로 설정하였으며, 사용한 생성형 AI 모델은 Stable Diffusion 1.5(SD-1.5)와 2.1(SD-2.1)이다. 두 모델은 동일한 확산 기반 구조를 공유하지만, 학습 해상도와 인코더 구성에서 차이를 가진다. SD-1.5는 512×512 해상도에서 학습된 CLIP ViT-L/14 인코더를 사용하며, 부드럽고 예술적인 질감 표현에 강점을 가진다. 반면 SD-2.1은 768×768 해상도와 OpenCLIP ViT-H/14 인코더를 기반으로 학습되어, 텍스처의 세부 묘사와 구조적 정확도가 크게 향상되었다. 또한 SD-2.1은 개선된 Variational Autoencoder와 정규화된 cross-attention 구조를 적용함으로써, 미세한 객체의 형태나 조도, 명암 대비와 같은 물리적 특성을 보다 현실적으로 재현할 수 있는 특징을 갖는다. DreamBooth 적용을 위해 사용된 훈련 데이터는 균열 영상과 해당 라벨 영상으로 구성되었으며, 총 1,000 epoch 동안 학습을 진행하였다. 최종적으로 저장된 모델을 활용하여 균열 영상을 합성하였고, 생성된 영상의 수는 10,000장이다. 합성 영상의 품질은 훈련 데이터의 균열 영상과 비교하여 품질을 평가하였다. 각 기저 모델에 따른 생성 영상의 품질 평가는 Table 1에 제시하였으며, 표 내의 “↓” 기호는 값이 낮을수록 더 우수한 품질을 의미함을 나타낸다. 그 결과, SD-2.1을 통해 생성된 균열 영상이 더 낮은 FID 값을 기록하였으며, 이는 SD-1.5보다 우수한 품질의 균열 영상이 생성되었음을 의미한다.

Table 1. Evaluation of generated images
Models FID(↓)
SD-1.5 40.75
SD-2.1 39.21

새로운 균열 영상을 생성하기 위해 SD-2.1을 기저 모델로 하여 인페인팅 형식의 생성 AI 모델을 DreamBooth 방식으로 미세 조정 기법을 적용한 결과는 Fig. 4와 같다. Fig. 4(a)Fig. 4(b)는 각각 원본 라벨 영상과 원본 균열 영상이며, Fig. 4(c)는 임의의 다른 라벨 영상을 조합하여 새롭게 생성한 라벨 영상이다. 마지막으로 Fig. 4(d)는 조합된 라벨 영상을 기반으로 합성된 새로운 균열 영상이다. 결과적으로, 모든 영상에서 새롭게 삽입된 라벨 영역에 맞추어 균열이 자연스럽게 삽입되는 것을 확인할 수 있다. 또한 콘크리트의 재질과 색상에 관계없이 균열이 배경과 조화롭게 형성되었다. 이는 생성형 인공지능이 갖는 의미 지식을 유지하면서 사용자가 지정한 주제가 적절히 반영된 결과이다. 특히 Stable Diffusion의 잡음 역연산 과정을 거쳤음에도 불구하고 콘크리트 배경은 부자연스러운 인공물이 없이 보전되어, 현실적인 균열 영상에 가깝게 합성됨을 알 수 있다.

Fig. 4. Generated images: (a) original label (b) original crack (c) combined label (d) generated crack
../../Resources/ksm/jksmi.2025.29.6.70/fig4.png

3.3 균열 탐지 실험 결과

본 연구의 목표는 합성된 영상을 활용하여 균열 탐지 성능을 향상시키는 데 있다. 이를 위해 생성형 AI를 이용한 데이터 증강 기법을 제안하였다. 이때 사용한 균열 탐지 신경망 모델은 DDRNet(Pan et al., 2021), RegSeg(Gao, 2021), SwinFormer (Liu et al., 2021), PoolFormer(Yu et al., 2022)이다. 이 중 SwinFormer와 PoolFormer는 백본 용량에 따라 성능이 달라지므로, PoolFormer와 SwinFormer에는 S24와 Tiny(T)의 백본을 각각 적용하였다. 따라서 본 연구에서는 총 네 가지 신경망 모델을 대상으로 훈련용 데이터 세트만 사용하여 개발한 균열 탐지 모델의 성능을 비교하였다. 모델 훈련 과정에서 합성 데이터의 유사성으로 인해 발생할 수 있는 과적합을 방지하기 위해 Batch Normalization과 Weight Decay(L2 정규화)를 적용하였다. Batch Normalization은 각 배치(batch) 단위로 데이터 분포를 정규화하여 학습을 안정화하고, Weight Decay는 가중치 크기를 제한하여 모델의 일반화 성능을 유지한다. 이러한 정규화 기법의 적용으로 합성 데이터를 포함한 학습 과정에서도 과적합이 억제되고 모델의 안정성이 확보되었다. 또한 훈련이 진행되는 중에 저장된 가중치 모델을 검증용 데이터 세트에 적용하여 성능을 평가하고, 이 중 가장 우수한 모델을 선별하여 실험용 데이터 세트에서 최종 성능을 측정하였다. 이러한 절차를 통해 얻은 결과를 기존 방법(baseline method)으로 간주하였다. 이후, 생성된 데이터 세트와 훈련용 데이터 세트를 동시에 학습에 활용하여 균열 탐지 모델을 학습시켰고, 마찬가지로 훈련 중 저장된 가중치 모델을 검증 데이터 세트로 평가하여 최고 성능의 모델을 선택하였다. 마지막으로, 이 모델을 실험용 데이터 세트에 적용하여 최종 성능을 측정하였으며, 이를 제안 방법(proposed method)의 성능으로 정의하였다. 두 방법 간의 비교를 통해 합성 데이터가 균열 탐지 정확도에 미치는 영향을 분석하였다.

생성된 균열 영상을 활용하여 네 가지 균열 탐지 신경망 모델을 학습한 결과는 Table 2에 제시하였다. 기존 방법으로 학습한 모델의 평균 F1 점수는 67.80%였으며, 생성 데이터를 함께 사용한 경우 73.53%로 증가하여 평균 5.73%의 성능 향상이 확인되었다. 모델별로는 PoolFormer(S24)가 67.20%에서 79.16%로 11.96% 증가하여 가장 큰 개선을 보였고, DDRNet은 62.51%에서 67.30%로 4.79% 향상되었다. RegSeg와 SwinFormer(T)는 각각 2.99%, 3.19%의 개선을 나타냈다. 이 결과는 합성 균열 영상이 단순한 데이터 보완을 넘어 실제 균열 탐지 성능 향상에 기여함을 보여준다. 특히 PoolFormer(S24)는 합성 데이터가 균열 인식 능력을 강화하는 효과를 입증하였으며, 성능 개선 폭이 상대적으로 작은 RegSeg와 SwinFormer(T)도 안정적인 성능 향상을 보였다. 따라서 합성 데이터 기반 증강 기법은 다양한 신경망 구조에서 균열 탐지 정확도를 높이는 데 효과적이며, 향후 다른 손상 유형에도 적용 가능성이 크다.

Table 2. Performance Evaluation Results for Test Dataset [%]
Models Metrics: F1 score
Baseline method Proposed method
DDRNet 62.51 67.30
RegSeg 66.01 69.00
SwinFormer(T) 75.48 78.67
PoolFormer(S24) 67.20 79.16
Average 67.80 73.53

생성 영상이 훈련에 활용되었을 때 미치는 영향을 분석하기 위해 기존 방법과 제안 방법을 비교하였다. 그 결과, 두 방법의 탐지 결과는 Fig. 5에 제시하였다. 위에서부터 DDRNet, RegSeg, SwinFormer(T), PoolFormer(S24)의 탐지 결과를 보여준다. 균열 탐지에서 중요한 요소는 두 가지로 요약할 수 있다. 첫째, 복잡한 배경에서 균열을 탐지할 수 있어야 한다. Fig. 5의 첫 번째 열의 DDRNet 결과에서 볼 수 있듯이, 착색으로 인해 콘크리트 재질이 복잡한 영상에서는 지도 학습만으로 정확한 탐지가 어려웠다. 그러나 생성 데이터 세트를 활용한 학습을 통해 이러한 한계가 개선되었다. 또한, RegSeg에서 사용한 균열 탐지 결과 영상을 보면 균열 외에 다른 요소들이 잡음으로 작용하는 현상을 볼 수 있다. 그러나 제안 방법을 보면 이러한 잡음에 강인한 탐지 결과를 확인할 수 있었다. 둘째, 미세한 균열을 끊김 없이 탐지해야 한다. SwinFormer(T)와 PoolFormer(S24)의 결과에서는 균열이 실선이 아닌 점선 형태로 탐지되는 현상이 관찰되었다. 이는 미세 균열에 대한 탐지가 불완전하다는 것을 의미한다. 연속된 균열임에도 중간이 끊어지는 문제는 제안 방법을 통해 이러한 부분이 해결된 것을 확인할 수 있다. 결론적으로, 다양한 합성 데이터의 활용은 균열 탐지 정확도의 향상에 기여함을 확인할 수 있었다.

Fig. 5. Result Images: (a) Input images, (b) Label images, (c) Baseline method, (d) Proposed method
../../Resources/ksm/jksmi.2025.29.6.70/fig5.png

4. 결 론

본 연구에서는 DreamBooth와 Stable Diffusion 기반의 데이터 증강 기법을 활용하여 콘크리트 구조물 균열 탐지 성능을 향상시키는 새로운 접근법을 제안하였다. 제한된 실제 균열 영상에 더해, 제안 기법으로 생성된 합성 균열 영상을 함께 활용함으로써 기존의 데이터 제약을 극복하고 보다 다양한 훈련 환경을 구현하였다. 이를 통해 DDRNet, RegSeg, SwinFormer, PoolFormer 등 여러 신경망 모델에서 F1-score를 포함한 주요 성능 지표가 일관되게 개선됨을 확인하였다. 특히, 합성 영상은 실제 콘크리트 표면의 질감과 색상을 충실히 반영하면서도 균열의 형태적 특징을 정밀하게 표현하여, 균열 경계의 왜곡을 최소화하고 탐지 결과의 신뢰도를 크게 향상시켰다.

실험 결과, 제안된 방법은 기존 방법 대비 평균 5.73%의 F1-점수 향상을 달성하였으며, 이는 본 기법이 다양한 신경망 모델에 적용 가능한 범용적 데이터 증강 프레임워크임을 시사한다. 또한, Stable Diffusion 기반 합성 데이터 활용은 고품질 영상 확보가 어려운 건설 현장의 환경적 제약을 보완할 수 있는 실질적 대안이 될 수 있음을 보여주었다. 향후 연구에서는 제안 기법을 더 다양한 건설 구조물 및 열화 유형 영상으로 확장 적용하고, 저조도⋅악조건 환경에서도 안정적인 성능을 발휘할 수 있도록 모델의 강건성을 강화할 계획이다. 나아가 3차원 영상 정보와 결합한 다중 모달 균열 탐지 기법 개발을 통해, 건설 구조물의 자동화된 상태 진단 및 유지관리의 신뢰성을 한층 제고할 수 있을 것으로 기대된다.

감사의 글

본 연구는 국토교통부/국토교통과학기술진흥원의 지원으로 수행되었음(과제번호 RS-2025-02315537)

References

1 
Bah, A. S., Zhang, Y., Sasai, K., Conciatori, D., Chouinard, L., Zufferey, N., Power, G. J., Sanchez, T., Chen, X. (2025), Bridge service life and impact of maintenance events on the structural state index, Case Studies in Construction MaterialsDOI
2 
(2024), Road maintenance in JapanURL
3 
Shim, S., Lee, S. W., Cho, G. C., Kim, J., Kang, S. M. (2023), Remote robotic system for 3D measurement of concrete damage in tunnel with ground vehicle and manipulator, Computer‐Aided Civil and Infrastructure Engineering, 38(15), 2180-2201.DOI
4 
Odeh, I., Shafei, B. (2025), An Automated Platform to Detect, Assess, and Quantify Deterioration in Concrete Structures, Developments in the Built Environment, 100728DOI
5 
Chen, B., Zhang, H., Wang, G., Huo, J., Li, Y., Li, L. (2023), Automatic concrete infrastructure crack semantic segmentation using deep learning, Automation in Construction, 152, 104950DOI
6 
Yu, Z., Dai, C., Zeng, X., Lv, Y., Li, H. (2025), A lightweight semantic segmentation method for concrete bridge surface diseases based on improved DeeplabV3+, Scientific Reports, 15(1), 10348DOI
7 
Li, S., Zhao, X., Zhou, G. (2019), Automatic pixel‐level multiple damage detection of concrete structure using fully convolutional network, Computer‐Aided Civil and Infrastructure Engineering, 34(7), 616-634.DOI
8 
Wang, W., Su, C. (2022), Automatic concrete crack segmentation model based on transformer, Automation in Construction, 139, 104275DOI
9 
Gan, L., Liu, H., Yan, Y., Chen, A. (2024), Bridge bottom crack detection and modeling based on faster R‐CNN and BIM, IET Image Processing, 18(3), 664-677.DOI
10 
Rostami, G., Chen, P. H., Hosseini, M. S. (2025), Segment Any Crack: Deep Semantic Segmentation Adaptation for Crack Detection, arXiv preprint arXiv:2504.14138DOI
11 
Xu, J., Yuan, C., Gu, J., Liu, J., An, J., Kong, Q. (2023), Innovative synthetic data augmentation for dam crack detection, segmentation, and quantification, Structural Health Monitoring, 22(4), 2402-2426.DOI
12 
Hartmann, C., Klauck, S. (2025), Synthetic training data for crack propagation measurement by neural networks, Neural Computing and Applications, 1-30.DOI
13 
Hu, W., Liu, X., Zhou, Z., Wang, W., Wu, Z., Chen, Z. (2025), Robust crack detection in complex slab track scenarios using STC-YOLO and synthetic data with highly simulated modeling, Automation in Construction, 175, 106219DOI
14 
Xie, J., Chen, B., Giacomini, A., Guo, H., Iqbal, U., Huang, J. (2025), A versatile synthetic data generation framework for crack detection, Engineering Structures, 344, 121428DOI
15 
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B. (2022), High-resolution image synthesis with latent diffusion models, 10684-10695.Google Search
16 
Bianchi, Eric, Hebdon, Matthew (2021), Concrete Crack Conglomerate DatasetDOI
17 
Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M., Aberman, K. (2023), Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation, 22500-22510.Google Search
18 
Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S. (2017), Gans trained by a two time-scale update rule converge to a local nash equilibrium, Advances in neural information processing systems, 30Google Search
19 
Shim, S., Kim, J., Lee, S. W., Cho, G. C. (2022), Road damage detection using super-resolution and semi-supervised learning with generative adversarial network, Automation in Construction, 135, 104139DOI
20 
Pan, H., Hong, Y., Sun, W., Jia, Y. (2022), Deep dual-resolution networks for real-time and accurate semantic segmentation of traffic scenes, IEEE Transactions on Intelligent Transportation Systems, 24(3), 3448-3460.Google Search
21 
Gao, R. (2021), Rethink dilated convolution for real-time semantic segmentation, arXiv preprint arXiv:2111.09957, 2(3), 6Google Search
22 
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z. (2021), Swin transformer: Hierarchical vision transformer using shifted windows, 10012-10022.Google Search
23 
Yu, W., Luo, M., Zhou, P., Si, C., Zhou, Y., Wang, X. (2022), Metaformer is actually what you need for vision, 10819-10829.Google Search