Mobile QR Code QR CODE

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.
  • Indexed by
  • Korea Citation Index (KCI)

  1. 정회원,한국건설기술연구원 지반연구본부 수석연구원, 교신저자



딥러닝, stable diffusion, 영상 생성, 유지관리, 데이터 증강
Deep learning, Stable diffusion, Image generation, Maintenance, Data augmentation

1. 서 론

구조물은 사용기한의 장기화에 따른 손상이 불가피하다. 이 같은 손상의 원인으로는 환경적 요인, 재해재난, 재료의 성능 저하 등을 꼽을 수 있다(Li and Zhao, 2023). 손상의 종류는 내부적인 것과 외부적인 것으로 구분되며, 외부 손상으로는 주로 표면 손상으로 발생된 균열, 박락, 철근 노출 등이 있다. 이 같은 종류의 손상은 콘크리트 구조물의 강도와 지속성을 감소시키는 요인으로 작용하기도 한다(Ji et al., 2020). 또한, 다양한 종류의 손상은 자칫 안전사고와 재해재난으로 직결될 수 있기 때문에 적절한 보수가 반드시 필수적이다.

보수를 위해서는 우선적으로 구조물에 대한 점검이 선행되어야 한다. 일반적으로 점검 작업은 현재까지 현장 작업자들이 육안을 통해서 구조물의 손상 상태를 직접 확인하는 방식으로 진행된다. 이 점검자들은 다양하고 오래된 현장 경험을 바탕으로 구조물의 손상 정도와 규모를 파악한다. 그렇기 때문에 작업자의 경험과 역량이 손상의 상태를 결정함에 있어 매우 중요한 인자로 작용한다(Graybeal et al., 2002).

이와 같은 작업자 의존적 또는 주관적 점검을 대신하기 위해 딥러닝과 영상 처리를 활용한 손상 탐지 기술에 대한 연구가 현재까지 활발하게 진행되고 있다. 특히 딥러닝의 등장으로 영상 분류, 객체 인식, 의미론적 분할을 활용한 기술들이 손상 탐지 분야에서 연구된 바 있다. 영상 분류는 영상 내에서 손상의 존재 유무를 판별하는 방법이다(Cha et al., 2017). 따라서 전체 영상을 다수의 작은 영상으로 분할하거나 움직이는 윈도우를 통해서 손상의 영역을 탐지하는 방식을 적용한다. 객체 인식은 영상 내에서 손상의 위치를 사각형 박스 형식으로 탐색하는 방법이다(Xia et al., 2020). 객체 인식 알고리즘은 자율 주행 분야에서 널리 활용되고 있기 때문에 실시간으로 탐지할 수 있다는 장점이 있다. 마지막으로 의미론적 분할은 손상의 영역을 화소 단위로 탐지하고 추출할 수 있다(Li et al., 2019). 이는 카메라의 해상도가 높을수록 미세한 균열까지 탐지할 수 있다는 장점이 있다. 이처럼 다양한 기법을 통해 컴퓨터 비전과 딥러닝이 융합된 기술을 손상 탐지 분야에 활발히 적용하고 있다.

하지만 이러한 방법들은 공통적으로 모두 지도 학습을 사용한다. 손상 영상의 수와 라벨 영상의 수가 동일한 데이터에서 손상 탐지 신경망을 훈련할 수 있다. 아울러 이처럼 신경망의 탐지 성능을 높이기 위해서는 다수의 손상 영상이 필요하다. 하지만, 손상의 경우 대부분 교량의 하부와 높은 건축물의 외벽과 같은 곳에 존재하는 탓에 데이터 취득을 위한 접근이 매우 어렵다(Shim, 2024). 따라서 손상을 촬영한 영상을 확보하기 위해서는 작업자가 위험을 감수하거나 비행 장치를 사용하는 비용을 지불해야 한다. 이에 더하여 구조물의 손상은 주로 비정상 장면이라는 점에 관해서도 생각해 볼 필요가 있다. 일반적으로 자율 주행 분야에서 사용되는 일반 주행 영상은 정상 장면을 촬영하기 때문에 데이터의 수량은 충분하다고 볼 수 있다. 하지만 손상 영상은 흔히 볼 수 있는 장면이 아니기 때문에 수량에 있어 늘 부족할 수밖에 없다. 필수적인 데이터 수량의 부족 상황은 데이터 기반 학습 알고리즘의 토목 분야에 접목되는 걸림돌이 될 수 있어 문제를 해결할 필요가 있다. 그러므로 이 연구에서는 생성 알고리즘을 통해 콘크리트 구조물의 손상 영상을 생성하는 방법을 연구했다.

2. 문헌조사

데이터 생성은 생성적 적대 신경망(generative adversarial network, GAN)에 의해서 연구가 시작되었다(Goodfellow et al., 2014). 생성 알고리즘은 기본적으로 두 개의 신경망 모델을 사용한다. 하나는 generator이고 다른 하나는 discriminator다. 생성자의 역할은 새로운 영상을 합성하는 것으로 새로운 균열 영상을 만들어 낼 수 있다. 다음으로 판별자의 역할은 영상의 진위 여부를 판단하는 것으로 진짜 영상과 가짜 영상을 구분한다. 이 두 가지 신경망을 활용하여 훈련은 두 단계로 진행된다. 첫 번째는 real learning이다. 이 단계에서는 진짜 영상과 생성자로부터 생성된 가짜 영상을 판별자 신경망의 입력으로 활용한다. 그리고 진짜 영상을 참으로 인식하고 가짜 영상을 거짓으로 인지하도록 판별자 신경망을 훈련한다. 두 번째는 fake learning이다. 이는 가짜 영상만을 판별자 신경망의 입력으로 사용한다. 그리고 이 생성된 가짜 영상을 참으로 인식되도록 판별자를 속이는 학습을 수행한다. 이러한 두 가지 learning 방법을 동시에 적용하여 상호 간에 경쟁을 거쳐 훈련 데이터에 존재할 것 같지만 전혀 새로운 영상이 생성되도록 훈련이 진행된다. 이 방법은 토목 분야에서 훈련용 영상 데이터를 증강하는 데 활용되고 있다. 데이터를 증강하는 방법으로 우선 서로 다른 성격을 가진 두 도메인의 데이터를 변환하여 수량을 증강하는 방법이다. 대표적인 예로는 cycleGAN이 있다(Zhu et al., 2017). 이 방법을 토목 분야에 적용하여 Shim(2022)는 아스팔트 균열 영상과 콘크리트 균열 영상을 상호 변환할 수 있도록 하였다. 두 도메인의 균열 영상은 배경의 재질이 다르지만, 균열의 형상은 유사하므로 이 같은 변환이 가능했다. Huang et al.(2024)은 수중 콘크리트 구조물의 발생하는 균열을 탐지하기 위해서 영상 변환 기법을 적용하였다. 그들은 수중 촬영이 어려워 데이터가 부족한 문제를 수상에서 촬영된 균열 영상으로 해결하는 방법을 제시하였다. 이외 GAN의 활용 연구로는 Pix2PixGAN이 있다(Isola et al., 2017). 이는 라벨 영상으로부터 원래의 컬러 영상을 복원하는 방법이다. 이렇게 복원된 영상은 원래의 영상과는 다른 형상과 색상으로 생성되어 새로운 영상 데이터를 제공한다. Li and Zhao(2023)은 Pix2PixGAN 뿐만 아니라 OASIS(Sushko et al., 2020)와 Pix2PixHD (Wang et al., 2018)을 사용하여 콘크리트 손상 영상 합성에 적합한 모델을 검토하였다. 그 결과 3가지 분할 신경망 모델을 활용해 균열 탐지 정확도를 평가하였다. Shim(2024)는 라벨 영상으로부터 생성된 균열 영상을 자가 학습 구조에 적용하는 방법을 제안하였다. 이를 통해서 생성 영상을 다시 훈련에 참여시켜 정확도를 향상시키는 학습 구조를 제시하였다.

최근에는 stable diffusion 모델의 등장으로 문자열 기반의 영상 생성 방법이 제시되었다(Rombach et al., 2022). 생성 알고리즘에서 가장 중요한 점은 생성 대상에 대한 제어 방법이다. GAN은 속이는 학습을 통해서 생성 대상의 새로운 정도를 제어하고 있다. 이에 반해 stable diffusion은 잡음으로부터 새로운 영상이 생성되는 과정에서 문자열을 통한 생성 제어 방법을 제안하였다. 그 결과 영상 내에서 구성 요소별 생성 제어가 가능해졌고, 더 나아가 고품질의 영상 생성이 가능해졌다. 이 연구에서는 이러한 stable diffusion 모델을 활용해서 콘크리트 손상 영상을 합성하는 방법과 생성 영상의 품질을 평가하는 연구를 수행하고자 한다.

3. 콘크리트 손상 영상 생성

3.1 영상 데이터의 구성

Stable diffusion을 이용한 영상을 생성하기 위해서는 두 종류의 데이터가 필요하다. 하나는 영상 데이터이며, 다른 하나는 문자열 데이터다. 이 문자열은 손상 영상에 대한 설명을 나타낸다. 이를 위해서 이 연구에서는 Fig. 1과 같이 Shim and Min(2022)에서 사용한 영상들 중에 678장을 선별하여 사용하였다. 이 영상들은 Fig. 1(a)에 나타난 것처럼 균열, 박락, 그리고 철근 노출과 같은 3가지의 손상을 포함하고 있다. 아울러 정면 촬영뿐만 아니라 다양한 각도에서 손상을 촬영하였다. 아울러 영상의 해상도는 일정하지 않다. 손상은 교량, 터널 라이닝, 건축물 등 다양한 분야에서 수집되었다. 이러한 영상을 생성에 활용하기 위해서는 Fig. 1(b)과 같이 손상을 설명할 수 있는 문자열 정보가 필요하다. 문자열에 포함되어야 할 정보는 손상의 종류뿐만 아니라 주변 상황에 대한 설명도 포함되어 있다. 또한, 콘크리트의 페인트 형태와 색상, 표면에 쓰여진 분필 선과 문자에 대한 기술도 있다. 이러한 묘사 작업이 상세할수록 영상 생성에 필요한 섬세한 제어가 가능해진다. 따라서 이 연구에서는 손상 영상에 대해 가능한 상세한 설명이 가능하도록 기술했다.

Fig. 1 Dataset: (a) damage image and (b) text data
../../Resources/ksm/jksmi.2024.28.4.55/fig1.png

3.2 손상 영상 생성을 위한 fine-tuning

Stable diffusion을 이용한 생성은 잡음 신호에서부터 시작해서 목적 영상으로 변환한다. 이 방법의 원리는 원본 영상에 가우시안 잡음을 계속 추가하게 되면 결국에는 잡음만 존재하는 영상이 된다. 하지만 이와 반대로 연산할 경우 원래의 영상으로 돌아가게 된다. 훈련 과정에서 원본 영상과 문자열이 만들어 내는 잠재 공간을 통해 잡음을 섞는 연산이 정의된다. 이러한 훈련이 완료된 후에 잡음으로부터 복원하는 역연산에 새롭게 정의된 문자열을 통해서 생성의 방향이 제어되어 새로운 영상이 만들어진다.

최근 생성 모델은 초거대화가 되어 간다. 그렇기 때문에 다수의 모델 파라미터 수를 가지고 있으며, 이를 학습하기 위해서는 고성능의 GPU 장치가 여러 대가 있어야 한다. 이러한 하드웨어 리소스를 확보하는 것은 사실상 쉽지 않으므로 완전 재학습은 고비용의 훈련이 될 수밖에 없다. 이 같은 한계를 개선하기 위해 모델 파라미터의 효율성을 높이고 메모리 사용량을 최소화하는 훈련 기법이 연구되었다. 이러한 방법들 가운데 하나인 low-rank adaptation (LoRA)은 기존의 학습된 모델을 그대로 사용하고 별도의 가중치 행렬을 적용하여 출력을 완성하는 방법이다(Hu et al., 2021). LoRA는 Fig. 2와 같이 도식화된다. 입력 데이터를 기존의 학습된 거대 모델에 입력으로 사용하고 이와 동시에 A 가중치 행렬에 입력으로도 사용한다. 더불어 최종 출력은 거대 모델의 출력과 B 가중치 행렬의 출력을 합쳐 완성된다. 사용자가 훈련한 데이터대로 최종 출력이 만들어지도록 A와 B의 가중치가 업데이트된다.

Fig. 2 LoRA fine-tuning method
../../Resources/ksm/jksmi.2024.28.4.55/fig2.png

이 방법이 완전 재학습과 비교했을 때, 효율적인 이유는 기저 모델(W0)을 그대로 사용하기 때문이다. 원래라면 W0의 가중치가 △W만큼 변하여 새로운 기저 모델이 되어야 한다. 이러한 경우에는 기존 도메인에서 훈련된 가중치가 새로운 도메인으로 전이된다. 이를 통해 새롭게 접한 데이터의 적합한 모델로 변하게 된다. 하지만 이는 모든 W0을 훈련할 수 있는 하드웨어가 필요하다는 단점이 있다. 이와 달리 LoRA는 Eq. (1)과 같이 △W를 대신하여 BA를 사용한다. 그리고 입력과 출력의 차원만 동일하게 할 뿐 전체의 W0을 훈련할 필요가 없다. 그러므로 훈련에 사용되는 모델 파라미터의 수가 급격히 감소하여 효율적이고 도메인에 적합한 모델을 개발할 수 있게 된다.

(1)
$h=W_{0}x+\triangle Wx=W_{0}x+BAx$

이 연구에서는 이러한 방법을 사용하여 콘크리트 손상 영상을 합성할 수 있는 방법을 제안했다. LoRA는 기저 모델의 출력을 그대로 사용하므로 기저 모델의 종류에 따라 출력은 차이를 보인다. 따라서 본 연구에서는 기저 모델에 따른 손상 영상 생성 품질을 비교하도록 했다. 이를 통해 콘크리트 가상의 손상 영상을 생성하는 모델을 제안하고자 한다.

4. 실험 결과 및 논의

4.1 평가 지표

본 연구에서는 생성된 영상의 품질을 평가하기 위해 2가지의 지표를 사용했다. 하나는 inception score (IS)이고 다른 하나는 fréchet inception distance (FID)다. IS는 생성된 영상의 품질과 다양성을 바탕으로 평가하는 지표이며, Eq. (2)과 같이 정의된다. 이는 사전에 훈련된 Inception V3모델을 사용하고 Kullback-Leibler (DKL)를 계산하여 지수 평균으로 최종값을 결정한다. FID는 원본 영상 집합과 생성 영상 집합 간의 특징 분포 거리를 계산한다. 이는 Eq. (3)와 같이 정의되고 평균 벡터와 공분산 행렬을 통해 최종값을 계산한다. 이 지표를 토대로 생성된 콘크리트 손상 영상을 평가했다.

(2)
IS: $\exp\left(\dfrac{1}{N}\sum_{i=1}^{N}D_{KL}(P(y|x_{i})||P(y))\right)$
(3)
FID(x, g): $\left.\left . ∥\mu_{x}-\mu_{g}\right .∥^{2}+Tr\left(\sum_{x}+\sum_{g}-2(\sum_{x}\sum_{g})^{0.5}\right.\right)$

4.2 실험 환경

본 연구에서는 손상 영상을 생성하기 위해서 사용한 하드웨어는 Intel Xeon 6226R 2.9GHz, 320GB 메모리, NVIDIA Quardro 8000이고, 운영체제는 Ubuntu 22.04다. 딥러닝 프레임 워크는 PyTorch이고, 주요 라이브러리는 diffusers다. 전체 iteration수는 15000회로 하였고, 생성되는 영상의 해상도는 512 × 512로 설정하였으며 batch의 크기는 48로 하였다. 매 1000회 마다 가중치 모델을 저장하도록 했다.

이 연구는 문자열을 바탕으로 생성되는 영상을 제어하기 때문에 입력으로 사용되는 prompt가 중요한 역할을 한다. 따라서 연구에서는 공통적으로 “a concrete wall including crack, spalling, exposed rebar, inside gravel, in detail, 8K, realistic”으로 손상 영상을 합성했다.

4.3 손상 영상 생성 실험 결과 분석

이 연구에서는 생성되는 손상 영상이 기저 모델(W0)에 따라 차이가 있다고 가정했다. 이를 검증하기 위해 본 연구에서는 3가지의 모델을 사용했다. 이들은 Stable diffusion v1.5 (SD 1.5), Stable diffusion XL (SD XL), Stable diffusion v2.1 (SD 2.1)이다. 이들은 모두 동일한 조건에서 훈련되었다. 이러한 동일한 과정을 통해서 완성된 모델을 활용해 새로운 손상 영상을 합성했다. 각각의 모델이 생성한 합성 영상의 수는 1000장이다. 손상 영상을 합성할 때 수정한 파라미터는 num_ inference_steps, guidance_scale이다. 이들은 각각 40, 4.0으로 하였고 나머지는 초깃값을 사용했다. num_inference_steps의 역할은 영상 생성 시 잡음을 제거하는 단계를 의미하여 숫자가 높으면 높은 품질의 영상이 생성되지만 연산 시간이 오래 소요된다. 또한, guidance_scale은 입력으로 사용된 prompt가 영상 생성에 어느 정도의 영향을 줄 것인지 여부를 결정하는 인자다. 해당 값이 높을수록 prompt와 유사한 영상이 생성된다.

생성된 영상에 대한 품질 평가 실험 결과는 Table 1과 같다. IS는 높은 값이 나올수록 전반적인 영상 품질이 우수하다는 것을 의미한다. 따라서 SD 1.5에 의해서 생성된 손상 영상의 품질이 높은 것으로 나타났다. 또한, FID는 원본 영상과 비교하는 평가 방법으로 값이 낮을수록 우수한 품질을 갖는다. 결과적으로 이 지표 또한 SD 1.5 모델에서 합성된 손상 영상이 고품질인 것으로 확인할 수 있었다.

Table 1 Performance evaluation results

Metrics

Base model (W0)

SD 1.5

SD XL

SD 2.1

IS (↑)

4.76

2.26

2.21

FID (↓)

148.18

161.42

255.11

4.4 생성된 손상 영상 비교

각각의 모델에 의해 합성된 영상들을 비교한 결과는 Fig. 3과 같다. 모두 동일한 prompt에 의해 생성되었으나 합성되는 영상의 형상은 서로 달리 나타났다. 모든 영상에 동일하게 균열, 박락, 철근 노출을 포함하고 있다. 또한, 콘크리트 자갈이 손상 영역 내에 포함되어 있는 모습도 표현되었다. 하지만, SD XL 모델에 의해 생성된 영상은 철근 노출에 대해 부자연스러운 생성을 포함하고 있다. 일반적으로 철근은 직선으로 되어 있다. Fig. 3(b)과 같이 SD XL에 의해 생성된 손상 영상에서는 불규칙적인 곡선을 나타낸다. 이뿐 아니라 철근 노출이 영상에 포함되지 않는 경우도 나타났다. 이것은 생성 과정에서 제어가 정확히 이루어지지 않은 것을 의미한다. SD 2.1에 의해 생성된 영상은 Fig. 3(c)과 같이 실제 장면과 다른 인위적인 모습이 나타났다. 실제 장면을 이용해 훈련을 수행했지만, 생성한 영상의 경우 비교적 이러한 장면을 포함하고 있지 않다. 특히 철근과 박락의 모습 또한 가상의 모습처럼 합성되어 실제 데이터로 활용하기는 어렵다. 특히 콘크리트 재질은 부자연스럽고, 자갈은 포함되어 있지 않은 채 생성되었다. 하지만, SD 1.5의 경우 Fig. 3(a)과 같이 분필로 작성된 문자뿐만 아니라 균열의 형상도 구체적으로 나타났다. 자갈의 분포도 다양하고 철근의 형상도 자연스럽게 나타났다. 이러한 점을 고려했을 때, SD 1.5를 기저 모델로 사용한 학습이 가장 실제 손상 영상과 유사한 결과를 보여주는 것을 알 수 있다.

Fig. 3 Generated concrete damage image comparison: (a) SD 1.5, (b) SD XL, (c) SD 2.1
../../Resources/ksm/jksmi.2024.28.4.55/fig3.png

다음으로 이 연구에서 제안한 생성 모델을 fine-tuning하여 생성된 결과 영상과 다른 생성 모델들에 의해 합성된 손상 영상을 비교하였다. Fig. 4는 ChatGPT4와 original stable diffusion (SD) 1.5 모델을 통해서 콘크리트 손상 영상을 생성했다. 이들은 모두 동일한 prompt 입력으로 얻어진 결과 영상이다. Fig. 4(a)는 생성 모델 중 하나인 DALLㆍE를 통해 얻어진 결과 영상이다. 철근과 다양한 형태로 파손된 콘크리트 구조물을 표현하고 있다. 하지만, 현실적인 콘크리트 손상으로 보기는 어렵다. Fig. 4(b)는 사전에 학습된 SD 모델을 그대로 사용하여 콘크리트 손상 영상을 합성했다. 하지만 콘크리트 손상의 한 종류인 철근 노출과 박락은 나타나지 않았다. 원래의 SD 모델은 분명 대규모의 데이터로 훈련이 되었다. 그럼에도 불구하고 prompt를 정확히 반영한 영상이 생성되었다고 보기는 어렵다. 이를 위해서는 토목 분야에서만 사용되는 콘크리트 손상을 설명하는 문자열 데이터가 훈련 데이터 세트에 포함되어 있어야 가능하겠다. 따라서 토목 분야에 적합한 훈련 데이터와 이를 활용한 인공지능 모델의 훈련 기술은 필요성이 높다.

Fig. 4 Generated concrete damage image comparison: (a) DALLㆍE (ChatGPT4), (b) original SD 1.5, (c) fine-tuned SD 1.5
../../Resources/ksm/jksmi.2024.28.4.55/fig4.png

5. 결 론

콘크리트의 손상을 컴퓨터 비전과 딥러닝을 이용해서 탐지하는 기술은 구조물 유지관리에 필수적이다. 높은 수준의 해상도를 활용한 정확한 점검 기술은 구조물의 정확한 상태 진단에 주요한 역할을 하고 더 나아가 안전사고 예방에도 기여할 수 있다. 하지만 이 기술의 완성도를 높이기 위해서는 다수의 훈련 데이터가 있어야 하지만, 현실적으로 콘크리트 표면에서 발생하는 박락과 철근 노출은 흔히 구할 수 없다. 이를 위해서 이 연구에서는 생성을 통해서 실제의 콘크리트 손상과 매우 유사한 영상을 확보하는 방법을 제안했다. 기존의 연구와 달리 본 연구에서 수행한 점은 크게 2가지다. 하나는 이 콘크리트 손상 영상을 합성하기 위해 문자열-영상 데이터 세트를 확보했다는 점이다. 이를 통해 stable diffusion을 fine-tuning하여 소량의 훈련 데이터로도 목적한 손상 영상을 합성할 수 있도록 하였다. 다른 하나는 stable diffusion의 여러 기저 모델에 따라 생성되는 영상의 품질을 서로 비교하였다는 점이다. 이를 통해 기저 모델의 종류에 따라 합성되는 손상 영상의 다양성과 현실성에 차이를 보이는 것으로 나타났다. 이 생성 방법을 구현하기 위해서 문자열-영상 데이터 세트를 구축했다. 또한, stable diffusion을 fine-tuning하여 소량의 훈련 데이터로도 목적한 손상 영상을 합성할 수 있는 방법을 개발했다. 이에 더하여, stable diffusion의 기저 모델에 따라 생성되는 영상의 품질이 달라질 수 있다는 점을 검증했다. 특히 기저 모델의 종류에 따라 합성되는 손상 영상의 다양성과 현실성에 차이를 보이는 것으로 나타났다.

끝으로 이 같은 손상 영상 생성 방법은 일반적으로 활용되는 생성 모델과 달리 토목 분야에 fine-tuning을 통해 유효한 활용이 가능하다. 더 나아가 이러한 합성 데이터를 활용해 딥러닝 기반 손상 탐지 기술을 고도화시킬 것으로 기대가 되는 바이다.

이 연구를 통해 생성된 영상 데이터를 활용해 손상 신경망 탐지 모델을 훈련할 수 있다고 본다. 그리고 이를 위해서는 필수적으로 라벨 영상이 요구된다. 하지만 생성 영상의 손상은 그 형태가 일정치 않고 라벨 영상도 없으므로 지도 학습을 통한 훈련에 적용하기는 어렵다. 따라서 이러한 난관을 극복하기 위해서는 생성 영상을 훈련에 참여시킬 수 있는 준지도학습 및 비지도학습과 같은 고급 학습 기법이 필요하겠다. 이뿐만 아니라 라벨 영상의 위치를 기반으로 영상이 합성되는 in-painting 또는 out-painting도 있다. 이러한 방법으로 손상 영상을 합성할 경우 새로운 라벨 영상이 필요없기 때문에 훈련 데이터로 쉽게 활용이 가능하다. 바라건대 이와 연계된 기술이 완성되었을 때 비로소 노후 인프라 점검 분야에 현실적인 적용이 활발히 이루어질 것으로 예상한다.

감사의 글

본 연구는 한국건설기술연구원의 2024년 주요사업(과제번호: 20240051-009 터널 안전 점검용 고성능 UWB 기반 소형 AI 드론 주행 기술 개발)의 재원으로 수행된 연구 결과입니다.

References

1 
Li, S., and Zhao, X. (2023), High-resolution concrete damage image synthesis using conditional generative adversarial network, Automation in Construction, 147, 104739.DOI
2 
Ji, A., Xue, X., Wang, Y., Luo, X., and Xue, W. (2020), An integrated approach to automatic pixel-level crack detection and quantification of asphalt pavement, Automation in Construction, 114, 103176.DOI
3 
Graybeal, B. A., Phares, B. M., Rolander, D. D., Moore, M., and Washer, G. (2002), Visual inspection of highway bridges, Journal of Nondestructive Evaluation, 21(3), 67-83.DOI
4 
Cha, Y. J., Choi, W., and Büyüköztürk, O. (2017), Deep learning‐based crack damage detection using convolutional neural networks, Computer‐Aided Civil and Infrastructure Engineering, 32(5), 361-378.DOI
5 
Xia, B., Cao, J., Zhang, X., and Peng, Y. (2020), Automatic concrete sleeper crack detection using a one-stage detector, International Journal of Intelligent Robotics and Applications, 4(3), 319-327.DOI
6 
Li, S., Zhao, X., and Zhou, G. (2019), Automatic pixel‐level multiple damage detection of concrete structure using fully convolutional network, Computer‐Aided Civil and Infrastructure Engineering, 34(7), 616-634.DOI
7 
Shim, S. (2024), Self‐training approach for crack detection using synthesized crack images based on conditional generative adversarial network, Computer‐Aided Civil and Infrastructure Engineering, 39(7), 1019-1041.DOI
8 
Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014), Generative adversarial nets, Proceedings of Advances in Neural Information Processing Systems, Montreal, Canada, 2672-2680.URL
9 
Zhu, J. Y., Park, T., Isola, P., and Efros, A. A. (2017), Unpaired image-to-image translation using cycle-consistent adversarial networks, Proceedings of the IEEE international conference on computer vision, Honolulu, HI, USA, (pp. 2223-2232).URL
10 
Shim, S. (2022), CycleGAN based translation method between asphalt and concrete crack images for data augmentation, The Journal of The Korea Institute of Intelligent Transport Systems, 21(5), 171-182 (in Korean).URL
11 
Huang, B., Kang, F., Li, X., and Zhu, S. (2024), Underwater dam crack image generation based on unsupervised image-to-image translation, Automation in Construction, 163, 105430.DOI
12 
Isola, P., Zhu, J. Y., Zhou, T., and Efros, A. A. (2017), Image-to-image translation with conditional adversarial networks, Proceedings of the IEEE conference on computer vision and pattern recognition, Honolulu, HI, USA, 1125-1134.URL
13 
Sushko, V., Schonfeld, E., Zhang, D., Gall, J., Schiele, B., and Khoreva, A. (2020), You only need adversarial supervision for semantic image synthesis, arXiv Preprint arXiv:2012.04781.DOI
14 
Wang, T. C., Liu, M. Y., Zhu, J. Y., Tao, A., Kautz, J., and Catanzaro, B. (2018), High-resolution image synthesis and semantic manipulation with conditional gans, Proceedings of the IEEE conference on computer vision and pattern recognition, Salt Lake City, UT, USA, 8798-8807.URL
15 
Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. (2022), High-resolution image synthesis with latent diffusion models, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, New Orleans, LA, USA, 10684-10695.URL
16 
Shim, S., and Min, J. (2022), Semantic Segmentation for Multiple Concrete Damage Based on Hierarchical Learning, Journal of the Korea Institute for Structural Maintenance and Inspection, 26(6), 175-181 (in Korean).DOI
17 
Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., and Chen, W. (2021), Lora: Low-rank adaptation of large language models, arXiv preprint arXiv:2106.09685.DOI