Mobile QR Code QR CODE

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.
  • Indexed by
  • Korea Citation Index (KCI)

  1. 학생회원, 서울시립대학교 토목공학과 석사과정
  2. 비회원, 서울시립대학교 도시빅데이터융합학과 석사과정
  3. 정회원, 서울시립대학교 토목공학과/도시빅데이터융합학과 교수, 교신저자



균열 탐지, 도메인 적응, 약한 라벨, 이미지 라벨, 포인트 라벨, 적대적 학습, 딥러닝
Crack detection, Domain adaptation, Weak label, Image label, Point label, Adversarial learning, Deep learning

1. 서 론

최근 구조물 점검에 영상과 딥러닝을 활용한 자동화된 균열 탐지 방법이 활발히 적용되고 있다. 영상에서 특정 객체를 찾는 딥러닝 모델은 크게 분류(Classification), 탐지(Detection), 분할(Segmentation) 모델로 나뉜다(Lin et al., 2014). 이 중 분할 모델은 객체의 형상과 위치를 모두 찾는 방법으로, 균열의 탐지와 정량화를 동시에 수행할 수 있는 모델이다. Zou et al.(2018), Ji et al.(2020), Li et al.(2021) 등의 문헌에서는 균열이 픽셀 단위로 라벨링된 학습데이터를 활용하여 분할 모델을 지도학습(supervised learning)함으로서 균열 탐지를 성공적으로 수행하였다. 지도학습을 위한 학습데이터의 준비 과정에는 매우 많은 시간과 노력이 요구되지만, 한번만 잘 정제된 학습데이터를 만들기만 하면 지도학습을 통해 높은 정확도의 균열 탐지 모델을 만들 수 있다. 그러나 이와 같이 비싼 비용을 들여 지도학습한 모델을 구조물, 영상 장비, 촬영 조건 등이 바뀐 다른 환경의 영상에 적용하면 학습된 모델의 성능이 떨어지는 문제가 발생한다. 이는 학습된 모델이 찾은 학습데이터 속 객체의 특징 분포와 학습된 모델을 적용하는 테스트데이터에 포함된 객체의 특징 분포가 다르기 때문이며, 이러한 현상을 도메인 차이(Domain Shift)라고 부른다(Farahani et al., 2021).

이러한 도메인 차이로 인한 성능 저하 문제를 해결하기 위한 방법으로 도메인 적응(domain adaptation) 기법이 연구되고 있다. 도메인 적응은 학습데이터를 획득한 원천 도메인(source domain)에서 학습된 모델을 새로운 목표 도메인(target domain)에 적용할 수 있게 하는 기술이다. 도메인 적응 기술은 크게 차이(discrepancy) 기반, 적대적(adversarial), 재구성(reconstruction) 방식으로 나뉜다(Wang et al., 2018). 차이 기반 방식은 새로운 목표 도메인의 데이터를 이용해 기존 모델을 파인튜닝(fine-tuning)함으로써 도메인 차이를 감소시키는 방법이다. 적대적 방식은 도메인 판별자(domain discriminator)를 사용하여 적대적 학습을 수행함으로써, 원천 도메인과 목표 도메인에 대한 도메인 혼란(confusion)을 만들어내어 도메인과 무관한 특징을 얻어내는 방법이다. 재구성 방식은 데이터 복원을 보조 작업으로 활용하여, 각 도메인의 특성을 유지하면서도 두 도메인에서 공통된 특징을 만들어낼 수 있도록 한다. 이때, 목표 도메인에서 새로이 획득한 데이터를 라벨링하여 활용하는 경우를 지도 도메인 적응(supervised domain adaptation), 라벨링하지 않고 활용하는 경우를 비지도 도메인 적응(unsupervised domain adaptation)이라고 한다.

최근 균열 탐지에도 도메인 적응 기술들이 적용된 연구 결과들이 보고되고 있다. Fan et al.(2022)는 다단계(multi-level) 적대적 전이 학습을 기반으로 한 수중 댐 균열 이미지 분할 방법을 제안하였다. Weng et al.(2023)은 균열의 공통된 특징을 고려하여 대조적 메커니즘, 적대적 학습, VAE(Variational Auto-Encoder)를 활용하여 입력, 특징, 출력 수준에서 도메인 적응을 수행하는 DACrack을 제안하였다. Beyene et al.(2023)은 마스크 이미지 일관성(Masked Image Consistency)을 DAFormer(Hoyer et al., 2022)에 통합한 최신 비지도 도메인 적응 모델을 균열 데이터셋에 적용하고 평가하였다. 위 균열 탐지를 위한 도메인 적응 연구는 새로운 데이터를 라벨링하는 수고를 없애기 위해 모두 비지도 도메인 적응 방식을 활용한다. 그러나 비지도 도메인 적응은 도메인 차이가 조금만 나타나도 성능의 한계를 보인다. 실제로 Weng et al.(2023)은 실험을 통해 목표 도메인의 배경이 원천 도메인보다 훨씬 복잡한 경우에는 제안한 비지도 도메인 적응 모델이 잘 동작하지 않는 한계를 확인하였다.

이와 같은 비지도 도메인 적응 기술의 한계를 보완하기 위해, 최소한의 노력으로 제작가능한 약한 라벨(Weak Label)을 활용하는 도메인 적응 기술이 개발되었다. 약한 라벨(weak label)은 불완전한 라벨이라고도 부르며, 일반적인 지도학습 기반의 도메인 적응에 필요한 픽셀 단위의 라벨보다 취득 및 제작이 쉬운 라벨을 의미한다. Paul et al.(2020)은 약한 라벨을 이용한 도메인 적응 기술을 처음 제안하였으며, CityScapes 데이터에서 기존 비지도 도메인 적응 모델 대비 상당한 성능 향상이 나타남을 보였다. Shin et al.(2021)은 모델이 불확실한 픽셀만 선택적으로 라벨링하는 LabOR(Labeling Only if Required)을 제안하였다. Liu et al.(2025)은 자연 이미지로 학습된 SAM을 항공 이미지에 적용하기 위해 포인트 수준의 약한 라벨을 활용한 PointSAM을 제안하였다.

본 연구에서는 비지도 도메인 적응 모델의 한계를 보완하면서도 라벨링의 수고를 최소화할 수 있는 약한 라벨을 활용한 도메인 적응 기술을 적용한 균열 탐지 프레임워크를 개발하였다. 본 프레임워크는 Paul et al.(2020)이 제안한 약한 라벨 기반 도메인 적응 프레임워크를 바탕으로, 균열 탐지라는 목적을 감안하여 세 가지의 개선을 수행하여 개발되었다. 먼저, CityScapes의 객체 위치를 감안하여 포함되어 있는 카테고리 (또는 클래스) 정렬 손실함수를 제거하였으며, 균열이 차지하는 작은 면적으로 인한 클래스 불균형(Jamshidi et al. 2023) 문제를 최소화하기 위해 손실함수에 Dice Coefficient를 추가하였다. 또한, 분할 모델이 기본적으로 가지고 있는 추상화(Abstraction)으로 인한 균열 특징 소실을 막기 위한 팽창-축소 기술(Bae et al., 2025)을 함께 적용하여 균열 분할에 최적화된 도메인 적응 기술을 개발하였다. 개발한 기술은 네 가지 공개된 균열 데이터셋을 활용하여 다양한 도메인 차이를 보이는 세 가지 시나리오를 구성하여 검증한다.

2. 이론적 배경

2.1 도메인 적응(Domain Adaptation)

데이터의 특징을 $X = \{x^1, ..., x^n\} \in \chi$라고 하면, 데이터를 획득한 도메인 $\overline{D}$는 특징 공간 $\chi$와 주변 확률 분포 $P(X)$로 구성되며 $\overline{D} = \{\chi, P(X)\}$로 표현된다. 분할의 결과(출력값)를 $Y = \{y^1, ..., y^n\} \in \upsilon$라고 하고, 이때 $\upsilon$는 출력 공간이다. 지도학습은 $x^i \in \chi$, $y^i \in \upsilon$일 때 라벨링된 데이터 $\{x^i, y^i\}$를 활용하여 조건부 확률 분포 $P(Y \mid X)$를 얻는 과정이다.

두 개의 도메인이 있을 때, 충분한 라벨 데이터 $\{x^{i_s}, y^{i_s}\}$를 가진 기존 도메인이 원천 도메인 $\overline{D}_s = \{\chi_s, P(X_s)\}$이며, 불충분한 라벨 데이터 $\{x^{i_{tl}}, y^{i_{tl}}\}$ 또는 라벨이 전혀 없는 데이터 $\{x^{i_{tu}}\}$만을 갖는 새로운 도메인을 목표 도메인 $\overline{D}_t = \{\chi_t, P(X_t)\}$으로 정의한다. $\overline{D}_s$와 $\overline{D}_t$의 출력값은 각각 $Y_s, Y_t$이며, 원천 도메인의 학습은 $\{x^{i_s}, y^{i_s}\}$를 이용하여 $P(Y_s \mid X_s)$를 얻는 것이고 목표 도메인의 학습은 $\{x^{i_{tl}}, y^{i_{tl}}\}$ 또는 $\{x^{i_{tu}}\}$를 이용하여 $P(Y_t \mid X_t)$를 얻는 것이다.

도메인 적응은 특징 공간 또는 데이터의 분포의 차이에 의한 도메인 차이($\overline{D}_s \neq \overline{D}_t$)가 존재할 때, 이미 원천 도메인에서 계산된 $P(Y_s \mid X_s)$를 기반으로 $P(Y_t \mid X_t)$를 얻는 기술이다. 이때 목표 도메인 라벨 $\{y_{tl}^i\}$의 존재 여부에 따라 지도 도메인 적응, 비지도 도메인 적응, 반지도 도메인 적응으로 구분할 수 있다. 당연히 지도 도메인 적응이 가장 성능이 좋지만, 다시 목표 도메인에 대한 라벨링을 수행해야 하기 때문에 다양한 도메인에 학습 모델을 적용하는 데 어려움이 따른다. 비지도 도메인 적응은 목표 도메인 내 학습 데이터의 라벨링 작업이 불필요한 반면, 도메인 차이가 큰 경우 성능이 떨어질 수 있다. 반지도 도메인 적응은 지도 도메인 적응과 비지도 도메인 적응의 중간 형태로, 소수의 데이터만을 라벨링하여 학습에 활용하는 방법이다. 본 연구에서 사용하는 약한 라벨을 이용한 도메인 적응은 모든 목표 도메인 데이터를 라벨링하지만, 불완전한 라벨링을 수행한다는 점에서 지도 도메인 적응과 비지도 도메인 적응의 또다른 중간 형태이다.

최근에는 도메인 적응을 위한 모델로 GAN(Goodfellow et al., 2014)의 메커니즘을 활용한 적대적 학습 기반의 딥러닝 모델이 가장 많이 연구된다. 적대적 학습 기반의 모델은 일반적으로 특징 추출기와 도메인 판별자로 구성된다. 특징 추출기가 추출한 특징이 어떤 도메인에 속하는지 분류하는 도메인 판별자를 속이는 것을 목표로 학습을 수행함으로써 도메인 불변의 특징을 학습하는 방식이다.

2.2 약한 라벨을 이용한 도메인 적응 분할

본 절에서는 본 연구에 기반이 되는 Paul et al.(2020)이 제안한 선행연구를 설명한다. 원천 도메인 $\overline{D}_s$는 이미지와 픽셀 단위의 상세한 라벨 $\{X_s, Y_s\}$을 학습데이터로 가지며, 목표 도메인 $\overline{D}_t$는 이미지와 약한 라벨 $\{X_t, y_t\}$을 학습데이터로 갖는다. 여기에서, 이미지의 가로, 세로 픽셀 수를 각각 $H, W$, 탐지 대상 카테고리(클래스)의 수를 $C$라고 할 때 $X_s, X_t \in \mathbb{R}^{H \times W \times 3}$, $Y_s \in \mathbb{B}^{H \times W \times C}$ 이며, $y_t$는 약한 라벨의 종류에 따라 형태가 다르다. 약한 라벨을 이용한 도메인 적응이란 각 도메인의 학습데이터 $\{X_s, Y_s\}$와 $\{X_t, y_t\}$를 활용하여 분할 네트워크 $G$를 목표 도메인 $\overline{D}_t$에 적응시키는 것을 말한다.

약한 라벨은 제작이 수월한 대신 낮은 신뢰도 또는 부족한 정보력을 갖는 라벨을 말한다. 약한 라벨은 그 취득 방법에 따라 의사(Pseudo) 라벨과 수동(Oracle) 라벨로 나눌 수 있다. 의사 라벨은 기 학습된 모델의 추론의 결과로 자동으로 생성되는 라벨로서, 다음의 식 (1)을 활용하여 목표 도메인 이미지에 대한 이미지 수준의 약한 라벨을 생성할 수 있다.

(1)
$ y_t^c = \begin{cases} 1, & \text{if } p_t^c > T, \\ 0, & \text{otherwise} \end{cases} $

여기서, $p_t^c$는 특정한 카테고리 $c$의 존재 확률로 나중에 설명할 식 (3)을 통해 계산되며, $T$는 임계값으로 여기에서는 0.2를 사용한다. 수동 라벨은 사람이 직접 제작하는 라벨로서, Fig. 1(a)과 같이 이미지 내 각 카테고리의 존재 여부만을 표기하여 사용하는 이미지 수준 라벨과 Fig. 1(b)와 같이 각 카테고리에 속하는 픽셀 중 한 픽셀의 좌표를 찍어 사용하는 포인트 수준 라벨로 나눌 수 있다. 이미지 수준 라벨 $y_t \in \mathbb{B}^C$는 이미지에 존재하는 카테고리의 유무를 1과 0으로 나타내는 멀티-핫(multi-hot) 벡터이며, 포인트 수준 라벨 $y_t \in \{(h^c, w^c, c) \mid \forall y_t^c = 1\}$는 존재하는 카테고리별로 하나씩의 좌표를 가지는 튜플(tuple) 집합이다. 포인트 수준 라벨은 이미지 수준 라벨에 비해 약간의 노동력이 더 요구되지만, 더 세부적인 정보를 제공한다. 이에 따라 일반적으로 포인트 약한 라벨을 활용한 도메인 적응 성능이 이미지 수준 라벨을 활용한 경우보다 더 우수할 것으로 기대된다.

약한 라벨을 이용한 도메인 적응 기반 분할 아키텍처는 Fig. 2와 같다. 먼저, $\overline{D}_s$와 $\overline{D}_t$의 이미지를 분할 네트워크 $G$에 통과시켜 각각의 특징 $F_s, F_t \in \mathbb{R}^{H' \times W' \times 2048}$와 그에 따른 픽셀 단위의 분할 예측 $A_s, A_t \in \mathbb{R}^{H' \times W' \times C}$, 그리고 업샘플된 픽셀 단위의 분할 예측 $O_s, O_t \in \mathbb{R}^{H \times W \times C}$를 얻는다. 여기서 $H'(< H), W'(< W)$는 이미지가 분할 네트워크를 거치면서 다운샘플된 공간 차원을 의미한다. $\overline{D}_s$의 픽셀 단위 라벨 $Y_s$를 바탕으로 $G$를 학습시키면서 동시에 $\overline{D}_t$의 약한 라벨 $y_t$를 활용하여 도메인 적응을 수행한다. 분할을 위한 손실함수로는 식 (2)와 같은 이진 교차 엔트로피(binary cross entropy) 손실함수를 활용한다.

(2)
$ L_s(X_s, Y_s; G) \\ = -\frac{1}{N} \sum_{H, W} [Y_s \log O_s + (1 - Y_s) \log (1 - O_s)] $

여기서, $N$은 이미지 내 총 픽셀 수(=$H \times W$), $O_s$와 $Y_s$는 각각 $\overline{D}_s$ 데이터에 대한 픽셀 단위의 예측과 라벨이다. 약한 라벨은 $G$를 업데이트하는 데 있어 두 가지 방법으로 활용된다. 첫 번째로, 약한 라벨을 예측하는 모듈을 도입하여 $G$를 제약한다. 두 번째로, $\overline{D}_s$와 $\overline{D}_t$의 특징을 카테고리별로 정렬하는 모듈을 구현하며, 이 과정에서 카테고리별 도메인 판별자 $D^C$를 활용한다. 또한, Tsai et al.(2018)의 제안에 따라 출력 공간을 정렬하는 모듈을 구현하며, 이를 위해 $O_s$와 $O_t$를 입력으로 받는 도메인 판별자 $D$를 활용한다.

약한 라벨 예측 모듈은 $y_t$를 활용하여 $G$를 제약하는 역할을 한다. 이미지 수준의 라벨이 주어진 경우 이미지 분류 모듈이 사용되며, $y_t$를 바탕으로 $X_t$에 존재하는 카테고리를 예측하도록 학습된다. 먼저, $X_t$를 $G$에 통과시켜 얻은 예측 $A_t$에 글로벌 풀링(global pooling)을 적용하여 각 카테고리 별 존재 확률 $p_t^c$을 아래 식 (3)과 같이 얻는다.

(3)
$ p_t^c = \sigma_s \left[ \frac{1}{k} \log \frac{1}{H'W'} \sum_{h', w'} \exp [k A_t^{(h', w', c)}] \right] $

여기서, $\sigma_s$는 시그모이드(sigmoid) 함수, $p_t^c$는 카테고리 $c$가 이미지에 존재할 확률로서 0과 1사이의 값이다. $k$는 크기 계수(scale factor)로서, $k$ 값이 커질수록 식 (3)은 최대(max) 함수에 가까워진다. 여기에서는 $G$가 예측의 최댓값뿐만 아니라 다른 값들도 고려하여 평균적인 확률을 산정하도록 $k = 1$로 설정한다. 이렇게 구한 $p_t^c$와 $y_t$를 이용하여 이미지 분류 손실을 식 (4)와 같이 계산할 수 있다.

(4)
$ L_c(X_t, y_t; G) \\ = -\sum_{c=1}^C [y_t^c \log (p_t^c) + (1 - y_t^c) \log (1 - p_t^c)] $

포인트 수준의 라벨이 주어지는 경우, 카테고리 별 포인트의 유무가 이미지 수준의 라벨과 동일한 의미를 가지므로, 포인트 예측 모듈과 이미지 분류 모듈이 같이 사용된다. 포인트 예측 모듈은 포인트 수준의 약한 라벨 $y_t$와 해당 픽셀에 대한 $G$의 예측값 $O_t$을 이용하여 다음의 식 (5)과 같이 포인트 예측 손실을 계산한다.

(5)
$ L_p(X_t, y_t; G) = -\frac{1}{M} \sum_{\forall y_t^c = 1} y_t^c \log (O_t^{(h^c, w^c, c)}) $

여기서, $M$은 $y_t^c = 1$을 만족하는 (즉, 포인트가 존재하는) 카테고리의 수를 의미한다.

카테고리별 특징 정렬 모듈은 이미지 수준의 약한 라벨을 이용하여 카테고리별 정렬을 수행한다. 예측을 기반으로 한 어텐션 맵(attention map)을 활용하여 카테고리별 특징을 얻고, 이렇게 얻은 특징을 정렬한다. 먼저 카테고리별 특징을 얻는 과정은 분할 네트워크 $G$를 통해 얻은 특징 $F$와 분할 예측 $A$을 바탕으로, $A$를 $F$에 대한 어텐션으로 사용하여 카테고리별 특징을 추출한다. 구체적으로, 각 카테고리에 대해 2048차원 벡터 형태의 카테고리별 특징 $F^c$를 다음의 식 (6)과 같이 계산한다.

(6)
$ F^c = \sum_{h', w'} \sigma(A)^{(h', w', c)} F^{(h', w')} $

여기서, $\sigma(A)$는 $A$에 소프트맥스를 적용하여 얻은 $H' \times W' \times C$차원의 텐서로, C개의 카테고리에 대한 어텐션 정보를 의미한다. $\sigma(A)^{(h', w', c)}$는 스칼라이고 $F^{(h', w')}$는 2048차원의 벡터로, $F^c$는 $\sigma(A)^{(h', w', c)}$에 의해 가중된 $F^{(h', w')}$가 $H' \times W'$차원의 공간 맵에 걸쳐 합산된 특징이다. 식 (6)은 $\overline{D}_s$와 $\overline{D}_t$에 동일하게 적용되어 각각의 $F^c$를 추출한다. $F^c$를 정렬하기 위해 카테고리별 도메인 판별자 $D^C = \{D^c\}_{c=1}^C$를 활용한다. 각 카테고리에 특화된 $D^C$를 사용함으로써 카테고리에 따라 독립적으로 특징 분포를 정렬할 수 있도록 한다. $D^C$를 학습하기 위한 손실함수는 다음의 식 (7)과 같다.

(7)
$ L_{adv}^C(X_s, Y_s, X_t, y_t; G, D^C) \\ = -\frac{1}{2} \sum_{c=1}^C \left[ \frac{y_s^c \log (D^c(F_s^c))}{K} + \frac{y_t^c \log (1 - D^c(F_t^c))}{M} \right] $

여기서, $K, M$은 각각 $y_s^c = 1, y_t^c = 1$을 만족하는 카테고리의 수를 의미한다. $D^C$는 입력받은 $F^c$가 어느 도메인에서 온 것인지 맞추도록 학습된다. $y_s^c$는 원천 도메인의 라벨 $\{Y_s\}$로부터 제작하며, $y_t^c$는 모델을 통해 생성(의사라벨)하거나 직접 제작(수동라벨)한다. 반대로 분할 네트워크 $G$를 학습하기 위해서는 다음의 식 (8)과 같은 카테고리별 정렬 손실함수를 활용한다.

(8)
$ L_{adv}^C(X_t, y_t; G, D^C) = -\frac{1}{M} \sum_{c=1}^C y_t^c \log (D^c(F_t^c)) $

본 손실함수는 $D^C$의 학습 과정과 유사하게, $\overline{D}_t$의 약한 라벨 $y_t$을 이용하여 $X_t$ 내에 존재하는 카테고리에 대해서만 정렬을 수행한다. $L_{adv}^C$를 최소화함으로써 $G$는 도메인과 무관한 카테고리 별 특징을 추출하게 된다.

출력 정렬 모듈은 $\overline{D}_s$와 $\overline{D}_t$의 출력 공간 분포를 유사하게 만드는 것을 목표로 한다. 이를 위해 $G$를 통해 얻은 픽셀 단위 예측 $O_s$와 $O_t$를 입력으로 받는 도메인 판별자 $D$를 활용한다. $D$는 입력받은 예측이 어느 도메인에서 온 것인지 올바르게 분류하도록 식 (9)의 손실함수를 사용하여 학습되며, 반대로 분할 네트워크 $G$는 판별자를 속이기 위해 식 (10)과 같은 출력 정렬 손실함수를 활용하여 학습된다.

(9)
$ L_d(O_s, O_t, y_s, y_t; D) \\ = -\frac{1}{2} \sum [y_s \log (D(O_s)) + y_t \log (1 - D(O_t))] $
(10)
$ L_o(X_t; G, D) = -\sum \log (D(O_t)) $

이와 같은 적대적 학습을 통해 분할 네트워크 $G$는 두 도메인의 픽셀 단위 예측 $O_s$와 $O_t$의 분포를 유사하게 만든다.

최종적으로 약한 라벨을 이용한 도메인 적응 분할은 앞서 설명한 모듈을 통합하여 다음 식 (11)과 같은 목적함수를 최소화하도록 학습된다.

(11)
$ L = L_s(X_s, Y_s) + \lambda_c L_c(X_t, y_t) + L_p(X_t, y_t) \\ + \lambda_{adv} L_{adv}^C(X_t, y_t) + \lambda_o L_o(X_t) $

여기서, $L_s$는 의미론적 분할, $L_c$는 이미지 분류 모듈, $L_p$는 포인트 예측 모듈, $L_{adv}^C$는 카테고리별 특징 정렬 모듈, $L_o$는 출력 정렬 모듈의 도메인 적응 손실함수이다. 이 중 포인트 예측 손실함수 $L_p$는 포인트 수준의 라벨이 있을 때만 활용된다. $\lambda_c, \lambda_{adv}, \lambda_o$는 각 손실의 가중치이다.

참고로, 약한 의사 라벨은 자동으로 생성되기 때문에 비지도 도메인 적응 방법(Unsupervised Domain Adaptation, UDA)으로 지칭되며, 약한 수동 라벨은 사람이 직접 제작하기 때문에 약한 지도 도메인 적응 방법(Weakly-supervised Domain Adaptation, WDA)으로 지칭할 수 있다.

Fig. 1. Examples of Oracle weak labels

../../Resources/ksm/jksmi.2026.30.1.72/fig1.png

Fig. 2. Architecture of domain adaptive semantic segmentation using weak labels

../../Resources/ksm/jksmi.2026.30.1.72/fig2.png

3. 균열 탐지를 위한 개선 사항

기존의 약한 라벨을 이용한 도메인 적응 분할에는 CityScapes 데이터가 사용되었다. 그러나 본 연구의 목적은 균열을 탐지하는 데 있으므로, 이를 고려하여 기존 도메인 적응 분할을 이미지 내 균열 탐지에 최적화하기 위하여 3가지의 개선을 수행하였다.

첫 번째로는 팽창-축소(dilation-erosion) 기법 적용이다. 균열은 매우 얇은 형상으로 인해 딥러닝 모델 학습 과정에서 발생하는 추상화(abstraction) 과정에 의해 정보가 손실되어 탐지 성능이 낮아지는 문제점이 있다. 따라서 본 연구에서는 Bae et al.(2025)의 제안에 따라 모든 데이터셋에 팽창-축소 기법을 적용한다. 팽창과 축소는 이분화된(binary) 이미지상에서 이루어지며, 커널을 이동하며 적용하여 원본 이미지를 변형시킨다. 균열의 의미론적 분할을 위한 픽셀 단위의 라벨은 배경은 0, 균열은 1의 값을 갖는 이분화된 이미지이다. 팽창 연산은 커널 아래 있는 원본 이미지의 픽셀 중 적어도 하나가 1이면 커널에 해당하는 영역을 모두 1로 변경하여 균열과 인접한 배경을 균열로 변환한다. 반대로 축소 연산은 해당 영역의 모든 픽셀이 1일 경우에만 1의 값을 유지하고, 그 외에는 모두 0으로 변경함으로써 균열 라벨의 두께를 줄인다. 균열 탐지 모델 학습 과정에 팽창-축소를 적용하기 위해서는 먼저 라벨에 팽창 연산을 적용한 후 모델을 학습시킨다. 이렇게 학습된 모델을 사용하여 균열을 탐지하고, 탐지된 결과에 축소 연산을 적용하여 균열 객체를 정밀하게 추출한다. 본 연구에서는 6×6 크기의 사각형 커널을 활용하여 동일한 크기의 팽창과 축소를 수행하였다.

두 번째로는 다이스 계수(Dice Coefficient) 손실함수 도입이다. 균열은 그 형태의 특성상 이미지에서 매우 적은 픽셀을 차지하기 때문에 심각한 클래스 불균형(class imbalance) 문제가 존재한다. 기존의 약한 라벨을 이용한 도메인 적응 분할 기법에서는 의미론적 분할 손실함수로 식 (2)와 같은 교차 엔트로피 손실함수를 활용한다. 그런데 이는 모든 픽셀에 대해 예측값과 실제값을 비교하여 계산되므로, 다수의 픽셀을 차지하는 배경에 모델이 편향되기 쉽다. 이를 보완하기 위해 본 연구에서는 Liu et al.(2019)의 설계에 따라 다음 식 (12)와 같이 이진 교차 엔트로피 손실과 다이스 계수 손실을 결합하여 활용한다.

(12)
$ L_s^{new}(O_s, Y_s) = L_s(O_s, Y_s) + L_{dice}(O_s, Y_s) $

여기서 $O_s$와 $Y_s$는 각각 $\overline{D}_s$ 데이터에 대한 픽셀 단위의 예측값과 라벨을 나타낸다. $L_s$는 식 (2)와 같이 계산되며, $L_{dice}$는 다음 식 (13)으로 계산된다.

(13)
$ L_{dice}(O_s, Y_s) = 1 - \frac{2 \times \sum (Y_s \times O_s)}{\sum Y_s^2 + \sum O_s^2} $

다이스 계수 손실은 실제 균열에 해당하는 픽셀과 균열로 예측된 픽셀만을 바탕으로 계산되므로 모델이 균열을 잘 탐지하는 것에 더 집중하도록 만든다.

마지막으로 출력 정렬 손실($L_o$) 제거이다. 기존의 약한 라벨을 이용한 도메인 적응 분할에 활용된 출력 공간 정렬은 서로 다른 도메인의 이미지가 유사한 공간 레이아웃을 공유한다는 가정에 기반한다(Tsai et al., 2018). 예를 들어, CityScapes 데이터의 경우 $\overline{D}_s$와 $\overline{D}_t$의 이미지가 큰 도메인 차이를 가지더라도, 도로가 가장 아래 있고 하늘이 가장 위에 있는 등의 공간 레이아웃 정보는 유사하다. 반면, 균열은 이미지 내 모든 위치에 다양한 형태로 존재할 수 있다. 따라서 본 연구에서는 분할 네트워크 학습 과정에서 Cityscapes 이미지에 맞게 활용된 출력 정렬 손실을 제외하였다. 이에 따라 최종적으로 균열 탐지를 위한 분할 네트워크 학습에는 다음 식 (14)와 같은 손실함수가 사용되었다.

(14)
$ L = L_s^{new}(X_s, Y_s) + \lambda_c L_c(X_t, y_t) \\ + L_p(X_t, y_t) + \lambda_{adv} L_{adv}^C(X_t, y_t) $

여기서 $L_s^{new}, L_c, L_p, L_{adv}^C$는 각각 식 (12), (4), (5), (8)을 통해 계산된다.

4 실험 및 결과

4.1 실험 셋업

본 연구에서 제안한 기법의 성능을 검증하기 위해 서로 다른 구조물에서 다양한 조건으로 촬영된 네 개의 공개된 균열 데이터셋을 사용하였다. 사용한 데이터셋은 Yang(Yang et al., 2018), CFD(Shi et al., 2016), CRACK500(Zhang et al., 2016), Rissbilder(Pak et al., 2021)이다. Fig. 3에 예시된 바와 같이 각 데이터셋은 밝기, 대비, 질감, 스케일 등에 있어서 서로 다른 모습을 보인다. 각 데이터셋에 대한 정보는 Table 1에 나타내었다.

도메인 차이에 따른 제안 기법의 성능을 확인하기 위해, 앞의 데이터셋을 활용하여 다양한 도메인 차이를 보이는 세 개의 도메인 적응 시나리오를 정의하였다. 첫 번째 시나리오는 원천 도메인이 Yang, 목표 도메인이 CFD인 경우, 두 번째는 원천 도메인이 CFD, 목표 도메인이 CRACK500인 경우, 세 번째는 원천 도메인이 CFD, 목표 도메인이 Rissbilder인 경우이다. Table 1의 설명에서 확인할 수 있듯이 첫 번째 시나리오는 비교적 도메인 차이가 작은 경우에 해당하며, 두 번째와 세 번째 시나리오는 도메인 차이가 상대적으로 큰 경우에 해당한다. 시나리오에 대한 정보는 Table 2에 요약되어 있다.

본 연구에서는 Paul et al.(2020)의 연구에 따라 분할 네트워크로 ResNet-101(He et al., 2016) 백본(backbone)을 기반으로 한 DeepLab-v2(Chen et al., 2017) 프레임워크를 사용하였다. 카테고리별 판별자 $D^C = \{D^c\}_{c=1}^C$의 경우 $C$개의 독립된 네트워크를 활용하는데, 각 네트워크는 2048개의 노드를 가진 3개의 완전 연결 계층으로 구성되어 있으며, 활성함수로는 ReLU(Rectified Linear Unit)를 사용하였다. 표준적인 GAN 학습 절차(Goodfellow et al., 2014)에 따라 $G$와 $D^C$를 번갈아서 업데이트하였다. 카테고리별 적대적 손실 $L_{adv}^C$의 계산 과정에 $D^C$가 관여되는데, 이때 $D^C$는 고정하고 분할 네트워크 $G$에 대해서만 그래디언트 역전파를 수행하였다.

네트워크는 PyTorch로 구현되었으며, 24GB 메모리의 단일 GPU에서 학습되었다. 모든 실험에서 학습데이터 증강을 위해 좌우 및 상하 반전(flip) 전처리를 적용하였다. 분할 네트워크 학습에는 0.9의 모멘텀이 적용된 SGD(Stochastic Gradient Descent)를, 판별자 학습에는 Adam(Adaptive Moment Estimation)(Kingma et al., 2014)을 최적화 방법으로 활용하였다. 초기 학습률(Learning Rate)은 분할 네트워크의 경우 0.00025, 판별자의 경우 0.0001로 설정하고, 지수 0.9의 다항식 감쇠를 통해 조정되도록 하였다. 또한, 약한 수동 라벨과 약한 의사 라벨에 대해 각각 0.1과 0.3의 드롭아웃(Dropout)을 적용하였다. 각 손실의 가중치는 다음과 같다. 이미지 분류 손실의 경우 약한 수동 라벨을 활용할 때는 $\lambda_c = 0.2$를, 약한 의사 라벨을 활용할 때는 $\lambda_c = 0.01$을 사용하였다. 카테고리별 적대적 손실 $L_{adv}^C$에 대해서는 $\lambda_{adv} = 0.001$로 설정하였다.

원천 도메인과 목표 도메인의 데이터 수가 다르므로, 학습데이터가 더 많은 도메인의 모든 학습데이터를 학습에 한 번 사용하는 것을 하나의 에포크(Epoch)로 설정하였다. 총 300 에포크를 학습하면서, 과적합 방지를 위해 조기 종료(Early Stopping)를 적용하였다. 조기 종료를 위한 기준으로는 검증 손실을 활용하였으며, 검증 손실은 검증 데이터셋에 대해 식 (14)를 적용하여 학습 손실과 동일한 방식으로 계산하였다. 다수의 실험을 통해 50 에포크까지는 검증 손실 값이 5에포크 연속으로 증가 시, 50 에포크 이후에는 검증 손실 값이 4에포크 연속으로 증가 시에 학습을 중단하도록 설계하였다.

균열 탐지 성능을 평가하기 위해 정밀도(Precision)와 재현율(Recall), 그리고 그 조화평균인 F1-score를 활용하였다. 정밀도가 높으면 오탐지가 적음을 의미하고, 재현율이 높으면 미탐지가 적음을 의미한다. 최종적으로, F1-score는 오탐지와 미탐지를 모두 고려한 종합적 성능을 나타내는 지표이다.

Fig. 3. Examples of used crack datasets

../../Resources/ksm/jksmi.2026.30.1.72/fig3.png

Table 1. Description of used crack dataset

Dataset No. of Data RES$^*$ Description
TR$^*$ VAL$^*$ TST$^*$
Yang 647 32 97 306 ×306 Concrete crack dataset featuring clear and thick cracks with a flat background
CFD 84 16 18 448 ×448 Pavement crack dataset with thin cracks that have low contrast to the background
CRACK500 1205 64 516 400 ×400 Pavement crack dataset characterized by thick cracks and a rough background
Rissbilder 2189 64 483 400 ×400 Architectural crack dataset with a complex background and wide field of view

* TR: Training, VAL: Validation, TST: Test, RES: Resolution

Table 2. Domain adaptation scenarios

Scenario Source domain Target domain Difference
Scenario 1 Yang CFD material, crack thickness
Scenario 2 CFD CRACK500 crack thickness, background
Scenario 3 CFD Rissbilder material, structure, background

4.2 도메인 적응 실험 결과

4.2.1 균열 탐지를 위한 세 가지 개선 사항의 효과 검증

앞에서 제안한 균열 탐지를 위한 세 가지 개선 사항의 효과를 검증하였다. Table 2에 제시된 세 가지의 시나리오에 대해, Paul et al.(2020)에서 제시된 기본 모델(Original)을 시작으로, 각 개선 사항을 순서대로 하나씩 추가하며 F1-score를 계산하였다. 약한 라벨로는 의사 이미지(Pseudo Image, PI) 라벨, 수동 이미지(Oracle Image, OI) 라벨, 수동 포인트(Oracle Point, OP)라벨을 활용하였으며, 각 개선사항(팽창-축소 기법: DE, 출력 정렬 손실 제거: EOAL, 다이스 계수 함수 적용: DCL)을 순서대로 적용한 결과를 Fig. 4에 나타내었다.

우선 팽창-축소 기법을 적용한 결과, F1-score가 평균적으로 6.33% 향상됨이 확인되었다. 이는 팽창-축소 기법이 딥러닝 모델 학습 과정에서 발생하는 추상화(Abstraction)로 인한 정보 손실 문제를 완화하여 균열 탐지 정확도가 향상된 것으로 판단된다. 특히 시나리오 3에서 F1-score가 평균적으로 9.06% 향상하며 효과가 두드러지게 나타났다. 시나리오 3의 결과 예시는 Fig. 5와 같다. Figs. 5 (a)와 (b)는 각각 입력 원본 이미지와 정답 라벨이다. Figs. 5 (c)-(g)는 세 가지 약한 라벨(PI, OI, OP)에 대해 팽창-축소 기법을 적용하지 않은 경우(With Out, W/O)이며, Figs. 5 (d)-(h)는 팽창-축소 기법을 적용한 경우이다. 앞서 언급한 정보 손실 문제를 완화하여 PI, OI, OP 모든 경우에서 미탐지가 감소하였다. 균열의 형상이 더욱 선명해짐에 따라 정확도는 증가하였으나, 이미지의 아랫쪽과 같이 균열과 비슷한 형상의 객체가 존재할 때 이를 오탐지하는 것까지는 막을 수 없다.

추가로 출력 정렬 손실을 제거한 결과, F1-score가 평균적으로 4.78% 향상되었다. 출력 공간 정렬은 서로 다른 도메인의 이미지가 유사한 공간적 레이아웃을 공유한다는 가정에 기반한 손실 함수로, 주로 CityScapes와 같은 데이터에는 적합하나 균열과 같이 이미지에서 특정 위치에 국한되지 않고 존재하는 균열의 탐지 모델에는 불필요하다. 이에 따라 출력 정렬 손실을 제거함으로써, 모델이 공간적 레이아웃 공유라는 가정을 배제하고 균열의 특징 학습에 더 집중할 수 있게 됨에 따라, 결과적으로 모델 성능 향상에 기여한 것으로 보인다.

마지막으로 다이스 계수 손실함수를 도입한 결과, F1-score가 평균적으로 3.96% 향상되었다. 이러한 결과는 균열 데이터가 갖는 클래스 불균형 문제를 다이스 손실함수의 도입으로 완화하였기 때문으로 보인다.

결론적으로 각 시나리오에 대해 세 가지 개선 사항을 전부 적용하였을 때 F1-score는 평균적으로 15.06% 향상되었다. 이를 통해 본 연구에서 제안한 세 가지 개선 사항이 균열 탐지 모델의 성능 향상에 유의미한 효과를 나타내는 것을 확인하였다.

Fig. 4. F1-scores of original and sequentially improved models for all scenarios

../../Resources/ksm/jksmi.2026.30.1.72/fig4.png

Fig. 5. Detection examples of UDA and WDA in Scenario 3 with and without applying dilation-erosion technique.

../../Resources/ksm/jksmi.2026.30.1.72/fig5.png

4.2.2 도메인 적응 실험 결과

본 절에서는 앞서 제안한 세 가지 개선 사항이 모두 적용된 모델을 기반으로, 약한 라벨을 이용한 도메인 적응의 성능을 확인하였다. 실험은 세 가지 시나리오에 대해 도메인 적응을 사용하지 않은 경우와 도메인 적응을 사용한 경우의 성능을 비교하는 방식으로 진행하였다. 모든 테스트데이터는 목표 도메인의 데이터이며, 학습데이터는 다음과 같이 다르게 활용하였다. 우선, 도메인 적응의 필요성을 확인하고자 도메인 적응 없이 원천 도메인의 라벨 데이터로 지도학습하는 경우(Supervised Learning with Source Domain Data, SL-SD)와 이상적인 목푯값으로서 목표 도메인의 라벨 데이터로 지도학습하는 경우(Supervised Learning with Target Domain Data, SL-TD)를 비교 대상으로 선정하였다. 도메인 적응을 적용한 경우는 원천 도메인의 라벨 데이터와 세 가지 약한 라벨(PI, OI, OP)을 각각 활용하는 세 가지 경우를 비교하였다.

도메인 적응을 수행하지 않았을 때 발생하는 성능 저하를 확인하기 위해 SL-SD 모델을 목표 도메인 데이터에 추가적인 학습 없이 적용한 결과를 Table 3에 제시하였다. Table 3은 이러한 도메인 간 성능 격차를 정량적으로 입증하기 위해 세 가지 시나리오에서 SL-SD 모델을 원천 도메인과 목표 도메인 데이터에 도메인 적응 없이 각각 적용한 결과를 비교한 것이다. 도메인 차이가 작은 시나리오 1의 경우, SL-SD는 원천 도메인 데이터에 대해 45.3%의 F1-score를 나타내었다. 그러나 목표 도메인 데이터에 SL-SD를 추가 학습 없이 적용할 경우 F1-score가 26.6%까지 하락함을 확인하였다. 도메인 차이가 상대적으로 큰 시나리오 2, 3의 경우에는 원천 데이터에 적용했을 때의 F1-score인 57.6% 대비, 15.2%와 13.0%로 현저하게 성능이 하락하였다. 이처럼 모든 시나리오에서 SL-SD를 목표 도메인에 추가적인 학습 없이 적용 시 도메인 차이로 인한 성능 저하가 뚜렷하게 나타났으며, 이는 해당 문제를 해결하기 위한 도메인 적응 기법이 필수적임을 시사한다.

각 시나리오 별 도메인 적응 방법을 달리한 실험 결과와 도메인 적응 전후의 성능 향상 폭 및 이상적인 목표 성능 대비 달성 수준을 분석하기 위한 종합적인 실험 결과는 Fig. 6에 나타내었으며, Fig. 7에 시나리오 별로 2개씩의 예시를 들어 시각적으로 비교하였다. 여기서 SL-TD는 목표 도메인 데이터를 학습과 테스트에 모두 활용하므로, 목표로 하는 성능을 나타낸다. 따라서 이를 도메인 적응을 적용한 경우와 비교하여 도메인 적응 성능이 이상적인 목푯값 대비 어느 정도 수준을 달성하는지 확인하였다.

첫 번째로 원천 도메인이 Yang이고 목표 도메인이 CFD인 시나리오 1은 목표 도메인이 원천 도메인에 비해 얇고 불규칙한 형태의 균열을 포함한다. 우선 Table 3에서 도메인 적응 전의 결과를 살펴보면, 원천 도메인에서 지도 학습한 모델을 원천 도메인에 적용하였을 때(SL-SD)는 45.3%의 F1-score를 보인 반면, 목표 도메인에 적용하였을 때는 26.6%로 정확도가 크게 하락하였다. 특히, 목표 도메인에서 원천 도메인에 비해 얇고 불규칙한 균열로 인한 미탐지가 다수 증가하였다. 그에 대한 두 가지 예시를 Fig. 7(c)의 1, 2번째 행에 표시하였다. 첫 번째 예시(Ex. 1)에서는 균열이 전혀 탐지되지 않았고, 두 번째 예시(Ex. 2)에서는 균열이 실제보다 짧게 탐지되었다. 도메인 적응 후에는 도메인 적응 전과 비교하여 정밀도와 재현율이 모두 상승하였다. 특히, Figs. 7(d)-(e)와 같이 미탐지가 다수 감소하면서 재현율이 크게 향상되었다. 이에 따라 F1-score도 최대 18.28% (OP의 경우) 상승하였다. 정밀도는 SL-TD 대비 높은 수치를 보였는데, 이는 균열로 예측된 영역이 상대적으로 적기 때문이며, 이로 인해 재현율의 경우 SL-TD에 비해 현저히 낮은 수치를 보였다. 사용한 약한 라벨의 종류에 따른 균열 탐지 성능은 큰 차이가 나지 않았다. 이에 따라 시나리오 1과 같이 비교적 작은 도메인 차이를 보이는 시나리오에서는 어떠한 방식의 약한 라벨을 활용하더라도 충분히 도메인 적응이 이루어짐을 확인하였다.

두 번째로 원천 도메인이 CFD이고 목표 도메인이 CRACK500인 시나리오 2는 목표 도메인이 원천 도메인보다 훨씬 복잡한 배경을 포함한다. 이에 따라 Table 3에서 나타났듯이 원천 도메인에서 학습한 모델을 목표 도메인에 적용하였을 때, Fig. 7(c)의 3, 4번째 행에 예시된 바와 같이 오탐지가 다수 발생하면서 정밀도가 크게 낮아졌고, 결과적으로 F1-score 또한 15.2%로 상당히 크게 하락하였다. 도메인 적응 후에는 Figs. 7(d)-(e)에서 볼 수 있듯이 배경 차이로 인한 오탐지가 대폭 감소하면서 정밀도가 크게 상승하였다. 도메인 적응이 사용되지 않은 경우에는 9.48%의 정밀도를 보인 반면, 가장 많이 상승한 OP에서는 67.99%의 정밀도를 보이며 SL-TD보다도 높은 성능을 나타내었다. 이에 따라 F1-score도 최대 26.66% 상승하였다. 다만 재현율은 도메인 적응 후에 오히려 하락하는 모습을 보였다. 탐지 결과를 살펴보았을 때 Figs. 7(d)-(e)에 나타난 바와 같이 균열이 Fig. 7(b)의 정답보다 얇게 탐지됨을 확인하였다. 이는 목표 도메인의 특징을 원천 도메인과 유사하게 만드는 과정에서 기인한 것으로 판단된다. PI와 OI에서는 카테고리의 존재 여부만을 참고하기 때문에 얇게 탐지되는 현상이 더 크게 나타났으며, OP에서는 균열에 해당하는 픽셀 정보가 추가로 제공되었기 때문에 해당 현상이 다소 보완되었다. 이에 따라 이미지 수준의 라벨만을 활용하였을 때보다 포인트 수준의 라벨까지 활용하였을 때 도메인 적응 효과가 크게 나타남을 확인하였다. 특히, OP를 적용했을 때 도메인 차이가 작은 시나리오 1과 유사한 수준의 성능을 달성한 점은 도메인 차이가 큰 환경에서도 포인트 수준의 약한 라벨을 활용한 도메인 적응이 매우 효과적으로 작용함을 시사한다.

마지막으로 원천 도메인이 CFD이고 목표 도메인이 Rissbilder인 시나리오 3은 목표 도메인 내에 여러 구조물에서 촬영된 다양한 주변 물체(암각, 페인트 등)가 포함되어 있는 경우이다. Fig. 6에서 볼 수 있듯이 이 경우에도 큰 도메인 차이로 인해 도메인 적응을 사용하지 않은 경우에는 주변 객체로 인한 오탐지가 다수 발생하며 9.10%의 매우 낮은 정밀도를 나타내었다. 그 예시는 Fig. 7(c)의 5, 6번째 행에서 확인 가능하다. 도메인 적응 후에는 배경 객체들로 인한 오탐지가 대폭 감소하면서 정밀도가 크게 상승하였다. 가장 큰 상승 폭을 보인 OP의 경우 63.82%의 정밀도를 보여 54.72% 향상된 결과를 나타내었다. 그러나 이는 SL-TD과 대비하였을 때에는 87% 정도의 성능으로, 다른 시나리오 에 비해서는 다소 낮은 향상을 보였다. 이에 대한 원인을 파악하기 위해 탐지 결과를 살펴보았을 때, Figs. 7(d)-(e)에 나타난 바와 같이 균열과 형태가 유사한 선형 객체(이하 유사균열)가 도메인 적응 후에도 여전히 오탐지를 유발함을 확인하였다.

결론적으로 도메인 차이가 작은 경우와 큰 경우 모두 제안 기법을 적용하였을 때 균열탐지 성능이 크게 개선되었다. 시나리오 1에서는 이미지 수준의 의사 라벨만으로도 충분한 효과를 보여 SL-TD의 78% 수준에 해당하는 성능을 달성하였다. 시나리오 2와 시나리오 3에서는 포인트 수준의 라벨을 활용했을 때 더 큰 성능 향상을 보여 각각 SL-TD의 74%, 58% 수준에 해당하는 성능을 달성하였다. 목표 도메인에 대해 지도 학습한 결과와 비교하였을 때는 도메인 차이가 비교적 작은 시나리오 1과 목표 도메인의 배경이 원천 도메인보다 훨씬 복잡한 시나리오 2에서 모두 도메인 적응의 효과가 크게 나타났지만, 균열과 혼동될 수 있는 객체가 다수 존재하는 시나리오 3에서는 성능 향상에 다소 한계를 보였다. 이 같은 경우에는 혼동 객체의 오탐지를 줄이기 위한 추가적 기술의 적용이 필요하다고 판단된다.

Table 3. Performance degradation of SL-SD models when tested in source and target domains

Scenario Scenario 1 Scenario 2 Scenario 3
Test Domain SD TD SD TD SD TD
Precision (%) 82.8 58.8 59.9 9.5 59.9 9.1
Recall (%) 31.2 17.2 55.5 38.3 55.5 23.0
F1-score (%) 45.3 26.6 57.6 15.2 57.6 13.0

Fig. 6. Precision, recall, and F1-score of crack detection on images of target domain with and without domain adaptation methods

../../Resources/ksm/jksmi.2026.30.1.72/fig6.png

Fig. 7. Examples of Images and their detected cracks according to various DA methods in the three scenarios

../../Resources/ksm/jksmi.2026.30.1.72/fig7.png

5. 결 론

본 연구에서는 약한 라벨을 이용한 도메인 적응 기법을 균열 탐지에 적용하고, 세 가지 도메인 적응 시나리오에 대해 그 성능을 검증하였다. 약한 라벨로는 의사 이미지 라벨, 수동 이미지 라벨, 수동 포인트 라벨을 활용하였다. 우선, 기존 CityScapes 데이터셋 기반 도메인 적응 모델에 균열 이미지의 특성을 고려하기 위해 팽창-축소 기법, 다이스 계수 손실 함수 도입, 출력 정렬 손실 함수 제거의 세 가지 개선 사항을 적용하였으며, 시나리오 3의 수동 포인트 라벨 학습방식을 기준으로 각 개선 사항의 효과를 검증하였다. 제안한 기법의 성능을 확인하기 위해, 네 개의 공개 데이터셋으로 세 가지 시나리오를 구성하여 실험을 수행하였고, 정밀도, 재현율, F1-score를 활용하여 균열 탐지 성능을 확인하였다. 이와 같은 실험의 결과를 요약하면 다음과 같다.

(1) 균열 탐지를 위한 세 가지 개선 사항을 검증한 결과, 팽창-축소 기법은 평균적으로 6.33% 출력 정렬 손실 제거는 4.78%, 다이스 계수 손실 함수는 3.96%의 F1-score 향상을 달성하였다. 최종적으로 세 가지 개선 사항을 모두 적용하였을 때 F1-score가 평균적으로 15.06% 상승하는 성능 개선을 확인할 수 있었다. 이를 통해 균열 탐지를 위한 세 가지 개선 사항이 균열 탐지 모델의 성능 향상에 유의미하게 기여하였음을 검증하였다.

(2) 세 가지 시나리오에 대해 도메인 적응 균열 탐지를 수행한 결과, 도메인 적응을 적용하지 않은 경우 대비 모든 시나리오에서 성능이 크게 향상되었다. 도메인 차이가 작은 시나리오 1에서 F1-score가 최대 18.28% 향상되고, 도메인 차이가 큰 시나리오 2와 시나리오 3에서 각각 26.66%, 20.07% 상승하여 도메인 차이가 큰 경우에도 개발 모델이 효과적임을 확인하였다. 또한, 각 시나리오가 서로 다른 재료 및 표면 특성을 포함하고 있음에도 불구하고 일관된 성능 향상을 보임으로써, 도메인 적응 기법이 다양한 환경적 요인에 강건하게 동작함을 확인하였다.

(3) 라벨링 방법에 따른 성능을 확인한 결과, 도메인 차이가 작은 시나리오 1에서는 수동 포인트 라벨을 활용하였을 때 수동 이미지 라벨을 활용한 경우와 F1-score가 거의 비슷(1.49% 상승)하였으나, 도메인 차이가 큰 시나리오 2와 시나리오 3에서는 각각 20.16%, 5.4% 상승하였다. 이를 통해 도메인 차이가 작은 경우에는 어떠한 방식의 약한 라벨을 활용하더라도 충분한 도메인 적응 성능을 보이지만, 도메인 차이가 큰 경우에는 수동 포인트 라벨을 활용하였을 때 도메인 적응이 잘 이루어짐을 확인하였다.

본 연구를 통해 제안한 도메인 적응 기술이 균열 탐지에 성공적으로 적용될 수 있음을 보였으나, 더 높은 효율성과 성능을 얻기 위해 다음과 같은 추가 연구가 필요하다. 먼저, 본 연구에서는 분할 네트워크로 DeepLab-v2를 활용하였으나, 최근 개발되는 고성능의 강건한 분할 네트워크를 활용하면 전체적인 성능을 향상할 수 있을 것이다. 특히, Beyene et al.(2023)의 연구에서 우수한 성능을 보인 Transformer (Vaswani et al., 2017) 기반 모델의 적용을 고려할 수 있다. 또한, 라벨링 효율성을 극대화하기 위한 전략적 접근이 필요하다. 본 연구 결과, 도메인 차이가 작은 경우에는 약한 라벨 종류에 따른 성능 차이가 크지 않았으나, 큰 경우에는 OP가 상대적으로 우수한 성능을 보였다. 따라서 각 도메인의 균열 굵기, 배경 복잡도 등을 사전에 분석하여 최적의 라벨링 방식을 결정하고, 이를 적용하는 하이브리드 전략에 대한 연구가 필요하다. 카테고리 존재 여부를 나타내는 수동 이미지 라벨의 경우, 여러 개의 카테고리를 포함한 데이터셋에서 더 큰 효과를 보일 수 있어, 균열뿐만 아니라 파손, 철근 노출 등 다양한 손상을 포함한 데이터셋에 대해 동일한 프레임워크를 적용하고 성능을 검증할 필요가 있다. 마지막으로, 실질적 도메인 차이를 갖는 다양한 시설물 현장에서 촬영된 이미지를 바탕으로 본 기법의 성능을 평가하여 실제 현장 적용 가능성을 검토할 필요가 있다.

감사의 글

이 논문은 2023년도 서울시립대학교 연구년교수 연구비에 의하여 연구되었음.

References

1 
Bae, S., Kim, B., Cho, S. (2025), Crack assessment using cascade mask R-CNN and dilation-erosion processing technique, Journal of Computing in Civil Engineering, 39(5), 04025054DOI
2 
Beyene, D. A., Tran, D. Q., Maru, M. B., Kim, T., Park, S., Park, S. (2023), Unsupervised Domain Adaptation-based Crack Segmentation Using Transformer Network, Journal of Building Engineering, 80, 107889DOI
3 
Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., Yuille, A. L. (2018), DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834-848.DOI
4 
Fan, X., Cao, P., Shi, P., Chen, X., Zhou, X., Gong, Q. (2022), An Underwater Dam Crack Image Segmentation Method Based on Multi-level Adversarial Transfer Learning, Neurocomputing, 505, 19-29.DOI
5 
Farahani, A., Voghoei, S., Arabnia, H. R., Rasheed, K. (2020), A Brief Review of Domain Adaptation, arXiv preprint, arXiv: 2010.03978Google Search
6 
Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y. (2014), Generative Adversarial Nets, 2672-2680.Google Search
7 
He, K., Zhang, X., Ren, S., Sun, J. (2016), Deep Residual Learning for Image Recognition, 770-778.Google Search
8 
Hoyer, L., Dai, D., Van Gool, L. (2022), DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation, 9924-9935.Google Search
9 
Jamshidi, M., El-Badry, M., Nourian, N. (2023), Improving concrete crack segmentation networks through CutMix data synthesis and temporal data fusion, Sensors, 23(1), 504DOI
10 
Ji, A., Xue, X., Wang, Y., Luo, X., Xue, W. (2020), An Integrated Approach to Automatic Pixel-Level Crack Detection and Quantification of Asphalt Pavement, Automation in Construction, 114, 103176DOI
11 
Kingma, D. P., Ba, J. L. (2015), Adam: A Method for Stochastic OptimizationGoogle Search
12 
Li, D., Duan, Z., Hu, X., Zhang, D. (2021), Pixel-Level Recognition of Pavement Distresses Based on U-Net, Advances in Materials Science and Engineering, 2021, 5586615DOI
13 
Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C. L. (2014), Microsoft COCO: Common Objects in Context, 740-755.Google Search
14 
Liu, W., Huang, Y., Li, Y., Chen, Q. (2019), FPCNet: Fast Pavement Crack Detection Network Based on Encoder-Decoder Architecture, arXiv preprint, arXiv:1907.02248Google Search
15 
Liu, N., Xu, X., Su, Y., Zhang, H., Li, H. C. (2025), Pointsam: Pointly-supervised segment anything model for remote sensing images, IEEE Transactions on Geoscience and Remote SensingDOI
16 
Pak, M., Kim, S. (2021), Crack Detection Using Fully Convolutional Network In Wall-Climbing Robot, Advances in Computer Science and Ubiquitous Computing, 267-272.DOI
17 
Paul, S., Tsai, Y.-H., Schulter, S., Roy-Chowdhury, A. K., Chandraker, M. (2020), Domain Adaptive Semantic Segmentation Using Weak Labels, arXiv preprint, arXiv:2007.15176DOI
18 
Shi, Y., Cui, L., Qi, Z., Meng, F., Chen, Z. (2016), Automatic Road Crack Detection Using Random Structured Forests, IEEE Transactions on Intelligent Transportation Systems, 17(12), 3434-3445.DOI
19 
Shin, I., Kim, D. J., Cho, J. W., Woo, S., Park, K., Kweon, I. S. (2021), Labor: Labeling only if required for domain adaptive semantic segmentation, 8588-8598.Google Search
20 
Tsai, Y.-H., Hung, W.-C., Schulter, S., Sohn, K., Yang, M.-H., Chandraker, M. (2018), Learning to Adapt Structured Output Space for Semantic Segmentation, 7472-7481.Google Search
21 
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin, I. (2017), Attention Is All You Need, 5998-6008.Google Search
22 
Wang, M., Deng, W. (2018), Deep Visual Domain Adaptation: A Survey, Neurocomputing, 312, 135-153.DOI
23 
Weng, X., Huang, Y., Li, Y., Yang, H., Yu, S. (2023), Unsupervised Domain Adaptation for Crack Detection, Automation in Construction, 153, 104939DOI
24 
Yang, X., Li, H., Yu, Y., Luo, X., Huang, T., Yang, X. (2018), Automatic Pixel-Level Crack Detection and Measurement Using Fully Convolutional Network, Computer-Aided Civil and Infrastructure Engineering, 33(12), 1090-1109.DOI
25 
Zhang, L., Yang, F., Zhang, Y. D., Zhu, Y. J. (2016), Road Crack Detection Using Deep Convolutional Neural Network, 3708-3712.Google Search
26 
Zou, Q., Zhang, Z., Li, Q., Qi, X., Wang, Q., Wang, S. (2019), DeepCrack: Learning Hierarchical Convolutional Features for Crack Detection, IEEE Transactions on Image Processing, 28(3), 1498-1512.DOI