Mobile QR Code QR CODE

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.
  • Indexed by
  • Korea Citation Index (KCI)

  1. 정회원, 강원대학교 스마트인프라연구소 연구교수
  2. 정회원, 강원대학교 건설환경공학부 교수, 교신저자



계산 효율, 합성곱 신경망, 데이터 수, 하이퍼파라미터 최적화, 구조물 손상 분류
Computational efficiency, Convolutional neural network, Dataset size, Hyperparameter optimization, Structural damage classification

1. 서 론

콘크리트 구조물은 사용 연한이 증가함에 따라 균열(crack), 백태(efflorescence), 철근 노출(rebar exposure) 등 다양한 표면 손상이 발생하며, 이러한 손상은 구조물의 내구성 저하와 유지관리 비용 증가, 나아가 안전사고로 이어질 수 있다. 특히 교량, 터널, 지하 구조물과 같이 접근이 제한되거나 고소 작업이 요구되는 시설물의 경우, 손상 진단 과정에서 인력 안전과 작업 효율성 문제가 지속적으로 제기되고 있다(Asvitha and Ravi, 2018; Dorafshan et al., 2018; Roy et al., 2025).

기존의 구조물 손상 진단은 주로 육안 점검과 간단한 비파괴 시험에 의존해 왔으며, 이러한 방식은 검사자의 숙련도에 따른 주관적 판단, 조사 시간 증가, 반복 점검의 어려움이라는 한계를 가진다(Kim and Cho, 2020; Ali et al., 2021; Diniz et al., 2023; Jeon et al., 2023; Yang et al., 2024). 이에 따라 최근에는 영상 기반 자동 손상 진단 기술에 대한 관심이 증가하고 있으며, 특히 합성곱 신경망(Convolutional Neural Network, CNN)을 활용한 딥러닝 기법이 효과적인 대안으로 주목받고 있다(Cha et al., 2017; Su and Wang, 2020; Sam Rajadurai and Kang, 2021; Ogunjinmi et al., 2022).

CNN은 이미지의 공간적 특징을 자동으로 학습할 수 있어 콘크리트 표면 손상 분류에 적합한 구조를 가지며, 전이 학습(transfer learning)을 적용할 경우 제한된 데이터 환경에서도 비교적 안정적인 성능을 확보할 수 있음이 보고되고 있다(Kim et al., 2021; Islam et al., 2022; Kavitha et al., 2023; Philip et al., 2023; Shomal Zadeh et al., 2023). 이에 따라 GoogLeNet, ResNet, EfficientNet, MobileNet 계열의 다양한 CNN 모델이 균열 및 표면 손상 탐지에 적용되어 왔다(Sohaib et al., 2024; Yuan et al., 2024).

그러나 기존 연구의 상당수는 대규모 또는 정제된 데이터셋을 전제로 성능을 평가하고 있으며, 실제 유지관리 현장에서 흔히 마주하는 데이터 수가 제한된 환경을 충분히 반영하지 못하고 있다(Dorafshan et al., 2018; Li and Zhao, 2019; Zadeh et al., 2024). 또한 다수의 연구가 단일 모델 또는 소수의 모델에 대한 정확도 중심 비교에 머무르고 있어, 모델 구조 차이, 데이터 수 변화, 계산 효율성을 종합적으로 고려한 분석은 제한적인 실정이다(Mazni et al., 2024).

특히 최근 드론, 모바일 장비, 소형 센서 기반 점검 기술이 확산됨에 따라, 고성능 분류 정확도뿐만 아니라 학습 시간, 추론 속도, 연산 자원 요구량과 같은 계산 효율성 역시 중요한 판단 기준으로 부각되고 있다(Forest et al., 2024; Altaf et al., 2025). 이러한 관점에서 경량 CNN 모델과 고성능 모델을 동일 조건에서 비교⋅분석하고, 데이터 수 변화에 따른 성능 특성을 체계적으로 검토할 필요성이 제기된다.

한편, 저자들은 선행 연구를 통해 소규모 이미지 데이터 환경에서도 CNN 기반 콘크리트 손상 분류의 가능성을 검토한 바 있다. Kim et al. (2025b)에서는 클래스당 100–1000장의 이미지 데이터를 활용하여 데이터 수 증가에 따른 분류 성능 변화와 모델별 특성 차이를 분석하였다. 또한 Kim et al. (2025a)에서는 클래스당 750–3000장의 데이터 조건에서 Grad-CAM 기반 활성화 영역 분석을 수행하여 CNN 모델의 해석성(interpretability)을 평가하였다. 그러나 이러한 선행 연구들은 각각 소규모 데이터 환경에서의 성능 검증 또는 모델 해석성 분석에 초점을 두었으며, 데이터 규모와 학습 조건이 분류 성능에 미치는 영향을 종합적으로 분석한 연구는 제한적이었다. 특히 하이퍼파라미터 설정에 따른 성능 민감도나 추론 속도와 같은 계산 효율을 포함한 분석은 충분히 수행되지 않았다.

이에 본 연구에서는 클래스당 500장, 1,000장, 2,000장, 3,000장의 데이터 조건을 설정하고, GoogLeNet(G.Net), ResNet-50(R.Net), EfficientNet-B0(E.Net), MobileNetV2(M.Net) 등 네 가지 대표적인 CNN 모델을 대상으로 데이터 수 조건을 단계적으로 확장하고, 하이퍼파라미터 조합 변화, 클래스별 성능 특성, 학습 시간 및 계산 효율을 시험 세트 기준으로 체계적으로 분석하였다. 본 연구의 목적은 데이터 수와 하이퍼파라미터 설정이 CNN 기반 구조물 손상 분류의 성능 및 계산 효율에 미치는 영향을 정량적으로 분석하고, 영상 기반 자동 손상 진단 기술의 적용 가능성을 평가하는 것이다. 이를 통해 경량 CNN 모델과 고성능 모델의 적용 특성을 비교하고, 실제 구조물 점검 환경에서 활용 가능한 모델 선정에 대한 기초 자료를 제시하고자 한다.

2. 실험 방법

2.1 사용 프로그램 및 PC 사양

본 연구의 모든 이미지 처리 및 딥러닝 실험은 MATLAB R2025a 환경에서 수행되었다. CNN 학습 및 평가에는 Deep Learning Toolbox를 중심으로 Image Processing Toolbox, Statistics and Machine Learning Toolbox, Parallel Computing Toolbox를 병행 활용하였다. 실험조건에 따른 성능 편차를 최소화하기 위해, 모든 모델 학습은 동일한 하드웨어 및 소프트웨어 환경에서 수행하였다.

모델 학습에는 GPU가 NVIDIA RTX A5000(24GB)인 데스크톱 PC를 사용하였으며, 메모리는 DDR5 64GB로 구성하였다. CPU는 Intel i9-14900KF를 사용하였고, 저장 장치는 SSD 2TB를 적용하였다. 상세한 PC 사양은 Table 1에 정리하였다.

Table 1. Desktop PC specification

PC parts Specification
CPU i9-14900KF
RAM DDR5 64GB (32GB×2)
GPU RTX A5000 24GB
STORAGE SSD 2TB

2.2 데이터셋 구성 및 손상 유형

본 연구에서는 공공 데이터 플랫폼 AI-Hub에서 제공하는 콘크리트 구조물 손상 이미지 데이터셋을 활용하였다. 해당 데이터는 국내 교량, 옹벽 및 건축물 등 실제 구조물을 대상으로 드론과 고해상도 촬영 장비를 이용해 수집된 이미지로, 조도 변화, 배경 차이 및 표면 질감의 다양성을 포함하고 있다.

분류 대상 손상 유형은 균열, 백태, 철근 노출의 세 가지로 구분하였다. 클래스 불균형에 따른 성능 편향을 방지하기 위해, 각 손상 유형별 이미지 수를 동일하게 구성하였다. 데이터 규모에 따른 성능 변화를 분석하기 위해 클래스당 500장, 1,000장, 2,000장, 3,000장의 네 가지 조건을 설정하였다.

모든 데이터는 무작위(randomized) 방식으로 학습(70%), 검증(15%), 시험(15%) 세트로 분할하였으며, 각 데이터 수 조건에서도 동일한 분할 비율과 클래스 균형을 유지하였다. 본 연구에서 제시한 모든 분류 성능 지표는 학습 및 검증 과정에 사용되지 않은 시험 세트를 기준으로 산출하였다. 사용된 이미지의 예시는 Fig. 1에 나타내었다.

Fig. 1. Example images of concrete damage

../../Resources/ksm/jksmi.2026.30.2.52/fig1.png

2.3 이미지 전처리 및 증강

원본 이미지의 해상도와 종횡비가 상이하므로, 데이터 일관성과 학습 안정성을 확보하기 위해 모든 이미지는 패딩을 적용한 후 640×640 픽셀 해상도로 정규화하였다. 이는 전처리 과정에서의 형태 왜곡을 최소화하기 위한 조치이며, 이후 각 CNN 모델의 입력 크기(224×224)에 맞추어 리사이즈하여 학습에 사용하였다.

또한 모델의 일반화 성능 향상을 위해 데이터 증강을 수행하였다. 회전(±10°), 수평 및 수직 이동(±5 pixel), 스케일 변환(±10%)을 적용하였으며, MATLAB의 imageDataAugmenter 함수를 활용하였다. 모든 모델에 동일한 전처리 및 증강 조건을 적용하여, 모델 구조에 따른 성능 차이를 공정하게 비교할 수 있도록 하였다.

2.4 CNN 모델 구조 및 전이 학습 설정

본 연구에서는 CNN 구조에 따른 분류 성능 및 계산 효율의 차이를 분석하기 위해, 구조적 특성이 상이한 네 가지 대표적 모델을 적용하였다. GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2는 각각 상이한 네트워크 구성과 연산 복잡도를 가지며, 이러한 차이는 파라미터 수와 계산 비용 측면에서 서로 다른 특성을 나타낸다. 여기서 계산 비용은 모델이 입력 이미지를 처리하기 위해 요구되는 연산량과 메모리 사용량을 의미하며, 일반적으로 모델의 파라미터 수(parameters), 부동소수점 연산 수(FLOPs), 그리고 학습 및 추론 과정에서 요구되는 메모리 사용량 등의 지표로 평가된다. 이러한 지표는 모델의 연산 복잡도와 계산 자원 요구 수준을 나타내며, 실제 적용 환경에서의 학습 시간과 추론 속도에 영향을 미친다.

GoogLeNet은 여러 크기의 필터를 동시에 적용하는 Inception 구조를 사용하여, 비교적 적은 파라미터 수로 다양한 특징을 효율적으로 추출할 수 있는 모델이다.

ResNet-50은 층이 깊은 구조를 가지며, 층 사이를 직접 연결하는 방식(잔차 연결)을 통해 학습 과정에서 발생할 수 있는 문제를 줄이고 안정적인 특징 추출이 가능하도록 설계되었다.

EfficientNet-B0는 네트워크의 깊이, 너비, 입력 해상도를 균형 있게 조절하는 방식을 적용한 모델로, 비교적 적은 파라미터 수로도 우수한 성능을 낼 수 있도록 구성되어 있다.

MobileNetV2는 연산량을 줄이기 위해 경량화된 구조를 사용한 모델로, 계산 자원이 제한된 환경에서도 적용 가능성이 높은 특징을 가진다.

이와 같은 모델 구조의 차이는 파라미터 수, 연산량, 메모리 사용량에 직접적인 영향을 미치며, 각 모델의 구조적 특성과 계산 효율을 비교하기 위해 주요 지표를 Table 2에 정리하였다.

각 모델은 ImageNet 데이터셋으로 사전 학습된 가중치를 초기값으로 사용하여 전이 학습을 수행하였다. 최종 분류층은 본 연구의 손상 유형 수에 맞게 재구성하였으며, 기존 계층은 미세 조정을 통해 구조물 손상 이미지의 특징을 학습하도록 하였다. 또한 출력층의 학습률을 상대적으로 높게 설정하여, 제한된 데이터 조건에서도 효율적인 수렴이 가능하도록 하였다.

Table 2. Architectural characteristics of the CNN models

Model Total layers Main blocks (modules) Parameters (M) FLOPs Memory (MB)
GoogLeNet 22 9 7.0 1.50 55
ResNet-50 50 16 25.6 4.10 98
EfficientNet-B0 237 16 5.3 0.39 52
MobileNetV2 53 17 3.4 0.30 45

2.5 하이퍼파라미터 설정 및 최적화 방법

CNN 학습 성능에 영향을 미치는 주요 하이퍼파라미터로 초기 학습률(learning rate), 에포크 수(epoch), 배치 크기(batch size)를 선정하였다. 초기 학습률은 CNN 기반 전이 학습 연구에서 Adam optimizer 사용 시 일반적으로 적용되는 학습률 범위를 참고하여 설정하였다. 기존 딥러닝 기반 영상 분류 및 구조물 손상 탐지 연구에서는 초기 학습률을 약 0.001–0.0001 범위에서 설정하는 사례가 보고되고 있으며(Islam et al., 2022; Philip et al., 2023), 본 연구에서도 로그 스케일 학습률 탐색 원칙에 따라 0.001, 0.0003 및 0.0001의 세 수준을 적용하였다. 에포크 수(15, 30)와 배치 크기(16, 32)는 기존 CNN 기반 콘크리트 균열 및 구조물 손상 탐지 연구에서 사용된 학습 조건을 참고하여 설정하였다(Cha et al., 2017; Ali et al., 2021). 이러한 설정은 제한된 데이터 환경에서 안정적인 학습 수렴과 모델 일반화 성능을 확보하기 위한 범위로 적용하였다.

하이퍼파라미터 최적화는 격자 탐색(grid search) 방식으로 수행하였으며, 각 하이퍼파라미터 조합에 대해 동일한 데이터 분할 조건을 적용하여 성능을 비교하였다. 학습 최적화 알고리즘으로는 Adam optimizer를 사용하였으며, 모든 실험은 동일한 GPU 환경에서 수행되었다. 또한 모델 구조에 따른 성능 차이를 보다 명확하게 비교하기 위해 optimizer 설정, fine-tuning 범위 등 기타 학습 조건은 모든 실험에서 동일하게 고정하였다.

본 연구에서는 단일 하이퍼파라미터 설정에 따른 성능 비교의 한계를 고려하여, 다양한 하이퍼파라미터 조합에 따른 분류 성능의 변동 특성을 함께 분석하고자 하였다. 이를 통해 동일한 데이터 수 조건에서도 학습 조건 변화에 따라 분류 성능이 어떻게 달라지는지를 정량적으로 평가하였다.

2.6 성능 평가 지표

모델의 분류 성능 평가는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), Macro F1-score를 기준으로 수행하였다. 정확도는 전체 분류 성능을 직관적으로 평가하기 위한 지표로 사용하였으며, 정밀도와 재현율은 각각 오탐(false positive)과 미검출(false negative) 발생 특성을 확인하기 위해 함께 분석하였다. F1-score는 정밀도와 재현율의 조화 평균으로 정의되는 지표로, 오탐과 미검출을 동시에 고려하여 분류 성능을 평가할 수 있다. Macro F1-score는 각 클래스별 F1-score를 개별적으로 산출한 후 이를 산술 평균한 값으로, 클래스 간 분류 성능의 균형을 평가하는 데 활용된다.

각 클래스 $i$에 대한 F1-score는 정밀도와 재현율의 조화 평균으로 정의되며, Macro F1-score는 다음 식(1)과 같이 계산된다.

(1)
$Macro F1-score = \frac{1}{C} \sum_{i=1}^{C} F1_i$

여기서, $C$는 전체 클래스의 수(여기서 $C=3$) 를 의미한다.

본 연구에서는 특히 Macro F1-score를 중심 지표로 활용하여, 하이퍼파라미터 조합 변화에 따른 성능 편차와 민감도를 정량적으로 분석하였다.

각 하이퍼파라미터 조합에 대해 검증 세트와 시험 세트의 성능을 확인함으로써 모델의 학습 특성과 일반화 성능을 평가하였다. 전체 실험 조건 요약은 Table 3에 정리하였다.

Table 3. Summary of experimental settings

Item Value
Damage Types Crack, Efflorescence, Rebar exposure
Number of Images 500, 1000, 2000, 3000
Model Types GoogLeNet, ResNet-50
EfficientNet-B0, MobileNetV2
Input Resolution 224 × 224 pixels
(Resized from 640 × 640 pixels)
Hyperparameters Epochs: 15, 30
Batch size: 16, 32
Learning rate: 0.001, 0.0003, 0.0001

3. 결과 및 분석

3.1 하이퍼파라미터 조건에 따른 전체 분류 성능 비교

하이퍼파라미터 조합의 변화가 각 CNN 모델의 손상 분류 성능에 미치는 영향을 분석하였다. GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2를 대상으로 학습 데이터 규모에 따른 초기 학습률, 에포크 수 및 배치 크기 변화에 따른 성능 변화를 검토하였으며, 시험 세트에 대한 정확도와 Macro F1-score를 주요 평가지표로 산출하였다. 특히 Macro F1-score는 클래스 간 성능 균형과 하이퍼파라미터 변동에 따른 학습 안정성을 정량적으로 평가하는 지표로 활용되었다.

Fig. 2는 데이터 2,000장 조건에서 ResNet-50 모델의 하이퍼파라미터 변화에 따른 시험 세트 Macro F1-score의 분포를 보여준다. 동일한 데이터 규모와 에포크 조건에서도 초기 학습률과 배치 크기 설정에 따라 분류 성능 차이가 발생하였으며, 특히 낮은 초기 학습률 조건에서 배치 크기 변화에 따른 성능 차이가 시각적으로 크지 않게 관찰되었다.

Table 4는 하이퍼파라미터 탐색을 통해 도출된 각 모델의 데이터 규모별 최적 분류 성능을 요약한 결과이다. 대부분의 모델에서 학습에 사용된 데이터 수가 증가함에 따라 정확도와 Macro F1-score가 전반적으로 향상되는 경향이 나타났으며, ResNet-50과 EfficientNet-B0는 모든 데이터 조건에서 타 모델 대비 상대적으로 높은 성능을 유지하였다. 반면 GoogLeNet은 일부 데이터 구간에서 성능 향상이 정체되거나 감소하는 경향을 보여, 데이터 수 증가에 대한 성능 반응이 모델 구조에 따라 상이하게 나타날 수 있음을 보여준다.

하이퍼파라미터 설정에 대한 모델별 민감도를 분석하기 위해, 동일 조건 내 Macro F1-score의 최대값, 표준편차 및 성능 변동 범위를 Table 5에 나타내었다. GoogLeNet은 전 구간에서 상대적으로 높은 편차와 변동 범위를 보여 하이퍼파라미터 변화에 따른 성능 민감도가 가장 크게 나타났다. 반면 MobileNetV2는 데이터 수가 증가함에 따라 성능 변동 폭이 감소하는 경향을 보였으며, EfficientNet-B0 또한 전반적으로 변동 폭이 감소하는 경향을 나타냈다. ResNet-50은 중간 수준의 민감도를 유지하면서 데이터 수 증가에 따라 성능 변동 폭이 감소하는 경향을 나타냈다.

Table 5에 나타난 바와 같이 데이터 수가 증가함에 따라 일부 CNN 모델에서는 Macro F1-score의 표준편차와 성능 변동 범위가 감소하는 경향이 관찰되었다. 이는 데이터 수 증가가 하이퍼파라미터 설정 변화에 따른 성능 민감도를 완화하고 학습 안정성을 향상시키는 효과가 있음을 나타낸다.

결과를 종합하면, 하이퍼파라미터 설정은 CNN 기반 구조물 손상 분류 모델의 절대적인 성능뿐만 아니라 학습 과정에서의 성능 변동 특성과 성능의 안정성에 중요한 영향을 미치는 요인으로 작용한다. 또한 학습에 사용된 데이터 수의 증가는 분류 성능 향상과 함께 하이퍼파라미터 민감도를 완화하는 경향을 보였으며, 이러한 경향은 개별 모델의 아키텍처 특성에 따라 상이하게 나타났다.

Fig. 2. Heatmap of test macro-F1(R.Net, 2000 images, 30 epochs)

../../Resources/ksm/jksmi.2026.30.2.52/fig2.png

Table 4. Best classification performance of CNN models

Data size Type Model
G.Net R.Net E.Net M.Net
500 Accuracy 0.902 0.933 0.947 0.924
Macro-F1 0.902 0.934 0.947 0.924
1000 Accuracy 0.933 0.940 0.958 0.947
Macro-F1 0.933 0.940 0.958 0.947
2000 Accuracy 0.920 0.940 0.950 0.938
Macro-F1 0.920 0.940 0.950 0.938
3000 Accuracy 0.899 0.954 0.957 0.953
Macro-F1 0.898 0.954 0.957 0.953

Table 5. Hyperparameter sensitivity of classification performance

Model Data Best(max) Mean±Std Range (max-min)
G.Net 500 0.902 0.458±0.361 0.735
1,000 0.933 0.373±0.327 0.767
2,000 0.920 0.316±0.284 0.753
3,000 0.898 0.291±0.242 0.731
R.Net 500 0.934 0.859±0.071 0.230
1,000 0.940 0.878±0.049 0.164
2,000 0.940 0.897±0.044 0.161
3,000 0.954 0.915±0.033 0.119
E.Net 500 0.947 0.900±0.056 0.183
1,000 0.958 0.917±0.040 0.133
2,000 0.950 0.915±0.037 0.128
3,000 0.957 0.935±0.038 0.132
M.Net 500 0.924 0.888±0.048 0.144
1,000 0.947 0.901±0.034 0.098
2,000 0.938 0.912±0.027 0.079
3,000 0.953 0.938±0.013 0.046

3.2 데이터 수 조건별 성능 변화 분석

데이터 수 증가에 따른 CNN 모델의 분류 성능 변화를 분석하였다. 클래스당 이미지 수를 500장, 1,000장, 2,000장, 3,000장으로 단계적으로 증가시키며 실험을 수행하였고, 각 조건에서 하이퍼파라미터 최적화를 통해 도출된 시험 세트 기준 Macro-F1 score를 중심으로 성능 변화를 비교하였다. Macro-F1 score는 각 데이터 수 및 모델 조건에서 하이퍼파라미터 탐색을 통해 얻어진 시험 세트 기준 최고 성능을 의미한다.

Fig. 3Table 4에 나타난 바와 같이, 데이터 수가 500장에서 1,000장으로 증가하는 구간에서는 모든 CNN 모델에서 Macro-F1 score가 뚜렷하게 향상되었다. 특히 GoogLeNet과 MobileNetV2는 이 구간에서 상대적으로 큰 성능 향상을 보여, 제한된 데이터 조건에서 데이터 수 증가가 분류 성능 향상에 효과적으로 기여함을 확인할 수 있었다.

반면 데이터 수가 2,000장 이상으로 증가한 이후에는 모델별로 상이한 성능 변화가 관찰되었다. ResNet-50과 EfficientNet-B0는 데이터 수 증가에 따라 전반적으로 성능을 유지하거나 소폭의 향상을 보인 반면, GoogLeNet은 2,000장 이후 성능이 감소하는 경향을 나타내었다. 이는 GoogLeNet이 Inception 모듈 기반 구조를 사용하여 비교적 적은 파라미터로 특징을 추출하도록 설계된 모델이기 때문으로 판단된다(Szegedy et al., 2015). 데이터 규모가 증가할수록 보다 깊은 네트워크 구조를 가진 ResNet-50 및 EfficientNet-B0와 같은 모델이 복잡한 특징을 효과적으로 학습할 수 있어 상대적으로 안정적인 성능을 유지한 것으로 해석된다. MobileNetV2의 경우 2,000장 조건에서 소폭의 성능 저하가 나타났으나, 3,000장 조건에서는 다시 성능이 향상되는 경향을 보였다.

이러한 결과는 데이터 수 증가가 항상 성능 향상으로 직결되지 않으며, 모델 구조에 따라 데이터 활용 경향이 다르게 나타날 수 있음을 보여준다. 또한 데이터 수가 증가함에 따라 일부 모델에서는 하이퍼파라미터 설정 변화에 따른 성능 변동 폭이 완화되는 경향이 나타났다.

Fig. 3. Effect of data quantity on classification performance

../../Resources/ksm/jksmi.2026.30.2.52/fig3.png

3.3 클래스별 분류 성능 비교

전체 분류 성능 및 하이퍼파라미터 분석 결과의 클래스 간 균형성을 확인하기 위해, 최적화된 학습 조건 중 하나의 대표 사례로서 ResNet-50 모델(2,000 images/class, 30 epochs, learning rate=0.0003, batch size=32)을 기준으로 CNN 모델의 손상 유형별 분류 성능을 분석하였다. 분석 대상 손상 유형은 균열, 백태, 철근 노출이며, Table 6에는 시험 세트 기준으로 산출된 클래스 별 정밀도, 재현율 및 F1-score를 나타내었다. 해당 성능 지표는 confusion matrix를 기반으로 계산되었으며, 소수점 셋째 자리까지 반올림하여 제시하였다.

Fig. 4는 동일한 실험 조건에서 시험 데이터셋에 대해 산출된 confusion matrix를 나타낸 것이다. 전반적으로 세 손상 유형 모두에서 대각선 성분의 값이 높게 나타나 대부분의 이미지가 해당 클래스에 대해 올바르게 분류되었음을 확인할 수 있다. 일부 오분류는 균열–백태 또는 백태–철근 노출 간에서 제한적으로 나타났으나, 전체 시험 데이터 규모 대비 그 비율은 비교적 낮은 수준이었다.

Table 6에 나타난 바와 같이, 세 손상 유형의 정밀도, 재현율 및 F1-score는 전반적으로 유사한 수준을 나타냈다. 이는 각 클래스의 데이터 수를 동일하게 구성하고 동일한 학습⋅검증⋅시험 분할 전략을 적용한 실험 설계의 영향으로 해석될 수 있으며, 해당 조건에서 분류 성능이 특정 손상 유형에 뚜렷하게 편중되지 않았음을 의미한다. 또한 이러한 경향은 Fig. 4의 confusion matrix에서도 확인된다.

이러한 결과는 Table 4Fig. 3에서 제시한 전체 성능 지표(Macro F1-score) 분석 결과와도 일치하며, 클래스 간 성능 편차가 크지 않음을 보여준다. 따라서 클래스별 성능 분석은 전체 분류 성능 지표를 보완적으로 검증하는 역할을 수행하며, 데이터 수와 학습 조건이 동일하게 설정된 경우 손상 유형 간 성능 불균형이 크게 나타나지 않음을 확인하였다.

Table 6. Class-wise classification performance of the ResNet-50 model under the representative experimental condition

Class Precision Recall F1-score
Crack 0.939 0.920 0.929
Efflorescence 0.891 0.903 0.897
Rebar exposure 0.934 0.940 0.937
Macro average 0.921 0.921 0.921

Fig. 4. Confusion matrix obtained from the test dataset

../../Resources/ksm/jksmi.2026.30.2.52/fig4.png

3.4 학습 시간 및 계산 효율 비교

CNN 모델의 실무 적용 가능성을 검토하기 위해 학습 시간과 계산 효율을 비교하였다. 모든 실험은 동일한 하드웨어 및 소프트웨어 환경에서 수행되었으며, 클래스당 2,000장의 데이터를 사용하고 30 epochs 학습을 수행한 대표 조건에서, 각 모델의 하이퍼파라미터 탐색 결과 중 시험 Macro-F1 score가 최대가 되는 조합을 기준으로 학습 시간을 비교하였다(Table 7). 이는 각 모델이 도달 가능한 성능 수준을 동일한 기준에서 평가하기 위함이다.

Table 7Fig. 5에 나타난 바와 같이, 모델 구조에 따라 학습 시간에서 뚜렷한 차이가 관찰되었다. GoogLeNet은 약 42.3분으로 가장 짧은 학습 시간을 보였으며, MobileNetV2(109.4분), ResNet-50(305.6분), EfficientNet-B0(456.4분) 순으로 학습 시간이 증가하였다. 이러한 차이는 네트워크 깊이와 블록 구조의 복잡성 증가로 인해 요구되는 연산량의 차이에서 비롯된 것으로 판단된다.

분류 성능과 학습 시간을 함께 고려하면, EfficientNet-B0는 가장 높은 시험 Macro-F1 score(0.950)를 나타냈으나 가장 긴 학습 시간이 필요하였다. 반면 GoogLeNet은 학습 시간은 가장 짧았으나 분류 성능은 상대적으로 낮은 수준(0.920)을 보였다. MobileNetV2는 비교적 짧은 학습 시간과 함께 높은 Macro-F1 score(0.938)를 나타내어 성능과 계산 효율 간 균형 측면에서 유리한 특성을 보였으며, ResNet-50은 MobileNetV2보다 긴 학습 시간이 요구되었으나 분류 성능은 유사한 수준(0.940)을 나타내었다.

추론 시간에서도 모델 간 차이가 확인되었다. GoogLeNet과 ResNet-50은 단일 이미지 기준 약 6.3–7.5 ms의 비교적 빠른 추론 속도를 보였으며, MobileNetV2와 EfficientNet-B0는 각각 약 10.7 ms와 17.6 ms의 추론 시간이 소요되었다(Table 7). 다만 모든 모델은 단일 이미지 기준 추론 시간이 20 ms 이하로 나타나, 실무 적용 가능성을 검토하기 위한 계산 효율 수준을 충족한 것으로 판단된다.

결과적으로, 본 연구에서 사용한 CNN 모델들은 분류 성능과 계산 효율 간의 상충 관계를 나타냈다. 또한 데이터 수와 하이퍼파라미터 설정에 따라 달성 가능한 분류 성능 수준과 계산 비용이 달라질 수 있음을 확인하였으며, 실제 적용 시에는 요구되는 분류 성능과 사용 가능한 계산 자원을 종합적으로 고려한 모델 선택이 필요하다.

Table 7. Computational efficiency of CNN models

Model G.Net R.Net E.Net M.Net
hyperparameter 0.0001, 32 0.0001, 32 0.0001, 32 0.0001, 32
Test Macro-F1 0.920 0.940 0.950 0.938
Training time (min) 42.3 305.6 456.4 109.4
Relative cost* 1.0x 7.2x 10.8x 2.6x
Inference (ms/img) 6.3 7.5 17.6 10.7

* Relative cost = (Training time of each model) / (shortest training time; GoogLeNet)

Fig. 5. Comparison of training time among CNN models under the representative test condition

../../Resources/ksm/jksmi.2026.30.2.52/fig5.png

4. 결 론

본 연구에서는 CNN 기반 구조물 손상 분류 성능에 영향을 미치는 주요 요인으로 하이퍼파라미터 설정, 데이터 수, 손상 유형별 성능 특성 및 계산 효율을 종합적으로 분석하였다. 네 가지 CNN 모델을 대상으로 다양한 학습 조건에서 실험을 수행하고, 시험 세트 기준 정확도와 Macro-F1 score를 통해 성능 특성을 비교하였다.

분석 결과, 데이터 수가 500장에서 1,000장으로 증가할 때 모든 CNN 모델에서 Macro F1-score가 향상되었으며, 특히 GoogLeNet은 0.902에서 0.933으로, MobileNetV2는 0.924에서 0.947로 증가하였다. 반면 2,000장 이상에서는 모델 구조에 따라 성능 변화 양상이 상이하게 나타났으며, ResNet-50과 EfficientNet-B0는 높은 성능을 안정적으로 유지한 반면 GoogLeNet은 성능이 감소하는 경향을 보였다. 또한 대표 조건에서 EfficientNet-B0는 가장 높은 Macro F1-score(0.950)를 나타냈으나 학습 시간이 가장 길었고, GoogLeNet은 가장 짧은 학습 시간(42.3 min)을 보였으나 성능은 상대적으로 낮았다. MobileNetV2는 109.4 min의 비교적 짧은 학습 시간과 0.938의 높은 Macro F1-score를 함께 보여 성능과 계산 효율의 균형 측면에서 유리한 특성을 나타냈다. 따라서 실제 적용 시에는 최고 성능이 필요한 경우 EfficientNet-B0 또는 ResNet-50, 계산 효율이 우선되는 경우 GoogLeNet 또는 MobileNetV2를 선택하는 전략이 가능할 것으로 판단된다.

분석 결과, 동일한 CNN 모델이라 하더라도 하이퍼파라미터 설정에 따라 분류 성능과 성능 변동성이 크게 달라질 수 있음이 확인되었으며, 데이터 수 증가는 전반적인 성능 향상과 함께 일부 모델에서 학습 안정성을 개선하는 효과를 보였다. 다만 이러한 효과의 크기와 양상은 모델 구조에 따라 상이하게 나타나, 데이터 수 증가만으로 모든 모델에서 동일한 성능 개선을 기대하기는 어려운 것으로 나타났다.

또한 분류 성능과 계산 효율 간에는 상충 관계가 존재하였으며, 모델별로 성능 수준과 계산 비용 특성이 상이하였다. 이러한 결과는 실제 적용 시 요구되는 분류 성능과 가용 계산 자원을 종합적으로 고려한 모델 선택이 필요함을 나타낸다.

본 연구는 CNN 기반 구조물 손상 분류를 단일 조건의 최고 성능 비교에 국한하지 않고, 하이퍼파라미터 민감도와 데이터 수 효과, 계산 효율을 함께 고려한 관점에서 분석하였다는 점에서 의의를 가진다. 본 연구의 결과는 향후 영상 기반 구조물 손상 진단 모델의 선택 및 학습 전략 수립을 위한 기초 자료로 활용될 수 있을 것으로 기대된다.

한편 본 연구는 균열, 백태, 철근 노출 등 세 가지 손상 유형을 대상으로 수행되었으며, 사용된 데이터셋의 규모와 구성 또한 제한적일 수 있다. 따라서 다양한 구조물 환경과 추가적인 손상 유형을 포함한 데이터셋을 활용한 후속 연구가 수행된다면, 영상 기반 구조물 손상 진단 기술의 일반화 가능성을 보다 명확하게 평가할 수 있을 것으로 판단된다.

감사의 글

이 논문은 2026년 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(RS-2021-NR060132).

이 연구는 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 “건물 균열 탐지 이미지”을 활용하여 수행된 연구입니다. 본 연구에 활용된 데이터는 AI 허브(aihub.or.kr)에서 다운로드 받으실 수 있습니다.

References

1 
Ali, L., Alnajjar, F., Al Jassmi, H., Gocho, M., Khan, W., Adel Serhani, M. (2021), Performance evaluation of deep CNN-based crack detection and localization techniques for concrete structures, Sensors, 21(5), 1688DOI
2 
Altaf, A., Mehmood, A., Filograno, M.L., Alharbi, S., Iqbal, J. (2025), Deployable deep learning models for crack detection: efficiency, interpretability, and severity estimation, Buildings, 15(18), 3362DOI
3 
Asvitha Valli, S., Ravi Kumar, M.S. (2018), Review on the mechanism and mitigation of cracks in concrete, Applications in Engineering Science, 16, 100154Google Search
4 
Cha, Y.J., Choi, W.R., Büyüköztürk, O. (2017), Deep learning-based crack damage detection using convolutional neural networks, Computer-Aided Civil and Infrastructure Engineering, 32(5), 361-378.DOI
5 
Diniz, J.C.N., Paiva, A.C., Junior, G.B., Almeida, J.D.S., Silva, A.C., Cunha, A.M.T.S., Cunha, S.C.A.P.S. (2023), Amethod for detecting pathologies in concrete structures using deep neural networks, Applied Sciences, 13(9), 5763DOI
6 
Dorafshan, S., Thomas, R.J., Maguire, M. (2018), SDNET2018: An annotated image dataset for non-contact concrete crack detection using deep convolutional neural networks, Data in Brief, 21, 1664-1668.DOI
7 
Forest, F., Porta, H., Tuia, D., Fink, O. (2024), From classification to segmentation with explainable AI: A study on crack detection and growth monitoring, Automation in Construction, 165, 105497DOI
8 
Islam, M.M., Hossain, M.B., Akhtar, M.N., Ali Moni, M., Hasan, K.F. (2022), CNN based on transfer learning models using data augmentation and transformation for detection of concrete crack, Algorithms, 15(8), 287DOI
9 
Jeon, E.I., Lee, I.P., Kim, D.G. (2023), Crack detection in concrete using deep learning for underground facility safety inspection, Journal of Korean Tunneling and Underground Space Association, 25(6), 555-567.Google Search
10 
Kavitha, S., Baskaran, K.R., Dhanapriya, B. (2023), Explainable AI for detecting fissures on concrete surfaces using transfer learning, Proceedings of the International Conference on Inventive Computation Technologies, 376-384.DOI
11 
Kim, B.H., Cho, S.J. (2020), Automated multiple concrete damage detection using instance segmentation deep learning model, Applied Sciences, 10(22), 8008DOI
12 
Kim, B.H., Cho, S.J., Chae, H.J., Kim, H.K., Kang, J.H. (2021), Development of crack detection system for highway tunnels using imaging device and deep learning, Journal of the Korea Institute for Structural Maintenance and Inspection, 25(4), 65-74.Google Search
13 
Kim, I.S., Choi, S.Y., Yang, E.I. (2025), Analysis of performance and interpretability in CNN-based concrete damage classification using Grad-CAM, Journal of the Korea Institute for Structural Maintenance and Inspection, 29(6), 110-118.Google Search
14 
Kim, I.S., Choi, S.Y., Yang, E.I. (2025), Concrete damage classification using CNN models with small-scale images: performance analysis and comparison, Journal of the Korea Institute for Structural Maintenance and Inspection, 29(6), 30-38.Google Search
15 
Li, S., Zhao, X. (2019), Image-based concrete crack detection using convolutional neural network and exhaustive search technique, Advances in Civil Engineering, 2019, 6520620DOI
16 
Mazni, M., Husain, A.R., Shapiai, M.I., Ibrahim, I.S., Zulkifli, R., Anggara, D.W. (2024), Identification of concrete cracks using deep learning models: A systematic review, Applications of Modelling and Simulation, 8, 1-25.Google Search
17 
Ogunjinmi, P.D., Park, S.S., Kim, B.R., Lee, D.E. (2022), Rapid post-earthquake structural damage assessment using convolutional neural networks and transfer learning, Sensors, 22(9), 3471DOI
18 
Philip, R.E., Andrushia, A.D., Nammalvar, A., Gurupatham, B.G.A., Roy, K. (2023), A comparative study on crack detection in concrete walls using transfer learning techniques, Journal of Composites Science, 7(4), 169DOI
19 
Roy, S., Yogi, B., Majumdar, R., Ghosh, P., Das, S.K. (2025), Deep learning‑based crack detection and prediction for structural health monitoring, Discover Applied Sciences, 7, 674DOI
20 
Sam Rajadurai, R., Kang, S.T. (2021), Automated vision-based crack detection on concrete surfaces using deep learning, Applied sciences, 11(11), 5229DOI
21 
Shomal Zadeh, S., Aalipour birgani, S., Khorshidi, M., Kooban, F. (2023), Concrete surface crack detection with convolutional-based deep learning models, International Journal of Novel Research in Civil Structural and Earth Sciences, 10(3), 25-35.Google Search
22 
Sohaib, M., Hasan, M.J., Hasan, M.A., Zheng, Z. (2024), A robust self-supervised approach for fine-grained crack detection in concrete structures, Scientific Reports, 14, 12646DOI
23 
Su, C., Wang, W. (2020), Concrete cracks detection using convolutional neural network based on transfer learning, Mathematical Problems in Engineering, 2020, 7240129DOI
24 
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A. (2015), Going deeper with convolutions, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 1-9.DOI
25 
Yang, L., Zhu, D., Liu, X. (2024), An efficient method for identifying surface damage in hydraulic concrete buildings, Scientific Reports, 14, 31277DOI
26 
Yuan, Q., Shi, Y., Li, M. (2024), A review of computer vision-based crack detection methods in civil infrastructure: progress and challenges, Remote Sensing, 16(16), 2910DOI