김일순
(Il Sun Kim)
1
최소영
(So Yeong Choi)
1
양은익
(Eun Ik Yang)
2,†
-
정회원, 국립강릉원주대학교 스마트인프라연구소 연구교수
-
정회원, 국립강릉원주대학교 건설환경공학부 교수, 교신저자
Copyright © 2025 by The Korea Institute for Structural Maintenance and Inspection
핵심용어
콘크리트 손상 분류, 합성곱 신경망, 소규모 데이터셋, 전이 학습, t-SNE
Keywords
Concrete damage classification, Convolutional neural network, Small-scale dataset, Trans learning, t-SNE
1. 서 론
콘크리트 구조물은 시간이 지남에 따라 균열(crack), 백태(efflorescence), 철근 노출(rebar exposure) 등 다양한 손상이
발생하며, 이는 구조적 안정성과 내구성을 저해하여 유지관리 비용 증가와 안전사고로 이어질 수 있다 (Asvitha and Ravi, 2018; Roy et al., 2025).
기존의 손상 진단은 주로 시각적 점검과 간단한 비파괴 검사에 의존해왔으며, 이로 인해 검사자의 주관성, 작업 시간 증가, 비용 부담, 안전상의 위험이
수반된다 (Kim and Cho, 2020; Ali et al., 2021; Diniz et al., 2023; Jeon et al., 2023; Yang et al., 2024). 이러한 한계로 인해 보다 정확하고 신속한 자동화된 손상 진단 기술의 필요성이 꾸준히 제기되고 있다 (Kim et al., 2021).
최근에는 딥러닝 기반 이미지 분류 기술, 특히 CNN (Convolutional Neural Network)이 콘크리트 손상 진단 분야에서 효과적인
대안으로 주목받고 있다. Kim and Cho(2020)는 Mask R-CNN을 활용하여 균열, 백태, 철근 노출 등 다양한 손상 유형을 약 90%의 정확도를 달성하였다. Diniz et al.(2023)은 CNN 기반 자동 인식 시스템이 기존 육안 점검 방식의 시간⋅비용 부담 및 주관적 판단 편차 문제를 효과적으로 극복할 수 있음을 보여주었다. Cha et al.(2017)은 CNN을 이용한 균열 검출에서 우수한 성능을 확인하였으며, Su and Wang(2020) 역시 CNN 모델이 정밀한 균열 탐지가 가능함을 보고하였다.
그러나 이러한 기존 연구들은 대부분 대규모 데이터셋을 전제로 하였으며, CNN 모델 간 구조적 특성 비교, 경량화 수준, 실시간 적용 가능성에 대한
논의는 제한적이다 (Banimustafa et al., 2023; Mazni et al., 2024). 실제 유지관리 현장에서는 고품질 손상 이미지를 대량 확보하기 어려우므로, 소규모 데이터 환경에서도 신뢰할 수 있는 분류 성능을 확보할 수 있는
모델 개발이 필요하다.
최근 드론이나 휴대형 영상 장비를 활용한 구조물 표면 점검 기술이 확산되면서, 제한된 연산 자원 환경에서도 신속한 영상 판독이 가능한 경량형 모델의
수요가 증가하고 있다. 따라서 본 연구에서는 소규모 데이터 환경뿐 아니라, 현장 단말기(on-site device) 기반의 실시간 진단 가능성을 함께
검토하였다.
이에 본 연구에서는 다음과 같은 분석을 수행하였다. 첫째, 소규모 이미지 데이터셋에서 CNN 기반 손상 분류의 유효성을 검증하였다. 둘째, 데이터
수량 증가에 따라 분류 성능 향상이 포화되는 임계점의 존재 여부를 분석하였다. 셋째, 다양한 CNN 모델 간 정확도와 연산 효율성을 비교하고 학습
시간을 고려하여 실시간 진단 가능성을 검토하였다. 넷째, t-SNE(t-distributed Stochastic Neighbor Embedding)
기반 특징 시각화를 활용하여 모델이 학습한 내부 표현을 분석하고, 클래스 간 군집 분포와 분리도를 시각적으로 해석하였다.
이를 위해 GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2 네 가지 CNN 구조를 대상으로 데이터 수량(100,
250, 500, 1,000장)에 따른 성능을 평가하였다. 본 연구는 소규모 데이터 환경에서도 효과적인 딥러닝 기반 콘크리트 손상 진단 모델을 제시하고,
이를 통해 구조물 유지관리 자동화 기술의 실무 적용 가능성을 확장하는 데 기여하고자 한다.
2. 기존 연구 고찰 및 한계 분석
2.1 CNN 기반 콘크리트 손상 진단
최근 딥러닝 기술을 활용한 콘크리트 구조물 손상 진단 연구가 활발히 진행되고 있으며, 특히 합성곱 신경망(CNN)은 이미지의 시각적 특성을 효과적으로
학습할 수 있어 손상 유형 분류에 널리 활용되고 있다. 사전 학습된 모델을 전이 학습(transfer learning) 방식으로 적용하면 제한된 수의
손상 이미지로도 높은 정확도와 재현율을 확보할 수 있음이 여러 연구에서 보고되었다 (Ali et al., 2021; Monirul Islam et al., 2022; Philip et al., 2023; Kharthik et al., 2024).
VGG, ResNet, EfficientNet 등의 CNN 모델은 균열, 박리, 철근 노출 탐지에 적용되어 기존 영상처리 기반 방법에 비해 자동화
수준과 진단 정확도 측면에서 우수성이 보고되었다 (Zadeh et al., 2024).
2.3 CNN 모델 간 성능 비교 및 실시간 적용성 고려 부족
GoogLeNet, ResNet, EfficientNet, MobileNet 등 다양한 CNN 모델이 콘크리트 손상 분류에 적용되었으나, 대부분의
연구는 주로 정확도에 집중하였다. 반면 경량화 수준과 연산 효율성 등 실시간 적용성과 직결되는 요소를 종합적으로 다룬 연구는 드물다 (Mazni et al., 2024).
특히 동일한 조건에서 다양한 CNN 모델을 비교하고, 소규모 데이터 환경을 반영하여 실용성을 함께 검토한 연구는 매우 제한적이다.
2.4 본 연구의 필요성과 차별성
본 연구에서는 이러한 한계를 보완하고자 GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2 등 네 가지 대표적
CNN 모델을 대상으로 동일 조건에서 학습 데이터 수량(100, 250, 500, 1,000장)의 단계별 변화에 따른 분류 성능을 체계적으로 분석하였다.
또한 정확도뿐 아니라 학습 시간을 함께 평가하여 실시간 적용 가능성과의 연관성을 검토하였다.
아울러 t-SNE 기반 특징 시각화를 통해 CNN이 학습한 고차원 특징 벡터를 2차원 공간으로 투영하여 클래스 간 군집 분포와 분리도를 정량⋅시각적으로
분석하였다.
이러한 종합적 접근은 소규모 데이터 환경에서도 신뢰할수 있는 딥러닝 기반 손상 분류 모델의 실용 가능성을 검토하며, 향후 현장 적용을 위한 모델 선택과
전략 수립에 객관적 판단 기준을 제공할 수 있을 것으로 기대된다.
3. 실험 방법
3.1 사용 프로그램 및 PC 사양
이미지 처리 및 딥러닝 기반 데이터 분석에는 MathWorks사의 MATLAB R2025a를 사용하였다. 모델 학습과 평가는 Deep Learning
Toolbox, Image Processing Toolbox, Statistics and Machine Learning Toolbox, Parallel
Computing Toolbox를 사용하였다. 학습은 GPU가 NVIDIA RTX A5000 (24 GB), 메모리가 DDR5 64 GB인 데스크톱
PC 환경에서 수행되었으며, 상세한 하드웨어 사양은 Table 1에 나타내었다.
Table 1. Desktop PC specification
|
PC parts
|
Specification
|
|
CPU
|
i9-14900KF
|
|
RAM
|
DDR5 64GB (32GB×2)
|
|
GPU
|
RTX A5000 24GB
|
|
STORAGE
|
SSD 2TB
|
Fig. 1. Example images of concrete damage
3.2 데이터셋 구성
본 연구에 사용된 이미지 데이터는 공공 데이터 플랫폼 AI-Hub에서 제공하는 이미지 데이터셋을 활용하였다. 해당 데이터는 국내 교량, 댐, 옹벽,
건물 등 실제 현장에서 드론과 고화질 카메라를 이용해 촬영된 이미지로, 균열, 백태, 철근 노출 등 다양한 손상 유형을 포함한다.
본 연구에서는 콘크리트 손상 유형 3종(균열, 백태, 철근 노출)에 대해 클래스당 1,000장, 총 3,000장의 이미지 데이터셋을 구성하였다. 모든
이미지는 패딩을 적용한 후 640×640 픽셀 해상도로 정규화하였으며, 클래스 간 균형을 유지하였다. 총 3,000장은 원본 데이터셋 전체를 의미하며,
무작위로 훈련(70%), 검증(15%), 테스트(15%) 세트로 분할하였다. 각 데이터 수 조건(100, 250, 500, 1,000장)은 동일한
분할 비율(70%⋅15%⋅15%)과 클래스 균형을 유지하였으며, 분할은 무작위(randomized) 방식으로 수행되었다. 무작위성에 따른 변동을 완화하기
위해 각 조건을 3회 반복하여 평균 성능을 산출하였으며, 이를 통해 소규모 데이터 환경에서의 학습 성능 변화를 단계적으로 분석하였다. 사용된 이미지의
예시는 Fig. 1에 나타내었다.
3.3 데이터 전처리 및 증강 전략
모델의 일반화 성능 향상을 위해 데이터 증강 기법을 적용하였다. 증강은 회전(±10도), X/Y 방향 이동(±5픽셀), X/Y 스케일 변환(±10%)을
포함하며, MATLAB의 imageDataAugmenter를 활용하였다. 이러한 증강은 원본 이미지의 형태적 다양성을 확보하고, 데이터 부족으로 인한
과적합을 완화하기 위한 절차이다. 모든 모델 학습에 동일한 증강 설정을 적용하였다.
본 연구에서는 소규모 데이터 환경에서 모델의 학습 안정성과 일반화 성능을 확보하기 위한 기본 전처리 단계로 이러한 증강을 적용하였으며, 이는 콘크리트
손상 분류 분야의 다수 선행연구(Cha et al., 2017; Kim and Cho, 2020; Diniz et al., 2023)에서도 효과가
검증된 바 있다.
원본 이미지의 크기와 비율이 다양하고 파일 용량이 큰 관계로, 학습 효율과 데이터 일관성 확보를 위해 모든 이미지를 우선 640×640 픽셀로 정규화하였다.
이 과정은 크기 비율 유지(padding 포함)를 통해 형태 왜곡을 최소화하기 위한 전처리 단계이며, 이후 GoogLeNet, ResNet-50,
EfficientNet-B0, MobileNetV2 등 사전 학습 모델의 입력 규격(224×224)에 맞추어 리사이즈하여 학습 및 평가에 사용하였다.
3.4 모델 구조 및 전이 학습 설정
본 연구에서는 GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2의 네 가지 대표적인 CNN 모델을 적용하였다.
각 모델은 구조적 특징과 복잡도에서 차이를 보이며, 다양한 수준의 경량성과 분류 성능 비교를 가능하게 한다.
GoogLeNet은 22개의 계층과 9개의 Inception 모듈로 구성된 네트워크로, 약 7.0 M개의 파라미터를 가지며 적은 연산량으로 효율적인
학습이 가능하다.
ResNet-50은 49개의 합성곱 계층(Convolution layer)과 16개의 Residual Block으로 구성되어 약 25.6 M개의 파라미터를
보유하며, 잔차 연결(Residual connection)을 통해 깊은 층에서도 기울기 소실 문제를 완화하고 안정적인 특징 추출 능력을 제공한다.
EfficientNet-B0는 약 237개의 계층과 16개의 MBConv 블록으로 구성되어 있으며, 약 5.3 M개의 파라미터를 통해 네트워크의 깊이⋅너비⋅해상도를
균형 있게 확장하는 복합적 스케일링(Compound scaling) 방식을 채택하였다.
MobileNetV2는 53개의 계층과 17개의 Inverted Residual Block으로 구성된 경량 구조를 가지며, 약 3.4 M개의 파라미터로
효율적인 계산 성능을 확보하였다. 특히 Depthwise Separable Convolution을 적용하여 연산량을 크게 줄였으며, 스마트폰⋅드론⋅IoT
센서 등 실시간 임베디드 환경에서의 적용성이 높다. 이러한 네트워크 구조의 깊이와 블록 구성의 차이는 모델별 연산 복잡도 및 특징 추출 단계의 깊이에
직접적인 영향을 미친다.
각 모델의 구조적 깊이와 연산 복잡도를 정량적으로 비교하기 위해 Table 2에 총 파라미터 수(M), FLOPs(GFLOPs), 메모리 요구량(MB)을 제시하였다. ResNet-50은 가장 많은 파라미터와 연산량을 가지며,
MobileNetV2는 가장 경량화된 구조로 연산 효율성이 높다. EfficientNet-B0는 복합 스케일링을 통해 높은 효율을 유지하며, GoogLeNet은
Inception 모듈 기반 구조로 연산량 대비 효율적인 특징 추출이 가능하다.
모든 모델은 ImageNet으로 사전 학습된 가중치를 기반으로 하며, 최종 출력층(Fully Connected Layer 및 Classification
Layer)을 손상 분류 목적에 맞게 교체한 후 미세 조정(fine-tuning)을 수행하였다. 출력층은 WeightLearnRateFactor와
BiasLearnRateFactor를 각각 10으로 설정하여 빠른 수렴을 유도하였고, 기존 계층은 기본 학습률로 미세 조정하였다.
Table 2. Architectural characteristics of the CNN models
|
Model
|
Total layes
|
Main blocks (modules)
|
Parameters (M)
|
FLOPs
|
Memory (MB)
|
|
GoogLeNet
|
22
|
9
|
7.0
|
1.50
|
55
|
|
ResNet-50
|
50
|
16
|
25.6
|
4.10
|
98
|
|
EfficientNet-B0
|
237
|
16
|
5.3
|
0.39
|
52
|
|
MobileNetV2
|
53
|
17
|
3.4
|
0.30
|
45
|
3.5 하이퍼파라미터 설정
모델 간 공정한 성능 비교를 위해 모든 모델에 동일한 학습 조건을 적용하였다. 학습 최적화에는 Adam 최적화 알고리즘(Adam optimizer)을
사용하였으며, 학습률은 0.0001, Epoch 수는 30, Batch size는 128로 설정하였다. 모든 실험은 동일한 GPU 환경(NVIDIA
RTX A5000, 24 GB)에서 수행하여 하드웨어 성능 차이에 따른 영향을 배제하였다.
3.6 평가 지표 및 분석 방법
모델의 분류 성능 평가는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1-score의 네 가지 지표로 수행하였다.
정확도는 전체 예측 중 올바르게 분류된 비율, 정밀도는 양성으로 예측된 결과 중 실제 양성의 비율, 재현율은 실제 양성 중 올바르게 탐지된 비율을
의미한다. F1-score는 정밀도와 재현율의 조화 평균으로, 두 지표 간의 균형을 종합적으로 평가하는 지표이다. 또한 손상 유형별 평균 분류 정확도를
산출하여 균열, 백태, 철근 노출 간 성능 차이를 비교하였다.
특징 분포 해석을 위해 t-SNE(Perplexity=30, Learning rate=200, Iteration=1,000)을 적용하여 최종 특징(Feature)
벡터를 2차원 공간에 투영하고, Silhouette Score를 산출하여 클래스 간 군집 응집도 및 분리도를 정량적으로 평가하였다.
모델의 실시간 적용 가능성은 학습 시간을 중심으로 비교하여 경량화 수준을 종합적으로 분석하였다. 전체 실험 조건 요약은 Table 3에 정리하였다.
Table 3. Summary of experimental settings
|
Item
|
Value
|
|
Damage Types
|
Crack, Efflorescence, Rebar exposure
|
|
Number of Images
|
100, 250, 500, 1,000
|
|
Model Types
|
GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2
|
|
Input Resolution
|
640 × 640 pixels
|
|
Hyperparameters
|
Epochs: 30, Batch size: 128, Learning rate: 0.0001
|
4. 결과 및 분석
4.1 모델별 분류 및 실시간 추론 성능 비교
GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2 네 가지 CNN 모델을 대상으로 데이터 수량(100, 250,
500, 1,000장)에 따른 분류 정확도, 학습 시간, 실시간 추론 성능을 비교하였다. 모든 실험은 동일한 하드웨어 환경에서 3회 반복 수행 후
평균값을 사용하였으며, 결과는 Table 4과 Fig. 2에 나타내었다.
ResNet-50, GoogLeNet, EfficientNet-B0은 모두 250장에서 성능이 향상되었으나 500장 구간에서 일시적으로 하락한 뒤,
1,000장에서 다시 크게 개선되었다. 이는 데이터가 증가했음에도 새로운 특징 다양성이 충분히 확보되지 않아 복잡한 분류 경계 형성 과정에서 일시적
과적합이나 학습 불안정성이 발생했을 가능성이 있다. 반면 MobileNetV2는 100장에서 80.0%로 시작해 1,000장에서 91.3%까지 꾸준히
향상되었으며, 이는 경량 구조 특성상 과적합 위험이 상대적으로 낮을 수 있기 때문인 것으로 판단된다.
학습 시간은 EfficientNet-B0이 가장 길었고(1,000장 기준 397초), GoogLeNet이 가장 짧았다(80초). ResNet-50과
MobileNetV2는 각각 160초, 132초로 측정되었다. 종합하면 ResNet-50과 EfficientNet-B0은 정확도 측면에서 우수했고,
MobileNetV2는 성능과 학습 속도의 균형 면에서 실시간 적용 가능성이 높을 것으로 기대된다. GoogLeNet은 가장 빠른 학습 속도를 보였으나
정확도는 상대적으로 낮아, 속도 중심의 활용에 강점이 있는 것으로 평가된다.
모델의 실시간 추론 성능을 정량적으로 검증하기 위해 동일한 고정 테스트셋(약 450장)을 이용하여 1 장당 처리 시간(inference time,
ms/image)과 초당 프레임 수(FPS, frames per second)를 측정하였다. 측정은 배치 크기 1 조건에서 수행하였으며, 모든 모델의
결과는 Table 5에 제시하였다. GoogLeNet은 6.3 ms/image (≈160 FPS), ResNet-50은 7.2 ms (≈138 FPS), MobileNetV2는
8.2 ms (≈122 FPS), EfficientNet-B0은 28.7 ms (≈ 35 FPS)로 측정되었다. 모든 모델이 30 FPS 이상의 기준을
충족하여 실시간 처리가 가능한 수준임을 확인하였다. 특히 GoogLeNet과 MobileNetV2는 경량 구조를 가지면서도 높은 FPS를 보여 현장
적용성 이 우수한 것으로 판단된다. 본 결과는 RTX A5000 GPU 기준으로 측정되었으며, 하드웨어 사양에 따라 절대적인 FPS 값은 변동될 수
있다.
Table 4. Model accuracy and training time by data number
|
Model
|
Data number
|
Accuracy (%)
|
Training time (sec)
|
|
GoogLeNet
|
100
|
84.4
|
8
|
|
250
|
89.8
|
19
|
|
500
|
87.1
|
38
|
|
1,000
|
90.7
|
80
|
|
ResNet-50
|
100
|
84.4
|
16
|
|
250
|
87.0
|
38
|
|
500
|
85.8
|
76
|
|
1,000
|
92.4
|
160
|
|
EfficientNet-B0
|
100
|
71.1
|
39
|
|
250
|
89.8
|
95
|
|
500
|
86.2
|
190
|
|
1,000
|
92.7
|
397
|
|
MobileNetV2
|
100
|
80.0
|
14
|
|
250
|
82.4
|
31
|
|
500
|
88.0
|
63
|
|
1,000
|
91.3
|
132
|
Table 5. Inference latency and FPS of CNN models
|
Model
|
Inference time (ms/image)
|
FPS (frames/s)
|
|
GoogLeNet
|
6.3
|
160
|
|
ResNet-50
|
7.2
|
138
|
|
EfficientNet-B0
|
28.7
|
35
|
|
MobileNetV2
|
8.2
|
122
|
Fig. 2. Model accuracy and training time by data number
4.2 데이터 수량에 따른 성능 변화 분석
각 모델의 데이터 수량 변화(100, 250, 500, 1,000장)에 따른 정밀도(Precision), 재현율(Recall), F1-score를
평가하여 성능 포화점(Saturation Point)을 분석하였다(Table 6). 정밀도는 양성으로 예측된 결과 중 실제 양성의 비율, 재현율은 실제 양성 중 올바르게 탐지된 비율, F1-score는 두 지표의 조화 평균으로
분류 성능의 균형을 나타낸다.
ResNet-50은 100∼250장에서 성능이 빠르게 향상되었으며, 500장 구간에서 성능이 일정 수준에 도달하면서 개선 폭이 둔화되었다가 1,000장에서
다시 소폭 향상되었다. GoogLeNet 역시 전반적으로 성능이 개선되었으나, 500장 부근에서는 백태 클래스의 낮은 성능으로 인해 전체 향상 폭이
제한적이었다. EfficientNet-B0은 초기 성능이 가장 낮았으나 250장에서 급격히 향상되었고, 500장에서 안정화된 후 1,000장에서 ResNet-50과
유사한 수준으로 회복되었다. MobileNetV2는 비교적 안정적인 상승세를 보였으나, 1,000장에서 소폭 하락하며 이미 500장 부근에서 성능
포화 양상을 보였다. 이때 클래스별 평균 F1-score는 균열 0.91, 철근 노출 0.93으로 안정적으로 유지된 반면 백태는 0.80 수준으로
가장 낮았다.
Precision과 Recall을 함께 살펴보면 모델별 특성이 뚜렷하게 나타났다. ResNet-50과 EfficientNet-B0은 두 지표가 균형적으로
향상된 반면, GoogLeNet은 Recall은 꾸준히 증가했음에도 Precision이 정체되어 F1-score 개선이 제한적이었다. MobileNetV2는
Precision은 높은 수준을 유지했으나 Recall이 상대적으로 낮아 1,000장에서 F1-score가 다소 감소하였다.
100, 250장 구간에서는 데이터가 적음에도 불구하고 성능이 빠르게 향상되었다. 이는 소량의 데이터에서도 특징 패턴을 학습한 결과로 해석될 수 있으나,
단순 패턴 학습에 따른 과대평가 가능성이 있으며 반복 실험 결과의 변동성이 크게 작용했을 가능성도 있다. 따라서 이 구간은 초기 학습 성능을 가늠하는
참고 지표로 의미가 있으나, 일반화된 성능 평가로 해석하는 데는 한계가 있다.
종합하면, 네 모델 모두 약 500장 전후에서 성능 향상 폭이 완만해지는 경향을 보였다. 이는 데이터가 일정 수준 이상 확보되면 추가적인 성능 개선이
제한적일 수 있음을 시사하며, 소규모 데이터 환경에서도 일정 수준의 성능을 확보할 수 있음을 보여준다. 다만, ResNet-50과 EfficientNet-B0는
1,000장 조건에서 추가 향상이 관찰되어, 500장 부근은 절대적인 포화점이라기보다 성능 향상 속도가 둔화되는 실용적 참고 구간으로 해석하는 것이
적절하다. 특히 ResNet-50과 EfficientNet-B0은 데이터 효율성이 높았고, GoogLeNet과 MobileNetV2는 경량성과 연산
효율성 측면에서 활용 가능성이 있음을 확인하였다.
Table 6. Model performance by data quantity
|
Model
|
Data number
|
Class
|
Precision
|
Recall
|
F1-score
|
|
GoogLeNet
|
100
|
Crack
|
0.73
|
0.84
|
0.73
|
|
Efflore.
|
0.87
|
0.89
|
0.86
|
|
Rebar
|
0.93
|
0.90
|
0.91
|
|
250
|
Crack
|
0.83
|
0.97
|
0.88
|
|
Efflore.
|
0.92
|
0.85
|
0.88
|
|
Rebar
|
0.94
|
0.92
|
0.93
|
|
500
|
Crack
|
0.87
|
0.89
|
0.88
|
|
Efflore.
|
0.85
|
0.82
|
0.83
|
|
Rebar
|
0.89
|
0.92
|
0.90
|
|
1,000
|
Crack
|
0.85
|
0.94
|
0.89
|
|
Efflore.
|
0.89
|
0.90
|
0.90
|
|
Rebar
|
0.97
|
0.89
|
0.93
|
|
ResNet-50
|
100
|
Crack
|
0.87
|
0.89
|
0.87
|
|
Efflore.
|
0.80
|
0.88
|
0.78
|
|
Rebar
|
0.87
|
0.90
|
0.86
|
|
250
|
Crack
|
0.94
|
0.88
|
0.91
|
|
Efflore.
|
0.78
|
0.88
|
0.82
|
|
Rebar
|
0.89
|
0.86
|
0.87
|
|
500
|
Crack
|
0.84
|
0.84
|
0.84
|
|
Efflore.
|
0.83
|
0.81
|
0.82
|
|
Rebar
|
0.91
|
0.92
|
0.91
|
|
1,000
|
Crack
|
0.92
|
0.92
|
0.92
|
|
Efflore.
|
0.91
|
0.91
|
0.91
|
|
Rebar
|
0.95
|
0.95
|
0.95
|
|
EfficientNet-B0
|
100
|
Crack
|
0.67
|
0.72
|
0.69
|
|
Efflore.
|
0.73
|
0.62
|
0.67
|
|
Rebar
|
0.73
|
0.85
|
0.79
|
|
250
|
Crack
|
0.86
|
0.97
|
0.91
|
|
Efflore.
|
0.94
|
0.83
|
0.88
|
|
Rebar
|
0.89
|
0.92
|
0.90
|
|
500
|
Crack
|
0.81
|
0.87
|
0.84
|
|
Efflore.
|
0.84
|
0.79
|
0.81
|
|
Rebar
|
0.93
|
0.93
|
0.93
|
|
1,000
|
Crack
|
0.91
|
0.93
|
0.92
|
|
Efflore.
|
0.90
|
0.92
|
0.91
|
|
Rebar
|
0.97
|
0.93
|
0.95
|
|
MobileNetV2
|
100
|
Crack
|
0.80
|
0.93
|
0.86
|
|
Efflore.
|
0.87
|
0.68
|
0.76
|
|
Rebar
|
0.73
|
0.87
|
0.78
|
|
250
|
Crack
|
0.83
|
0.88
|
0.84
|
|
Efflore.
|
0.89
|
0.78
|
0.83
|
|
Rebar
|
0.75
|
0.87
|
0.80
|
|
500
|
Crack
|
0.92
|
0.90
|
0.91
|
|
Efflore.
|
0.79
|
0.86
|
0.82
|
|
Rebar
|
0.93
|
0.89
|
0.91
|
|
1,000
|
Crack
|
0.87
|
0.91
|
0.89
|
|
Efflore.
|
0.92
|
0.88
|
0.90
|
|
Rebar
|
0.95
|
0.96
|
0.95
|
4.3 손상 유형별 분류 정확도
손상 유형별 분류 성능을 비교하기 위해 데이터 수(100, 250, 500, 1,000장) 전 구간의 평균 정확도를 산출하였다(Table 7). 분석 결과, 손상 유형에 따라 모델의 성능 차이가 뚜렷하게 나타났으며, 데이터 수 증가에 따른 변화 양상도 유형별로 상이하였다.
첫째, 철근 노출은 모든 모델에서 가장 높은 정확도를 기록하며 데이터 증가에 따라 성능이 향상되었다. GoogLeNet이 평균 93.6%로 가장 높은
성능을 보였고, ResNet-50도 90.2%로 우수한 결과를 나타냈다. 특히 1,000장에서는 GoogLeNet(97.3%)과 EfficientNet-B0(96.7%)가
최고 성능을 달성하여, 특징이 명확한 손상 유형은 500장을 넘어 데이터가 늘어나도 안정적으로 개선되는 양상을 보였다.
둘째, 균열은 모델 간 성능 편차가 크게 나타났으며 데이터 수량 변화에 민감하게 반응하였다. ResNet-50은 평균 89.3%로 가장 높은 정확도를
기록했고, 250장에서 94.4%로 최고 성능을 보였다. 반면 GoogLeNet과 MobileNetV2는 500장 전후에서 성능 향상이 둔화되거나
정체되는 경향을 보였다. 이는 균열이 미세한 패턴을 안정적으로 학습하기 위해 깊은 네트워크 구조가 요구되며, 데이터가 충분하지 않을 경우 학습 불안정성과
성능 변동이 크게 발생할 수 있음을 시사한다.
셋째, 백태는 모든 모델에서 상대적으로 낮은 정확도를 보였으며 데이터 증가에도 성능 변동성이 가장 크게 나타났다. GoogLeNet이 평균 88.3%로
가장 우수했으나, ResNet-50은 82.8%로 가장 낮았다. 특히 GoogLeNet은 500장 구간에서 일시적 하락 후 1,000장에서 회복하는
패턴을 보였다. 이는 백태가 불규칙한 질감과 모호한 경계를 지녀 데이터 증가에도 학습 안정성이 쉽게 확보되지 못한 결과로 해석된다.
종합하면, 데이터 수 증가에 따른 성능 향상과 500장 전후에서의 포화 현상은 손상 유형별 분석에서도 일관되게 확인되었다. 철근 노출은 데이터 증가에
따라 꾸준히 높은 성능을 유지하는 안정적인 유형이었으며, 균열은 데이터 양과 네트워크 깊이에 크게 의존하였다. 반면 백태는 성능 변동성이 크고 분류가
가장 어려운 유형으로, 앞서 언급한 500장 구간의 성능 정체와 직접적으로 연결되었다. 따라서 향후 연구에서는 손상 유형별 특성을 고려하여, 균열과
백태에 대해서는 데이터 증강, 질감 기반 특징 강화, 또는 특화된 전처리 기법의 적용이 필요하다.
Table 7. Classification accuracy by damage type
|
Model
|
Data number
|
Accuracy (%)
|
|
Crack
|
Efflore.
|
Rebar
|
|
GoogLeNet
|
100
|
73.3
|
86.7
|
93.3
|
|
250
|
83.3
|
91.7
|
94.4
|
|
500
|
86.7
|
85.3
|
89.3
|
|
1,000
|
85.3
|
89.3
|
97.3
|
|
Average
|
82.2
|
88.3
|
93.6
|
|
ResNet-50
|
100
|
86.7
|
80.0
|
86.7
|
|
250
|
94.4
|
77.8
|
88.9
|
|
500
|
84.0
|
82.7
|
90.7
|
|
1,000
|
92.0
|
90.7
|
94.7
|
|
Average
|
89.3
|
82.8
|
90.2
|
|
EfficientNet-B0
|
100
|
66.7
|
73.3
|
73.3
|
|
250
|
86.1
|
94.4
|
88.9
|
|
500
|
81.3
|
84.0
|
93.3
|
|
1,000
|
91.3
|
90.0
|
96.7
|
|
Average
|
81.4
|
85.4
|
88.1
|
|
MobileNetV2
|
100
|
80.0
|
86.7
|
73.3
|
|
250
|
83.3
|
88.9
|
75.0
|
|
500
|
92.0
|
78.7
|
93.3
|
|
1,000
|
87.3
|
92.0
|
94.7
|
|
Average
|
85.7
|
86.6
|
84.1
|
4.4 t-SNE 기반 특징 시각화
데이터 수(100, 250, 500, 1,000장)로 학습된 각 CNN 모델의 최종 특징을 t-SNE 기법으로 2차원 시각화하여 모델별 특징 추출
성능과 분류 특성을 분석하였다. t-SNE는 고차원 특징을 2차원으로 변환해 유사한 데이터는 가깝게, 다른 데이터는 멀리 배치하므로 손상 유형(균열,
백태, 철근 노출) 간 군집 형성과 분리도를 직관적으로 확인할 수 있다.
t-SNE는 확률적 최적화 특성상 반복 시 결과가 달라질 수 있으므로, 각 모델별 3회 반복 수행 후 Silhouette Score를 산출하여 군집
응집도와 분리도를 정량적으로 평가하였다. Table 6에는 각 모델⋅데이터 수 조건별 3회의 Silhouette Score를 모두 제시하였으며, 이 중 높은 점수를 기록한 결과를 대표 시각화로 활용하였다.
Fig. 3에는 분리도가 우수한 ResNet-50과 EfficientNet-B0의 결과를 예시로 나타내었다. Silhouette Score는 값이 1에 가까울수록
분리도가 우수하며, 0 이하는 불명확한 군집을 의미한다. 또한, t-SNE는 시각화에는 효과적이지만 군집 간 거리의 절대적 의미는 없으므로 축 수치는
생략하였다.
분석 결과, 100장과 250장 조건에서는 대부분 음수 또는 0에 근접해 분리가 뚜렷하지 않았다. 이는 소규모 데이터셋에서 클래스 간 특징 구분이
어렵다는 점을 시사한다. 반면 500장 이상에서는 양수 범위로 전환되어 분리도가 향상되었고, 1,000장 조건에서는 (0.105∼0.288) 수준으로
안정적인 군집 구조를 보였다. 한편, MobileNetV2는 1,000장 조건 일부에서 낮은 값(0.051∼0.052)을 기록해 시드(seed) 의존성이
큰 특성을 보였다. 또한, t-SNE는 시각화에는 효과적이지만 거리의 절대적 의미는 없으므로 축 수치는 생략하였다.
모델별로 보면, ResNet-50은 500장 조건에서 세 손상 유형이 뚜렷하게 구분되었으며, 특히 철근 노출은 가장 응집된 군집을 보였다(Fig. 3(a)). 이는 class accuracy 결과(균열 84.0%, 백태 82.7%, 철근 노출 90.7%)와 대응된다. EfficientNet-B0은 1,000장
조건에서 안정적이고 높은 Silhouette Score를 기록하였고, 시각적으로도 세 손상 유형이 균형 있게 분리되었다(Fig. 3(b)). 이는
class accuracy 결과(균열 91.3%, 백태 90.0%, 철근 노출 94.7%)와 일치하였다. GoogLeNet은 500장 조건에서 Silhouette
Score가 최대 0.376으로 나타나 군집 분리도가 개선된 것으로 확인되었다. MobileNetV2는 1,000장 조건에서 최고값 0.247로 양호한
수준을 보였다(Table 7). 이는 class accuracy 결과(균열 87.3%, 백태 92.0%, 철근 노출 94.7%)와 전반적으로 일관된
경향을 나타낸다.
종합하면, 모든 모델에서 데이터 수 증가가 군집 분리도의 개선으로 이어졌으며 특히 철근 노출은 가장 뚜렷한 분리도를 보였다. Table 8과 Fig. 3은 데이터 확장이 성능 향상뿐 아니라 해석 가능성 개선에도 기여함을 보여준다. ResNet-50과 EfficientNet-B0은 높은 분류 성능과
안정적인 해석 가능성을, GoogLeNet과 MobileNetV2는 경량성과 효율성을 바탕으로 실용적 대안을 제시하였다. 따라서 본 t-SNE 분석은
성능과 해석 가능성을 함께 고려한 모델 선택의 근거를 제공한다.
Table 8. Results by model and data number
|
Model
|
Iteration
|
Data number
|
|
100
|
250
|
500
|
1,000
|
|
GoogLeNet
|
1
|
-0.105
|
-0.110
|
0.101
|
0.212
|
|
2
|
0.041
|
-0.078
|
0.200
|
0.232
|
|
3
|
-0.019
|
-0.117
|
0.376
|
0.105
|
|
ResNet-50
|
1
|
-0.086
|
-0.034
|
0.263
|
0.288
|
|
2
|
-0.061
|
-0.091
|
0.316
|
0.251
|
|
3
|
-0.117
|
-0.081
|
0.174
|
0.208
|
|
EfficientNet-B0
|
1
|
-0.019
|
-0.137
|
-0.136
|
0.149
|
|
2
|
0.005
|
-0.105
|
0.111
|
0.288
|
|
3
|
-0.087
|
0.138
|
0.198
|
0.259
|
|
MobileNetV2
|
1
|
-0.109
|
-0.037
|
0.208
|
0.052
|
|
2
|
-0.096
|
-0.092
|
0.182
|
0.051
|
|
3
|
-0.028
|
-0.123
|
0.133
|
0.247
|
Fig. 3. t-SNE visualization results of the CNN models
5. 결 론
본 연구는 GoogLeNet, ResNet-50, EfficientNet-B0, MobileNetV2 네 가지 CNN 모델을 대상으로 데이터 수량
변화(100, 250, 500, 1,000장), 학습 성능, 특징 시각화를 비교⋅분석하여 딥러닝 기반 콘크리트 손상 분류의 실용 가능성을 검토하였다.
실험 결과, 데이터 수가 증가함에 따라 정확도와 F1-score는 전반적으로 향상되었으며, 약 500장 부근에서 성능 향상 폭이 완만해지는 경향이
확인되었다. 이는 데이터가 일정 수준 이상 확보되면 새로운 특징 다양성이 제한적으로 증가하기 때문으로 해석된다. 다만, ResNet-50과 EfficientNet-B0의
경우 1,000장 조건에서 추가적인 성능 향상이 나타나, 고성능 모델일수록 데이터 확충에 따른 개선 여지가 남아 있음을 확인하였다. 따라서, 500장은
모든 모델에 대한 절대적인 포화점이라기보다 성능 향상 속도가 둔화되는 경향적 기준점으로 볼 수 있으며, 데이터 확보 효율성과 실험 비용을 고려한 실용적
절충점으로 제시될 수 있다.
손상 유형별로는 철근 노출이 가장 안정적으로 분류되었으며, 균열은 심층 모델(ResNet-50, EfficientNet-B0)에서 상대적으로 높은
성능을 보였다. 반면 백태는 불규칙한 질감과 모호한 경계로 인해 변동성이 크고 분류가 가장 어려운 유형으로 나타났다.
모델별로는 ResNet-50과 EfficientNet-B0이 높은 정확도와 군집 분리도를 보여 데이터 효율성이 우수했으며, GoogLeNet과 MobileNetV2는
짧은 학습 시간과 경량 구조를 바탕으로 연산 효율성이 높아 실시간 적용 가능성을 보였다.
종합하면, 본 연구는 소규모 데이터 환경에서도 CNN 기반 손상 분류의 적용 가능성을 확인하였으며, 약 500장 부근에서 성능 향상 둔화가 나타난다는
경향적 결과를 통해 데이터 확보와 모델 선택의 참고 기준을 제시하였다. 향후 연구에서는 데이터 다양성 확대와 현장 이미지 기반 검증, 특히 균열과
백태와 같은 모호한 손상 유형에 대한 특화된 분석 기법 적용이 요구된다.
또한, 본 연구는 정확도 중심의 모델 비교를 넘어, 향후 모바일⋅드론 기반 점검 시스템에서의 실시간 적용 가능성을 검토하였다는 점에서 의의가 있다.
이러한 경량화 및 신속성은 현장 기반 유지관리 자동화 기술로 확장될 수 있는 기반을 제공한다.
감사의 글
이 논문은 2025년 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(RS-2021-NR060132).
이 연구는 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 “건물 균열 탐지 이미지”을 활용하여 수행된 연구입니다. 본 연구에
활용된 데이터는 AI 허브(aihub.or.kr)에서 다운로드 받으실 수 있습니다.
References
Ali, L., Alnajjar, F., Al Jassmi, H., Gocho, M., Khan, W., Adel Serhani, M. (2021),
Performance evaluation of deep CNN-based crack detection and localization techniques
for concrete structures, Sensors, 21(5), 1688

Asvitha Valli, S., Ravi Kumar, M. S. (2018), Review on the mechanism and mitigation
of cracks in concrete, Applications in Engineering Science, 16, 100154

BaniMustafa, A., AbdelHalim, R., Bulkrock, O., Al-Humouz, A. (2023), Deep learning
for assessing severity of cracks in concrete structures, International Journal of
Computers Communications & Control, 18(1), 4977

Cha, Y. J., Choi, W. R., Büyüköztürk, O. (2017), Deep learning-based crack damage
detection using convolutional neural networks, Computer-Aided Civil and Infrastructure
Engineering, 32(5), 361-378.

Diniz, J. C. N., Paiva, A. C., Junior, G. B., Almeida, J. D. S., Silva, A. C., Cunha,
A. M. T. S., Cunha, S. C. A. P. S. (2023), Amethod for detecting pathologies in concrete
structures using deep neural networks, Applied Sciences, 13(9), 5763

Dorafshan, S., Thomas, R. J., Maguire, M. (2018), SDNET2018: An annotated image dataset
for non-contact concrete crack detection using deep convolutional neural networks,
Data in Brief, 21, 1664-1668.

Jeon, E. I., Lee, I. P., Kim, D. G. (2023), Crack detection in concrete using deep
learning for underground facility safety inspection, Journal of Korean Tunneling and
Underground Space Association, 25(6), 555-567.

Kharthik, K. S. B., Michael Onyema, E., Mallik, S., Siva Prasad, B. V. V., Qin, H.,
Selvi, C., Sikha, O. K. (2024), Transfer learned deep based crack detection using
support vector machine: a comparative study, Scientific Reports, 14, 14517

Kim, B. H., Cho, S. J. (2020), Automated multiple concrete damage detection using
instance segmentation deep learning model, Applied Sciences, 10(22), 8008

Kim, J., Shim, S. B., Cha, Y. H., Cho, G. C. (2021), Lightweight pixel-wise segmentation
for efficient concrete crack detection using hierarchical convolutional neural network,
Smart Materials and Structures, 30, 045023

Kim, B. H., Cho, S. J., Chae, H. J., Kim, H. K., Kang, J. H. (2021), Development of
crack detection system for highway tunnels using imaging device and deep learning,
Journal of the Korea Institute for Structural Maintenance and Inspection, 25(4), 65-74.

Li, S., Zhao, X. (2019), Image-based concrete crack detection using convolutional
neural network and exhaustive search technique, Advances in Civil Engineering, 2019,
6520620

Mazni, M., Husain, A. R., Shapiai, M. I., Ibrahim, I. S., Zulkifli, R., Anggara, D.
W. (2024), Identification of concrete cracks using deep learning models: A systematic
review, Applications of Modelling and Simulation, 8, 1-25.

Islam, M. M., Hossain, M. B., Akhtar, M. N., Ali Moni, M., Hasan, K. F. (2022), CNN
based on transfer learning models using data augmentation and transformation for detection
of concrete crack, Algorithms, 15(8), 287

Philip, R. E., Andrushia, A. D., Nammalvar, A., Gurupatham, B. G. A., Roy, K. (2023),
A comparative study on crack detection in concrete walls using transfer learning techniques,
Journal of Composites Science, 7(4), 169

Roy, S., Yogi, B., Majumdar, R., Ghosh, P., Das, S. K. (2025), Deep learning‑based
crack detection and prediction for structural health monitoring, Discover Applied
Sciences, 7, 674

Zadeh, S. S., Aalipour birgani, S., Khorshidi, M., Kooban, F. (2024), Concrete surface
crack detection with convolutional-based deep learning models, International Journal
of Novel Research in Civil Structural and Earth Sciences, 10(3), 25-35.

Su, C., Wang, W. (2020), Concrete cracks detection using convolutional neural network
based on transfer learning, Mathematical Problems in Engineering, 2020, 7240129

Yang, L., Zhu, D., Liu, X. (2024), An efficient method for identifying surface damage
in hydraulic concrete buildings, Scientific Reports, 14, 31277
