Mobile QR Code QR CODE

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.

Indexed by
Korea Citation Index (KCI)

Main Menu

Journal Search

[

Research article

]

Journal of the Korea Institute for Structural Maintenance and Inspection

J. Korea Inst. Struct. Maint. Insp. Vol. 29, No. 6, p.110-118

ISSN (print) :

2234-6937

ISSN (online) :

2287-6979

Received : 18 August 2025Revised : 29 October 2025Accepted : 11 November 2025

DOI :

https://doi.org/10.11112/jksmi.2025.29.6.110

Grad-CAM 기반 CNN 모델의 콘크리트 손상 분류 성능 및 해석성 분석

Analysis of Performance and Interpretability in CNN-Based Concrete Damage Classification using Grad-CAM

김일순 (Il Sun Kim) ¹ 최소영 (So Yeong Choi) ¹ 양은익 (Eun Ik Yang) ²^*

정회원, 국립강릉원주대학교 스마트인프라연구소 연구교수
정회원, 국립강릉원주대학교 건설환경공학부 교수

^*Corresponding author: eiyang@gwnu.ac.kr Department of Civil and Environmental Eng., Gangneung-Wonju National University, Gangneung, 25457, Korea

License :

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

초록

본 연구는 Grad-CAM을 활용하여 딥러닝 기반 콘크리트 손상 분류 모델의 해석성을 정량적으로 평가하고, 그 결과를 성능 지표와 비교하여 실무 적용을 위한 기초적 기준을 제시하였다. GoogLeNet, ResNet-50, EfficientNet-B0 세 가지 CNN 모델을 대상으로 데이터 수(750, 1500, 3000장)와 Grad-CAM threshold 값(0.3, 0.5, 0.7)을 변수로 실험을 수행하였다. 모델 성능은 정확도와 F1-score, 해석성은 Grad-CAM 기반 Damage Ratio로 평가하였다. 실험 결과, 데이터 수가 증가할수록 성능과 해석성이 모두 향상되었으나 두 지표 간 상충 관계가 나타났다. EfficientNet-B0는 가장 높은 정확도를 기록했으며, GoogLeNet은 넓은 해석 영역과 높은 Damage Ratio를 보였다. 또한 threshold 0.5에서 해석성과 노이즈 억제 간의 균형이 가장 적절한 것으로 분석되었다. 결론적으로 본 연구는 딥러닝 기반 구조물 손상 진단에서 성능과 해석성의 균형적 접근 및 모델, threshold 설정 기준을 제시하였으며, 향후 연구에서는 다양한 손상 유형과 실제 구조물 데이터를 활용한 해석성 고도화가 필요하다.

Abstract

This study quantitatively evaluated the interpretability of deep learning–based concrete damage classification models using Grad-CAM and compared the results with performance metrics to establish fundamental criteria for practical applications. Three representative CNN models—GoogLeNet, ResNet-50, and EfficientNet-B0—were tested with varying dataset sizes (750, 1500, 3000 images) and Grad-CAM threshold values (0.3, 0.5, 0.7). Model performance was assessed using accuracy and F1-score, while interpretability was evaluated with the Grad-CAM–based Damage Ratio. The experimental results showed that both performance and interpretability improved as the dataset size increased; however, a trade-off between the two metrics was observed. EfficientNet-B0 achieved the highest accuracy, whereas GoogLeNet produced wider activation regions with a higher Damage Ratio. In addition, threshold 0.5 yielded the most balanced results in terms of interpretability and noise suppression. In conclusion, this study highlights the importance of balancing performance and interpretability in deep learning–based structural damage diagnosis and proposes baseline criteria for model and threshold selection. Future research should focus on enhancing interpretability by incorporating diverse damage types and real-world structural data.

Keywords

Convolutional neural network, Concrete damage classification, Damage ratio, Explainable AI, Grad-CAM

핵심용어

합성곱 신경망, 콘크리트 손상 분류, 손상 비율, 해석 가능한 인공지능, Grad-CAM

1. 서 론

콘크리트는 전 세계 인프라 구조물의 근간을 이루는 핵심 재료로, 시간의 흐름, 온도 변화, 습기, 염분, 하중 등 다양한 외부 환경 요인에 지속적으로 노출되며 손상을 받을 수 있다. 대표적으로 균열(Crack), 백태(Efflorescence), 철근 노출(Rebar Exposure)과 같은 손상은 구조물의 내구성과 안정성에 영향을 미치기 때문에, 이를 조기에 탐지하고 유지관리하는 것이 매우 중요하다.

기존의 콘크리트 구조물 손상 진단은 주로 전문가의 육안 점검에 의존해왔으나, 이 방식은 상당한 시간과 비용이 소요되며 진단 결과의 주관성이 크다는 한계가 있다.

이에 따라 최근에는 딥러닝(Deep Learning) 기술을 기반으로 한 자동 분류 시스템이 주목받고 있으며, 특히 합성곱 신경망(Convolutional Neural Network, CNN)을 활용한 손상 유형 분류 모델이 높은 정확도를 보여 구조물 유지관리 분야에 활발히 도입되고 있다. GoogLeNet, ResNet, EfficientNet 등 다양한 구조의 사전 학습된 CNN 모델들이 전이 학습(Transfer Learning) 방식으로 활용되고 있다^{(Kim et al., 2018;} ^{Lee et al., 2018;} ^{Kim et al., 2021;} ^{Sam Rajadurai and Kang, 2021;} ^{Kavitha et al., 2023;} ^{Jeong et al., 2024;} ^{Sohaib et al., 2024;} ^{Yuan et al., 2024)}.

그러나 기존 연구들은 대부분 모델의 분류 정확도 향상에 집중되어 있으며, 모델이 특정 예측을 내린 ‘이유’나 ‘근거’를 설명하려는 시도는 상대적으로 부족하다. 구조물의 안전 진단과 같이 신뢰성이 요구되는 분야에서는 단순히 높은 정확도뿐만 아니라 예측 결과에 대한 명확하고 이해 가능한 근거를 제시하는 것이 필수적이다.

이러한 배경에서 해석 가능한 인공지능(Explainable AI, XAI)의 필요성이 부각되었으며, Grad-CAM(Gradient- weighted Class Activation Mapping), LIME(Local Interpretable Model-agnostic Explanations), SHAP(SHapley Additive exPlanations) 등 다양한 해석 기법이 도입되고 있다^{(Ribeiro et al., 2016;} ^{Lundberg and Lee, 2017;} ^{Selvaraju et al., 2019;} ^{Ding et al., 2022;} ^{Liu and Xu, 2023;} ^{Dou et al., 2024;} ^{Forest et al., 2024;} ^{Saarela and Podgorelec, 2024;} ^{Swarna et al., 2024;} ^{Altaf et al., 2025;} ^{Kang et al., 2025)}.

본 연구에서는 다양한 해석 기법 중 Grad-CAM을 중심으로 분석을 수행하였다. Grad-CAM은 CNN의 합성곱 계층 출력을 이용하여 모델이 주목한 영역을 영상 상에서 시각적으로 표현할 수 있어, 건설⋅토목 분야 연구자와 실무자가 결과를 이해하고 활용하기에 적합하다. LIME이나 SHAP은 개별 특징의 중요도를 설명하는 데 유용하지만, Grad-CAM은 활성화 영역을 직접 시각화하여 손상 위치와 모델 예측 간의 관계를 직관적으로 확인할 수 있다. 이러한 공간적 시각화 특성은 손상 부위의 공간적 연속성(spatial continuity)을 반영하는 데 유리하여, 구조물 손상 진단 분야에 상대적으로 적합한 방법 중 하나로 판단하였다. 또한 Grad-CAM은 다양한 CNN 모델에 손쉽게 적용 가능하며, 그 결과를 Damage Ratio와 연계해 정량적 해석성 지표로 활용할 수 있다는 장점이 있다.

그러나 기존 Grad-CAM 관련 연구는 정성적 시각화에 머물러 있으며, 정량적 해석과 threshold 값 변화 및 모델 구조 차이에 따른 체계적 분석은 부족하다^{(Selvaraju et al., 2019;} ^{Wu et al., 2023;} ^{Forest et al., 2024;} ^{Gipiskis et al., 2024;} ^{Huangfu et al., 2025)}. 에 본 연구에서는 딥러닝 기반 콘크리트 손상 분류 모델에서 Grad-CAM을 활용해 예측 근거를 시각화하고, threshold 기반 이진화를 통해 Damage Ratio를 산출함으로써 모델의 해석 가능성을 정량적으로 평가하였다.

특히 GoogLeNet, ResNet-50, EfficientNet-B0 세 가지 대표 CNN 모델을 대상으로 데이터 수와 Grad-CAM threshold 값을 주요 변수로 설정하여, 성능 지표(훈련 시간, 정확도, F1-score)와 해석성 지표(Damage Ratio)를 각각 분석하고 상관성을 종합적으로 검토하였다. 이를 통해 정확도와 해석성 간의 관계, 모델별 특성, threshold 설정이 해석성에 미치는 영향을 평가하였다. 본 연구 결과는 딥러닝 기반 손상 진단 모델의 신뢰성 확보와 해석성 강화를 위한 기초 자료로 활용될 수 있을 것으로 기대된다.

2. 기존 연구 고찰 및 한계 분석

2.1 CNN 기반 콘크리트 손상 진단

콘크리트 손상 진단을 위한 딥러닝 기반 접근법은 최근 활발히 연구되고 있으며, 특히 CNN 기반 모델이 이미지의 시각적 특성을 효과적으로 학습할 수 있어 주목받고 있다. 사전 학습된 네트워크를 전이 학습으로 적용하면, 적은 수의 손상 이미지 데이터만으로도 높은 정확도와 재현율을 달성할 수 있음이 보고되었다^{(Ali et al., 2021;} ^{Philip et al., 2023)}.

예를 들어, ^{Shomal Zadeh et al.(2023)}은 VGG19, ResNet-50, EfficientNetV2를 활용한 실험에서 균열 탐지(crack detection)에서 높은 정확도와 F1-score를 확인하였다.

CNN 기반 딥러닝 모델은 기존의 영상처리 기반 진단 방법에 비해 자동화 수준이 높고 진단 정확도 또한 우수하여, 구조물 유지관리 분야에서의 실용성이 점차 확대되고 있다.

2.2 해석 가능한 인공지능(XAI)과 Grad-CAM

딥러닝 모델의 의사결정 과정을 설명하고자 다양한 XAI 기법이 제안되어 왔다. 그 중 Grad‑CAM은 CNN의 마지막 합성곱 계층에서 계산된 출력값과 예측 클래스의 gradient를 활용하여, 모델이 예측 과정에서 주목한 이미지 영역을 시각적으로 강조하는 대표적인 방법이다.

^{Selvaraju et al.(2019)}은 Grad‑CAM을 통해 CNN 기반 이미지 분류 및 객체 인식 모델의 시각적 설명이 가능함을 입증하였다. Grad‑CAM은 의료 영상, 자율주행, 구조물 진단 등 시각적 해석이 중요한 분야에서 널리 활용되고 있으며, 최근에는 콘크리트 내구성 평가 및 손상 진단 분야에도 적용 사례가 보고되고 있다^{(Ogunjinmi et al., 2022)}.

2.3 Grad-CAM의 한계와 정량화 시도

대부분의 Grad‑CAM 기반 연구는 정성적 시각화에 그치고 있으며, 특히 콘크리트 손상과 같은 특수 분야에서의 정량적 해석은 아직 미흡한 실정이다. 최근에는 Grad‑CAM++와 LIME을 활용하여 해석 가능성을 강화한 사례가 일부 보고되고 있다. 예를 들어, ^{Swarna et al.(2024)}는 CNN 기반 균열 탐지 과정에서 Grad‑CAM++를 활용해 모델이 주목한 균열 영역을 시각화하고, LIME을 통해 분류 결정에 기여한 이미지 특징을 설명하였다. 또한 ^{Zoubir et al.(2022)}은 구조물 및 도로의 균열 분석에서 Grad‑CAM heatmap의 threshold 기반 이진화 기법을 도입하여, 활성화 영역 내 균열 비율을 산출하고 이를 손상 면적의 정량적 분석에 활용하였다.

그러나 Grad‑CAM heatmap에 대한 threshold 조절을 통해 모델 구조나 손상 유형에 따른 해석성의 차이를 체계적으로 비교⋅분석한 연구는 여전히 부족하다. 특히, 다양한 시각적 특성을 지닌 콘크리트 손상 데이터를 대상으로, Grad‑CAM 이진화에 따른 활성화 영역의 민감도 및 면적 변화를 종합적으로 평가한 연구는 충분히 이루어지지 않았다.

2.4 본 연구의 필요성과 차별성

기존 Grad-CAM 기반 연구는 정성적 시각화에 집중되어 있으며, threshold 변화에 따른 해석성의 정량적 평가와 모델 및 손상 유형 간의 차이를 종합적으로 분석한 사례는 드물다.

본 연구는 이러한 한계를 보완하기 위해 Grad-CAM 결과를 threshold 기반으로 이진화하고, 이를 다양한 CNN 모델과 손상 유형에 적용하여 활성화 영역(Damage Ratio)을 정량적으로 평가하였다. 이러한 체계적 접근은 예측의 신뢰성을 높이는 동시에, 실무에서의 모델 선택과 threshold 설정에 실질적인 기준을 제공할 수 있을 것으로 기대된다.

3. 실험 방법

3.1 사용 프로그램 및 PC 사양

본 연구의 이미지 처리 및 데이터 분석에는 MathWorks사의 MATLAB R2025a 버전을 사용하였다. 전이 학습에는 Deep Learning Toolbox를, GPU 기반 학습 속도 향상을 위해 Parallel Computing Toolbox를 추가로 활용하였다. 학습에 사용된 데스크톱 PC의 주요 사양은 GPU: NVIDIA RTX A5000 24GB, 메모리: DDR5 64GB이며, 상세 사양은 Table 1에 나타내었다.

Table 1. Desktop PC specification

PC parts	Specification
CPU	i9-14900KF
RAM	DDR5 64GB (32GB×2)
GPU	RTX A5000 24GB
STORAGE	SSD 2TB

Fig. 1. Example images of concrete damage

3.2 데이터셋 구성

본 연구에서 사용한 콘크리트 손상 이미지 데이터는 균열(crack), 백태(efflorescence), 철근 노출(rebar)의 세 가지 유형으로 구성되어 있으며, 모든 이미지는 패딩을 포함하여 해상도 640×640 픽셀(pixel)로 통일하였다. 각 손상 유형별로 750장, 1500장, 3000장의 데이터셋을 구성하여, 데이터 수량 변화가 모델의 성능 및 해석성에 미치는 영향을 분석하였다. 전체 데이터는 무작위로 훈련(70%), 검증(15%), 테스트(15%) 세트로 분할하였으며, 사용된 이미지 예시는 Fig. 1에 나타내었다.

3.3 모델 구조 및 전이 학습 설정

본 연구에서는 GoogLeNet, ResNet-50, EfficientNet-B0의 세 가지 CNN 모델을 전이 학습 방식으로 적용하였다. 각 모델은 ImageNet 데이터셋으로 사전 학습된 가중치를 기반으로 하며, 최종 출력층은 본 연구의 세 가지 손상 유형에 맞게 수정하였다. 전이 학습 과정에서는 모델 전체 계층을 대상으로 미세 조정(fine-tuning)을 수행하였다.

세 모델은 전이 학습 기반 CNN의 대표적인 구조군으로, 인셉션형(GoogLeNet), 잔차형(ResNet-50), 효율형(EfficientNet-B0)의 서로 다른 구조적 특성을 지닌다. 이들은 네트워크 깊이, 파라미터 수, 연산 복잡도(GFLOPs)가 상이하여 성능과 해석성 간의 상관관계를 비교하기 위한 대표적 비교 세트로 적합하다. 또한 세 모델은 토목 및 건설 분야의 선행 연구에서 활용 빈도가 높고 신뢰성이 검증된 구조이므로, 기존 문헌과의 직접적인 비교 및 재현이 용이하다. 한편, ResNeXt, ConvNeXt 등 최근 제안된 인코더 기반 CNN 모델은 높은 정확도와 효율성을 보이지만, 연산량과 파라미터 규모가 커 실무 적용 측면에서는 제약이 따를 수 있다. 이에 따라 본 연구는 최신 구조의 제안보다는, 대표적 CNN 모델 간의 성능–해석성 비교를 통해 기초적 기준을 확립하는 것에 초점을 두었다. ResNeXt 및 ConvNeXt와 같은 최신 모델도 해석성 분석 관점에서 추가적인 비교 대상으로 고려할 수 있다.

3.4 하이퍼파라미터 설정

본 연구에서는 실험 조건의 일관성을 유지하고 모델 구조에 따른 성능 차이만을 비교하기 위해 모든 모델에 동일한 하이퍼파라미터를 적용하였다. 서로 다른 학습 조건이 적용될 경우 성능 차이가 하이퍼파라미터 최적화의 영향을 받을 수 있기 때문이다. 이에 따라 최적화 알고리즘은 Adam을 사용하였으며, 학습률(learning rate)은 0.001, Epoch 수는 30, Batch size는 128로 통일하였다. 또한 모든 실험은 동일한 GPU 환경(NVIDIA RTX A5000, 24GB)에서 수행하여 계산 성능의 편차를 최소화하였다.

3.5 Grad-CAM 시각화 및 Threshold 이진화

학습 완료 후 테스트 이미지에 Grad-CAM을 적용하여 예측 근거가 되는 영역을 시각화하였다(Fig. 2(a)). 이후 Grad-CAM 결과에 임계값(threshold) 0.3, 0.5, 0.7을 적용하여 활성 영역을 이진화한 뒤, 이를 원본 이미지 위에 시각적으로 중첩(overlay) 하여 표시하였다(Fig. 2(b)–(d)). 붉은색으로 표시된 영역은 threshold 값 이상으로 활성화된 부분을 의미하며, 임계값이 높아질수록 모델이 높은 확신을 가지는 손상 중심부만 남는 경향을 확인할 수 있다.

본 연구에서 제시한 Damage Ratio는 이러한 이진화된 결과에서 값이 1인 픽셀의 면적을 전체 이미지 면적으로 나눈 비율로 산출하였다.

Fig. 2. Grad-CAM visualization and thresholded binary overlays for rebar damage

3.6 성능 지표 계산

모델의 분류 성능 평가는 훈련 시간(Training time), 정확도(Accuracy), F1-score의 세 가지 지표를 기준으로 수행하였다. 정확도는 전체 예측 중 정답으로 분류된 비율을 의미하며, F1-score는 Precision과 Recall의 조화 평균으로 두 지표 간의 균형을 평가하는 척도이다.

본 연구에서는 각 클래스별로 정확도와 F1-score를 산출한 후, 평균값을 전체 성능의 종합 지표로 활용하였다. 또한 모든 실험 조건(데이터 수, 모델, threshold)에 대해 동일한 평가 기준을 적용하여, 일관된 비교 분석이 가능하도록 하였다.

3.7 반복 실험과 정량적 평가

모든 실험은 동일한 조건에서 3회 반복 수행하였으며, 각 실험의 평균값을 기록하였다. 특히 Damage Ratio는 각 클래스별로 10개 샘플을 개별 산출한 후 평균값을 계산하였다. 이를 통해 모델이 실제 손상 영역을 예측의 근거로 얼마나 활용하는지를 정량적으로 평가하였다. 전체 실험 구성의 요약은 Table 2에 나타내었다.

Table 2. Summary of experimental settings

Item	Value
Damage Types	Crack Efflorescence Rebar exposure
Number of Images	750, 1500, 3000
Model Types	GoogLeNet ResNet-50 EfficientNet-B0
Input Resolution	640 × 640 pixels
Hyperparameters	Epochs: 30 Batch size: 128 Learning rate: 0.001
Threshold	0.3, 0.5, 0.7

4. 결과 및 분석

본 연구에서는 GoogLeNet, ResNet-50, EfficientNet-B0 세 가지 딥러닝 모델을 대상으로 데이터 수(750, 1500, 3000)와 Grad-CAM threshold 값(0.3, 0.5, 0.7)을 변화시키며 실험을 수행하였다. 모델의 분류 성능은 학습 시간, 정확도(Accuracy), F1-score를 기준으로 평가하였고, 해석성은 Grad-CAM 결과로부터 산출한 Damage Ratio를 통해 정량화하였다.

본 장에서는 이러한 실험 결과를 바탕으로, CNN 모델의 분류 성능(4.1–4.2절)과 Grad-CAM 기반 해석성(4.3절)을 서로 독립적인 평가 체계로 구분하여 분석하였다. 성능 지표(Training time, Accuracy, F1-score)는 모델의 학습 효율성과 예측 정확도를 평가하며, 해석성 지표(Damage Ratio)는 Grad-CAM을 이용해 모델의 시각적 판단 근거를 정량적으로 나타낸다. 두 지표는 성격이 상이하지만, 4.4절에서 성능과 해석성 간의 상관관계를 종합적으로 검토하였다.

4.1 학습 시간과 정확도

각 모델과 데이터 수에 따른 학습 시간과 정확도를 Table 3에 나타내었다. 데이터 수가 증가할수록 세 모델 모두에서 정확도와 학습 시간이 함께 증가하는 경향을 보였다. 정확도 측면에서는 EfficientNet-B0가 모든 데이터 수에서 가장 높은 성능을 기록하였으며, GoogLeNet과 ResNet-50은 각각 소폭 낮은 정확도를 보였다.

학습 시간은 GoogLeNet이 가장 짧았으며, ResNet-50, EfficientNet-B0 순으로 길어졌다. 이는 모델의 구조적 복잡성과 관련이 있으며, 구조가 복잡할수록 학습 시간이 비례하여 증가하는 경향을 보였다. 특히 EfficientNet-B0는 가장 높은 정확도를 기록했지만, 연산 비용이 크기 때문에 실시간 처리나 경량화가 요구되는 환경에서는 모델 선택에 있어 주의가 필요하다.

Table 3. Training time and accuracy by model and data number

Model	Data number	Training time (min)	Accuracy (%)
GoogLeNet	750	1.9	90.4
	1,500	4.0	94.2
	3,000	8.1	94.6
ResNet-50	750	4.2	90.6
	1,500	8.7	93.4
	3,000	18.3	94.4
EfficientNet-B0	750	10.9	91.2
	1,500	22.0	93.7
	3,000	45.6	95.2

4.2 F1-score 분석

모델별 F1-score는 Table 4와 Fig. 3에 나타내었다. 본 연구에서는 전체 분류 정확도를 직관적으로 보여주는 Accuracy와, 정밀도와 재현율을 동시에 고려하는 F1-score를 병행하여 제시하였다. 두 지표는 데이터셋이 균형적으로 구성된 경우 유사한 경향을 보이지만, 기존 연구와의 비교 가능성과 보완적 해석을 위해 함께 사용하였다.

데이터 수가 증가할수록 F1-score 역시 전반적으로 향상되었으며, 이는 정확도 증가와 유사한 경향을 보였다. 손상 유형별로는 rebar 클래스에서 가장 높았고, crack과 efflorescence는 상대적으로 낮았다.

특히 efflorescence는 밝기가 높고 반사광에 따라 명암 차이가 크며, 균열이나 표면 오염과 유사한 불규칙 패턴을 포함하는 경우가 많다. 또한 촬영 환경(조도, 습기 등)에 따라 색조가 달라지는 특성이 있어, 다른 손상 유형과 혼동될 가능성이 높다. 이러한 요인들이 복합적으로 작용하여 efflorescence의 분류 성능이 상대적으로 낮게 나타난 것으로 판단된다. 이는 손상 유형에 따라 모델의 분류 성능이 달라질 수 있음을 시사하며, F1-score는 정확도와 함께 중요한 보조 지표로 활용될 수 있다.

본 연구에서는 클래스별 데이터 수를 동일하게 구성했으나, 실제 환경에서는 손상 유형별 데이터가 불균형하게 분포하는 경우가 많다. 따라서 이러한 상황을 직접 반영하지 못한 한계가 있으며, 향후 연구에서는 클래스 불균형 조건에서의 성능 평가와 데이터 증강 기법을 통해 모델의 강건성을 검증할 필요가 있다.

Table 4. F1-scores by model, data number, and damage type

Model	Data number	F1-score
Model	Data number	Crack	Efflore.	Rebar	Average
GoogLeNet	750	0.888	0.900	0.945	0.912
	1,500	0.928	0.921	0.958	0.935
	3,000	0.948	0.939	0.967	0.951
ResNet-50	750	0.894	0.888	0.957	0.913
	1,500	0.934	0.922	0.956	0.937
	3,000	0.939	0.931	0.962	0.944
EfficientNet-B0	750	0.898	0.882	0.950	0.910
	1,500	0.929	0.924	0.964	0.939
	3,000	0.945	0.939	0.971	0.952

Fig. 3. F1-scores by model, data number, and damage type

4.3 Damage ratio 분석 및 threshold 변화의 영향

Damage Ratio는 Grad-CAM 결과의 이진화된 활성화 영역에서 손상 영역의 비율을 정량화한 지표로, 모델이 예측에 근거한 영역의 크기를 평가할 수 있다. 본 연구에서는 모델 구조, 데이터 수, threshold에 따른 Damage Ratio의 변화를 분석하였으며, 그 결과를 Table 5와 Fig. 4에 나타내었다.

Damage Ratio는 활성화 영역의 상대적 비율을 의미하며, threshold 0.3, 0.5, 0.7로 구분하여 계산하였다. 본 연구에서는 Grad-CAM 결과를 threshold 값(0.3, 0.5, 0.7)에 따라 이진화한 후, 각 손상 유형별 활성화 영역의 상대적 비율(Damage Ratio)을 산출하여 모델의 시각적 주목 범위와 판단 경향을 정량적으로 평가하였다. 이때 Damage Ratio가 크다는 것은 모델이 영상 내에서 보다 넓은 특징 영역을 근거로 판단함을 의미하며, 이를 통해 모델의 해석성(Explainability)을 간접적으로 비교하였다. 특히 Grad-CAM threshold 값의 변화에 따른 Damage Ratio의 민감도를 함께 분석함으로써, 모델 구조별 시각적 판단 특성의 일관성과 안정성을 평가하였다.

분석 결과, threshold 값이 증가할수록 Damage Ratio는 전반적으로 감소하는 경향을 보였다. 이는 threshold가 높아질수록 Grad-CAM의 활성화 영역이 더 제한되기 때문이며, 모델의 예측 근거가 보다 국소적인 영역에 집중됨을 의미한다. 이러한 경향은 Grad-CAM 결과를 threshold 값에 따라 시각화한 Fig. 5에서도 확인할 수 있다.

Table 5. Accuracy according to batch size and learning rate (%)

Model	Data number	Threshold	Damage Ratio
Model	Data number	Threshold	Crack	Efflore.	Rebar
GoogLeNet	750	0.3	0.659	0.570	0.442
		0.5	0.420	0.333	0.188
		0.7	0.360	0.261	0.153
	1500	0.3	0.757	0.672	0.616
		0.5	0.669	0.531	0.379
		0.7	0.447	0.330	0.093
	3000	0.3	0.836	0.749	0.570
		0.5	0.505	0.374	0.264
		0.7	0.328	0.213	0.158
ResNet-50	750	0.3	0.121	0.170	0.116
		0.5	0.080	0.081	0.066
		0.7	0.035	0.033	0.033
	1500	0.3	0.162	0.132	0.124
		0.5	0.078	0.085	0.070
		0.7	0.034	0.031	0.029
	3000	0.3	0.143	0.161	0.133
		0.5	0.064	0.072	0.062
		0.7	0.029	0.030	0.027
EfficientNet-B0	750	0.3	0.224	0.270	0.135
		0.5	0.121	0.150	0.084
		0.7	0.065	0.061	0.041
	1500	0.3	0.226	0.198	0.128
		0.5	0.119	0.127	0.077
		0.7	0.055	0.059	0.042
	3000	0.3	0.230	0.225	0.105
		0.5	0.090	0.121	0.069
		0.7	0.046	0.055	0.038

Fig. 4. Damage Ratio Variation by threshold (D: 3000)

모델별로는 GoogLeNet이 가장 높은 Damage Ratio를 기록하였다. 예를 들어, 3000장 데이터에서 threshold 0.3 기준 GoogLeNet은 다른 모델 대비 넓은 활성화 영역을 보였다. 이는 GoogLeNet이 예측 시 상대적으로 넓은 영역을 활용하고 있음을 의미한다. 반면 ResNet-50과 EfficientNet-B0는 Damage Ratio가 상대적으로 낮았다. 모델별 Grad-CAM 시각화 결과는 Fig. 6에 나타내었다.

Fig. 5. Grad-CAM results by threshold (D:3000, Crack)

Fig. 6. Grad-CAM results by model (D:3000, T:0.3)

데이터 수 증가에 따른 Damage Ratio의 변화는 GoogLeNet에서 가장 큰 폭으로 나타났다. 반면 ResNet-50과 EfficientNet-B0는 데이터 수 증가에 따른 변화 폭이 상대적으로 적었다. 손상 유형별로는 crack에서 가장 높은 Damage Ratio가 지속적으로 관찰되었으며, 이어서 efflorescence와 rebar 순이었다. 특히 GoogLeNet의 경우 crack 손상에서 넓은 활성화 영역이 나타난 반면, rebar에서는 상대적으로 좁은 영역이 형성되었다.

종합적으로 Damage Ratio는 threshold, 데이터 수, 모델 구조의 영향을 복합적으로 받으며, 모델 해석성의 중요한 지표로 활용될 수 있음을 확인하였다. 특히 GoogLeNet은 넓은 해석 영역으로 인해 해석성이 높은 반면, EfficientNet-B0는 해석성은 다소 낮지만 높은 정확도를 보여, 성능과 해석성 간의 균형적 접근이 필요함을 시사한다.

본 연구에서는 threshold 0.5에서 해석성과 노이즈 억제 간에 상대적으로 균형 잡힌 결과가 관찰되어 이후 비교⋅분석의 기준값으로 활용하였다. 다만, 이는 절대적인 최적값이라기보다 본 연구 조건에서의 상대적 결과이며, 보다 객관적인 최적 threshold를 도출하기 위해서는 추가적인 통계적 검증이 필요하다.

4.4 성능과 해석성의 상관성

본 연구에서는 모델의 성능 지표(Accuracy, F1-score)와 해석성 지표(Damage Ratio) 간의 상관성을 분석하였으며, 결과를 Table 6과 Table 7에 각각 제시하였다. Table 6은 각 CNN 모델의 분류 성능(Performance metrics)을, Table 7은 Grad-CAM 기반 Damage Ratio를 이용한 해석성(Explainability metrics)을 나타낸다.

Table 6. Performance Comparison of CNN Models (D:3000, T:0.3)

Model	Accuracy (%)	F1-score
GoogLeNet	94.6	0.951
ResNet-50	94.4	0.944
EfficientNet-B0	95.2	0.952

Table 7. Grad-CAM-based interpretability evaluation (D:3000, T:0.3)

Model	Damage Ratio
Model	Crack	Efflore.	Rebar
GoogLeNet	0.836	0.749	0.570
ResNet-50	0.143	0.161	0.133
EfficientNet-B0	0.230	0.225	0.105

분석 결과, 모델의 성능 지표와 해석성 지표 사이에는 명확한 비례 관계가 나타나지 않았다. 예를 들어, EfficientNet-B0는 데이터 수 3000장, threshold 0.3 조건에서 Accuracy 95.2%로 가장 높은 분류 성능을 보였으나, Damage Ratio는 상대적으로 낮았다. 반면 GoogLeNet은 Accuracy 94.6%로 유사한 수준의 분류 성능을 보였지만, Damage Ratio가 더 높아 모델이 상대적으로 넓은 활성화 영역을 활용하는 경향을 나타냈다. 이러한 차이는 구조적 특성에서 기인한 것으로 해석할 수 있다. GoogLeNet은 Inception 구조를 통해 다양한 크기의 합성곱 필터를 병렬로 적용함으로써 넓은 수용 영역을 확보하는 반면, EfficientNet-B0는 Depthwise Separable Convolution과 Squeeze-and-Excitation(SE) 모듈을 적용하여 연산 효율성과 국소적 특징 추출에 집중한다. 이로 인해 GoogLeNet은 시각적으로 넓은 영역을 활성화하는 반면, EfficientNet-B0는 특정 손상 부위에 집중하는 경향을 보인다.

이러한 결과는 모델의 예측 성능이 높다고 해서 반드시 해석성이 높지는 않음을 보여준다. Damage Ratio는 활성화 영역의 상대적 크기를 정량화한 지표일 뿐, 그 자체가 해석성의 우열을 직접적으로 의미하지는 않는다. 다만, Damage Ratio가 클수록 모델이 다양한 시각적 특징을 근거로 삼았을 가능성을 시사하며, heatmap을 통해 제공되는 시각적 정보가 상대적으로 다양해져 일정 부분 해석성과 관련될 수 있다. 손상 유형에 따라서도 그 의미가 달라질 수 있는데, 예를 들어 균열(crack)의 경우 Damage Ratio가 넓게 분포하며 실제 손상 부위와 시각적으로 일치하는 경향이 나타나, 해석성 보완 효과를 기대할 수 있다.

종합하면, 성능과 해석성 간에는 일정한 상충 관계가 존재하며, 모든 지표에서 동시에 우수한 모델은 나타나지 않았다. 따라서 실무 적용 시에는 정확도와 해석성 중 어느 지표를 우선할지에 따라 모델 선택이 달라져야 한다. 성능을 중시할 경우 EfficientNet-B0가, 해석성을 중시할 경우 GoogLeNet이 상대적으로 적합하며, ResNet-50은 본 연구 조건에서는 두 지표 모두 낮아 뚜렷한 장점을 보이지 않았다.

본 연구는 Damage Ratio를 하나의 정량적 보조 지표로 활용하여 모델 간 차이를 비교하였다. 향후에는 Grad-CAM 활성화 영역과 실제 손상 라벨 간의 일치도를 IoU(Intersection over Union)와 같은 지표로 함께 평가하여 해석성 검증의 타당성을 강화할 필요가 있다. 특히 IoU는 활성화 영역과 실제 손상 위치 간의 겹침 정도를 정량화할 수 있어, Damage Ratio와 병행할 경우 해석성 평가의 신뢰성을 높일 수 있으며, threshold 변화에 따른 IoU 민감도 분석을 통해 모델 해석 결과의 안정성과 일관성을 추가적으로 검증할 수 있을 것이다.

4.5 종합 비교 및 모델 선택 기준

본 연구에서는 GoogLeNet, ResNet-50, EfficientNet-B0 세 가지 모델의 성능(Accuracy, F1-score), 해석성(Damage Ratio), 학습 시간을 비교하였다.

성능 측면에서는 EfficientNet-B0가 가장 우수하였고, 해석성에서는 GoogLeNet이 가장 넓은 활성화 영역과 높은 Damage Ratio를 기록하였다. 학습 시간은 GoogLeNet이 가장 짧고, EfficientNet-B0가 가장 길었다. 따라서 정확도와 F1-score를 최우선으로 할 경우 EfficientNet-B0가, 해석성을 중시할 경우 GoogLeNet이 적합하다. ResNet-50은 정확도와 해석성 모두 상대적으로 낮아, 다른 두 모델에 비해 뚜렷한 장점이 나타나지 않았다. 실시간 처리나 빠른 추론이 요구되는 환경에서는 연산 속도가 빠른 GoogLeNet이, 성능 극대화가 필요한 환경에서는 EfficientNet-B0가 유리하다.

모델 선택은 성능, 해석성, 학습 시간 등 실무적 요구에 따른 우선순위에 따라 결정되어야 하며, 본 연구의 비교 분석은 이러한 선택 기준을 제시하는 데 의의가 있다.

5. 결 론

본 연구는 전이 학습 기반 CNN 모델(GoogLeNet, ResNet-50, EfficientNet-B0)을 활용하여 콘크리트 손상 분류를 수행하고, Grad-CAM을 적용해 모델 해석성을 정량적으로 평가하였다. 특히 Damage Ratio를 해석성 지표로 활용하고, threshold 변화에 따른 활성화 영역의 민감도를 체계적으로 분석하였다.

실험 결과, 정확도가 높은 모델이 반드시 해석성이 높은 것은 아니며, 성능과 해석성 간에는 상충 관계가 존재함을 확인하였다. EfficientNet-B0는 가장 높은 정확도를 기록했으나 Damage Ratio는 가장 낮았고, GoogLeNet은 약간 낮은 정확도였지만 넓은 활성화 영역을 확보하였다.

손상 유형별로도 성능과 해석성에 차이가 나타났다. 철근 노출 손상은 시각적 특징이 뚜렷하여 높은 성능과 해석성을 보였으며, 반면 백태는 구분도가 낮아 성능 편차가 크게 나타났다.

결론적으로, 본 연구는 딥러닝 기반 구조물 손상 진단에서 성능과 해석성의 균형적 고려가 필요함을 강조하며, 실무 적용 시 모델 선택 및 threshold 설정 기준에 대한 기초적 근거를 제시하였다. 향후 연구에서는 Grad-CAM 기반 영역 분할 고도화, 실제 구조물 적용, 사용자 기반 해석성 검증 등 보다 실용적인 확장이 필요하다.

또한 threshold 0.5에서 해석성과 노이즈 억제 간의 균형이 관찰되었으나, 이는 절대적 최적값이 아니라 본 연구 조건에서의 상대적 결과이다. 따라서 향후 연구에서는 ROC curve, 민감도–특이도 분석, IoU 기반 검증 등 다양한 지표를 활용하여 threshold 설정의 객관성을 강화할 필요가 있다.

감사의 글

이 논문은 2025년 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(RS-2021-NR060132).

이 연구는 과학기술정보통신부의 재원으로 한국지능정보사회진흥원의 지원을 받아 구축된 “건물 균열 탐지 이미지”을 활용하여 수행된 연구입니다. 본 연구에 활용된 데이터는 AI 허브(aihub.or.kr)에서 다운로드 받으실 수 있습니다.

References

Ali, L., Alnajjar, F., Jassmi, H.A., Gocho, M., Khan, W., Serhani, M.A. (2021), Performance evaluation of deep CNN-based crack detection and localization techniques for concrete structures, Sensors, 21(5), 1688

Altaf, A., Mehmood, A., Filograno, M.L., Alharbi, S., Iqbal, J. (2025), Deployable deep learning models for crack detection: efficieny, interpretability, and severity estimation, Buildings, 15(18), 3362

Ding, W., A-Basset, M., Hawash, H., M.Ali, A. (2022), Explainability of artificial interlligence methods, applications and challenges: A comprehensive survey, Information Sciences, 615, 238-292.

Dou, Y.T., Dong, G.Q., Li, X. (2024), Automatic identification of GPR targets on roads based on CNN and Grad-CAM, Applied Geophysics, 22, 488-498.

Forest, F., Porta, H., Tuia, D., Fink, O. (2024), From classification to segmentation with explainable AI: A study on crack detection and growth monitoring, Automation in Construction, 165, 105497

Gipiskis, R., Tsai, C.W., Kurasova, O. (2024), Explainable AI (XAI) in image segmentation in medicine, industry, and beyond: A survey, ICT Express, 10, 1331-1354.

Huangfu, Z., Jiao, Y., Wei, F., Shi, G., Dong, H. (2025), A unified approach for weakly supervised crack detection via affine transformation and pseudo label refinement, Scientific Reports, 15, 8673

Jeong, H.P., Song, H.M., Choi, Y.C. (2024), Real-time road surface recognition and black ice prevention system for asphalt concrete pavements using image analysis, Journal of the Korea Institute for Structural Maintenance and Inspection, 28(1), 82-89.

Kang, W., Li, D.S., Zhang, Y. (2025), Interpretable research on the health monitoring network of prefabricated building beam-column joints, Structural Health Monitoring

Kavitha, S., Baskaran, K.R., Dhanapriya, B. (2023), Explainable AI for detecting fissures on concrete surfaces using transfer learning, 376-384.

Kim, A.R., Kim, D.H., Byun, Y.S., Lee, S.W. (2018), Crack detection of concrete structure using deep learning and image processing method in geotechnical engineering, Journal of the Korean Geotechnical Society, 34(12), 145-154.

Kim, B.H., Cho, S.J., Chae, H.J., Kim, H.K., Kang, J.H. (2021), Development of crack detection system for highway tunnels using imaging device and deep learning, Journal of the Korea Institute for Structural Maintenance and Inspection, 25(4), 65-74.

Lee, Y.I., Kim, B.H., Cho, S.J. (2018), Image-based spalling detection of concrete structures using deep learning, Journal of the Korea Concrete Institute, 30(1), 91-99.

Liu, C., Xu, B. (2023), Weakly-supervised structural surface crack detection algorithm based on class activation map and superpixel segmentation, Advances in Bridge Engineering, 4, 27

Lundberg, S.M., Lee, S.I. (2017), A unified approach interpreting model predictions, 1-10.

Ogunjinmi, P.D., Park, S.S., Kim, B.R., Lee, D.E. (2022), Rapid post-earthquake structural damage assessment using convolutional neural networks and transfer learning, Sensors, 22(9), 3471

Philip, R.E., Andrushia, A.D., Nammalvar, A., Gurupatham, B.G.A., Roy, K. (2023), A comparative study on crack detection in concrete walls using transfer learning techniques, Journal of Composites Sciences, 7(4), 169

Ribeiro, M.T., Singh, S., Guestrin, C. (2016), “Why Should I Trust You?”: Expalining the predictions of any classifier, 1135-1144.

Saarela, M., Podgorelec, V. (2024), Recent applications of explainable AI (XAI): A systematic literature review, Applied Sciences, 14(19), 8884

Sam Rajadurai, R., Kang, S.T. (2021), Automated vision-based crack detection on concrete surfaces using deep learning, Applied sciences, 11(11), 5229

Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D. (2019), Grad-CAM: Visual explanations from deep networks via gradient-based localization, International Journal of Computer Vision, 128, 336-359.

Shomal Zadeh, S., Aalipour birgani, S., Khorshidi, M., Kooban, F. (2023), Concrete surface crack detection with convolutional-based deep learning models, International Journal of Novel Research in Civil Structural and Earth Sciences, 10(3), 25-35.

Sohaib, M., Hasan, M.J., Hasan, M.A., Zheng, Z. (2024), A robust self-supervised approach for fine-grained crack detection in concrete structures, Scientific Reports, 14, 12646

Swarna, R.A., Hossain, M.M., Khatun, Mst.R., Rahman, M.M., Munir, A. (2024), Concrete crack detection and segregation: A feature fusion, crack isolation, and explainable AI-Based approach, Journal of Imaging, 10(9), 215

Wu, J., He, Y., Xu, C., Jia, X., Huang, Y., Chen, Q., Huang, C., Eslamlou, A.D., Huang, S. (2023), Interpretability analysis of convolutional neural networks for crack detection, Buildings, 13(12), 3095

Yuan, Q., Shi, Y., Li, M. (2024), A review of computer vision-based crack detection methods in civil infrastructure: progress and challenges, Remote Sensing, 16(16), 2910

Zoubir, H., Rguig, M., Aroussi, M.E., Chehri, A., Saadane, R., Jeon, G. (2022), Concrete bridge defects identification and localization based on classification deep convolutional neural networks and transfer learning, Remote Sensing, 14(19), 4882

Article Information (continued)

[

Research article

]

Keywords :

Keywords

Keyword :

Convolutional neural network

Keyword :

Concrete damage classification

Keyword :

Damage ratio

Keyword :

Explainable AI

Keyword :

Grad-CAM

핵심용어 :

핵심용어

Keyword :

합성곱 신경망

Keyword :

콘크리트 손상 분류

Keyword :

손상 비율

Keyword :

해석 가능한 인공지능

Keyword :

Grad-CAM

This display is generated from NISO JATS XML with jats-style.xsl. The XSLT engine is Saxonica.

JKSMIJournal of the Korea Institute forStructural Maintenance and Inspection

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.

Journal Search

Journal XML

Journal Information

Analysis of Performance and Interpretability in CNN-Based Concrete Damage Classification using Grad-CAM

초록

Abstract

Keywords

핵심용어

1. 서 론

2. 기존 연구 고찰 및 한계 분석

2.1 CNN 기반 콘크리트 손상 진단

2.2 해석 가능한 인공지능(XAI)과 Grad-CAM

2.3 Grad-CAM의 한계와 정량화 시도

2.4 본 연구의 필요성과 차별성

3. 실험 방법

3.1 사용 프로그램 및 PC 사양

Table 1. Desktop PC specification

Fig. 1. Example images of concrete damage

3.2 데이터셋 구성

3.3 모델 구조 및 전이 학습 설정

3.4 하이퍼파라미터 설정

3.5 Grad-CAM 시각화 및 Threshold 이진화

Fig. 2. Grad-CAM visualization and thresholded binary overlays for rebar damage

3.6 성능 지표 계산

3.7 반복 실험과 정량적 평가

Table 2. Summary of experimental settings

4. 결과 및 분석

4.1 학습 시간과 정확도

Table 3. Training time and accuracy by model and data number

4.2 F1-score 분석

Table 4. F1-scores by model, data number, and damage type

Fig. 3. F1-scores by model, data number, and damage type

4.3 Damage ratio 분석 및 threshold 변화의 영향

Table 5. Accuracy according to batch size and learning rate (%)

Fig. 4. Damage Ratio Variation by threshold (D: 3000)

Fig. 5. Grad-CAM results by threshold (D:3000, Crack)

Fig. 6. Grad-CAM results by model (D:3000, T:0.3)

4.4 성능과 해석성의 상관성

Table 6. Performance Comparison of CNN Models (D:3000, T:0.3)

Table 7. Grad-CAM-based interpretability evaluation (D:3000, T:0.3)

4.5 종합 비교 및 모델 선택 기준

5. 결 론

감사의 글

References

Article Information (continued)

Keywords

핵심용어

JKSMIJournal of the Korea Institute for
Structural Maintenance and Inspection