신현규
(Hyunkyu Shin)
1*
Copyright © 2025 by The Korea institute for Structural Maintenance and Inspection
Keywords
Crack detection, Artificial intelligence, Deep learning, Lightweight model, Building facade inspection
핵심용어
균열 탐지, 인공지능, 딥러닝, 경량화 모델, 건축물 외관 점검
1. 서 론
1.1 연구의 배경
건축물 외관에 나타나는 균열은 구조물의 안정성과 내구성에 직접적인 영향을 미치는 대표적인 손상 유형으로, 이를 조기에 발견하고 정확히 진단하는 것은
건축물 유지관리 관점에서 매우 중요하다(Hwang and Ahn, 2008). 건축물 유지관리의 대표적인 업무 중 하나인 구조물 외관 점검은 숙련된 전문가가 구조물의 외관을 육안으로 점검함으로써 구조물의 균열 발생 여부 등을
조사하고 건물의 상태를 평가하는 활동이다. 이러한 인력 중심의 점검 방식은 전통적으로 널리 활용되어왔지만, 많은 인력과 시간이 소요될 뿐만 아니라
점검 결과의 일관성과 객관성이 떨어질 수 있다는 구조적인 한계를 지니고 있어, 결과적으로 건축물의 부실 점검으로 이어질 우려가 제기되고 있다 (Ha and Park, 2001; Park, 2021; Hwang et al. 2022). 이에 기존 점검 방식의 한계를 극복하고 구조물의 상태를 보다 효율적이고 객관적으로 평가할 수 있는 새로운 접근 방식에 대한 필요성이 대두되고 있으며,
이러한 요구에 부응하여 관련 기술의 개발도 꾸준히 이루어지고 있는 실정이다.
최근에는 인공지능 기술, 특히 딥러닝(Deep Learning)을 기반으로 한 영상 인식 및 분석 기법이 빠르게 발전함에 따라, 이를 활용해 구조물
외관 상태를 보다 효율적으로 점검하려는 시도가 활발히 이루어지고 있다. 여러 선행 연구에서는 영상 처리 기술을 활용한 구조물 외관의 균열 탐지 가능성을
보여주었으며, 여기에 딥러닝 기술을 접목함으로써 구조물 외관 점검에 대한 새로운 대안을 제시하였다 (Zhuang et al. 2025).
특히, 딥러닝 기술 중 CNN(Convolutional Neural Network) 기반 모델은 영상 속 균열의 특징을 자동으로 학습하고 이를 정밀하게
인식할 수 있어, 구조물 외관에 나타난 균열을 구분하고 탐지하는데 매우 적합한 방식으로 평가받고 있다. 대표적으로 ResNet(He, et al. 2016)이나 DenseNet(Huang et al. 2017)과 같은 고성능 분류 모델은 복잡한 배경에서도 미세한 균열을 인식하여 손상의 유형을 효과적으로 구분할 수 있으며, YOLO(Redmon et al. 2016), Faster R-CNN(Ren et al. 2015)등 객체 탐지 모델은 균열의 위치와 영역을 정확하게 추정할 수 있어, 실제 건축물 외관 손상인식에 응용 가능성이 높은 모델로 각광받고 있다. 그러나
이러한 고정밀 모델은 높은 균열 탐지 정확도를 제공하는 반면, 연산 복잡도가 높고 대용량의 GPU 메모리 및 고사양 하드웨어를 요구하는 단점이 있다.
실제 구조물 점검 현장에서 드론, 스마트폰, IoT 센서 등 경량 디바이스 기반의 시스템을 활용하는 데에는, 연산 효율성과 실시간 처리 속도 측면에서
고성능 모델의 적용에는 한계로 작용한다(Phung et al. 2019). 특히, 드론의 경우 비행시간의 제한으로 균열 인식 처리 속도의 실시간성이 요구되고 있으며, 대규모 구조물의 손상 위치를 빠르게 식별하고 정보를
제공해야 하는 상황에서도 실시간 탐지 성능의 중요성이 강조되고 있다(Jiang and Zhang, 2020).
또한, 원거리에서 촬영된 고해상도의 이미지를 처리하는 경우, 한 장의 이미지를 처리하는데 많은 컴퓨팅 자원이 요구되고 처리속도가 감소하는 경우가 존재한다.
이러한 한계를 극복하기 위해 고해상도 이미지를 분할하여 다수의 이미지로 나눈 후 순차적으로 처리해 다시 병합하는 전,후처리 과정이 필요한 경우가 존재하는데,
이처럼 한 장의 이미지에서 여러 번의 이미지 처리 프로세싱이 요구되는 경우, 모델 처리속도의 중요성이 강조될 수 있다.
게다가 점차 소형 기기의 보급이 확대되면서 저사양 디바이스에서의 인공지능 모델 활용이 증가할 것으로 분석되면서 저용량, 고효율 인공지능 모델에 대한
개발 필요성이 제시되고 있다. 이에 따라 복잡한 구조를 기반으로 한 고성능 모델의 제한적인 활용을 극복하기 위한 목적으로서, 최근에는 모델 경량화에
대한 연구가 활발히 이루어지고 있다. 관련 모델로는 MobileNet(Howard et al. 2017), EfficientNet(Tan et al. 2019) 등 CNN기반 경량 딥러닝 모델과Vision Transformer 기반 Real Time Detection Transformer(RT-DETR)(Zaho et al. 2024)이 개발되고 있으며, 성능 또한 점차 향상되는 것을 확인할 수 있다. 하지만 이와 같은 경량화된 모델들의 성능 평가는 공개데이터인 COCO dataset(Lin et al. 2014), Pascal VOC dataset(Everingham, et al. 2010) 등 벤치마크 데이터세트를 기준으로 평가한 것으로, 균열(Crack) 데이터를 대상으로 모델 복잡도 또는 처리 속도 대비 성능 측면에서 어느 정도의
정확도와 효율성을 확보하고 있는지에 대한 실증적 비교 연구는 아직 충분히 이루어지지 않은 실정이다. 특히, 모델 처리 속도 대비 성능을 평가하는 것은
다양한 사양을 지닌 기기에서 활용되는 인공지능의 추론모델이 사용자가 요구하는 처리 속도와 인식 성능을 충족하는지 판단하는데 필요한 지표로 활용될 수
있다.
이에 본 연구는 다양한 딥러닝기반 이미지 객체 탐지 모델을 대상으로 구조물 외관에 나타난 균열을 얼마나 정확하고 신속하게 탐지할 수 있는지를 비교⋅분석하고자
한다. 구체적으로는 각 모델의 탐지 정확도, 처리 속도, 모델 크기 등의 지표를 종합적으로 분석함으로써, 실제 현장에서의 적용 가능성과 효율성을 평가하고,
모델 처리 속도 대비 탐지 정확도를 나타내는 지표를 제안함으로써, 딥러닝 기반 균열 탐지 모델의 실용적 활용을 위한 방향성을 제시하고자 한다.
1.2 연구의 목적 및 범위
본 연구의 목적은 구조물에 발생한 균열 탐지에 최적화된 딥러닝기반 영상 처리 모델의 효용성을 평가하고, 다양한 딥러닝 모델의 정확도(accuracy)와
처리 속도(inference speed)를 정량적으로 비교⋅분석하는 데 있다. 특히, 제한된 연산 자원 및 실시간 분석이 요구되는 현장 환경에서도
적용 가능한 경량화 모델(lightweight model)의 활용 가능성을 검토하고, 고성능 모델 대비 어느 정도의 성능 저하를 감수하면서도 실용적인
대안을 제시할 수 있는지를 분석한다. 이러한 비교를 통해, 단순히 높은 정확도를 추구하는 기존 연구의 한계를 극복하고, 속도와 정확도의 균형(trade-off)이라는
현실적인 조건 속에서 최적의 모델을 제안하고자 한다.
2. 기존 연구
그동안 영상처리 기반 균열 탐지 연구는 과거 육안 검사로만 이루어진 점검 방식의 단점을 극복하기 위하여 발전되어 왔다. 디지털 영상처리 연구 초기에는
엣지 검출(Sobel, Canny 등), 히스토그램 분석, 텍스처 기반 필터링(Gabor filter, Hough Transform 등)과 같은 영상처리
알고리즘이 활용되었다(Abdel-Qader, et al. 2003). 이러한 기법은 균열의 명암 대비와 형상 특징을 이용해 비교적 간단한 조건에서 균열을 식별할 수 있었으나, 배경 노이즈, 조명 변화, 복잡한 표면
질감 등의 환경 요인에 취약하다는 한계를 지녔다. 이후 머신러닝 기반 이미지 분석 기법이 도입되면서, SVM(Support Vector Machine),
KNN(K-Nearest Neighbors), 랜덤 포레스트 등 지도 학습 기법을 이용한 이미지 분류 방식이 등장하였다 (Shi et al. 2016). 하지만 머신러닝 기법들은 이미지의 특징을 사람이 직접 설계해야 하며, 복잡한 균열 형태나 배경 노이즈 등 다양한 변수에 민감하여 분류 성능에 한계가
있었다.
이러한 한계점을 보완하기 위해 이미지 속 특징을 자동으로 추출하고 분석하는데 특화된 합성곱 신경망(Convolutional Neural Network,
CNN) 기반의 딥러닝 기법이 도입되었다. 이미지 분석에 CNN 기법의 적용은 이미지 속 균열 형상에 대한 분류 및 탐지 성능과 정확도를 크게 향상시키는데
기여하였고, 딥러닝 모델을 활용해 균열 영상을 분석하는 다양한 연구들이 수행되었다(Cha et al. 2017).
Philip et al. (Philip et al. 2023)의 연구에서는 CNN기반의 다양한 분류 모델을 활용하여 콘크리트 구조물에 균열이 존재하는지 여부를 판독하였으며, 실험에 활용된 VGG16, VGG19,
ResNet50, MobileNet, Xception 모델의 정확도가 학습단계에서 99%를 상회하는 성능을 보여주었다. Golding et al.
(Golding et al. 2022)은 40,000장의 균열 이미지를 활용하여 균열 이미지를 학습하였으며, 분류 성능이 F1-score 기준99.33%를 달성하였다. 이외 연구에서도
CNN기반 균열 인식 모델이 콘크리트 균열을 탐지하는데 충분한 성능을 보유하고 있음을 실험적으로 입증하였다(Ali, et al. 2021). 이처럼 CNN 모델을 활용한 균열 이미지를 분류하는 연구가 활발히 이루어졌으며, 동시에 균열 인식 성능도 향상되었다. 이후 CNN 모델은 이미지
속 특징 분석과 함께 특정 물체(Object)의 위치 정보를 함께 추적하여 객체의 위치(localization)도 함께 탐지하는 연구로 발전되었다.
Sekar and Perumal(2021)은 딥러닝 기반 물체 인식 모델인Faster-RCNN 모델을 도로 노면의 균열 탐지에 적용하였으며, 19,300장의 균열 이미지를 학습하여 97.97%의
인식 정확도를 보여주었으며, Yu et al.(2021)는 Faster-RCNN보다 물체 인식 속도측면에서 장점이 있는 You only look once(YOLO)모델을 활용하여 1000x1000 이미지
크기 기준 119FPS와 0.976 mAP(mean Average Precision)를 달성하였다.
한편, 이미지 분석분야에서 CNN 모델보다 더 높은 성능을 보여주며 주목받고 있는 Visual Transformer(ViT) 모델을 활용하는 연구도
수행되고 있다. 특히, Shahin et al. (2024)의 연구에서는 ViT 모델을 콘크리트 균열 이미지 분류에 활용하여99.9%의 성능을 구현하면서, 균열 탐지 모델의 새로운 기법을 적용해 다양한 환경에서
안정적인 성능을 발휘할 수 있는 연구가 꾸준히 이루어지고 있음을 보여주었다.
이처럼 구조물의 균열을 정확하게 인식 및 탐지를 위한 목적으로 그동안 다양한 모델들이 개발되고 실험적으로 성능을 입증하였다. 그러나 이와 같은 연구들은
대부분 정확도 중심의 성능 평가에 집중되어 있으며, 실제 현장에서 요구되는 실시간 처리성, 경량화, 연산 자원 효율성에 대한 고려는 상대적으로 부족하는
점이 연구의 한계점으로 지적되고 있다. 대부분의 연구가 Precision, Recall, F1-score, mAP 등 정밀도 지표만으로 모델의 성능을
평가하고 있으며, 처리 속도(FPS), 추론 시간, 모델 크기, 파라미터 수와 같은 운영 효율성 측면은 충분히 검토되지 않고 있다. 특히, YOLOv11나
EfficientDet 등의 최신 모델들은 성능이 우수하지만, 대개 고성능 GPU에서만 원활하게 작동하며, 모바일 디바이스나 엣지 환경에 적합한 경량화
모델의 실질적인 비교⋅분석 연구는 매우 제한적이다. 경량화 모델은 실시간 적용 가능성을 제시하지만, 이들이 기존 고정밀 모델과 비교해 어느 정도 성능을
유지할 수 있는지는 명확히 규명되지 않았다.
이에 따라 본 연구는 기존 연구의 정확도 중심 분석 한계를 보완하고, 정확도와 처리 속도 간의 trade-off 관계를 정량적으로 평가함으로써, 실제
응용 환경에 적합한 모델 선택 기준을 제시하는 것을 목적으로 한다. 특히 고성능 모델과 경량화 모델을 동일한 조건에서 비교함으로써, 현장 적용에 필요한속도-정확도
균형(trade-off)에 기반한 실용적 접근을 시도하고자 한다.
3. 방법론
본 연구는 구조물 외관에 발생한 균열을 딥러닝 모델을 활용하여 자동으로 인식하고, 이들 모델의 정확도와 처리 속도를 비교 분석함으로써, 실제 응용
가능성이 높은 경량화 모델의 효용성을 평가하는 것을 목표로 한다. 이를 위해 공개 균열 이미지 데이터셋을 기반으로 모델을 학습하고, 동일한 실험 조건에서
다양한 모델의 성능을 측정하였다.
3.1 데이터셋 및 전처리
실험에는 구조물 표면의 균열 이미지로 구성된 데이터셋(Fig. 1)인 Public crack detection dataset (NTU, 2023)이 사용되었다. 실험에 활용된 균열 이미지는 콘크리트 구조물 탐지를 위한 이미지 데이터셋으로, 다양한 균열 패턴을 포함하고 있으며, Mosaic 데이터
증강기법이 활용되어 약 8,000장의 이미지로 구성되어 있다. 데이터는 학습(5,998장), 검증(1,500장), 테스트(500장)으로 구성되어 있으며,
균열 영역에 바운딩 박스(Bouding box) 라벨이 포함되어 있어, 균열 탐지 모델의 성능 평가에 적합하다. 이미지는 실험 모델에 적합한 해상도인
640 x 640 크기로 구성하였다.
Fig. 1 Public crack detection data sample (NTU, 2023).
3.2 실험 모델
본 연구에서는 딥러닝 기반 이미지 분류 및 객체 탐지 모델 중, 균열 인식에 널리 사용되거나 경량화된 구조로 현장 적용 가능성이 높은 모델들을 선별하여
실험을 진행하였다. 실험에 활용된 모델은 Faster R-CNN, EfficientDet, YOLOv11 그리고 ViT기반의 RT-DETR을 대상으로
성능을 비교하였다. Faster-RCNN 모델은 연산량이 높은 대신 높은 성능을 보여준 대표적인 모델로 평가받았으며, 이후 경량화와 정확도를 모두
확보하기 위해 개선된 EfficientDet 모델 그리고 YOLO 시리즈의 최신모델 마지막으로, Transfer Model을 기반으로 하며 연산속도를
개선한 RT-DETR을 비교모델로 선정하였다.
3.3 실험 환경
모델 학습 및 평가에는 NVIDIA RTX 3090 (24GB) GPU가 장착된 워크스테이션을 사용하였다. 각 모델은 배치 크기, 학습률, 에폭 수
등의 하이퍼파라미터는 Table 1에 제시된 설정 값에 따라 실험하였다. 특히 추론 속도 측정은 단일 이미지 처리시간(밀리초)을 기준으로 3회 반복 측정하여 평균값을 사용하였다.
Table 1 Parameters for deep learning model training
|
Trianing Parameters
|
Value
|
|
batch_size
|
16
|
|
Image_size
|
640
|
|
epochs
|
200
|
|
learning rate
|
0.00001
|
3.4 성능 평가 지표
모델 평가에는 두 가지 주요 관점, 즉 정확도(accuracy)와 효율성(efficiency)을 기준으로 다음과 같은 지표를 사용하였다. 정확도 측면에서는
Precision, Recall, F1-score, mAP를 사용하여 모델이 균열을 얼마나 정확히 인식하는지를 평가하였다. 효율성 측면에서는 추론
시간(Inference Time), FPS (Frames Per Second), 모델 크기(Model Size, MB), 총 파라미터 수(Parameters)를
측정하였다. 이를 통해 각 모델이 가진 정확도와 처리 속도 간의 trade-off를 정량적으로 분석하고, 실제 응용 환경에서의 활용 가능성을 평가하였다.
4. 실험 결과
본 장에서는 다양한 딥러닝 기반 모델들을 활용하여 구조물 외관의 균열을 자동 인식하는 실험 결과를 제시하고, 각 모델의 정확도와 효율성을 정량적으로
비교⋅분석하였다. 특히 고성능 모델과 경량화 모델 간의 성능 차이, 처리 속도, 자원 소모 등의 지표를 중심으로 실제 응용 가능성을 평가하였다.
4.1 정확도 비교
실험에 활용된 모델은 동일한 데이터셋 및 학습 조건 하에 훈련되었으며, 테스트셋에 대해 Precision, Recall, F1-score, mAP(mean
Average Precision)등의 정확도 지표를 통해 성능을 평가하였다. 각 모델의 정확도 지표는 아래 수식을 바탕으로 산출하였다.
여기서, 정밀도(Precision)는 모델이 정답이라고 예측한 것 중 실제로 정답인 비율을 의미하며, 재현율(Recall)은 실제로 정답인 데이터
중 모델이 정답으로 찾아낸 비율을 의미한다. 수식에 사용된 True Positive는 실제로 정답인 데이터를 모델이 올바르게 정답으로 예측한 개수를
뜻하고, False Positive는 실제로는 오답인데 모델이 잘못 정답이라고 예측한 개수를 의미한다. False Negative는 실제로 정답이지만
모델이 놓친, 즉 오답으로 분류한 개수를 뜻한다.
따라서, Precision 지표가 높을수록 모델의 예측 신뢰도가 높음을 의미하며, Recall 값이 높다는 것은 모델이 놓치지 않고 실제 정답을 잘
찾아낸다는 것으로, 모델의 민감도를 평가하는 척도로 활용된다. F1-score는 Precision과 Recall의 균형을 나타내는 조화평균(Harmonic
Mean)으로 모델의 전반적인 성능을 종합적으로 평가하는 지표로 활용된다.
평균 정밀도(Average Precision, AP)는 한 클래스(class)에 대해 다양한 임계값(threshold)에서의 Precision–Recall
관계를 고려하여 계산한 면적값으로, 수식에서 사용된 Pc(R)은 특정 클래스(c)에 대한 Recall(R)에 따른 Precision 함수이다. 즉,
Recall 값이 0에서 1까지 변할 때 각 지점에서의 Precision 값을 적분하여, Precision–Recall 곡선 전체 아래 면적을 구한
것이다. 이 적분 값은 모델이 다양한 예측 기준(confidence threshold)에서 Precision과 Recall 사이의 균형을 얼마나 잘
유지하는지를 종합적으로 표현한다.
마지막으로 mAP는 여러 클래스의 AP 값을 평균내어 모델의 전체적인 성능을 평가한 지표로, 여기서 N은 전체 클래스의 개수이며, mAP는 각 클래스의
APc값을 평균한 값으로 본 연구에서는 1개의 클래스(Crack)를 평가하므로, mAP와 APc는 동일한 값이 산출된다.
Table 2는 실험에 사용된 주요 모델들의 정확도 결과를 요약한 것이다. 실험 결과, YOLOv11x 모델이 전체 모델 중 가장 높은 정확도를 기록하였으며,
정밀도(Precision) 97.0%, 재현율(Recall) 92.6%, F1-score 97.8%, mAP@0.5:0.95 84.8%로 모든 지표에서
우수한 성능을 보였다. 또한, YOLOv11l 및 YOLOv11m 역시 각각 F1-score 97.2%, mAP 84.2% 및 82.1%를 달성하며
높은 정확도를 유지하였다.
Table 2 Crack detection accuracy index by model
|
Model
|
Precision [%]
|
Recall [%]
|
F1-score [%]
|
mAP@0.5:0.95 [%]
|
|
Yolov11n
|
95.3
|
90.9
|
96.4
|
77.6
|
|
Yolov11s
|
95.5
|
93.0
|
96.9
|
81.4
|
|
Yolov11m
|
96.3
|
92.8
|
97.2
|
82.1
|
|
Yolov11l
|
96.5
|
92.5
|
97.2
|
84.2
|
|
Yolov11x
|
97.0
|
92.6
|
97.8
|
84.8
|
|
Faster-RCNN
|
94.8
|
96.7
|
95.7
|
72.3
|
|
EfficientDet
|
95.1
|
99.4
|
97.2
|
69.9
|
|
RT-DETR-l
|
95.1
|
90.4
|
94.8
|
71.9
|
|
RT-DETR-x
|
93.5
|
90.2
|
95.2
|
73.7
|
반면, Faster R-CNN과 EfficientDet은 재현율이 각각 96.7%, 99.4%로 매우 높았지만, mAP는 각각 72.3%, 67.7%로
YOLO 계열 모델에 비해 상대적으로 낮은 정확도를 보였다. 이는 객체를 놓치지 않고 검출하는 능력은 우수하나, 경계 박스의 정밀도에서 한계를 보였음을
시사한다.
4.2 처리 속도 및 효율성 분석
각 모델의 효율성은 추론 시간(Inference time), FPS(Frames per second), 모델 파라미터 수(Number of parameters)를
중심으로 평가하였다. Table 3은 주요 모델들의 처리 속도와 연산 자원 요구를 비교한 결과이다.
YOLOv11 시리즈는 모델 크기에 따라 성능과 효율성 간 뚜렷한 차이를 보였다. 가장 경량화된 모델인 YOLOv11n은 1.9ms의 추론 시간과
526.3 FPS로 매우 높은 속도를 기록하였으며, 파라미터 수는 2.6M 수준으로 연산 자원이 제한된 환경에서도 원활한 사용이 가능하다. 반면,
YOLOv11x는 가장 높은 정확도를 제공하지만, 12.8ms의 추론 시간, 56.8M의 파라미터 수로 인해 경량화 모델에 비해 약 6배 높은 연산
부담을 요구하는 것으로 나타났다. 한편, Faster R-CNN은 7.1ms, 140.1 FPS, 41.3M의 파라미터로 중간 수준의 연산 성능을
보였으나, mAP는 72.3%로 실험에 포함된 모델 중 정확도 측면에서도 높은 성능을 보이지 못했다. 이는 구조적으로 연산량이 많고 정확도도 최신
모델에 비해 상대적으로 낮아, 실용적인 응용 측면에서는 경쟁력이 떨어지는 것으로 판단된다. EfficientDet과 RT-DETR 기반 모델들은 처리
속도와 자원 사용 면에서 중간 정도의 균형을 보였으며, 정확도와 효율성 간의 절충이 필요한 환경에서도 효과적인 대안으로 활용하기 어려울 것으로 판단된다.
결과적으로, YOLOv11n 및 YOLOv11s는 뛰어난 속도와 가벼운 연산량으로 실시간 처리 및 저사양 디바이스에 적합하며, YOLOv11x는 정확도를
최우선으로 고려해야 하는 환경에 적합한 모델로 판단된다.
Table 3 Comparative efficiency metrics by model
|
Model
|
Inference [ms]
|
FPS
|
Param [M]
|
|
Yolov11n
|
1.9
|
526.3
|
2.582
|
|
Yolov11s
|
2.6
|
384.6
|
9.413
|
|
Yolov11m
|
5.1
|
196.0
|
20.030
|
|
Yolov11l
|
6.6
|
151.5
|
25.280
|
|
Yolov11x
|
12.8
|
78.1
|
56.828
|
|
Faster-RCNN
|
7.1
|
140.1
|
41.348
|
|
EfficientDet
|
8.1
|
122.9
|
19.978
|
|
RT-DETR-l
|
7.9
|
126.6
|
31.98
|
|
RT-DETR-x
|
12.9
|
77.5
|
65.47
|
4.3 TO-score를 활용한 속도–정확도 Trade-off 정량 분석
실제 응용 환경에서는 모델의 정확도뿐만 아니라, 처리 속도와 연산 자원 소모 또한 중요한 고려 요소이다. 특히 드론 기반 구조물 점검, 모바일 환경에서의
현장 분석 등 자원이 제한된 환경에서는 정확도와 속도 간 균형 있는 선택이 필수적이다. 이에 본 연구에서는 모델 선택의 정량적 판단을 지원하기 위해,
정확도와 속도를 동시에 고려한 종합 평가 지표인 TO-score (Trade-off score)를 제안하였다. 본 지표는 학습된 균열 탐지 모델의
성능을 나타내는 mAP와 이미지 처리 속도를 나타내는 Inference Time을 고려한 지표로써, 다양한 인공지능 모델의 효율성을 하나의 정량적인
지표로 평가하기 위한 목적으로 구성하였으며, 다음식 (6)와 같이 정의하였다.
여기서, mAP@0.5:0.95는 IoU 0.5부터 0.95까지 0.05 간격으로 평균한 평균 정밀도(mean Average Precision),
Inference Time은 단일 이미지 처리에 소요되는 시간(ms)이다. 이 지표는 정확도가 높고 추론 시간이 짧을수록 높은 값을 가지며, 하나의
수치로 모델의 속도–정확도 효율성을 직관적으로 평가할 수 있는 장점을 가진다.
Table 4는 TO-score와 모델별 파라미터의 수를 정리한 표이며, 모델별 성능을 효율성 지표와 정확도 지표를 함께 고려하여 Fig. 2에 그래프로 시각화하였다. 그래프는 TO-score 분석을 시각적으로 표현한 산점도로, x축은 추론 시간(ms), y축은 mAP@0.5:0.95(%),
버블의 크기는 각 모델의 파라미터 수를 나타 내며, 색상은 TO-score의 높고 낮음을 의미한다. 그래프에서 확인할 수 있듯이, YOLOv11n과
YOLOv11s는 좌측 상단에 위치하여 빠른 추론 시간과 높은 정확도를 모두 달성했으며, 붉은색(TO-score 고점)으로 표시되었다. 반면, YOLOv11x,
RT-DETR-x, Faster R-CNN은 상대적으로 오른쪽 아래에 위치하여 처리 속도가 느리고 효율성이 낮은 모델군으로 분류된다.
Fig. 2 mAP versus inference time for various object detection models. Color encodes TO-score, and bubble size indicates model complexity (parameters).
Table 4 To-Score and Parameters by Model
|
Model
|
TO-Score [mAP/Time]
|
Param [M]
|
|
Yolov11n
|
40.84
|
2.582
|
|
Yolov11s
|
31.31
|
9.413
|
|
Yolov11m
|
16.10
|
20.030
|
|
Yolov11l
|
12.76
|
25.280
|
|
Yolov11x
|
6.63
|
56.828
|
|
Faster-RCNN
|
10.18
|
41.348
|
|
EfficientDet
|
8.63
|
19.978
|
|
RT-DETR-l
|
9.10
|
31.98
|
|
RT-DETR-x
|
5.71
|
65.47
|
특히 YOLOv11 계열 모델들은 전체적으로 높은 TO-score를 기록하며, 모바일 기기나 경량 디바이스에서 실시간 응용에 적합한 성능을 나타낼
수 있음을 확인하였다. 결론적으로, 본 연구에서 제안한 TO-score는 다양한 모델 간 속도–정확도 간의 Trade-off를 정량적으로 평가할 수
있는 실용적인 지표로서, 제한된 연산 환경에서 적합한 모델을 선별하는 데 유용한 지표가 될 수 있을 것으로 기대한다.
5. 결 론
본 연구는 구조물 외관에 발생한 균열을 자동으로 인식하기 위한 다양한 딥러닝 기반 모델의 성능을 비교⋅분석하고, 실시간 적용 가능성을 평가하고자 하였다.
특히 기존의 정확도 중심 평가 방식에서 벗어나, 정확도(Accuracy)와 처리 속도(Inference Time)를 통합적으로 고려할 수 있는 TO-score
(Trade-off Score)를 제안하여, 실제 응용 환경에서의 모델 선택 기준을 정량적으로 제시하였다.
실험 결과, YOLOv11n, YOLOv11s, YOLOv11m과 같은 경량화 모델들은 비교적 낮은 파라미터 수와 짧은 추론 시간을 바탕으로 높은
TO-score를 기록하였으며, 실시간 처리 및 자원 제약 환경에서의 적용 가능성을 입증하였다. 특히 YOLOv11n은 1.9ms의 추론 시간과 77.6%의
정확도를 통해 가장 높은 TO-score(40.84) 를 기록하며, 속도와 정확도 모두에서 최상의 효율성을 보였다.
반면, 대형 고정밀 모델들은 상대적으로 높은 정확도를 기록했지만, 추론 시간이 길고 연산 자원 요구가 커 실시간 응용에는 부적합한 것으로 나타났다.
예를 들어, Yolov11x는 84.8%의 정확도를 보였음에도 불구하고 TO-score는 6.63에 그쳤다.
결론적으로, TO-score는 단순한 정확도 중심의 성능 비교를 넘어, 실제 응용 환경에서 요구되는 속도, 정확도, 연산 자원 간의 Trade-off를
정량적으로 평가할 수 있는 실용적인 지표이다. 본 연구는 TO-score를 통해 인공지능 기반 구조물 점검 시스템 등 자원이 제한된 환경에 인공지능
모델을 선별하는 지표를 제공함으로써, 딥러닝 모델의 현장 적용 효용성을 높이는 데 기여할 수 있을 것으로 기대된다.
다만 본 연구에서는 딥러닝 기반 영상처리 모델을 균열 인식에 활용하는데 있어, 사용자 입장에서의 적합한 처리속도와 정확성을 제시하는데에는 분명한 한계가
존재하며, 디바이스 사양에 따라 처리 속도가 달라질 수 있어 이를 고려한 후속 연구가 필요하다. 그러므로, 향후 연구에서는 다양한 기기 및 사용환경에
따라 달라질 수 있는 모델 처리속도에 대하여 사용자 관점에서의 사용성능을 분석하는 것이 중요하다. 이를 위하여 실제 드론이나 경량 디바이스와 같은
제한된 하드웨어 환경에서 인공지능 모델의 성능을 실험하고, 실시간 균열 인식 성능과 응답 속도와 같은 실질적 운영 지표를 분석하는 것이 요구된다.
추후 연구를 통해 사용자의 인공지능 기술 활용성을 평가하고, 인공지능 기반 균열 탐지 기술을 드론이나 경량 디바이스와 결합하여 구조물 유지관리 전반을
효율화하는 연구로 확장할 수 있을 것으로 기대된다.
감사의 글
This work was supported by the National Research Foundation of Korea (NRF) grant funded
by the Korean government (NRF-2021R1I1A1A01059736).
References
Hwang, J. H., An, S. S. (2008), An Improvement of the State Assessment for Concrete
Floor Slab by Damage Type Breakdown, Journal of The Korea Institute for Structural
Maintenance and Inspection, 12(2), 139-148.

Ha, M. H., Park, J. S. (2010), Estimation of National Loss Expenses to Insufficient
Safety Inspection and Precision Safety Diagnosis, Journal of The Korea Institute for
Structural Maintenance and Inspection, 14(6), 246-253.

Park, J. W. (2021), Introduction to Evaluation System on Facilities Safety Inspection
and Flux activity to prevent Bad Safety Inspection for Apartment Buildings, Journal
of The Korea Institute for Structural Maintenance and Inspection, 25(4), 64-71.

Hwang, S. J., Kim, J. H., Yoon, J. H., Lee, S. H. (2022), A Study on the Problems
of Exterior Safety Inspection of Facilities Using Drone, Proceedings of the 2022 Architectural
Institute of Korea Fall Conference, 42(2), 658

Zhuang, H., Cheng, Y., Zhou, M., Yang, Z. (2025), Deep learning for surface crack
detection in civil engineering: A comprehensive review, Measurement, 116908

He, K., Zhang, X., Ren, S., Sun, J. (2016), Deep residual learning for image recognition,
Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.

Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K. Q. (2017), Densely connected
convolutional networks, Proceedings of the IEEE conference on computer vision and
pattern recognition, 4700-4708.

Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016), You only look once: Unified,
real-time object detection, In Proceedings of the IEEE conference on computer vision
and pattern recognition, 779-788.

Ren, S., He, K., Girshick, R., Sun, J. (2015), Faster r-cnn: Towards real-time object
detection with region proposal networks, Advances in neural information processing
systems, 28

Phung, M., Duong, T. H. D., Quang, P. H. (2019), System architecture for real-time
surface inspection using multiple UAVs, IEEE Systems Journal, 14(2), 2925-2936.

Jiang, S., Zhang, J. (2020), Real-time crack assessment using deep neural networks
with wall-climbing unmanned aerial system, Computer-Aided Civil and Infrastructure
Engineering, 35, 549-564.

Howard, A. G. (2017), Mobilenets: Efficient convolutional neural networks for mobile
vision applications, arXiv preprint arXiv:1704.04861

Tan, M., Le, Q. (2019), Efficientnet: Rethinking model scaling for convolutional neural
networks, In International Conference on Machine Learning, 6105-6114.

Zhao, Y., Lv, W., Xu, S., Wei, J., Wang, G., Dang, Q., Chen, J. (2024), Detrs beat
yolos on real-time object detection, In Proceedings of the IEEE/CVF conference on
computer vision and pattern recognition, 16965-16974.

Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Zitnick, C.
L. (2014), Microsoft coco: Common objects in context, In European Conference on Computer
Vision, 740-755.

Everingham, M., Van Gool, L., Williams, C. K., Winn, J., Zisserman, A. (2010), The
pascal visual object classes (voc) challenge, International journal of computer vision,
88(2), 303-338.

Abdel-Qader, I., Abudayyeh, O., Kelly, M. E. (2003), Analysis of edge-detection techniques
for crack identification in bridges, Journal of Computing in Civil Engineering, 17(4),
255-263.

Shi, Y., Cui, L., Qi, Z., Meng, F., Chen, Z. (2016), Automatic road crack detection
using random structured forests, IEEE Transactions on Intelligent Transportation Systems,
17(12), 3434-3445.

Cha, Y. J., Choi, W., Büyüköztürk, O. (2017), Deep learning‐based crack damage detection
using convolutional neural networks, Computer‐Aided Civil and Infrastructure Engineering,
32(5), 361-378.

Philip, R. E., Andrushia, A. D., Nammalvar, A., Gurupatham, B. G. A., Roy, K. (2023),
A comparative study on crack detection in concrete walls using transfer learning techniques,
Journal of Composites Science, 7(4), 169

Golding, V. P., Gharineiat, Z., Munawar, H. S., Ullah, F. (2022), Crack detection
in concrete structures using deep learning, Sustainability, 14(13), 8117

Ali, L. (2021), Performance evaluation of deep cnn-based crack detection and localization
techniques for concrete structures, Sensors, 21, 1688

Sekar, A., Perumal, V. (2021), Automatic road crack detection and classification using
multi-tasking faster RCNN, Journal of Intelligent & Fuzzy Systems, 41(6), 6615-6628.

Yu, Z., Shen, Y., Shen, C. (2021), A real-time detection approach for bridge cracks
based on YOLOv4-FPM, Automation in Construction, 122, 103514

Shahin, M., Chen, F. F., Maghanaki, M., Hosseinzadeh, A., Zand, N., Khodadadi Koodiani,
H. (2024), Improving the concrete crack detection process via a hybrid visual transformer
algorithm, Sensors, 24(10), 3247

(2023), Public crack detection dataset, Roboflow
