Mobile QR Code QR CODE

Journal of the Korea Concrete Institute

J Korea Inst. Struct. Maint. Insp.
  • Indexed by
  • Korea Citation Index (KCI)

  1. 학생회원, 서울시립대학교 건축공학과 석사과정
  2. 정회원, 서울시립대학교 건축공학과 박사후연구원
  3. 정회원, 서울시립대학교 건축공학과 박사과정
  4. 정회원, 서울시립대학교 건축공학과 스마트시티융합전공 교수, 교신저자



화재 탐지, 욜로, 스테레오 비전, 자율 주행 로봇
Fire detection, Yolo, Stereo vision, Autonomous driving robot

1. 서 론

최근 전 세계적으로 도시의 스마트화와 고밀도화가 진행됨에 따라, 건축물의 안전성 확보가 더욱 중요한 이슈로 부각되고 있다. 이러한 환경 속에서 화재는 심각한 인명 피해 및 재산 피해를 초래할 수 있는 주요 위협 요인이 될 수 있기 때문에 초기 화재 탐지의 필요성도 높아지고 있다(Talaat and ZainEldin, 2023).

국내 건설 현장에서 화재 발생으로 인한 사고는 매년 지속적으로 발생되고 있으며, 이에 따라 인명 피해 및 경제적 손실이 누적되고 있다. 국가화재정보시스템 화재통계에 보고된 바에 의하면 2015∼2022년 사이의 건설 공사 종류별 화재 사고 사망자 비율은 물류창고가 37%로 가장 높게 나타났으며, 화재 원인으로는 부주의가 78%로 가장 높은 비율을 차지한 것으로 나타났다(National Fire Agency, 2024). 이는 대형 건설 현장에서 부주의 및 관리자의 부재로 인하여 화재가 발생할 가능성이 높다는 것을 의미한다. 따라서, 화재 사고로 인한 피해를 최소화하기 위해서는 광범위한 시공 현장에서 관리자 부재 상황은 물론, 관리자의 주의가 상대적으로 낮은 시간대나 사각지대에서도 화재를 조기에 탐지할 수 있는 기술이 필요하다.

인공지능을 활용한 이미지 기반 화재 탐지 시스템은 기존의 센서 기반 화재 감지 장치보다 더 신속하고 광범위하게 화재를 탐지할 수 있을 뿐만 아니라, 여러 환경에서 적용할 수 있다. 이미지 기반 화재 탐지 시스템은 온도, 불꽃, 패턴 등을 실시간으로 분석하여 화재를 탐지함으로써 화재 피해를 최소화할 수 있다. 이러한 이유로 최근에는 자동화된 화재 탐지 기술에 대한 수요가 지속적으로 증가하고 있으며, 인공지능 기술을 활용한 이미지 기반 화재 탐지에 관한 다양한 연구가 수행되어 왔다(Fengju and Mohammad, 2019). Kumar et al.(2022)는 건설 현장에서 화재 및 안전 장비의 착용 유무를 판단하고자 불, 사람, 헬멧을 착용한 사람, 안전조끼, 소화기 및 안전 고글에 해당하는 6개의 클래스에 대해 You Only Look Once (YOLO)v4를 이용해 학습 및 검증하는 연구를 수행하였다. Ann and Ki(2023)은 건설 현장에서 화재 발생 위험 여부를 조기에 판단하기 위해 불꽃과 화재에 취약한 물질인 스티로폼, 우레탄 폼에 대한 이미지를 YOLOv5로 학습 및 검증하는 연구를 수행하였다. Ko et al.(2014)는 두 개의 카메라를 이용해 스테레오 비전 기술을 접목해 화재 탐지, 거리 도출 및 3D 복원을 진행하였으며, 검출된 화재의 위치를 바탕으로 물을 분사해 화재를 진압하는 시스템 개발에 관한 연구를 수행하였다.

이처럼 딥러닝을 활용한 이미지 기반 화재 탐지에 관한 많은 연구가 이루어졌으나, 대다수의 선행연구에서는 고정된 카메라에 의존하여 적용 가능한 범위에 적지 않은 한계가 있었다. 따라서, 이 연구에서는 카메라가 설치된 자율주행 로봇을 활용하여 이러한 한계점을 극복하고자 하였다. 또한, 객체 탐지(Object detection) 및 개별 분할(Instance segmentation) 딥러닝 학습 모델 및 스테레오 비전 기술을 활용하여 화재의 발생 여부 및 위치를 파악하는 알고리즘을 개발 및 검증하고자 하였다. 실제 불과 연기가 포함된 이미지를 기반으로 딥러닝 모델을 학습 및 검증하였으며, 거리 측정 실험을 통하여 알고리즘의 성능을 평가하였다. 또한, 로봇의 시뮬레이션 및 실제 주행을 통하여 주행 알고리즘을 테스트하였다.

2. 실시간 이미지 처리 알고리즘

2.1 YOLO

합성곱 신경망 (Convolutional neural networks, CNN)은 이미지 처리 및 객체 인식 분야에서 활용하는 딥러닝 신경망 구조이다. 이미지의 3차원 데이터 구조를 고려한 신경망으로, 데이터 구조를 유지하며 다음 층 (Layer)으로 정보를 전달하는 특징을 지닌다. Fig. 1(a)에 나타낸 바와 같이, 합성곱 신경망은 합성곱 연산과 Rectified linear unit, ReLU 활성화 함수 및 풀링 (Pooling)을 거친 층들을 여러 겹 쌓아 특징맵 (Feature map)을 생성한다. 생성된 특징맵은 최종적으로 완전 연결신경망을 거쳐 객체 탐지 및 인식과 같은 작업에 활용된다. 합성곱 신경망을 활용한 이미지 내의 객체 탐지 알고리즘은 n-stage detector 구조로 구성할 수 있으며, 일반적으로 1-stage detector 및 2-stage detector가 주로 활용된다. Fig. 1(b)에 나타낸 바와 같이, 전자는 이미지 전체에 대한 특징들을 한 번에 추출하여 객체를 검출하는 반면, 후자의 경우엔 이미지 내에서 검출 대상이 있을 가능성이 높은 영역을 탐색하는 선행과정을 거치는 특징이 있다. 이와 같은 방식의 차이로 인해, 2-stage detector는 일반적으로 높은 정확도를 제공하는 반면, 1-stage detector는 빠른 속도를 특징으로 한다(Zou et al., 2023). 이 연구에서는 실시간으로 변화하는 로봇의 위치 정보와 객체 검출 결과를 통합적으로 활용하고자, 1-stage detector의 대표 알고리즘인 YOLO를 사용하였다.

Fig. 1 Schematic of CNN

../../Resources/ksm/jksmi.2025.29.5.66/fig1.png

YOLO는 Redmon et al.(2016)에 의해 처음 제안되었으며, 현재는 Ultralytics에서 다양한 버전으로 제공하고 있다. YOLO는 아키텍처 (Architecture)의 변화, 백본 (Backbone)의 구성 및 앵커 박스 (Anchor box) 유무 등 여러 변화를 거치며 지속적으로 정확도 및 탐색속도가 향상되고 있다(Terven et al., 2023). 이 연구에서는 실시간 객체 탐지에 적합한 학습 모델을 파악하고자 YOLO의 다양한 버전(v3, v5, v6, v8, v9, v10) 중 각 버전에서 가장 파라미터 수가 적은 객체 탐지 모델들을 선택하여 예비 학습을 진행하였다. 이미지 2,953장에 대해 Train : Test : Validation=8 : 1 : 1 로 구분하여 데이터 세트 (Dataset)을 구성하였으며, 학습 횟수 (Epochs)는 300회 및 배치 크기 (Batch size)는 16으로 설정하여 학습을 수행하였다. 예비 학습은 YOLO의 다양한 버전별 백본에 따른 속도 비교를 목적으로 수행되었으며, 사용된 이미지들은 오픈 데이터 플랫폼인 Roboflow에서 수집되었다. 해당 데이터 세트의 모든 이미지는 실내⋅외 환경에서 발생한 다양한 화재로 구성되었으며, 이에 따라 학습은 불에 대한 단일클래스로 진행되었다. Fig. 2는 학습된 YOLO 모델 버전에 따른 화재 탐지 속도를 비교한 결과를 나타낸 것이며, 화재 탐지는 동일한 화재 동영상에 대하여 수행하였다. Table 1에 나타낸 것과 같이, 해당 환경에서의 검출 속도 평균값은 모델 v3, v5, v6, v8, v9 및 v10에 대하여 각각 29.5 ms, 9.9 ms, 8.5 ms, 9.3 ms, 20.4 ms, 12.3 ms로 나타났다. GPU 환경에서 v9 및 v10의 검출 속도가 이전 버전들보다 느리게 나타난 것은 기존 연구 결과 (Tariq and Javed, 2025)와도 일치하는 것으로 나타났다. YOLOv6의 검출 속도가 가장 빠른 것으로 나타났지만, YOLOv6은 객체 탐지 기능만 지원하고 있다는 한계가 있기 때문에 이 연구에서는 개별 분할 기능이 존재하는 YOLOv8-seg을 학습에 활용하였다. 여기서, 객체 분할 기능이란 검출된 객체 (Object)의 내부 영역을 분할 마스킹 (Masking) 해주는 컴퓨터 비전 기술이며, 이는 후술할 스테레오 기술에서 거리를 도출할 관심 영역으로 사용된다. YOLOv8-seg 모델은 n, s, m, l 및 x로 모델의 크기(작은 순)에 따라 분류되며, 모든 모델에 대해 같은 개별 분할 이미지 데이터 세트로 동일하게 학습하여 성능을 비교하였다.

Fig. 2 Detection speed comparison of YOLO versions

../../Resources/ksm/jksmi.2025.29.5.66/fig2.png

Table 1 System and software environment

Name

Version

GPU

NVIDIA GeForce RTX 3060

CUDA

12.6

Torch

2.0.1

Python

3.11.4

학습된 모델의 검출 결과는 True positive (TP), False positive (FP), True negative (TN) 및 False negative (FN)의 네 가지 유형으로 분류할 수 있다. 이들을 조합하여 정밀도 (Precision) 및 재현율 (Recall)을 정의하며 각각 Eqs. (1)(2)로 계산된다. 정밀도-재현율 곡선의 내부 면적은 Average precision (AP)로 정의되며, 특정 임곗값에서 학습 모델의 성능을 평가할 수 있는 지표이다. 특히, 임곗값으로 사용한 Intersection of union (IoU)은 Eq. (3)과 같이 실제 정답에 해당되는 영역과 학습된 모델이 예측한 영역의 교집합을 합집합으로 나누어 계산할 수 있다. 해당 값에 따라 mAP50(IoU=0.5)과 mAP50∼95(IoU=0.5∼0.95를 0.05 간격으로 평균)의 값을 산출할 수 있다. 이 연구에서는 모델의 성능을 파악하는 평가지표로 정밀도, 재현율, mAP를 모두 사용하였다.

(1)
$Precision=\dfrac{TP}{TP+FP}$
(2)
${Recall}=\dfrac{{TP}}{{TP}+{FN}}$
(3)
${IoU}=\dfrac{Area\; of \;Intersection}{Area\; of\;Union}$

Table 2는 모델 학습에 사용된 파라미터들을 정리하여 나타내었다. 본 학습에 사용된 이미지 데이터 세트 또한 Roboflow 플랫폼을 통하여 모자이크 증강이 적용된 이미지로 구성하였다. 모자이크 증강기법은 여러 이미지를 무작위로 선택 및 배치하여 하나의 이미지로 생성하는 기법이며, 이는 학습 데이터의 다양성과 복잡도를 높여 과적합의 위험을 줄이는 효과를 나타낸다(Kodors et al., 2024). 또한, 상대적으로 작은 객체에 대해 효과적이고 안정적인 학습 결과를 줄 수 있는 기법으로 알려져 있다(Nisa, 2025). 이 연구에서는 화재 크기의 다양성을 반영하기 위하여 해당 기법이 적용된 이미지들로 데이터 세트를 구축하였으며, 실제 학습에 사용된 예시 이미지를 Fig. 3에 나타내었다.

Fig. 3 Mosaic argumentation example

../../Resources/ksm/jksmi.2025.29.5.66/fig3.png

Table 2 YOLOv8-seg model train parameters

Parameters

Values

Epochs

300

Batch size

16

Train images

15,386 (80%)

Validation images

1,923 (10%)

Test images

1,923 (10%)

Total images

19,232

최종 데이터 세트는 불과 연기를 포함하는 이미지와 유사 색상으로 인한 오탐을 줄이고자 난로 및 소화기 등과 같은 이미지 및 일반 이미지들을 포함하였으며, 전제 이미지 중 불이 포함된 이미지는 약 60% (11,511 장), 연기가 포함된 이미지는 약 50% (9,555 장)에 해당한다. 또한, 아무런 객체가 포함되지 않는 배경에 해당하는 이미지는 약 32% (6,206 장)에 해당한다. Fig. 4는 YOLOv8-seg 모델의 버전별 성능과 검출 속도 비교 결과를 나타낸 것이다. n과 s 버전을 제외한 나머지 3가지 버전(m, l, x)은 mAP50∼95를 제외한 모든 평가지표에서 0.8 이상의 우수한 성능을 보였다. 검출 속도에서는 n, s, m 에 해당하는 3가지 버전이 모두 20 ms 이하인 우수한 검출 속도를 보였다. 따라서, 예측 성능과 검출 속도를 모두 고려하여 YOLOv8m-seg 모델을 최종 모델로 선정하였으며, 이 모델을 활용하여 실시간 화재 탐지 알고리즘을 개발하였다.

Fig. 4 Performance comparison of YOLOv8-seg versions

../../Resources/ksm/jksmi.2025.29.5.66/fig4.png

Fig. 5는 최종 학습 모델의 검증용 데이터 세트에 대한 학습 횟수에 따른 성능 지표를 나타낸 것이다. 또한, 각 클래스에 대한 경계 상자(Bounding box, B) 및 분할(Mask, M)에 대한 개별 성능을 Table 3에 정리하여 나타내었으며, 마지막 학습 횟수의 모델로 테스트 세트에 대해 정밀도, 재현율, mAP50 및 mAP50∼95이 각각 0.96, 0.89, 0.94 및 0.79로 나타났다. 본 학습 결과를 바탕으로, 데이터 세트에 대한 과적합 여부를 판단하기 위하여 5-fold 교차 검증 기법을 수행하였으며, 각 데이터 세트에 대한 학습 결과를 Table 4에 제시하였다. 결과적으로, 모든 모델은 유사한 성능 평가지표를 나타내었다.

Fig. 5 Performance metrics of trained model

../../Resources/ksm/jksmi.2025.29.5.66/fig5.png

Table 3 YOLOv8m-seg performance on fire and smoke

Fire (B)

Smoke (B)

Fire (M)

Smoke (M)

Precision

0.95

0.96

0.96

0.97

Recall

0.87

0.88

0.88

0.89

mAP50

0.93

0.93

0.93

0.93

mAP50~95

0.82

0.84

0.72

0.77

Table 4 YOLOv8m-seg performance on 5-fold cross validation

Fold 1

Fold 2

Fold 3

Fold 4

Fold 5

Mean

Precision

0.96

0.92

0.93

0.93

0.94

0.94

Recall

0.89

0.91

0.88

0.91

0.90

0.90

mAP50

0.94

0.94

0.94

0.95

0.95

0.94

mAP50~95

0.79

0.81

0.82

0.83

0.83

0.82

최종 학습 모델을 기존 선행연구에서 제안된 다양한 모델들의 성능과 비교함으로써 그 유효성을 평가해 볼 수 있을 것이다. Table 5에 나타난 바와 같이, 기존 YOLO 기반의 연구들은 주로 객체 탐지에 초점을 두어 수행되어 왔다. 개별 분할의 경우, 픽셀 단위 평가에서 객체 탐지 모델에 비하여 다소 낮은 성능을 보였으며, 분할에 특화된 U-Net 알고리즘과 비교하였을 때도 성능이 일부 낮게 나타났다. 반면, 2-stage detector의 대표 알고리즘인 R-CNN 계열 모델들과는 유사한 성능을 보였다. 이 연구에서는 속도적 효율성과 실시간 처리 가능성을 고려하여 YOLO 모델을 적용하였으며, 개별 분할 내의 영역을 활용하여 화재의 거리를 추정하고자 YOLO-seg 모델을 활용하였다.

Table 5 Evaluation of trained model with previous studies

Authors

Model

Precision

Recall

Data size

Classes

Objective

Abdusalomov et al.(2021)

YOLOv3

0.98

0.99

9,200

Fire

Detection

Avazov et al.(2021)

YOLOv4

0.98

0.99

37,600

Fire

Detection

Wang et al.(2022)

YOLOv5

0.95

0.78

20,000

Smoke

Detection

Talaat et al.(2023)

YOLOv8

0.97

0.96

26,520

Fire/Smoke

Detection

Gaun et al.(2022)

MaskSU R-CNN

0.92

0.89

8,000

Fire

Detection/ Segmentation

Pimpalkar ea al.(2024)

FR-CNN

0.75

1

3,974

Fire

Detection

Lopez-Alanis et al.(2025)

Fuzzy rule based segmentation

0.82

0.88

500

Fire

Segmentation

Zou et al.(2025)

U-Net

0.97

0.96

3,300

Fire

Segmentation

Proposed

YOLOv8m-seg

0.96

0.89

19,232

Fire/Smoke

Detection/ Segmentation

2.2 Stereo vision

스테레오 비전이란 두 개의 카메라를 이용하여 카메라와 해당 물체 사이의 거리를 알아내는 컴퓨터 비전 기술이다. Fig. 6에 나타낸 바와 같이 전제 좌표계에서 어떠한 물체 $P$가 $P(x,\: y,\: z)$에 존재할 때, 두 카메라 위치를 원점으로 하는 로컬 좌표계 $P_{l}$, $P_{r}$에 따라 생기는 두 이미지의 $x$축 좌표의 차이를 시차 (disparity, $d$)로 정의한다. 삼각형 닮음비를 통해 $P$까지의 거리 $Z$는 Eq. (4)를 통해 도출할 수 있다. 여기서, $f$는 카메라의 초점거리 (Focal length), $T_{x}$는 두 카메라 간의 거리 (baseline)이다. 거리를 추정할 때, $f$와 $T_{x}$는 카메라의 세팅에 따라 고정된 파라미터인 데 비해, 시차의 값이 주요 변수이기 때문에 이를 정확히 추정하는 스테레오 매칭 방식이 중요하다.

(4)
$Z=\dfrac{f T_{x}}{d}$

Fig. 6 Basic architecture of stereo vision

../../Resources/ksm/jksmi.2025.29.5.66/fig6.png

스테레오 매칭은 크게 Local method와 Global method로 구분되며, 사용되는 대표적인 비용함수는 Sum of absolute difference ($SAD$)와 Sum of squared difference ($SSD$)가 있으며, 이는 각각 Eqs. (5)(6)으로 산출할 수 있다. 여기서, $(u,\: v)$는 이미지 내 픽셀의 좌표이며, $W(u,\: v)$는 $(u,\: v)$를 중심으로 하는 일정 크기의 주변부 픽셀의 강도이다.

(5)
$SAD(u,\: v,\: d)=\sum(\left | W_{l}(u,\: v)-W_{r}(u-d,\: v)\right |)$
(6)
$SSD(u,\: v,\: d)=\sum(W_{l}(u,\: v)-W_{r}(u-d,\: v))^{2}$

시차를 산정할 때, 비용함수가 결과에 미치는 영향보다 매칭 방식이 정확도에 미치는 경향이 큰 것으로 알려져 있다 (Hirschmuller and Daniel, 2007). Local method는 Global method보다 컴퓨터 연산량이 적어 속도가 빠른 장점이 있지만, 정확도가 상대적으로 낮은 단점이 있다 (Denial and Richard, 2002). Hirschmuller(2008)는 각각의 매칭 방법의 단점을 보완하고자 Semi global matching (SGM) 방법을 제시하였으며, 간단히 요약하면 다음과 같다.

시차의 범위 D를 정한 후, 비용함수를 통해 초기 비용으로 W(이미지 폭) $\times$ H(이미지 높이) $\times$ D 크기의 시차 볼륨을 채운다.

$P_{1}$, $P_{2}$에 해당하는 페널티를 부여하여 재귀적으로 이미지의 각 방향에 대해 경로 비용을 계산한다.

모든 방향에 대한 경로 비용의 합으로 총비용을 계산하고 총비용이 최소가 되는 시차값을 픽셀별로 계산한다.

이 연구에서는 해당 알고리즘과 Block matching (BM) 알고리즘을 결합한 OpenCV의 Semi global block matching (SGBM) 알고리즘을 활용하였다. BM 알고리즘이란 두 이미지 내에서 블록 형태를 가지는 일정 크기의 영역 (Window)의 유사도를 Eq. (4) 및 Eq. (5)와 같은 비용함수를 활용하여 평가하고, 유사도가 가장 높은 윈도우 간의 시차를 도출하는 알고리즘이다. SGBM은 앞서 설명한 SGM 기법을 기반으로 하되, 픽셀 단위가 아닌 일정 영역 단위로 비용을 계산 및 누적하며, OpenCV에서 구현된 버전은 시차의 범위 및 영역 크기 등을 조정할 수 있는 하이퍼파라미터를 추가로 제공한다(Sety, R.A. et al., 2018). 이 연구에서는 시차의 범위를 1∼64, 영역 크기를 5$\times$5로 설정하였다. 이러한 매칭 알고리즘은 두 이미지의 $y$축을 같게 하는 렉티피게이션 (Rectification)이 선행되어야 하며, 이는 카메라 캘리브레이션 (Camera calibration) 작업이 선행되어야 함을 의미한다. 카메라 캘리브레이션이란 카메라의 내부 (Intrinsic parameters) 및 외부 파라미터 (Extrinsic parameters)의 값을 도출하는 기술이다. 이때, 내부 파라미터는 $x,\: y$축에 대한 초점거리와 중심점 (Principal point)의 위치 및 왜곡 계수 (Distortion parameters) 의미하며, 외부 파라미터는 카메라 간의 기하학적 관계, 즉 위치 (Translate vector)와 방향 (Rotation matrix)를 정의하는 행렬을 의미한다. 이 연구에서는 Raspberry pi camera module v2의 카메라 2개에 대해 8$\times$6, 25 mm의 크기의 체스보드를 활용하여 캘리브레이션을 진행하였으며, 이와 관련된 두 카메라 내부 및 외부 파라미터들을 Table 6에 나타내었다. 최종적으로 거리 정보를 계산하기 위하여 사용된 초점거리는 약 268.02 픽셀이며 두 카메라 간의 거리는 약 59.7 mm 이다.

Table 6 Camera parameters for raspberry pi camera module v2

Parameters

Values

Internal parameters

(left camera)

$\begin{bmatrix}267.8886&0&166.1825\\0&269.6517&136.8863\\0&0&1\end{bmatrix}$

Internal parameters

(right camera)

$\begin{bmatrix}265.3060&0&169.1018\\0&266.3888&131.9067\\0&0&1\end{bmatrix}$

Distortion parameters

(left camera)

$\begin{bmatrix}0.2599&-0.4140&0.0175&0.0095&0\end{bmatrix}$

Distortion parameters

(right camera)

$\begin{bmatrix}0.2579&-0.3032&0.0088&0.0111&0\end{bmatrix}$

Rotation matrix

$\begin{bmatrix}1.0000&0.0031&0.0045\\-0.0032&0.9999&0.0166\\-0.0044&-0.0166&0.9999\end{bmatrix}$

Translation vector

$\begin{bmatrix}-59.6574&-3.0211&0.6266\end{bmatrix}$

실제 카메라와 화재 간의 거리를 측정하고자 동일한 화재 동영상을 이용해 500 mm에서 100 mm 간격으로 1500 mm까지 실험을 진행하였다. 본 실험의 거리 측정 범위는 선행연구 (Wang et al., 2023)를 참고하여 설정하였으며, 다만, 해당 연구에서는 500∼800 mm 구간에서 실험을 수행하였으나, 이 연구에서는 이를 500∼1500 mm 범위로 확장하여 진행하였다. Fig. 7에 나타낸 바와 같이, 최대 평균 상대 오차율(Mean relative error, MRE)은 500 mm 거리에서 48.74%, 최소 오차율은 1,200 mm 거리에서 3.34%, 평균 오차율은 16.55%로 나타났다. 해당 오차는 좌우 카메라의 이미지를 촬영 및 전송하는 과정에서 발생하는 미세한 시간 차이에 의해 나타나는 것이다. 예를 들어, 두 카메라로 촬영된 이미지가 미세한 시간 간격을 가질 때, 불은 동적으로 형상이 변하기 때문에 가까운 거리에서 촬영된 이미지일수록 그렇지 않은 이미지보다 더 큰 픽셀 변화가 발생한다. 따라서, 최대한 동일한 시간대에 촬영된 이미지 쌍을 추출하기 위해 Oriented FAST and Rotated BRIEF(ORB)알고리즘을 적용하였으며, 알고리즘의 주요사항을 요약하면 다음과 같다(Rublee et al., 2011).

FAST 알고리즘 (Rosten et al., 2006)에 1차 모멘트와 각도를 반영한 Oriented FAST 알고리즘으로 특징점을 추출한다.

Harris 코너 검출기 (Harris and Mike, 1988)를 활용하여 최종 특징점을 결정한다.

BRIEF 알고리즘 (Calonder et al., 2010)을 활용하여 최종 특징점에 대해 방향성을 내포한 디스크립터 (Descriptor)를 추출한다.

Fig. 7 Depth estimation results

../../Resources/ksm/jksmi.2025.29.5.66/fig7.png

이 연구에서는 순차적으로 연속되게 촬영된 이미지 중 왼쪽 및 오른쪽의 이미지 10개를 시차 및 거리를 구하기 위한 하나의 세트로 설정하였다. 이 중 왼쪽의 5번째 이미지와 오른쪽의 1∼10번째 이미지들의 YOLO 검출 결과의 경계 상자를 관심 영역으로 설정하였다. 또한, 왼쪽과 오른쪽의 경계 상자의 합집합이 충분한 매칭 영역을 포함하지 못할 것을 방지하고자 일정 크기의 확대 계수 (Scale factor)를 도입하였다. Fig. 8에 나타낸 바와 같이, 이 연구에서는 1.5를 사용하였으며, 이는 사용자의 판단에 따라 변동될 수 있는 상수이다. 각 경계 상자에 확대 계수를 곱한 상자의 합집합을 최종 관심 영역으로 정의하였다. 이를 통해 구한 관심 영역에서 ORB 알고리즘을 적용하여 각각의 특징점과 특징점의 디스크립터를 추출한 후, 전역 매칭 (Brute force matching)을 적용하여 매칭 점의 y 증분이 가장 적은 이미지 쌍을 선택해 시차값을 도출하였다. 산출된 시차값에서 왼쪽 이미지를 기준으로 YOLO 검출 결과의 개별 분할 영역 내의 픽셀에 해당하는 거리의 평균을 최종 거리로 산출하였다. Fig. 7에 나타낸 바와 같이, 알고리즘 적용 후 모든 구간에서 평균 상대 오차가 10% 이내인 것을 확인하였다. 이는 동적으로 변화하는 환경에서 연속적으로 촬영된 이미지 중 동일한 시간대에 촬영된 이미지 쌍을 찾는 전처리 작업이 필요하다는 것을 의미한다.

Fig. 8 Region of interest box

../../Resources/ksm/jksmi.2025.29.5.66/fig8.png

3. 화재 탐지 자율주행 로봇

3.1 ROS (Robot Operation System)

이 연구에서는 화재 탐지 및 거리를 도출하는 이미지 처리 프로세스를 보다 광범위한 공간에 적용하기 위하여 자율주행이 가능한 로봇인 Turtlebot3 (waffle)을 활용하였다. ROS는 로봇을 제어하기 위한 통신 시스템으로써, 이 연구에서는 Ubuntu 20.04 운영체제에서 ROS1 noetic 버전으로 로봇을 제어하였다. 주요 ROS 프로세스로는 노드, 토픽, 메시지 등이 있다. 노드는 행동을 수행하는 프로세스를 의미하며, 토픽은 노드 간의 메시지를 교환하는 메커니즘이다. 이때, 토픽을 발행하는 발행자와 구독하는 구독자로 구성되어 있으며, 토픽에서 전달하는 데이터의 구조나 형식을 메시지라고 한다. Fig. 9에 나타낸 바와 같이, 이 연구에서 ROS 통신 메커니즘은 자율주행을 관리하는 노드와 RGB 이미지를 전달하는 노드 및 예측 모델을 통하여 화재 탐지, 스테레오 매칭을 하는 노드로 구성되어 있다. 이 연구에서 활용한 자율주행은 Simultaneous localization and mapping (SLAM)과 내비게이션 (Navigation) 단계로 나뉜다. SLAM 알고리즘은 지도를 생성하고 로봇의 위치를 추정하기 위하여 활용된다. 해당 알고리즘은 Rao-blackwellized particle filter (Grisetti et al., 2007)에 기반한 Turtlebot3의 내장 패키지인 Gmapping을 사용하였다. Fig. 10에 나타낸 바와 같이, SLAM을 마친 상태에서 순차적인 목적지의 좌표를 이용하여 내비게이션 기술을 기반으로 자율주행 순찰을 수행하였다. 이와 동시에, RGB 카메라를 통한 화재 탐지 및 거리의 정보를 바탕으로 로봇의 움직임을 제어하였다.

Fig. 9 Robot process

../../Resources/ksm/jksmi.2025.29.5.66/fig9.png

Fig. 10 Visualizing map after SLAM

../../Resources/ksm/jksmi.2025.29.5.66/fig10.png

3.2 화재 탐지 알고리즘

이 연구에서는 실시간 이미지 처리 알고리즘과 자율주행 로봇을 결합한 최종 화재 탐지 알고리즘을 구축하였다. Fig. 11(a)는 알고리즘의 전체적인 처리 흐름을 도식화한 것이며, Fig. 11(b)는 알고리즘을 가상 환경에서 실제로 적용한 모습을 나타낸 것이다. 전체 알고리즘의 구성은 다음과 같이 요약될 수 있다.

자율주행 로봇은 $(x,\: y)$좌표를 기반으로 정한 순차적인 목적지에 따라 순찰을 진행하며 실시간으로 이미지를 메인 컴퓨터에 전송한다.

수신한 이미지들에 대해 학습된 YOLOv8m-seg 통하여 불 및 연기를 검출하고, 불의 위치 정보(좌표)를 파악한다.

연기만 검출된 경우, 로봇의 기본 최대 주행속도(0.26 m/s)의 50% 속도로 감속하여 순찰을 유지하며, 불이 검출된 경우, 로봇은 움직임을 멈추며, 지도상에서 화재 위치를 표시한다. 반면, 화재가 발생되지 않은 것으로 판단되는 경우에는 순찰을 유지한다.

Fig. 11 Fire detection algorithm

../../Resources/ksm/jksmi.2025.29.5.66/fig11.png

4. 결 론

이 연구에서는 실시간 이미지 처리 기술과 자율 주행 로봇을 통합한 화재 탐지 알고리즘에 관한 연구를 수행하였다. 이를 위하여 합성곱 신경망 모델의 학습 및 성능을 평가하였으며, 스테레오 비전을 통한 거리 도출 알고리즘의 정확도를 검증하였다. 두 이미지 처리 과정을 합친 하나의 알고리즘을 제안하였으며, 제안 알고리즘의 처리 과정을 자율주행 로봇에 적용하여 자동화된 화재 탐지 알고리즘을 구현하였다. 이 연구를 통해 다음과 같은 결론을 도출할 수 있었다.

1. 실시간 객체 탐지 학습모델 중 대표적인 1-stage detector인 YOLO를 활용하였다. YOLO 모델의 버전(v3, v5, v6, v8, v9, v10)을 변수로 예비 학습을 진행하였다. 학습 결과, v6, v8, v5, v10, v9, v3의 순서대로 검출 속도가 빠르게 나타났다. v6과 v8 중 개별 분할 기능을 지원하는 YOLOv8 모델을 본 학습에 사용하였다.

2. YOLOv8-seg에서 파라미터 수의 따른 버전(n, s, m, l, x)에 대해 총 19,232장에 대해 본 학습을 진행하였으며, 학습횟수는 300회로 설정하였다. 검출 속도 및 성능 지표를 종합적으로 평가한 결과, YOLOv8m-seg 버전이 이 연구에 가장 잘 적합한 것으로 평가되었으며, 정밀도, 재현율, mAP50 및 mAP50∼95이 각각 0.96, 0.89, 0.94 및 0.79로 나타나 전반적으로 우수한 성능을 보였다.

3. 카메라와 화재 사이의 거리를 산정하기 위하여 두 개의 RGB 카메라 및 이미지를 이용하는 스테레오 비전 기술을 적용하였다. SGBM 알고리즘을 통해 시차 및 거리를 도출하였으며, 촬영된 이미지 쌍에 대한 시간 차이에 따른 오차를 보정하기 위하여 ORB 알고리즘을 적용하였다. ORB 알고리즘의 적용 전후 500 mm 거리에서 평균 상대 오차율이 48.74%에서 5.9%로 감소하였으며, 전 구간에서 오차가 10 % 이내로 관측되었다.

4. 자율주행 로봇의 제어는 ROS 시스템상에서 진행하였으며, SLAM과 내비게이션은 내장 패키지를 사용하였다. 이미지 처리 알고리즘과 로봇의 주행을 결합한 최종 화재 탐지 알고리즘을 제안하였으며, 알고리즘이 적용된 로봇은 화재를 효과적으로 탐지하였다. 따라서, 제안된 알고리즘은 실제 건설 현장 및 다양한 환경에서 적용할 수 있을 것으로 판단된다.

5. 향후 연구

이 연구에서 제안한 실시간 이미지 처리 및 자율주행 로봇을 활용한 건설 현장 화재 탐지 알고리즘은 온도 정보를 활용하지 않고 RGB 카메라의 특성만을 활용하기 때문에, 실제 산업 환경 적용 시 조명 변화 등의 환경 요인에 따라 성능 저하가 발생할 수 있다. 이러한 한계는 향후 열화상 카메라와 RGB 카메라의 스테레오 매칭 기술 등을 접목함으로써 보완할 수 있을 것으로 판단된다.

감사의 글

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임 (No. RS-2023-00220019).

References

1 
Talaat, F. M., and ZainEldin, H. (2023), An improved fire detection approach based on YOLO-v8 for smart cities, Neural Computing and Applications, 35(28), 20939-20954.DOI
2 
National Fire Agency (2024), Enhancing Fire Safety Management at Construction Sites in Spring. Seoul, Korea: National Fire Agency. Available at: www.nfa.go.krURL
3 
Bu, F., and Gharajeh, M. S. (2019), Intelligent and vision-based fire detection systems: A survey, Image and Vision Computing, 91, 103803.DOI
4 
Kumar, S., Gupta, H., Yadav, D., Ansari, I. A., and Verma, O. P. (2022), YOLOv4 algorithm for the real-time detection of fire and personal protective equipments at construction sites, Multimedia Tools and Applications, 81(16), 22163-22183.DOI
5 
Ann, H., and Koo, K. Y. (2023), Deep learning based fire risk detection on construction sites, Sensors, 23(22), 9095.DOI
6 
Ko, B., Jung, J. H., and Nam, J. Y. (2014), Fire detection and 3D surface reconstruction based on stereoscopic pictures and probabilistic fuzzy logic, Fire Safety Journal, 68, 61-70.DOI
7 
Zou, Z., Chen, K., Shi, Z., Guo, Y., and Ye, J. (2023), Object detection in 20 years: A survey, Proceedings of the IEEE, 111(3), 257-276.DOI
8 
Redmon, J., Divvala, S., Girshick, R., and Farhadi, A. (2016), You only look once: Unified, real-time object detection, In Proceedings of the IEEE conference on computer vision and pattern recognition, 779-788.URL
9 
Terven, J., Cordova-Esparza, D. M., and Romero-Gonzalez, J. A. (2023), A comprehensive review of yolo architectures in computer vision: From yolov1 to yolov8 and yolo-nas, Machine learning and knowledge extraction, 5(4), 1680-1716.DOI
10 
Tariq, M. F., and Javed, M. A. (2025), Small Object Detection with YOLO: A Performance Analysis Across Model Versions and Hardware. arXiv preprint arXiv:2504.09900.DOI
11 
Kodors, S., Sondors, M., Apeinans, I., Zarembo, I., Lacis, G., Rubauskis, E., and Karklina, K. (2024), Importance of mosaic augmentation for agricultural image dataset, Agronomy Research, 22(1).URL
12 
Nisa, U. (2025), Image augmentation approaches for small and tiny object detection in aerial images: A review, Multimedia Tools and Applications, 84(19), 21521-21568.DOI
13 
Abdusalomov, A., Baratov, N., Kutlimuratov, A., and Whangbo, T. K. (2021), An improvement of the fire detection and classification method using YOLOv3 for surveillance systems, Sensors, 21(19), 6519.DOI
14 
Avazov, K., Mukhiddinov, M., Makhmudov, F., and Cho, Y. I. (2021), Fire detection method in smart city environments using a deep-learning-based approach, Electronics, 11(1), 73.DOI
15 
Wang, Z., Wu, L., Li, T., and Shi, P. (2022), A smoke detection model based on improved YOLOv5, Mathematics, 10(7), 1190.DOI
16 
Talaat, F. M., and ZainEldin, H. (2023), An improved fire detection approach based on YOLO-v8 for smart cities, Neural Computing and Applications, 35(28), 20939-20954.DOI
17 
Guan, Z., Miao, X., Mu, Y., Sun, Q., Ye, Q., and Gao, D. (2022), Forest fire segmentation from aerial imagery data using an improved instance segmentation model, Remote Sensing, 14(13), 3159.DOI
18 
Pimpalkar, S., and Patwa, B. (2025), Comparative Analysis of YOLOv8 and Faster R-CNN in Fire and Smoke Detection. In 2025 International Conference on Emerging Smart Computing and Informatics (ESCI), 1-5.DOI
19 
Lopez-Alanis, A., De-la-Torre-Gutierrez, H., Hernandez-Aguirre, A., and Orvananos-Guerrero, M. T. (2025), Fuzzy rule-based combination model for the fire pixel segmentation. IEEE Access.DOI
20 
Zou, R., Xin, Z., Liao, G., Huang, P., Wang, R., and Qiao, Y. (2025), A fire segmentation method with flame detail enhancement U-Net in multispectral remote sensing images under category imbalance, Remote Sensing, 17(13), 2175.DOI
21 
Hirschmuller, H., and Scharstein, D. (2007), Evaluation of cost functions for stereo matching, In 2007 IEEE conference on computer vision and pattern recognition, IEEE., 1-8.DOI
22 
Scharstein, D., and Szeliski, R. (2002), A taxonomy and evaluation of dense two-frame stereo correspondence algorithms, International Journal of Computer Vision, 47, 7-42.DOI
23 
Hirschmuller, H. (2007), Stereo processing by semiglobal matching and mutual information, IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(2), 328-341.DOI
24 
Setyawan, R. A., Sunoko, R., Choiron, M. A., and Rahardjo, P. M. (2018), Implementation of stereo vision semi-global block matching methods for distance measurement, Indonesian Journal of Electrical Engineering and Computer Science, 12(2), 585.DOI
25 
Wang, Z., Ding, Y., Zhang, T., and Huang, X. (2023), Automatic real-time fire distance, size and power measurement driven by stereo camera and deep learning, Fire Safety Journal, 140, 103891.DOI
26 
Rublee, E., Rabaud, V., Konolige, K., and Bradski, G. (2011), ORB: An efficient alternative to SIFT or SURF, In 2011 International conference on computer vision, IEEE, 2564-2571.DOI
27 
Rosten, E., and Drummond, T. (2006), Machine learning for high-speed corner detection, Computer Vision–ECCV 2006: 9th European Conference on Computer Vision, Springer Berlin Heidelberg, Graz, Austria, 430-443.DOI
28 
Harris, C., and Stephens, M. (1988), A combined corner and edge detector, In Alvey Vision Conference, 15(50), 10-5244.URL
29 
Calonder, M., Lepetit, V., Strecha, C., and Fua, P. (2010), Brief: Binary robust independent elementary features, Computer Vision–ECCV 2010: 11th European Conference on Computer Vision, Springer Berlin Heidelberg, Heraklion, Crete, Greece, 778-792.DOI
30 
Grisetti, G., Stachniss, C., and Burgard, W. (2007), Improved techniques for grid mapping with rao-blackwellized particle filters, IEEE Transactions on Robotics, 23(1), 34-46.DOI