• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Division of AI Computer Science and Engineering, Kyonggi University, Republic of Korea.)



Traffic Accident Detection, YOLO, LSTM, Deep Learning, Object Detection, Computer Vision

1. 서 론

교통사고는 도로상의 안전을 위협하는 주요 요인 중 하나로, 매년 전 세계적으로 수많은 인명과 재산 피해가 발생한다. 이러한 사고는 예측하기 어려운 상황에서 급작스럽게 일어나므로, 이를 신속하게 감지하고 대응하는 시스템은 교통 안전 및 효율성 측면에서 매우 중요하다. 기존의 CCTV 모니터링이나 운전자 의존적인 사고 보고 방식은 사고 인지 시간이 지연되어 2차 피해가 발생하거나 정확한 원인 분석이 어려워지는 문제점을 갖는다[1]. 따라서 최근에는 딥러닝과 컴퓨터 비전, 그리고 시계열 데이터 처리 기술을 활용해 교통사고를 자동으로 탐지하고 필요한 조치를 즉시 취할 수 있는 연구가 활발히 진행되고 있다[2].

특히 객체 감지 분야에서 높은 정확도와 속도를 보장하는 YOLO(You Only Look Once) 계열 모델은 교통 영상 분석에 적합한 솔루션을 제공하며, 사람 및 차량의 움직임을 포착하는 행동 인식 모델들은 사고 발생 징후를 세밀하게 파악할 수 있다. 여기에 시계열 데이터 처리를 위한 LSTM(Long Short-Term Memory)을 결합함으로써, 영상 프레임 간의 흐름과 변화를 동적으로 학습하여 잠재적 충돌 상황이나 이상 징후를 조기에 감지할 수 있게 된다[3]. 이렇게 객체 인식, 행동 인식, LSTM을 결합한 모델은 사고 발생 전후의 시간적 맥락을 보다 정확히 파악해 실시간 탐지를 수행하는 데 효과적이다. 그러나 기존 연구들의 상당수는 단일 프레임 기반 객체 인식이나 정적 특징 기반 판단에 집중되어 있으며, 이러한 접근은 사고 발생 전후의 연속적인 맥락 정보를 반영하지 못한다는 한계를 가진다[4]. 실제 교통사고는 차량 간 상호작용이 시간 축을 따라 변화하며 누적되는 복합적 사건이기 때문에, 이를 단편적인 정보만으로 감지하는 것은 매우 어렵다.

본 연구는 이러한 한계를 극복하고자, YOLO 기반 객체 검출과 LSTM 기반 시계열 분석을 결합한 실시간 교통사고 자동 탐지 시스템을 제안한다. 본 모델은 도로 위 차량, 이륜차, 보행자 등의 객체를 빠르고 정확하게 검출한 후, 해당 객체들의 움직임을 시간 순으로 분석하여 사고 징후를 사전에 인지하거나 사고 발생 직후 즉시 탐지할 수 있도록 구성되어 있다. 이는 정적 객체 인식과 동적 시계열 예측의 장점을 결합함으로써, 실시간성, 예측성, 신뢰성을 모두 만족시키는 통합형 교통안전 시스템 구현을 가능하게 한다.

본 연구에서는 실제 도로 환경을 반영한 CCD(CarCrashDataset)를 기반으로, 다양한 기상 조건 및 주야간 변화, 자차 관여 여부 등을 포함한 데이터셋을 활용하여 모델의 정확도, 정밀도, 재현율, F1-score, mAP 등 주요 성능 지표를 평가하였다. 또한, 기존에 사용되던 단일 특징 기반 모델들과의 비교를 통해 본 연구가 제안하는 결합 구조의 성능 우수성 및 일반화 가능성을 실험적으로 검증하였다. 궁극적으로 본 시스템은 자율주행차, 지능형 교통 시스템(ITS), 스마트시티 인프라 등에 적용되어 교통사고로 인한 피해를 최소화하고 도로 안전을 실질적으로 향상시킬 수 있는 기반 기술로 활용될 수 있을 것으로 기대된다.

2. 관련 연구

2.1 실시간 교통 상황 감지 및 사고 예방을 위한 딥러닝 기술

딥러닝 기반 객체 검출(Object Detection)은 컴퓨터 비전 분야에서 오랜 기간 동안 집중적으로 연구되어 온 핵심 주제 중 하나이며, 특히 자율주행이나 교통 관제와 같은 분야에서 매우 중요한 역할을 담당한다. 초기의 객체 검출 모델인 R-CNN 계열은 이미지 내에서 후보 영역을 추출한 뒤, 이 영역을 분류하는 과정을 거쳐 정확도는 높지만 연산량이 많고 실시간 처리가 어려운 단점이 있었다. 이러한 비효율적인 과정을 극복하기 위해 제안된 대표적인 모델이 바로 YOLO로, 입력 이미지를 단 한 번의 신경망 연산으로 처리하면서도 우수한 객체 검출 성능을 제공한다. YOLO는 이미지를 격자로 나누고 각 격자 셀이 예측해야 할 바운딩 박스 및 클래스 확률을 회귀(Regression) 방식으로 학습하여, 후보 영역을 따로 추출할 필요 없이 한 번의 패스(pass)만으로 객체의 위치와 종류를 동시에 예측한다. 이러한 구조는 객체 검출 속도를 획기적으로 향상시키며, 넓은 시야를 통해 전역적 맥락 정보를 활용하기 때문에 오검출이 상대적으로 적다는 장점도 갖는다.

YOLO는 초기 버전인 YOLOv1부터 시작하여 YOLOv2, YOLOv3, 이후 YOLOv4, YOLOv5, 그리고 최근 발표된 YOLOv7, YOLOv8 등으로 빠르게 발전해왔다[4]. 최근 YOLOv9은 Programmable Gradient Information 등 새로운 기법을 도입하여 실시간 응용 분야에서 더욱 뛰어난 성능을 보이고 있으며, 이를 활용한 얼굴 및 번호판 블러 처리 모델이 그 예시로 제시되고 있다[5]. YOLOv2에서는 앵커 박스(Anchor Box)와 배치 정규화(Batch Normalization) 같은 기법을 통해 정확도와 학습 안정성을 높였고, YOLOv3에서는 다중 스케일 특징 추출(Feature Pyramid Network)을 활용하여 작은 객체에 대한 검출 성능이 개선되었다. 이어서 YOLOv4와 YOLOv5는 이미지 전처리 기술(Mosaic Data Augmentation 등), 백본 네트워크(CSPDarknet) 등의 혁신을 통해 더욱 높은 정확도와 빠른 속도를 달성했다[6]. 또한 경량화된 Tiny 모델도 지속적으로 개발되면서, 저성능 하드웨어나 임베디드 환경에서도 실시간 처리가 가능하도록 지원 범위를 넓혀가고 있다. Kim et al.은 RetinaNet 기반의 소형 객체 탐지 및 정렬 모델을 제안하여 포스트잇과 같은 작은 객체에 대해 기존 모델보다 향상된 탐지 성능과 정렬 기술을 입증하였다[7]. 이러한 연구 결과는 교통 영상에서도 멀리서 촬영된 보행자나 이륜차 등 상대적으로 작은 객체의 정확한 탐지가 필요할 때, YOLO 기반 시스템의 한계를 보완하는 추가적인 방법론으로 활용될 수 있음을 시사한다 이러한 발전 과정에서 YOLO는 객체 검출 모델의 '사실상 표준'으로 자리 잡았으며, 이미지를 다룰 때 단순히 정확도만을 추구했던 과거와 달리 속도와 효율성, 그리고 다양한 활용성에 대한 논의가 활발해지도록 이끈 중요한 계기가 되었다.

교통 분야에서 YOLO가 주목받는 이유는 명확하다. 교통사고, 교통 체증, 신호 위반 등 다수의 상황을 대규모 CCTV나 차량용 카메라로부터 실시간으로 수집해 모니터링해야 하는데, 이는 초당 수십 프레임을 빠르게 처리하면서도 정확한 객체 인식이 필수적이기 때문이다. 예를 들어, 차량이나 보행자의 존재를 인식하고 그 거리를 추정하는 작업, 차선 이탈이나 역주행과 같은 이상 행위를 감지하는 작업 등은 처리 속도가 조금만 늦어도 사고 감지나 대응이 지연될 수 있어 안전에 치명적인 영향을 끼칠 수 있다. 따라서 시·공간적으로 방대한 영상 데이터를 빠르게 처리하고, 목표 객체를 놓치지 않아야 하는 교통 분야 특성상 YOLO 계열 모델은 기존의 R-CNN 계열 대비 훨씬 실용적이며 효과적인 접근법을 제공한다[8]. 또한 계속해서 발표되는 YOLO의 새 버전들은 연구 현장뿐 아니라 산업계까지 폭넓게 확산되고 있어, 교통 관제 시스템에서 딥러닝 기반 객체 검출 모델을 도입할 때 가장 먼저 고려되는 후보로 자리 잡고 있다.

본 연구에서도 교통사고 자동 탐지를 위한 핵심 요소로 YOLO 계열 모델을 활용한다. 구체적으로는 도로를 주행하거나 정차해 있는 차량, 횡단보도 등을 지나는 보행자, 이륜차 등을 빠르고 정확하게 검출하여, 사고 발생 가능성을 시계열 관점에서 분석하기 위한 전처리 데이터를 제공하는 역할을 수행한다. 충돌이 임박했을 때 나타나는 급격한 움직임을 실시간으로 포착하기 위해서는 높은 FPS(Frame Per Second)를 유지해야 하며, 이는 중복된 후보 영역을 매번 계산하는 2단계 검출 방식보다는 단일 단계 검출 방식인 YOLO가 더욱 적합하다. 아울러 객체 검출 결과를 이후 단계인 행동 인식 모델이나 LSTM(Long Short-Term Memory) 같은 시계열 분석 모델에 전달함으로써, 사고 징후가 구체화되는 과정을 정밀하게 추적할 수 있도록 하고자 한다. 이처럼 YOLO의 빠른 검출 성능은 교통사고 발생 시점 이전의 징후를 미리 감지하고, 실제 사고 순간이 카메라에 포착되는 순간 즉시 알림을 제공해 2차 피해를 줄이는 데 기여할 것으로 기대된다.

2.2 LSTM 기반 시계열 분석

교통사고는 차량이나 보행자 등이 단순히 한 순간에만 포착되는 이벤트라기보다, 시간에 따라 움직임이 변하고 상호 작용하는 과정에서 특정 시점에 사고가 발생하는 동적 현상이다. 이를 효과적으로 분석하기 위해서는 단일 프레임의 객체 검출 결과만을 확인하는 데서 나아가, 시간적 흐름을 고려한 시계열 분석이 필요하다. 딥러닝 분야에서 시계열 데이터를 처리하는 대표적인 구조인 RNN(Recurrent Neural Network)은 이전 단계의 출력을 현재 단계 계산에 피드백으로 활용해 연속적인 데이터 처리를 가능하게 하지만, 긴 시퀀스를 학습할 때 기울기 소실(Vanishing Gradient)이나 폭발(Exploding Gradient) 문제가 발생하기 쉬웠다[9]. 이러한 한계를 극복하기 위해 제안된 LSTM(Long Short-Term Memory)은 셀(cell) 상태를 통해 장기 의존성(Long-Term Dependency)을 유지하면서도 망각 게이트(Forget Gate)를 통해 불필요한 정보를 제거해, 긴 시퀀스 학습에서도 안정적인 성능을 보인다.

LSTM은 언어 처리(NLP)나 음성 인식 등 시계열 분석이 중요한 영역에서 먼저 활발히 도입되어 큰 성과를 거두었지만, 영상 처리 분야에서도 점차 그 적용 범위를 넓혀가고 있다[10]. 실제로 EEG 신호 분석을 통한 행동 예측 연구에서는 LSTM이 Transformer보다 우수한 성능을 보였으며, 이는 복잡한 시계열 데이터에서 장기 의존성을 효과적으로 학습하는 LSTM의 특성이 중요한 역할을 한다는 점을 입증한다[11]. 특히 행동 인식(Action Recognition) 분야에서 프레임별 특징을 CNN으로 추출한 뒤, 이를 시계열 형태로 LSTM에 입력함으로써 시간에 따른 동작 변화를 모델링하는 방식이 일반화되고 있다. 교통 분야 또한 여러 객체가 복잡하게 얽히는 시공간적 패턴을 해석해야 하므로, LSTM을 활용하면 다양한 응용이 가능해진다. 예컨대 차량 움직임을 추적하여 속도와 가속도 변화를 연속적으로 확인하고, 특정 영역에서 상대 속도가 급격히 증가하거나 차량 간 거리가 지나치게 좁아지는 상황을 감지함으로써 사고 위험을 사전에 인지할 수 있다. 또한 이상 행동을 판단하는 측면에서, 평상시 교통 흐름과 현저히 다른 움직임을 보이는 경우 이를 빠르게 이벤트로 분류하고 경고를 발령함으로써 대응 시간 지연을 줄이는 데 도움을 준다.

교통사고 자동 탐지에 LSTM을 적용한 다양한 사례들은, 주로 객체 추적 후 얻은 시계열 데이터를 활용한다[12]. 먼저 YOLO와 같은 객체 검출 모델을 통해 영상 내 차량, 보행자 등의 위치와 속성(클래스, 신뢰도 등)을 파악한 다음, 각 객체의 움직임을 시계열로 정리하여 LSTM 입력으로 제공한다. 이때 프레임 간의 상대적 위치 변화나 속도 벡터, 가속도 등도 함께 포함시키면 더욱 정교한 패턴 분석이 가능해진다. LSTM은 각 시점에서 들어오는 입력 정보를 활용해 사건 발생 징후나 이상 행동을 예측하고, 내부 은닉 상태를 유지함으로써 여러 프레임에 걸친 맥락적 정보를 누적 학습한다. 이렇게 축적된 맥락적 정보는 단순히 현재 프레임만 보고서는 확인하기 어려운 ‘충돌 전조’ 같은 시나리오를 구체적으로 인식하는 근거가 될 수 있다. 예를 들어, 주변 차량이 갑작스럽게 감속하기 시작한 직후 다른 차량도 급정거함으로써 연쇄 추돌로 이어질 가능성을 LSTM이 조기에 감지해낼 수 있는 것이다.

본 연구에서는 교통사고를 실시간으로 감지하고 사고 발생 징후를 조기에 포착하기 위해, YOLO 기반 객체 검출로부터 얻은 결과를 LSTM에 결합하는 접근 방식을 채택한다. 구체적으로는 도로 위 각 차량의 위치, 속도, 크기 변화 등을 시간 순서대로 정리한 뒤, LSTM 모델에 입력하여 사고 발생 여부 또는 사고 징후를 예측하는 과정을 수행한다. 또한 사고 발생 직후 프레임까지 고려함으로써 실제 사고 장면을 높은 신뢰도로 분류할 수 있는데, 이는 단일 프레임에서만 정보가 충분하지 않을 경우에도 주변 프레임의 맥락을 통해 보강할 수 있기 때문이다. 이를 통해 정확도와 속도 모두에서 우수한 성능을 확보하는 것이 본 연구의 주요 목표 중 하나이며, 나아가 교통사고 대응 체계에서 중요한 실시간성 요건도 만족할 수 있을 것으로 기대된다. 더불어, LSTM 구조에 주의 메커니즘(Attention Mechanism)을 결합하거나, 3D CNN 및 Transformer 계열 모델을 추가로 적용해 시공간적 특징을 확장 학습하는 등 여러 고도화 방향 역시 향후 연구 과제로 논의될 수 있다.

기존 연구들은 정적 프레임 분석이나 단순 시계열 예측에 집중되어, 객체 간 시공간적 상호작용이나 환경 변화에 대한 적응성을 충분히 반영하지 못하는 한계가 있다. YOLO 기반 접근은 객체 탐지에는 뛰어나지만, 시계열 흐름이나 행동 추론에는 제약이 있으며, LSTM 기반 접근은 시간적 패턴을 학습할 수 있으나 입력 데이터가 정적이거나 축약된 경우 예측력이 저하될 수 있다. 본 연구는 이러한 한계를 극복하기 위해 YOLO 기반 객체 검출과 LSTM 기반 시계열 분석을 결합하여, 객체의 위치와 움직임, 그리고 시간 축의 변화 흐름까지 함께 고려할 수 있는 통합형 모델을 제안한다.

결국 YOLO 계열 모델은 영상에서 객체를 빠르고 정확하게 검출해낼 수 있는 핵심 역할을 맡고, LSTM은 그 검출 결과를 시간 축으로 통합하여 사고 발생 징후를 추적·분석하는 데 강점을 발휘한다. 두 모델의 결합은 교통사고와 같이 예측이 어려운 동적인 이벤트를 포착하는 데 최적의 시너지를 낼 수 있으며, 이를 통해 사고 예방 및 긴급 대응 체계를 신속하게 구축할 수 있다. 이 연구가 제안하는 시스템은 과거의 정적 분석 방식이나 단순 모니터링을 넘어서, 머신러닝 기법이 도로 위의 위험을 사전에 감지하고 사고 발생 시 즉각적인 알림을 발송함으로써 인명과 재산 피해를 최소화하는 데 실질적인 기여를 하리라 기대한다. 또한 차후에는 드론, 차내 카메라 등 다양한 센서에서 수집되는 정보로부터 더 복합적인 분석을 수행하는 멀티모달 접근 방식으로 확장하여, 더욱 정교한 교통사고 예방 시스템의 구현이 가능할 것으로 전망한다.

3. 시계열 분석을 통한 사고 패턴 추출

본 연구에서는 교통사고 자동 탐지 및 예측 모델 구축을 위하여 CCD(CarCrashDataset)를 사용한다[13]. CCD는 총 4,500개의 영상으로 구성되며, 이 중 1,500개는 실제 사고 영상, 나머지 3,000개는 정상 주행 영상을 포함하고 있다. 그림 1은 CCD 데이터셋의 구성을 시각적으로 나타낸다.

모든 영상은 10fps, 50프레임 길이로 정규화되어 있어 교통사고와 같은 짧은 이벤트를 시계열 모델로 분석하기에 적합하다. 각 사고 영상에는 충돌 프레임(0/1), 주간·야간, 날씨(맑음·비·눈), 자차 관여 여부 등의 속성 정보가 주석으로 포함되어 있어, 연구자가 특정 조건이나 복합 상황에 따라 유연하게 학습을 설계할 수 있다. 특히 CCD는 충돌 직전부터 사고 발생, 직후까지를 포함한 장면을 제공하여 '사고 전 징후'를 학습하기에 유리하다. 정상 주행 영상은 다양한 도로 환경과 주행 패턴을 포괄함으로써, 모델이 불필요한 오탐(False Positive)을 줄이고 실제 사고 상황만을 효과적으로 인식할 수 있도록 돕는다.

그림 1. CCD 데이터셋 개요

Fig. 1. CCD Dataset Overview

../../Resources/kiee/KIEE.2025.74.7.1248/fig1.png

3.1 사전 특징 추출 및 객체 검출 정보

CCD는 각 영상 프레임에 대해 미리 추출된 딥러닝 기반 특징 정보를 함께 제공한다. 구체적으로는 최대 19개 객체(차량, 이륜차, 보행자 등)를 검출한 뒤, 이를 대표적인 신경망 모델에서 추출한 4096차원 벡터로 변환해 놓았다. 이로써 사용자는 객체 검출 과정을 직접 수행하지 않고도 고차원 특징 벡터를 바로 활용할 수 있으므로, 행동 인식이나 시계열 분석 모델을 빠르게 구성하는 데 도움을 받을 수 있다.

다만, 본 연구에서는 실제 도로 상황을 좀 더 현실적으로 반영하고자, CCD가 제공하는 사전 추출 특징뿐 아니라 YOLO 모델을 직접 적용해 새롭게 객체를 검출하고 특징을 추출하는 방식을 병행한다. CCD 자체가 이미 다양한 조건(조도, 기상 등)이 섞여 있어 데이터셋이 풍부하므로, YOLO 모델을 재훈련하거나 추론 단계에서 적용하기에 충분한 영상적 다양성을 확보할 수 있다.

3.2 시계열 데이터 처리 및 특징 추출

본 연구에서 사용한 객체 검출 알고리즘은 YOLOv5이며, 이는 빠른 처리 속도와 높은 정확도를 제공한다[14]. 먼저 CCD의 원본 영상을 일정 해상도로 리사이즈한 뒤, YOLOv5를 이용해 차량·이륜차·보행자 등 주요 객체를 검출한다.

그림 2는 YOLOv5 모델을 활용해 교통 영상에서 차량과 보행자를 감지한 결과를 보여준다. 빨간색 바운딩 박스는 자동차 및 버스를, 초록색은 보행자를 감지한 것으로, 각각의 객체에는 신뢰도(confidence score)와 클래스 정보가 함께 표시된다. 각 프레임마다 바운딩 박스 좌표, 검출 확률, 클래스 정보 등이 산출되며, 이는 시계열 분석을 위한 특징으로 가공된다. 예를 들어, 차량 A와 B 간의 거리나 속도 변화가 프레임 순서대로 정리되면, LSTM 모델은 사고 직전 나타나는 거리 급감이나 이상 주행 패턴을 학습할 수 있다. 이 과정을 통해 사고 발생 직전의 위험 지표가 모델 내에서 자동 감지되는 것이 가능해진다.

그림 2. YOLOv5를 활용한 객체 검출

Fig. 2. Object Detection Using YOLOv5

../../Resources/kiee/KIEE.2025.74.7.1248/fig2.png

그림 3은 교통사고 탐지를 위한 시계열 데이터 처리 및 특징 추출 과정을 시각적으로 나타낸다. 그래프에서 파란색 선은 차량 A와 차량 B의 속도를 나타내며, 프레임이 진행됨에 따라 속도가 감소하는 패턴을 보여준다. 속도가 빠를 때는 그래프의 왼쪽 상단에 위치하며 Fast로 표시되고, 시간이 지남에 따라 속도가 점차 감소하면서 Slow 영역으로 이동하는 것을 확인할 수 있다. 빨간색 점선은 차량 간 거리를 나타내며, 사고 발생 직전의 거리 변화를 강조한다. 초기에는 차량 간 거리가 상대적으로 멀어 Far로 표시되지만, 프레임이 진행됨에 따라 급격하게 줄어들다가 다시 증가하는 경향을 보인다. 이는 사고가 발생할 가능성이 높은 순간을 감지하는 데 중요한 정보로 활용될 수 있다.

그림 3. 시계열 데이터 처리 및 특징 추출 과정

Fig. 3. Time-Series Data Processing and Feature Extraction

../../Resources/kiee/KIEE.2025.74.7.1248/fig3.png

그림 4는 시계열 데이터 분석을 통해 추출된 차량 속도 및 거리 변화 패턴 그림 3의 실제 교통사고 발생 프레임(26번 프레임과 33번 프레임)을 비교하여 보여준다. 위쪽 이미지는 사고 발생 직전(26번 프레임)의 장면을 나타내며, 차량과 대형 트럭이 급격히 가까워지는 모습을 확인할 수 있다. 객체 탐지 모델(YOLOv5)에 의해 검출된 차량(빨간색)과 트럭(사이안색)이 바운딩 박스로 강조되었으며, 각 객체의 검출 확률이 표시되었다. 아래쪽 이미지는 사고 직후(33번 프레임)의 장면으로, 사고 차량이 트럭과 충돌한 상태임을 확인할 수 있다. 이 두 프레임 간의 변화를 통해 차량 간 거리 감소와 속도 변화가 실제 사고 발생과 어떻게 연관되는지를 시각적으로 보여주며, 이는 시계열 데이터 분석 결과와 일치함을 확인할 수 있다.

그림 4. 시계열 데이터 기반 실제 사고 프레임 비교

Fig. 4. Comparison of Actual Accident Frames Based on Time-Series Data

../../Resources/kiee/KIEE.2025.74.7.1248/fig4.png

이러한 데이터는 LSTM 모델이 학습하는 주요 특징으로 활용되며, 급격한 속도 변화 및 차량 간 거리 감소와 같은 패턴을 분석하여 사고 발생 가능성을 조기에 탐지할 수 있도록 한다. 특히 차량 간 거리의 급격한 감소는 충돌 위험성을 높이는 주요 요인 중 하나로, 이를 통해 사고 발생 직전의 위험 징후를 효과적으로 추출하고, 실시간으로 사고 감지를 수행하는 데 기여할 수 있다.

3.3 LSTM 기반 교통사고 예측 모델 개요

교통사고 예측의 핵심은 짧은 시간 안에 달라지는 차량 간 상호작용 패턴을 인식하는 것이므로, 본 연구에서는 LSTM을 주요 시계열 분석 모델로 선정했다. YOLO와 LSTM은 각각 객체 인식과 시계열 예측에 최적화된 구조지만, 단독으로는 복잡한 교통사고 발생 맥락을 포착하기 어렵다. 본 연구는 YOLO로부터 추출한 객체의 위치 및 상태 정보를 LSTM에 연동시켜, 시공간적 관계성과 움직임의 변화 패턴을 함께 학습하는 통합 구조를 제안한다. 이는 단순한 정보 결합을 넘어서, 시간 흐름 속에서 변화하는 객체 간 상호작용을 실시간으로 분석할 수 있는 구조적 강점을 지닌다.

LSTM은 은닉 상태(hidden state)와 셀 상태(cell state)를 통해 과거 여러 프레임에 대한 정보 손실을 최소화하면서, 현재 프레임 정보를 결합해 출력값을 생성한다. 이를 통해 충돌 직전 프레임에서의 급정거, 차선 급변경, 차량 간 빠른 접근 등 잠재적 위험 요인을 효과적으로 추적할 수 있다.

CCD에 미리 포함된 특징 벡터(4096차원)나, YOLO를 통해 새롭게 추출한 객체 검출 결과를 활용해 프레임별 특징을 벡터 형태로 정리하면, LSTM에 이를 입력해 사고 징후 감지 모델을 학습할 수 있다. 예를 들어, 각 프레임에서의 주요 객체 간 거리·상대 속도·가속도 등을 계산해 시계열로 배치하면, 모델이 “사고가 임박했을 때”의 전조 현상을 학습하여 미래 사고 발생 가능성을 조기에 인지하는 것이 가능하다.

그림 5는 LSTM(Long Short-Term Memory) 모델을 활용한 교통사고 예측 과정의 개요를 나타낸다. 본 모델은 입력 프레임으로부터 YOLO 기반 객체 검출을 수행한 후, 이를 시계열 데이터로 변환하여 LSTM에 입력하는 구조로 설계되었다.

먼저, YOLO 객체 검출(Object Detection) 모듈을 통해 차량, 보행자 등의 위치와 속도, 가속도 등의 정보를 추출한다. 이후, 이러한 특징들을 시계열 데이터 형태로 변환하여 LSTM 모델에 입력하게 된다. LSTM은 은닉 상태(hidden state)와 셀 상태(cell state)를 통해 과거 프레임의 정보를 유지하며, 시간 흐름에 따른 객체의 움직임 패턴을 학습한다. 이를 통해 사고 발생 가능성이 높은 특징을 감지하고, 지속적으로 위험도를 평가할 수 있다.

LSTM의 출력값은 사고 발생 위험도(0~1 범위의 확률 값)로 나타나며, 특정 임계값을 초과할 경우 모델은 사고 발생 가능성이 높다고 판단하여 경고를 발령한다. 즉, 차량 간 거리 감소, 급정거, 차선 변경과 같은 패턴을 분석하여 사고 징후를 조기에 탐지할 수 있다. 이를 통해 실시간 사고 감지 및 예방이 가능해지며, 교통 관리 시스템에서 신속한 대응이 이루어질 수 있도록 지원한다.

그림 5. LSTM을 활용한 사고 예측 모델 개요

Fig. 5. Accident Prediction Model Using LSTM

../../Resources/kiee/KIEE.2025.74.7.1248/fig5.png

4. 결과 및 성능평가

앞서 제시한 YOLO-LSTM 기반 교통사고 자동 탐지 모델을 CCD(CarCrashDataset)에 적용한 뒤, 주요 정량적·정성적 성능 지표를 분석한 결과를 제시한다. 본 연구에서는 다양한 평가지표를 활용하여 모델의 성능을 측정하였으며, 모델의 성능을 평가하기 위해 본 연구에서는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 score, 그리고 mAP(Mean Average Precision) 등을 활용한다. 이 지표들은 모두 0과 1 사이의 값을 가지며, 1에 가까울수록 성능이 우수함을 의미한다. 아래에서는 각 지표의 정의와 특징을 간략히 설명한다.

정확도(Accuracy)는 모델이 전체 입력 중에서 실제 정답을 맞춘 비율을 나타내며, 식 (1)과 같이 표현된다.

(1)
$Accuracy =\dfrac{TP + TN}{TP + TN + FP + FN}$

여기서 TP는 참양성(True Positive), TN은 참음성(True Negative), FP는 거짓양성(False Positive), FN은 거짓음성(False Negative)을 의미한다. 데이터셋 내 양성과 음성의 비율이 균형을 이루는 상황에서 모델의 전반적인 분류 성능을 간단히 파악하기에 용이하다.

정밀도(Precision)는 모델이 양성이라고 예측한 사례 중 실제 양성인 비율로, 식 (2)와 같이 정의된다

(2)
$Precision =\dfrac{TP}{TP + FP}$

재현율(Recall)은 실제 양성인 사례 중에서 모델이 양성이라고 올바르게 예측한 비율이며, 식 (3)와 같다.

(3)
$Recall =\dfrac{TP}{TP + FN}$

정밀도와 재현율은 서로 상충되는 관계를 보이므로, 두 지표 간 균형을 나타내는 F1 score가 주로 사용된다. F1 score는 정밀도와 재현율의 조화평균(Harmonic Mean)으로, 식 (4)과 같이 표현된다.

(4)
$F1 score =\dfrac{2\times Precision\times Recall}{Precision + Recall}$

정밀도와 재현율이 모두 높은 값일수록 F1 score가 커지며, 어느 한쪽에만 치우칠 경우 상대적으로 낮아지는 경향을 보인다.

한편, 객체 검출 모델의 성능을 종합적으로 평가하기 위해서는 mAP(Mean Average Precision)를 사용한다. mAP는 여러 객체 클래스에 대한 Average Precision(AP)을 각각 구한 뒤, 이를 클래스 개수로 나눈 평균값으로 정의된다. AP는 모델이 다양한 임계값(Threshold)에서 산출한 정밀도-재현율 곡선(Precision-Recall Curve)의 아래 면적을 의미하며, 식 (5)와 같이 표현된다.

(5)
$m AP =\dfrac{1}{N}\sum_{i=1}^{N}AP_{i}$

여기서 N은 전체 클래스의 수이며, APi​ 는 i번째 클래스에 대한 AP를 나타낸다. IoU(Intersection over Union) 임계값을 0.50으로 고정한 mAP를 mAP50, 0.50에서 0.95까지 일정 간격으로 바꾸어가며 측정한 평균값을 mAP50-95라고 부른다. mAP가 높을수록 객체 검출 모델이 다양한 조건에서 안정적으로 목표 객체를 탐지하고 있음을 의미한다.

위 지표들을 종합적으로 해석함으로써, 모델이 얼마나 정확하게 교통사고를 예측·판단하는지, 그리고 불필요한 오탐을 어느 정도로 억제하는지를 평가할 수 있다. 이를 통해 최종적으로 교통사고 자동 탐지 시스템의 실효성과 안전성을 검증할 수 있다.

CCD 영상에서 차량·보행자·이륜차 등을 검출하기 위해 YOLOv5를 적용하였으며, Table 1에 그 결과를 요약하였다. 여기서 mAP(mean Average Precision)는 0.840 수준으로 나타났으며, Precision과 Recall도 각각 0.880, 0.850로 양호한 편이다. Accuracy와 F1 score는 객체 검출 분야에서 자주 사용되지는 않지만, 본 연구에서는 각 단계 지표의 통일성을 유지하기 위해 함께 산출하였다.

표 1 YOLOv5 검출 성능 지표

Table 1 YOLOv5 detection performance

Preprocessing

Accuracy

precision

recall

F1-score

mAP

Value

0.906

0.881

0.852

0.865

0.847

YOLOv5는 부분 가림이나 급격한 움직임 등 복잡한 상황에서도 비교적 안정적인 검출 성능을 보인다. 이는 후속 단계인 LSTM 기반 시계열 분석에서 풍부한 객체 정보를 확보하게 해주며, 교통사고 자동 탐지의 정확도를 높이는 기반 역할을 한다.

YOLO로 검출된 객체 정보를 LSTM 모델에 입력하여 교통사고 발생 여부를 분류한 결과는 Table 2에 상세히 제시된다. 본 연구에서는 CCD 데이터셋 전체를 70:15:15(Training:Validation: Test)의 비율로 분할하여, 각각의 세트에서 모델을 학습하고 튜닝한 후 최종적으로 Test 세트에서의 성능을 객관적으로 측정하였다.

약 0.918의 정확도와 0.879의 재현율을 달성함으로써, 실제 사고 장면을 놓치지 않고 탐지할 수 있음을 확인할 수 있다. F1 score가 0.891, mAP가 0.887로 나타나, 임계값 변동에도 전반적인 탐지 성능이 균형을 이루고 있음을 시사한다.

표 2 LSTM 기반 교통사고 탐지 성능

Table 2 LSTM-based crash detection

Preprocessing

Accuracy

precision

recall

F1-score

mAP

Value

0.918

0.903

0.879

0.891

0.887

CCD는 주야간(낮/밤), 날씨(맑음·비·눈), 자차 관여 여부 등 다양한 조건을 포함하고 있다. Table 3은 날씨 상태를 기준으로 맑음(Clear), 비(Rain), 눈(Snow) 3개 그룹으로 나누어 LSTM 기반 교통사고 탐지 결과를 요약한 것이다.

표 3 날씨 조건별 교통사고 탐지 결과

Table 3 Crash detection under different weather conditions

Preprocessing

Accuracy

precision

recall

F1-score

mAP

Clear

0.941

0.926

0.893

0.909

0.902

Rain

0.902

0.876

0.842

0.858

0.854

Snow

0.881

0.847

0.811

0.828

0.82

눈이나 비가 내리는 환경에서는 시야 제한 및 차량 주행 패턴의 변칙성으로 인해 전반적인 지표가 다소 떨어지는 경향을 보이나, 맑은 날씨 대비 급격한 성능 저하는 나타나지 않았다. 이는 YOLO 검출에서 확보된 객체 정보를 LSTM이 시계열적으로 학습함으로써, 악조건에서도 어느 정도 안정적인 결과를 유지할 수 있음을 의미한다.

마지막으로 Table 4에서는 입력 특징 구성을 달리했을 때의 성능 차이를 비교하였다. 가장 위의 Baseline은 기존 선행연구에서 제안된 YOLOv4와 MOG2(배경 추출 기법)를 활용한 모델로, 단일 프레임 기반의 차량 이상 탐지 방식이다[16]. (a)는 CCD에서 제공하는 VGG-16 기반 사전 추출 특징만을 사용한 경우, (b)는 YOLO 재검출 결과를 LSTM에 입력한 경우, (c)는 두 가지 정보를 결합하여 다중 피처를 활용한 경우다.

표 4 모델 구성별 교통사고 분류 성능 비교

Table 4 Ablation study on different model configurations

Preprocessing

Accuracy

precision

recall

F1-score

mAP

(Baseline) YOLOv4 + MOG2 [16]

-

0.814

0.796

0.805

-

(a) VGG-based features only

0.881

0.853

0.826

0.839

0.813

(b) YOLO-based time-series

0.914

0.886

0.858

0.872

0.859

(c) Combined (a) + (b)

0.936

0.917

0.879

0.897

0.884

결과적으로, 두 종류의 특징을 모두 사용하는 (c) 구성에서 Accuracy(0.936), Precision(0.917), Recall(0.879)가 모두 가장 높게 나타났다. 이는 사전에 추출된 고차원 정보(VGG-16)와 YOLO로 추출된 실시간 객체 검출 정보가 상호 보완적인 역할을 함을 의미한다. 특히 F1 score와 mAP도 각각 0.897, 0.884로 상승해, 사고 장면 탐지에 대한 모델의 종합적 인식 능력이 개선되었다고 볼 수 있다.

한편, 선행 연구인 YOLOv4 + MOG2 기반 모델의 평균 Precision은 0.814, Recall은 0.796, F1-score는 0.805로 보고되었다[16]. 본 연구의 (c) 구성은 동일한 CCD 데이터셋을 활용하면서도 모든 주요 성능 지표에서 이를 상회하는 결과를 나타냈다. 특히 F1-score는 0.897로, 약 9.2% 향상되었으며, 이는 단일 프레임 기반 이상 감지 접근보다 시계열 기반 다중 특징 결합 모델이 교통사고 탐지에 더 효과적임을 보여준다.

본 연구에서는 CCD 데이터셋을 기반으로 모델을 학습 및 평가하였지만, 제안한 YOLO-LSTM 구조는 다양한 도로 환경 및 CCTV 기반 교통 데이터에도 적용 가능하도록 설계되었다. 특히 YOLO는 다양한 환경에서의 객체 검출에 강인한 성능을 보이며, LSTM은 시계열 패턴 학습에 유연성을 갖기 때문에, 타 교통 사고 영상 데이터셋에서도 유사한 성능을 기대할 수 있다. 다만, 외부 데이터셋에 대한 정량적 실험은 추후 과제로 남겨두며, 본 논문에서는 CCD 기준 성능 평가에 집중하였다.

5. 결 론

본 논문에서는 교통사고 자동 탐지 시스템을 구현하기 위해 YOLO 기반 객체 검출과 LSTM을 통한 시계열 분석 기법을 결합하여, 실제 도로 환경을 반영하는 CCD(CarCrashDataset)에서의 실효성을 검증하였다. 다양한 기상 조건(맑음·비·눈) 및 주야간 상황, 그리고 자차 관여 여부 등 복합적인 요소가 뒤섞인 데이터에서도 제안 모델은 높은 정확도와 재현율을 유지하였으며, 특히 사고 직전에 발생하는 짧고 급격한 움직임을 효과적으로 파악함으로써 교통사고 발생 여부를 신속하게 예측·탐지할 수 있음을 확인했다. 또한 사전에 추출된 고차원 특징과 실시간 객체 검출 정보를 함께 활용했을 때, 각각의 강점을 상호 보완적으로 결합하여 LSTM이 더욱 정밀하게 사고 장면을 분류한다는 사실을 실험적으로 입증하였다. 이는 교통사고가 시간적으로 짧고 예측하기 어려운 환경적·행동적 변화를 동반한다는 점에서, 시계열 모델과 객체 검출 간의 유기적인 협력이 안전성 향상에 매우 효과적임을 시사한다.

본 연구의 성과는 실제 도로 인프라에 적용 가능한 인공지능 기반 교통사고 예방 시스템의 토대를 마련했다는 점에서 큰 의의를 갖는다. 교통사고는 막대한 인명·재산 피해와 사회적 비용을 초래하지만, 정확한 예측과 실시간 대응이 어려운 문제이다. 제안 모델은 사고 전후 차량 동작을 포괄적으로 분석하여 긴급 조치가 필요한 순간을 조기에 파악할 수 있어, 향후 자율주행 차량이나 지능형 교통 시스템(ITS) 등에서 핵심 모듈로 활용될 가능성을 보여준다. 이러한 결과는 교통 안전 정책 및 시스템 설계에 의미 있는 시사점을 제공하며, 다각적 사고 예방 노력과 연계되어 실질적인 피해 저감 효과를 기대할 수 있다. 앞으로는 Transformer 등 최신 구조와 다양한 센서 융합 기법을 도입하여 탐지 정확도와 실시간성을 더욱 향상시킬 계획이다.

Acknowledgements

This research was supported by Basic Science Research Program through the National Research Foundation of Korea(NRF) funded by the Ministry of Education(RS-2020-NR049579). Additionally, this work was also supported by Kyonggi University’s Graduate Research Assistantship (2025).

References

1 
H. K. Lee, J. M. Kim, H. J. Bae, A. Y. Yeo, H. J. Kang, Y. I. Son, “Design of Traffic accident Automatic Reporting System(TARS),” Korean Institute of Information Processing 2017 Spring Conference, pp. 1177-1178, Apr. 27, 2017.DOI
2 
A. B. Parsa, R. S. Chauhan, H. Taghipour, S. Derrible, A. Mohammadian, “Applying Deep Learning to Detect Traffic Accidents in Real Time Using Spatiotemporal Sequential Data,” arXiv preprint arXiv:1912.06991, 2019.URL
3 
Y. J. Roh, S. H. Bae, “Forecasting of Traffic Accident Occurrence Pattern Using LSTM,” J. Korean Soc. Intell. Transp. Syst., vol. 20, no. 3, pp. 59-73, 2021.URL
4 
T. H. Kim, J. Y. Seo, “Traffic Accidents Risk Forecasting based on Deep Learning Models using Spatiotemporal Data Learning,” Journal of Korean Institute of Information Technology, vol. 22, no. 5, pp. 1–12, May 2024.URL
5 
M. C. Andrea, C. K. Lee, Y. S. Kim, M. J. Noh, S. I. Moon, J. H. Shin, “Computer Vision-Based Car Accident Detection using YOLOv8,” Journal of the Korea Industrial Information Systems Research, vol. 29, no. 1, pp. 91-105, 2024.DOI
6 
Y. J. Yoo, J. W. Bae, S. Y. Jang, W. S. Kim, “Face and license plate blurring models with YOLOv9,” Journal of Artificial Intelligence Convergence Technology, vol. 4, no. 3, pp. 85-91, sep. 2024.URL
7 
P. Sharma, R. Tyagi and P. Dubey, “Optimizing Real-Time Object Detection - A Comparison of YOLO Models,” International Journal of Innovative Research in Computer Science and Technology, 2024.URL
8 
E. S. Kim, S. E. Lee and M. A. Kang, “RetinaNet-based Small Object Detection and Sorting Model,” Journal of Artificial Intelligence Convergence Technology, vol. 3, no. 3, pp. 66-72, Sep. 2023.URL
9 
H. Y. Kim, J. H. Kim, S. H. Jeong, C. B. Sim, “Implementation of YOLO based Missing Person Search AI Application System,” Smart Media Journal, vol. 12, no. 9, pp. 159-170, 2023.DOI
10 
B. Ghojogh, A. Ghodsi, “Recurrent Neural Networks and Long Short-Term Memory Networks: Tutorial and Survey,” arXiv preprint arXiv:2304.11461, 2023.DOI
11 
Y. J. Song, “Real-time Driver Behavior Recognition System Using a CNN-LSTM Model,” Master’s Thesis, Hanyang University Graduate School, Department of Convergent Robotic Systems, 2021.URL
12 
T. W. Yoon, S. Y. Yoon, S. H. Ha, W. S. Kim, “Predicting Behavior through EEG Signal Analysis: A Comparative Study of LSTM and Transformer Models,” Journal of Artificial Intelligence Convergence Technology, vol. 4, no. 4, pp. 119-124, dec. 2022.URL
13 
H. Y. Kim, “A GRU Based Model for Predicting Traffic Accident Severity,” Master’s Thesis, Seoul National University Graduate School, Department of Industrial Engineering, 2020.URL
14 
W. Bao, Q. Yu, Y. Kong, “Uncertainty-based Traffic Accident Anticipation with Spatio-Temporal Relational Learning,” Proceedings of the ACM Multimedia Conference, May 2020.URL
15 
K. Liu, H. Tang, S. He, Q. Yu, Y. Xiong, N. Wang, “Performance Validation of YOLO Variants for Object Detection,” Proceedings of the 2021 International Conference on Bioinformatics and Intelligent Computing, Jan. 22, 2021.URL
16 
D. H. Shin, J. W. Baek, C. H. Park, K. Y. Chung, “Deep Learning-based Vehicle Anomaly Detection using Road CCTV Data,” Journal of the Korea Convergence Society, vol. 12, no. 2, pp. 1–6, 2021.DOI

저자소개

송영훈(Younghun Song)
../../Resources/kiee/KIEE.2025.74.7.1248/au1.png

He is currently pursuing the M.S. degree in the Department of Computer Science, Kyonggi University, Korea, and is a researcher at the Data Mining Laboratory, Kyonggi University. His research interests include computer vision, data mining, and deep learning.

김남기(Namgi Kim)
../../Resources/kiee/KIEE.2025.74.7.1248/au2.png

He graduated from the Department of Computer Science at Sogang University in February 1997 and obtained a Master's degree in Computer Science from KAIST in March 2000, followed by a Ph.D. in Computer Science from KAIST in March 2005. Afterward, he worked as a Senior Researcher at the Samsung Electronics Communication Research Center in February 2007, where he conducted research activities. Since March 2007, he has been a professor in the Department of Computer Engineering at Kyonggi University. His main research interests include communication systems and networks, and he is actively engaged in research and education in these fields.

정경용(Kyungyong Chung)
../../Resources/kiee/KIEE.2025.74.7.1248/au3.png

He has received B.S., M.S., and Ph.D. degrees in 2000, 2002, and 2005, respectively, all from the Department of Computer Information Engineering, Inha University, South Korea in 2000, 2002, and 2005, respectively. He has worked for the Software Technology Leading Department, Korea IT Industry Promotion Agency (KIPA). He has been a professor in the Division of AI Computer Science and Engineering, Kyonggi University, South Korea. He was named a 2017 Highly Cited Researcher by Clarivate Analytics. Since 2021, he has served as Editor-in-Chief of the Journal of Artificial Intelligence Convergence Technology and as Vice President of the Korea Artificial-Intelligence Convergence Technology Society.