Mobile QR Code QR CODE : The Transactions P of the Korean Institute of Electrical Engineers
The Transactions P of the Korean Institute of Electrical Engineers

Korean Journal of Air-Conditioning and Refrigeration Engineering

ISO Journal TitleTrans. P of KIEE
  • Indexed by
    Korea Citation Index(KCI)

  1. (Dept. of Information Security Engineering, Sangmyung University, Korea)



YOLOv2, UAV, Deep learning, Object detection, OpenCV

1. 서론

최근 무인항공기의 소형화와 고해상도 카메라(UHD : ultra high definition)의 발전으로 저렴한 비용으로 항공 이미지를 얻을 수 있게 되었으며 물류, 재난, 감시, 환경, 엔터테인먼트 등에서 활용되고 있다. 무인항공기는 상하좌우 이동이 가능하며 공중 정지 특성을 가지고 있기 때문에 사람이 출입하기 어려운 위험 지역 감시 및 관찰이 가능하다. 특히 최근 무인항공기의 자율 비행 기능에 대한 연구가 활발히 진행되고 있어 무인 항공기를 이용한 교통량 측정 및 관리에 대한 기대가 증대 되고 있다(1,2).

최근까지 도로에서 주행하는 자동차의 항공 영상을 얻기 위하여 인공위성, 비행기, 헬리콥터 등을 이용 하였으나 영상 획득을 위한 비용이 과다하고 시간 및 날씨의 변화에 실시간으로 대응하지 못하는 단점을 가지고 있다. 최근 저고도 항공 영상을 이용하여 자동차를 탐지하는 분야에 대한 연구가 활발히 진행되고 있고 그 응용분야도 매우 다양하게 적용되고 있다. 특히, 무인항공기를 이용한 자동차 탐지에 대한 연구가 최근에 활발히 진행되고 있다. 무인항공기를 이용하는 방법은 저렴한 비용으로 초고화질 항공 영상을 사용할 수 있게 됨으로 변화하는 도로 환경(기상의 변화, 조명의 변화 등)에서도 손쉽게 항공 영상을 획득할 수 있게 되었다(3,4).

본 논문에서는 실시간 물체 탐지에 최근 주목을 받고 있는 YOLOv2를 이용하여 고속도로에서 주행하는 자동차를 실시간으로 탐지하는 방법을 제안한다. 논문의 구성은 다음과 같다. 2장에서는 제안하는 연구의 배경이 되는 Fast R-CNN, YOLOv2에 대하여 살펴보며, 3장에서는 제안하는 연구방법, 4장에서는 제안하는 연구방법의 실험결과, 5장에서는 결론 및 향후연구 과제를 제시한다.

2. 관련 연구

지능형교통시스템(ITS : intelligent transport system)은 교통체계의 효율성과 안전성을 제고하기 위하여 기존의 교통체계에 전자, 정보, 통신, 제어, 통계 등의 지능형 기술을 접목시킨 차세대 교통체계이다. ITS를 위해서는 도로의 변화하는 환경을 실시간으로 분석하기 위해서는 도로의 상황을 실시간으로 파악할 수 있는 데이터 수집기능이 선행되어야 한다. 현재 도로에 설치되어 있는 기계식 루프검지기는 설치 및 유지보수의 문제를 가지고 있으며 고정형 무선센서를 이용한 방법은 일정한 탐지영역만을 가진다는 단점을 가지고 있다.

무인항공기 항공이미지를 이용하여 물체를 탐지하고 추적하는 최근의 연구를 살펴보면 항공 영상에 존재하는 물체, 사람, 자동차, 군사적 목표물을 찾기 위하여 다양한 형태로 연구가 진행되고 있다(5). 항공 영상은 대부분 대용량 데이터를 사용하기 때문에 물체를 탐지하는데 많은 계산시간이 필요한 단점을 가지고 있다. 그러므로 탐지 알고리즘의 성능이 물체탐지 및 추적기의 성능에 많은 영향을 주게 된다. 영상에 존재하는 물체를 탐지하기 위하여 복잡한 알고리즘을 채택하면 탐지성능은 좋아지나 실시간 분석능력이 저하되고 간단한 알고리즘을 채택하면 실시간 처리 능력은 좋아지나 탐지성능이 저하되는 문제점을 가지고 있다(6,7). 결국, 영상에 존재하는 다양한 물체의 특징정보를 어떻게 추출 하는가에 따라 전체 시스템의 성능에 영향을 주게 된다. 그림. 1을 살펴보면 현재 YOLOv2의 성능이 기존의 물체 탐지 알고리즘에 비하여 최상의 성능을 가지고 있음을 보여주고 있다. 그러나 YOLO는 작은 물체 탐지에는 정확도가 떨어지는 단점도 가지고 있다.

그림. 1. 파스칼 VOC 2007에 대한 각 탐지 알고리즘 성능

Fig. 1. Detection frameworks on PASCAL VOC 2007(8).

../../Resources/kiee/KIEEP.2018.67.1.042/fig1.png

2.1 Fast R-CNN

Ross Girschick는 object proposal과 CNN(convolution neural network)을 결합시켜 물체를 인식하고 탐지하는 R-CNN(region with convolutional neural network)을 제안하였다. R-CNN의 기본 원리는 입력 이미지로부터 약 2,000개의 proposal 영역을 생성하고, selective search 알고리즘을 이용하여 후보 영역을 생성한다. 선정된 후보 영역은 CNN의 입력 크기에 맞게 warping과 crop을 사용하여 이미지의 크기를 변경하고 CNN에 데이터로 입력하고 CNN의 최종 출력 단계에서 후보영역에 대한 특징 벡터를 생성하고 linear SVM을 이용하여 해당 영역을 분류한다. R-CNN은 CNN을 물체 탐지에 적용하여 기존의 SIFT나 HOG에 비하여 뛰어난 성능을 보이고 있다(9,10). 그러나 R-CNN과 같이 region proposal 방법을 이용한 물체 탐지 방법은 연산량이 많기 때문에 처리 속도가 느려 실시간으로 사용하기에는 적합하지 않는 단점이 있다.

Faster R-CNN는 그림 2과 같은 구조를 가지고 있다. R-CNN계열의 검출 네트워크들은 이미지에서 물체가 있을 것 같은 ROI(region of interest)를 구성하고 후보로 선정된 ROI들은 분류기에 의해 클래스 분류가 이루어지고 경계박스(bounding xox)를 찾는 구조로 되어 있다. region proposal network는 이미지에서 물체가 있을 확률이 있는 영역을 선정하여 여기에 어떤 클래스가 존재하는지 확인할 수 있도록 제안을 하는 구조이다. 일반적으로 하나의 이미지에서 300개 정도의 후보를 선정하는 것으로 알려져 있다. Faster R-CNN(RPN+ZF, shared)는 학습과정에 2,000개, 테스트 과정에서는 300개의 영역을 선정한다(11). 이러한 방식은 제안된 영역이 어떤 클래스인지 분류하기 위해 분류기의 많은 레이어를 통과해야 한다. 기존의 R-CNN 계열의 물체 탐지 방법이 느린 이유는 그림. 2와 같이 proposal의 수도 많고, 처리해야하는 과정에서 오버헤드도 크기 때문이다.

그림. 2. Faster R-CNN 구조

Fig. 2. Faster R-CNN is a single, unified network for object detection and Detection results on PASCAL VOC 2007(11).

../../Resources/kiee/KIEEP.2018.67.1.042/fig2.png

일반적으로 영상에서 물체의 경계박스를 찾는 방법은 3가지 방법으로 구분할 수 있다. 첫 번째, selective search 방법은 영상에서 수많은 proposal을 하는 방식으로 2.24초 정도 소요된다. 두 번째, EdgeBoxes는 영상의 에지정보를 바탕으로 에지박스를 찾으면 proposal의 수를 줄여줄 수 있으며 첫 번째 방법보다 빠른 0.38초의 성능을 보이고 있다. 세 번째, YOLO는 cheaper grid 방식을 선정하여 속도를 크게 개선하였다. grid cell의 개수가 곧 proposal의 수로 proposal을 구하는 과정에서 오버헤드를 개선한 방식이다. grid cell 안에 오브젝트가 있다는 보장을 할 수 없지만 이것은 다른 방법도 같은 경우이다(12).

2.2 YOLOv2

YOLO의 네트워크 구조는 그림. 3과 같으며 총 24개의 컨볼루션 레이어와 2개의 완전히 연결된 레이어로 이루어져 있다. 그리고 이미지 분류를 위하여 설계된 GoogLeNet 구조를 기반으로 설계되었으며 GoogLeNet에서 사용된 인셥센 모듈을 대신하여 1×1 컨볼루션 레이어 다음에 3×3 컨볼루션 레이어를 사용하여 계산량을 줄여 빠른 물체 탐지가 가능하도록 설계되었다(13).

그림. 3. YOLO 구조

Fig. 3. The Architecture of YOLO(14).

../../Resources/kiee/KIEEP.2018.67.1.042/fig3.png

YOLO는 네트워크 최종출력 단에서 경계박스 위치와 클래스 분류가 동시에 이루어진다. 단 하나의 네트워크가 한 번에 특징도 추출하고, 경계박스도 만들고 클래스를 같이 분류하므로 그 구조가 간단하고 매우 빠른 성능을 가지고 있다.

YOLOv2는 네트워크의 크기를 조절하여 FPS(frame per second)와 mAP(mean average precision)를 균형 있게 조절할 수 있다. YOLOv2는 표 1과 같이 성능향상을 위하여 10가지 추가적 방법을 도입함으로 성능이 더욱 향상 되었다(8).

표 1. 기존 YOLO에서 YOLOv2의 추가사항

Table 1. The path from YOLO to YOLOv2(8)

YOLO

YOLOv2

batch norm?

high-res classifier?

convolution?

anchor boxes?

new network?

dimension priors?

location prediction?

passthrough?

multi-scale ?

high-res detector?

VOC2007 mAP?

63.4

65.8

69.5

69.2

69.6

74.4

75.4

76.8

78.6

본 논문에서는 YOLO의 최신버전인 YOLOv2를 이용하여 실험에 사용하였다(15). YOLOv2는 성능과 속도를 모두 개선시켜 현재 SSD(single shot multibox detector)보다 성능이 뛰어난 것으로 알려져 있다.

3. 제안하는 연구방법

3.1 실험환경 구축

본 논문에서는 고속도로에서 주행하고 있는 자동차를 무인항공기로 탐지하기 위하여 다음과 같은 실험환경을 구축하였다. 컨볼루션 신경망 네트워크 모델을 구축하기 위하여 오픈소스로 제공 되어지는 YOLOv2 Linux 버전(https://github.com/AlexeyAB/darknet)을 사용하였다(15). YOLOv2는 빠른 물체 탐지 속도를 유지하면서 Faster R-CNN에 비하여 우수한 인식률을 보이고 있다. 제안하는 실험환경 구축을 위하여 OpenCv 3.2, CUDA 8.0, Xeon E5-2650 4-CPU, GTX-1080TI 4-GPU를 탑재한 SDX-4185 Deep Learning서버를 사용하여 그림. 4와 같은 환경에서 C와 CUDA기반의 프레임워크인 darknet을 이용하여 실험하였다.

그림. 4. 실험 구성 환경

Fig. 4. The experiment environment(15).

../../Resources/kiee/KIEEP.2018.67.1.042/fig4.png

3.2 학습데이터 구성

실험에 사용한 영상은 DJI사의 Phantom3 Professional을 이용하여 경부 고속도로에서 주행 하는 자동차를 고도 50-60m 상공에서 촬영하였다. 그리고 실험 영상의 크기는 1920×1080 Full HD 크기로 구성하였다. 무인항공기 영상을 이용하여 지상의 자동차를 탐지하기 위해서는 먼저 학습과정을 거쳐야 한다. 컨볼루션 네트워크에 대한 학습을 위해서 지상의 다양한 자동차 영상에 대한 학습이 필요하다. 표 2는 학습에 사용한 자동차 영상의 수이다.

표 2. 학습데이터 구성

Table 2. The training and test data set

car type

sample image

training data set

test data set

small car

../../Resources/kiee/KIEEP.2018.67.1.042/tb2a.png

748

235

mini van

../../Resources/kiee/KIEEP.2018.67.1.042/tb2b.png

386

98

van

../../Resources/kiee/KIEEP.2018.67.1.042/tb2c.png

432

132

small truck

../../Resources/kiee/KIEEP.2018.67.1.042/tb2d.png

328

86

heavy truck

../../Resources/kiee/KIEEP.2018.67.1.042/tb2e.png

216

72

bus

../../Resources/kiee/KIEEP.2018.67.1.042/tb2f.png

252

95

total

2,362

718

3.3 컨볼루션 신경망 구조

컨볼루션 신경망은 학습 데이터 집합을 기반으로 신경망의 구조에 따라 학습을 진행하여 특징을 추출하고 가중치를 최적화하기 때문에 신경망의 구조가 물체 탐지 성능에 큰 영향을 줄 수 있다. 본 논문에서는 고속도로를 주행하고 있는 지상의 자동차를 인식할 수 있도록 YOLOv2를 기반으로 컨볼루션 신경망을 설계하여 고속도로의 자동차 무인 탐지에 대한 컨볼루션 네트워크의 활용 가능성에 대하여 실험하였다. 실험에 사용된 네트워크는 그림. 5와 같이 구성하여 실험에 사용하였다. 실험에 사용된 네트워크는 YOLOv2의 네트워크 구조에서 완전히 연결된 레이어 3개를 추가하여 22개의 컨볼루션 레이어와 5개의 맥스 풀링 레이어로 구성하였다.

그림. 5. 제안하는 컨볼루션 네트워크

Fig. 5. The proposal training network.

../../Resources/kiee/KIEEP.2018.67.1.042/fig5.png

4. 실험결과

실험에 사용한 컨볼루션 네트워크의 성능을 평가하기 위하여 경부 고속도로 상에서 주행하는 자동차의 영상을 고도 50-60m 상공에서 촬영하였다. 다양한 형태의 자동차를 탐지하기 위하여 다양한 크기의 자동차와 0도, 45도, 90도, 135도 방향의 자동차 이미지를 학습 하였다. 그리고 컨볼루션 네트워크의 성능을 평가하기 위하여 물체 탐지 분야에서 성능평가 기준으로 사용되는 재현율(recall)과 정밀도(precision)를 계산하였으며, FPS를 이용하여 네트워크 속도를 평가하였다. 실험은 2,362의 학습 이미지와 718개의 테스트 이미지를 사용하였다. 재현율은 컨볼루션 네트워크로 실험한 이미지들 중에서 총 N개의 데이터를 탐지하였을 경우 실험 데이터에 있는 클래스들 중에서 성공적으로 검출된 클래스이 비율의 의미하고, 정밀도는 검출한 결과들 중에 정검출 비율을 의미하고 IOU를 기준으로 판단하였다. 표 3은 제안하는 네트워크를 이용한 실험 결과이며 그림. 6은 지상의 자동차를 탐지한 영상이다.

표 3. 제안한 방법의 실험결과

Table 3. The experiment result of proposed method

test video

Recall

Precision

FPS

#1

78.06

86.78

39.08

#2

81.63

83.54

41.36

#3

77.42

82.36

37.75

#4

76.20

84.30

37.18

그림. 6. 제안한 실험 방법에 의한 탐지 결과

Fig. 6. The detection result of proposed method.

../../Resources/kiee/KIEEP.2018.67.1.042/fig6.png

본 연구에서는 지상 50-60m 이내의 저고도 영상을 이용하여 데이터를 학습하고 실험하였기 때문에 저고도에 존재하는 차량의 탐지에는 좋은 성능을 보였다.

5. 결 론

본 논문에서는 지상의 자동차를 학습시킨 컨볼루션 네트워크를 이용하여 고속도로에서 주행하는 자동차를 실시간으로 탐지하는 모델을 제안하였다. 고속도로에서 주행하는 자동차는 최저속도 50km/h 최대속도 110km/h 또는 그 이상으로 주행하므로 빠른 물체 탐지 알고리즘이 필요하다. 제안하는 방법으로 실험한 결과 최대 41FPS로 물체를 탐지하고 실시간으로 동작하는 것을 확인 할 수 있었다. 실험에 사용한 테스트 영상의 수가 적어 실험의 정확성을 판단하기에는 다소 어려움이 있지만 물체탐지 속도는 다른 알고리즘에 비하여 현재 최고의 성능을 보임을 알 수 있었다. 향후 연구 과제는 탐지된 자동차의 종류(승용, 트럭, 승합, 버스)에 대한 분류가 필요할 것으로 보이며 이동 물체에 대한 추적개념의 알고리즘을 도입하면 보다 우수한 성능의 물체 탐지 및 추적 시스템에 적용할 수 있을 것으로 판단된다.

References

1 
Kozempel K., Reulke R., 2009, Fast Vehicle Detection and Tracking in Aerial Image Bursts, in ISPRS City Models, Roads and Traffic(CMRT), Paris, France, Vol. 38, No. 3/W4, pp. 175-180Google Search
2 
Leitloff J., Hinz S., Stilla U., 2010, Vehicle extraction from very high resolution satellite images of city areas, IEEE Trans. Geosci. Remote Sens., Vol. 48, No. 7, pp. 2795-2806Google Search
3 
Yao W., Zhang M., Hinz S., Stilla U., 2012, Airborne traffic monitoring in large areas using lidar data, Int. J. Remote Sens, Vol. 33, No. 12, pp. 3930-3945DOI
4 
Lenhart D., Hinz S., Leitloff J., Stilla U., 2008, Automatic Traffic Monitoring Based On Aerial Image Sequences, Pattern Recognition and Image Analysis, Vol. 18, No. 3, pp. 400-405DOI
5 
6 
Elmiktay M., Stathaki T., 2014, Car Detection in High-Resolution Urban Scenes Using Multiple Image Descriptors, in Proc. Of International Conference on Pattern Recognition (ISPR), Stockholm, Sweden, pp. 4299-4304DOI
7 
Moranduzzo T., Melgani F., 2014, Detecting Cars in UAV Images with a Catalog-Based Approach, IEEE Transactions on Geoscience and Remote Sensing, Vol. 52, No. 10, pp. 6356-6367DOI
8 
Redmon Joseph, Farhadi Ali, 2017, YOLO9000: Better, Faster, Stronger, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7263-7271Google Search
9 
Liao S., Zhu X., Lei Z., Zhang L., Li S. Z., 2007, Learning Multi-scale Block Local Binary Patterns for Face Recognition, ICB 2007, pp. 828-837DOI
10 
Dalal N., Triggs B., 2005, Histograms of oriented gradients for human detection, in IEEE Computer Society Conf. Computer Vision and Pattern Recognition (CVPR), San Diego, CA, USA, vol. 1, IEEE Computer Society, pp. 886-893DOI
11 
Chen X., Meng Q., 2013, Vehicle Detection from UAVs by Using SIFT with Implicit Shape Model, in IEEE International Conference on Systems, Man, and Cybernetics, pp. 3139-3144DOI
12 
Ren Shaoqing, He Kaiming, Girshick Ross, Sun Jian, June 1 2017, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 39, No. 6, pp. 1137-1149DOI
13 
Najibi Mahyar, Rastegari Mohammad, Davis Larry S., 2016, G-CNN: An Iterative Grid Based Object Detector, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2369-2377Google Search
14 
Redmon Joseph, Divvala Santosh, Girshick Ross, Farhadi Ali, 2016, You Only Look Once: Unified, Real-Time Object Detection, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 779-788Google Search
15 
Alexey , 2017, Yolo-v2 Windows and Linux version, https://github.com/AlexeyAB/darknetGoogle Search

저자소개

서창진 (Seo, Chang Jin)
../../Resources/kiee/KIEEP.2018.67.1.042/au1.png

부산대학교 멀티미디어 석사.

부산대학교 멀티미디어 박사.

2013년 3월 ~ 현재 : 상명대학교 정보보안공학과 교수.

관심분야 : Object Detection, Target Tracking, Artificial Vision, Multimedia.

E-mail : cjseo@smu.ac.kr