최예진
(Ye-Jin Choi)
1iD
김수민
(Su-Min Kim)
1iD
황영배
(Youngbae Hwang)
†iD
-
충북대학교 지능로봇공학과
(Dept. of Intelligent Robotics Engineering, Chungbuk National University, Cheongju,
28644, Republic of Korea.)
Copyright © The Korean Institute of Electrical Engineers
Key Words
Panorama Image Stitching, Object Detection, Multi-Object Tracking, Computer Vision
1. 서 론
파노라마 영상 정합 기술은 여러 영상을 통합하여 넓은 시야각을 가진 단일 영상을 생성하는 기술로, 자율 주행, 보안 감시, 건축 및 공간 디자인 등
다양한 분야에서 활발하게 활용되고 있다[1]. 이러한 응용 분야 중에서 특히 자율 주행과 보안 감시 분야에서는 넓은 시야 내에서의 객체 검출 및 추적에 대한 수요가 증가하고 있으며, 이를 위해
다중 카메라 기반 시스템이 널리 사용되고 있다.
기존의 다중 카메라 기반 시스템의 방식은 일반적으로 각 카메라에서 개별적으로 객체를 검출하고 추적한 후, 후처리를 통해 여러 카메라의 검출 결과를
통합하는 구조로 되어 있다. 이러한 방식은 카메라마다 검출된 객체를 추가로 처리해야 하는 문제가 있어, 이에 따라 연산량 증가, 객체 중복 및 누락,
ID 불일치 등의 문제가 발생하며 실시간 처리가 요구되는 상황에서는 한계로 작용할 수 있다[2].
이와 같은 문제를 해결하기 위해, 본 논문에서는 다중 카메라 영상을 파노라마 영상으로 정합한 뒤 단일 파노라마 영상 내에서 객체를 검출하고 추적하는
통합 시스템을 제안한다. 제안한 시스템은 크게 두 단계로 구성된다. 첫 번째 단계는 파노라마 영상 생성 과정이다. 원통형 투영(Cylindrical
Projection)을 이용해 영상 간 왜곡을 보정하고[3-
4], SuperPoint[5]를 활용하여 특징점을 추출하며 BruteForce 매칭으로 대응점을 찾는다. 이후 RANSAC[6] 알고리즘을 통한 이상점을 제거, 어파인 변환(Affine Transform)을 통한 이미지 왜곡 및 알파 블렌딩의 과정을 거쳐 자연스러운 파노라마
영상으로 정합한다. 두 번째 단계는 객체 검출 및 추적 단계이다. TensorRT로 최적화된 YOLOv5[7]를 이용하여 객체를 검출하고, DeepSORT 알고리즘[14]을 기반으로 추적한다.
제안된 시스템은 NVIDIA Jetson AGX Orin 플랫폼에서 구현하여 실험을 수행하였다. 그 결과, 파노라마 영상 기반에서도 정확한 객체 검출
및 추적이 가능함을 확인하였으며, 다중 카메라를 독립적으로 처리하는 기존 방식 대비 향상된 실시간 처리 성능을 보였다. 이러한 결과를 통해 본 논문은
다중 카메라 환경에서 파노라마 기반 단일 시야 처리 구조를 적용하여 연산 구조를 단순화하고, 그에 따른 실시간 처리 성능 개선을 임베디드 GPU 환경에서
구현 및 검증하였다는 점에서 의의를 가진다.
그림 1. 제안하는 시스템 구성도
Fig. 1. Block diagram of the proposed system
본 논문의 구성은 다음과 같다. 2장에서는 특징점 기반 영상 정합과 객체 검출 및 추적에 관한 기존 연구를 소개한다. 3장에서는 제안한 시스템의 구조와
알고리즘을 상세히 설명한다. 4장에서는 실험 및 분석 결과를 제시하고, 5장에서는 결론 및 향후 연구 방향을 논의한다.
2. 관련 연구
2.1 특징점 기반 영상 정합
영상 정합에서 특징점 기반 접근법은 오랫동안 가장 널리 사용되는 방식이다. 전통적인 특징점 알고리즘인 SIFT(Scale- Invariant Feature
Transform)[8], SURF(Speeded -Up Robust Features)[9], ORB(Oriented FAST and Rotated BRIEF)[10] 등은 다양한 기하학적 변환과 조명 변화에 강건한 정합 성능을 제공하며 영상 처리의 기초 기술로 자리 잡아 왔다.
그러나 딥러닝 기술의 발전과 함께 기존의 수작업 기반 알고리즘이 갖는 한계가 드러나기 시작했다. 여러 연구에서는 SIFT·SURF·ORB와 같은 전통적
방법이 복잡한 환경 변화, 조명 조건 변화, 큰 시점 차이에 대한 적응력이 부족하며[5], 반복적인 연산 구조로 인해 실시간 처리 요구를 만족시키기 어렵다는 점을 지적하였다. 이러한 문제를 극복하기 위해 최근에는 학습 기반 특징점 추출
모델이 제안되고 있으며, 그중 SuperPoint[5]는 높은 강건성과 효율성을 동시에 달성하며 특징점 기반 정합 분야에서 널리 주목받고 있다.
SuperPoint는 자기 지도 학습 전략을 활용하여 다양한 환경 변화 조건에서도 강건한 특징점을 제공할 수 있는 학습 기반 특징점 추출 방법이다.
SuperPoint의 학습 과정은 크게 두 단계로 구성된다. 첫 번째 단계에서는 합성된 코너 데이터셋을 이용하여 코너 감지기를 학습하며, 이 과정에서
다양한 이미지 변환을 통해 촬영 조건 변화를 모사한다. 두 번째 단계에서는 학습된 코너 감지기를 기반으로 임의의 호모그래피가 적용된 이미지 쌍을 입력으로
사용하여, 동일 위치의 특징점에 대해 일관된 기술자(descriptor) 표현을 학습한다.
이와 같은 학습 방식은 사람이 설계한 규칙에 의존하는 기존 특징점 기법과 달리, 데이터 기반으로 특징점과 기술자를 자동으로 생성할 수 있도록 한다.
SuperPoint는 조명 변화, 시점 변화, 이미지 블러 등 실제 환경 조건에서 높은 강건성을 보이며, 임베디드 GPU 환경에서도 실시간 처리가
가능하다는 장점을 가진다. 이러한 이유로 본 연구에서는 파노라마 영상 정합을 위한 특징점 추출 방법으로 SuperPoint를 채택하였다.
그림 2. 카메라 하드웨어 구성도
Fig. 2. Hardware configuration of the camera
2.2 객체 검출
객체 검출은 주어진 영상 내에서 객체의 위치와 범주를 동시에 예측하는 컴퓨터 비전 기술로, 자율주행, 로보틱스, 감시 시스템 등 다양한 응용 분야에서
중요한 역할을 한다. 초기에는 R-CNN 계열과 같이 후보 영역 생성과 분류 단계를 분리하여 처리하는 방식이 주류를 이루었으나, 여러 단계를 거치는
구조적 특성 때문에 실시간 응용에는 제약이 컸다. 이러한 문제를 해결하기 위해 등장한 것이 YOLO(You Only Look Once) 계열 모델이다.
YOLO는 입력 영상을 단 한 번만 통과시키면서 위치와 범주를 동시에 예측하는 방식을 도입하여 기존 방식보다 훨씬 높은 처리 속도를 확보하였다. 이후
버전이 거듭되면서 구조와 학습 기법이 개선되었는데, YOLOv3[11]는 잔차 기반 백본을 통해 정확도를 끌어올렸고, YOLOv4[12]는 데이터 증강과 백본 최적화를 결합해 추가적인 성능 향상을 이루었다.
YOLOv5[7]는 PyTorch 기반으로 개발된 경량 객체 검출 모델로, 다양한 하드웨어 환경에서의 배포와 최적화를 용이하게 하기 위해 설계된 것이 특징이다. 구조
내 일부 연산 모듈이 최적화되어 Jetson 시리즈와 같은 임베디드 GPU에서도 높은 프레임 속도를 유지할 수 있어 실시간 시스템 구축에 적합해 본
연구에서는 YOLOv5를 객체 검출 모듈로 채택해 연구를 진행하였다.
2.3 객체 추적
객체 추적은 한 번 검출된 객체를 연속된 영상 프레임에서 일관되게 식별하여 추적하는 기술이다. 다양한 추적 기법 중 SORT[13]는 칼만 필터를 기반으로 움직임을 예측하고, 헝가리안 알고리즘을 통해 현재 프레임의 검출 결과와의 대응을 정하는 방식이다. SORT는 구조가 비교적
단순해 빠른 처리가 가능하여 널리 사용되고 있다. 그러나 외형 정보를 사용하지 않기 때문에 가려짐이나 객체 간 유사도가 높은 환경에서는 ID가 자주
바뀌는 한계가 있다.
DeepSORT[14]는 이러한 한계를 보완하기 위해 등장한 방식으로, 객체의 appearance embedding을 추가하여 외형을 기반으로 한 연관 판단을 가능하게
하였다. 움직임 모델과 시각적 특징을 함께 활용하여 데이터 연계를 수행해 복잡한 장면에서도 비교적 안정적으로 ID를 유지할 수 있다.
이에 따라 본 연구에서는 YOLOv5의 검출 결과를 활용하여 DeepSORT를 통해 일관된 ID 추적을 수행하는 구조를 적용하였다.
3. 제안 방법
본 연구에서는 기존의 다중 카메라 기반 객체 검출 및 추적 시스템의 한계를 개선하기 위해, 파노라마 영상 정합과 객체 검출 및 추적을 통합한 시스템을
그림 1과 같이 제안한다. 제안한 시스템은 서로 다른 카메라에서 획득된 영상을 입력으로 받아 파노라마 영상 정합 모듈을 통해 하나의 넓은 시야를 가진 단일
영상으로 변환 후 YOLOv5로 객체를 검출하며, 이후 DeepSORT를 통해 객체를 추적한다.
3.1 다중 카메라 시스템 구성도 및 보정 과정
본 연구에서 사용된 다중 카메라 기반 파노라마 영상 정합 시스템은 그림 2와 같이 좌·중앙·우의 세 대의 광시야 카메라로 구성된다. 약 60°씩 겹치는 형태로 배치하여 전체 약 180°에 이르는 시야를 확보하도록 설계하였다.
이러한 중첩 배치는 각 카메라 간 공통 관측 영역을 확보함으로써 특징점 기반 정합 과정에서 필요한 대응점을 추출할 수 있도록 한다.
시스템 구성 이후에는 정확한 파노라마 정합을 위해 각 카메라 내부 파라미터와 렌즈 왜곡을 보정하는 과정이 필요하다. 본 연구에서는 OpenCV의 카메라
캘리브레이션 알고리즘을 기반으로 체커보드 패턴(25mm, 10×7 코너)을 활용하여 각 카메라를 독립적으로 보정하였다.
캘리브레이션 과정은 다음과 같은 흐름으로 이루어진다. 먼저, 각 카메라에 대해 체커보드를 서로 다른 거리와 기울기에서 촬영하여 다양한 시점 정보를
충분히 확보한다. 이렇게 수집된 이미지에 대해 OpenCV의 코너 검출 방법을 적용하여 체커보드의 패턴 내부 코너들을 자동으로 검출한다. 이후 이
2차원 코너 좌표와 체커보드의 실제 3차원 공간좌표를 대응시켜 내부 파라미터(초점거리 fx, fy 및 주점 cx, cy)와 렌즈 왜곡 계수(방사형
왜곡 k1, k2, k3 및 접선 왜곡 p1, p2)를 계산한다. 마지막 단계에서는 이 초깃값을 기반으로 재투영 오차가 최소가 되도록 비선형 최적화를
수행해 최종 보정 값을 얻는다.
이와 같은 절차를 통해 별도의 전문 장비 없이 체커보드 패턴만으로 각 카메라의 내부 파라미터와 렌즈 왜곡 계수를 정확하게 산출할 수 있다. 보정된
파라미터는 원본 영상에 적용되어 기하학적 왜곡이 최소화된 기준 프레임을 구성하는 데 활용되며, 이는 이후 단계에서 수행되는 영상 정합의 신뢰도를 높이는
기반이 된다. 특히 광시야 렌즈에서 두드러지게 나타나는 주변부 방사형 왜곡을 효과적으로 보정함으로써, 특징점 추출과 매칭 과정에서 불필요한 오차가
줄어들고 어파인 변환 정렬의 정확도를 안정적으로 확보할 수 있다.
그림 3. 원통형 투영 변환의 비교 (a) 원통형 투영 변환 전: 서로 다른 카메라 시점으로 인해 실제 수평 구조물이 각 영상에서 상이한 기울기로
나타난 모습 (b) 원통형 투영 변환 후: 수평 구조물이 일관되게 정렬된 결과
Fig. 3. Comparison of cylindrical projection transformation (a) Before cylindrical
projection transformation: Horizontal structures appearing with different tilts due
to viewpoint differences among cameras (b) After cylindrical projection transformation:
Horizontally aligned structures
3.2 원통형 투영 변환
앞서 캘리브레이션으로 보정된 영상의 시야 왜곡을 줄이고 카메라 간의 공통 관측 영역의 기하학적 일관성을 확보하기 위해 원통형 투영을 적용하여 변환한다.
원통형 투영은 수평 방향 직선을 보존하는 특성이 있어, 복수의 영상을 좌우로 연결하는 과정에서 직선 구조가 휘거나 꺾이는 현상을 효과적으로 억제할
수 있다. 그림 3(a)에서 보이는 것처럼, 원본 영상에서는 서로 다른 카메라 시점으로 인해 화면 상단의 수평 구조물이 각 영상에서 상이한 기울기로 나타난다. 이러한 기울기
불일치는 파노라마 정합 과정에서 영상 경계부의 부자연스러운 연결을 유발하는 주요 원인이 된다. 반면, 원통형 투영을 적용한 그림 3(b)에서는 수평 구조물의 기울기가 일관되게 보정되어, 정합 및 블렌딩 이후에도 영상의 시각적 일관성이 유지됨을 확인할 수 있다. 또한 세 카메라 영상을
동일한 반지름 R의 원통에 투영하면 중복되는 구간이 거의 일정한 폭의 밴드 형태로 형성된다. 이러한 특성 덕분에 특징점이 중첩 구간 전반에 고르게
분포하게 되어 RANSAC 기반 이상점 제거의 안정성을 높이며, 이후 블렌딩 마스크 설계 또한 단순해진다. 원통형 투영의 기본 사상[3]은 다음과 같다.
여기서 $(X,Y,Z)$는 카메라 좌표계에서의 직교좌표이며, $f$는 초점거리를 의미한다. $(\theta, h)$는 공간 직교좌표에서 초점거리를
가지는 원거리 투영을 원통 좌표로 사상한 것을 의미하며, 평면 영상 픽셀 좌표 $(u, v)$는 다음과 같이 표시된다.
그림 4. 파노라마 영상 정합을 위해 SuperPoint 모델로 추출된 특징점 분포
Fig. 4. Distribution of feature points extracted using SuperPoint for panorama image
registration
그림 5. 브루트 포스 매칭을 이용한 인접 영상 간 특징점 매칭 결과
Fig. 5. Feature point correspondences between adjacent images using brute-force matching
그림 6. RANSAC 알고리즘을 적용하여 잘못된 특징점 매칭을 제거한 결과
Fig. 6. Result of outlier removal using RANSAC
$(c_x, c_y)$는 파노라마 캔버스의 기준점을 의미하며, $f$는 원통 표면의 반지름에 대응하는 초점거리로 각도 좌표를 픽셀 좌표로 변환하는
스케일 역할을 한다. 원통형 투영에서는 수평 방향이 수평 방향은 각도 $\theta$로 비례 이동하고, 수직 방향은 기존의 직진성을 유지한다. 이러한
원통형 투영 방식은 넓은 대각 시야를 요구하는 파노라마 영상 생성에 적합하며, 투영 변환 이후 오버랩 영역이 일정한 폭으로 유지되어 특징점 매칭 분포가
균질해지고 블렌딩 품질 역시 안정적으로 확보된다.
3.3 특징점 매칭 및 이상점 제거
원통형 투영 변환이 적용된 영상에서는 인접 프레임 간 정합을 수행하기 위해 먼저 안정적인 로컬 특징을 확보해야 한다. 본 연구에서는 2장에서 소개한
SuperPoint 모델[5]을 특징점 추출 단계에 적용하였다. SuperPoint는 다양한 환경 변화에서도 일관된 특징점을 제공하므로, 원통형 투영 후 영상에서도 대응점 생성을
위한 기반으로 사용하기에 적합하다. 그림 4는 원통형 투영이 적용된 영상에서 SuperPoint를 통해 추출된 특징점 분포를 보여주고 있다.
특징점이 추출되면, 각 특징점에 대한 기술자는 L2 거리 기반 브루트 포스 매칭(Brute-Force Matching)[15]으로 비교한다. 초기 매칭 단계에서 발생할 수 있는 불확실성을 줄이기 위해 Lowe 비율 검정을 먼저 적용하여 잘못된 후보 매칭을 제거하며, 특정
영역에 매칭이 과도하게 집중되는 현상이 있어, 이를 방지하기 위해 공간 분포를 균형화하는 절차를 함께 수행한다. 그림 5와 같이 특징점 매칭이 나타나게 된다. 하지만 보다시피 인접 한 부분 또는 정확한 부분에만 있는 것이 아니여서 RANSAC[6]을 이용해 이상점을 제거하고 유효한 대응점만을 선별하였다. 일정 수 이상의 신뢰할 수 있는 매칭 쌍이 확보되면, 두 영상 사이의 관계를 설명하는 어파인
변환 행렬[13]을 추정하였다. 변환은 아래와 같은 일반적인 2차원 어파인 모델로 표현된다.
3.4 파노라마 정합 및 블렌딩 과정
앞 단계에서 계산된 어파인 변환 행렬을 이용해 각 영상을 공통 좌표계로 정렬하는 과정이 이어진다. 먼저 중앙 영상을 기준으로 좌측 영상을 정렬하고,
정렬된 결과에서 유효 영역을 분리하기 위해 각 영상의 마스크를 구성한다. 좌픅 영상의 마스크는 변환이 적용되지 않은 원래 좌표계를 기준으로 구성하고,
중앙 영상은 앞서 구한 변환 행렬을 적용한 뒤 동일 좌표계에서 대응하는 마스크를 다시 생성한다. 두 마스크의 교차 영역이 실제로 블렌딩이 이루어지는
중첩 구간이 된다.
이 중첩 영역에서는 알파 값을 기반으로 한 블렌딩을 수행하여 두 영상의 경계를 부드럽게 이어지도록 가중치를 점진적으로 조정한다[3].
색상 차이나 밝기 차이가 존재하는 경우에도 이러한 방식은 경계면의 이질감을 완화하여, 정합된 영상의 시각적 일관성을 높여준다. 이렇게 통합된 좌·중앙
영상은 확장된 단일 시야를 형성하며, 동일한 정합 및 블렌딩 절차를 우측 영상과 좌·중앙 영상에 적용함으로써 최종적인 파노라마가 만들어진다.
3.5 객체 검출 및 추적
파노라마 영상이 구성된 이후에는 단일 시야 내에서 객체를 검출하고, 시간 축을 따라 연속적으로 추적하는 단계가 수행된다. 본 연구에서는 실시간 처리를
고려하여 YOLOv5[7] 경량 모델을 객체 검출기로 사용하였으며, 모델을 ONNX 형식으로 변환한 후 TensorRT FP16 엔진으로 최적화하여 추론 속도를 향상시켰다.
검출된 바운딩 박스는 이후 DeepSORT 추적 모듈에 전달된다. DeepSORT[13]는 칼만 필터를 이용해 각 객체의 위치와 속도를 추정하며, 프레임 간 이동 경향을 모델링하여 단기적인 시점 변화나 가려짐 상황에서도 추적 안정성을
확보한다.
그림 7. 파노라마 영상 기반 객체 검출 및 추적 결과 예시. 각 프레임에서 사람 객체에 대해 검출된 바운딩 박스와 추적 ID가 함께 표시된 결과를
나타낸다
Fig. 7. Example results of object detection and tracking on a panoramic image. Bounding
boxes and tracking IDs for detected person objects are shown in each frame
4. 실 험
4.1 실험 환경
본 시스템은 NVIDIA Jetson AGX Orin 플랫폼을 기반으로 구현되었으며, 소프트웨어 환경은 JetPack 5.1.2, Ubuntu 20.04,
PyTorch 1.12로 구성하였다. 세 대의 카메라는 시야가 부분적으로 중첩되도록 배치하여 영상을 수집하였고, 각 카메라 스트림은 비동기 방식으로
실시간 수신하였다. 입력 영상은 연산 부하를 고려해 480×270 해상도로 크기 조정을 한 뒤 모든 정합 및 검출·추적 모듈에 전달하였다.
4.2 처리 속도 비교 실험
제안한 파노라마 기반 처리 방식의 시간적 효율성을 검증하기 위해, 기존의 개별 카메라별 객체 검출·추적 방식과의 추론 속도를 비교하였다. 두 방식
모두 동일한 연산 환경에서 실행하였으며, 초당 프레임 수(Frames Per Second, FPS)를 주요 성능 지표로 활용하였다. 평균 처리 속도는
파노라마 정합, 객체 검출 및 추적을 포함한 전체 처리 파이프라인을 기준으로, 100프레임 연속 처리한 결과의 평균값으로 측정하였다.
표 1. 구성 별 평균 처리 속도. 구성 (4)는 3개의 영상에 각각 알고리즘을 적용한 결과이다.
Table 1. Average FPS (Frame Per Second) for each configuration. (4) indicates the
result obtained by applying the algorithm to each of the three videos individually
|
구성
|
파노라마 정합
|
YOLOv5
|
DeepSORT
|
FPS
|
|
(1)
|
○
|
|
|
17.21
|
|
(2)
|
○
|
○
|
|
14.85
|
|
(3)
|
○
|
○
|
○
|
10.33
|
|
(4)
|
|
○
|
○
|
6.44
|
표 1에서 구성 (1)은 파노라마 정합만 수행하고 객체 검출 및 추적 알고리즘을 적용하지 않은 경우로, 파노라마 영상 생성 단계의 순수 처리 속도를 확인하기
위한 기준 설정이다. 이 경우 평균 처리 속도는 17.21FPS로, 이후 구성들과 비교했을 때 가장 높은 값을 보인다. 이는 객체 검출 및 추적 연산이
포함되지 않아 상대적으로 연산 부담이 낮기 때문이다. 구성 (2)는 파노라마 정합 이후 YOLOv5 기반 객체 검출만을 수행하고, 객체 추적 단계는
포함하지 않은 경우이다. 이때 평균 처리 속도는 14.85FPS로 측정되었으며, 이는 구성 (1) 대비 객체 검출 연산이 추가됨에 따라 처리 속도가
감소한 결과이다. 구성 (3)은 파노라마를 구성한 뒤 단일 영상에서 객체 검출 및 추적을 수행한 경우이며, 측정된 평균 처리 속도는 10.33FPS이다.
반면 구성 (4)는 파노라마 정합을 수행하지 않고 세 개의 원본 영상을 각각 독립적으로 처리한 경우로, 평균 처리 속도는 6.44FPS에 머물렀다.
두 방식의 처리 속도 차이는 연산이 수행되는 구조적 차이에 서 비롯된다. 파노라마 방식은 세 영상을 정합하여 단일 입력으로 처리하므로, 객체 검출
및 추적 연산이 한 번만 수행된다. 반면 개별 영상 기반 방식은 각 카메라 영상에 대해 동일한 검출 및 추적 과정이 반복되기 때문에 총 연산량이 증가한다.
이러한 연산 구조의 차이로 인해 파노라마 기반 방식이 표 1에서 제시된 것처럼 더 높은 평균 처리 속도를 보여준다.
4.3 객체 검출 성능 분석
객체 검출 성능 평가는 실내 환경에서 직접 촬영한 파노라마 영상 데이터셋을 기반으로 수행하였다. 데이터셋은 총 50프레임의 파노라마 영상으로 구성되며,
각 프레임에는 2명의 사람 객체가 포함되어 있다. 각 영상에 대한 정답 박스는 수작업으로 바운딩 박스를 생성하여 구축하였으며, 이를 기준으로 IoU
임곗값 변화에 따른 AP(Average Precision)를 산출하였다. IoU 0.50에서 0.95까지 임곗값을 단계적으로 증가시키며 계산한 결과는
표 2에 정리되어 있다. 비교적 낮은 임곗값 구간에서는 대부분의 객체가 안정적으로 검출되어 AP가 0.99 수준으로 유지되었다. 특히 IoU 0.50에서
0.60 구간은 0.99 이상의 높은 정밀도를 보이며, 모델이 파노라마 영상에서도 신뢰도 높은 박스 예측을 수행함을 확인할 수 있다.
표 2. IoU 임곗값 변화에 따른 객체 검출 성능(AP) 요약
Table 2. Summary of object detection performance (AP) according to IoU threshold variation
|
IoU Threshold
|
AP
|
|
0.50
|
0.9925
|
|
0.55
|
0.9915
|
|
0.60
|
0.9900
|
|
0.65
|
0.9896
|
|
0.70
|
0.9606
|
|
0.75
|
0.8060
|
|
0.80
|
0.4296
|
|
0.85
|
0.3655
|
|
0.90
|
0.3163
|
|
0.95
|
0.1710
|
|
mAP@0.5:0.95
|
0.70126
|
그림 8. 파노라마 영상에서의 객체 검출 결과와 정답 비교.(초록색 박스는 정답 바운딩 박스, 기타 색상의 박스는 검출 결과를 나타냄.)
Fig. 8. Comparison between object detection results and GT bounding boxes in the panoramic
image (green boxes represent GT bounding boxes, while boxes in other colors indicate
detection results)
임곗값이 0.70 이상으로 증가하면 더 엄격한 박스 정합 기준이 적용되기 때문에 AP가 점진적으로 감소하는 경향이 나타난다. IoU 0.75에서는
0.806으로 떨어지며, 0.80 이상에서는 경계 정밀도가 크게 요구되는 상황에서 성능 저하가 두드러진다. 이는 파노라마 구조 특성상 원본 영상 대비
객체 외곽선 근처에 약간의 기하학적 변형이 발생할 수 있는 점과도 관련이 있다. 전체 구간을 통합하여 계산한 mAP@0.5:0.95는 0.70126으로
측정되었다. 이는 넓은 시야의 파노라마 입력에서도 모델이 일정 수준 이상의 균형 잡힌 검출 성능을 유지함을 의미하며, 후속 단계인 추적 및 행동 분석
작업을 수행하기에 충분한 검출 품질을 제공한다.
5. 결 론
본 논문에서는 다중 카메라로부터 획득한 영상을 파노라마로 정합한 후, 단일 시야 내에서 객체 검출 및 추적을 수행하는 통합 시스템을 제안하였다. 기존의
다중 카메라 기반 객체 검출 및 추적 시스템은 각 카메라 영상에 대해 독립적으로 객체를 처리한 뒤 결과를 통합하는 구조로 인해 연산 중복, 객체 ID
불일치, 실시간 처리 한계 등의 문제를 가진다. 이러한 구조적 한계를 개선하기 위해 본 논문에서는 파노라마 영상 기반 단일 시야 처리 방식을 적용하였다.
제안한 시스템은 원통형 투영을 통해 카메라 간 기하학적 왜곡을 완화하고, SuperPoint 기반 특징점 추출과 RANSAC 알고리즘을 이용한 이상점
제거를 통해 안정적인 영상 정합을 수행한다. 이후 어파인 변환과 알파 블렌딩을 적용하여 시각적으로 일관된 파노라마 영상을 생성하고, 생성된 파노라마
영상에 대해 YOLOv5와 DeepSORT를 적용함으로써 객체 검출 및 추적을 수행한다. NVIDIA Jetson AGX Orin 환경에서 수행한
실험 결과, 제안한 파노라마 기반 처리 방식은 기존의 카메라별 독립 처리 방식 대비 평균 처리 속도가 향상됨을 확인하였다. 이는 객체 검출 및 추적
연산을 단일 파노라마 영상에 대해서만 수행함으로써 전체 연산 구조가 단순화된 데 기인한다. 또한 파노라마 영상 환경에서도 객체 검출 성능과 추적 안정성이
유지됨을 실험을 통해 확인하였다. 다만, 원통형 투영 및 영상 정합 과정에서 발생하는 미세한 기하학적 변형으로 인해 높은 IoU 임곗값 구간에서는
객체 검출 성능이 일부 감소하는 경향이 나타났다. 향후 연구에서는 이러한 변형을 최소화하기 위한 정합 기법의 개선과 더 다양한 환경에서의 실험을 통해
시스템의 일반화 성능을 향상시킬 예정이다. 또한 복잡한 가림 상황과 다중 객체 환경에서도 보다 안정적인 추적이 가능하도록 시스템을 확장할 계획이다.
Acknowledgements
This work was partially supported by the Institute of Information & Communications
Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT)
(IITP-2025-RS-2020-II201462, 50%); in part by Korea Evaluation Institute of Industrial
Technology (KEIT) under Grant 20026447; and the Regional Innovation System & Education
(RISE) program funded by the Ministry of Education (MOE) and Chungcheongbuk-do (2025-RISE-11-014-03).
References
Wei Lyu, Zhong Zhou, Lang Chen, Yi Zhou, 2019, A survey on image and video stitching,
Virtual Reality & Intelligent Hardware, Vol. 1, No. 1, pp. 55-83

Z. Tang, M. Naphade, M.-Y. Liu, X. Yang, S. Birchfield, R. Kumar, D. Anastasiu, J.-N.
Hwang, 2019, CityFlow: A City-Scale Benchmark for Multi-Target Multi-Camera Vehicle
Tracking and Re-Identification, pp. 8797-8806

R. Szeliski, 2006, Image Alignment and Stitching: A Tutorial, Foundations and Trends
in Computer Graphics and Vision, Vol. 2, No. 1, pp. 1-104

M. Brown, D.G. Lowe, 2007, Automatic Panoramic Image Stitching using Invariant Features,
Int J. Comput Vision, Vol. 74, pp. 59-73

D. DeTone, T. Malisiewicz, A. Rabinovich, 2018, SuperPoint: Self-Supervised Interest
Point Detection and Description, pp. 224-236

M. A. Fischler, R. C. Bolles, 1981, Random Sample Consensus: A Paradigm for Model
Fitting, Communications of the ACM, Vol. 24, No. 6, pp. 381-395

G. Jocher, A. Chaurasia, J. Qiu, 2024, YOLOv5: Implementation and Benchmarks, arXiv
preprint, arXiv:2407.20892

D. G. Lowe, 2004, Distinctive Image Features from Scale-Invariant Keypoints, Int.
J. Computer Vision, Vol. 60, No. 2, pp. 91-110

H. Bay, A. Ess, T. Tuytelaars, L. Van Gool, 2008, Speeded-Up Robust Features (SURF),
Computer Vision and Image Understanding, Vol. 110, No. 3, pp. 346-359

E. Rublee, V. Rabaud, K. Konolige, G. Bradski, 2011, ORB: An Efficient Alternative
to SIFT or SURF, pp. 2564-2571

J. Redmon, A. Farhadi, 2018, YOLOv3: An Incremental Improvement, arXiv preprint, arXiv:1804.02767

A. Bochkovskiy, C.-Y. Wang, H.-Y. M. Liao, 2020, YOLOv4: Optimal Speed and Accuracy
of Object Detection, arXiv preprint, arXiv:2004.10934

A. Bewley, Z. Ge, L. Ott, F. Ramos, B. Upcroft, 2016, Simple Online and Realtime Tracking,
pp. 3464-3468

N. Wojke, A. Bewley, D. Paulus, 2017, Simple Online and Realtime Tracking with a Deep
Association Metric, pp. 3645-3649

G. Bradski, A. Kaehler, 2008, Learning OpenCV: Computer Vision with the OpenCV Library

저자소개
She is currently pursuing a B.S. degree in the Department of Intelligent Robotics
Engineering at Chungbuk National University, Korea. Her research interests include
deep learning and computer vision.
He received the B.S. degree in Electronic Engineering from Chungbuk National University,
Korea, in August 2023, and the M.S. degree in Intelligent Robotics Engineering from
Chungbuk National University, Korea, in August 2024. He is currently working toward
the Ph.D. degree in the Department of Intelligent Robotics Engineering at Chungbuk
National University, since September 2024. His research interests include computer
vision, deep learning, object tracking, and autonomous driving.
He received the Ph.D. degrees in electrical engineering and computer science from
the Korea Advanced Institute of Science and Technology (KAIST), Daejeon, Republic
of Korea, in 2009. He is currently an Associate Professor with Chungbuk National University.
His research interests include network compression, low-level image processing, computational
photography, and medical image processing.