Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 70, No. 1, p.168-175

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 4 December 2020Revised : 29 December 2020Accepted : 29 December 2020

DOI :

http://doi.org/10.5370/KIEE.2021.70.1.168

A Novel Multi-Object Distinction Method using deep learning

딥 러닝을 이용한 새로운 다중 객체 구별 방법

오세운 (Se-woon Oh) ¹iD 이창현 (Chang-hyun Lee) ¹iD 김선목 (Sun-mok Kim) ¹iD 임덕진 (Deok-jin Lim) ²iD 이기백 (Ki-beak Lee) ^†iD

(Dept. of Electrical Engineering, KwangWoon University, South Korea.)
(Geumpoong Corp., South Korea.)

^†Corresponding Author : Dept. of Electrical Engineering, KwangWoon University, Korea.

E-mail : kblee@kw.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

In this paper, we propose a novel multi-object distinction method with class-agnostic object detection and class retreival. Multi-object distinction is usually divided into the processes of detecting and classifying an object. Since it is common for industrial applications to add new kinds of objects to be recognized, it is inefficient to re-train the system every time the new object is added. Thus, the propose method employs two deep learning models to solve this problem. 1) Class agnostic object detection model to predict the bounding boxes regardless of the classes of objects and 2) Class retrieval model to determine the classes of the objects. The experimental results show that the proposed method successfully detects and classifies the both experienced and inexperienced objects: the final classification accuracy for 15 learned objects was 98.0%, and for the other 30 new objects that had not been learned. the accuracy was 87.7% on average.

Key words

Class-Agnostic Object Detection, Image Retrieval, Deep Learning

1. 서 론

물류 센터에서의 물류 자동화 시스템은 기업의 생산성과 지속 성장성에 지대한 영향을 끼치므로 가장 중요하고 도전적인 문제이다. 하지만 여전히 대부분의 물류센터에서는 사람이 직접 분류 작업을 수행하고 있고, 이로 인해 검출과 피킹 시스템 사이에 병목현상이 일어난다. 완전한 물류 자동화 시스템을 위해서는 물류 상자 내의 다양한 객체들 가운데에서 기계가 잡고자하는 객체를 정확히 잡는 과정까지 자동화되는 것이 요구된다. 이를 위해서는 다중 객체 구별이 필수적이다.

다중 객체 구별 방법은 대표적으로 분할(segmentation) 모델, 객체 탐지(object detection) 모델이 있다^(1-⁷⁾. 이 기존 방법들을 물류 자동화에 바로 적용하기에는 공통적인 한계가 있는데, 첫째로 학습을 위한 대규모 데이터 세트가 필요하다는 것이고, 둘째는 새로운 상품이 추가될 때마다 새로운 상품의 데이터 세트를 다시 모으고 다시 학습해야 하는 비효율이 발생한다는 것이다. 이 문제들로 인해 실용성이 떨어지고 실제 물류 센터 현장에 아직 활용이 된 바 없다.

본 논문에서는 이 두 가지 문제점을 해결하기 위해 새로운 모델을 제안한다. 우리의 모델은 객체 탐지를 위해, 1) 클래스를 구분하지 않는 객체 탐지 모델과 2) 객체 분류를 위한 클래스 검색 모델로 구성된다. 먼저 클래스를 구분하지 않는 객체 탐지 모델에서는 객체들이 들어 있는 물류 상자 이미지를 입력으로 받아 물류 상자 내의 모든 객체를 하나의 클래스로 각각 탐지한다. 클래스 검색 모델에서는 각각 탐지된 객체 이미지를 받아 소수의 레퍼런스 이미지와 비교하여 클래스를 분류한다. 이 과정은 기존에 retrieval process라고 잘 알려진 바 있다⁽⁸⁾. 기존의 다중 객체 구별 모델들과 비교해 우리의 모델은 두 가지 장점이 있다. 첫째 클래스를 구분하지 않기 때문에 학습하지 않은 객체도 탐지할 수 있다. 이 모델을 사용해서 반자동 데이터 세트 생성이 가능하고 초기 학습 데이터 세트를 구축하는데 시간을 절약할 수 있다. 둘째, 클래스 검색 모델을 사용했기 때문에, 학습하지 않은 객체도 분류를 할 수 있다. 그래서 새로운 객체를 추가하더라도 데이터를 추가하거나 학습을 다시 하지 않아도 되고 단순 레퍼런스 이미지를 몇 장 추가하는 것으로 충분하다.

실험에서는 제안된 반자동 데이터 세트 생성 절차를 통해 만든 데이터 세트로 학습한다. 테스트는 그림 1에서 보이는 것과 같이 3가지 유형의 데이터 세트로 진행한다. 첫 번째 세트는 학습한 클래스로 이루어져 있고 두 번째 세트는 학습하지 않았지만 비슷한 유형의 클래스로 이루어져 있다. 마지막 세트는 전혀 다른 상품 영역의 데이터로 구성되어 있다. 위의 3가지 테스트 세트로 모델의 성능을 검증하였다.

2. 본 론

2.1 피킹 시스템을 위한 객체 인식의 기존 연구 동향

객체를 인식하고 분류하기 위한 연구는 분할^(1,^2,^3,^5,⁶⁾, 객체 탐지^(4,⁹⁾의 두 가지 범주로 나눌 수 있다. 분할은 이미지에서 픽셀(pixel)을 분류하는 과정이며 객체 탐지는 경계 상자(bounding box)를 이용하여 객체 영역을 인식하고 상자 내의 객체를 분류하는 과정이다. 두 접근법 모두 데이터가 충분할 경우 학습된 객체 클래스에 대한 인식 및 분류의 성공적인 결과를 보여주었다. 그러나 두 가지 모두 학습용 데이터와 다른 클래스의 객체들에 대해 잘 수행하지 못했다. 이런 객체들의 경우 추가 데이터 수집 및 재학습이 필요하다. 최근에 이러한 문제점을 해결하기 위해 이미지 검색을 이용하여 알지 못하는 객체들을 다시 학습하지 않고 선택과 배치하는 것이 제안되었다⁽¹⁰⁾. 이 방법은 객체의 레퍼런스 이미지들(reference images)과 비교했을 때 기존 객체와 새로운 객체를 인식하며, 결과적으로 방해되는 장애물들이 있을 때 새로운 객체를 집어서 일치시킬 수 있다. 그러나 이 방법은 로봇 팔이 객체를 하나씩 골라 촬영하여 분류해야 한다는 한계가 있어 산업용으로 사용하기에는 효율적이지 않다.

그림. 1. 제안한 방법의 결과 샘플

Fig. 1. A result sample of the proposed method

그림. 2. 제안하는 방법의 전체 파이프라인 구조

Fig. 2. The overall pipeline of the proposed method

2.2 이미지 검색을 위한 거리 학습의 기존 연구 동향

이미지 검색의 목표는 레퍼런스 이미지들 중에서 주어진 쿼리 이미지(query image)와 가장 유사한 이미지를 찾는 것이다. 왜냐하면 쿼리와 레퍼런스 이미지가 항상 학습된 클래스에 포함되지 않기 때문에 두 이미지의 유사성을 파악하는 것이 중요하다. 이를 위해 가장 유용한 접근법 중 하나는 거리 학습(Metric learning)이다. 거리 학습을 통해 이미지에 대한 적절한 임베딩 벡터(embedding vector)를 찾을 수 있다면, 유사한 이미지에 대한 해당 임베딩 벡터가 가깝게 위치된다. 이것은 이미지 검색 작업을 수행하는 데 사용될 수 있으며 클래스의 레퍼런스 이미지가 주어지는 경우에만 모든 이미지를 분류할 수 있다.

거리 학습에 사용되는 잘 알려진 손실 함수들(Loss functions) 중 하나는 삼중 손실(Triplet loss)⁽¹¹⁾이다. 삼중 손실은 같은 클래스의 거리를 최소화하고 다른 클래스 간 거리를 최대화한다. 데이터 세트의 삼중 튜플(triplet tuple)은 앵커(anchor), 같은 클래스 샘플 중 하나인 양(positive)의 샘플, 다른 클래스 샘플 중 하나인 음(negative)의 샘플 로 구성된다. 따라서 샘플 수의 세제곱에 비례하여 전체 데이터 수가 증가한다. 즉, 유용한 삼중 튜플만 샘플링 하는 것이 중요하다. 이러한 샘플링 문제 해결을 위해 반경도(Semi- hard) 샘플링⁽¹²⁾과 거리 가중(Distanced weighted) 샘플링⁽¹³⁾이 도입되었다.

최근에는 원래의 데이터 세트⁽¹⁴⁾에 근접한 소수의 프록시(Proxy)로 문제를 해결했다. 이 방법은 프록시를 최적화하기 위해 NCA(Neighborhood component analysis) 손실 함수⁽¹⁵⁾를 사용한다. 더 나아가 NCA 손실 대신 정규화 된 소프트맥스(Softmax) 손실⁽⁸⁾을 사용하여 결과를 더욱 개선하여 이미지 검색 분야에서 최고를 이루었다.

2.3 제안하는 방법의 전체 파이프라인 구조

다중 객체 구별을 위한 전체 파이프라인은 그림 2에 제시되어 있다. 물류 상자 내부에 다양한 종류의 상품이 포함된 이미지가 클래스를 구분하지 않는 객체 탐지 모델의 입력으로 들어가서, 물류 상자 내에 있는 모든 상품의 경계 상자 정보가 출력되어 나온다. 이 경계 상자 정보를 바탕으로 물류 상자 내부에 있는 상품들을 오려낸 이미지들은 클래스 검색 모델에 입력된다. 클래스 검색 모델은 각각의 상품 이미지를 임베딩하고, 동일한 임베딩 모델을 사용하여 벡터화 된 레퍼런스들과의 거리비교를 하여 레퍼런스 중에서 가장 거리가 가까운 레퍼런스의 클래스로 분류한다. 우리가 제안하는 방법은 학습 중에 학습한 클래스와 레퍼런스의 클래스가 일치하지 않더라도 물류 상자 안에서 검출된 상품을 가장 거리가 가까운 레퍼런스 클래스로 분류할 수 있다.

그림. 3. 클래스를 구분하지 않는 모델의 구조

Fig. 3. The structure of the Class-agnostic object detection model

그림. 4. 클래스 검색 모델의 구조

Fig. 4. The structure of the class retrieval model

2.4 클래스를 구분하지 않는 객체 탐지 모델

클래스를 구분하지 않는 객체 탐지 모델은 잘 알려진 객체 탐지 네트워크 중 하나인 YOLO v3의 tiny 버전을 기반으로 한다. 이는 다른 객체 탐지 모델보다 상대적으로 빠르고 정확하며 가볍다는 장점이 있다. 모델의 상세한 구조는 그림 3에 설명되어 있다. 이미지를 모델에 입력하면 다음과 같이 크기 26 × 26의 격자(cell)에 대해 3개의 앵커를 둔 $V$벡터(1)를 얻는다.

(1)

$V=$$\left\{\begin{aligned}x_{1},\:y_{1},\:w_{1},\:h_{1},\:c_{1},\:v_{1},\:x_{2},\:y_{2},\:w_{2},\:h_{2},\:c_{2},\:v_{2},\:\\ x_{3},\:y_{3},\:w_{3},\:h_{3},\:c_{3},\:v_{3}\end{aligned}\right\}$

여기서 $x_{k}$, $y_{k}$, $w_{k}$, $h_{k}$, $c_{k}$, $v_{k}$는 $k$번째 앵커에 대해서 각각 $x$값, $y$값, 너비, 높이, 신뢰도 수준(confidence level) 및 클래스 벡터다. 이 모델의 목적은 클래스와 관계없이 상품의 경계 상자를 추정하는 것이기 때문에 모든 상품은 하나의 클래스로 라벨이 지정된다. 즉, 모든 $v$벡터의 길이는 1이다. 이로써 YOLO v3 tiny 네트워크의 손실 함수에서 분류 손실(classifi- cation loss)이 제거되고, 따라서 모델은 경계 상자 및 신뢰도에 대한 손실에 의해 학습된다. 결과적으로, 클래스를 구분하지 않는 객체 탐지 모델은 모든 상품에 대한 경계 상자의 정확한 추정에 초점을 맞추어 학습된다.

2.5 클래스 검색 모델

클래스 검색 모델 구조의 개요는 그림 4에 나와 있다. 이 모델은 DenseNet-121 모델⁽¹⁶⁾에 기반하고 ImageNet 데이터 세트⁽¹⁷⁾를 사용하여 미리 학습된 가중치로 초기화된다. 클래스를 구분하지 않는 객체 탐지 모델에서 얻은 각 상품 이미지가 차례로 클래스 검색 모델의 입력으로 들어가면 손실 함수 평가에 사용되는 1024 크기의 벡터가 출력된다. 이 모델의 학습 과정은 최근 이미지 검색 분야에서 최첨단으로 평가되고 있는 Softmax-NCA 방법⁽⁸⁾을 기반으로 한다. 이 방법의 핵심은 Softmax-NCA 손실인데, 이 손실 함수는 기존 NCA 손실과 Softmax 개념을 결합한 형태이다. 프록시⁽¹⁴⁾ 개념은 Softmax-NCA 손실로 모델을 학습시킬 때 효율적으로 학습시키기 위해 사용된다. 프록시 개념 아래에서 두 벡터 사이의 거리를 표현하기 위해 유클리드 거리를 사용하였으며, 최종 손실 함수 $L$(2)은 다음과 같다.

그림. 5. 반자동 데이터 세트 생성 절차 순서도

Fig. 5. The flow diagram of the semi-automatic dataset generation procedure

(2)

$L(x,\:p_{y},\:p_{z},\:\sigma)=-\log\left(\dfrac{\exp\left(-\sqrt[]{\sum(x-p_{y})^{2}}\right)}{a\sum_{p_{z}\in(p_{Z}\cup p_{y})}\exp\left(-\dfrac{\sqrt[]{\sum(x-p_{z})^{2}}}{\sigma}\right)}\right)$

여기서 $x$는 목표 이미지 벡터 $p_{y}$와 $p_{z}$는 각각 $x$에 대한 양의 프록시 벡터와 음의 프록시 벡터, $\sigma$은 온도 스케일링 (tempera- ture scaling)에 대한 매개변수다. 클래스 검색 모델의 학습이 끝나면, 클래스 검색 모델을 이용한 분류 작업은 주어진 레퍼런스 클래스의 목록을 이용하여 행해진다. 목록상의 각각의 레퍼런스 클래스에 대해서, 적은 개수의 레퍼런스 이미지들이 선택되어 해당 클래스를 대표하는 레퍼런스 이미지가 된다. 그런 다음, 선택된 모든 레퍼런스 이미지는 클래스 검색 모델을 통해 벡터로 변환된다. 그 후에 쿼리 이미지가 입력될 때마다, 쿼리 이미지의 벡터와 레퍼런스 이미지들의 벡터 사이의 유클리디안 거리(Euclidean distance)가 계산된다. 마지막으로, 가장 가까운 레퍼런스 이미지가 찾아지고 이 레퍼런스 이미지가 해당하는 클래스가 쿼리 이미지의 클래스로 할당된다.

2.6 반자동 데이터 세트 생성 절차

이 절차는 두 모델에 대한 학습 데이터 세트를 생성하기 위한 시간을 절약하기 위해 설계되었다. 전체적인 과정은 그림 5에 설명되어 있다. 그림의 윗부분은 학습 데이터가 없는 초기 상태를 보여준다. 이 조건에서는 몇 가지 상품에 대한 경계 상자에 주석을 달아야 하며 각 상품에 클래스는 사람이 라벨을 붙여야 한다. 그 후, 클래스를 구분하지 않는 객체 탐지 모델과 클래스 검색 모델을 소량의 데이터로 학습시킨다. 이 모델을 통해 새로운 데이터를 반자동으로 만들 수 있다. 그림 하단에 나타낸 것과 같이 새로운 데이터가 들어오면 학습된 모델들을 사용하여 객체의 경계 상자 주석과 클래스 라벨의 초안을 생성할 수 있다. 객체 탐지모델이 클래스 구분 없이 객체를 탐지해주고, 클래스 검색 모델에서 그 객체의 벡터와 레퍼런스에 있는 이미지 백터 사이의 거리를 비교해서 클래스를 분류해준다. 부정확한 데이터를 최소화하기 위해, 클래스를 구분하지 않는 객체 탐지를 위한 데이터 생성에는 신뢰도 수준이 일정 수준 이상인 경계 상자만 사용된다. 비슷하게 클래스 검색 모델의 경우 입력 이미지 벡터와 예상된 결과 이미지 벡터 사이의 거리가 신뢰도 수준으로 사용된다. 결과적으로, 이 과정은 딥러닝 모델을 단기간에 학습할 수 있도록 사람과 데이터 세트가 수행해야 하는 작업을 효과적으로 감소시킨다.

그림. 6. 실험에 쓰인 상품의 클래스 요약

Fig. 6. The summary of the classes of the objects

3. 실험 및 결과

3.1 데이터 세트의 구성

제안된 방법을 검증하는데 사용된 모든 상품은 그림 6에 요약되어 있다. 클래스들은 각각의 다른 상품으로 구성되어 있고 학습 데이터와 시험 데이터로 나누어진다. 클래스 1-15는 학습에 사용이 되고 클래스 16-45는 시험에만 사용되는 상품이다. 클래스 1-30은 유사한 상품 영역에 속하지만 클래스 31-45는 완전히 다른 상품 영역에 속한다. 학습 데이터는 1-15의 학습 데이터로 학습을 진행하고 시험 데이터로는 쉬운 난이도인 학습한 클래스 1-15 시험 데이터와 중간 난이도인 유사한 상품을 분류하는 16-30 시험 데이터 그리고 어려운 난이도인 전혀 다른 형태의 상품인 31-45 시험 데이터로 진행을 한다.

학습 데이터 세트는 위에서 설명한 반자동 데이터 세트 생성 절차를 통해 만들어졌다. 그림 7에 나타낸 것처럼, 클래스를 구분하지 않는 객체 탐지 모델은 적은 학습 데이터만을 사용하여 모든 상품의 경계 상자를 성공적으로 추정할 수 있다. 이러한 클래스를 구분하지 않는 객체 탐지 모델의 높은 성능 때문에 반자동 데이터 세트 생성 절차도 작업 부하를 효율적으로 줄일 수 있다. 학습에 사용할 15개 상품에 대한 물류 상자 이미지를 각각 200장씩 총 3000장을 모았다. 각 물류 상자 이미지에는 1에서 15 사이의 무작위 개수의 상품이 포함되어 있다. 이러한 물류 상자 이미지들과 모든 상품의 경계 상자 정보를 포함하는 해당 주석 데이터는 짝지어 클래스를 구분하지 않는 객체 탐지 모델을 학습하는 데 사용되었다. 각 상자 이미지에는 평균 7가지의 상품이 들어있기 때문에 총 21,000개 정도의 상품 이미지에 대해 클래스당 1400개의 이미지를 획득했다. 이러한 상품 이미지와 해당 라벨 정보는 클래스 검색 모델을 학습하는 데 사용된다. 학습시간을 줄이기 위해 각 클래스당 1400개의 이미지 중 400개를 표본으로 추출해 학습에 활용했다.

시험 데이터 세트는 클래스 별로 구분하여 1-15, 16-30, 31-45 총 3개의 시험 세트로 만들었다. 각 시험 세트에 있는 15종류의 상품 중 10개 상품을 한 물류 상자에 무작위로 배치해 100개의 물류 상자 이미지를 수집했다. 따라서, 총 300개의 테스트 이미지가 클래스를 구분하지 않는 객체 탐지 모델 시험에 생성되어 사용되었다. 마찬가지로 클래스 검색 모델에 대한 시험 데이터 세트로서 45개의 클래스에 대해서 클래스당 20개의 상품 이미지를 무작위로 샘플링하여 10개의 쿼리 및 10개의 레퍼런스로 사용하였다.

3.2 클래스를 구분하지 않는 객체 탐지 모델

클래스를 구분하지 않는 객체 탐지 모델의 성능은 위에서 설명한 시험 데이터 세트를 사용하여 검증되며, 검증 지표로서 평균 정밀도(mAP)가 쓰인다. 최종 결과에 대한 신뢰도 임계값(confidence threshold)이 경험적으로 0.4로 설정되었다. 결과에 대한 mAP(mean average precision)는 0.5와 0.75 각각의 IoU(intersection over union) 임계값으로 계산되었다. 비교를 위한 기준선은 다중 라벨을 가진 표준 YOLOv3 tiny버전이다.

그림 7은 각 시험 데이터 세트에 대한 결과를 보여준다. 실제적인 관점에서, 충분한 성능을 내기 위해 필요한 학습 데이터 세트의 크기는 중요한 문제다. 따라서, 실험은 학습 데이터 클래스 1-15에 대해서 클래스당 학습 데이터의 양을 다르게 하여 수행되었다. 그 결과, 클래스 당 10개의 데이터만으로도 상대적으로 높은 평균 정밀도를 달성했고 이것은 기존의 다중 객체 인식으로 객체를 탐지방법 것보다 하나의 라벨로 학습하는 우리의 접근 방식이 작업을 더 쉽게 만들었음을 의미한다. 그림 7에서 보듯이, 클래스를 구분하지 않는 객체 탐지모델은 모든 경우에 대해 경쟁적인 성능을 보였으며, 기준 모델은 학습된 상품에 대해서만 적당한 성능을 보였다.

그림. 7. 클래스를 구분하지 않는 객체 탐지 모델 시험 결과

Fig. 7. The test results of the Class-agnostic object detection model

표 1. 이미지 검색 모델의 시험 결과

Table 1. The test results of the class retrieval model

Method	Recall 1 precision(%)
Method	Classes 1-15	Classes 16-30	Classes 31-45	Mean
Canonical image classification	99.5	-	-	-
Nearest neighbor	85.3	69.3	70.7	75.1
The proposed	98.0	87.3	88.0	91.1

3.3 클래스 검색 모델

클래스 검색 모델을 평가하기 위해 우리는 45개의 클래스를 포함하는 시험 데이터 세트를 사용한다. 45개 클래스는 15개의 학습된 클래스, 15개의 동일한 영역의 학습되지 않은 클래스와 15개의 동일하지 않은 영역의 학습되지 않은 클래스로 구성된다. 제안한 클래스 검색 모델의 성능을 검증하기 위해 재현율 1 정밀도의 측정법을 사용하였다. 재현율 1 정밀도의 측정법은 실제로 True인 데이터를 모델이 True라고 인식한 데이터의 수이다. 즉, 시험 데이터와 레퍼런스의 거리비교를 통해 가장 유사한 레퍼런스 1개의 클래스가 실제 라벨과 일치하는지 파악한 값이다. 제안한 클래스 검색 모델의 성능을 검증하기 위해 표준 이미지 분류 방법과 최근린 방법으로 비교하였다. 각 구성은 다음과 같다.

표준적인 이미지 분류 방법은 ImageNet 데이터 세트를 사용하여 사전 학습된 가중치로, 소프트맥스 교차 엔트로피 손실을 사용하여 학습된 DenseNet-121 네트워크를 초기화하는데, 이는 일반적으로 분류 모델 학습에 사용된다. 시험 데이터 세트에 있는 쿼리 이미지의 클래스를 추정하고 재현율 1 정밀도를 측정했다. 분류 방법의 한계로 인해 학습에 사용되지 않는 클래스는 분류가 불가능해 학습된 클래스의 재현율 1 정밀도만 측정했다. 그 결과, 학습된 클래스의 경우 99.5%의 높은 정밀도를 보였다.

최근린 방법(Nearest neighbor method)은 ImageNet 데이터 세트를 사용하여 사전 학습된 가중치로 DenseNet-121 네트워크를 초기화하고 추가 학습 없이 검색 접근 방식만 사용하여 쿼리 이미지의 클래스를 추정한다. 왜냐하면 미세 조정 과정이 없었기 때문에 재현율 1 정밀도는 표준 분류 방법보다 낮았다. 그러나 검색 접근 방식 때문에, 학습되지 않은 클래스의 상품을 분류할 수 있었다.

제안된 방법은 ImageNet 데이터 세트를 사용하여 사전 학습된 가중치로 DenseNet-121 네트워크를 초기화한 다음 3.3절에 묘사된 쿼리 이미지의 클래스를 추정한다. 우리는 Adam opti- mizer⁽¹⁸⁾를 학습의 최적화 도구로 사용하고, 학습률 0.001 그리고 가중치 감소는 0.0008로 설정하였다. 온도 스케일링에 대한 σ 매개변수 값은 0.07 이었다. 이 네트워크를 이용하여 가장 가까운 거리에 있는 레퍼런스 벡터를 찾아 쿼리 및 레퍼런스 이미지를 벡터화하고 클래스를 추정했다. 그 결과, 제안된 방법은 학습된 클래스에 대한 표준 이미지 분류 방법에 대해 경쟁적인 재현율 1 정밀도를 보였다. 게다가, 그것은 학습되지 않은 유사한 영역 클래스에서는 87.3%, 학습되지 않은 다른 영역 클래스에 대해서도 88%의 높은 정밀도를 보여주었다. 이 결과는 물류 센터에서 새로운 물품이 추가된 경우에도 모델의 추가 학습 없이 88%의 정확도로 새로운 물품을 분류할 수 있다는 것을 의미한다. 방법들의 전체 결과는 표 1에 요약되어 있다.

4. 결 론

본 논문에서는 물류 센터의 분류 자동화 시스템에 특화된 새로운 객체 다중 객체 구별 방법을 제안하였다. 기존 다중객체 구별 방법은 두 가지 문제점이 있다. 학습하는데 많은 데이터가 필요한 문제와 학습하지 않은 클래스는 분류 할 수 없어서 새로운 물체를 분류하기 위해서는 모델을 다시 학습해야 하는 문제이다. 제안하는 방법은 물류 상자 안에 있는 다양한 상품들을 동시에 탐지 및 분류하고 새로운 물체를 효율적으로 인식하기 위해 클래스를 구분하지 않는 객체 탐지 모델과 클래스 검색 모델을 도입하였다. 클래스를 구분하지 않는 객체 탐지모델은 몇 개의 데이터만으로 클래스에 상관없이 상품의 경계 상자를 성공적으로 추정했다. 또한 클래스 검색 모델은 상품의 클래스가 학습되었는지 여부에 관계없이 경쟁적인 인식 정확도를 보였다. 즉, 적은 양의 데이터로 학습이 가능하고 새로운 상품의 클래스도 모델의 재학습 없이 분류할 수 있어 기존에 있었던 두 가지 문제점을 해결하였다. 그리고 반자동 데이터 세트 생성 절차는 초기 데이터 세트를 구성하기 위한 작업 부하를 효과적으로 줄일 수 있다.

Acknowledgements

본 연구는 2020년도 산업통상자원부의 재원으로 한국에너지기술평가원(KETEP)의 지원(No. 20194010201830)을 받아 수행한 연구과제입니다. 이 성과는 또한 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원(No. 2019R1F1A106297912)을 받아 수행된 연구입니다.

References

Jonschkowski, Rico, 2016, Probabilistic multi-class segmen- tation for the amazon picking challenge, 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE

Matsumoto, Eiichi, ICRA 2017, End-to-end learning of object grasp poses in the Amazon Robotics Challenge, Warehouse Picking Automation Workshop (WPAW)

Morrison, Douglas, 2018, Cartman: The low-cost cartesian manipulator that won the amazon robotics challenge, 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE

Schwarz, Max, 2017, NimbRo Picking: Versatile part hand- ling for warehouse automation, 2017 IEEE International Conference on Robotics and Automation (ICRA). IEEE

Wong, Jay M., 2017, Segicp: Integrated deep semantic segmentation and pose estimation, 2017 IEEE/RSJ Inter- national Conference on Intelligent Robots and Systems (IROS). IEEE

Zeng, Andy, 2017, Multi-view self-supervised deep learning for 6d pose estimation in the amazon picking challenge, 2017 IEEE International Conference on Robotics and Auto- mation (ICRA). IEEE

Redmon, Joseph, Ali Farhadi, , Yolov3: An incremental improvement, arXiv preprint arXiv:1804.02767 (2018).

Hernandez, Carlos, 2016, Team delft’s robot winner of the amazon picking challenge 2016, Robot World Cup. Springer

Zeng, Andy, 2018, Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching, 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE

Hoffer, Elad, Nir Ailon, 2015, Deep metric learning using triplet network, International Workshop on SimilarityBased Pattern Recognition. Springer

Schroff, Florian, Dmitry Kalenichenko, James Philbin, 2015, Facenet: A unified embedding for face recognition and clustering, Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.

Wu, Chao-Yuan, 2017, Sampling matters in deep embed- ding learning, Proceedings of the IEEE International Con- ference on Computer Vision. 2017.

Movshovitz-Attias, Yair, 2017, No fuss distance metric learning using proxies, Proceedings of the IEEE Inter- national Conference on Computer Vision. 2017.

Wu, Zhirong, Alexei A. Efros, Stella X. Yu, 2018, Impro- ving generalization via scalable neighborhood component analysis, Proceedings of the European Conference on Computer Vision (ECCV). 2018.

Huang, Gao, 2017, Densely connected convolutional net- works, Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.

Russakovsky, Olga, 2015, Imagenet large scale visual recognition challenge, International journal of computer vision115.3: 211-252

Kingma, Diederik P., Jimmy Ba, 2014, Adam: A method for stochastic optimization, arXiv preprint arXiv: 1412.6980

저자소개

Sae-Woon Oh

He received the B.S. degree in Robotics from KwangWoon University, Korea in 2018.

He is currently working toward an M.S. degree in Electrical Engineering from KwangWoon Univer- sity, Korea.

Chang-Hyun Lee

He received the B.S. degree in Electronics and Information Engineering from Hansung University, Korea in 2018.

He is currently wor- king toward an M.S. degree in Electrical Engi- neering from Kwangwoon University, Korea.

Sun-Mok Kim

He received his BS degree in electrical engi- neering from Kwangwoon University, Seoul, Rep. of Korea, in 2016.

Since 2016, he has been pursuing his phD degree in the Depart- ment of Electrical Engineering, Kwangwoon University.

His research interests include rein- forcement learning and machine learning.

Deok-Jin Lim

He received a B.S degree in Electrical and Electronic Engineering from Yonsei University Seoul in 2008.

Since 2009, he has been wor- king on wind power generation, power control and electric field design.

Ki-Baek Lee

Ki‐Baek Lee received his BS and PhD degrees in electrical engineering from the Korea Advanced Institute of Science and Technology, Daejeon, Rep. of Korea, in 2005 and 2014, respectively.

Since 2014, he has been an associate professor with the Department of Electrical Engineering, College of Electronics and Information Engineering, Kwangwoon University, Seoul, Rep. of Korea.

He has researched computational intelligence and artificial intelli- gence, particularly in the area of swarm intelli- gence, multiobjective evolutionary algorithms, and machine learning.

His research interests include real‐world applications such as object detection and natural language processing.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

딥 러닝을 이용한 새로운 다중 객체 구별 방법

Abstract

Key words

1. 서 론

2. 본 론

2.1 피킹 시스템을 위한 객체 인식의 기존 연구 동향

2.2 이미지 검색을 위한 거리 학습의 기존 연구 동향

2.3 제안하는 방법의 전체 파이프라인 구조

2.4 클래스를 구분하지 않는 객체 탐지 모델

(1)

2.5 클래스 검색 모델

(2)

2.6 반자동 데이터 세트 생성 절차

3. 실험 및 결과

3.1 데이터 세트의 구성

3.2 클래스를 구분하지 않는 객체 탐지 모델

3.3 클래스 검색 모델

4. 결 론

Acknowledgements

References

저자소개

Sae-Woon Oh

Chang-Hyun Lee

Sun-Mok Kim

Deok-Jin Lim

Ki-Baek Lee

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

딥 러닝을 이용한 새로운 다중 객체 구별 방법

Abstract

Key words

1. 서 론

2. 본 론

2.1 피킹 시스템을 위한 객체 인식의 기존 연구 동향

2.2 이미지 검색을 위한 거리 학습의 기존 연구 동향

2.3 제안하는 방법의 전체 파이프라인 구조

2.4 클래스를 구분하지 않는 객체 탐지 모델

(1)

2.5 클래스 검색 모델

(2)

2.6 반자동 데이터 세트 생성 절차

3. 실험 및 결과

3.1 데이터 세트의 구성

3.2 클래스를 구분하지 않는 객체 탐지 모델

3.3 클래스 검색 모델

4. 결 론

Acknowledgements

References

저자소개

Sae-Woon Oh

Chang-Hyun Lee

Sun-Mok Kim

Deok-Jin Lim

Ki-Baek Lee

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers