• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Department of Electronics and Computer Engineering, Seokyeong University, Korea.)
  2. (Department of Electronics and Computer Engineering, Seokyeong University, Korea.)



Deep learning, Occluded Person Re-ID, Transformer, keypoint Heatmap, Cross-attention, Feature Diversity

1. 서 론

가려진 사람의 재식별(Occluded person re-identification) 문제는 다중 카메라 환경에서 얻어지는 여러 이미지 또는 동영상 중에서 특정 사람을 구별하는 재식별(1,2) 작업 중에서 목표 사람이 물체나 다른 사람에 의해 가려진 경우를 의미한다(3,4). 일반적인 재식별 문제도 시공간의 차이에 따른 배경 변화, 촬영 방향이나 각도에 따른 사람의 자세나 신체의 변화 등과 같은 다양한 요인들로 인해 난이도가 높은 편이지만, 여기에 부가해서 주변 물체 및 본인이 소지한 가방 등에 의한 신체 일부의 가려짐이 발생하거나, 타인에 의해 신체의 상당부분이 가려지기 때문에 재식별의 어려움이 가중된다. 특히, 타인에 의해 목표 사람의 신체가 가려질 경우, 가려지지 않은 부위의 형태가 상당히 축소되어 재식별이 더욱 어렵다. 또한 타인이 목표 사람을 가리는 경우, 타인이 전면에 나타나면서 목표 사람보다 형상이 크게 인식됨으로 오히려 타인에게 집중하게 되어 인식에 혼동을 일으킬 수 있다.

재식별에 대한 주요 접근법으로는 본 연구자의 이전 논문에 (5) 정리되어 있으므로, 본 논문에서는 최근에 가장 우수한 성능을 보이는 트랜스포머 기반 재식별 연구와(6,7,8) 비교를 위주로 설명한다. PAT(6)는 최초로 가려진 사람의 재식별 문제에서 다양한 사람의 부분들을 인식하기 위해 트랜스포머 인코더-디코더 구조를 적용한 연구이다. DRL-Net(7)은 물체 query를 이용하여 특징 구분(disentanglement)을 수행하고, 가려진 특징을 차별적으로 잘 분리하도록 대조(contrast) 특징 학습을 제안하였다. 앞의 두 접근법은 CNN 기반의 인코더를 사용하기 때문에, 사람의 지역적인 특징에 초점을 맞추며, CNN 특징 처리시 공간적인 정보의 양을 줄이는 단점들이 존재한다. 따라서 신체의 일부가 가려지는 상황에서의 재인식 성능 개선에 한계가 있다. 이러한 문제를 해결하기 위해, 본 논문의 기반 연구인 TransReID(8)는 전역적인 정보를 추출하고, 공간적인 정보의 양이 그대로 보존되는 자기-어텐션(Self attention) 기반의 인코더를 사용한다. 또한 Jigsaw Patch Module(JPM)을 통해 이미지의 부분 요소를 이동하고 섞음으로써 지역 특징으로 그룹화하여 강인한 인식 성능을 얻고 있다. 그러나 상기 기법들은 입력 데이터의 증강 방식의 효율성이 떨어지고, 트랜스포머의 기본 구조만을 사용하므로 개선의 여지가 있다. 또한 TransReID 논문에서 사용한 JPM 기법은 임의의 위치에서의 패치들로 구성하기 때문에 패치들의 관계성은 고려되고 있지 않다.

본 연구자의 이전 논문에서는(5) 데이터 증강(augmentation) 수행시, (8)과 같은 임의의 영역의 삭제나 위치적인 분할 삭제 대신에 사람의 키포인트 특징을 포함하는 부분만을 삭제하고, 전역 특징과 지역 특징의 강인한 표현을 위한 새로운 손실함수를 제안하여 성능을 개선하였다.

본 논문에서는 상기의 연구들을(5-8) 면밀히 검토하고 분석한 후, 다음과 같은 차별성을 제안한다. 첫째, 부분 삭제를 통한 데이터 증강 과정에, 원본 이미지에서 사람의 특징을 포함하는 부분만을 삭제한 후 히트맵을 추출한 방법에(5) 비해 히트맵을 먼저 추출한 후 임의의 신체 부분을 히트맵 상에서 삭제함으로써, 선명하고 정확한 키포인트 정보만을 포함하는 방식을 제안한다. 둘째, 가려지지 않은 사람 영역에 더욱 집중하기 위해 자세 추정 모델의 키포인트 히트맵을 사용하고, 이를 트랜스포머의 중간 층의 출력과 구조적인 교차 어텐션(주의집중, cross attention)을 제안한다. 셋째, 부분 요소들에 대한 K-menas 클러스터링을 통해 관계성을 고려한 그룹핑을 수행함으로써, 지역 특징의 표현을 강화한다.

제안된 기법을 Occluded-Duke 데이터셋에 대해서 mAP 와 Rank-1 성능을 평가하고 기존의 최신 기법과 비교한다. Occluded-Duke 데이터에 대한 최신 기법과의 비교 실험 및 Market-1501 데이터에 대한 확장 실험을 수행하여 성능 개선을 시도한다.

2. 재식별 기법

2.1 전체 구조

그림. 1. 전체 모델의 구성도

Fig. 1. Overall configuration of the proposed model

../../Resources/kiee/KIEE.2023.72.1.108/fig1.png

제안 모델의 전체 구성도가 그림 1에 나와 있다. 좌측은 임의삭제(9) 전에 히트맵을 추출하고 삭제된 영역을 히트맵 상에 반영하는 과정을 표현한다. 그리고 그림 1의 중앙에는 트랜스포머가 사람의 가려지지 않은 영역에 더욱 집중해서 학습하도록 m번째 층의 출력 결과와 히트맵간의 교차 어텐션을 수행하는 과정이 나와 있다. 이로써 기존의 기법들보다 앞 층에서 사람의 특징을 인지할 수 있다. 또한, 다양한 특징을 얻기 위해서, 트랜스포머 마지막 층 뿐만 아니라 그 직전의 층도 사용되도록 구조를 개선한 부분이 그림 1의 우측에 나와 있다. 또한 지역 특징을 구성함에 있어, 클러스터링 방식을 이용하여 패치들 간의 연관성을 비롯한 다양한 특징을 포함한다.

2.2 트랜스포머

본 논문에서는 ViT(10)를 사용하며, 이에 대한 설명은 다음과 같다. 입력 이미지 $x$ ∈ $R^{H\times W\times C}$는 선형 투영을 수행해 $\hat x$ ∈ $R^{N_{p}\times(P^{2}\times C)}$로 패치화된다. $H$, $W$, C는 각각 높이, 너비, 채널이고, $P$는 패치 크기, $N_{p}$ = $\dfrac{HW}{P^{2}}$는 패치의 수이다. 모든 패치들의 전역적인 정보를 추출하기 위해, 학습 가능한 파라미터인 클래스 토큰 $x_{cls}$가 추가된다. 각각의 패치에 순서 정보를 추가한 뒤, 트랜스포머의 입력으로 사용한다.

(1)
$z =[x_{cls},\:\hat x_{1},\:\hat x_{2},\:\cdots ,\:\hat x_{N}]+ E_{p}$

여기서, $z$ ∈ $R^{(N_{p}+1)\times E_{d}}$, $N_{p}$, $E_{d}$는 각각 트랜스포머의 패치 수, 클래스 토큰, 임베딩의 차원이다. $E_{p}$는 각 패치에 대한 공간 정보를 학습하기 위한 위치 임베딩이다. 트랜스포머 각 층은 $MSA$(Multi-head Self Attention)과 $MLP$(Multi Layer Perception)로 구성되며, 다음과 같이 표현된다.

(2)
$F(x)= MSA(\bar{x},\:\bar{x},\:\bar{x})+ x$

(3)
$MLP(z)= GELU(0,\:\bar{z}W_{1}^{f}+ b_{1}^{f})W_{2}^{f}+ b_{2}^{f}$

(4)
$L(x)= MLP(\bar{F}(x))+ F(x)$

$\bar{x}$는 층별 정규화, MLP는 두 개의 완전 연결 게층으로 구성되며 하나는 GELU 활성화 함수이다. $L(x)$는 하나의 인코더 층을 의미한다. 여러 인코더 층을 통해 더욱 정교한 특징을 얻을 수 있다.

2.3 가려진 영상의 부정확한 히트맵 개선

기존 키포인트 기반 기법에서는(11) 사람의 대략적인 위치에 대한 의미 있는 정보를 사전에 학습된 포즈 추정 모델을 통해 얻은 키포인트 히트맵을 이용한다. 이러한 기존방법은 임의삭제를 거친 이미지에서 히트맵을 추출하는데, 이는 그림 2에서 기존 방법의 결과처럼 신뢰성이 낮은 키포인트 히트맵이 생성된다는 단점이 존재한다. 따라서 제안기법에서는 임의삭제를 수행하기 전의 이미지에서 히트맵을 추출하고 해당 히트맵에 임의삭제 영역을 추가로 반영한다. 이렇게 사람의 가려지지 않은 정보에 대한 신뢰성이 높은 히트맵 $K\in R^{C\times H\times W}$을 얻는다. C는 사람의 17개 관절 포인트를 예측한 키포인트 히트맵의 채널이고 H와 W는 히트맵의 높이와 너비이다. 각 히트맵은 사람 신체에 대한 의미 있는 정보를 담고 있다. 따라서 이를 트랜스포머에 반영해서 가려지지 않은 사람 영역에 인식을 강화한다.

2.4 교차 어텐션

가려지지 않은 사람 영역에 더욱 집중하기 위해, 2.3절에서 구한 히트맵과 트랜스포머의 중간 층의 출력층 간의 교차 어텐션을 수행한다.

그림. 2. 키포인트 히트맵 결과 비교 예시

Fig. 2. Comparision of keypoint heatmaps

../../Resources/kiee/KIEE.2023.72.1.108/fig2.png

히트맵 $K$를 트랜스포머의 다중헤드 어텐션 수행을 위해, 전처리를 다음과 같이 수행하여 $K^{'}\in R^{N_{p}\times E_{d}}$를 얻는다.

(5)
$K^{'}=repeat(flatt en(AvgPooling(\sum_{i=1}^{17}K_{i})))$

$AvgPooling$은 히트맵의 공간적인 위치정보와 주변의 위치 정보를 반영하고, $flatt en$은 $N_{p}$ 차원의 히트맵의 의미 있는 정보가 담긴 벡터로 만든다. 이러한 벡터와 3.2절의 $z\in R^{(N_{p}+1)\times E_{d}}$에서 클래스 토큰을 제외한 각 열의 ($N_{p}$, 1) 벡터는 이미지에서 동일한 위치의 표현이므로 대응될 수 있다. 그리고 트랜스포머의 각 $N_{p}$에 해당하는 $E_{d}$에서의 모든 특징들에 대해서 앞에서 구한 $N_{p}$ 차원의 히트맵을 각 트랜스포머 $E_{d}$에 공통적으로 반영하기 위해 히트맵의 차원을 동일하게 만들기 위해 반복($repeat$) 한다. 이러한 키포인트 히트맵을 그림 1에서와 같이 트랜스포머의 중간 층에서의 출력 $f_{n}\in R^{(N_{p}+1)\times E_{d}}$을 query로, $f_{n}$에서의 클래스 토큰을 분리하여 연결한 히트맵 $K^{'}$를 키(key), 값(value)으로 다중헤드 어텐션을 수행하여 트랜스포머 모델이 가려지지 않은 사람 영역에 집중하도록 학습한다. 하지만 트랜스포머의 모든 $E_{d}$에 동일한 $K^{'}$를 적용할 경우 문제가 생길 수 있는데, 트랜스포머의 $E_{d}$만큼 각 패치의 표현된 특징을 가지고 있는 $f_{n}\in R^{N_{p}\times E_{d}}$에서 각 열(공통된 $E_{d}$ 위치에서의 각 ($N_{p}$, 1))이 어떤 의미와 연관성을 가지고 있는지 모르기 때문이다. 이는 학습에 방해가 될 수 있다. 따라서 $K^{'}$를 학습 가능한 파라미터 $FC\in R^{E_{d}\times E_{d}}$를 통과시켜 적응적으로 $f_{n}$에 구조적 의미에 맞게 연관성을 가진 표현이 되도록 함으로써 키포인트 히트맵의 의미 있는 정보가 효율적으로 반영되도록 한다. 그렇게 얻은 $f_{CA}\in R^{(N_{p}+1)\times E_{d}}$를 재인식 문제를 위해 일반적으로 사용하는 지도학습 손실함수를 사용하여 학습한다. 이를 통해 $f_{n}$의 앞쪽 층들이 역전파를 통해 사람 영역에 대한 어텐션이 일찍이 표현됨으로써, 모델이 가려진 상황에 강인한 표현을 할 수 있도록 세밀한 학습이 뒤쪽 층에서 이루어질 수 있다.

2.5 특징 다양화를 위한 구조 개선

TransReID(8)에서는 마지막 인코더 층만을 독립된 2개의 층, 즉, 전역 가지층과 JPM 가지층으로 나뉜다. 하지만 이 두 개의 가지층은 모두 동일한 층의 출력을 입력으로 사용하기 때문에, 출력된 어텐션 결과는 다양성 측면에서 한정적이다. 이를 개선하기 위해, 제안 기법은 마지막 직전의 층을 2개로 구성한다. 즉, $L_{N-1}$을 $L_{N-1}^{1}$과 $L_{N-1}^{2}$로 나눈다. 이 2개의 층의 출력은 같은 인물에 대해 다른 어텐션 정보를 가지고 있기 때문에, 이를 가지층의 입력으로 사용하게 되면 다양한 전역 혹은 지역 특징을 얻게 된다. 이러한 다양한 특징 생성은 사람의 고유한 특징을 더욱 세밀하게 표현하는 데 도움이 된다. 한편, 지역 특징을 구성함에 있어 고정된 위치의 패치들끼리 그룹화하는 JPM 방식과는 달리, 제안 기법에서는 패치를 대상으로 K-means 클러스터링을 수행하고 각기 다른 클러스터에서의 패치들을 샘플링하여 하나의 그룹을 형성한다. 이렇게 함으로써, 모델이 크기와 모양이 다양한 겹침에 의한 문제에 대비하고 일부 사람의 신체만을 이용해 해당 인물의 고유한 특징 벡터를 표현할 수 있게 된다.

2.6 손실 함수

본 논문에서는 재식별 분야에서 주로 이용되는 지도학습 손실함수를 다음과 같이 종단(end-to-end)으로 학습한다.

(6)
\begin{align*} Loss=L_{ID}(P_{CA}(f_{CA}))+L_{T}(f_{CA})\\ +L_{ID}(P_{g}^{1}(f_{g^{1}}))+L_{T}(f_{g^{1}})+L_{ID}(P_{g}^{2}(f_{g^{2}}))+L_{T}(f_{g^{2}})\\ +\dfrac{1}{N_{g}}\left\{\sum_{j=1}^{N_{g}}L_{ID}(P_{l}^{1}(f_{l^{1}}^{j}))+L_{T}(f_{l^{1}}^{j})\right\}\\ +\dfrac{1}{N_{g}}\left\{\sum_{j=1}^{N_{g}}L_{ID}(P_{l}^{2}(f_{l^{2}}^{j}))+L_{T}(f_{l^{2}}^{j})\right\} \end{align*}

$L_{ID}$는 동일성 손실함수 (Identity loss)로써 교차-엔트로피 손실함수(Cross entropy loss)를 사용하고, $L_{T}$는 Triplet loss로 메트릭 학습을 수행한다. $P$는 예측을 위한 분류기이고, $N_{g}$은 지역 특징으로 나눌 그룹의 수이다.

제안 기법의 학습 과정이 알고리즘 1에 나와 있다.

알고리즘 1 트랜스포머의 교차 주의집중과 특징 다양화

입력 : 학습 데이터

출력 : 학습된 트랜스포머 모델

과정 :

1) 입력 이미지에 대해 부분적인 임의 삭제를 수행하고, 이에 대한 마스크를 생성하여 자세 추정 모델의 출력 값에 적용한다.

2) 1)을 통해 얻은 마스크가 적용된 입력 이미지를 전처리를 수행하고, 트랜스포머에 입력하여 중간층과 마지막 직전 층의 출력값을 얻는다.

3) 1)을 통해 얻은 마스크가 적용된 자세 추정 출력 값과 2)을 통해 얻은 중간층의 출력값을 이용해 교차 어텐션을 수행한다.

4) 2)을 통해 얻은 마지막 직전 층의 출력값을 전역 가지층과 지역 가지층에 입력하여 최종적인 출력값을 얻고 지도학습 손실함수를 계산하여 역전파를 수행한다.

5) 트랜스포머가 수렴할 때까지 1)-4) 과정을 반복한다.

3. 실험 및 결과 분석

3.1 실험 준비

Occluded-Duke(12) 데이터 셋에 대해서, Cumulative Matching Characteristic(CMC) 곡선을 통해 mAP 와 Rank-1 성능을 측정하고 기존 기법들과 비교한다. Occluded-Duke는 15,618장의 학습 데이터, 2,210장의 query 데이터, 17,661장의 gallery 데이터로 이루어져 있으며 query 데이터는 모두 가려진 사람 이미지로 구성되어 있고, 학습 데이터와 gallery 데이터는 각 데이터의 약 10퍼센트의 가려진 사람 이미지가 구성되어 있다. Market-1501(13)는 12,936장의 학습 데이터, 3,368장의 query 데이터, 19,732 장의 갤러리 데이터로 구성되고 가려지지 않은 전신 데이터셋이다.

데이터 증강은 다음과 같다. 입력 이미지를 256x128로 재조정하고, random flipping, 10 픽셀 패딩, 그리고l, 임의 오리기(random cropping)를 수행한다. 그리고 임의삭제 하기 전에 사전에 학습된 포즈 추정 모델을 사용하여 키포인트 히트맵을 추출하고, 임의 삭제를 수행하여 삭제 된 영역을 추출된 히트맵에 반영한다. 트랜스포머는 ImageNet-21K에서 사전 훈련된 가중치를 사용하고, 포즈 추정 모델은 coco dataset으로 사전에 학습된 HRNet(14)을 사용한다. Optimizer는 momentum(0.9)와 SGD를 사용했고, 초기 learning rate은 0.008와 cosin learning rate decay를 사용한다. $E_{d}$는 768, $m$은 4, batch size는 32로 설정한다.

3.2 실험 결과

표 1. 기존 기법과의 성능비교

Table 1. Comparison with existing methods on Occluded-Duke and Market-1501

Method

Occluded-Duke

Market-1501

mAP(%)

R-1(%)

mAP(%)

R-1(%)

DRL-Net[7]

50.8

65.0

86.9

94.7

PAT[6]

53.6

64.5

88

95.4

TransReID[8]

55.7

64.2

88.2

95

Valid Keypoint[5]

58.4

66.3

-

-

Ours

59.4

69

88.8

95.2

표 1에서와 같이 제안된 모델의 성능은 Occluded-Duke에 대해 mAP가 59.4, R-1이 69.0이다. 트랜스포머 기반 기법인 DRL-Net, PAT, TrasnReID와 비교해 성능 향상이 큼을 알 수 있다. 특히. 최신 성능의 TransReID와 비교해서 mAP가 4.2%, R-1이 3.9%가 향상되었다. 또한 본 연구자의 이전 연구(5)와 비교해 mAP와 R-1이 1.0% 2.7% 향상시킴으로 제안한 기법의 우수성을 보여준다. 이는 올바른 키포인트를 사용함으로써 모델이 사람 영역에 더욱 정교하게 학습이 되었기 때문이다. 또한 Holistic 데이터셋인 Market-1501에 대해서도 우수한 성능을 보여준다.

3.3 개별 구성 요소별 실험 (Ablation Study)

표 2는 제안 기법에서의 각 요소에 대한 ablation study 결과를 보여준다. PC(Patch Clustering)는 지역특징을 표현하기 위한 패치 그룹화 방식이다. CA(Cross Attention)는 모델이 사람 영역에 더욱 집중하도록 트랜스포머 중간 층의 출력과 키포인트 히트맵 간의 다중 헤드 어텐션을 수행하는 방식이다. SDF(Strcture for Diverse Feature)는 전역특징과 지역특징의 다양한 표현을 위해 개선된 구조를 의미한다. Index 1은 baseline으로 TransReID의 결과이다. Index 2는 제안하는 패치 그룹화 방식인 PC를 사용했을 때 mAP는 1.4%, R-1은 0.9%가 증가하였다. 이는 패치들의 연관성을 고려하여 그룹화해 지역 특징을 표현하였기 때문이다. Index 3은 제안된 키포인트 히트맵과 트랜스포머 내부 층 간의 CA 기법을 추가하였을 때 결과이다. Index 2와 비교해서 mAP는 1.6%, R-1은 1.9%가 증가하였다. 이로써 히트맵을 이용해 사람에 대한 의미 있는 정보를 모델이 학습하게 되어 가려지지 않은 사람 영역에 더욱 집중할 수 있다는 것이 증명되었다. Index 4는 CA를 하지 않고 SDF만을 추가했을 때의 결과인데, Index 2에 비해 mAP는 1.4% R-1은 2.2% 증가하였다. 따라서 제안된 구조 개선 방식이 효과가 있다는 것을 알 수 있다. 마지막으로 Index 5는 CA와 DFS를 모두 사용 했을 때 가장 좋은 성능을 달성했음을 보여준다. Index 3, 4와 비교해보면 mAP는 약 1%, R-1은 약 2% 향상된 것으로 보아 CA와 SDF를 같이 사용하게 되면 효과가 증가한다는 것을 보여준다. 이는 CA가 가려지지 않은 사람 영역에 집중적으로 표현하고, 이를 SDF를 통해 특징들을 다양화하면서 모델이 사람에 대한 세밀한 표현을 할 수 있게 학습되었기 때문이다.

표 2. 제안된 부분 기법들의 조합 효과 비교

Table 2. Ablation study of the proposed methods

Index

PC

CA

SDF

mAP

R-1

1

55.7

64.2

2

57.1

65.1

3

58.7

67

4

58.5

67.3

5

59.4

69

3.4 어텐션 맵 시각화

그림 3은 가려진 사람 데이터에 대해서 TransReID 모델과 제안된 모델의 초기 층에서의 어텐션 맵을 시각화한다. 사람에 의해 가려진 경우이다. 빨간색 박스는 기존 모델보다 제안 기법이 더 빠르게 가려지지 않은 사람 영역에 집중하는 모습을 보여준다. 이는 제안 기법이 개선된 히트맵과 트랜스포머 중간 층의 출력 간의 교차 어텐션을 통해 학습하였기 때문에 사람 영역의 인지가 뛰어나다는 것을 보여준다.

그림. 3. TransReId vs Ours. 초기 층에서의 어텐션 맵 비교

Fig. 3. Transreid vs Ours. comparison of attention maps at the initial layer

../../Resources/kiee/KIEE.2023.72.1.108/fig3.png

4. 결 론

가려진 사람의 재식별을 위한 트랜스포머 기반의 개선된 기법을 다음과 같이 제안하였다 - 1) 선 추출 히트맵에 대한 임의 영역 삭제를 통한 정확한 키포인트 정보의 제공, 2) 키포인트 히트맵과 트랜스포머의 중간 층의 출력간의 교차 어텐션, 3) K-menas 클러스터링을 통한 지역 특징의 표현 강화. 4)특징 다양화를 위한 네트워크 구조 개선. 제안된 기법을 Occluded-Duke 데이터셋에 대해서 mAP 와 Rank-1 성능을 평가하고 기존의 최신 기법과 비교한다. Occluded-Duke 데이터에 대한 최신 기법과의 비교 실험 및 Market-1501 데이터에 대한 확장 실험을 수행하여 같은 트랜스포머 기반의 최신 기법들보다 우수한 성능을 얻었다. 제안된 부분 기법들에 대한 효과에 대한 비교 분석과 어텐션 맵의 시각화 결과 분석이 추가적으로 수행되었고, 이를 통해 제안 기법의 정성적인 타당성을 입증하였다. 향후, 인식 성능의 향상과 빠른 실행 속도의 확보를 목표로 삼고 있다.

References

1 
L. Zheng, Y. Yang, A. G. Hauptmann, 2016, Person re-identification: Past, present and future., arXiv preprint arXiv:1610.02984Google Search
2 
W. Chen, X. Chen, J. Zhang, K. Huang, 2017, Beyond triplet loss: a deep quadruplet network for person re-identification, in Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 403-412Google Search
3 
J. Zhuo, Z. Chen, J. Lai, G. Wang, 2018, Occluded person re-identification, in 2018 IEEE International Conference on Multimedia and Expo (ICME), pp. 1-6Google Search
4 
P. Chen, W. Liu, P. Dai, J. Liu, Q. Ye, M. Xu, Q. Chen, R. Ji, 2021, Occlude them all: Occlusion-aware attention network for occluded person re-id, In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 11833-11842Google Search
5 
S. Kim, S. Kang, H. Choi, S. S. Kim, K. Seo, 2022, Valid Keypoint Augmentation based Occluded Person Re-Identification, The Transactions of the Korean Institute of Electrical Engineers, Vol. 71, No. 7, pp. 1002-1007Google Search
6 
Y. Li, J. He, T. Zhang, X. Liu, Y. Zhang, F. Wu, 2021, Diverse part discovery: Occluded person re-identification with part-aware transformer, in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2898-2907Google Search
7 
M. Jia, X. Cheng, S. Lu, J. Zhang, 2022, Learning disentangled representation implicitly via transformer for occluded person re-identification, in IEEE Transactions on MultimediaGoogle Search
8 
S. He, H. Luo, P. Wang, F. Wang, H. Li, W. Jiang, 2021, Transreid: Transformer based object re-identification, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 15013-15022Google Search
9 
Z. Zhong, L. Zheng, G. Kang, S. Li, Y. Yang, 2020, Random erasing data augmentation, in Proceedings of the Association for the Advancement of Artificial Intelligence (AAAI), Vol. 34, pp. 13001-13008DOI
10 
A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, 2020, An image is worth 16x16 words: Transformers for image recognition at scale, in International Conference on Learning Representations (ICLR)Google Search
11 
S. Gao, J. Wang, H. Lu, Z. Liu, 2020, Pose-guided visible part matching for occluded person reid, in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11744-11752Google Search
12 
J. Miao, Y. Wu, P. Liu, Y. Ding, Y. Yang, 2019, Pose-guided feature alignment for occluded person re-identification, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 542-551Google Search
13 
Wei-Shi Zheng, Shaogang Gong, 2011, Person reidentification by probabilistic relative distance comparison, in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 649-656Google Search
14 
X. Qian, Y. Fu, T. Xiang, W. Wang, J. Qiu, Y. Wu, Y.G. Jiang, X. Xue, 2018, Pose-normalized image generation for person re-identification, in Proceedings ofthe European conference on computer vision (ECCV), pp. 650-667Google Search

저자소개

강성재 (Sungjae Kang)
../../Resources/kiee/KIEE.2023.72.1.108/au1.png

He received BS and MS degrees from Electronics Engineering, Electronics and Computer Engineering from Seokyeong University, Seoul, Korea, in 2020 and 2022 respectively.

His research interests include deep learning, computer vision.

김세준 (Sejun Kim )
../../Resources/kiee/KIEE.2023.72.1.108/au2.png

He received BS degree from Electronics Engineering from Seokyong University, Seoul, Korea, in 2022.

He is currently pursuing his MS degree in Electronics and Computer Engineering at Seokyeong University, His research interests include deep learning, computer vision.

서기성 (Kisung Seo)
../../Resources/kiee/KIEE.2023.72.1.108/au3.png

He received the BS, MS, and Ph.D degrees in Electrical Engineering from Yonsei University, Seoul, Korea, in 1986, 1988, and 1993 respectively.

He joined Genetic Algorithms Research and Applications Group (GARAGe), Michigan State University from 1999 to 2002 as a Research Associate.

He was also appointed Visiting Assistant Professor in Electrical & Computer Engineering, Michigan State University from 2002 to 2003.

He was a Visiting Scholar at BEACON (Bio/computational Evolution in Action CONsortium) Center, Michigan State University from 2011 to 2012.

He is currently Professor of Electronics Engineering, Seokyeong University.

His research interests include deep learning, evolutionary computation, computer vision, and intelligent robotics.