Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 74, No. 09, p.1581-1590

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 13 Jun. 2025Revised : 13 Jul. 2025Accepted : 10 Aug. 2025

DOI :

https://doi.org/10.5370/KIEE.2025.74.9.1581

헤드 중요도 기반 어텐션과 윈도우 간 상호작용을 결합한 비전 트랜스포머 연구

WINter-ViT : Window Interaction Vision Transformer with Head-Aware Attention

김주명 (Ju-Myung Kim) ¹iD 김재혁 (Jae-Hyeok Kim) ¹iD 박소윤 (So-Yun Park) ¹iD 유진우 (Jin-Woo Yoo) ^†iD

(Graduate School of Automobile and Mobility, Kookmin University, Republic of Korea. E-mail : jumyoung2626@naver.com, wogur310@naver.com, bsy24660@naver.com)

^†Corresponding Author : Dept. of Automobile and IT Convergence, Kookmin University, Republic of Korea. E-mail : jwyoo@kookmin.ac.kr

License :

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0)which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Translated Abstract

While the Swin Transformer effectively reduces computational cost using window-based attention, it struggles to model global dependencies across windows. Prior work, such as the Refined Transformer, attempts to overcome this limitation by incorporating CBAM-style channel and spatial attention mechanisms. However, these sequential attention operations often introduce representational bias by overemphasizing specific features. To address this, we propose two key components: (1) the Efficient Head Self-Attention (EHSA) module, which dynamically calibrates the relative contribution of each attention head within a window, and (2) the Hierarchical Local-to-Global Spatial Attention (HLSA) module, which captures long-range interactions across windows in a hierarchical manner. By integrating these into a Swin-T backbone, our architecture improves both local detail modeling and global context aggregation. Experiments on ImageNet-1K and ImageNet100 demonstrate that our model surpasses the Refined Transformer and other window-based approaches in accuracy, while maintaining a comparable level of computational efficiency. These results validate the effectiveness of our design in enhancing local-global interactions within Vision Transformers.

Key words

Image Classification, Vision Transformer, Computer Vision, Deep Learning

1. 서 론

컴퓨터 비전 분야에서 이미지 분류, 객체 탐지 및 분할 등 다양한 시각 인식 과제를 해결하기 위해 Convolutional Neural Network(CNN)이 오랫동안 표준 아키텍처로 자리 잡아왔다. 대표적으로 AlexNet^[1], VGGNet^[2], GoogLeNet^[3], ResNet^[4], DenseNet^[5] 등이 있으며, 이들은 지역적인 특징 학습과 깊은 네트워크 구조를 바탕으로 우수한 성능을 달성하며 컴퓨터 비전 기술의 발전을 이끌었다. 그러나 CNN은 고정된 크기의 국소적인 수용 영역(Local receptive field) 구조로 인해 이미지 전반에 걸친 장거리 종속성을 효과적으로 학습하는 데 한계를 갖는다. 이는 객체 간의 맥락적 관계나 전체 장면을 이해해야 하는 고차원적 시각 인식 과제에서는 성능 저하로 이어질 수 있다. 이러한 문제점을 해결하기 위해 자연어 처리 분야에서 성공을 거둔^[6] 트랜스포머 구조가 비전 분야로 확장되었다.

Vision Transformer(ViT)^[7]는 이미지를 정해진 크기의 패치로 분할하고, 각 패치 간 Self-Attention 메커니즘을 적용함으로써 이미지 전반의 장거리 종속성을 효과적으로 학습할 수 있는 구조를 제안하였다. 이러한 접근 방식은 CNN 기반 모델이 가지던 국소적 한계를 극복하며, 다양한 시각 인식 분야에서 높은 성능을 입증하고 있다. 하지만 ViT는 모든 이미지 패치 간에 전역 어텐션을 수행하기 때문에 계산 복잡도가 매우 높으며, 이는 고해상도 이미지 처리나 실시간 응용과 같은 환경에서 적용을 어렵게 만드는 요인으로 작용한다. 이에 따라 연산 효율성을 개선하기 위한 다양한 접근 방식이 제안되었으며, 그중 하나는 어텐션 범위를 제한하여 특정 영역에 국한된 정보만을 처리하는 방식이다.

대표적인 예로 Swin Transformer^[8]는 입력 이미지를 고정된 크기의 윈도우 단위로 분할 후, 각 윈도우 내에서만 어텐션을 수행하는 Window Multi-Head Self-Attention(W-MSA) 기반 구조를 제안하였다. 또한, Swin Transformer는 Shifted-Window Multi-Head Self-Attention(SW-MSA) 기법을 통해 인접 윈도우 간의 정보를 교환할 수 있도록 하여, 부분적인 전역 정보 학습을 가능하게 하였다. 그럼에도 여전히 윈도우 간의 관계를 명시적으로 학습하는 데 한계가 있으며, 전역적인 토큰 상호작용을 충분히 반영하지 못해 전반적인 표현력 측면에서 성능 향상에 한계를 가지는 것으로 나타났다.

그림 1. swin transformer 기반 윈도우 어텐션 기법 비교

Fig. 1. comparisons of window attention mechanisms based on swin transformer

이러한 윈도우 기반 비전 트랜스포머 모델의 한계를 극복하기 위해 Refined Feature-Space Window Attention Vision Transformer(Refined Transformer)^[9]는 특징 공간에서 유사도에 따라 군집화된 토큰끼리 어텐션을 수행함으로써, 전역적인 특징을 학습하고자 하였다. 이때, 특징 공간에서 표현력을 향상하여 의미 있는 특징 벡터 간의 군집화를 유도하기 위해서 Convolutional Block Attention Module(CBAM)^[10]을 적용하였다. Channel Attention과 Spatial Attention을 순차적으로 적용함으로써 중요한 정보를 강조하고 불필요한 정보를 억제하는 정제 과정을 수행하였다. 그러나 이러한 방식은 선행된 어텐션 모듈의 출력에 과도하게 의존함으로써 특정 정보에 편향되는 문제를 가질 수 있으며, Channel 및 Spatial 어텐션 간의 시너지 효과가 제한된다는 한계가 존재한다.

이러한 배경에서 본 논문에서는 지역-윈도우와 전역적인 특징 맵에 각각 동작하는 어텐션 모듈을 통해 윈도우 내 정밀한 특징 표현은 물론 윈도우 간 관계를 명시적으로 학습할 수 있도록 설계된 네트워크를 제안한다. 특히, 기존 윈도우 기반 Swin Transformer가 가지는 윈도우 간 정보 단절 문제와 CBAM 기반 어텐션이 가지는 단방향 종속 문제를 해결하기 위해서 본 논문은 Efficient Head Self-Attention(EHSA)와 Hierarchical Local-to-Global Spatial Attention(HLSA)모듈을 설계하였다.

EHSA는 지역-윈도우 내 다중 어텐션 헤드 간 상대적 중요도를 동적으로 조정하고 헤드 간 정보 균형을 유지함으로써 표현력을 극대화한다.

HLSA는 윈도우 간 계층적 상호작용을 통해 다중 수용 영역 기반 전역 정보를 통합적으로 고려하며, 윈도우 간 명시적인 관계성을 반영할 수 있도록 Spatial 어텐션을 수행한다. 이때, HLSA는 Spatial and Channel Synergistic Attention(SCSA)^[11]에서 제안한 시너지 기반 설계 원리에 영감을 받아, Channel 어텐션과 Spatial 어텐션의 협력적 구조를 윈도우 기반 구조로 확장한 모듈이다.

제안하는 네트워크에서는 공간적 관계를 더욱 정밀하게 포착하기 위해 Spatial 어텐션을 이중 계층으로 구성하여, 윈도우 간 전역 정보를 효과적으로 학습할 수 있도록 설계되었다. 우리가 제안하는 모델을 ImageNet-1k^[12]에서 학습한 결과, 기존 Transformer 모델 대비 높은 분류 성능을 입증하였다.

2. 관련 연구

2.1 비전 트랜스포머

ViT^[7]의 도입 이후, 다양한 구조적 확장을 통해 트랜스포머 기반 모델은 컴퓨터 비전 분야의 주요 백본 중 하나로 자리 잡았다. 초기 ViT는 단일 스케일 구조와 높은 데이터 요구량, 지역 정보 부족 등의 한계를 지녔으며, 이를 극복하기 위해 다양한 파생 모델들이 제안되었다. DeiT^[13]는 학습 효율성을 높이기 위해 distillation 기반 학습 메커니즘을 도입했고, T2T-ViT^[14]와 TNT^[15]는 토큰 간 계층 구조 또는 패치 내부 구조까지 학습할 수 있도록 설계되어 지역 표현력 강화를 시도하였다. 이 과정에서 CNN의 지역적 inductive bias를 활용하기 위한 시도로, ViT 구조에 컨볼루션을 결합한 다양한 하이브리드 모듈들도 등장하였다. 대표적으로 CvT^[16], CMT^[17] 등이 있으며, 이는 트랜스포머 구조에 컨볼루션 계열 연산을 결합해 지역 표현력을 확보하고자 하였다.

하지만 결국 비전 트랜스포머의 전역 어텐션 구조는 연산량이 매우 크고 메모리 소비가 많아 고해상도 이미지나 실시간 처리 환경에서의 적용에 어려움이 따른다. 이를 해결하고자 Swin Transformer^[8]는 윈도우 기반 지역-어텐션과 SW-MSA 기법을 도입하여 효율성과 정보 흐름을 동시에 확보하였다. 이후 CSWin^[18], Pale Transformer^[19]도 마찬가지로 어텐션 영역을 고정된 형태로 제한하여 어텐션 연산 과정의 효율성을 확보하였다.

그러나 이러한 구조는 어텐션 범위가 물리적 윈도우 내부에 국한되기 때문에, 멀리 떨어진 토큰 간의 상호작용을 직접적으로 반영하기에는 한계가 존재한다. 이에 따라 VSA^[20]와 같이 어텐션 영역의 공간적 형태를 다양화하거나 유연성을 강화하여 효율성과 표현력을 높이고자 하는 방법들과 Feature Space 상에서 유사한 표현을 지닌 토큰을 그룹화하여 어텐션을 수행하는 방식이 제안되었다.

BOAT^[21], Refined Transformer^[9] 등은 그림 1(c)과 같이 특징 공간에서의 유사성 기반 토큰 그룹화와 어텐션 연산을 통해 전역 표현력을 향상하고자 하였으나, grouping 방식에 대한 과도한 의존성과 정보 집중 현상 등의 구조적 문제가 존재한다. 본 논문은 기존 윈도우 기반 어텐션 구조의 효율성과 특징 공간 기반 의미적 관계 학습을 결합하여 윈도우 내부의 정밀한 표현은 물론, 윈도우 간 전역적 상호작용을 계층적으로 학습할 수 있도록 하였다.

그림 2. (a) 제안하는 WINter-ViT의 전체 구조 (b) 패치 병합 동작 원리 (c) WINter-ViT 블록의 구조

Fig. 2. (a) The overall architecture of WINter-ViT (b) The patch merging mechanism (c) Structure of the WINter-ViT block

2.2 컴퓨터 비전에서의 어텐션 기법

딥러닝 모델이 점점 깊어짐에 따라, 모든 입력 정보가 학습에 동일하게 기여하지 않는다는 점이 명확해졌다. 이에 따라 모델이 중요한 정보에 더 집중할 수 있도록 유도하는 메커니즘, 즉 어텐션이 시각 인식 분야에서도 적극적으로 활용되기 시작했다. 어텐션은 대상이 갖는 의미적인 특징에 따라 강조하는 채널 중심 접근과, 위치 기반의 공간 정보에 집중하는 공간 중심 접근으로 나뉜다. 채널 어텐션은 각 채널이 고유한 의미를 가지는 점에 기반하며, 어떤 특징이 현재 상황에서 더 중요한지를 동적으로 판단한다. 이는 주로 전역 정보를 압축해 학습하며, 단순한 구조임에도 모델의 표현력을 크게 높이는 것으로 알려져 있다.

대표적으로 Squeeze-and-Excitation networks(SE-Net)^[22]은 채널 간의 상호작용 과정을 거쳐 이를 바탕으로 특징 정보를 재조정하며, 이후 ECA-Net^[23]은 차원 축소 없이 1D 컨볼루션을 통해 경량화와 효율성을 동시에 달성하였다. 반면, 공간 어텐션은 이미지 내에서 중요한 영역을 찾아내어, 객체의 위치나 형태와 관련된 정보에 선택적으로 반응하도록 한다. 이는 복잡한 장면 속에서 배경과 객체를 구분하거나, 시각적 중심을 자동으로 포착하는 데 효과적이다. ELA^[24]는 채널별 공간 정보를 각각 수직과 수평 방향으로 요약하고, 이를 곱셈 방식으로 결합하여 위치 정보를 강조한다. 이 방식은 공간 정보의 명확한 강조뿐 아니라 계산 효율성도 고려된 설계로 평가된다. 최근에는 채널과 공간 정보를 통합하는 어텐션 구조가 제안되며 더욱 발전하고 있다.

대표적으로 CBAM^[10]은 채널 어텐션과 공간 어텐션을 순차적으로 수행하여, 두 기법의 장점을 효과적으로 통합하였다. 이와 같이 복합 어텐션 모듈은 다양한 비전 네트워크에 삽입 되어 성능 향상을 유도하고 있다. 이후에는 단순 통합을 넘어서, 공간 및 채널 간의 시너지를 다중 크기의 수용 영역을 통해 학습하는 구조들이 등장하였다.

SCSA^[11]는 채널 간 Self-Attention 기반의 상호작용과, 공간 방향별 그룹 어텐션을 동시에 계산하는 계층적 구조로, 공간과 채널 간의 상호작용을 극대화하였다. 이러한 어텐션 모듈은 공통적으로, 불필요한 정보를 억제하고 핵심적인 특징을 강조함으로써, 연산 효율성을 유지하면서도 정보 표현의 정밀도를 높이는 데 초점을 둔다. 특히, 최신 연구에서는 이러한 채널 및 공간 어텐션 기법을 트랜스포머 아키텍처와 결합하여 국소성과 전역성을 동시에 강화하는 방향으로 확장하고 있다.

본 논문에서는 이러한 기존 구조들의 특징을 기반으로 윈도우 기반 어텐션 구조 내에서 헤드, 공간 그리고 채널 간 상호작용을 통합적으로 학습할 수 있는 모듈을 설계하였다.

3. 제안하는 모델

본 절에서는 Swin Transformer의 구조를 기반으로 하는 제안 모델의 전체 아키텍처에 관해 설명한다. Swin Transformer는 지역-윈도우 기반 Self-Attention을 통해 계산 효율성과 표현력을 동시에 확보할 수 있는 구조이며, 본 연구에서는 이를 기반으로 어텐션 모듈을 개선하여 지역-윈도우 기반 아키텍처의 한계를 극복하고자 한다.

3.1 전체 아키텍처

그림 2는 본 논문에서 제안하는 모델의 전체 아키텍처를 나타낸다. 전체 네트워크는 크게 패치 병합 층과 순차적으로 연결된 W-MSA, SW-MSA 블록 그리고 우리가 제안한 HLSA 블록으로 구성되며, 각 블록 내부의 윈도우 어텐션 메커니즘에는 EHSA 모듈이 함께 동작한다.

네트워크는 총 4단계로 구성되어 있으며, 단계가 깊어질수록 입력 정보는 점진적으로 축소되고, 이를 통해 계층적 특징 학습과 지역-전역 특징 간의 상호작용을 효과적으로 조정하도록 설계되었다. 또한, 깊은 네트워크에서 Gradient 안정성을 유지하기 위해 단계 간 Skip Connection이 적용된다.

먼저, 모델의 첫 부분에는 트랜스포머 입력에 적합한 형태로 이미지를 변환하는 패치 임베딩 계층이 배치된다. 입력 RGB 이미지는 $H\times W\times 3$ 형태로 주어지며, 이를 $4\times 4$ 크기의 겹치지 않는 작은 패치들로 분할 하여, 총 $\dfrac{H}{4}\times\dfrac{W}{4}$개의 패치를 생성한다. 각 패치는 고유한 $4\times 4\times 3$ 차원을 가지며, 이후 선형 임베딩 레이어를 통해 고정된 임베딩 차원으로 투영된다. 이렇게 생성된 토큰 시퀀스는 총 4단계의 계층 구조를 따라 각 단계의 입력에서 패치 병합 과정을 거치면서 $2\times 2$ 크기의 인접한 패치들의 정보를 통합하고, 해상도를 점진적으로 축소한다. 이에 따라 레이어가 깊어질수록 보다 고차원적인 특징 표현을 학습할 수 있게 되며, 이는 다양한 크기의 객체나 복잡한 장면에서도 효과적인 정보 학습이 가능해진다. 이와 같이 구성된 토큰 시퀀스는 각 단계의 트랜스포머 블록에 입력되며, Swin Transformer에서 제안한 W-MSA와 SW-MSA의 멀티 헤드 어텐션 연산에 우리의 EHSA 모듈을 적용하였다. 또한, Swin Transformer 블록에서 사용된 SW-MSA 이후에 HLSA가 추가로 적용된다.

W-MSA는 그림 1(a)와 같이 패치로 나눠진 이미지를 고정된 크기의 윈도우로 묶은 후, 각 윈도우 내에서 어텐션 연산을 진행한다. SW-MSA는 윈도우 사이의 정보 연결을 위해 그림 2(b)와 같이 패치를 이동시켜 교차하는 서로 다른 윈도우 정보 간 어텐션 연산을 진행한다. W-MSA 블록과 SW-MSA 블록은 그림 2(b)처럼 일반적인 트랜스포머 블록 동작 방식인 레이어 정규화(Layer Normalization)와 다층 퍼셉트론(multi-layer perception, MLP)이 함께 동작한다. 이후 W-MSA와 SW-MSA를 순차적으로 거친 특징은 HLSA에 입력으로 들어간다. 제안된 HLSA와 EHSA은 다음 섹션에서 다룬다.

3.2 효율적인 헤드 어텐션 (EHSA)

본 절에서는 윈도우 내에서 어텐션 헤드 간의 상대적인 중요도를 동적으로 조절하는 EHSA 모듈에 관해 설명한다. 기존 Swin Transformer의 멀티 헤드 어텐션 구조는 각 헤드를 동일한 중요도로 병렬적인 정보 처리를 진행한다. 하지만 이미지의 특징에 따라 각 헤드가 가지는 정보 기여도는 다르게 나타날 수 있으며, 이는 모델의 표현 능력을 떨어트릴 수 있다. 이를 해결하기 위해서 본 논문에서 EHSA 모듈을 제안한다.

EHSA는 그림 3에서처럼 쿼리와 벨류의 행렬 곱 결과인 어텐션 행렬을 입력으로 받아, 각 어텐션 헤드의 통계적 정보를 기반으로 어텐션의 출력을 재조정하는 경량화된 모듈이다. 먼저, 입력 어텐션 맵은 평균 풀링을 통해 각 헤드에 해당하는 평균값으로 요약된다. 이후 헤드의 개수를 그룹으로 가지는 Depth -Wise Convolution을 적용하여 헤드 각각 독립적인 파라미터 학습이 가능하게 하였다. 이 과정을 통해 헤드별 스케일링 계수를 산출한다. 이를 수식으로 정리하면 다음과 같다.

그림 3. 제안된 EHSA 모듈의 전체 구조

Fig. 3. Architecture of the proposed EHSA moudle

(1)

$A'=\sigma(DWConv(Avg Pool(A)))$

여기서 $A\in\vec{R^{B\times H\times N\times N}}$는 쿼리와 키의 행렬 곱 연산으로 얻어진 어텐션 스코어 텐서이며, B는 배치 크기, H는 헤드 수, N은 윈도우 내 토큰 수를 의미한다. 어텐션 점수에 대한 평균 풀링은 $N\times N$ 차원을 따라 수행된다. 이후 적용되는 DWConv는 각 헤드마다 독립적으로 학습할 수 있는 필터를 적용함으로써, 입력 토큰의 특징 기반으로 헤드의 개별적 중요도를 반영하도록 구성된다.

마지막으로 시그모이드 함수를 통해 [0, 1] 범위로 정규화된 특징 A’을 산출한다. 이러한 구조는 평균 풀링과 커널 크기 1의 DWConv를 결합함으로써 파라미터 수와 연산량을 크게 줄이면서도 각 헤드의 중요도를 효과적으로 학습할 수 있도록 하였다. 특히, 일반적인 $3\times 3$ 컨볼루션 대신 $1\times 1$ 커널을 활용해 연산 효율을 높였으며, 공간 정보를 요약하여 메모리 부담 또한 감소하였다.

산출된 벡터는 입력 어텐션 점수 A에 헤드 단위의 곱 연산을 수행하여 다음과 같은 헤드 중요도 기반 동적 재조정 역할을 한다.

그림 4. HLSA의 전체 구조

Fig. 4. Overview of HLSA

(2)

$A'_{refin ed}=A\otimes A'$

위 구조는 학습이 진행됨에 따라 어떠한 헤드의 특징을 모델이 집중적으로 파악을 해야 할지 가르쳐 주는 역할을 한다. 하지만 값이 큰 가중치가 곱해진 특정 헤드는 과도하게 영향력을 행사하는 아웃라이어 역할을 할 수 있다. 따라서 우리는 이를 방지하고, 각 헤드 특징 분포의 균형을 유지하기 위해서 1개의 그룹으로 설정된 그룹 정규화(Group Normalization)로 전체 헤드 채널을 하나의 그룹으로 묶어 정규화하였다. 이는 전체 헤드의 전역적인 특성 분포를 반영하기 때문에 특징 일관성을 유지하고 모델의 훈련 안정성을 높이는 역할을 한다.

이렇게 정규화된 특징 벡터는 Softmax 함수를 거쳐 확률 분포 형태의 어텐션 스코어로 변환되며, 해당 스코어는 식 (3)과 같이 벨류와 곱 연산을 거쳐 어텐션 결과물을 산출하게 게 된다.

(3)

\begin{align*} A'_{g}=Soft\max(Group No({A}'_{{ref}in{ed}}))\\\\ {}{}{}{}{}{}{}{A}'_{{result}}={A}'_{{g}}\otimes{V} \end{align*}

최종적으로 산출된 어텐션 결과는 각 헤드가 입력 토큰의 특징에 따라 동적으로 조정된 중요도를 반영한 표현으로, 기존 Multi-Head Self-Attention의 고정된 방식에서 벗어난 표현력을 가진다. 결과적으로 의미 있는 헤드의 정보를 강조하는 효과적인 어텐션 결과물을 생성한다.

3.3 지역-전역 계층 공간 어텐션 (HLSA)

윈도우 기반 어텐션 기법은 연산 효율성을 가진다. 하지만 윈도우 사이의 관계성을 포착하지 못하는 한계점이 존재하여, 우리는 각 윈도우의 지역적인 특징을 전역 공간 문맥과 통합적으로 반영하기 위한 계층적 지역-전역 어텐션 모듈을 설계하였다. 해당 구조는 그림 4에 나타나 있다.

3.3.1 다양한 수용 영역 기반 공간 어텐션

HLSA는 먼저, SCSA에서 제안된 Shared Multi-Semantic Spatial Attention 구조에서 착안하여, 그림 4(a)와 같이 다중 수용 영역 기반의 공간 어텐션을 적용한다. 이는 SW-MSA 이후의 특징에 적용되며, 평균 풀링을 통해 입력 특징의 수평 및 수직 방향 정보를 식 (4)와 같이 각각 추출한다.

(4)

\[ F_h = AvgPool_h(F) \in \mathbb{R}^{B \times C \times H \times 1} \] \[ F_w = AvgPool_w(F) \in \mathbb{R}^{B \times C \times 1 \times W} \]

이후, 수평 및 수직 정보의 채널 차원을 4개의 그룹으로 나눈 뒤, $[3,\: 5,\: 7,\: 9]$의 다양한 커널 크기를 가지는 Depth-Wise Convolution 연산을 적용히여, 토큰 간 다양한 공간 범위에 대한 독립적인 학습을 수행한다.

(5)

\begin{align*} F_{h}^{(i)}=Spl(F_{h},\: C/4),\: F_{w}^{(i)}=Spl(F_{w},\: C/4),\: i\in 1,\: 2,\: 3,\: 4\\\\ S_{h}^{(i)}=DWConv_{k_{i}}(F_{h}^{(i)}),\: S_{w}^{(i)}=DWConv_{k_{i}}(F_{w}^{(i)}),\: k_{i}\in 3,\: 5,\: 7,\: 9 \end{align*}

이러한 과정은 특징 간의 강한 상호작용으로 발생하는 중복 표현 문제를 완화하고, 윈도우 어텐션 기반의 지역 특징을 로컬 관계부터 공간적 맥락까지 풍부하게 표현할 수 있게 된다. 이어서 공간 어텐션 맵을 생성하기 위해 서로 다른 의미를 가지는 하위 특징들을 연결(concatenate)하며, 커널 개수에 대응하는 그룹 수로 설정된 Group Normalization을 적용한다.

정규화 과정은 각 하위 특징 간의 의미적 차이를 더욱 부각하는 역할을 한다. 이렇게 얻어진 두 방향의 어텐션 맵은 시그모이드 함수를 통해 정규화된 후, 입력 특징에 곱해져 재조정된 특징 표현을 산출하게 된다. 전체 과정을 수식으로 정리하면 다음과 같다.

(6)

\begin{align*} A_{h}=Concat(A_{h}^{(1)},\: A_{h}^{(2)},\: A_{h}^{(3)},\: A_{h}^{(4)})\in{R^{B\times C\times H\times 1}}\\\\ A_{w}=Concat(A_{w}^{(1)},\: A_{w}^{(2)},\: A_{w}^{(3)},\: A_{w}^{(4)})\in{R^{B\times C\times 1\times W}}\\\\ A_{Gh}=\sigma(Grop No_{4}({A}_{{h}})),\: {A}_{{Gw}}=\sigma({Grop No}_{4}({A}_{{w}}))\\\\ {}{}{}{}{}{}{}{}{}{}{}{}{}{F}'={F}\otimes{A}_{{Gh}}\otimes{A}_{{Gw}} \end{align*}

이와 같은 HLSA의 공간 어텐션 구조는 다양한 수용 영역 정보를 반영하면서도, 평균 풀링과 채널 독립 합성곱 기반으로 연산량을 효과적으로 줄인다. 각 방향의 특징을 독립적으로 학습하며 파라미터 수를 최소화해 모델의 효율성과 확장성을 확보하였다.

3.3.2 지역 정보 확장을 통한 전역 문맥 이해

앞서 제안한 Shared Multi-Semantic Spatial Attention 기법을 통해 생성된 공간 중요도 기반 특징 표현 $F'$는 윈도우 각각의 지역 정보뿐만 아니라 특징 공간의 전역적인 의미적 문맥 정보를 함께 반영하는 기반이 된다. 이러한 특징 표현을 입력으로 하여 윈도우 간 전역 관계성을 명시적으로 학습하는 방법을 제안한다.

먼저, 윈도우 간 공간적 연관성을 학습하기 위해 전체 특징 맵은 $7\times 7$ 크기의 윈도우 단위로 Window-wise Average Pooling을 수행하여, 식 (7)과 같이 각 윈도우 내의 지역 정보를 가지는 축소된 특징 맵을 생성한다.

(7)

$F'_{avg}= Avg Pool_{7\times 7}(F')\in{R^{B\times C\times\dfrac{H}{7}\times\dfrac{W}{7}}}$

이때 사용되는 다운샘플링 크기 7은 Swin Transformer에서 사용된 동일한 고정된 윈도우 크기이다. 이는 국소 정보를 효율적으로 압축하여 전역 표현 학습의 계산 비용을 줄이는 동시에 윈도우 정보를 압축하여 전역 정보를 추출하는 첫 단계로 작용한다. 이후, Depth-Wise Conv2d 연산을 통해 각 채널 독립적으로 특징을 추출하여 다음과 같이 쿼리, 키, 벨류를 생성한다.

(8)

\begin{align*} Q=DWConv2d_{Q}(F_{avg})\\\\ K=DWConv2d_{K}(F_{avg})\\\\ V=DWConv2d_{V}(F_{avg})\\\\ Q,\: K,\: V\in{R^{B\times C\times\dfrac{H}{7}\times\dfrac{W}{7}}} \end{align*}

생성된 Q, K, V는 EHSA 모듈을 거친 후, Self-Attentio 연산을 통해 각 윈도우의 대표 정보를 하나의 토큰으로 간주하는 윈도우 간 관계성을 학습하게 된다. 이때 상대 위치 편향이 포함된 Multi-Head Self-Attention 연산은 식 (9)와 같이 정의되며, 토큰 간의 공간적 거리 정보를 어텐션 맵에 직접 반영함으로써 위치 정보를 포함한 윈도우 간 상호작용을 학습한다.

(9)

$A=Soft\max(\dfrac{QK^{T}}{\sqrt{d}}+ B_{red}),\: F_{att n}=AV$

이때 상대 위치 편향$B_{rel}$은 윈도우 간 상대적 거리 정보를 반영하여, 각 윈도우 위치 기반 상호작용을 가능하게 한다. 이로써 윈도우 간의 정렬된 공간적 구조를 학습 과정에서 통합할 수 있다. 어텐션 결과 $F_{att n}$는 평균값과 최댓값을 채널 차원에서 추출한 후 concatenate 되어, $1\times 1$ 합성곱 신경망과 Sigmoid 연산을 통해 정제된 전역 게이트 맵으로 변환된다. 이 게이트 맵에 대해서 업샘플링 과정을 통해 입력 특징 크기와 일치시킨 후, 입력 특징과 곱해져 전역 문맥 기반의 강조 및 억제 효과를 수행한다.

(10)

\begin{align*} M=\sigma(Conv([Avg(F_{att n}),\: \max(F_{att n})]))\\\\ F_{refin e}=F\otimes Up(M) \end{align*}

이러한 곱 연산은 윈도우 간 중요한 상호작용 정보는 강조하고, 덜 중요한 정보는 억제함으로써 전역적 의미를 더욱 뚜렷하게 반영하는 효과를 가진다. 최종적으로, 정제된 출력$F_{out}$는 Layer Normalization과 MLP 계층을 거치며, 비선형적 공간으로 표현력을 강화하고, 잔차 연결(Residual Connection)을 통해 모델의 학습 안정성을 확보한다.

(11)

$F_{out}=F +MLP(\ln(F_{refin e}))$

여기서 MLP는 ReLU 함수와 은닉층 확장을 포함하는 2-Layer Feed-Forward Network이며, LN은 Layer Normalization 연산을 나타낸다. 본 구조는 윈도우 내의 지역적 특징과 전역적 맥락 정보의 유기적인 결합을 가능하게 하며, 기존 윈도우 기반 어텐션의 공간 단절 한계를 극복한다.

또한 제안된 HLSA 구조는 모든 어텐션 연산 과정에서 일반적인 컨볼루션 연산 대신 파라미터 효율이 높은 DWConv를 사용하고, 공간 평균 풀링을 통해 입력 특징 맵의 해상도를 국소적으로 축소함으로써 전체 연산량을 줄였다. 특히 윈도우 단위의 평균 풀링은 Swin Transformer와 동일한 $7\times 7$ 구조를 사용하여 연산 효율과 구조 호환성을 동시에 확보하였다. 이러한 경량화 설계는 높은 표현 성능을 유지하면서도 메모리 자원과 연산 부담을 최소화하여, 제한된 컴퓨팅 환경에서도 효과적인 학습이 가능하도록 한다.

3.3.3 잔차 연결 기반 학습 경사 흐름 안정화

WINter-ViT의 각 Stage에서는 입력 특징의 정보 손실을 최소화하기 위한 다운샘플링 구조가 적용된다. 본 논문에서는 Skip Connection 기반의 잔차 구조를 결합한 다운샘플링 모듈을 사용함으로써 깊은 네트워크에서도 Gradient의 흐름을 안정적으로 유지하고 입력 특징 정보를 보존하도록 설계하였다.

이 구조는 그림 2(a)의 Down Sampling 블록에 해당한다. 먼저 입력 특징 $x\in\vec{R^{B\times N\times C}}$는 토큰 형태에서 2D공간 형태로 복원되기 위해 $\vec{R^{B\times C\times H\times W}}$ 형태로 변형된다. 이후 합성곱 연산을 통해 2배 다운샘플링이 적용되며, 출력 채널 수는 2배로 증가한다.

(12)

$x_{skip}=Conv2d_{1\times 1,\: stride=2}(x_{reshaped})$

이 연산은 채널 수를 확장하면서 동시에 공간 해상도를 절반으로 축소하는 효과를 가지며, 정보 손실을 최소화하도록 $1\times 1$ 합성곱 연산을 수행한다. 최종적으로 $\vec{R^{B\times N'\times 2C}}$형태로 펼치고, Layer Normalization을 적용하여 정규화한다.

(13)

$x_{out}=Layer No({x}_{{skip}})$

이러한 구조는 WINter-ViT의 Stage 2, 3, 4에서 특징 맵에 더해지며, Stage 간 연결을 통해 역전파 시 Gradient의 흐름이 유지되어 학습 안정성을 확보할 수 있다. 또한, 고차원 표현을 효과적으로 계층화하는 역할을 한다.

4. 실 험

본 절에서는 제안한 모델의 이미지 분류 성능을 검증하고, 기존의 다양한 네트워크들과 비교 분석한다. 실험은 4개의 A6000 GPU에서 다음 세 가지 설정으로 수행되었다. 첫 번째로, 대규모 이미지 분류 벤치마크인 ImageNet-1k 데이터셋을 활용하여, 기존 모델들과의 정량적 성능을 비교하였다. 두 번째로는 ImageNet100을 기반으로, 제안한 각 모듈이 Swin Transformer 구조에 미치는 영향을 분석하기 위한 Ablation 실험을 수행하였다.

마지막으로 ImageNet100 데이터셋을 활용하여, 윈도우 기반 비전 트랜스포머 네트워크들과의 정량적 성능을 비교하였다.

4.1 ImageNet-1K 기반 성능 비교

ImageNet-1k는 1,000개의 객체 카테고리로 구성된 대규모 이미지 분류 데이터셋으로, 총 128만 개의 학습 이미지와 5만 개의 검증 이미지를 포함하고 있다. 학습은 배치 사이즈 256으로 총 300 에폭 동안 수행되었고, 초기 학습률은 0.001로 설정되었다. 학습 초기 20 에폭 동안은 warmup이 적용되었으며, 옵티마이저로는 AdamW가 사용되었다. 다양한 모델의 성능을 균등한 조건에서 평가할 수 있도록 이미지 크기는 $224\times 224$로 설정하였다. ImageNet-1k에서 학습한 결과는 Table 1에 제시하였다. Top-1 accuracy 기준으로 여러 네트워크와 비교하였을 때 우수한 성능을 달성함을 확인할 수 있다. 또한, 백본인 Swin-T 보다 우리의 모델이 0.8\% 성능 개선을 이루었으며, Refined-T 보다는 0.5% 성능이 개선되었다.

4.2 ImageNet100 기반 Ablation 실험

제안한 모듈별 성능 기여도를 분석하기 위해, 전체 네트워크 구조를 ImageNet100 데이터셋에서 Ablation 실험을 수행하였다. ImageNet100은 ImageNet-1k에서 100개의 클래스를 선정하여 구성한 서브셋으로, 빠른 실험과 구조 비교에 적합하다. 이미지는 각 클래스 당 약 1,300장의 학습 이미지와 50장의 검증 이미지로 이루어져 있고, 총 데이터 수는 약 130,000장의 학습 이미지와 5,000장의 검증 이미지를 포함하고 있다.

표 1 ImageNet-1k에서 다른 모델들과 성능 비교한 결과

Table 1 Comparison of different model on the ImageNet-1K dataset

model	#param	Input size	FLOPs	Top-1 (%)
ResNet-18[4]	12M	224	1.8G	70.3
ResNet-50	26M	224	3.8G	76.7
ResNet-101	45M	224	7.6G	78.3
ResNet-152	60M	224	11.3G	78.9
ViT-B/16[7]	87M	224	17.6G	77.9
ViTAE-T[25]	4.8M	224	1.5G	75.3
DeiT-S/16[13]	22M	224	4.6G	79.8
PVT-Tiny[26]	13M	224	1.9G	75.1
PVT-Small	25M	224	3.8G	79.8
PVT-Medium	44M	224	6.7G	81.2
TNT-S[15]	24M	224	5.2G	81.3
Swin-T[8]	29M	224	4.5G	81.3
T2T-ViT-14[14]	22M	224	5.2G	81.5
CrossViT-S[27]	27M	224	5.4G	81.3
Refined-T[9]	37M	224	4.5G	81.6
Twins-SVT-S[28]	24M	224	2.9G	81.7
PVT-Large	61M	224	9.8G	81.7
DeiT-B	87M	224	17.5G	81.8
T2T-ViT-19	39M	224	8.9G	81.9
WINter-ViT	37M	224	5.9G	82.1

Ablation 실험은 ImageNet-1K와 동일한 실험 설정 하에 수행되었고 Swin-T 백본을 기반으로, 다음 네 가지 조건을 비교하였다: (1) Skip connection 단독 적용, (2) EHSA 단독 적용, (3) HLSA 단독 적용, (4) 제안한 모든 모듈을 결합한 WINter-ViT. 실험 결과는 Table 2에 제시되어 있으며, 각 모듈이 모두 기존 백본 대비 성능 향상을 달성함을 확인할 수 있었다. 이는 제안한 구조가 기존 윈도우 기반 트랜스포머의 한계를 효과적으로 보완함을 증명한다.

표 2 ImageNet100에서 Swin-T 기반 Ablation 실험 결과

Table 2 Ablation study results using Swin-T on ImageNet100

model	#param	Input size	FLOPs	Top-1 (%)
Swin-T[8]	28M	224	4.5G	83.3
Swin-T + Skip	28M	224	4.8G	84.3
Swin-T + EHSA	28M	224	4.5G	84.6
Swin-T + HLSA	36M	224	5.9G	84.8
WINter-ViT	37M	224	5.9G	86.8

4.3 윈도우 기반 비전 트랜스포머 모델들과 성능 비교

제안한 모델은 윈도우 기반 비전 트랜스포머의 지역적 정보 집중 한계를 극복하기 위해 설계되었으며, 이에 따라 기존 윈도우 기반 구조들과의 성능 비교를 통해 그 효과를 검증하고자 하였다. 비교 대상은 Focal Transformer^[29], Swin Transformer^[8], Slide Transformer^[30], MSG Transformer^[31]로 구성하였으며, 모든 모델은 정확한 비교를 위해 동일한 학습 설정 하에서 실험하였다.

Table 3은 ImageNet100 벤치마크에서의 Top-1 정확도를 정량적으로 비교한 결과를 나타낸다. 제안한 WINter-ViT가 기존 윈도우 기반 모델들을 상회 하는 성능을 보였다. 이는 WINter-ViT가 윈도우 내 지역적 패턴을 보다 정교하게 포착함과 동시에 윈도우 간 전역 문맥 정보를 효과적으로 통합했기 때문으로 분석된다.

표 3 ImageNet100에서 윈도우 기반 네트워크들과 성능 비교한 결과

Table 3 Comparison with window-based networks on ImageNet 100

model	#param	FLOPs	Top-1 (%)
Focal-T[29]	29M	4.9G	82.7
Swin-T[8]	28M	4.5G	83.3
Slide-Swin-T[30]	29M	4.6G	83.8
MSG-T[31]	25M	3.8G	84.4
WINter-ViT	37M	5.9G	86.8

5. 결 론

본 연구는 윈도우 기반 비전 트랜스포머의 구조적 한계를 해결하기 위해, 지역적 정보 표현력은 유지하면서 전역 문맥 정보를 효과적으로 통합할 수 있는 새로운 어텐션 구조를 제안하였다. Swin Transformer는 윈도우 기반 어텐션을 통해 연산 효율성과 성능을 모두 확보하였으나, 윈도우 간 전역 의존성 학습에는 한계가 있으며, Refined Transformer는 CBAM 기반의 채널-공간 어텐션을 순차적으로 적용함으로써 정보 편향을 유발할 수 있다.

이를 해결하기 위해, 본 논문에서는 두 가지 모듈을 설계하였다. Efficient Head Self-Attention(EHSA) 모듈은 윈도우 내 각 어텐션 헤드의 중요도를 독립적으로 조정함으로써 지역 정보 표현을 정교화한다. Hierarchical Local-to-Global Spatial Attention(HLSA) 모듈은 윈도우 간 계층적 상호작용을 학습하여, 전역 문맥 정보를 효과적으로 반영한다.

제안한 구조는 Swin-T 백본에 통합되었으며, ImageNet 벤치마크 실험을 통해 기존 네트워크들뿐 아니라, 다양한 윈도우 기반 모델들과 비교 시에도 더 높은 정확도와 효율성을 보였다. 이는 윈도우 기반 트랜스포머 구조 전반이 갖고 있던 전역 문맥 상실, 윈도우 간 의존성 부족 등의 문제를 구조적으로 개선했음을 의미한다.

향후에는 제안한 구조의 경량화 및 연산 최적화를 통해 실시간 환경에서도 적용할 수 있는 수준으로 발전시키는 것이 주요 과제가 될 것이며, 객체 인식 및 시멘틱 분할 등 다양한 시각 인식 분야에 확장 가능성 또한 존재한다. 결과적으로 비전 트랜스포머의 표현력을 향상하기 위한 본 연구의 접근은 어텐션 구조의 재설계를 통한 실질적인 성능 개선을 달성하였으며, 이는 학문적 기여와 실용적 확장성을 동시에 확보한 결과로 볼 수 있다.

감사의 글

본 연구는 2025년도 정부(국토교통부)의 재원으로 국토교통과학기술진흥원의 지원을 받아 수행된 연구임. (과제번호: RS-2021-KA162182)

References

A. Krizhevsky, I. Sutskever and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” Advances in Neural Information Processing Systems, vol. 25, 2012. DOI:10.1145/3065386

K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, Sept. 2014. DOI:10.48550/arXiv.1409.1556

C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke and A. Rabinovich, “Going deeper with convolutions,” Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 1-9, 2015. DOI:10.1109/CVPR.2015.7298594

K. He, X. Zhang, S. Ren and J. Sun, “Deep residual learning for image recognition,” Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 770-778, 2016. DOI:10.1109/CVPR.2016.90

G. Huang, Z. Liu, L. van der Maaten and K. Q. Weinberger, “Densely connected convolutional networks,” Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 4700-4708, 2017. DOI:10.1109/CVPR.2017.243

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser and I. Polosukhin, “Attention is all you need,” Advances in Neural Information Processing Systems (NeurIPS), vol. 30, 2017. DOI:10.48550/arXiv.1706.03762

A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, J. Uszkoreit and N. Houlsby, “An image is worth 16×16 words: Transformers for image recognition at scale,” arXiv preprint arXiv:2010.11929, Oct. 2020. DOI:10.48550/arXiv.2010.11929.

Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin and B. Guo, “Swin transformer: Hierarchical vision transformer using shifted windows,” Proc. IEEE/CVF Int. Conf. on Computer Vision (ICCV), pp. 10012-10022, 2021. DOI:10.1109/ICCV48922.2021.00988

D. Yu and J. Yu, “A study on improving image classification performance using Vision Transformer with window attention in a refined feature space,” The Transactions of the Korean Institute of Electrical Engineers, vol. 73, no. 6, pp. 1004-1011, 2024. DOI:10.5370/KIEE.2024.73.6.1004

S. Woo, J. Park, J. Y. Lee and I. S. Kweon, “CBAM: Convolutional block attention module,” Proc. European Conf. on Computer Vision (ECCV), pp. 3-19, 2018. DOI:10.1007/978-3-030-01234-2_1

Y. Si, H. Xu, X. Zhu, W. Zhang, Y. Dong, Y. Chen and H. Li, “SCSA: Exploring the synergistic effects between spatial and channel attention,” Neurocomputing, vol. 634, pp. 129866, Jun. 2025. DOI:10.1016/j.neucom.2024.129866

J. Deng, W. Dong, R. Socher, L. J. Li, K. Li and L. Fei-Fei, “ImageNet: A large-scale hierarchical image database,” Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 248-255, 2009. DOI:10.1109/CVPR.2009.5206848

H. Touvron, M. Cord, M. Douze, F. Massa, A. Sablayrolles and H. Jégou, “Training data-efficient image transformers & distillation through attention,” Proc. Int. Conf. on Machine Learning (ICML), pp. 10347-10357, Jul. 2021. DOI:10.48550/arXiv.2012.12877

L. Yuan, Y. Chen, T. Wang, W. Yu, Y. Shi, Z. H. Jiang, F. E. H. Tay, J. Feng and S. Yan, “Tokens-to-token ViT: Training vision transformers from scratch on ImageNet,” Proc. IEEE/CVF Int. Conf. on Computer Vision (ICCV), pp. 558-567, 2021. DOI:10.1109/ICCV48922.2021.00061

K. Han, A. Xiao, E. Wu, J. Guo, C. Xu and Y. Wang, “Transformer in transformer,” Advances in Neural Information Processing Systems (NeurIPS), vol. 34, pp. 15908-15919, Dec. 2021. DOI:10.48550/arXiv.2103.00112

J. Guo, K. Han, H. Wu, Y. Tang, X. Chen, Y. Wang and C. Xu, “CMT: Convolutional neural networks meet vision transformers,” Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 12175-12185, 2022. DOI:10.1109/CVPR52688.2022.01187

H. Wu, B. Xiao, N. Codella, M. Liu, X. Dai, L. Yuan and L. Zhang, “CvT: Introducing convolutions to vision transformers,” Proc. IEEE/CVF Int. Conf. on Computer Vision (ICCV), pp. 22-31, 2021. DOI:10.1109/ICCV48922.2021.00011

X. Dong, J. Bao, D. Chen, W. Zhang, N. Yu, L. Yuan, D. Chen and B. Guo, “CSWin Transformer: A general vision transformer backbone with cross-shaped windows,” Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 12124-12134, 2022. DOI:10.1109/CVPR52688.2022.01180

S. Wu, T. Wu, H. Tan and G. Guo, “Pale Transformer: A general vision transformer backbone with pale-shaped attention,” Proc. AAAI Conf. on Artificial Intelligence, vol. 36, no. 3, pp. 2731-2739, Jun. 2022. DOI:10.1609/aaai.v36i3.20244.

Q. Zhang, Y. Xu, J. Zhang and D. Tao, “VSA: Learning varied-size window attention in vision transformers,” Proc. European Conf. on Computer Vision (ECCV), pp. 466-483, Oct. 2022. DOI:10.1007/978-3-031-19806-9_27

T. Yu, G. Zhao, P. Li and Y. Yu, “BOAT: Bilateral local attention vision transformer,” arXiv preprint arXiv:2201.13027, Jan. 2022. DOI:10.48550/arXiv.2201.13027

J. Hu, L. Shen and G. Sun, “Squeeze-and-excitation networks,” Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 7132-7141, 2018. DOI:10.1109/CVPR.2018.00745

Q. Wang, B. Wu, P. Zhu, P. Li, W. Zuo and Q. Hu, “ECA-Net: Efficient channel attention for deep convolutional neural networks,” Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 11534-11542, 2020. DOI:10.1109/CVPR42600.2020.01155

W. Xu and Y. Wan, “ELA: Efficient local attention for deep convolutional neural networks,” arXiv preprint arXiv:2403.01123, Mar. 2024. DOI:10.48550/arXiv.2403.01123

Y. Xu, Q. Zhang, J. Zhang and D. Tao, “ViTAE: Vision transformer advanced by exploring intrinsic inductive bias,” Advances in Neural Information Processing Systems (NeurIPS), vol. 34, pp. 28522-28535, Dec. 2021. DOI:10.48550/arXiv.2106.03348

W. Wang, E. Xie, X. Li, D. P. Fan, K. Song, D. Liang, T. Lu, P. Luo and L. Shao, “Pyramid vision transformer: A versatile backbone for dense prediction without convolutions,” Proc. IEEE/CVF Int. Conf. on Computer Vision (ICCV), pp. 568-578, 2021. DOI:10.1109/ICCV48922.2021.00062

C. F. R. Chen, Q. Fan and R. Panda, “CrossViT: Cross-attention multi-scale vision transformer for image classification,” Proc. IEEE/CVF Int. Conf. on Computer Vision (ICCV), pp. 357-366, 2021. DOI:10.1109/ICCV48922.2021.00042

X. Chu, Z. Tian, Y. Wang, B. Zhang, H. Ren, X. Wei, H. Xia and C. Shen, “Twins: Revisiting the design of spatial attention in vision transformers,” Advances in Neural Information Processing Systems (NeurIPS), vol. 34, pp. 9355-9366, Dec. 2021. DOI:10.48550/arXiv.2104.13840

J. Yang, C. Li, P. Zhang, X. Dai, B. Xiao, L. Yuan and J. Gao, “Focal self-attention for local-global interactions in vision transformers,” arXiv preprint arXiv:2107.00641, Jul. 2021. DOI:10.48550/arXiv.2107.00641

X. Pan, T. Ye, Z. Xia, S. Song and G. Huang, “Slide-transformer: Hierarchical vision transformer with local self-attention,” Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 2082-2091, 2023. DOI:10.1109/CVPR52729.2023.00213

J. Fang, L. Xie, X. Wang, X. Zhang, W. Liu and Q. Tian, “MSG-Transformer: Exchanging local spatial information by manipulating messenger tokens,” Proc. IEEE/CVF Conf. on Computer Vision and Pattern Recognition (CVPR), pp. 12063-12072, 2022. DOI:10.1109/CVPR52688.2022.01177

저자소개

김주명(Ju-Myung Kim)

He received the B.S. degree in Automotive IT Convergence from Kookmin University, Seoul, Republic of Korea, in 2025. He is currently pursuing the M.S. degree in Automotive IT Convergence and conducting research with the Intelligent Vehicle Signal Processing (IVSP) Lab. His research interests include deep learning, computer vision, autonomous driving technologies, and vision transformers.

김재혁(Jae-Hyeok Kim)

He received the B.S. degree in Robotics Engineering from Hanyang University ERICA, Ansan, Republic of Korea, in 2024. He is currently pursuing the M.S. degree in Automotive IT Convergence and conducting research with the Graduate School of Automotive Engineering, Kookmin University. His research interests include deep learning, computer vision, autonomous driving, and point cloud technologies

박소윤(So-Yun Park)

She received the B.S. degree in Computer Engineering from Sungshin Women's University, Seoul, Republic of Korea, in 2023. She is currently pursuing the M.S. degree in Automotive IT Convergence and conducting research with the Graduate School of Automotive Engineering, Kookmin University. Her research interests include deep learning, autonomous driving perception and decision-making technologies.

유진우(Jin-Woo Yoo)

He received his BS, MS, Ph.D. in electrical engineering from Pohang University of Science and Technology (POSTECH) in 2009, 2011, 2015, respectively. He was a senior engineer at Samsung Electronics from 2015 to 2019. He is currently an Associate Professor in the departmant of Automotive Engineering at Kookmin University. His current research interests are autonomous driving technologies and signal/image processing techniques.

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

WINter-ViT : Window Interaction Vision Transformer with Head-Aware Attention

Translated Abstract

Key words

1. 서 론

2. 관련 연구

2.1 비전 트랜스포머

2.2 컴퓨터 비전에서의 어텐션 기법

3. 제안하는 모델

3.1 전체 아키텍처

3.2 효율적인 헤드 어텐션 (EHSA)

(1)

(2)

(3)

3.3 지역-전역 계층 공간 어텐션 (HLSA)

3.3.1 다양한 수용 영역 기반 공간 어텐션

(4)

(5)

(6)

3.3.2 지역 정보 확장을 통한 전역 문맥 이해

(7)

(8)

(9)

(10)

(11)

3.3.3 잔차 연결 기반 학습 경사 흐름 안정화

(12)

(13)

4. 실 험

4.1 ImageNet-1K 기반 성능 비교

4.2 ImageNet100 기반 Ablation 실험

4.3 윈도우 기반 비전 트랜스포머 모델들과 성능 비교

5. 결 론

감사의 글

References

저자소개

김주명(Ju-Myung Kim)

김재혁(Jae-Hyeok Kim)

박소윤(So-Yun Park)

유진우(Jin-Woo Yoo)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers