• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Software Convergence, Graduate School, Soonchunhyang University, Korea.)
  2. (Dept. of Dermatology, Guro Hospital, Korea University College of Medicine, Korea.)
  3. (Dept. of Computer Science and Engineering, College of Engineering, Design and Computing, University of Colorado Denver, USA.)



Psoriasis, Severity classification, Data augmentation, EfficientNet B2

1. Introduction

건선 질환은 전신에 나타나는 만성 피부질환으로, 홍반, 인설과 같은 병변이 나타나며 이들은 대표적 임상 지표 psoriasis area and severity index (PASI) score를 통해 발병 부위에 따라 나타나는 대표 질환의 각 병변에 대한 중증도를 평가하고, 종합된 점수를 바탕으로 최종 환자의 질환 중증도를 진단한다(1,2). 하지만 이러한 임상 지표 기반의 질환 진단은 피부 임상의의 경험에 의한 주관적 판단에 의존한다. 질환 평가를 객관화하고 자동화하기 위한 다양한 연구들이 수행되고 있다. 최근에는 딥러닝 기술의 발전과 함께 합성곱 신경망(Convolutional nerual network) 기반의 영상 내 질환 분류, 검출, 분할과 같은 컴퓨터 비전 과제가 활발히 수행되고 있다(3,4). 딥러닝 모델의 성능을 높이기 위해서는 기본적으로 모델 학습에 큰 데이터 셋이 필요하다.

의료 분야에서는 질환의 희귀성, 환자 개인 정보 보호, 데이터 라벨링을 위한 많은 전문지식과 시간 요구와 같은 문제로 큰 데이터 셋 구성이 어렵다(5,6). 특히, 건선 질환의 경우 중증도가 다양하고, 중증도가 심할수록 질환 데이터를 획득이 어렵다. 따라서 현재 중증도에 따른 질환 데이터의 수에 편차가 심한 클래스 불균형(class imbalance) 문제가 발생한다. 다시 말해, 건선 데이터셋은 적은 데이터 수와 클래스 불균형 문제를 갖고 있어 모델 학습 영향을 미치고 결과적으로 모델의 과적합 및 성능 악화를 초래한다 (7). 따라서, 이러한 문제를 해결하기 위해 많은 딥러닝 연구에서는 정규화 방법의 하나인 데이터 증강 기법(Data augmentation)을 필수적으로 사용한다(8).

데이터 증강기법은 데이터를 뒤틀거나 오버샘플링(oversampling)하여 인위적으로 데이터 수를 늘리는 방법이다. 데이터 뒤틀림 방식으로는 기하학적 및 색 변환(geometric and color transformations), 부분 마스크(random erasing), 적대적 학습(adversarial training), 스타일 변환(style transfer)과 같은 기법이 있다. 오버샘플링 방식은 새로운 합성 이미지를 만들어 훈련에 사용하는 것으로, 이미지 혼합(mixing images), 특징 맵 증강(feature space augmentation), Generative Adversarial Networks(GANs)가 있다(5). 이러한 데이터 증강기법은 훈련 데이터의 특징에 맞게 사용하여야 한다. 즉, 특정 데이터 셋에 적용한 데이터 증강기법이 다른 데이터 셋에 항상 좋은 결과를 가져오지 않는다. 따라서 최적의 데이터 증강기법을 찾기 위한 다양한 시도의 연구가 수행되면서, AutoAugment(9)나 RandAugment(10)과 같이 목표 데이터에 가장 적합한 데이터 증강기법을 찾는 자동 설계기법이 등장하였다.

건선 질환은 중증도에 따라 크기, 형태 등이 다양하며 질환의 상태가 호전과 악화를 반복하여 나타나기 때문에 질환의 중증도가 모호한 경우가 많다. 따라서 본 연구에서는 건선 질환 특징에 적합하게 동작하여 제한된 데이터 수와 다양성을 보완할 수 있는 최적의 데이터 증강기법을 분석하였다. 또한, 데이터 증강기법의 적용을 통해 모델의 과적합 방지 및 모델 성능의 개선 효과를 확인하고자 한다. 우리는 데이터 증강기법으로 수동 설계기법인 Geometric transformation, CutMix(11), Visual Corruptions(12)과 자동 설계기법인 AutoAugment, RandAugment 방법을 사용하였고, 또한, 3가지 수동 설계 기법의 조합 사용에 따른 분류 성능을 비교 분석하였다.

2. Method

2.1 Psoriasis disease Dataset

고려대학교 구로병원 피부과에서 한국인 건선 환자 44명을 대상으로 건선 질환 영상을 획득하였다. 참여기관인 고려대학교 구로병원과 순천향대학교는 헬싱키 선언 및 ICH-GCP 기준과 적용되는 모든 규정에 따라 본 연구를 수행하였다 (Approval number : 2020GR0019, 202001-BM-005). 우리는 하나 이상의 질환이 포함된 300×300 pixel 크기의 영상을 사용하였다. 각 질환 영상에 대한 중증도는 PASI score의 평가요소인 홍반과 인설 점수를 기준으로 라벨링하였다. 피부과 임상의는 local 질환 영상을 보고 홍반과 인설의 중증도에 따라 0~4점을 부여하였다 (0: healthy, 1: mild, 2: moderate, 3: severe, 4: very severe). 두 평가점수의 합계를 기준으로 건선 중증도를 5가지로 나누었다. 5가지 그룹은 Healthy (0점), mild (1~2점), moderate (3~4점), severe (5~6점), 그리고 very severe (7~8점)으로 구성되어 있다. 그림1은 첫 번째 행부터 차례로 healthy, mild, moderate, severe, very severe 그룹의 대표 질환 영상을 보여주고 있다.

본 연구에서는 훈련 데이터 셋으로 총 640장의 영상 (healthy: 41, mild: 141, moderate: 186, severe: 206, very severe: 66), 테스트 데이터 셋으로 총 152장의 영상 (Healthy: 16, Mild: 20, Moderate: 45, Severe: 52, Very Severe: 19)을 사용하였다. 이때, 사용되는 데이터 셋은 중증도마다 영상 수가 다른 클래스 불균형 문제가 발생한다. 배치 크기의 무작위 원 데이터(그림 1)에 본 연구에서 설정한 데이터 증강기법을 적용하여 새로운 변환 영상을 생성하여 학습하였다. 새롭게 생성된 데이터들을 이용해 다양한 질환 데이터를 학습하여 모델의 일반화 성능을 높였다.

2.2 Data augmentation

우리는 건선 질환 영상에 적합한 데이터 증강기법 탐색을 위해 기본 이미지 변환기법이자 수동 설계기법인 geometric transformation, CutMix, Visual corruptions 3가지 방법을 사용하였고, 자동 설계방법인 AutoAugment와 RandAugment 2가지 방법을 사용하였다. 건선 질환의 중증도 평가에서 질환의 색 정보는 매우 중요하다. 질환의 색 변형으로 인한 모델 성능 저하를 막기 위해, 5가지 데이터 증강기법에서 과도한 색 변형을 유발하는 요인은 제외하였다. 자동 설계기법의 경우, 여러 수동 설계기법들을 주어진 규칙에 따라 데이터에 적용한다. 우리는 AutoAugment, RandAugment의 기존 연구에서 제안한 규칙을 사용하여 실험을 수행하였다. 이때, 건선 데이터에 가장 효과적인 데이터 증강기법에 대한 분석을 위해, 자동 설계기법과 유사하게 수동 설계기법들을 조합하였을 때의 성능을 함께 비교 및 분석하였다. 수동 기법들의 조합의 경우, 두가지 기법들을 데이터에 동시에 적용하였다.

그림. 1. 5가지 중증도 단계의 건선 질환 영상

Fig. 1. Psoriasis disease images of Five severity group

../../Resources/kiee/KIEE.2022.71.12.1841/fig1.png

2.2.1 Geometric Transformations

기하학적 변환은 일반적으로 가장 많이 사용되고 있는 데이터 증강기법으로 이동, 크기, 회전, 대칭 변환이 기하학적 변환에 속한다. 본 연구에서는 vertical and horizontal flip, rotate (-15, 15)을 훈련 데이터 셋에 적용하였다.

2.2.2 CutMix

CutMix는 2개의 다른 이미지를 합쳐 새로운 합성 이미지를 만드는 기법이다(10). 합성 이미지를 만드는 기존 방법인 MixUp 기법의 경우, 두 개의 이미지가 선형 보간되어 합쳐짐으로써 결과 이미지가 모호하며 부자연스럽다는 단점이 있다 (12). 반면 CutMix는 지역적으로 이미지를 잘라내고, 잘라낸 부분에 다른 이미지의 패치를 덧붙여 보다 자연스러운 영상을 생성한다. CutMix의 결과 이미지의 라벨은 혼합 이미지 내의 더 높은 비율의 이미지를 기준으로 한다. 본 연구에서는 CutMix 기법을 적용해 2가지 중증도가 섞인 새로운 질환 이미지를 생성하였다 (그림 2).

그림. 2. CutMix를 이용한 중증도 혼합 영상

Fig. 2. Mixed-severity images using CutMix

../../Resources/kiee/KIEE.2022.71.12.1841/fig2.png

2.2.3 Visual Corruptions

이미지는 다양한 환경 노이즈에 노출되며, 노이즈가 포함된 이미지는 모델 성능에 영향을 미칠 수 있다. 노이즈, 블러와 같은 방해요소인 visual corruptions에 대한 모델의 견고성을 높이기 위해, visual corruptions을 적용한 ImageNet-C benchmark를 제안한 연구가 발표되었다(11). ImageNet-C는 corruption 강건함을 측정할 수 있는 데이터 셋으로 15개의 corruption 종류와 5단계의 적용 정도를 설정해 75개 집합의 일반적인 visual corruptions을 다룬다(13). 기존 연구에서는 모델 평가 과정에서만 visual corruptions을 적용한 이미지를 사용하였다. 본 연구에서는 다양한 환경 노이즈에도 강건한 모델 학습을 위해, visual corruptions을 데이터 증강기법으로 활용하였다. 우리는 색 변형 요인을 제외한, gaussian noise, shot noise, impulse noise, speckle noise, gaussian blur, glass blur, defocus blur, zoom blur, elastic transform, contrast, brightness로 총 11개 corruptions을 적용하였으며, 모두 적용 강도는 가장 낮은 1레벨, 적용 확률은 0.5로 설정하였다 (그림 3).

그림. 3. ImageNet-C benchmark를 이용한 질환 손상 영상

Fig. 3. The corrupted disease images using ImageNet-C benchmark

../../Resources/kiee/KIEE.2022.71.12.1841/fig3.png

2.2.4 AutoAugment

특정 데이터 셋에 적용된 데이터 증강기법이 항상 다른 데이터 셋에 효과적인 것은 아니다. AutoAugment는 목표 데이터에 효과적인 policy를 자동으로 찾는 기법이다(8). AutoAugment는 search space와 search algorithm으로 구성되어 있다. Search space는 최적의 image processing operation 종류와 operation 변환 정도를 찾기 위해 가능한 모든 경우의 수를 나타낸다. 이때 image processing operation은 Shear X(Y), Translate X(Y), Rotate, Autocontrast, Invert, Equalize, Solarize, Posterize, Contrast, Color, Brightness, Sharpness, CutOut, Sample paring으로 총 16개의 종류이다. Policy는 2개의 operation을 연속적으로 적용하는 5개의 sub-policy로 구성되어 있다. 무작위로 sub-policy를 선택하고, policy가 적용된 데이터 이용해 모델을 학습한다. Search algorithm으로는 강화학습을 이용하였고, 학습된 모델에서 검증 데이터 셋의 정확도를 강화학습의 보상으로 사용해 효과적인 데이터 증강기법의 policy를 탐색하는 방향으로 학습한다. AutoAugment는 ImageNet, CIFAR-10, SVHN 데이터 셋에 대한 25가지 policy를 생성하였다. 본 연구에서는 색 변형을 유발하는 요인을 제외한 shear X(Y), translate X(Y), invert로 구성된 SVHN 데이터 셋 정책을 사용하였으며, vertical and horizontal flip을 추가로 적용하였다.

2.2.6 RandAugment

RandAugment는 AutoAugment의 복잡성 및 낮은 계산 효율성을 극복하기 위한 기법으로, 여러 operation을 무작위로 추출하여 적용함으로써 훨씬 낮은 search space를 가지면서 좋은 성능을 보이는 기법이다(9). RandAugment는 총 14개 종류의 operation인 Identify, Autocontrast, Equalize, Rotate, Solarize, Color, Posterize, Contrast, Brightness, Sharpness, Shear X(Y), Translate X(Y)를 사용하였다. 또한, 초매개변수로 적용할 operation의 개수 N과 operation의 변환 정도 M을 설정하여 적용하였다. 본 연구에서는 Identify, Rotate, Shear X(Y), Translate X(Y)로 policy를 구성하였으며, vertical and horizontal flip을 추가로 적용하였다. 또한, N은 3, M은 15로 설정하였다.

2.3 Training strategy

본 연구에서 훈련과 테스트는 pytorch를 이용하며, GeForce RTX 2080 Ti 11GB 2개를 이용하여 수행하였다.

기존 연구에서는 보다 좋은 성능 및 효율성을 높이기 위해 합성곱 모델의 구조 확장에 대한 다양한 시도가 이루어졌다. 일반적으로 모델의 깊이, 너비, 입력 이미지 크기를 수동적으로 조절하였다. 이 세 가지 방법을 효율적으로 조절할 수 있는 compound scaling 방법이 제시되었고 이를 이용해 기존 network보다 훨씬 적은 파라미터를 이용해 높은 정확도 성능을 재는 효율적인 분류 모델인 EfficientNet을 설계하였다(14). 분류 모델로는 ImageNet 데이터 셋으로 사전 훈련된 EfficientNet B2 모델을 이용하였다. 이때, EfficientNet B2는 기본 모델인 EfficientNet B0 모델보다 좀 더 깊은 모델로 복잡한 비선형 패턴에 대해 효과적으로 동작하면서, 모델 파라미터가 9.4M, 모델의 복잡도가 2.1B로 경량모델이다. 우리는 건선의 복잡한 패턴을 감지할 수 있고, 제한된 컴퓨팅 리소스 환경에서 빠르고 가볍게 동작할 수 있는 EfficientNet B2를 이용해 실험을 수행하였다.

우리는 모델 학습의 효율성 및 정확도 향상을 위해 cosine learning rate decay, label smoothing을 이용하며 손실함수는 cross entropy, 최적화 함수는 Rectified Adam을 이용하였다(15,16). 훈련 횟수는 50, 배치 크기는 16으로 설정하였다. 분류 성능 평가를 위해 전체 정확도(accuracy, ACC), macro-average의 정밀도(precision, PR), 재현율(recall, RE), f1-score(F1)를 사용하였다.

데이터 증강기법의 효과를 검증하고 건선 데이터에 보다 적합한 데이터 증강기법을 탐색하기 위해 우리는 기법 단일 적용 및 여러 기법의 다중 적용을 수행하였다. 동일한 기하학적 변환방법이 포함된 기법 간의 조합은 제외하고, 원 영상만을 이용하는 경우 외에 7가지 종류의 데이터 증강기법이 적용된 데이터 셋을 이용한 분류결과를 확인하였다.

3. Results

본 연구에서는 건선 중증도 분류 성능을 높이기 위해 5가지 데이터 증강기법인 geometric transform, CutMix, visual corruptions, AutoAugment, RandAugment를 적용하였다. 건선 데이터에 가장 적합한 데이터 증강기법을 탐색하기 위해 단일 혹은 다중 데이터 증강기법 적용에 따른 8가지 종류의 데이터 셋을 구성하였다. 우리는 EfficientNet B2 모델을 이용하여 건선 중증도 분류를 수행하고, 4가지 분류지표를 이용해 모델 성능을 평가하였다.

표 1은 데이터 증강기법 적용에 따른 건선 중증도 분류결과를 보여주고 있다. 먼저 원 영상만을 사용한 결과와 비교하였을 때, visual corruptions 기법을 제외한 나머지 4가지 기법 모두 분류 성능이 향상되었음을 볼 수 있다. 특히, AutoAugment, RandAugment 적용 시 2.6% 정확도가 향상되었다. 건선 질환은 중증도가 높을수록 인설이 겹겹이 쌓이면서 질환 표면이 거친 질감을 갖는다. Visual corruptions의 적용이 이러한 중증도에 따른 질감 특성을 모호하게 만들어 분류 성능이 악화한 것으로 보인다. 또한, AutoAugment 기법 적용보다 RandAugment 기법 적용 결과의 재현율과 f1-score 값이 크다. 중증도에 따른 건선 데이터는 불균형하므로 f1-score 결과를 비교하였을 때, AutoAugment 기법보다 RandAugment 기법이 분류 성능에 더욱 효과적임을 알 수 있다. AutoAugment 기법은 여러 데이터 증강기법들이 확률과 정해진 강도 규칙에 따라 무작위의 데이터 증강기법이 적용된다. RandAugment 기법은 AutoAugment와 유사하지만, 항상 정해진 개수와 강도에 따라 데이터 증강기법이 적용된다. 한 가지 이상의 데이터 증강기법 사용이 보장된 RandAugment 기법의 우수한 성능 결과를 통해, 우리는 여러 개의 데이터 증강기법을 함께 사용하는 것이 모델이 질환 특징을 학습하는데 효과적임을 확인할 수 있다.

다음으로 다중 기법을 조합하여 사용한 결과를 보면, geometric transform에 CutMix와 visual corruptions을 각각 함께 사용하였다. 우리는 가장 효과적인 다중 기법을 탐색하고, 컴퓨팅 속도를 고려하여 Geometric transform+ CutMix, Geometric transform + Visual corruptions와 같이 두 가지 기법을 조합하였다. 결과적으로, 단일 기법을 적용했을 때보다 다중 기법 적용 결과 정밀도, 재현율 값이 증가하였다. 즉, 다중 기법을 적용한 결과 모델의 강건함이 향상되었음을 알 수 있다. 또한, geometric transform과 visual corruptions을 함께 사용하였을 때, RandAugment 기법 적용 수준만큼 모델 성능이 향상되었다. 이를 통해 visual corruptions 기법이 geometric transform과 함께 사용하였을 때 데이터의 다양성 증대 및 모델 강건함을 높이는 데 효과적으로 동작함을 알 수 있다. 전체적인 결과를 보았을 때, RandAugment = Geomentric transform + Visual corruptions > AutoAugment > Geomentric transform + CutMix > Geomentric transform > CutMix > Visual corruptions 순으로 데이터 증강기법에 따른 우수한 분류 성능을 보여주고 있다.

우리는 가장 우수한 분류 성능을 보인 RandAugment와 Geomentric transform+Visual corruptions에 대한 실제 분류결과를 분류 혼동 모델로 확인하였다. 그림 4의 (a)는 RandAugment 적용에 따른 분류결과, (b)는 Geomentric transform+Visual corruptions 적용에 따른 분류결과를 보여주고 있다. 두 결과 모두 근접 그룹 간 오 분류가 발생한 것을 볼 수 있다. 건선 질환은 오랜 시간 동안 질환의 악화와 호전이 반복되므로 질환의 동적 변화를 관찰할 수 있다. 이러한 동적 변화는 질환 평가의 모호성을 일으킨다. RandAugment 적용 데이터 셋을 이용한 결과에서, 5가지 그룹 영상 중 severe 그룹 영상이 moderate 그룹 영상으로 가장 많이 오 분류되었다. 다른 그룹들의 오 분류 된 경우를 보면 중증도가 낮은 영상이 한 단계 높은 중증도로 분류된 것을 볼 수 있다. 이러한 결과를 통해, RandAugment 적용이 moderate 그룹의 학습된 특징이 severe 그룹의 특징과 가깝게 학습되었고, 이로 인해 moderate 그룹에 가까운 중증도를 갖는 많은 severe 그룹 영상이 moderate 그룹으로 오 분류된 것으로 분석할 수 있다. Geomentric transform+Visual corruptions 적용 데이터 셋을 이용한 분류결과에서도 유사하게 moderate 그룹과 severe 그룹 간 오 분류가 가장 많이 발생한 것을 볼 수 있다. RandAugment 적용에 결과와 비교해보았을 때, moderate 그룹 영상이 severe 그룹으로 오 분류된 경우가 증가한 것으로 보아 visual corruptions의 노이즈 정보가 중증도 높은 질환의 거칠기와 같은 텍스쳐 정보와 같은 질환 특징으로 인지하는 것으로 볼 수 있다. 반대로, 자신보다 한 단계 낮은 중증단계로 오분류 된 경우는 visual corruptions의 블러, contrast 영향을 많이 받은 것을 볼 수 있다. (a)와 (b) 결과 모두 대부분 좋은 분류결과를 보여주고 있다. 데이터 증강기법의 적용은 인접 중증도 간 오 분류를 일으킬 수 있지만, 대부분 영상에서는 그룹의 명확한 특징을 학습하는 데 효과적이다.

표 1. 데이터 증강기법 적용에 따른 건선 중증도 분류결과

Table 1. Results of psoriasis severity classification according to data augmentation methods

Dataset type

ACC

PR

RE

F1

Only original images

84.87

0.90

0.84

0.86

Geometric transform

85.53

0.91

0.86

0.88

CutMix

84.87

0.92

0.84

0.86

Visual corruptions

82.24

0.87

0.84

0.85

AutoAugment

87.5

0.92

0.86

0.88

RandAugment

87.5

0.91

0.90

0.90

Geometric transform+ CutMix

84.87

0.93

0.86

0.88

Geometric transform + Visual corruptions

87.5

0.91

0.90

0.90

그림. 4. (a) RandAugment 적용에 따른 분류 혼동 행렬, (b) Visual corruptions 적용에 따른 분류 혼동 행렬

Fig. 4. (a) Classification confusion matrix using RandAugment, (b) Classification confusion matrix using Visual corruptions

../../Resources/kiee/KIEE.2022.71.12.1841/fig4.png

4. Discussion

건선 질환 영상은 중증도에 따라 질환 특징이 다양하게 나타나 특정한 병변 특징을 검출하기 어렵다. 또한, 크기, 형태, 병변과 같은 질환 특징이 중증도 그룹 간 영상이 다르며, 마찬가지로 같은 중증도 그룹 내 영상에서도 다르게 나타난다. 또한, 중증도가 심한 영상 수집이 어렵다. 따라서, 건선 질환의 중증도 분류 문제에서는 질환 영상의 다양성 및 데이터 부족 문제를 해결하기 위해 데이터 증강기법 사용이 필요하다. 데이터 증강기법은 데이터를 인위적으로 조작하여 데이터 수와 다양성을 키워 모델의 학습 효율성을 높이고 과적합을 방지하는 정규화 방법이다. 데이터 증강기법은 매우 다양하며, 목표 데이터 특징에 맞게 적합한 데이터 증강기법을 사용해야 한다.

본 연구에서는 건선 질환 영상 특징에 적합한 데이터 증강기법을 탐색하기 위해, geometric transform, CutMix, visual corruptions, AutoAugment, RandAugment인 5가지 기법을 사용하였다. 이들은 크게 수동 설계방법(geometric transform, CutMix, visual corruptions)과 자동 설계방법(AutoAugment, RandAugment)으로 나누어 볼 수 있다. 또한, 각 기법의 단일 적용과 수동 설계방법들을 조합하여 다중 적용에 따른 분류결과를 비교 분석하여, 학습의 효율성을 높이고 모델 성능을 향상시키는 데이터 증강기법을 확인하였다.

EfficientNet B2 모델을 이용하여 건선 중증도 분류한 결과를 보았을 때, visual corruptions 기법을 제외하고 나머지 4가지 데이터 증강기법을 단일 적용하였을 때 분류 성능이 향상되었다. 또한, 수동 설계방법들을 조합하여 다중 적용하였을 때에도 단일 기법 사용보다 정밀도, 재현율과 같은 분류지표 결과가 향상되었음을 확인하였다. 총 8가지 기법 적용 중에서 RandAugment, Geomentric transform과 Visual corruptions을 함께 적용한 방법이 정확도 87.5%, F1-score 0.90으로 가장 우수한 결과를 보였다. 특히, Visual corruptions은 단독으로 사용하는 것보다 Geomentric transform과 함께 사용하였을 때 모델 성능 향상뿐 아니라 중증도 그룹 간의 모호성을 해소해주었음을 확인하였다.

다양한 데이터 증강기법에 따른 건선 중증도 분류결과를 비교 분석함으로써, 데이터 증강기법이 데이터의 다양성 및 모델 성능을 향상시키는 중요 역할을 하는 것을 검증하였다. 또한, 데이터 증강기법마다 모델 학습에 미치는 영향이 다름을 확인하였고, 우리는 건선 질환 영상 특징에 적합한 데이터 증강기법을 검증하였다.

5. Conclusion

건선 질환은 홍반, 인설과 같은 병변이 오랜 시간 동안 악화와 호전을 반복하며 전신에 발병하는 만성 피부질환이다. 건선 질환의 정확한 중증도 수준을 평가하고 진단하는 것은 장단기 치료계획 수립에 있어 매우 중요하다. 하지만, 질환의 중증도가 심할수록 병변이 층층이 겹쳐 질환이 형성되므로 중증도 간 정밀한 판단이 어렵다. 따라서 보다 다양한 건선 영상을 고려한 분석 연구가 필요하다. 하지만, 건선 질환 영상은 중증도가 강한 데이터 획득이 어렵고, 평가 병변이 여러 개여서 각 질환 영상에 대한 라벨링에 많은 시간과 비용이 많이 든다. 따라서 본 연구에서는 데이터 수를 늘려 모델 성능을 향상시킬 수 있는 최적의 데이터 증강기법에 대해 연구하였다. 5가지 데이터 증강기법을 이용하였고, 이들의 단일 적용과 다중 적용에 따른 총 8가지 종류의 데이터 증강기법을 적용한 결과를 비교 분석하였다. 분류결과, RandAugment, Geomentric transform와 Visual corruptions을 함께 사용한 방법이 가장 우수한 분류 성능을 보였다. 본 연구에서는 데이터 증강기법 적용에 따른 모델 성능의 향상 및 데이터 특징에 따른 적합한 데이터 증강기법에 대해 검증을 수행하였다. 또한, 건선 질환 중증도 분류를 위한 최적의 데이터 증강기법을 제시하며, 이후 모델 학습뿐 아니라 모델 테스트 과정에서 모델의 강건함 평가 도구로써 데이터 증강기법 활용이 가능할 것이다.

Acknowledgements

This paper was supported by Soonchunhyang University

References

1 
C. I. Moon, J. Lee, H. Yoo, Y. Baek, O. Lee, 2021, Optimization of psoriasis assessment system based on patch images, Scientific reports, Vol. 11, No. 1, pp. 1-13DOI
2 
C. W. Choi, B. R. Kim, S. Yang, S. W. Youn, 2019, Morphological Characteristics of Psoriatic Lesions Affect the Accuracy and Reliability of Severity Assessments: Proposal for New Working Criteria for the Psoriasis Area and Severity Index, Annals of Dermatology, Vol. 31, No. 1, pp. 81-83DOI
3 
I. S. A. Abdelhalim, M. F. Mohamed, Y. B. Mahdy, 2021, Data augmentation for skin lesion using self-attention based progressive generative adversarial network, Expert Systems with Applications, Vol. 165, No. 113922DOI
4 
J. N. Lee, H. C. Cho, 2021, Automated Polyp Detection System in Colonoscopy using Object Detection Algorithm based on Deep Learning, The transactions of The Korean Institute of Electrical Engineers, Vol. 70, No. 1, pp. 152-157Google Search
5 
C. Shorten, T. M. Khoshgoftaar, 2019, A survey on image data augmentation for deep learning, Journal of big data, Vol. 6 , No. 1, pp. 1-48DOI
6 
X. Wang, K. Wang, S. Lian, 2020, A survey on face data augmentation for the training of deep neural networks, Neural computing and applications, Vol. 32, No. 19, pp. 15503-15531DOI
7 
G. Haixiang, 2017, Learning from class-imbalanced data: Review of methods and applications, Expert Systems with Applications, Vol. 73, pp. 220-239DOI
8 
J. N. Lee, H. C. Cho, H. C. Cho, 2021, A Study on Data Augmentation Methods Optimized for Gastric Cancer Classification in Gastroscopy Images, The transactions of The Korean Institute of Electrical Engineers, Vol. 70, No. 12, pp. 2015-2021Google Search
9 
E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, Q. V. Le, 2019, Autoaugment: Learning augmentation strategies from data, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 113-123Google Search
10 
E. D. Cubuk, B. Zoph, J. Shlens, Q. V. Le, 2020, Randaugment: Practical automated data augmentation with a reduced search space, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 702-703Google Search
11 
S. Yun, D. Han, S. J. Oh, S. Chun, J. Choe, Y. Yoo, 2019, Cutmix: Regularization strategy to train strong classifiers with localizable features, In Proceedings of the IEEE/CVF international conference on computer vision, pp. 6023-6032Google Search
12 
D. Hendrycks, T. Dietterich, 2019, Benchmarking neural network robustness to common corruptions and perturbations, arXiv preprint arXiv:1903.12261Google Search
13 
V. Verma, A. Lamb, C. Beckham, A. Najafi, I. Mitliagkas, D. Lopez-Paz, Y. Bengio, 2019, Manifold mixup: Better representations by interpolating hidden states, In International Conference on Machine Learning PMLR, pp. 6438-6447Google Search
14 
S. Back, S. Lee, S. Shin, Y. Yu, T. Yuk, S. Jong, K. Lee, 2021, Robust skin disease classification by distilling deep neural network ensemble for the mobile diagnosis of herpes zoster, IEEE Access, Vol. 9, pp. 20156-20169Google Search
15 
M. Tan, Q. Le, 2019, Efficientnet: Rethinking model scaling for convolutional neural networks, In International conference on machine learning PMLR, pp. 6105-6114Google Search
16 
T. He, Z. Zhang, H. Zhang, Z. Zhang, J. Xie, M. Li, 2019, Bag of tricks for image classification with convolutional neural networks, In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 558-567Google Search
17 
L. Liu, H. Jiang, P. He, W. Chen, X. Liu, J. Gao, J. Han, 2019, On the variance of the adaptive learning rate and beyond, arXiv preprint arXiv:1908.03265Google Search

저자소개

문초이 (Cho-I Moon)
../../Resources/kiee/KIEE.2022.71.12.1841/au1.png

Cho-I Moon received the B.S., and M.S., degrees from Korea University, in 2017 and 2019, respectively,

Currently, she is pursing the ph.D. degree in Department of Software Convergence, Soonchunhyang University, Asan, Korea.

E-mail : chdl813@sch.ac.kr

백유상 (Yoo Sang Baek)
../../Resources/kiee/KIEE.2022.71.12.1841/au2.png

Yoo Sang Baek received the M.D., M.M.S., and Ph.D. degrees from Korea University, in 2009, 2013, and 2018, respectively.

Currently, he is an Assistant Professor in Korea University College of Medicine, Seoul, Korea.

최민형 (Min Hyung Choi)
../../Resources/kiee/KIEE.2022.71.12.1841/au3.png

Min Hyung Choi received his M.S. and Ph.D. from the University of Iowa in 1996 and 1999 respectively.

His research interests are in Computer Graphics, Physically-based Modeling and Simulation, Scientific Visualization, and Human Computer Interaction in VR.

Currently he is a Professor of Computer Science Department and the Director of Computer Graphics and VR Laboratory at the University of Colorado Denver.

이언석 (Onseok Lee)
../../Resources/kiee/KIEE.2022.71.12.1841/au4.png

Onseok Lee received the B.S., M.S., and Ph.D. degrees from Korea University, in 2005, 2007, and 2011, respectively,

Currently, he is a Professor in Medical IT Engingeering, Soonchunhyang University, Asan, Korea.

E-mail : leeos@sch.ac.kr