Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 74, No. 08, p.1426-1431

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 28 May. 2025Revised : 01 Jul. 2025Accepted : 24 Jul. 2025

DOI :

https://doi.org/10.5370/KIEE.2025.74.8.1426

비전-언어 모델 및 프롬프트 요인의 이중 검증 : 데이터 희소 조건에서의 식물 제로샷 분류 사례를 중심으로

Model Choice Meets Prompt Choice : A Dual-Factor Study of Zero-Shot Low-Resource Plant Recognition

좌희정 (Heejung Jwa) ¹iD 정문희 (Munhee Jeong) ²iD 조정원 (Jungwon Cho) ^†iD

(Intelligent Software Education Research Institute, Jeju National University, Republic of Korea)
(Major in Computer Education, Graduate School of Jeju National University, Republic of Korea.)

^†Corresponding Author : Dept. of Computer Education, Jeju National University, Republic of Korea. E-mail : jwcho@jejunu.ac.kr

License :

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0)which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Translated Abstract

In this study, we have assessed the zero-shot classification performance of Jeju Island plant images using five multimodal vision?language models: CLIP, SigLIP, SigLIP Multilingual, SigLIP SO400M, and SigLIP2. Evaluation data comprised image?text pairs of plant species collected from four ecologically distinct regions (Deonggae Coast, Min-oleum, Jabaebong, and Jeju City). All models were evaluated under an identical zero-shot classification protocol to ensure a fair comparison. Among them, SigLIP SO400M achieved the highest accuracy on the Deonggae Coast subset, attaining a macro accuracy of 0.7460 and a micro accuracy of 0.7612, thereby outperforming the other models. The prompt language format exerted a significant influence on performance: English-only prompts consistently surpassed Korean-only prompts across all models. Confusion matrix analysis revealed region-specific class-level misclassification patterns, identifying species prone to frequent confusion. Collectively, these results demonstrate the robust zero-shot classification capabilities of contemporary vision?language models for fine-grained plant species identification and underscore the importance of selecting both an appropriate model and prompt format for a given task. The code used for these experiments is publicly available at github.com/flyaround365/JejuPlantsClassification.

Key words

Jeju Plants, Classification, Zero-Shot Learning, Image-Text Alignment, Multimodal Embedding

1. 서 론

딥러닝 기반의 컴퓨터 비전 연구는 이미지 분류와 객체 검출 등에서 큰 발전을 이루어 왔으나, 특정 지역의 고유 식물종을 다루기 위해서는 현장 채집과 전문적인 분류학 지식이 동시에 요구되어 데이터 확보가 여전히 큰 난제로 남아 있다. 특히 제주특별자치도처럼 해안, 오름, 산간, 도심이라는 서로 다른 생태 환경이 공존하는 지역에서는 분류학 전문 인력의 부족과 서식지 접근성의 제약, 계절 및 생육 단계에 따른 표본 편향 등 복합적인 어려움이 겹쳐 고품질 이미지 데이터셋을 대량으로 구축하기가 쉽지 않다. 이러한 현실은 교육 현장에서 실제 생태 데이터를 활용한 실습이나 프로젝트를 설계할 때도 제약으로 작용한다. 이에 학생들이 제한된 데이터 환경에서도 스스로 문제를 정의하고 해결책을 모색할 수 있도록 본 연구를 진행하였다.

본 연구에서는 제주의 네 개 지역인 덩개해안, 민오름, 자배봉, 제주 도심에서 채집된 식물 및 잡초의 이미지-텍스트 쌍을 활용하여, 소수 표본만으로도 고유 식물종을 분류할 수 있는지 검증하기 위해서 제로샷 러닝을 적용하였다.

또한 Contrastive Language Image Pretraining(CLIP), Sigmoid Loss for Language Image Pretraining(SigLIP), Sigmoid Loss for Language Image Pretraining2(SigLIP2) 세 가지 모델을 동일한 실험 조건에서 적용하고, macro accuracy와 micro accuracy 두 가지 지표를 바탕으로 성능을 비교·분석하였다.

그림 1은 네 개 지역의 위치를 표시하였으며, 덩개해안은 화산 암석 해안에 형성된 세미 맹그로브 지대로, 염분 및 풍압에 강한 염생식물이 해안 사구와 절벽을 따라 광범위하게 분포한다. 민오름은 해발 약 400m의 준화산체로, 초기에는 풀밭만이 드러난 민둥산 형태였으나 현재는 해송을 비롯해 전나무, 상수리나무, 밤나무 등이 군락을 이루고 있으며, 비교적 온난·습한 기후 조건의 상록활엽수가 분포한다. 자배봉은 중산간 지역의 화산 분화구로, 분화구 내부의 비옥한 토양에서 다양한 관목과 초목이 자라고 있으며, 제주 도심에서는 인위적 환경 스트레스에 적응한 잡초종이 주로 관찰된다.

그림 1. 제주특별자치도 덩개해안, 민오름, 자배봉, 제주 도심의 위치

Fig. 1. Location of Deonggae Coast, Min-oleum, Jabaebong, and Jeju City in Jeju Special Self-Governing Province

이처럼 네 개 지역의 뚜렷한 생태·지형적 특성은 모델 학습 과정에서 주요 변수로 작용하며, 본 연구를 통해 제한된 표본만으로도 지역 고유 종을 분류할 수 있음을 검증함으로써 데이터 확보가 어려운 생물다양성 모니터링, 시민과학 플랫폼 연계 및 교육 현장에 실질적인 도움을 줄 것으로 기대된다.

2. 관련 연구

제로샷 러닝은 학습 시 전혀 보지 못한 클래스도 텍스트 설명이나 속성 같은 보조 정보를 활용해 분류할 수 있는 방법론이다^[1]. 이미지 분야의 제로샷 러닝에서는 학습 단계에서 이미지와 클래스 간 관계를 표현하는 의미적 설명을 함께 학습하며, 이를 통해 학습 데이터에 없는 새로운 레이블로도 일반화하여 새로운 클래스까지 분류할 수 있다^[2]. 최근에는 속성 기반 접근, 생성 모델 활용, 멀티모달 대조 학습 등의 방법이 제로샷 이미지 분류 연구의 주류를 이루고 있다. 주요 모델로 초기 이미지-텍스트 임베딩 모델인 DeViSE^[3]가 있으며, 이미지 특징과 Word2Vec 임베딩을 대조 학습하여 제로샷 분류 성능을 보였다. 또한 CLIP과 SigLIP 같은 VLM에 ‘visual prompt’예측 모듈을 추가해 텍스트-이미지 재순위(re-ranking) 성능을 향상시킨 모델도 제안되었다^[4].

식물 데이터를 활용한 텍스트-이미지 분류 연구로는 도메인 특화 의미 속성으로 동식물 클래스를 분류한 사례^[5], 대규모 식물 종 데이터셋에 속성 정보를 적용하여 본 적 없는 종까지 분류한 모델^[6], 잎의 질감과 색상 변화 등의 속성을 도입해 학습되지 않은 클래스까지 식별 가능한 제로샷 식물 병해 분류 모델^[7] 등이 보고되었다. 기존 식물 분류 연구는 도메인별 의미 속성 정보를 수동으로 태깅하는 방식을 채택해 왔다. 이에 반해 본 연구에서는 별도의 속성 태깅 없이 제주의 독특한 생태계에서 수집된 이미지 데이터를 활용하여 식물 종을 분류한다.

아울러, 대규모 이미지-텍스트 쌍을 활용한 사전 학습 멀티모달 임베딩 모델은 이미지 인코더와 텍스트 인코더를 서로 정렬(align)하기 위해 대조 학습(contrastive learning) 또는 캡셔닝(captioning) 기법으로 훈련된다. 이렇게 학습된 모델은 이미지와 텍스트를 공통 백터 공간에 매핑하여 별도의 파인튜닝 없이도 제로샷 분류, 이미지-텍스트 검색, 이미지 캡셔닝, 비주얼 QA 등 다양한 다운스트림 작업에 바로 활용할 수 있다. 주요 모델로는 EfficientNet-B3 기반 이미지 인코더와 BERT 기반 텍스트 인코더로 구성된 듀얼 인코더 구조를 14억 건 이상의 이미지와 alt-text 페어로 대조 학습한 모델^[8], 대조 손실 함수와 캡셔닝 손실 함수를 단일 인코더-디코더 구조에 통합하여 동시에 최적화한 CoCa^[9], 웹에서 수집한 노이즈가 있는 텍스트-이미지 데이터를 정제하여 학습하고 이미지 설명과 질의응답 등 우수한 생성 능력을 보인 BLIP^[10] 등이 제안되었다. 본 연구에서는 학습 데이터가 희소한 제주 식생의 분류를 위해 이러한 멀티모달 임베딩 기법을 활용한다.

3. 실험 방법

3.1 비교 대상 모델

본 연구에서는 CLIP^[11] 모델에서 제안된 멀티모달 임베딩 기반 제로샷 분류 방식을 적용하여 제주 지역 식생 이미지 분류를 수행하였다. 이를 위한 멀티모델 임베딩 모델로는 파라미터 수가 상대적으로 적어 효율적이면서도 성능이 우수한 CLIP, SigLIP, SigLIP2를 비교하였으며, 다양한 patch 수와 해상도를 비교하였다.

CLIP은 OpenAI에서 2021년 발표한 멀티모달 모델로, 비전 인코더와 텍스트 인코더를 공동으로 학습시키되 소프트맥스 기반의 InfoNCE를 활용하여 일치하는 이미지-텍스트 쌍은 임베딩 공간에서 가깝게, 불일치하는 쌍은 멀어지도록 최적화한다. 학습에는 WebImageText(WIT)라 불리는 약 4억 개의 이미지-텍스트 쌍이 활용되었으며, 별도 라벨링 없이도 ImageNet을 비롯한 다양한 데이터셋에서 제로샷 성능을 크게 향상시켰다^[11]. SigLIP은 CLIP의 소프트맥스 정규화를 배제하고 이미지-텍스트 쌍별 이진 시그모이드 손실 함수를 도입한 모델로, 전역 유사도 참조 없이 메모리 효율을 높여 배치 크기를 대폭 확장할 수 있으며, 작은 배치에서도 소프트맥스 대비 더 나은 성능을 보인다. WebLI 영어 데이터셋에서 B/16 비전 트랜스포머와 Base 크기의 텍스트 트랜스포머를 사용해 실험했으며, 32k 배치 크기에서 ImageNet zero-shot 73.2%를 달성함으로써 같은 조건의 CLIP보다 효율과 성능면에서 유리함을 입증했다^[12]. SigLIP SO400M은 ViT 기반의 4억 파라미터 규모의 비전 인코더를 적용한 버전으로, 보다 효율적인 모델 구조를 통해 복잡한 시각 패턴인식과 계산 집약적인 작업을 지원한다^[13]. SigLIP Multilingual은 WebLI 데이터셋의 100개 언어 이미지-텍스트 쌍을 활용하여 다국어 사전 학습을 수행하는 SigLIP 모델의 확장 버전이다. 대규모 다국어 학습을 위해 32K 및 250K 어휘 크기의 Multilingual 토크나이저를 실험했으며, 병목 구조의 임베딩을 도입해 메모리 부담을 줄이면서도 약 1% 이상의 성능을 개선하였다. XM3600 크로스모달 검색 과제에서 기존 LiT 대비 6% 이상 높은 SOTA 결과(34.9%)를 기록했다. SigLIP2는 SigLIP의 시그모이드 기반 손실 외에 캡셔닝 기반 사전학습, 자기 지도 손실 함수(self-distillation 및 마스킹 예측), 온라인 데이터 큐레이션, 디버깅 및 공정성 향상 기법을 통합한 학습 레시피가 적용된 모델이다^[14].

표 1 프롬프트 형태에 따른 예시

Table 1 Examples by prompt type

프롬프트 형태	설명	예시
en	영어 학명	Ophioglossum vulgatum L.
en ko	영어 학명 (한국어 학명)	Ophioglossum vulgatum L. (나도고사리삼)
en prompt	영어 학명 포함 자연어	A photo of Ophioglossum vulgatum L.
en ko prompt	영어 학명 + 한국어 학명 포함 자연어	A photo of Ophioglossum vulgatum L. (known as 나도고사리삼 in Korean)
ko	한국어 학명	나도고사리삼

멀티모달 임베딩을 이용한 제로샷 이미지 분류는 CLIP^[11]에서 사용된 방식과 최대한 유사하게 수행하였다. 보다 구체적으로, 각 클래스들의 이름을 텍스트 인코더의 입력으로 하여 클래스 임베딩을 얻고 제주 식생 이미지를 이미지 인코더의 입력으로 하여 이미지 임베딩을 얻은 후, 이미지 임베딩과 코사인 유사도가 가장 높은 클래스 임베딩을 해당 이미지의 클래스로 정의하는 방식이다.

3.2 프롬프트 구성

분류 성능은 입력 프롬프트의 구성 방식에 따라서도 달라질 수 있다. 따라서 본 연구에서는 다섯 가지 프롬프트 형태를 설계하여 그 영향력을 비교 분석하였다. 모든 제주 식생의 클래스명은 한글 학명(e.g., “나도고사리삼”)과 영어 학명(e.g., “Ophioglossum vulgatum L.”)으로 제공되며, 이를 활용한 프롬프트 예시는 표 1에 제시하였다.

3.3 데이터

제주 식생 이미지 분류 성능 평가는 제주대학교 이삭플랫폼(ESAC:Platform of Jeju National University)의 식물 이미지 데이터를 활용하여 수행하였다^[15]. 이 데이터셋에는 제주도 내 4개 지역에서 수집된 식생 이미지가 포함되어 있다. 지역별 데이터셋 통계는 표 2에 제시하였다.

표 2 각 데이터셋의 통계

Table 2 Statistics for each dataset

	덩개해안	민오름	자배봉	제주 도심
클래스 수	21	64	30	37
전체 데이터 개수	67	194	403	189
클래스별 데이터 개수 범위	1~7	1~8	4~25	3~9
클래스별 데이터 개수 평균	3.19	3.03	13.43	5.11

4. 실험 결과

4개 데이터셋에 대해 patch 크기와 해상도를 조합하여, CLIP 모델 4개, SigLIP 모델 6개, SigLIP2 모델 5개로 실험을 수행하였다.

4.1 모델에 따른 성능 비교

각 모델의 실험 결과는 표 3에 제시되어 있다. 덩개해안 식물 분류에서는 SigLIP SO400M 모델이 Macro Accuracy 0.7460, Micro Accuracy 0.7612로 제일 높은 성능을 나타냈다. SigLIP 모델에 multilingual을 적용한 경우 동일 해상도인 256 모델(SigLIP base patch16 256) 보다 성능이 향상되었으나 해상도 384 모델의 성능에는 미치지 못하였다. 반면 민오름 및 자배봉 식물 데이터셋에서는 multilingual 모델의 성능이 오히려 낮게 나타났다. 최신 모델인 SigLIP2는 다양한 기법들이 통합되어 있음에도 불구하고 제주 자생 식물 이미지 분류에서는 기대에 미치지 못하는 성능을 보였다. 이는 모델의 최신성과 성능 간의 관계가 도메인 특성에 따라 달라질 수 있음을 시사한다. 또한 대부분의 모델에서는 patch 크기를 줄이고 해상도를 높일수록 성능이 향상되는 경향이 확인되었다.

4.2 프롬프트 적용에 따른 성능 비교

표 4에는 SigLIP SO400M patch14 224 모델을 기준으로 프롬프트 형태에 따른 네 개 데이터셋 전체의 Macro Accuracy 평균이 제시되어 있다. 가장 높은 평균 성능은 ‘en’ 프롬프트에서 나타났고, 그 다음으로 ‘en ko’, ‘en prompt’, ‘en ko prompt’, ‘ko’ 순으로 확인되었다.

‘en’입력과 ‘en ko’입력을 비교한 결과, Macro Accuracy가 2.4% 감소하였으며, ‘en prompt’와 ‘en ko prompt’를 비교했을 때도 3.1% 성능 저하가 관찰되었다. 이는 한글 텍스트가 본 모델의 분류 성능을 저해할 수 있음을 시사한다. 또한 프롬프트 적용 유무에 따른 변화를 살펴보면, 프롬프트를 추가했을 때, ‘en’대비 ‘en prompt’에서 6.5%, ‘en ko’대비 ‘en ko prompt’에서 7.3%의 성능 하락이 발생하였다. 이는 CLIP^[11]에서 보고된 것과 달리, SigLIP SO400M patch14 224 모델에서는 오히려 프롬프트 삽입이 성능 저하로 이어짐을 의미한다. 따라서 데이터의 언어적 특성과 프롬프트 포함 여부에 따라 모델 성능이 크게 달라지므로, 최적의 분류 결과를 얻기 위해서는 입력 구성과 모델 설정을 데이터 특성에 맞춰 반드시 개별 검증해 보아야 한다.

표 3 모델에 따른 분류 성능 (프롬프트는 영어 학명을 포함한 자연어 설명 사용)

Table 3 Classificaion performance by model (prompts use natural language descriptions including English scientific name)

Model	덩개해안 식물		민오름 식물		자배봉 식물		제주 도심 잡초
Model	Macro Accuracy	Micro Accuracy	Macro Accuracy	Micro Accuracy	Macro Accuracy	Micro Accuracy	Macro Accuracy	Micro Accuracy
clip-vit-base-patch32	0.1893	0.1791	0.1410	0.1598	0.1120	0.1290	0.1538	0.1481
clip-vit-base-patch16	0.1825	0.1493	0.1878	0.1907	0.1442	0.1687	0.2299	0.2169
clip-vit-large-patch14	0.3254	0.3433	0.2671	0.2680	0.1816	0.2084	0.2998	0.2963
clip-vit-large-patch14-336	0.3254	0.3284	0.2490	0.2629	0.2153	0.2457	0.3549	0.3704
siglip-base-patch16-224	0.4110	0.4328	0.2448	0.2732	0.2978	0.2978	0.3354	0.3386
siglip-base-patch16-256	0.4110	0.4478	0.2690	0.2990	0.2827	0.2878	0.3579	0.3651
siglip-base-patch16-256 (multilingual)	0.4745	0.4925	0.2568	0.2835	0.2611	0.2357	0.4120	0.4127
siglip-base-patch16-384	0.5448	0.5672	0.2764	0.3144	0.3182	0.3201	0.4193	0.4339
siglip-base-patch16-512	0.6083	0.6269	0.2990	0.3299	0.3267	0.3176	0.3976	0.3968
siglip-so400m-patch14-224	0.7460	0.7612	0.4650	0.4639	0.4963	0.4640	0.6886	0.6614
siglip2-base-patch32-256	0.1344	0.1791	0.1099	0.1237	0.1026	0.1067	0.1061	0.1164
siglip2-base-patch16-224	0.1474	0.1791	0.1092	0.1289	0.1125	0.1141	0.0680	0.0847
siglip2-base-patch16-256	0.1672	0.1940	0.1164	0.1340	0.1234	0.1266	0.0845	0.0952
siglip2-base-patch16-384	0.1961	0.2388	0.1073	0.1237	0.1044	0.1092	0.0500	0.0635
siglip2-base-patch16-512	0.1417	0.1493	0.1203	0.1340	0.1174	0.1216	0.0928	0.1058

표 4 SigLIP SO400M patch14 224 모델의 전체 데이터 Macro Accuracy 평균

Table 4 Average Macro Accuracy of the entire data of the SigLIP SO400M patch14 224 model

	Macro Accuracy 평균
en	0.5990
en ko	0.5849
en prompt	0.5599
en ko prompt	0.5423
ko	0.0243

4.3 오류 분석

SigLIP SO400M 모델의 예측 결과를 각 데이터셋별로 Confusion Matrix를 통해 분석하였다. 분석은 프롬프트를 사용하지 않고 영어 학명만 입력하는 ‘en’ 프롬프트 설정을 기준으로 수행하였다. 해당 클래스 명칭과 덩개해안 및 제주 도심 잡초의 confusion matrix는 GitHub 저장소에서 확인할 수 있다.

4.3.1 민오름 식물

민오름 식물 데이터셋은 클래스 수가 가장 많으며, 클래스별 이미지 수는 1개에서 8개까지 분포하였다. 그림 2에 따르면 59번 클래스인 풀솜대는 5개 이미지 모두 정확하게 분류되었다. 그러나 1번 클래스인 개감수의 경우 6개 이미지 중 4개가 32번 클래스인 사위질빵으로, 나머지 2개는 45번 클래스인 으름덩굴로 오분류되었다. 그림 3은 개감수와 사위질빵의 이미지이다.

그림 2. 민오름 식물 confusion matrix

Fig. 2. Min-oleum plants confusion matrix

그림 3. 민오름의 개감수(좌)와 사위질빵(우)

Fig. 3. Two example images from the Min-oleum dataset (Left) Euphorbia sieboldiana Morren & Decne (Right) Clematis apiifolia DC

4.3.2 자배봉 식물

자배봉 식물 데이터셋은 클래스당 평균 이미지 개수가 가장 많았으며, 그림 4는 자배봉 식물 confusion matrix이다. 26번 클래스인 칡은 20개 이미지 모두 정확하게 분류되었으나, 14번 클래스인 산초나무는 23개 이미지 중 21개가 25번 클래스인 초피로 오분류되었다. 그림 5에는 해당 모델이 이 두 클래스를 혼동한 대표 이미지가 제시되어 있다.

그림 4. 자배봉 식물 confusion matrix

Fig. 4. Jabaebong plants confusion matrix

그림 5. 자배봉의 산초나무(좌)와 초피(우)

Fig. 5. Two example images from the Jabaebong dataset (Left) Zanthoxylum schinifolium Siebold & Zucc (Right) Zanthoxylum piperitum (L.) DC

5. 결론 및 향후 연구

본 논문에서는 지역적 특색이 강하면서도 데이터 확보가 어려운 상황에서의 제로샷 분류 성능을 확인하기 위해 멀티모달 임베딩을 이용한 분류 실험을 수행하였다. 실험 결과, 제로샷 러닝 기반 멀티모달 모델들은 제주 지역 식생 이미지 분류에서 전반적으로 우수한 성능을 보였으나 모델과 프롬프트 구성에 따른 성능의 편차가 심하였다. 또한, 벤치마크 데이터에서의 우수한 성능이나 더 최신 모델의 사용이 제주 식생 데이터의 분류 성능 향상으로 직결되지 않았다. 이로부터 작업의 특성을 고려한 모델 및 프롬프트 구성의 중요성을 정량적으로 확인하였다. 향후 연구에서는 퓨샷(few-shot) 학습 기법을 도입하여 소량의 레이블된 데이터만으로 모델 성능을 한층 향상시킬 계획이다. 또한 본 연구의 방법론을 생물다양성 모니터링이나 데이터 기반 생태 교육 프로그램으로 확장하여 활용할 예정이다.

Acknowledgements

This research was supported by the 2024 scientific promotion program funded by Jeju National University.

References

M. Palatucci, D. Pomerleau, G. E. Hinton and T. M. Mitchell, “Zero-Shot Learning with Semantic Output Codes,” Advances in Neural Information Processing Systems 22, pp. 1410-1418, 2009. DOI:10.5555/2984093.2984252

G. Yang, Z. Ye, R. Zhang and K. Huang, “A Comprehensive Survey of Zero-Shot Image Classification: Methods, Implementation and Fair Evaluation,” Applied Computing and Intelligence, vol. 2, no. 1, pp. 1-31, 2022. DOI:10.3934/aci.2022001

A. Frome, G. S. Corrado, J. Shlens, S. Bengio, J. Dean, M. A. Ranzato and T. Mikolov, “DeViSE: A Deep Visual-Semantic Embedding Model,” Advances in Neural Information Processing Systems 26, pp. 2121-2129, 2013. DOI:10.5555/2999792.2999849

Y. Guo, H. Zhang, Y. Wong, L. Nie and M. Kankanhalli, “ELIP: Efficient Language-Image Pre-Training with Fewer Vision Tokens,” arXiv preprint arXiv:2309.16738, 2023. DOI:10.48550/arXiv.2309.16738

W. Wang, V. W. Zheng, H. Yu and C. Miao, “A Survey of Zero-Shot Learning: Settings, Methods, and Applications,” ACM Transactions on Intelligent Systems and Technology, vol. 10, no. 2, Art. 13, pp. 1-37, 2019. DOI:10.1145/3293318.

S. El Maachi, A. Chehri and R. Saadane, “Zero-Shot-Learning for Plant Species Classification,” Procedia Computer Science, vol. 246, pp. 734-742, 2024. DOI:10.1016/j.procs.2024.09.492

P. Kumar, J. Mathew, R. K. Sanodiya and T. Setty, “Zero-Shot Plant Disease Classification with Semantic Attributes,” Artificial Intelligence Review, vol. 57, Art. 305, 2024. DOI:10.1007/s10462-024-10950-9

C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham et al., “Scaling Up Visual and Vision-Language Representation Learning with Noisy Text Supervision (ALIGN),” Proc. 38th Int. Conf. on Machine Learning, PMLR 139, pp. 4904-4916, 2021. DOI:10.48550/arXiv.2102.05918

J. Yu, Z. Wang, V. Vasudevan, L. Yeung, M. Seyedhosseini and Y. Wu, “CoCa: Contrastive Captioners Are Image-Text Foundation Models,” arXiv preprint arXiv:2205.01917, 2022. DOI:10.48550/arXiv.2205.01917

J. Li, D. Li, C. Xiong and S. C. H. Hoi, “BLIP: Bootstrapping Language-Image Pre-Training for Unified Vision-Language Understanding and Generation,” Int. Conf. on Machine Learning (ICML), Proc. Machine Learning Research, vol. 162, pp. 12888-12900, 2022. DOI:10.48550/arXiv.2201.12086

A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal et al., “Learning Transferable Visual Models from Natural Language Supervision,” Proc. 38th Int. Conf. on Machine Learning, pp. 8748-8763, 2021. DOI:10.48550/arXiv.2103.00020

X. Zhai, B. Mustafa, A. Kolesnikov and L. Beyer, “Sigmoid Loss for Language-Image Pre-Training,” Proc. IEEE/CVF Int. Conf. on Computer Vision (ICCV), Paris, France, pp. 11975-11986, 2023. DOI:10.1109/ICCV51070.2023.01100

I. M. Alabdulmohsin, X. Zhai, A. Kolesnikov and L. Beyer, “Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design,” Advances in Neural Information Processing Systems 36, pp. 16406-16425, 2023. DOI:10.5555/3666122.3666844

M. Tschannen, A. Gritsenko, X. Wang, M. F. Naeem, I. Alabdulmohsin, N. Parthasarathy et al., “SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features,” arXiv preprint arXiv:2502.14786, 2025. DOI:10.48550/arXiv.2502.14786

ESAC Platform of Jeju National University, accessed 25 May 2025. [Online]. Available: http://esac.jejunu.ac.kr

저자소개

좌희정(Heejung Jwa)

She received the Ph.D. in Computer Science and Engineering from Korea University, Seoul, Republic of Korea in 2021. She was a researcher at the Intelligent Software Education Research Institute, Jeju National University from September 2024 to May 2025.

정문희(Munhee Jeong)

She received her B.S. degree in Computer Science from Korea Aerospace University in 1998, followed by her M.S. degree in Telecommunication and Information Engineering from the same university in 2001. Since September 2024, she has been a researcher at the Intelligent Software Education Research Institute at Jeju National University, where she is also pursuing her Ph.D. in Computer Education.

조정원(Jungwon Cho)

He received his Ph.D. in Electrical & Computer Engineering from Hanyang University, Seoul, Republic of Korea, in 2004. Since then, he has been with Jeju National University, where he is currently a professor in the Department of Computer Education. Since 2020, he has served as Vice President and Editor-in-Chief of the Korean Association of Computer Education. Since 2018, he has also served as Director of the Intelligent Software Education Research Institute at Jeju National University. His research interests include computer education, intelligent information systems, and related fields.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

Model Choice Meets Prompt Choice : A Dual-Factor Study of Zero-Shot Low-Resource Plant Recognition

Translated Abstract

Key words

1. 서 론

2. 관련 연구

3. 실험 방법

3.1 비교 대상 모델

3.2 프롬프트 구성

3.3 데이터

4. 실험 결과

4.1 모델에 따른 성능 비교

4.2 프롬프트 적용에 따른 성능 비교

4.3 오류 분석

4.3.1 민오름 식물

4.3.2 자배봉 식물

5. 결론 및 향후 연구

Acknowledgements

References

저자소개

좌희정(Heejung Jwa)

정문희(Munhee Jeong)

조정원(Jungwon Cho)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

Model Choice Meets Prompt Choice : A Dual-Factor Study of Zero-Shot Low-Resource Plant Recognition

Translated Abstract

Key words

1. 서 론

2. 관련 연구

3. 실험 방법

3.1 비교 대상 모델

3.2 프롬프트 구성

3.3 데이터

4. 실험 결과

4.1 모델에 따른 성능 비교

4.2 프롬프트 적용에 따른 성능 비교

4.3 오류 분석

4.3.1 민오름 식물

4.3.2 자배봉 식물

5. 결론 및 향후 연구

Acknowledgements

References

저자소개

좌희정(Heejung Jwa)

정문희(Munhee Jeong)

조정원(Jungwon Cho)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers