Mobile QR Code QR CODE
Export citation EndNote

  1. 단국대학교 건축공학과 박사 후 연구원 (Postdoctoral Researcher, Department of Architectural Engineering, Dankook University, Yongin-si 16890, Rep. of Korea)
  2. 단국대학교 건축공학과 교수 (Professor, Department of Architectural Engineering, Dankook University, Yongin-si 16890, Rep. of Korea)
  3. 단국대학교 리모델링연구소 연구교수 (Research Professor, Department of Architectural Engineering, Dankook University, Yongin-si 16890, Rep. of Korea)



대형 언어 모델, 프롬프트 엔지니어링, MEP, 경로 설계, 자동화
large language model, prompt engineering, MEP, routing design, automation

1. Introduction

설비(mechanical, electrical, and plumbing, MEP) 시스템 경로 설계는 전통적으로 숙련된 엔지니어의 직관과 경험적 판단에 의존해 왔다. 특히 MEP 경로 설계는 다양한 공간적 제약과 복잡한 조건들을 동시에 고려해야 하는 특성상, 기존의 최적화 알고리즘이나 건축 정보 모델링(building information modeling, 이하 BIM)을 활용한 자동화 기술에도 불구하고 여전히 인간의 전문적 개입이 필수적인 분야로 남아있다(Choi et al. 2022). 최근 들어 인공지능(AI), 특히 대규모 언어 모델(large language models, LLM)의 발전으로 인해 이러한 복잡한 설계 작업에서도 인간 수준의 판단력과 의사결정을 보조하거나 대체할 수 있는 가능성이 제시되고 있다.

최근 등장한 ChatGPT와 같은 LLM은 방대한 데이터 기반 학습을 통해 인간에 근접한 수준의 지능형 응답을 산출하며, 실제로 일부 전문 분야의 엔지니어 자격 시험을 통과할 수 있을 정도의 인지 능력을 갖춘 것으로 보고된다. 그럼에도 불구하고, 현재 파운데이션 LLM을 복잡한 엔지니어링 업무에 즉시 투입하기에는 여전히 정확도 부족이라는 한계가 존재한다. LLM의 정확도를 개선해 공학적으로 실용화하려면 프롬프트 엔지니어링을 활용해 성능을 체계적으로 끌어올릴 필요가 있다. 그러나 Wang 등은 계획 없이 무분별하게 적용된 프롬프트 엔지니어링이 오히려 정확도를 저해할 수 있다고 지적하며, 설계 업무와 같이 난이도가 높은 문제에 LLM을 효과적으로 활용하려면 적절한 프롬프트 엔지니어링을 통한 구조적 지도와 단계적 안내가 필수적이라고 강조한다(Wang et al. 2024).

그러나 현재의 프롬프트 엔지니어링은 특정 문제에만 유효한 임시방편적 기법(ad-hoc techniques)에 의존하는 경우가 많아, 재현 가능하고 확장성 있는 방법론으로 발전하는 데 한계가 있다. 본 연구는 이러한 문제를 해결하기 위한 대안으로, 인간의 학습 과정에서 수십 년간 검증된 “교육학” 이론을 프롬프트 설계의 이론적 토대로 삼는다. 인간이 체계적인 교육을 통해 단순 지식을 암기하는 단계에서 출발하여 복잡한 문제를 해결하는 고차원적 사고 능력을 길러 나가는 것처럼, LLM 또한 구조화된 프롬프트를 통해 점진적으로 문제 해결 능력을 학습할 수 있다는 가정에 기반한다.

따라서 본 연구의 핵심은 LLM을 지시를 이행하는 도구가 아닌, 체계적인 가르침을 통해 성장하는 “학습자”로 간주하는 새로운 관점을 제시하는 데 있다. 이러한 접근은 “LLM을 어떻게 가르칠 것인가?”라는 근본적인 질문에 교육학이라는 과학적 해법을 제시하며, 경험과 직관에 의존하던 기존 방식에서 벗어나 누구나 재현 가능한 ‘핵심 프롬프트 엔지니어링 가이드라인’을 정립하는 것을 목표로 한다. 궁극적으로 이는 복잡한 공학 문제를 자율적으로 해결하는 “인공 엔지니어(Artificial Engineer)” 구현을 위한 이론적 토대를 마련하는 과정이다. 이에 연구의 전체 로드맵은 다음과 같이 두 단계로 구성된다.

첫 번째 단계(본 논문의 범위): 프롬프트 엔지니어링; 교육심리학의 원리에 기반해 체계적으로 설계된 프롬프트를 통해 LLM이 복잡한 MEP 설계 과제를 수행하도록 유도하고 그 성능을 향상시키는 방법을 탐구한다. 이를 위해 비고츠키(Vygotsky)의 근접발달영역(zone of proximal development, ZPD) 이론과 이를 발달시키기 위한 Bloom의 분류학(Bloom’s Taxonomy)을 프롬프트 엔지니어링의 이론적 토대로 활용한다.

두 번째 단계(향후 연구): 데이터 처리 및 시스템 통합; 1 단계에서 검증된 프롬프트 엔지니어링 전략을 바탕으로, MEP 분야의 도메인 특화 데이터와 고급 데이터 구조를 LLM과 통합한다. 이를 통해 실제 설계 환경에서 보다 자율적이고 신뢰성 높은 문제 해결이 가능한 시스템을 구축하는 것이 최종 목표이다.

본 논문은 앞서 제시한 두 단계 가운데 1 단계인 프롬프트 엔지니어링을 중점적으로 다룬다. 연구 대상 과제로 MEP 경로 설계를 선택한 이유는 ① 복잡한 3 차원 공간 제약, ② 다학제적 설계 변수, ③ 높은 수준의 직관적 판단 요구 등으로 인해 기존 인공지능 기법의 한계가 뚜렷하게 드러나는 영역이기 때문이다. 이러한 특성을 지닌 문제를 통해, 구조화된 프롬프트 가 LLM의 문제 해결 능력을 어느 정도까지 증진시킬 수 있는지를 정량 및 정성적으로 평가할 수 있다.

연구의 이론적 기반은 ZPD 개념이다. ZPD는 Fig. 1에 나와 있듯 학습자가 스스로 해결 가능한 현재 능력과 적절한 지원(타인의 안내)을 통해 도달할 수 있는 잠재 능력 사이의 차이를 의미한다(Saetra et al. 2025). 현재까지 LLM이 ZPD를 가진다고 명시적으로 언급한 연구는 없으나, 본 연구는 LLM의 사람과 유사한 거동을 보인다는 점(Park et al. 2023)과, 기존 연구들에서 적용된 ‘칭찬과 피드백’, ‘생각할 여유 제공’, ‘존댓말 사용’ 등 사람과의 대화 방식을 모방한 프롬프트 기법들이 모델 성능을 개선했다는 점에 착안하여, LLM에도 사람과 유사한 ZPD가 존재한다고 가정하였다. 이에 프롬프트 엔지니어링을 통해 이 영역을 체계적으로 확장할 수 있음을 검증하고자 한다.

또한 Bloom의 분류학은 학습 목표를 Fig. 2와 같이 “기억 → 이해 → 적용 → 분석 → 평가 → 창작” 여섯 단계로 계층화하여 고차 사고를 단계적으로 촉진하는 교육학적 틀을 제공한다(Lubbe et al. 2025). 본 연구는 이 계층 구조를 프롬프트 엔지니어링 로직에 적용해, LLM이 단순 지식 회상 단계에서 시작해 최종적으로 창의적 문제 해결 단계까지 점진적으로 사고 수준을 확장하도록 유도한다.

종합하면, 본 연구는 교육학 이론(ZPD 및 Bloom)을 프롬프트 엔지니어링에 통합함으로써 MEP 경로 설계 작업에서 LLM의 실용성을 향상시키는 첫 번째 실험적 발판을 마련한다. 차후 연구에서는 이 가이드라인을 실제 현장 데이터 및 고급 데이터 구조와 결합해, 자율적 설계 지원이 가능한 “인공 엔지니어” 시스템으로 발전시키는 것을 목표로 한다.

Fig. 1. Concept diagram of the Zone of proximal development

../../Resources/KCI/JKCI.2025.37.6.687/fig1.png

Fig. 2. Hierarchy structure of Bloom’s taxonomy

../../Resources/KCI/JKCI.2025.37.6.687/fig2.png

2. Related Works

최근 건설산업에서는 BIM 기반 설계 및 인공지능 기반 최적화 기법의 발전으로 인해 설계 작업 자동화의 기회가 확대되고 있다. 특히 MEP 경로 설계는 공간적 제약, 안전 기준, 장비 유지보수 등의 복합적 요소를 고려해야 하므로, 전통적으로 규칙 기반 알고리즘에 의존해 왔다(Singh et al. 2025). 하지만 이러한 접근법들은 반복적이고 명확한 조건을 가진 문제에서는 효과적이지만, 개방적이고 복잡한 현대 프로젝트 환경에서는 한계를 보이며, 건축 설계 변경 시 알고리즘의 재조정 과정이 까다롭다는 단점이 있다(Zhang et al. 2023).

이에 따라 유전 알고리즘(genetic algorithm)과 입자 군집 최적화(particle swarm optimization) 같은 휴리스틱(heuristic) 기법이 MEP 경로 설계 문제에 활용되었다. 이 기법들은 배관 길이 최소화, 곡선 수 감소 등 특정 목적을 최적화하는 데 효과적이지만, 실제 프로젝트에서 요구되는 복잡하고 다양한 제약 조건을 반영하기 어려워 응용 범위가 제한적이다(Nazari and Yan 2025). 한편, 최근 LLM은 번역이나 텍스트 생성뿐 아니라 다단계 추론과 맥락 분석 능력을 갖춘 도구로 발전하였다. 그러나 GPT 시리즈나 Claude와 같은 모델은 잘 구조화된 프롬프트를 통해 복잡한 문제를 해결하는 사례를 보여주었지만, MEP 경로 설계처럼 실제 공학 현장의 제약 조건을 반영해야 하는 과제에 대한 연구는 아직 제한적이다(Chiarello et al. 2024). LLM 연구에서는 프롬프트의 구성과 품질이 출력의 정확도와 적합성에 큰 영향을 미친다는 사실이 반복적으로 보고되었으며(Kojima et al. 2022), Few-Shot 예시 제공이나 Chain-of-Thought(CoT)와 같은 단계별 추론 지시, 제약 조건 부과 등 다양한 기법이 제안되어 왔다. 이러한 기법들은 개발 당시 Bloom의 분류법과 명시적으로 연 관 되지는 않았으나, 제시된 예시나 추론 단계가 기억, 이해, 적용, 분석, 평가, 창작의 여섯 인지 수준 중 하 나 이상에 대응하는 양상을 보였고, 그 성과를 통해 각 기법의 유효성을 입증했다.

본 연구에서는 이들 경험적 기법이 자연스럽게 따르고 있는 인지 단계 구조를 Vygotsky의 ZPD와 Bloom의 분류법이라는 이론적 틀로 재정의하고, 단계별 프롬프트 체인을 설계하여 MEP 경로 설계 자동화에 적용하고자 한다. 이러한 접근은 고도화된 프롬프트 엔지니어링을 통해 LLM이 마치 인간 엔지니어처럼 사고하고 판단하며 다양한 대안을 생성하도록 이끈다는 잠재력을 가진다. 특히 실제 제약 조건이 변화하더라도 동일한 방법론을 적용할 수 있는 높은 확장성은, 향후 더 발전된 모델이 등장했을 때 점차 복잡한 설계 과제까지 대응할 수 있는 가능성을 시사한다. 따라서 본 연구는 파운데이션 모델을 공학 분야에 효과적으로 응용하기 위한 체계적인 방법론을 시급히 마련하고 그 유효성을 검증하는 데 의의를 둔다.

3. Methods

3.1 Setting Test Cases

Bloom의 분류법 계층구조를 기반으로 개발된 여러 프롬프트 기법들의 효과성을 평가하기 위해, 구조적 요소와 MEP 장비를 단순화한 도면을 사용하였다. 이는 경로 설계와 무관하게 작용할 수 있는 불필요한 정보를 최소화하고, LLM이 순수하게 MEP 경로 설계 과제를 얼마나 효과적으로 해결하는지 명확히 분석하기 위한 목적이다. 구체적으로, 본 연구에서는 250개의 테스트 사례를 설계하여 평가를 진행하였다. 각 사례는 주요 장비(메인 노드) 하나와 서브 장비(서브 노드) 여러 개로 구성되었으며, 이들 간의 연결 관계는 Fig. 3과 같이 1:1부터 1:5까지 총 5가지 카테고리로 나누어 분류하였다. 모든 사례는 벽을 나타내는 사각 형태의 레이아웃 내부에서 메인 장비는 빨간색 원으로, 서브 장비는 녹색 원으로 명확하게 구분하여 표현하였다. 각 카테고리에는 구조적으로 유사한 조건을 가진 50개의 사례가 포함되어 있으며, 다음 두 가지 주요 성능 지표를 체계적으로 평가하였다.

(1) 일관성(consistency): 동일한 사례가 여러 번 주어졌을 때 각 LLM의 출력이 얼마나 안정적으로 유지되는가를 평가

(2) 복잡성(complexity): 연결 관계가 단순한 형태(서브 장비 하나)에서 복잡한 형태(서브 장비 다수)로 변화할 때, 각 LLM이 성능을 얼마나 유지하거나 향상시키는지 평가

Fig. 4는 LLM이 과제를 수행할 때 사용된 입력 데이터 형식의 예시를 보여준다.

Fig. 3. Category: 1 (1:1), 2 (1:2), 3 (1:3), 4 (1:4), and 5 (1:5)

../../Resources/KCI/JKCI.2025.37.6.687/fig3.png

Fig. 4. Input data given to the LLMs in this study

../../Resources/KCI/JKCI.2025.37.6.687/fig4.png

3.2 Used LLM and Evaluation Method

본 연구에서는 서로 다른 규모와 특성을 지닌 다수의 LLM을 평가하였다. 사용된 모델은 GPT-4o, GPT4o-mini, Claude 3.5 Haiku, 그리고 LLaMA 3.1(8B)로, 프롬프트의 복잡성이 증가할 때 각 모델이 어떻게 반응하는지 확인하는 것이 목적이다. 실제 MEP 경로 설계는 공간적 제약, 안전 규정 및 법적 요구사항 등 복잡한 요소를 통합해야 하지만, 본 연구에서는 이러한 복잡한 요소를 간소화한 도면을 사용하여 각 프롬프트 엔지니어링 기법의 순수한 효과를 분리하여 평가하였다. 이는 성능 차이가 과도하게 복잡한 공학적 요소가 아닌, 프롬프트 자체의 효과에 의해 나타나는지 명확히 하기 위함이다.

각 모델은 동일한 문제 세트를 입력받아 답안을 생성하였으며, 성과 평가는 모델이 제시한 경로가 모든 요구 조건을 충족했는지를 기준으로 정확도(accuracy)를 이진 방식(성공/실패)으로 측정하였다. 예를 들어 모든 서브 노드를 연결하고 금지 구역을 피하면 성공으로 간주하였다. 모델별로 총 250개 사례에 대한 성공률을 산정하고, 프롬프트 전략 적용 전후 성능을 비교하였다.

3.3 Prompt Engineering: Applying Bloom’s Taxonomy Levels

설비 경로 설계에서 LLM의 성능을 향상시키기 위해, Bloom의 분류학 계층구조 각 레벨에 맞춰 프롬프트 엔지니어링 기법들을 설계 및 개발하였다. 우선 비교군(레벨 0)으로 특별한 프롬프트 엔지니어링 기법이 적용되지 않은 경우, 즉 LLM에게 Prompt 1과 같이 문제만 제시하고 곧바로 답을 요구하는 방식을 시험하였다. 이를 통해 아무 도움 없이 모델이 자체적으로 달성할 수 있는 기본 성능(일종의 LLM의 현재 능력 한계)을 확인하였다. 그 다음, 레벨 1부터 레벨 6에 걸친 단계별 프롬프트를 순차적으로 도입하여 LLM의 성능 변화를 관찰하였다. 각 단계의 구체적인 내용은 다음과 같다.

Prompt 1: “Find the possible connection routes from the green circle(s) to the red circle while avoiding black lines. Return coordinates for the route. There could be more than one green circle so be aware”

3.3.1 Level 1: Remembering

우선 레벨 1인 Remembering 단계는 LLM이 문제 해결에 필요한 기본 정보와 맥락을 기억하거나 상기하도록 유도하는 단계이다. 예를 들어, 제시된 설비 경로 설계 문제의 설명에서 주어진 정보를 사용자에게 역으로 설명하도록 한다. 이를 통해 모델이 경로를 찾는 데 필수적인 사실(예: 경로의 시작점 및 끝점, 구조적 제약 사항)을 놓치지 않도록 한다. 본 연구에서는 이를 “Recollection Technique”이라고 부르며, 프롬프트는 Prompt 2와 같이 “주어진 정보를 구체적으로 정리 및 나열하라.”(요약)과 같이 구성되었다.

Prompt 2: “Based on the provided Base64-encoded image and the accompanying text-based description, explain in detail the contents of the image. Identify the number, relative positions, and relationships between the circles and lines as described. Include the coordinates, dimensions, and any significant patterns or intersections. If any inconsistencies or unclear information arise, specify them. Your response should clearly articulate all observable features as if describing them to someone without access to the image or description”.

“{Prompt 1}”

3.3.2 Level 2: Understanding

레벨 2는 LLM이 주어진 정보와 문제를 확실히 이해하도록 돕는 단계이다. 이 단계에서는 하나의 프롬프트보다 여러 가지 보조 프롬프트를 활용하여 모델의 이해력을 향상시켰다. 먼저 역할 부여 기법(role-based technique)을 사용하여 모델에게 Prompt 3의 전문가(예: 설비 엔지니어) 역할을 부여하고, 해당 관점에서 문제를 바라보도록 지시하였다.

“{Prompt 2}”

Prompt 3: “You are now an expert MEP (Mechanical, Electrical, and Plumbing) engineer specializing in MEP route design. Your task is to create connection lines for MEP routes on a simplified structural layout. The black lines represent the structure, while the red and green circles represent MEP machines. Your objective is to design MEP routes that connect these machines while avoiding intersections with the structure. Explain what your role is, why ensuring MEP routes do not intersect with the structure is critical, and how the elements (black lines, red/green circles) guide the routing process”.

“{Prompt 1}”

또한 단순 회피 경로를 생성케 하는 것이 아닌 Prompt 4“설비 간 연결 경로는 벽체와 같은 구조적 요소에 평행으로 지나야 하며, 관통해서는 안된다.”(요약)과 같이 어떤 식으로 경로를 생성해야 하는지 이해력을 증강시키는 프롬프트 기법(constraint-aware technique)을 적용하였다.

“{Prompt 2}”

“{Prompt 3}”

{Prompt 1} → Prompt 4: “Based on the provided information, determine the connection route from each green circle to the red circle while avoiding intersection with black lines.

The connection lines should be either:

Be placed parallel to the black lines at a safe distance to prevent crossing over them.

Bypass the start and end points of the black lines if parallel placement is not feasible, ensuring the path circumvents any obstruction.

Return the coordinates of the routes. The routes do not need to be optimal but must satisfy the condition of avoiding intersection with black lines”.

이후 Prompt 5와 같이 복잡한 경로 설계 문제를 여러 Step으로 나누어 파악하도록 하는 업무 분할 기법(input and task division technique)을 적용하였다. 이 과정을 통해 LLM은 문제의 조건과 목표를 정확히 이해하고, 해결하고자 하는 문제를 명확히 인식하게 된다.

Prompt 5: You will be given a task in steps to follow. It's about creating a connection route under given conditions.

Each step will be given to you one by one. However, since there are many steps, do not create a connection route until you are specifically asked to do so in certain steps.

Step1: Understanding the given information.

“{Prompt 2}”

Step 2: Understanding the task.

“{Prompt 3}”

Step 3: Make a connection route.

“{Prompt 4}”

3.3.3 Level 3: Applying

레벨 3에서는 모델이 예시를 기반으로 문제를 해결할 수 있도록 한다. 이를 위해 “Few-Shot Technique” 프롬프트 기법을 활용하였다. LLM에게 현재 해결하고 자 하는 문제와 유사한 조건에서의 성공 사례 여러 개를 제시하고, 해당 예제에서 올바른 경로를 찾은 과정을 학습하게 한다. 본 연구에서는 Fig. 5와 같이 5개의 간단한 경로 사례와 그에 대한 이상적인 해결 경로를 Prompt 6과 같이 제시하여 모델이 패턴을 인식하도록 유도하였다. 이 예시 학습 단계를 통해 LLM은 경로 찾기의 절차와 요령을 간접적으로 습득하고, 이를 바탕으로 주어진 실제 문제에 적용할 준비를 갖추게 된다.

Fig. 5. Five successful examples for routing given by the LLMs in this study

../../Resources/KCI/JKCI.2025.37.6.687/fig5.png

“{Prompt 5}”

Step1: Understanding the given information.

“{Prompt 2}”

Step 2: Understanding the task.

“{Prompt 3}”

Step 3: Studying successful cases.

Prompt 6: Here are some examples of successful routing cases: 1. Text-based description of the image: Black Line: start = (200, 500), end = (800, 500) Red Circle: center = (427, 205), radius =10 Green Circle: center = (366, 810), radius =10 Green Circle: center = (600, 280), radius =10 Green Circle: center = (215, 645), radius =10 Green Circle: center = (406, 592), radius =10 Correct connection route: [[(366, 810), (150, 810), (150, 205), (427, 205)], [(600, 280), (427, 205)], [(150, 645), (150, 645), (150, 205), (427, 205)], [(406, 592), (150, 592), (150, 205), (427, 205)]] …etc.

Thoroughly look at examples and understand how routes are made. Step 4: Make a connection route.

“{Prompt 4}”

3.3.4 Level 4: Analyzing

레벨 4, Analyzing 단계는 모델이 문제를 체계적으로 분석하고 논리적으로 접근하도록 돕는 단계이다. LLM이 경로를 찾기 전에, 주어진 조건을 분석하여 해결 전략을 수립하도록 해주는 Prompt 7, 프롬프트 기법(route analyzation technique)을 적용하였다. 예를 들어, “경로를 생성하기 전에, 주어진 구조적 제약 조건을 모두 식별하고 이러한 제약이 경로에 어떤 영향을 미칠지 분석하라.”(요약)와 같은 지시를 내린다. 또한 “사용 가능한 설비 경로 옵션들을 몇 가지 생각하고, 각 옵션의 장단점을 검토하라.”(요약)와 같이 문제를 세분화하여 고찰하도록 유도하였다. 이는 LLM이 경로를 구상하기 전에 필요한 고려 사항을 충분히 검토하게 함으로써, 무작정 시도하는 것을 방지하고 체계적인 추론을 이끌어낸다. 분석 단계의 프롬프트를 통해 모델은 문제를 깊이 있게 파악하고, 실제 경로를 생성하기에 앞서 전략을 세울 수 있다.

“{Prompt 5}”

Step1: Understanding the given information.

“{Prompt 2}”

Step 2: Understanding the task.

“{Prompt 3}”

Step 3: Studying successful cases.

“{Prompt 6}”

Step 4: Analyzing restrictions

Prompt 7: Before creating any connection route in Step 5, we need to identify which coordinate values must not be used. 1. Gather each black line’s coordinates from the information you’ve been provided (start and end points). 2. For each black line, define a ‘no-go zone’ by adding and subtracting 10 pixels from its path. 3. List these restricted coordinate ranges or zones without creating or adjusting any routes yet. 4. Provide a concise summary of all no-go zones in a single, easy-to-reference format, ensuring we know exactly which coordinates are disallowed for routing. Do not finalize or propose any connection routes right now. Focus exclusively on enumerating the coordinate restrictions to maintain a safe 10-pixel distance from all black lines. Step 5: Make a connection route.

“{Prompt 4}”

3.3.5 Level 5: Evaluating

Evaluating 단계에서는, 모델이 스스로 자신의 해법을 평가 및 비판하도록 하는 프롬프트를 제시한다. 일단 LLM이 초안 형태의 경로 해결책을 생성하면, “생성된 경로가 모든 조건을 충족하는지 검토하고, 문제가 되는 부분이 있다면 지적하고 해결책을 제시하라”(요약)와 같은 요청을 Prompt 8을 통해 자신이 제시한 답을 되돌아보게 한다. 이 “Validation and Correction Technique” 기법을 통해 LLM은 잠재적인 오류를 인지하고 수정할 기회를 얻는다. 예를 들어 모델이 제시한 경로가 구조적 제약 조건을 위반한다면, 평가 단계에서 스스로 그 문제를 발견하도록 유도하고, 비판한 뒤 해결책 제시를 통해 결과를 개선하게 한다. 이 단계는 인간 학습자가 자신의 답을 검토하고 피드백을 반영하는 과정과 유사하며, LLM의 응답 정확도를 한층 향상시키는 역할을 한다.

“{Prompt 5}”

Step1: Understanding the given information.

“{Prompt 2}”

Step 2: Understanding the task.

“{Prompt 3}”

Step 3: Studying successful cases.

“{Prompt 6}”

Step 4: Analyzing restrictions

“{Prompt 7}”

Step 5: Make a connection route.

“{Prompt 4}”

Step 6: Evaluate the given route.

Prompt 8: You are provided with a list of tuples representing the coordinates of routes, along with walls represented as black lines on the plane. Your task is to calculate and evaluate whether any part of the given route intersects with the walls. If an intersection is detected, specify how the route should be adjusted to avoid the intersection, such as shifting the connection line towards the left, right, top, or bottom by a certain number of pixels. Additionally, generate an alternative route that avoids intersecting with the walls. If no intersection is detected, confirm that the route is valid and does not require any changes and create coordinates of the route same as given route. Ensure the output includes whether intersections exist, suggested adjustments (if necessary), and the updated or validated route coordinates, with clear reasoning.

3.3.6 Level 6: Creating

마지막으로, 최고 수준의 인지 레벨 단계인 “Creating”에 해당하는 프롬프트 엔지니어링 기법을 개발 및 적용하였다. 이 단계에서는 LLM이 막히거나 잦은 오류를 보이는 경우, 다른 LLM이 다양한 다른 접근법을 제시하도록 하여, 창의적으로 문제를 해결하도록 유도하는 다중 관점 기법(different perspectives technique)을 적용하였다. 구체적으로는 Fig. 6과 같이 우선 A 모델은 총괄 관리자 역할을 수행하며 대화 전반을 모니터링한다.

Fig. 6. Different perspectives technique system architecture

../../Resources/KCI/JKCI.2025.37.6.687/fig6.png

대화 주제가 연구 목적에서 벗어날 경우 개입하여 토론을 재조정하고, B 모델과 C 모델 사이에 의견 충돌이 발생하면 사전에 정의된 충돌 회피 기준을 바탕으로 각 경로의 안전성을 평가하여 중재를 수행한다. 이 평가 결과가 설정한 기준을 충족하면 그 결과를 사용자 에게 전달하고, 기준에 미달하면 추가 수정 과정을 위 해 대화 세션을 다시 시작한다.

B 모델은 실제 경로 생성을 담당하며 전통적인 찾기 알고리즘(A* 알고리즘, 다익스트라 알고리즘 등) 또는 직관적 휴리스틱에 기반한 방식을 활용하여 초기 해를 산출한다. 생성된 경로는 C 모델에 전달되어 자동화된 비판 절차를 거치며, C 모델은 각 경로에 대해 장애물 회피 성능, 안전성 검증, 연산 효율성 등을 평가한 뒤 구체적인 개선 방향을 제시한다. 이러한 피드백을 반영하여 B 모델은 대체 알고리즘을 선택하거나 파라미터를 조정하여 경로를 재생성한다. 이처럼 순차적이고 반복적인 대화 구조 안에서 모델들은 서로의 출력을 검증 및 보완하며 고착된 사고 방식에서 벗어나 다양한 해결책을 탐색할 수 있었다.

지금까지 언급한 레벨 1~6에 해당하는 프롬프트 기법들은 개별적으로 LLM에 제시된 것이 아닌, 함께 순차적으로 적용되었다. 예를 들어, 먼저 기억 단계의 질문에 대한 응답을 얻은 후, 이를 바탕으로 이해 단계 질문을 수행하는 식으로 대화형 프롬프트 체인을 적용하였다. 각 레벨에서의 결과는 다음 단계의 입력으로 활용하거나, LLM의 내부 상태에 영향을 주어 최종적인 답안을 생성하게 한다. 이후, 생성된 결과는 Fig. 7과 같이 구조적 제약 조건들을 만족하였는지 알고리즘에 의하여 분석되며, 모델별 그리고 카테고리별 실패 및 성공 개수에 따라 정확도를 산출한다.

Fig. 7. Sample test result

../../Resources/KCI/JKCI.2025.37.6.687/fig7.png

4. Discussion

4.1 Effect of Hierarchy Bloom’s Taxonomy

각 프롬프트 엔지니어링 기법들에 대한 효과는 Table 1Fig. 8에 나와 있듯 성공률(정확도)로 확인하였다. 우선 적용된 프롬프트 기법들이 적을수록 대체적으로 간단한 1:1 또는 1:2 연결 관계 문제는 일부 해결할 수 있었으나, 더 복잡한 1:3, 1:4, 1:5 문제에 대해서는 성공률이 저조하였다. 다시 말해, LLM 기본 모델 단독으로는 일정 수준 이상의 복잡도를 갖는 MEP 경로 설계 문제를 풀기 어려워함을 확인할 수 있었다. 반면 Bloom 분류학 기반의 프롬프트 엔지니어링 기법들을 적용한 후에는 모델들의 성능이 크게 향상되었다. 그러나 LLaMA 3 8B(약 8 billion 매개변수)는 프롬프트 복잡도가 커질수록 성능이 꾸준히 하락하였다. 파라미터 수가 적어 표현 공간과 추론 여유가 제한되고, 사전 학습 데이터가 주어진 업무와 연관된 도메인을 충분히 포함하지 못해 모델의 ZPD이 빠르게 포화된 것으로 해석된다. 이때 프롬프트가 제공하는 추가 정보는 활용되지 못하고 오히려 혼란을 야기한다(Wu et al. 2025). GPT-4o-mini(약 27 B)와 Claude 3.5 Haiku(약 12 B)는 분석 및 평가 단계에서만 성능이 일시적으로 하락했다. 두 모델은 LLaMA보다 매개변수가 많아 ZPD이 더 넓고, 고차원 프롬프트 엔지니어링도 상당 부분 소화해 ZPD를 확장할 수 있었다. 그럼에도 분석 및 평가 단계에서 적용된 특정 기법들은 ZPD의 임계점을 넘어섰고, 이로 인해 성능 저하가 발생한 것으로 보인다. 본 연구에서 사용하는 ZPD 개념은 단일 요인이 아니라 모델 용량, 학습 데이터의 폭과 깊이, 도메인 적합성이 복합적으로 결정하는 모델의 잠재적 지적 활동 범위를 통칭한다. 이에 GPT-4o-mini와 Claude 3.5 Haiku는 최종 “Creating” 단계에서 구조적이고 협력적인 접근법을 통해 문제를 체계적으로 인식하고 수정하여 성능을 회복하였다. GPT-4o 모델(파라미터 200 billion 이상 추정)은 지속적으로 성능이 향상되었으며, 이는 넓은 ZPD가 보다 복잡한 프롬프트에 효과적으로 대응할 수 있음을 시사한다.

Table 1. Bloom’s taxonomy hierarchy-based prompt engineering results for the investigated LLMs

Successful test cases (%)
LLM GPT-4o GPT-4o-mini Claude 3.5 Haiku LLaMA 3.1 8B
Category 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Level 0
No prompt engineering
32 16 0 0 0 36 22 0 0 0 38 26 16 2 0 14 4 0 2 2
Level 1
Recollection
26 18 12 8 0 26 20 8 2 0 26 24 12 8 4 10 4 2 2 2
Level 2
Role-based
Prompting
26 18 12 8 0 26 20 8 2 0 46 34 6 4 2 4 8 0 2 2
Level 2
Constraint-aware
40 22 14 14 6 34 12 8 12 0 32 28 12 8 8 8 4 2 4 0
Level 2
Input and task division
34 20 18 14 6 16 10 0 0 0 44 24 14 18 16 10 4 4 10 2
Level 3
Few-shot
70 52 50 46 30 56 38 36 32 26 60 42 32 26 38 6 8 4 2 6
Level 4
Route analyzation
74 62 60 54 28 39 18 6 4 0 86 58 38 38 24 6 4 0 0 4
Level 5
Validation and correction
90 78 64 50 36 50 18 10 4 4 74 46 22 14 12 10 2 2 0 2
Level 6
Different perspective
96 100 100 100 100 88 76 62 72 50 94 88 74 64 56 8 6 0 4 0

Fig. 8. Average accuracy of the four LLMs for each level

../../Resources/KCI/JKCI.2025.37.6.687/fig8.png

4.2 Effect of Individual Level

개별 레벨이 전체 정확도에 미치는 기여도를 분석하기 위해, 각 레벨을 제거한 실험도 수행하였다. 즉, 전체 6 레벨 중 특정 레벨의 프롬프트를 생략한 상태로 동일한 실험을 진행하여 성능 변화를 관찰하였다. 이러한 실험의 목적은 Bloom의 분류법 체계가 붕괴하였을 때 발생하는 기존 대비 급격한 정확도 하락 현상을 관찰하기 위함이었다. 단, 최고 상위 1 단계인 레벨 6를 제거하는 경우는 실험에서 다루지 않았는데, 이는 레벨 6를 제거한 상태가 사실상 3.3.5절의 레벨 5까지 프롬프트를 적용한 실험 조건과 동일하기 때문이다. 즉, 레벨 6 제거는 사고력 축적 및 향상 단계의 궤적을 관찰하려는 실험 목적과 부합하지 않아 분석에서 제외하였다. Table 2는 각 레벨을 제거한 경우에서의 정확도를 정리했으며, 이를 기준으로 하여 Table 3Fig. 9에서 각 레벨을 생략하여 적용하기 이전 상태인 Table 1 데이터에서 생략한 이후 정확도가 어떻게 달라지는지 나타내었다.

분석 결과, 모든 레벨에서의 프롬프트 엔지니어링 기법들은 어느 정도 성능 향상에 기여하고 있었지만 그 영향력은 단계별로 차이가 있었다.

레벨 1(remembering)을 생략한 경우, 일부 모델에서 초기에 주어진 정보에 대한 이해를 제대로 하지 못해 잘못된 접근을 시도하는 사례가 늘어났다. 그러나 전반적인 최종 성공률 감소폭은 다른 레벨에 비해 크지 않았는데, 이는 기본적인 문제 정보는 이후 단계의 프롬프트에서도 어느 정도 재확인되기 때문으로 보인다.

레벨 2(understanding)를 생략했을 때는 성능 하락이 전체 평균 8~39 %로, Table 3에 나타난 바와 같이 모든 모델에서 성공률이 크게 감소하였다. 이는 문제의 맥락과 요구를 명확히 이해시키는 단계가 없을 경우 LLM의 추론 방향이 초반부터 어긋나기 쉽다는 점을 보여준다.

레벨 3(applying)에선 예시를 통한 학습을 제외한 실험에서는 평균 38~60 % 정도의 성능 저하가 있었다. 레벨의 부재는 특히 소형 모델인 GPT-4o-mini에 영향을 크게 미쳤는데, 기본 지능이 상대적으로 부족한 모델일수록 유사 예시를 통한 패턴 인식의 도움을 많이 받는 것으로 나타났다.

레벨 4(analyzing)를 제외하면, 모델이 제약 조건을 간과하거나 경로 계획을 체계적으로 수행하지 못해 약 20~50 %가량 성공률이 떨어졌다.

레벨 5(evaluating)를 생략하면, 모델이 첫 시도에서 제시한 답안을 그대로 제출하므로 오류를 스스로 수정하지 못해 성능이 Claude 3.5 Haiku를 제외한 다른 모델들에서 하락하는 경향을 보였으나, 상대적으로 낮은 영향력을 보였다. 이는 레벨 6 단계에서 LLM들이 상호 피드백을 하며 어느 정도 레벨 5에서 했어야 할 평가를 수행했기 때문인 것으로 확인되었다.

Table 2. Results for excluding each level from Bloom’s taxonomy’s hierarchy

Successful test cases (%)
LLM GPT-4o GPT-4o-mini Claude 3.5 Haiku
Category 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Excluding level 1 94 82 90 88 84 60 50 30 28 14 92 88 92 56 68
Excluding level 2 84 50 72 52 44 54 26 24 12 2 90 78 76 50 44
Excluding level 3 56 48 40 34 28 32 10 8 0 0 62 44 38 22 18
Excluding level 4 70 54 58 42 40 46 20 16 6 8 82 58 64 38 34
Excluding level 5 98 94 96 94 86 54 48 46 32 26 96 94 78 78 64

Table 3. Changes in accuracy compared to Table 1 when each level is removed

LLM Cat. W/O level 1 (%) W/O level 2 (%) W/O level 3 (%) W/O level 4 (%) W/O level 5 (%) Avg. (%)
GPT 4o 1 -2 -12 -40 -26 2 -15.6
2 -18 -50 -52 -46 -6 -34.4
3 -10 -28 -60 -42 -4 -28.8
4 -12 -48 -66 -58 -6 -38
5 -16 -56 -72 -60 -14 -43.6
GPT 4o mini 1 -28 -34 -56 -42 -34 -38.8
2 -26 -50 -66 -56 -28 -45.2
3 -32 -38 -54 -46 -16 -37.2
4 -44 -60 -72 -66 -40 -56.4
5 -36 -48 -50 -42 -24 -40
Claude 3.5 Haiku 1 -2 -4 -32 -12 2 -9.6
2 0 -10 -44 -30 6 -15.6
3 18 2 -36 -10 4 -4.4
4 -8 -14 -42 -26 14 -15.2
5 12 -12 -38 -22 8 -10.4

Fig. 9. Average accuracy results across the levels of Bloom’s taxonomy

../../Resources/KCI/JKCI.2025.37.6.687/fig9.png

본 연구에서는 프롬프트 엔지니어링 기법의 효과를 통계적으로 검증하기 위하여 Table 4와 같이 반복측정 분산분석(repeated measures ANOVA)을 수행하였다. 분석에 사용된 관측값 $X_{ij}$에서 $i$는 개별 모델과 연결 카테고리의 조합을 나타내며, $j$는 프롬프트 조건을 의미한다. 전체 프롬프트 세트(레벨 1~6)를 적용한 경우와 특정 레벨을 하나씩 제거한 조건으로 나누어 분석하였다.

먼저 전체 관측값의 전체 평균(grand mean) ($\overline{X}_{..}$)과 각 조건 평균(condition mean) ($\overline{X}_{.j}$)을 다음과 같이 계산한다.

(1)
$\overline{X}_{..}=\dfrac{∑_{i=1}^{n}∑_{j=1}^{k}X_{ij}}{n\times k},\: \overline{X}_{.j}=\dfrac{∑_{i=1}^{n}X_{ij}}{n}$

여기서, $n$은 대상 수, $k$는 프롬프트 조건 수이다. 전체 변동성은 총제곱합($SS_{T otal}$)으로 정의하며 전체 데이터가 평균을 기준으로 얼마나 퍼져 있는가 나타낸다.

(2)
$SS_{T otal}=\sum_{i=1}^{n}\sum_{j=1}^{k}\left(X_{ij}-\overline{X}_{..}\right)^{2}$

이를 프롬프트 조건에 의한 변동과 개체 간 변동, 그리고 잔차 변동으로 분리한다.

・ 조건 제곱합($SS_{Cond ion}$): 프롬프트 조건이 정확도에 얼마나 영향을 주었는가를 나타냄

(3)
$SS_{Cond ion}=n\sum_{j=1}^{k}\left(X_{.j}-\overline{X}_{..}\right)^{2}$

・ 오차 제곱합($SS_{Error}$): 프롬프트 조건이나 대상 차이로 설명할 수 없는 잔여 변동

(4)
$SS_{Error}=SS_{T otal}-SS_{Cond ion}-SS_{S ubjects}$

여기서, $SS_{S ubjects}$는 모델 및 카테고리별 간 변동을 나타내며, 식 (5)로 계산된다.

(5)
$SS_{S ubjects}=k\sum_{i=1}^{n}\left(X_{.i}-\overline{X}_{..}\right)^{2}$

각 제곱합의 자유도(df)와 평균제곱(MS)는 다음과 같다.

(6)
$df_{Cond ion}=k-1,\: df_{Error}=(n-1)(k-1)$
(7)
$MS_{Cond ion}=\dfrac{SS_{Cond ion}}{df_{Cond ion}},\: MS_{Error}=\dfrac{SS_{Error}}{df_{Error}}$

$F$-통계량은 조건 효과가 우연(오차)보다 얼마나 큰 지를 나타내는 비율로써 아래와 같이 계산하여 $F$-분포의 $df_{Cond ion}$ 및 $df_{Error}$와 비교하여, 이로부터 이 $F$값이 우연히 발생할 확률인 $P$-값을 산출한다.

(8)
$F=\dfrac{MS_{Cond ion}}{MS_{Error}}$

마지막으로 부분 에타 제곱(partial eta squared, $\eta_{p}^{2}$)은 식 (9)로 계산하며, 이는 프롬프트 조건이 전체 정확도 변동에서 차지하는 비율을 의미한다. 즉, 프롬프트 조건이 전체 정확도 변동에서 차지하는 효과 크기를 의미한다.

(9)
$\eta_{p}^{2}=\dfrac{SS_{Cond ion}}{SS_{Cond ion}+SS_{Error}}$

분석 결과, GPT-4o, GPT-4o-mini, Claude 3.5 Haiku 모든 모델에서 프롬프트 조건이 정확도에 미치는 영향이 통계적으로 매우 유의미하였다(p<0.001). 각 모델의 $\eta_{p}^{2}$ 값은 각각 0.93, 0.94, 0.91로 나타났으며, 이는 프롬프트 조건의 변화가 모델 성능 변동의 대부분을 설명함을 의미한다. 이러한 결과는 프롬프트 레벨을 계층적으로 구성하여 적용하는 것이 복잡한 MEP 경로 설계 작업에서 필수적임을 강력히 시사한다.

그러나 실험 과정에서 일부 프롬프트 엔지니어링 기법을 적용했을 때 정확도가 오히려 저하되고, 특정 기법을 생략했을 때 성능이 개선되는 사례도 관찰되었다. 이는 각 LLM 모델이 고유한 ZPD를 가지고 있으며, 작업의 복잡성이나 프롬프트의 길이가 일정 수준을 초과하면 프롬프트 구조가 정교하더라도 성능 저하를 초래할 수 있음을 의미한다. 또한 본 연구에서 사용된 단순화된 도면은 실제 MEP 경로 설계에서 발생하는 복잡한 공간 제약 및 다양한 추가 조건을 모두 반영하지 못한다는 한계가 존재한다. 따라서 후속 연구는 이러한 통찰을 바탕으로 1장에서 제안한 “인공 엔지니어” 개념을 보다 구체화하고 확장하여 실제 설계 환경의 복합성을 반영하여 진행할 것이다.

Table 4. Repeated measures ANOVA on the effect of prompt conditions across LLMs

Model Source SS df MS F P-value Partial eta squared
GPT-4o Prompt condition 14501.47 5 2900.29 52.33 Lower than 0.001 0.93
Subjects 1315.47 4 328.87
Error 1109 20 55.43
Total 16925 29
GPT-4o-mini Prompt condition 11127.47 5 2225.49 61.77 Lower than 0.001 0.94
Subjects 5258.67 4 1314.67
Error 720.53 20 36.03
Total 17107 29
Claude 3.5 Haiku Prompt condition 7433.6 5 1486.72 39.41 Lower than 0.001 0.91
Subjects 6380 4 1595
Error 754.4 20 37.72
Total 14568 29

5. 결 론

본 연구는 대규모 언어 모델(LLM)을 활용한 MEP 경로 설계 자동화에서, 교육학 이론에 기반한 프롬프트 엔지니어링의 유효성을 실험적으로 입증하였다. 본 연구의 핵심 기여는 경험과 직관에 의존하던 기존 프롬프트 엔지니어링 분야에 교육학적 원리를 도입하여, 과학적이고 재현 가능한 방법론의 이론적 토대를 제시했다는 데 있다.

이를 위해 본 연구에서는 Bloom의 분류법 계층구조를 바탕으로 기억, 이해, 적용, 분석, 평가, 창작의 순서로 프롬프트를 체계화하였으며, GPT-4o부터 LLaMA 3.1(8B)에 이르는 다양한 규모의 모델을 대상으로 그 효과를 검증하였다. 실험 결과, 이처럼 구조화된 프롬프트를 적용했을 때, 기존의 무분별한 방식에 비해 모델이 훨씬 안정적이고 일관된 추론 과정을 거쳐 높은 정확도를 달성함을 확인하였다. 이는 교육학적 프레임워크가 LLM을 단순 연산 도구가 아닌 지적 성장이 가능한 “학습자”로 간주하고, 그 추론 과정을 체계적으로 유도하였음을 시사한다.

이러한 계층적 프롬프트 전략은 복잡한 공학 설계 자동화에서 LLM의 실용성을 높이는 효과적인 접근법일 뿐만 아니라, 향후 다양한 전문 분야에서 LLM을 “인공 전문가”로 훈련시키기 위한 보편적 가이드라인의 초석이 될 수 있다. 향후 연구에서는 본 기법을 실제 현장 데이터와 연계하여 인공 엔지니어 시스템 구현 가능성을 구체적으로 탐구하고, 다양한 공학 분야로 적용 범위를 확장할 계획이다.

감사의 글

본 연구는 한국연구재단 대학중점연구소지원사업 ICT 융복합 기존건축물 내진리모델링 연구소(RS-2018-NR031076)와 국토교통부 디지털 기반 건축시공 및 안전감리 기술개발 사업(RS-2022-00143493)의 지원을 받아 수행되었습니다.

References

1 
Chiarello F., Barandoni S., Škec M. M., Fantoni G., 2024, Generative Large Language Models in Engineering Design: Opportunities and Challenges, Proceedings of the Design Society, Vol. 4, pp. 1959-1968DOI
2 
Choi W. J., Kim C. K., Heo S. J., Na S. U., 2022, The Modification of A* Pathfinding Algorithm for Building Mechanical, Electronic and Plumbing (MEP) Path, IEEE Access, Vol. 10, No. 32, pp. 65784-65800DOI
3 
Kojima T., Gu S. S., Reid M., Matsuo Y., Iwasawa Y., 2022, Large Language Models Are Zero-Shot Reasoners, Proceedings of the 36th International Conference on Neural Information Processing Systems 1613, pp. 22199-22213Google Search
4 
Lubbe A., Marais E., Kruger D., 2025, Cultivating Independent Thinkers: The Triad of Artificial Intelligence, Bloom’s Taxonomy and Critical Thinking in Assessment Pedagogy, Education and Information Technologies, Vol. 30, pp. 17589-17622DOI
5 
Nazari F., Yan W., 2025, A Case Study on Evaluating Genetic Algorithms for Early Building Design Optimization: Comparison with Random and Grid Searches, arXiv preprint arXiv:2504.08106DOI
6 
Park J. S., O’Brien J., Cai C. J., Morris M. R., Liang P., Bernstein M. S., 2023, Generative Agents: Interactive Simulacra of Human Behavior, Conference Proceedings 2, pp. 1-22DOI
7 
Sætra H. S., 2025, Scaffolding Human Champions: AI as a More Competent Other, Human Arenas, Vol. 8, No. 1, pp. 56-78DOI
8 
Singh T., Mahmoodian M., Wang S., 2025, Advancing Smart Construction Through BIM-Enabled Automation in Reinforced Concrete Slab Design, Buildings, Vol. 15, No. 3, pp. 343DOI
9 
Wang K. D., Burkholder E., Wieman C., Salehi S., Haber N., 2024, Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving, Frontiers in Education, Vol. 8, pp. 1330486DOI
10 
Wu Y., Wang Y., Ye Z., Du T., Jegelka S., Wang Y., 2025, When More Is Less: Understanding Chain-of-Thought Length in LLMs, arXiv preprint arXiv:2502.07266DOI
11 
Zhang J., Ma N., Yao Y., Wang C., Wu Z., 2023, A Survey About the Decision-Making of Self-Driving Based on Deep Reinforcement Learning, Institute of Electrical and Electronics Engineers, pp. 94-99DOI