장주영
(Juyoung Jang)
1
조민건
(Mingeon Cho)
2
강건모
(Gunmo Gang)
3
차기춘
(Gichun Cha)
4
박승희
(Seunghee Park)
5,*
-
학생회원, 성균관대학교 글로벌스마트시티융합전공 석사과정
-
비회원, 성균관대학교 글로벌스마트시티융합전공 박사과정
-
학생회원, 성균관대학교 글로벌스마트시티융합전공 석사과정
-
비회원, 성균관대학교 글로벌스마트시티융합전공 연구교수
-
종신회원, 성균관대학교 건설환경공학부 교수, 교신저자
Copyright © 2026 by The Korea institute for Structural Maintenance and Inspection
핵심용어
생성형 AI, 대형 언어 모델(LLM), 검색 증강 생성(RAG), 의사결정 지원 시스템(DSS), 시설물 안전등급
Keywords
Generative AI, Large Language Model (LLM), Retrieval-Augmented Generation (RAG), Decision Support System (DSS), Facility safety grade estimation
1. 서 론
국내외 사회기반시설의 노후화가 빠르게 진행됨에 따라, 구조물의 안전성을 확보하고 유지관리의 효율성을 높이기 위한 기술적 대안이 요구되고 있다(RE Brown and HL Willis, 2006). 현재 시설물 상태평가는 주로 육안조사 및 재료시험을 기반으로 수행되며, 시설물 상태평가 기준에 따라 부재별 평가 결과를 종합하여 안전등급을 산정하는
방식으로 이루어진다. 그러나 이러한 전통적인 점검 방식은 현장 점검자의 경험과 주관적 판단에 크게 의존하고 있어, 동일한 상태의 손상이라 하더라도
점검자마다 상이한 결과가 도출될 수 있다(R Samsami, 2024). 이는 평가 결과의 일관성과 신뢰성 확보에 한계를 초래하고, 나아가 시설물의 생애주기적 관리와 유지 보수 계획 수립의 효율성에도 부정적 영향을 미친다(M Cho et al., 2022). 또한 시설물 유지관리에 활용되는 대부분의 데이터는 PDF, HWP 등 비정형 문서 형식으로, 점검자가 필요 정보를 직접 탐색⋅해석해야 한다. 이
과정에서 정보의 검색과 기준 확인이 현장에서 과도한 시간이 소요되고, 최신 기준 반영 여부를 즉시 확인하기 어렵다(L Soibelman et al., 2008). 게다가 동일한 문제에 대해서도 부서⋅담당자별로 답이 달라지는 문제가 반복된다는 것은 현장의 숙련도에 따라 결과가 달라질 수 있다는 것을 보여준다.
이는 안전점검을 수행하기 위한 진단기관과 점검인력의 신규 유입이 늘어남에 따라 숙련되지 않은 인력이 업무를 수행하게 되는 경우가 많아 점검자간 평가
결과에 대한 편차가 커지고 있다고 볼 수 있다(BA Graybeal et al., 2002). 이러한 문제는 현장의 숙련도에 따라 결과가 달라지는 비효율을 가져오며, 객관적 의사결정을 지원할 수 있는 자동화 도구의 필요성을 더욱 높인다.
최근 다양한 산업 분야에서 인공지능(AI), 자연어 기반 질의응답, 문서 요약, 지식 응용 등의 기능을 수행할 수 있는 생성형 AI 기술, 특히 대형
언어 모델(LLM: Large Language Model)의 활용이 활발히 논의되고 있다(WX Zhao et al., 2023). LLM은 방대한 텍스트 기반 데이터로부터 학습된 자연어 처리 모델로, 사용자의 질의(Query)에 대해 맥락 기반의 응답을 생성할 수 있으며,
복잡한 문서로부터 핵심 정보를 요약하거나 다중 질의에 대한 일관된 답변을 제공하는 등 다양한 분야에서 높은 활용 가능성을 보이고 있다(H Naveed et al., 2025). 하지만 기존 LLM 기반 시스템은 학습 데이터에 기반한 응답 생성 특성상, 실제 사실과 다른 정보를 생성하는 환각현상(Hallucination)
문제가 지속적으로 제기되고 있다(Z Ji et al., 2023). 본 연구에서는 이러한 한계를 보완하기 위해 외부 문서 기반의 사실적 기반 응답 생성을 가능하게 하는 검색 증강 생성(RAG:Retrieval-Augmented
Generation) 구조를 도입하였다. RAG는 검색(Retrieval)과 생성(Generation)을 하나의 파이프라인으로 결합하여, 외부 데이터베이스나
문서 인덱스만 갱신해도 최신 정보가 즉시 반영될 수 있도록 설계된 구조이다. 이를 통해 LLM의 생성 능력은 유지하면서도, 근거 기반의 응답을 생성함으로써
신뢰성과 정확도를 동시에 확보할 수 있다. 또한, 시설물 상태평가 업무를 실시간으로 지원할 수 있는 생성형 AI 기반 대화형 의사결정 지원 시스템을
구축하여, 점검자가 자연어 질의를 통해 안전등급 평가 기준, 재료시험, 진단 보고서 작성 방법 등을 직접 탐색하고 즉각적인 피드백을 받을 수 있도록
구성하는 등 기술적인 문서를 대상으로, 로컬 환경에서 운용 가능한 경량 RAG 시스템을 구현한다.
본 연구는 ‘시설물 안전등급 평가를 위한 의사결정 지원 시스템을 RAG 구조로 구현할 수 있는가?’ 라는 질문에 답하는 것을 목표로 한다. 제안하는
시스템은 기존 평가방식의 전문가 의존도를 낮추고, 문서 탐색 및 분석 과정의 자동화를 통해 상태평가의 일관성과 객관성을 제고하는 데 목적이 있다.
나아가 현장 기술자 및 관리자들이 실시간으로 의사결정을 내릴 수 있는 사용자 친화적인 인터페이스를 제공함으로써, 시설물 유지관리의 디지털 전환과 AI
기반 업무 자동화를 가속화할 수 있을 것으로 기대된다.
2. 방법론
2.1 텍스트 문서 전처리
텍스트 문서 전처리는 비정형 시설물 안전 문서를 RAG 시스템이 직접 활용할 수 있는 구조화⋅벡터화된 지식 인덱스로 변환하는 과정으로, 이후 수행되는
검색-생성 파이프라인의 성능과 신뢰성을 좌우하는 핵심 기반을 제공한다.
2.1.1 텍스트 임베딩(Text Embedding)
텍스트 임베딩은 비정형 문서(PDF, HWP 등)를 RAG 시스템이 활용 가능한 벡터 기반 데이터 구조로 변환하는 단계이다. 임베딩(embedding)은
사람이 사용하는 자연어 문장을 컴퓨터가 처리할 수 있도록 숫자로 이루어진 고차원 벡터로 표현하는 기술로, 의미가 비슷한 문장이나 문단일수록 벡터 공간에서
서로 가깝게, 의미가 다른 텍스트일수록 멀리 위치하도록 하는 것이 핵심이다. 이렇게 만들어진 임베딩 벡터는 사람 눈에는 단순한 숫자 배열에 불과하지만,
컴퓨터에서는 두 텍스트의 의미적 유사성을 거리(예: 코사인 유사도)로 비교할 수 있게 해주는 공간이 되며 이러한 벡터의 집합 공간을 벡터 데이터베이스(Vector
DB)라고 한다. 본 연구에서는 시설물 안전점검 지침서와 같은 비정형 문서를 문단 단위의 청크로 분할하고, 문서명⋅페이지⋅절 번호 등 최소한의 메타데이터를
부여한 뒤, 사전 학습된 LLM 기반 임베딩 모델을 이용해 각 청크를 고차원 벡터로 변환하였다. 실제 임베딩 공간은 수백-수천의 고차원 구조이지만,
본 논문에서는 그 특성을 직관적으로 보여주고자 차원 축소를 통해 3차원 공간으로 투영한 예시를 Fig. 1에 제시하며, 의미적으로 유사한 문단들이 벡터 공간에서 군집을 이루는 모습을 시각적으로 확인할 수 있다.
Fig. 1. Vector DB 기반 문단 단위 텍스트 임베딩의 3차원 공간 분포 및 범주별 군집 특성
2.1.2 문서 처리 프로세스
문서 처리 단계는 RAG 시스템의 기반을 형성하는 전처리 과정으로, Fig. 2와 같이 시설물 유지관리 문서를 벡터 기반 검색이 가능한 구조화 데이터로 변환하는 것을 목표로 한다. 시설물 관련 문서는 표, 수치, 단위, 절 번호,
캡션 등 복잡한 구조를 포함하고 있으므로, 단순 텍스트 변환만으로는 의미 단위와 문맥을 온전히 보존하기 어렵다. 이에 따라 본 연구에서는 문단 중심
청크화와 보수적 정규화 전략을 결합한 전처리 방식을 적용하였다.
우선 입력 문서는 pdfplumber 라이브러리를 활용하여 페이지 단위로 본문 텍스트와 표를 병렬 추출하였다. 표는 셀 구조와 캡션을 함께 직렬화하여
HTML 형식으로 저장함으로써, 나중에 필요할 경우 표 단위 검색이나 캡션 기반 검색에도 활용할 수 있도록 하였다. 본문 텍스트는 빈 줄을 기준으로
문단을 구분하고, 각 문단을 독립적인 청크 단위로 취급하였다. 페이지마다 반복되는 머리말⋅꼬리말⋅페이지 번호 등은 자동 제거하여, 동일한 문서에서
반복적으로 등장하는 비의미적 요소가 검색 결과를 왜곡하지 않도록 하였다.
정규화 과정에서는 시설물 안전문서의 특성을 고려하여 의미 보존을 최우선으로 하는 보수적 정규화(conservative normalization)를
적용하였다. 공백과 개행은 일정한 규칙에 따라 통일하되, 문장 순서는 보존하였으며, 규정 수치, 단위(mm, MPa, ℃ 등), 비교 연산자(≥,
≤, ±)는 원형을 유지하였다. 또한, 표나 그림 캡션은 본문과 혼합하지 않고 별도의 청크로 분리하여, 검색 단계에서 규정 본문과 보조 설명을 구분해
활용할 수 있도록 하였다. 각 청크에는 문서명, 페이지 번호, 절 번호, 캡션 여부 등 메타데이터를 부착하여, 검색 이후 생성 단계에서 출처 정보를
상세히 제공할 수 있도록 준비하였다.
정제된 문단 청크는 OpenAI의 text-embedding-3-small 모델을 이용해 고차원 임베딩 벡터로 변환되었다. 이렇게 생성된 임베딩은
Pandas DataFrame 형태로 관리된 후, CSV 파일로 직렬화하여 경량 파일 기반 벡터 데이터베이스(File-based Vector DB)로
활용하였다. 이러한 구조는 별도의 데이터베이스 관리 시스템(DBMS)이나 외부 서버 없이도 로컬 환경에서 의미 기반 검색을 구현할 수 있게 해주며,
문서 개정 시 해당 문서만 재처리하여 CSV를 갱신하는 증분 업데이트(Incremental Update)가 가능하다는 장점을 가진다.
요약하면, 문서 처리 단계는 비정형 PDF 문서를 RAG 시스템이 직접 검색할 수 있는 구조화⋅벡터화된 지식 인덱스로 변환하는 과정이며, 이후 질의응답
단계에서 수행되는 검색-생성 파이프라인의 성능과 신뢰성을 좌우하는 기초 인프라를 제공한다.
2.2 RAG 파이프라인
본 연구의 RAG 파이프라인은 사전에 구축된 Vector DB를 기반으로 사용자의 질의와 의미적으로 관련된 문단을 검색하고, 해당 문맥을 활용하여
근거 중심의 응답을 생성하는 검색–증강-생성의 결합 구조로 구성된다. 이후 LLM을 이용하여 검색된 문맥을 입력으로 활용해 응답을 생성한다.
2.2.1 RAG 모델의 개요
Retrieval-Augmented Generation(RAG)은 주어진 질문에 관련된 외부 지식을 먼저 검색한 뒤, 검색된 정보를 기반으로 LLM의
생성 능력을 보완하는 구조로, 검색과 생성을 하나의 파이프라인으로 결합한 검색 증강 생성 기법이다(C Jeong, 2023). LLM이 모델 파라미터 내부에 내재된 지식 파라메트릭 메모리(Parametric Memory)에 주로 의존한다면, RAG 시스템은 질의 시점에
외부 지식 저장소인 Vector DB를 참조하는 비파라메트릭 메모리(Non-parametric Memory)를 함께 활용함으로써, 모델을 재학습하지
않고도 최신 지식을 반영할 수 있도록 설계된다.
이처럼, RAG의 핵심 아이디어는 파라메트릭 메모리와 비파라메트릭 메모리를 결합한 이중 메모리 구조에 있다. LLM 내부 지식과 외부 지식 저장소를
결합하여, 질의와 관련된 문맥을 검색⋅증강한 뒤 응답을 생성함으로써 근거와 출처를 명확히 할 수 있다(P Lewis et al., 2020).
RAG 구조는 일반적으로 (i) 검색(Retrieval) 단계와 (ii) 생성(Generation) 단계라는 두 축으로 구성된다. 이와 별개로, 실제
시스템 구현에서는 비정형 문서를 벡터화하고 인덱스를 구축하는 임베딩⋅인덱싱 과정이 사전에 수행되는데, 이는 질의가 입력되기 전에 한 번 수행되는 전처리
단계이며, 질의응답 파이프라인과는 구분되는 준비 과정이다. 즉, 본 연구의 프로세스는 (1) 문서 임베딩 및 인덱스 구축이라는 사전 준비 단계와,
(2) 질의 시점에 동작하는 검색-생성 RAG 파이프라인으로 구성되며, RAG 파이프라인은 검색기(Retriever)와 생성기(Generator)가
실시간으로 상호작용하는 구조를 가진다.
본 연구에서는 이러한 RAG의 일반 개념을 시설물 안전점검⋅진단 도메인에 적용하였다. 구체적으로, 시설물 유지관리 지침서, 진단 보고서 등 비정형
PDF 문서를 Vector DB로 구성하고, 현장 점검자가 제기하는 자연어 질의에 대해 문서명⋅페이지⋅절 번호 등의 출처 정보를 함께 제공하는 근거
기반 질의응답 체계를 설계하였다. 이를 통해 모델이 내부 지식에만 의존하지 않고, 실제 지침 문서에 근거한 응답을 생성하도록 유도하였다.
2.2.2 사용자 질의응답 프로세스
질의응답 단계는 Fig. 3과 같이 사용자의 자연어 질문을 입력으로 받아, 검색과 생성 단계의 절차를 순차적으로 수행하는 RAG 파이프라인이 포함된 시스템의 전반적인 프로세스이다.
이 단계에서 사용자는 웹 기반 대화형 사용자 인터페이스(UI)를 통해 시스템과 상호작용하며, 시스템은 외부 지식 저장소를 활용하여 근거 기반 응답을
실시간으로 제공한다. 사용자가 “균열 폭 0.3 mm 이상은 몇 등급인가?”와 같은 질문을 입력하면, 시스템은 우선 동일한 임베딩 모델(text-embedding-3-small)을
사용하여 질의를 벡터로 변환한다.
생성된 질의 벡터는 Vector DB에 저장된 각 문단 임베딩과의 코사인 유사도(Cosine Similarity) 식 (1)를 계산하는 데 사용되며, 유사도 값이 높은 순으로 상위 K개(Top-K, 기본값 3개)의 문단이 탐색된다. 여기서 Top-K는 검색 단계에서 선택되는
문맥의 개수를 의미하며, RAG 시스템의 응답 품질을 결정하는 주요 파라미터로 작용한다. Top-K 값이 너무 작을 경우 관련 문맥이 충분히 확보되지
않아 근거 부족 문제가 발생할 수 있으며, 반대로 너무 클 경우 불필요한 문맥이 포함되어 응답의 정확도를 저하시킬 수 있다. 따라서 본 연구에서는
정확도와 문맥 효율성을 고려하여 Top-K=3으로 설정하였다. 이 과정은 키워드 기반 검색이 아니라 의미 기반 검색이므로, “균열 폭 0.3 mm
이상”과 “크랙 폭이 0.3 mm 초과”처럼 표현이 다르더라도 동일한 의미로 인식될 수 있다. 검색된 문단에는 본문 내용과 함께 문서명, 페이지,
절 번호 등 메타데이터가 포함된다.
검색된 문맥은 프롬프트에 포함되어 LLM의 응답 생성에 활용되며, 본 연구에서는 근거 기반 응답과 출처 명시를 유도하는 구조를 적용하였다. 시스템
지침에는 문서에서 제공된 근거를 기반으로 답변을 생성하도록 하는 규칙과 함께, 답변에 원본 문서의 문서명과 페이지 번호를 포함하도록 요구하는 지침을
포함하였다. 또한 제공된 문서에서 충분한 근거를 확인할 수 없는 경우에는 이를 명시적으로 표현(예: 근거 없음)하거나 추가 질문을 통해 판단을 보완하도록
프롬프트를 설계하였다. 검색된 문맥 블록은 규정 본문을 중심으로 표⋅그림 캡션 및 관련 설명을 함께 포함하도록 구성되며, 동일한 정보가 반복되는 경우
중복 문맥을 제거하여 불필요한 토큰 사용을 최소화하였다. 이러한 프롬프트 설계는 RAG 파이프라인의 구조적 특성뿐 아니라, LLM이 명시적인 규칙과
제약을 따르도록 유도함으로써 응답의 신뢰성과 일관성 확보에 중요한 역할을 한다(L Ouyang et al., 2022).
응답 생성에는 OpenAI의 gpt-4o 모델을 사용하였다. 모델은 기술 문서 형식에 가까운 문장 구조로 답변을 생성하며, 출력에는 참조한 문서명과
페이지 번호를 함께 포함한다. 또한 프롬프트 설계를 통해 문서 기반 근거 중심 응답을 유도하였다. 검색 결과가 없거나, 유사도가 사전에 설정한 임계값
이하인 경우에는 모델 호출을 생략하고 “해당 문서에서 근거를 찾지 못했습니다. 추가 문서를 업로드하거나 다른 질의를 입력해 주세요.”와 같은 메시지를
반환함으로써, 근거 없이 임의로 답변을 생성하는 상황을 사전에 피하도록 설계하였다. 이러한 접근은 근거 기반 생성과 환각(hallucination)
완화를 동시에 달성하기 위한 전략으로, 최근 제안된 프롬프트 기반 RAG 구조에서 강조되는 환각 억제 및 응답 신뢰성 확보의 방향성과 개념적으로 일관된
접근이라 할 수 있다 (Asai et al., 2024). 최종 응답은 Streamlit 기반 사용자 인터페이스에서 “답변” 영역과 “참고한 문서 내용” 영역으로 분리되어 표시된다. 사용자는 한 화면에서
LLM이 생성한 요약형 답변과, 해당 답변의 근거가 된 원문 문단을 동시에 확인할 수 있으며, 필요 시 원문 페이지를 직접 열람하여 모델의 판단 근거를
검증할 수 있다. 또한, 인터페이스에서 Top-K 개수, 응답 톤(기초 수준–전문가 수준) 등을 조정할 수 있어, 현장 점검자, 관리자 등 다양한
사용자 수준에 맞춰 시스템을 활용할 수 있다.
2.3 데이터셋 및 환경
데이터셋은 국토교통부 및 관계 기관에서 발간한 「시설물의 안전 및 유지관리 실시 세부지침」을 중심으로 구성하였다. 본 연구에서는 성능평가 편(공통편)을
포함하여 약 1,100페이지 규모의 PDF 문서를 대상으로 하였으며, 각 문서는 시설물 상태평가 기준, 등급 판정 방법, 재료시험 절차, 진단 보고서
작성 기준 등 시설물 유지관리 실무에 직결되는 내용을 포함하고 있다.
제안 시스템은 Python 3.11 환경에서 구현되었으며, 주요 라이브러리로는 pdfplumber, pandas, numpy, openai, streamlit
등을 사용하였다. 임베딩 생성에는 text-embedding-3-small 모델을, 응답 생성에는 gpt-4o 모델을 활용하였다. 검색기는 CSV
기반 벡터 인덱스를 메모리에 적재한 뒤, NumPy를 이용해 질의 벡터와 문단 임베딩 간의 코사인 유사도를 계산하는 방식으로 구현하였다. 이를 통해
별도의 외부 검색 서버 없이 로컬 환경에서 고속으로 의미 기반 검색이 가능하도록 설계하였으며, 아래는 관련 식에 대한 설명이다.
Fig. 4와 같이 두 벡터 A와 B가 있다면 두 벡터의 내적 $A \cdot B$는 다음과 같이 계산된다(AW Qurashi et al., 2020).
여기서 $\|A\|$와 $\|B\|$는 각각 벡터 A와 B의 길이를 의미하며, $\theta$는 두 벡터 사이의 각도이다. $Cos(\theta)$는
다음과 같이 두 벡터의 성분을 이용하여 계산할 수 있다.
코사인 유사도는 두 벡터의 내적을 각 벡터 길이의 곱으로 나누어 얻은 값으로, 벡터의 크기보다는 두 벡터가 가리키는 방향의 유사성을 측정하는 지표이다.
이때 코사인 유사도 값은 식 (2)와 같이 계산된다(AR Lahitani et al., 2016).
본 연구의 텍스트 임베딩 벡터는 성분이 주로 0 이상의 값으로 구성되는 경향이 있어, 실제 코사인 유사도 값은 0과 1 범위에서 관찰된다. Fig. 5와 같이 값이 1에 가까울수록 두 벡터가 이루는 각도가 작아져 두 텍스트의 의미적 방향성이 유사함을 의미한다.
Fig. 5. 벡터 간 각도에 따른 코사인 유사도 값의 변화
2.4 시스템 구현
사용자 인터페이스는 Streamlit을 기반으로 구현하였으며, 사용자가 자연어 질의를 입력하면 요약 응답과 함께 원문 근거를 제공하도록 구성하였다.
2.4.1 기능의 구현 및 비교⋅분석
본 논문에서 수행한 평가는 제안 시스템이 원문 기준을 얼마나 정확하게 검색⋅요약하고 근거와 함께 제시하는지를 확인하는 기능적 검증에 초점을 두었다.
이를 위해 「시설물 안전 및 유지관리 실시 세부지침(성능평가 편)」의 원문 내용과 제안한 RAG 기반 의사결정 지원 시스템(Proposed System)이
산출한 응답을 비교하였다. Streamlit 기반으로 구현한 시스템 UI는 사용자가 웹 브라우저에서 “안전성 평가기준 및 방법”과 같은 질의를 입력하면,
Fig. 6와 같이 화면 상단에 LLM이 생성한 요약 답변을, 하단에는 “참고한 문서 내용” 패널을 통해 원문에서 검색된 문단과 페이지 번호를 함께 제시하도록
설계하였다. 요약문, 검토할 사항 목록을 통해 가독성을 높이고, 원문 참조 페이지 정보를 동시에 제공함으로써, 모델이 프롬프트에 따라 관련 규정을
요약⋅정리하고 근거를 명시적으로 제시하는 기능을 확인할 수 있다.
Fig. 6. 생성형 AI 응답의 요약 및 원문 근거 제시 구조
Fig. 7은 제안된 시스템이 연속적인 질의 상황에서 대화 맥락을 유지하고 의미적으로 유연하게 응답을 생성하는 과정을 보여준다. 그림의 질문 1과 질문 2는
동일한 규정에 대해 사용자가 순차적으로 질문하는 예시이며, 제안 시스템은 대화 히스토리 기억 모듈을 통해 이전 질의-응답 내용을 세션 단위로 저장하고
이를 참조함으로써 후속 질문에 대해서도 일관된 답변을 제공한다. 또한 텍스트 임베딩 기반 질의 처리를 통해 “균열 폭 0.3 mm 이상”과 “크랙
폭이 0.3 mm 초과”처럼 표현 방식이 다르거나 경미한 오타가 포함된 경우에도 동일한 의미의 규정으로 인식하고 관련 문단을 회수할 수 있어, 실무자가
선행 질문과의 연관성을 유지한 채 심도 있는 탐색을 수행할 수 있도록 지원한다.
Fig. 7. 이전 질의 정보를 반영한 연속 질의 응답 처리 구조
본 연구는 제안 시스템의 효용성을 검증하기 위해, 시설물 안전진단 실무에서 빈번히 등장하는 질의 유형(예: 균열 폭에 따른 등급 판정, 재료시험 조건,
보고서 작성 형식 등)을 선정하고, 동일한 질의를 각각의 모델에 입력한 뒤 응답을 비교하고 분석하였다. Fig. 8은 “유⋅토수문의 부식손상에 대한 상태평가기준”이라는 수치형 질의에 대해, 본 논문에서 제안한 RAG 기반 시스템(Proposed System)과
범용 LLM 기반 시스템(Baseline System)의 응답을 비교한 결과를 나타낸다. 원본 지침인 「시설물의 안전 및 유지관리 실시 세부지침」에서는
상태등급이 A-E등급을 보여주고 있으며, 각 등급별 점수 및 부식률(예: 5%, 20%, 50%)과 같이 정량 기준에 따라 구간별로 명확히 정의되어
있다. Fig. 8의 RAG 기반 시스템은 이러한 정량 기준과 등급 구간을 정확히 유지한 채 응답을 생성하여 원문과 정확성이 높은 응답을 제공함을 확인할 수 있다.
반면 Fig. 8의 LLM 기반 시스템은 사전 학습된 일반 지식을 바탕으로 ‘부식의 정도’, ‘기능의 영향’ 등 원문에 존재하지 않는 임의의 상위 카테고리로 내용을
재구성하고, 원문에서 제시된 핵심 부식률 구간을 명시적으로 반영하지 못하는 모습을 보인다. 이는 단순한 요약이 아니라, 문서의 판단 기준 자체가 변형되고
필요 이상의 설명을 장황하게 제시하는 구조적 환각(Structural Hallucination)에 해당한다. 또 다른 예시로는 “절연내력 상태평가기준”에
대해서 질의를 하면, 일반적 LLM(Baseline LLM)은 사실과 전혀 다르고 시설물과는 관련 없는 내용을 제시하는 등 환각현상(Hallucination)이
일어나는 것을 확인할 수 있었다. 이러한 비교를 통해, 제안한 시스템이 사용자의 질의에 대해 프롬프트 규정에 입각한 신뢰성 높은 정보를 제공하고,
LLM의 자의적 해석 및 요약⋅재구성에 따른 정보 왜곡을 효과적으로 억제한다는 점을 확인하였다.
Fig. 8. RAG 기반 시스템과 일반 GPT 응답 결과 비교
본 연구에서는 제안하는 RAG 파이프라인의 정량적 성능을 평가하기 위해 GPT-5.3 모델을 활용하여 유지관리 실무에서 요구되는 핵심 질의를 기반으로
평가용 데이터셋을 구축하였다. 유지관리 문서를 기반으로 전문가 관점에서 활용 가능한 질의를 도출하고, 이를 질의-답변-근거 구조로 정제하였다. 질의
유형은 유지관리 방안, 지침, 법규 등을 포함한 설명형 질의 100건으로, 일반 LLM이 장황한 설명을 생성하는 경향이 있어 의미적 적절성을 보다
합리적으로 반영하기 위해 핵심 단어의 포함 여부를 기준으로 정확도(Accuracy)를 평가하였다. 반면, 수치형 질의의 경우에는 상태 등급 판정과
보수보강 기준 등 정량정보를 요구하는 질의 100건에 대해서 원문에 명시된 수치값 및 구간 조건이 정확히 반영된 경우에만 정답으로 판단하였다. 이때,
평가용 벤치마크셋은 환각현상으로 인한 라벨링 오류를 최소화하기 위해 Human-in-the-Loop (HITL) 과정을 동반하여 신뢰성을 검증하였다.
이와 같은 평가 기준을 적용한 결과, Table 1과 같이 Baseline LLM은 설명형 질의에서 비교적 양호한 성능을 보였으나, 수치형 질의에서는 문서에 명시된 정량 기준을 정확히 유지하지 못하는
경우가 다수 확인되었다. 이는 일반 LLM이 의미적으로 유사한 내용을 생성하는 능력은 갖추고 있으나, 문서에 명시된 정량 기준을 정확히 반영하는 데에는
한계가 있다고 사료된다.
Table 1. 질의 유형에 따른 정량적 성능 평가 결과
|
질의 유형
|
질의 수
|
Baseline LLM Accuracy (%)
|
RAG Accuracy (%)
|
|
설명형 질의
|
100
|
84
|
92
|
|
수치형 질의
|
100
|
46
|
96
|
|
전체
|
200
|
65
|
94
|
3. 결 론
본 연구는 시설물 안전등급 산정 과정에서 발생하는 판단 편차와 비정형 문서 기반 정보 탐색의 부담을 완화하기 위하여, LLM에 외부 지식 검색 기능을
결합한 RAG 기반 생성형 AI 의사결정 지원 시스템을 설계하고 구현하였다. 제안된 시스템은 유지관리 지침서와 같은 비정형 문서를 구조화된 지식 인덱스로
변환하고, 실시간 검색-생성 과정을 통해 근거 중심의 질의응답을 수행하도록 구성되었다.
연구 결과, 제안 시스템은 모델 재학습 없이도 최신 문서 기준을 반영할 수 있으며, 응답 생성 시 관련 문단과 페이지 정보를 함께 제시함으로써 기존
일반 LLM 기반 시스템 대비 응답의 일관성과 신뢰성을 향상시킬 수 있음을 확인하였다. 특히, 의미 기반 검색과 문서 근거 제시 구조는 시설물 상태평가와
같이 기준 해석의 정확성이 요구되는 업무 환경에서 실무 활용 가능성을 보여준다.
본 연구에서 제안한 RAG 기반 구조는 특정 시설물 유형에 국한되지 않고, 향후 다양한 시설물 유지관리 및 안전성 평가 분야로 확장 적용이 가능할
것으로 판단된다. 이를 통해 현장 점검자의 의사결정을 보조하고, 점검 결과의 일관성 확보에 기여할 수 있을 것으로 기대된다.
향후 연구에서는 실제 점검 사례를 기반으로 한 정량적 성능 평가와 사용자 실증을 통해 제안 시스템의 효용성과 신뢰성을 보다 체계적으로 검증할 필요가
있다.
감사의 글
본 연구는 한국도로공사가 총괄하는 “스마트건설기술개발 국가R&D사업 (RS-2020-KA158708)”의 지원으로 수행되었으며, 정부(과학기술정보통신부)의
재원으로 한국연구재단의 지원을 받아 수행되었습니다. (RS-2024-00336270), (RS-2025-02223612).
References
Brown, R. E., Willis, H. L. (2006), The economics of aging infrastructure, IEEE Power
and Energy Magazine, 4(3), 36-43.

Samsami, R. (2024), A Systematic Review of Automated Construction Inspection and Progress
Monitoring (ACIPM): Applications, Challenges, and Future Directions, CivilEng, 5(1),
265-287.

Cho, M., Lee, D., Park, J., Park, S. (2022), Development of machine learning-based
construction accident prediction model using structured and unstructured data of construction
sites, KSCE Journal of Civil and Environmental Engineering Research, 42(1), 127-134.

Soibelman, L., Wu, J., Caldas, C., Brilakis, I., Lin, K. Y. (2008), Management and
analysis of unstructured construction data types, Advanced Engineering Informatics,
22(1), 15-27.

Graybeal, B. A., Phares, B. M., Rolander, D. D., Moore, M., Washer, G. (2002), Visual
inspection of highway bridges, Journal of Nondestructive Evaluation, 21(3), 67-83.

Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., Wen, J. R. (2023), A survey
of large language models, arXiv preprint arXiv:2303.18223, 1(2)

Naveed, H., Khan, A. U., Qiu, S., Saqib, M., Anwar, S., Usman, M., Mian, A. (2025),
A comprehensive overview of large language models, ACM Transactions on Intelligent
Systems and Technology, 16(5), 1-72.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Fung, P. (2023), Survey of hallucination
in natural language generation, ACM computing surveys, 55(12), 1-38.

Jeong, C. (2023), Generative AI service implementation using LLM application architecture:
based on RAG model and LangChain framework, Journal of Intelligence and Information
Systems, 29(4), 129-164.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Kiela, D.
(2020), Retrieval-augmented generation for knowledge-intensive nlp tasks, Advances
in Neural Information Processing Systems, 33, 9459-9474.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Lowe, R.
(2022), Training language models to follow instructions with human feedback, Advances
in Neural Information Processing systems, 35, 27730-27744.

Asai, A., Wu, Z., Wang, Y., Sil, A., Hajishirzi, H. (2024), Self-rag: Learning to
retrieve, generate, and critique through self-reflection

Qurashi, A. W., Holmes, V., Johnson, A. P. (2020), Document processing: Methods for
semantic text similarity analysis, 2020 international conference on INnovations in
Intelligent SysTems and Applications (INISTA), IEEE, 1-6.

Lahitani, A. R., Permanasari, A. E., Setiawan, N. A. (2016), Cosine similarity to
determine similarity measure: Study case in online essay assessment, 2016 4th International
conference on cyber and IT service management, IEEE, 1-6.
