1. 홍익대학교 건설환경공학과 석사과정 (Graduate Student, Department of Civil and Environmental Engineering, Hongik University)
  2. 홍익대학교 건설환경공학과 조교수 (Professor, Department of Civil and Environmental Engineering, Hongik University)



건설안전, 대규모 언어모델, 미세조정, 건설안전지침, LoRA
Construction Safety, Large Language Model, Fine-tuning, Construction Safety Guideline, LoRA

1. 서론

1.1 연구의 배경

건설산업은 위험한 산업이다(Chan et al., 2008; Chi et al., 2005). 국내 건설현장에서는 많은 사고가 발생하며 사고 빈도 역시 증가하고 있다(Im et al., 2009). 지난 몇 년간 중대재해처벌법(MOLEG, 2021)을 비롯하여 각종 건설안전 관련 규제가 강화되었다. 이러한 노력에도 불구하고, 안전 역량이 부족한 중소 규모 건설현장에서는 건설 비용 상승으로 인해 현장 관리자의 수가 감소하고 있으며, 중대 사고 또한 지속적으로 발생하고 있다(Kang et al., 2021). 고용노동부 2022년 산업재해 현황 통계 “재해조사 대상 사망사고 발생 현황”(MOEL, 2023)에 따르면 사망사고 644명(611건) 중 건설업에서 341명(328건)이 발생했다. 그 중 50인(억) 미만 사업장에서 226명(224건)이 발생했다. 사망사고의 상당수가 중소 규모의 사업장에서 발생함을 감안하면 이들 현장에서의 안전규정 준수에 대한 문제가 심각하다는 것을 알 수 있다.

미국, 영국, 호주와 같은 국가들은 건설안전 관리에 지속적인 관심을 보여왔으며, 고위험 작업 환경에서의 안전 수준 향상을 위해 작업 수준에서 위험을 분석하고 문서화하는 작업 위험 분석(Job Hazard Analysis)을 의무화하고 있다(Saurin et al., 2008).

또한, 건설 산업 전반에 걸친 표준화된 안전관리를 위해 정부 기관들은 문서 형태로 지침을 제작하고 있다(Reese & Eidson, 2006). 미국의 Occupational Safety and Health Administration (OSHA)은 각종 산업에 대한 규제와 가이드라인을 제정하고 관리하고 있다(OSHA, 1970). 또한, 호주의 연방 정부 기관인 Safe Work Australia는 다양한 산업 부문에 맞춘 지침을 발행하여 표준화된 안전관리 기법과 기준을 제공한다(NOHSC, 2005). 한국산업안전보건공단은 2010년부터 다양한 작업에 대한 안전작업지침을 지속적으로 발행하고 있다(KOSHA, 2010).

그럼에도 불구하고 건설안전지침 문서들은 PDF 형식으로 제공되고 있으며 서로 다른 문서 간의 상호 관계 파악과 실질적인 적용에 있어 어려움이 있다. 따라서, 이러한 한계를 극복하고 건설안전 관행을 강화하기 위해 지침의 효율적인 연계성와 활용이 필요하다.

1.2 연구의 목적

본 연구의 목적은 건설안전지침 문서를 포함한 다양한 형태의 문서들을 통합하여 데이터셋을 구성하고 건설안전에 특화된 대규모 언어모델을 구축하는 것이다. 또한, 이러한 AI 모델의 건설현장 안전관리 업무의 적용 가능성을 확인하는 것이다. 대규모 언어모델을 미세조정하여 건설안전정보를 생성하는 AI를 제작하고 이를 현장 안전관리자가 쉽게 접근할 수 있는 챗봇 형태로 제공하여 현장 작업과 관련된 질문에 답변할 수 있도록 한다.

2. 문헌 조사

2.1 건설안전 문서 텍스트 마이닝

건설산업에 있어 자연어처리, 텍스트 마이닝(Text Mining) 등에 관한 관심이 높아지고 있다. 건설 분야에서 자연어처리는 문서관리(Caldas & Soibelman, 2003), 안전관리(Cheng et al., 2020; Fan & Li, 2013; Tixier et al., 2017), 위험 관리(Lee & Yi, 2017), 규제 준수 여부 확인(Salama & El-Gohary, 2013) 등에서 활용되고 있다.

Zhang et al. (2019)은 텍스트 마이닝과 NLP를 이용하여 건설사고를 조사하였다. 과거 사고를 분석하여 건설안전 개선을 목적으로 연구를 수행하였다. OSHA 사고 보고서를 분석하고 원인 분류를 위해 Support Vector Machine, K-Nearest Neighbor, Decision Tree, Naive Bayes, Ensemble Model과 같은 방법을 사용했다. Chi et al. (2016)은 건설현장 검토를 지원하기 위한 텍스트 분류 연구를 수행하였다. 건설안전 기준에서 관련 정보를 검색하는 텍스트 분류 카테고리의 적합성을 평가하는 방법론을 제시하고 분류 카테고리의 중요성을 보여준다. 이러한 접근 방식을 통해, 건설현장에서의 위반 사항을 식별하고 시정하는 데 도움을 주어 건설안전 관행을 개선한다.

2.2 지능형 질의응답 시스템

Wu et al. (2016)은 대화에서 응답 선택을 위한 새로운 아키텍처인 Sequential Maching Network (SMN)을 제안했다. SMN은 공개 데이터셋에서 기존 방법들보다 우수한 성능을 보여주었으며 새로운 방법론을 제시한다. Zhong et al. (2020)은 딥러닝 기반 자연어처리를 통해 건축 규정에서 정확하고 빠르게 답변을 추론하였다. Ma et al. (2021)은 검색 기반 챗봇에서 응답 선택을 위한 새로운 방법인 Hierarchical Matching Network를 제안했다. 대화 맥락과 응답 간의 일치도를 단어 수준과 문장 수준에서 평가하며, 적절한 응답을 선택했다. 대규모 데이터셋에서 이러한 접근 방법이 기존 방법보다 효과적임을 보여준다.

건설안전 지능형 질의응답 시스템과 관련된 가장 선구적인 연구는 Tian et al. (2023)이다. 연구자들은 건설안전 위험 관리를 위한 지능형 질의응답 방법을 개발하였다. Bidirectional Encoder Representations from Transformers (BERT)와 Bidirectional Gated Recurrent Unit, Self-Attention 기술을 결합한 딥러닝 기술을 사용한다. 건설현장 위험 요소와 관련된 질문과 답변 텍스트에서 의미적 특징을 추출하고 매칭하여 안전 위험 관리 조치를 자동으로 생성하는 것을 목표로 하여, 안전관리 응답을 정확하게 생성하고 선택한다.

미세조정된 모델을 통한 지능형 질의응답 시스템 구성은 의료, 법 등 다양한 분야에서 활용될 수 있으며 연구자들의 관심이 높아지고 있다. Wu et al. (2024)은 의료분야에 특화된 대규모 언어모델인 PMC-LlaMA를 개발했다. 연구는 언어모델을 의료분야에 맞게 미세조정하고, 480만 편 이상의 문헌과 3만권 이상의 교과서를 통해 모델을 제작했다. 미세조정된 모델을 통해 의료분야 벤치마크에서 우수한 성능을 보인다. Yue et al. (2023) 연구에서 연구자들은 법률 서비스를 위한 특화된 언어모델인 DISC-LawLLM을 개발했다. 이 모델은 삼단논법 프롬프팅 전략과 검색 모듈을 활용하여 법률 지식을 통합하고 법률 추론 능력을 향상시켰다. 중국 법률 데이터셋을 통해 미세조정되었으며, 일반적인 대규모 언어모델보다 뛰어난 성능을 보이며 다양한 법률 시나리오에서 효과적이다.

Ghimire et al. (2023) 연구는 생성형 AI를 건설산업에 통합하는 방법을 조사하고 AI 모델의 이점과 한계점을 제시하였다. 생성형 AI는 안전관리, 실시간 모니터링과 같은 영역에서 업무에 도움을 제공한다. 과거 사고와 현재 프로젝트 상황을 분석하여 위험요소를 예측하는데 활용될 수 있다. 하지만, 생성형 AI는 사고사례와 같은 데이터를 활용하는 것에 있어 보안 조치가 필수적이며, AI 예측의 정확성은 안전관리에 있어 중요하다. 잘못된 예측이나 조치는 심각한 결과를 초래할 수 있으므로 AI가 훈련되고 신뢰할 수 있는지 확인하여야 한다. 따라서, 연구자들은 분야별 데이터셋을 구축하고 건설안전 분야에 맞는 미세조정 프로세스 대한 후속연구의 필요성을 시사했다. Smetana et al. (2024) 연구는 OpenAI의 GPT-3.5를 사용하여 고속도로 건설안전 사고에 대한 분석을 진행했다. 이러한 언어모델은 충돌, 추락과 같은 사고를 식별하였고 부적절한 위험요소 평가, 안전조치사항 미준수 등 사고의 원인을 파악하였다. 하지만, 연구자들은 일반적인 정보를 제공하는 ChatGPT와 같은 오픈소스 언어모델의 한계점을 제시하였고 도메인별 지식을 가지고 있는 언어모델의 적용이 필요함을 제시하였다.

이러한 연구들은 지능형 질의응답 시스템 구성에 있어 딥러닝 프로세스를 활용하여 성능을 향상시켰다. 하지만, 건설안전에 특화된 언어모델을 구축하기 위해서는 건설안전에 최적화된 데이터셋이 요구되며, 이러한 데이터셋을 통해 건설안전에 대한 지식과 용어 학습을 진행하여야 한다.

2.3 Knowledge Gap

건설현장의 안전 문제에 대응하기 위해, 대부분의 기존 질의응답 시스템 연구에서는 미리 정해진 답변 중에서 확률적으로 가장 적합한 것을 선택하는 데 중점을 둔다. 하지만, 이 방식은 새로운 정보나 특정 상황에 특화된 답변을 생성하는 것에 한계가 있다. 또한, chatGPT와 같은 오픈소스 언어모델은 건설산업에서 발생하는 상황에 일반적인 정보 제공에 중점을 두고 있으며, 도메인별 최적화된 지식을 요구하는 상황에서의 성능은 제한적이다.

따라서, 본 연구는 건설안전 분야의 데이터셋을 통한 미세조정 기반 언어모델을 통해 기존 질의응답 시스템의 한계를 극복하고, 건설안전 분야에 대해 맞춤형 답변을 생성하는 것을 목표로 한다. 이러한 방식을 통해 개발되는 건설안전 챗봇은 미리 정해진 답변을 제공하는 것이 아닌, 실시간으로 변화하는 건설현장의 상황과 사용자의 질문에 맞춰 정확하고 구체적인 답변을 생성할 수 있다. 이러한 접근을 통해, 건설현장에서 발생할 수 있는 다양한 상황과 문제를 효과적이면서 정확한 대응이 가능하게 하며, 전통적인 질의응답 시스템이 가지고 있는 한계를 극복할 수 있다.

3. 연구 방법론

3.1 연구 방법론

<Fig. 1>은 본 연구에서 제안하는 방법론의 연구흐름도이다. 본 연구에서 데이터셋은 산업안전보건공단에서 제공하는 ‘KOSHA Guide 건설안전지침(C)’에 대한 내용을 기반으로 제작한다. 건설안전지침 86개의 문서를 프롬프트 엔지니어링 기법을 활용하여 GPT-3.5-turbo (OpenAI, 2022) 모델을 통해 QA (Question Answering) 데이터셋을 제작한다(Step 1). KoAlpaca-Polyglot-12.8B (Beomi, 2023) 모델을 QA 데이터셋으로 미세조정을 실시한다(Step 2). 이 과정은 언어모델이 건설안전지침에 특화된 답변을 할 수 있도록 학습시키는 과정이다. 이렇게 미세조정된 모델을 바탕으로 chatGPT-4 (Achiam, 2023), Palm2 (Anil, 2023), KoAlpaca와 같은 언어모델과 건설 안전정보에 대하여 응답의 정확성, 전문성 등을 기준으로 정성평가를 수행하고, 정답과의 유사도를 바탕으로 정량평가를 수행한다(Step 3).

Fig. 1. Research Flow

../../Resources/KICEM/KJCEM.2025.26.2.020/fig1.png

3.2 QA 데이터셋 생성

QA 데이터셋 생성을 위해 프롬프트 엔지니어링 기법을 활용하여 ChatGPT를 통해 작성되었다. 프롬프트(Prompt)는 특정 작업을 수행하도록 생성형 AI에 요청하는 자연어 텍스트이다(Ekin, 2023). 생성형 AI는 프롬프트를 바탕으로 사전 훈련된 심층 신경망을 바탕으로 답변을 생성한다. 하지만, 생성형 AI는 환각(Hallucination)과 같은 치명적인 문제를 내포한다(Bang et al., 2023; Lee et al., 2018). 프롬프트 엔지니어링은 환각과 같은 오류를 줄이고 AI로부터 정확한 답변을 끌어내기 위한 입력값을 조합하고 최적화하는 과정이다.

프롬프트 엔지니어링 기법에는 ‘Zero-Shot Prompting (Wei et al., 2021)’, ‘CoT (Chain of Thought) (Wei, J. et al., 2022)’, ‘Self-Consistency (Wang et al., 2022)’ 등과 같은 기법이 있다. 본 연구에서는 ‘CoT’와 ‘Self-Consistency’ 기법이 사용되었다. CoT는 AI가 복잡한 문제를 해결하기 위해 추론 과정을 단계별로 거치면서 답변을 도출하는 기법이다. Self-Consistency는 여러 추론 경로를 비교하고 가장 일관성 있는 답변을 선택하도록 AI에 프롬프트를 제공하는 방식이다.

CoT 기법과 Self-Consistency 기법이 적용된 프롬프트 구성은 다음과 같다.

주요 문장 파악: 지침 문서를 분석하여 주요 문장 파악

관련 질문 생성: 주요 문장을 바탕으로 각각의 문장에 대해 3개 이상의 관련 질문 생성

적절한 질문 선택: 생성된 질문 중에서 핵심 내용을 잘 드러내며, 실질적인 이해를 돕는 질문 선정

답변 작성: 질문에 대해 지침 내용을 바탕으로 구체적인 답변 생성

질문과 답변 반환: 각각의 주요 문장에 대해 선택된 질문과 그에 대한 답변 반환

프롬프트는 QA 데이터셋 생성을 위해서 다섯 단계를 거치면서 답변을 도출하였으며, 각 단계에서 선택된 질문과 답변이 지침의 전체 맥락을 이해하고 일관성을 유지하도록 구성하였다. 이러한 프롬프트 기반의 접근 방식은 QA 데이터셋의 정확성과 일관성을 높이고 복잡한 지침 내용에서 명확하게 질문과 답변을 생성한다. 프롬프트는 chatGPT와 같은 AI 모델을 통해 한글로 작성된 건설안전지침을 바탕으로 한글 QA 데이터셋을 생성하는 것에 활용된다.

QA 데이터셋 생성에 사용된 데이터는 산업안전보건공단에서 제공하는 86개의 건설안전지침(C) (https://www.kosha.or.kr/kosha/data/guidanceC.do)를 기반으로 구축되었다. 건설안전지침은 건설현장에서 다양한 공정에 대해 안전 작업을 위한 지침들로 건설 작업 및 공정에 대해 안전 절차와 기준을 제시한다. 산업안전보건공단의 건설안전지침은 ‘거푸집 및 비계’, ‘흙막이 공사’, ‘교량 및 터널 공사,’특수 공법 및 장비’, ‘해체 및 리모델링’ 등 건설현장에서 발생할 수 있는 다양한 상황에 대비하여 작성되어 있다. 건설안전지침 PDF 문서를 기반으로 CoT 기법과 Self-Consistency 기법을 활용한 프롬프트 엔지니어링을 통해 5,114개의 건설안전 질의응답 학습용 데이터셋을 구축하였다<Table 1>. QA 데이터셋 정보의 신뢰성을 위해 연구자들이 직접 내용을 검수하였다. 검토과정에서는 질의응답의 불완전성과 답변의 정확성을 중점적으로 검토하였다. “이것”과 같은 모호한 표현과 지침 내용과 일치하지 않는 답변을 중점적으로 확인하였으며 건설안전 기본지침(Go, 2015) 및 건설현장 안전관리 지침서(Park et al., 1997)를 활용하여 검증하였다.

Table. 1 Example of QA Dataset (Translated to English from Korean)

Question

Answering

What measures should be taken during concrete pouring?

During concrete pouring, a pump truck should be installed on ground that has been compacted and leveled to prevent sudden subsidence or toppling. Support blocks or steel plates should be placed under the outriggers. Additionally, the work areas for materials, equipment, and vehicles should be separated from the workers' safety paths.

What measures should be taken to prevent fall hazards in the manufacturing area?

To prevent fall hazards in the manufacturing area, temporary walkways should be installed along the workers' pathways, and safety railings should be placed on both ends to prevent falls.

How should the angle between the falling object prevention net and the horizontal plane be set?

The angle between the falling object prevention net and the horizontal plane should be set between 20° and 30°.

What measures should be taken during lifting operations?

During lifting operations, loads should be raised and lowered vertically to ensure that no horizontal loads are applied beyond the operating standards of the mobile crane.

How should construction signs be made and placed?

Construction signs should be made according to the specifications provided by the client, including size, material, color, and content. The signs must indicate the project name, client, supervisor, contractor, subcontractor, and construction period. The signs should be installed at locations designated by the supervisor, and no other signs should be installed without the supervisor's permission.

What safety measures are necessary during high place work?

For high place work, fall and falling object prevention facilities should be installed. Safe access equipment and safety railings should be provided to ensure the safety of workers.

3.3 대규모 언어모델 미세조정

KoAlpaca-Polyglot-12.8B 언어모델 미세조정을 진행하였다. KoAlpaca-Polyglot-12.8B는 건설현장에서 실제로 활용할 수 있는 규모 수준의 언어모델로 실질적인 적용 가능성을 고려하여 선정되었다. 연구에 사용된 언어모델은 Stanford Alpaca LLM (Taori, 2023)의 학습방법을 사용하여 사전학습이 진행된 모델로 데이터셋이 공개되어 있으며 NSMC 벤치마크 결과가 공개되어 있다.

본 연구에서 사용된 미세조정 방식은 PEFT (Parameter-Efficient-Fine-Tuning methods)-LoRA (Low-Rank Adaption) (Hu et al., 2021)를 이용하여 진행하였다. 일반적인 전체 파라미터 미세조정 방식에서는 입력 행렬 X를 학습된 가중치 행렬 W과 곱해 중간 결과 H를 생성하며, 이 과정에서 W 행렬의 모든 파라미터가 조정된다. 반면 LoRA 방식의 미세조정에서는 전체 파라미터 W를 동결하고 추가 가능한 학습 파라미터인 A와 B 행렬을 도입하여, X를 A와 곱해 중간 결과를 생성하고, 이를 B와 곱해 최종 결과를 얻고 이 값을 본래의 H 값에 더함으로써 모델을 미세조정한다<Fig. 2>. 즉, LoRA 방식 미세조정은 사전학습된 파라미터를 프리징하고, Adapter 행렬의 차원을 Low-Rank로 변환하여 연산량과 메모리 소비량을 감소시킨다. 일반적인 미세조정 과정은 전체 네트워크의 매개변수를 조정하지만, LoRA 방식은 제한된 수의 파라미터에 초점을 맞춘다. 이를 통해, 모델의 성능을 유지하면서 제한된 데이터셋의 개수에서 전체 매개변수 미세조정보다 우수한 성능을 보인다.

Fig. 2. PEFT-LoRa Fine-Tunning Methods (Source: Hu et al., 2021)

../../Resources/KICEM/KJCEM.2025.26.2.020/fig2.png

3.4 대규모 언어모델 평가

미세조정된 언어모델 평가를 위해 GPT-4, Palm2와 같은 초대규모 언어모델과 미세조정된 모델을 비교한다. 정성평가는 건설 용어나 안전조치 사항에 대해 질의하고 초대규모 언어모델과 미세조정된 모델에 대해 응답의 정확성, 전문성 등을 기준으로 평가를 수행한다. 건설 용어나 안전조치와 같은 전문적인 주제에 대해 질의함으로써, 미세조정된 언어모델이 정확하고 전문적인 답변을 제공할 수 있는지 평가한다. 또한, 정량적 평가를 위해 BLEU (Bilingual Evaluation Understudy) Score (Post, 2018)와 BERT Similarity Score (Lo & Simard, 2019) 기반 평가를 통해 정답과 미세조정된 언어모델, 초대규모 언어모델 생성 답변의 유사도를 평가한다.

BLUE Score는 기계 번역의 성능을 평가하기 위한 지표로 단어와 구절의 일치도를 통해 평가한다. BLEU Score는 생성된 문장과 정답 문장의 길이를 바탕으로 n-gram의 기하평균을 구하여 계산되며 이를 통해 모델이 생성한 답변과 정답 간의 유사도를 비교할 수 있다. 모델이 생성한 답변과 정답 문장과의 길이를 바탕으로 간결성 패널티(Brevity penalty)를 적용하고 각 n-gram의 정확도를 기하평균으로 결정한다(1). 이러한 BLEU Score는 모델이 생성한 답변에서 적절한 용어 사용 여부를 평가한다. BLEU Score는 0~1 사이의 값으로 나타난다. 0.1~0.2의 값은 모델이 생성한 문장이 정답과 상당히 다르거나 핵심을 파악하기 어려운 문장이며, 0.2~0.3의 값은 요점은 명확하지만, 오류가 존재하는 문장이다. 0.3~0.4의 값은 언어모델이 이해할 수 있는 양호한 문장을 생성했음을 나타낸다.

(1)
$BLUE =\min(1,\: \dfrac{length \:of \:prediction}{length \:of\: reference})(\prod_{i = 1}^{N}preision_{i})^{\dfrac{1}{N}}$

BERT Similarity Score는 BERT 임베딩 모델을 활용하여 두 문장 간의 유사도를 측정하는 방법이다. 이 과정에서 정답 문장과 언어모델이 생성한 문장의 임베딩 벡터를 BERT로 생성한 후, 이 두 벡터 간의 코사인 유사도를 계산하여 문장 간의 유사도를 평가한다. 코사인 유사도는 내적을 각 벡터의 크기로 나눈 값으로 계산되며, 이는 벡터 간의 각도를 기반으로 문장의 의미적 유사성을 측정한다(2). 코사인 유사도는 두 벡터 사이의 각도를 측정하여 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 두 문장이 의미적으로 유사함을 나타낸다. 이러한 BERT Similarity Score는 문장의 의미적 맥락까지 평가할 수 있어 언어모델이 생성한 답변의 정확성과 의미적 유사성을 판단할 수 있다.

(2)
$$ \text { similarity }=\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^n\left(A_i \times B_i\right)}{\sqrt{\sum_{i=1}^n\left(A_i\right)^2} \times \sqrt{\sum_{i=1}^n\left(B_i\right)^2}} $$

4. 대규모 언어모델 미세조정

4.1 대규모 언어모델 미세조정

KoAlpaca-Polyglot-12.8B 모델에 대한 미세조정은 산업안전보건공단 건설안전지침을 바탕으로 진행된다. CoT 기법과 Self-Consistency 기법을 활용한 프롬프트 엔지니어링을 통해 추출한 5,114개의 QA 데이터셋을 바탕으로 PEFT LoRA 방식으로 미세조정된다. 미세조정에 사용된 하이퍼파라미터값은 다음과 같다: Batch_size=1, Gradient_acuumulation_steps=4, Max_steps=6440 (Epoch=5), Learning_Rate=1e-5

Batch_size는 대규모 언어모델의 메모리 제약으로 인해 작은 1개로 지정되었고, 작은 Batch_size를 보완하기 위해 4번의 Batch_size마다 한 번의 파라미터가 업데이트된다. 또한, 모델의 충분한 학습을 위해 Max_steps을 6440으로 설정하였다. 전체 데이터셋을 약 5회 학습한다. 언어모델의 충분한 학습과 과적합을 방지하기 위해 학습률은 1e-5로 설정되었다.

미세조정에서 사용된 하이퍼파라미터는 Halfon et al. (2024)의 연구 결과에서 제시된 권장 사항의 범위에 해당한다. 학습률 0.00001 (1e-5)은 Llama-3-8B 모델에서 LoRA 방식을 사용할 때 최적의 범위로 나타났으며, Batch size와 Epoch 설정도 적절한 수준으로 설정되었다.

미세조정 결과 대규모 언어모델에 포함된 전체 매개변수 6,653,788,160개 중 52,428,800 (0.79%)의 매개변수가 조정되며 6:50:44에 걸쳐 학습되었다. <Fig. 3>은 미세조정 중 Loss 값 변화량이다.

<Fig. 3>에 나타난 Loss 곡선은 건설안전 데이터셋에 대한 미세조정 과정에서 모델의 학습과정을 보여준다. 초기에는 Loss 값이 빠르게 감소하며 모델이 데이터에 빠르게 적응하고 있음을 나타내며, 학습이 진행될수록 Loss 감소율이 완만해지는 것은 모델이 수렴에 가까워지고 있음을 의미한다. 또한, LoRA 방식을 통한 Adpater 기반 미세조정 과정의 효율성을 보여준다. 전체 매개변수의 일부인 0.79%의 Adapter 매개변수만이 조정되었음에도 불구하고 모델은 안정적으로 학습을 이어가고 있으며, 이를 통해 사전 학습된 언어모델이 특정 도메인에 대해 최적화 될 수 있음을 확인할 수 있다.

Fig. 3. Training Loss

../../Resources/KICEM/KJCEM.2025.26.2.020/fig3.png

4.2 대규모 언어모델 미세조정 결과

학습된 대규모 언어모델 평가를 위해 미세조정된 모델, GPT-4, Palm2, KoAlpaca 모델이 생성한 답변을 비교하여 답변의 정확성, 전문성을 바탕으로 정성적인 평가를 진행한다. <Table 2>는 건설안전지침을 기반으로 구성된 공통된 질의에 대한 대규모 언어모델의 응답 생성 결과이다.

첫 번째 질의응답에서 미세조정된 모델은 “흙막이 지보공”이라는 용어에 대해 정확한 응답을 생성하였다. 미세조정된 모델은 “흙막이 지보공”이 굴착작업 중 토사의 붕괴나 토석의 낙하로 인한 근로자의 위험을 방지하기 위해 굴착 면을 지탱하는 가시설물이라는 정의를 정확하게 전달하였다. 이는 제시된 정답과 매우 유사한 답변으로, 미세조정된 모델이 특정 도메인 용어에 대해 정확하게 학습이 수행되었음을 보여준다. 반면, GPT-4와 같은 일반적인 모델은 동일한 용어에 대해 “흙을 제거하고 그 흙을 다른 곳에 쌓는 공사”라는 부정확한 답변을 작성하였다. 이는 일반적인 모델이 특정 도메인 용어에 대한 정확한 이해가 부족함을 나타낸다. 또한, 미세조정되지 않은 KoAlpaca 모델은 “흙막이지보공”을 댐이나 구조물의 공사 시 토사의 무너짐을 방지하기 위해 설치하는 구조물로 설명하며 정확하지 않은 답변을 생성한다. 이러한 일반적인 모델은 특정 도메인에 대한 지식이 부족하여 관련 없는 정보나 부정확한 정의를 제공한다.

두 번째 질의응답은 조치사항과 주의사항에 대한 질의이다. 미세조정된 모델은 개구부에 덮개를 설치할 때 주의해야 할 사항으로 “작업자가 임의로 제거하지 못하도록 단단히 고정해야 한다”는 내용을 포함하며, 덮개가 안전하게 유지될 수 있도록 잠금장치를 설치하고 결속철물을 사용하여 덮개와 구조물을 견고하게 연결할 수 있도록 방법을 제시하였다. 이는 참고 정답과 유사한 답변으로 미세조정된 모델이 특정 도메인에 대해 정확한 지식을 가지고 있음을 보여준다. GPT-4 및 Palm2 모델은 정답에서 강조하는 “임의로 제거하지 못하도록 단단히 고정”이라는 핵심 내용과 유사하지만 덮개의 고정과 관련된 구체적인 방법에 대해서는 언급하지 않았다. 즉, 정확한 답변을 제공하였지만 미세조정된 모델에 비해 답변의 구체성이 부족하다. 반면, KoAlpaca 모델은 덮개 설치 시 주의사항으로 안전조치와는 관련되지 않은 답변을 생성하는 것으로 보아 특정 도메인에 대한 이해가 부족한 것으로 평가된다.

세 번째 질의응답은 습식공법과 건식공법에 대한 차이점에 대한 질의응답이다. 미세조정된 언어모델은 습식공법과 건식공법의 차이점을 정확하게 설명한다. 이 모델은 습식공법이 모르타르를 사용해 석재를 설치하고 마감하는 공법이고 건식공법은 연결재만을 사용하여 석재를 설치하고 마감하는 공법임을 명확하게 설명한다. 이는 정답과 매우 유사한 내용으로 미세조정된 모델이 특정 도메인에 대해 정확한 정보를 제공할 수 있음을 보여준다. 반면 GPT-4은 질문의 맥락과 다소 벗어난 답변을 제공한다. Palm2 모델은 습식공법과 건식공법의 차이점에 대해서 정답과는 내용이 다소 다르나 비교적 정확한 답변을 제공한다. 하지만, KoAlpaca 모델이 생성한 답변은 습식공법과 건식공법의 정의와 차이점과는 거리가 멀며 잘못된 정보를 포함하고 있다.

정량평가는 정성평가와 동일하게 구성된 질의에 대해서 각각의 언어모델이 생성한 답변을 바탕으로 BLEU Score와 BERT Similarity를 바탕으로 평가한다. 건설안전과 관련된 100개의 질의 내용에 대해 각각의 언어모델의 답변을 정답 문장과 비교하여 결과를 도출하였다.

Table. 2 Comparing the Results of Various Large Language Models (Translated to English from Korean)

Instruction

Reference

Fintuned-Model

GPT-4

Palm2 (Bard)

KoAlpaca

What does earth retaining support mean?

Earth retaining support refers to a temporary structure installed during excavation work to support the excavation face and prevent soil collapse or rock fall, which could pose a danger to workers.

Earth retaining support refers to a temporary structure installed during excavation work to support the excavation face and prevent soil collapse or rock fall, which could pose a danger to workers. This measure is taken to ensure stability and protect worker safety.

"Earth retaining support" refers to construction work that involves removing soil and piling it elsewhere.

Earth retaining support refers to the shoring installed to support earth retaining walls or panels.

Earth retaining support refers to structures installed to prevent soil collapse during dam or other construction projects. Typically, H-PILE, M-PILE, and T-PILE are used and installed in all directions. Afterward, grouting wires are laid over them, followed by covering with a mat. These constructed structures serve functions such as power generation, water supply, and flood control in the case of dams.

What should be considered when installing covers on openings?

When installing covers on openings, they should be securely fastened to prevent workers from removing them arbitrarily.

When installing covers on openings, it is important to ensure they are fixed in place and equipped with locking mechanisms to prevent unauthorized opening. The edges of the cover should be secured to the structure to prevent them from being blown away by the wind. Additionally, the edges of the cover, work platform, and safety railings should be firmly secured with binding hardware (clamps) to ensure they cannot be opened arbitrarily. This will help maintain the cover's safety.

When installing covers on openings, ensure that the cover is securely fixed and appropriately sized and shaped for the opening. Additionally, verify that the cover can withstand the expected load.

When installing covers on openings, it is essential to secure the connection between the cover and the structure firmly.

When installing covers on openings, the following points should be considered:

1. The cover should be designed to prevent dust and moisture from entering.

2. The cover should open and close smoothly without wobbling.

3. The edges of the cover should not be sharp.

4. The cover should be made of a material that is easy to clean.

5. The cover should be approximately 1.5 times larger than the opening.

What are the differences between the wet method and the dry method?

The difference is that the wet method uses mortar, while the dry method only uses connectors.

The wet method involves installing and finishing stone on walls using mortar. In contrast, the dry method involves installing and finishing stone on walls using only connectors. In the wet method, the finish is achieved with additional mortar on the surface, whereas in the dry method, the finish is achieved solely with connectors. These methods represent different approaches to installation and finishing.

The wet method uses water to control dust, while the dry method proceeds without using water. The wet method is effective in reducing dust but requires water management. On the other hand, the dry method conserves water resources but may have dust issues.

The wet method is a construction method that uses water and cement, whereas the dry method is a construction method that assembles metal, wood, or plywood without using water.

There are differences in the methods of creating concrete structures between the wet method and the dry method. The wet method typically involves mixing water with concrete to create the structure, while the dry method involves mixing cement and sand to form the structure. In the wet method, reinforcing bars are placed, formwork is set up, and then concrete is poured. In the dry method, a frame is made using steel first, and then a mixture of cement and sand is poured over it to create the structure. The wet method has the advantages of shorter construction time, the potential for mass production, and lower construction costs. However, the concrete surface finish may be uneven due to formwork construction, there is a risk of rebar corrosion, and construction may be affected by seasonal weather conditions. On the other hand, the dry method has the disadvantages of longer construction time and higher construction costs. Nonetheless, it does not require formwork, resulting in a uniform concrete surface finish, there is no risk of rebar corrosion, and there are no seasonal restrictions on construction.

<Table 3>과 <Fig. 4>는 각각의 언어모델이 생성한 응답에 대해 BERT Similarity Score와 BLEU Score를 나타낸다.

BERT Similarity Score는 ko-sroberta-multitask (jhgan, 2021) 임베딩 모델을 통해서 정답문장과 언어모델이 생성한 문장을 임베딩한다. 임베딩 과정에서 문장은 768차원의 벡터로 변환되며 코사인 유사도 계산을 통해서 BERT Similarity Score를 결정한다.

미세조정된 모델이 0.8416으로 가장 높은 유사도를 기록했으며 이는 정답 문장과 가장 유사한 문장을 생성했음을 나타낸다. GPT-4는 0.7694로 두 번째로 높은 유사도를 보였으며, Palm2와 KoAlpaca는 각각 0.7267, 0.7232의 유사도를 보였다. 이러한 결과는 미세조정된 모델이 건설안전의 맥락에서 적절하게 학습이 수행되었음을 보여준다.

BLEU Score는 n-gram이 1인 경우와 2인 경우에 대해 분석을 진행하였다. 이는 n-gram이 값이 커질수록 더 긴 연속된 단어들의 일치를 평가하게 되는데 평가에 사용된 정답 문장의 길이가 충분히 길지 않아 연속된 단어 그룹이 제한적이기에 점수가 과도하게 낮게 나타난다. 또한, BLEU Score를 통한 정량평가의 목적이 기술적인 용어의 일치성을 확인하는 것이므로 n-gram이 1인 경우와 2인 경우에 대해서 평가를 진행한다.

미세조정된 언어모델은 Unigram과 Bigram 점수에서 각각 0.3497과 0.2604를 기록하며 가장 높은 성능을 보였고, 이는 생성된 텍스트와 정답간의 단어 및 단어 쌍의 일치도가 높음을 의미한다. 반면, KoAlpaca 모델은 BLEU Unigram과 Bigram 점수에서 0.1407, 0.0615를 기록하며 가장 낮은 성능을 보였다. 이는 생성된 텍스트가 정답 텍스트와의 단어 일치도와 단어 쌍 일치도에서 모두 낮은 성능을 보였다. 이러한 결과는 미세조정된 모델이 건설안전 도메인에 대해서 적절한 용어를 사용하고 정확한 정보를 제공함을 나타낸다.

Fig. 4. Language Model Quantitative Evaluation Results

../../Resources/KICEM/KJCEM.2025.26.2.020/fig4.png

Table. 3 Language Model Quantitative Evaluation Results

Result

BERT Similarity

BLEU_unigram

BLEU_bigram

Finetuned Model

0.8416

0.3497

0.2604

Gpt-4

0.7694

0.2746

0.1211

Palm

0.7267

0.2797

0.1580

koAlpaca

0.7232

0.1407

0.0615

5. 고찰

본 연구는 건설안전지침을 바탕으로 QA 데이터셋을 구성하고 이를 바탕으로 미세조정을 실시하였다. 미세조정된 모델과 chatGPT와 같은 대규모 언어모델이 생성한 답변을 바탕으로 정성평가와 BLEU Score와 BERT Similarity Score를 통해 정량평가를 실시하였다.

정성적인 평가결과는 미세조정된 모델이 일반적인 대규모 언어모델에 비해 도메인 지식에 대한 이해도가 높고 이를 바탕으로 정확하고 구체적인 답변을 제공함을 보여준다. 예를 들어, “흙막이 지보공”과 같은 전문 용어에 대해 미세조정된 모델은 정답과 유사한 정의를 생성하였으며, 개구부 덮개 설치 시 주의사항에 대해서도 유용한 답변을 생성하였다. 이러한 결과는 미세조정된 모델이 일반적인 대규모 언어모델보다 전문적인 지식을 제공하고 생성하는 작업에 효과적임을 나타낸다.

정량평가 결과는 미세조정된 언어모델이 건설안전 정보 생성 측면에서 정답과 높은 유사도를 보여준다. 이는 해당 모델이 건설안전 도메인에 대한 맥락을 깊이 이해하고 있음을 보여준다. 높은 BERT Similarity Score는 미세조정된 모델이 건설안전 도메인에 대한 학습이 충분히 이루어졌음을 의미하며 도메인에 특화된 지식을 생성하고 있음을 보여준다. 또한, 미세조정 모델의 높은 BLEU Score는 모델이 정답 문장에서 사용된 용어와 표현을 정확하게 생성하였음을 나타낸다. 이는 건설안전처럼 정확한 용어의 사용이 중요한 분야에서 미세조정된 모델이 작업을 수행할 수 있음을 나타낸다.

건설안전 데이터셋으로 미세조정된 언어모델은 건설현장에서 다양한 작업에 활용될 수 있다. 특히, 미세조정된 언어모델은 전문적인 지식 제공과 건설사고 예방조치 생성 측면에서 활용될 수 있다. 첫째, 높은 BLEU Score는 미세조정된 모델이 도메인에 특화된 정확한 용어와 표현을 사용하여 전문적인 지식을 반환할 수 있음을 나타낸다. 특정 건설 작업의 안전 지침이나 장비 사용법과 같은 전문적인 내용을 전달하는 데 있어 활용될 수 있다. 둘째, 높은 BERT Similarity Score와 정성평가에서 조치사항 질의에 대해 미세조정된 모델이 생성한 답변은 언어모델이 건설사고 예방조치 생성과 같은 작업에 활용될 수 있음을 나타낸다. 미세조정된 모델은 다양한 지침을 바탕으로 학습이 진행되어 건설 현장의 맥락을 이해하고 그에 맞는 적절한 예방조치를 생성할 수 있다. 결론적으로, 미세조정된 언어모델은 건설 안전과 같은 전문 분야에서의 문서 작성 및 의사결정 지원과 같은 역할을 수행할 수 있다.

하지만, 본 연구의 미세조정된 모델에는 몇 가지 한계점이 존재한다. 첫째, 데이터셋은 2010년부터 2023년까지 발간된 86종의 건설안전지침을 바탕으로 구성되었으나 이 지침들이 새로운 규정 및 안전조치사항을 반영하지 못할 수 있다. 이에 따라 최신의 건설안전 관리 지침이나 기술이 데이터셋에 포함되지 않았을 가능성이 있으며, 현재의 기술 수준을 완벽하게 반영하지 못할 수 있다. 둘째, 연구에서 사용된 데이터셋은 chatGPT를 통해 생성되었으며 생성 과정에서 검토 절차를 거쳤지만, 여전히 일부 잘못된 정보가 포함될 가능성이 있다. 이러한 오류는 미세조정된 모델의 성능에 영향을 미칠 수 있으며 모델이 실제 건설현장에서 안전관리를 위한 조치를 생성하는 데 한계가 있을 수 있다. 셋째, 본 연구에서 BLEU Score와 BERT Similarity Score를 통해 정량적 평가를 진행하였지만, 이러한 평가지표는 텍스트의 유사성을 바탕으로 평가되기 때문에 AI 모델의 실제 건설안전 분야 적용 가능성을 평가하는 데에는 한계가 있다. 높은 유사성 점수는 모델이 생성한 답변과 정답이 유사함을 나타내지만, 이는 실질적으로 유효하거나 안전한 건설안전 조치임을 보장하지 않는다. 특히, 미세조정된 모델이 생성한 응답은 건설안전지침의 내용을 기반으로 하기 때문에 지침의 내용을 반환하거나 지침에 대한 질의에 응답하는 데에는 유용할 수 있으나, 사고사례 분석이나 다른 과제를 수행하는 경우에는 적용이 어려울 수 있다. 따라서, 텍스트 유사성에 기반한 평가결과가 높게 나타났더라도, 이러한 결과만으로는 실질적인 유용성이나 안전성을 보장할 수 없으며, 추가적인 실험과 현장 검증이 필요하다.

추후 연구에서는 AI 모델의 실질적인 현장 적용 가능성을 평가하기 위해 정량적 평가뿐만 아니라 현장 검증을 통해 모델의 역할을 명확히 정의해야 한다. 예를 들어. 작업 위험 분석, 사고사례 보고서 작성 등 실제 건설현장에서 수행되는 구체적인 과업에 AI 모델이 어떻게 기여할 수 있는지에 대한 현장 평가를 통해 검증하는 것이 필요하다. 또한, 건설현장의 복잡한 맥락을 이해하고 다양한 형태의 정보를 바탕으로 보다 정확한 답변을 생성할 수 있도록 실시간 데이터베이스와의 연계, 이미지, 비디오, 오디오, 텍스트 등의 데이터를 동시에 처리할 수 있는 멀티모달 모델에 대한 연구가 필요하다. 이러한 연구는 AI 모델이 건설 안전 관리에 있어 보다 유효하고 신뢰할 수 있는 도구로 자리 잡는 데 기여할 것이다.

6. 결론

본 연구는 건설안전지침을 바탕으로 미세조정을 통해 생성형 AI 모델을 제작하였다. 프롬프트 엔지니어링을 통해 건설안전지침을 기반으로 데이터셋을 구축한다. 이러한 데이터셋은 건설 산업과 관련된 지침, 규정, 안전 조치등을 포함하여, 미세조정된 모델이 더 정확하고 실용적인 정보를 제공할 수 있다. 생성된 데이터셋을 기반으로 PEFT-LoRA 방식을 통해 KoAlpaca-Polyglot-12.8B 모델을 미세조정한다. PEFT-LoRA 방식 미세조정을 통해 언어모델이 건설 산업의 복잡한 어휘와 개념을 이해하고, 실제 현장 상황에 적합한 지원을 제공할 수 있다. 미세조정된 모델은 건설과 같은 특정 분야 지식에 대해서 정확한 정보를 제공한다.

언어모델은 BLEU Score와 BERT Similarity Score를 통해 평가된다. 이러한 평가 방식은 미세조정된 모델이 실제 인간이 제공할 수 있는 답변과의 유사도를 측정하여, 미세조정된 모델의 성능을 검증한다. 이러한 평가 결과는 미세조정된 모델이 실제 건설현장에서의 적용 가능성과 효과성을 보여준다. 이를 통해 현장 안전관리자의 업무부담완화와 안전사고 예방에 기여한다. 또한, BLEU Score, BERT Similarity Score에서 미세조정된 모델은 초대규모 언어모델과 비교하였을 때 높은 점수를 보여준다. BLEU Score에서 미세조정된 모델이 GPT-4보다 7.5% 높은 점수를 기록했으며, BERT Similarity Score에서도 7.21% 높은 점수를 획득했다.

결론적으로, 본 연구는 건설산업 특화 언어모델을 통해 건설현장의 안전관리 향상 및 사고 예방에 기여한다. 건설현장에서 발생할 수 있는 다양한 위험을 인식하고, 이에 대한 적절한 조치와 안전지침을 제시한다. 또한, 미세조정된 언어모델을 통한 특정 산업 분야에 적절한 도움을 제공할 수 있음을 보여준다.

감사의 글

이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No. 2022R1F1A1074448).

References

1 
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F.L., and McGrew, B. (2023). Gpt-4 technical report. arXivURL
2 
Anil, R., Dai, A.M., Firat, O., Johnson, M., Lepikhin, D., Passos, A., ... and Wu, Y. (2023). Palm 2 technical report. https://doi.org/10.48550/arXiv.2303.08774DOI
3 
Bang, Y., Cahyawijaya, S., Lee, N., Dai, W., Su, D.D., Wilie, B., Lovenia, H., Ji, Z., Yu, T., Chung, W., Do, Q.V., Xu, Y., and Fung, P. (2023). “A multitask, multilingual, multimodal evaluation of chatgpt on reasoning, hallucination, and interactivity.” arXiv. https://doi.org/10.48550/arXiv.2302.04023DOI
4 
Beomi. (2023). KoAlpaca-Polyglot-12.8B. https://github.com/Beomi/KoAlpaca. (accessed on 29 August 2024)URL
5 
Caldas, C.H., and Soibelman, L. (2003). “Automating hierarchical document classification for construction management information systems.” Automation in Construction, 12(4), 395-406. https://doi.org/10.1016/S0926-5805(03)00004-9DOI
6 
Chan, A.P.C., Wong, F.K.W., Chan, D.W.M., Yam, M.C.H., Kwok, A.W.K., Lam, E.W.M., and Cheung, E. (2008). “Work at Height Fatalities in the Repair, Maintenance, Alteration, and Addition Works.” Journal of Construction Engineering and Management, 134(7), 527–535. https://doi.org/10.1061/(ASCE)0733-9364(2008)134:7(527)DOI
7 
Cheng, M.Y., Kusoemo, D., and Gosno, R.A. (2020). “Text mining-based construction site accident classification using hybrid supervised machine learning.” Automation in Construction, 118, 103265. https://doi.org/10.1016/j.autcon.2020.103265DOI
8 
Chi, C.F., Chang, T.C., and Ting, H.I. (2005). “Accident patterns and prevention measures for fatal occupational falls in the construction industry.” Applied Ergonomics, 36, 391-400. https://doi.org/10.1016/j.apergo.2004.09.011DOI
9 
Chi, N.W., Lin, K.Y., El-Gohary, N., and Hsieh, S.H. (2016). “Evaluating the strength of text classification categories for supporting construction field inspection.” Automation in Construction, 64, 78-88. https://doi.org/10.1016/j.autcon.2016.01.001DOI
10 
Ekin, S. (2023). Prompt engineering for ChatGPT: A quick guide to techniques, tips, and best practices. Authorea PreprintsDOI
11 
Fan, H., and Li, H. (2013). “Retrieving similar cases for alternative dispute resolution in construction accidents using text mining techniques.” Automation in Construction, 34, 85-91. https://doi.org/10.1016/j.autcon.2012.10.014DOI
12 
Ghimire, P., Kim, K., and Acharya, M. (2024). “Opportunities and Challenges of Generative AI in Construction Industry: Focusing on Adoption of Text-Based Models.” Buildings, 14(1), 220. https://doi.org/10.3390/buildings14010220DOI
13 
Go, I. (2015). Basic Construction Safety Guidelines. https://www.seoul.go.kr/. (accessed on 29 August 2024)URL
14 
Halfon, A., Gretz, S., Arviv, O., Spector, A., Toledo-Ronen, O., Katz, Y., ... and Slonim, N. (2024). “Stay Tuned: An Empirical Study of the Impact of Hyperparameters on LLM Tuning in Real-World Applications.” arXiv, https://doi.org/10.48550/arXiv.2407.18990DOI
15 
Hu, E.J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., ... and Chen, W. (2021). “Lora: Low-rank adaptation of large language models.” arXiv, https://doi.org/10.48550/arXiv.2106.09685DOI
16 
Im, H.J., Kwon, Y.J., Kim, S.G., Kim, Y.K., Ju, Y.S., and Lee, H.P. (2009). “The characteristics of fatal occupational injuries in Korea’s construction industry, 1997–2004.“ Safety Science, 47(8), 1159-1162. https://doi.org/10.1016/j.ssci.2008.11.008DOI
17 
jhgan. (2021). https://huggingface.co/jhgan/ko-sroberta-multitask. (accessed on 29 August 2024)URL
18 
Kang, Y., Yang, S., and Patterson, P. (2021). “Modern Cause and Effect Model by Factors of Root Cause for Accident Prevention in Small to Medium Sized Enterprises.” Safety and Health at Work, 12(4), 505-510. https://doi.org/10.1016/j.shaw.2021.08.002DOI
19 
Korea Occupational Safety and Health Agency (KOSHA). (2010). KOSHA guide. https://oshri.kosha.or.kr/. (accessed on 29 August 2024)URL
20 
Lee, J., and Yi, J.S. (2017). “Predicting Project’s Uncertainty Risk in the Bidding Process by Integrating Unstructured Text Data and Structured Numerical Data Using Text Mining.” Applied Sciences, 7(11), 1141. https://doi.org/10.3390/app7111141DOI
21 
Lee, K., Firat, O., Agarwal, A., Fannjiang, C., and Sussillo, D. (2018). Hallucinations in neural machine translationURL
22 
Lo, C.K., and Simard, M. (2019). “Fully Unsupervised Crosslingual Semantic Textual Similarity Metric Based on BERT for Identifying Parallel Data.” Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), 206-215. https://aclanthology.org/K19-1020URL
23 
Ma, H., Wang, J., Lin, H., and Zhang, Y. (2021). “Hierarchical matching network for multi-turn response selection in retrieval-based chatbots.” Soft Computing, 25, 9609–9624. https://doi.org/10.1007/s00500-021-05699-0DOI
24 
Ministry of Emplyment and Labor (MOEL). (2023). Industrial Accident Statistics, https://www.moel.go.kr/index.do. (accessed on 29 August 2024)URL
25 
Ministry of Government Legislation (MOLEG). (2021). Serious Accidents Punishment Act Enacted on January 26, 2021. https://www.moleg.go.kr/. (accessed on 29 August 2024)URL
26 
National Occupational Healthy and Safety Commission (NOHSC). (2005). Natinal Standard for Constrution Work. https://www.safeworkaustralia.gov.au/. (accessed on 29 August 2024)URL
27 
Occupational Safety and Health Administration (OSHA). (1970). The Occupational Safety and Health Act Enacted on 1970., https://www.osha.gov/. (accessed on 29 August 2024)URL
28 
OpenAI. (2022). GPT-3.5-turbo.https://openai.com/index/chatgpt. (accessed on 29 August 2024)URL
29 
Park, H., Lee, B., Choi, H., Park, H., Jung, C., Bae, D., Seo, J., Jung, S., and Lee., D. (1997). Construction site safety management guidelines. https://www.ex.co.kr/. (accessed on 29 August 2024)URL
30 
Post, M. (2018). “A call for clarity in reporting BLEU scores.” arXiv, https://doi.org/10.48550/arXiv.1804.08771DOI
31 
Reese, C.D., and Eidson, J.V. (2006). Handbook of OSHA construction safety and health. crc pressURL
32 
Salama, D.A., and El-Gohary, N.M. (2013). “Automated Compliance Checking of Construction Operation Plans Using a Deontology for the Construction Domain.” Journal of Computing in Civil Engineering, 27(6), 681-698. https://doi.org/10.1061/(ASCE)CP.1943-5487.0000298DOI
33 
Saurin, T.A., Formoso, C.T., and Cambraia, F.B. (2008). “An analysis of construction safety best practices from a cognitive systems engineering perspective.” Safety Science, 46(8), 1169-1183. https://doi.org/10.1016/j.ssci.2007.07.007DOI
34 
Smetana, M., Salles de Salles, L., Sukharev, I., and Khazanovich, L. (2024). “Highway Construction Safety Analysis Using Large Language Models.” Applied Sciences, 14(4), 1352. https://doi.org/10.3390/app14041352DOI
35 
Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., ... and Hashimoto, T.B. (2023). Stanford alpaca: An instruction-following llama modelURL
36 
Tian, D., Li, M., Ren, Q., Zhang, X., Han, S., and Shen, Y. (2023). “Intelligent question answering method for construction safety hazard knowledge based on deep semantic mining.” Automation in Construction, 145, 104670. https://doi.org/10.1016/j.autcon.2022.104670DOI
37 
Tixier, A.J.P., Hallowell, M.R., and Rajagopalan, B. (2017). “Construction safety risk modeling and simulation.” Risk analysis, 37(10), 1917-1935. https://doi.org/10.1111/risa.12772DOI
38 
Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., Narang, S., Chowdhery, A., and Zhou, D. (2022). “Self-consistency improves chain of thought reasoning in language models.” arXiv, https://doi.org/10.48550/arXiv.2203.11171DOI
39 
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M., and Le, Q.V. (2021). “Finetuned language models are zero-shot learners.” arXiv, https://doi.org/10.48550/arXiv.2109.01652DOI
40 
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., and Zhou, D. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” arXiv, https://doi.org/10.48550/arXiv.2201.11903DOI
41 
Wu, C., Lin, W., Zhang, X., Zhang, Y., Xie, W., and Wang, Y. (2024). “PMC-LLaMA: toward building open-source language models for medicine.” arXiv, https://doi.org/10.48550/arXiv.2304.14454DOI
42 
Wu, Y., Wu, W., Xing, C., Zhou, M., and Li, Z. (2016). “Sequential matching network: A new architecture for multi-turn response selection in retrieval-based chatbots.” arXiv, https://doi.org/10.48550/arXiv.1612.01627DOI
43 
Yue, S., Chen, W., Wang, S., Li, B., Shen, C., Liu, S., Zhou, Y., Xiao, Y., Yun, S., Huang, X., and Wei, Z. (2023). “Disc-lawllm: Fine-tuning large language models for intelligent legal services.” arXiv, https://doi.org/10.48550/arXiv.2309.11325DOI
44 
Zhang, F., Fleyeh, H., Wang, X., and Lu, M. (2019). “Construction site accident analysis using text mining and natural language processing techniques.” Automation in Construction, 99, 238-248. https://doi.org/10.1016/j.autcon.2018.12.016DOI
45 
Zhong, B., He, W., Huang, Z., Love, P. E. D., Tang, J., and Luo, H. (2020). “A building regulation question answering system: A deep learning methodology.” Advanced Engineering Informatics, 46, 101195. https://doi.org/10.1016/j.aei.2020.101195DOI