Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 종신회원 · 교신저자 · 한국건설기술연구원 구조연구본부 전임연구원 (Corresponding Author · Korea Institute of Civil Engineering and Building Technology · jeongsookim@kict.re.kr)
  2. 종신회원 · 한국건설기술연구원 미래스마트건설연구본부 연구위원 (Korea Institute of Civil Engineering and Building Technology · hsmoon@kict.re.kr)
  3. 정회원 · 한국건설기술연구원 미래스마트건설연구본부 박사후연구원 (Korea Institute of Civil Engineering and Building Technology · sangmipark@kict.re.kr)



딥러닝, BIM 수행 난이도, 입찰 텍스트, 난이도 분석
Deep learning, BIM execution difficulty, Bidding texts, Difficulty analysis

1. 서 론

1.1 연구의 배경 및 목적

2023년 국토교통부는 스마트건설 활성화 방안을 통해 1,000억 이상 신규 공공 발주 공사에 대한 BIM 적용을 의무화하고 2030년까지 모든 공공 공사로 의무화를 확대한다고 발표한 바 있다. 2010년대 초반 BIM 정착기와 달리 그간 한국도로공사 등을 비롯한 공공기관의 여러 BIM 시범사업을 통해 대형 시공사와 BIM 전문기업을 중심으로 건설 단계별 BIM 경험이 축적됨에 따라, BIM 적용은 이제 설계·시공뿐만 아니라 유지관리 단계까지 확대되고 있어 건설산업의 디지털 전환이 가속화될 것으로 기대된다. 그러나 아직 전면 BIM 도입에 대해 준비가 미흡한 공공기관이나 지자체가 다수이고 특히 중소규모 건설사는 대부분의 BIM 업무를 BIM 전문기업에 외주를 맡기는 등 BIM 수행 인력과 자원이 열약한 상황이다.

BIM 적용 사업은 입찰기업의 BIM 수행실적, 인력, SW 등의 정량적 항목뿐만 아니라 발주처의 요구사항에 대한 구체적인 BIM 수행계획 제출이 수반되므로 BIM 실무기술 수행 역량과 사업 경험이 특히 중요하다. 따라서 입찰 경험이 많은 실무자가 BIM 입찰문서 분석에 참여해 요구사항과 관련된 업무 과정상의 이슈를 판단하여 제안서를 작성하는 것이 요구된다. 그러나 자체 사업 수행 역량이 부족한 다수의 중소규모 건설사는 상대적으로 BIM 사업에 대한 경쟁력이 낮아 사업 수주에도 불리한 위치에 놓일 것으로 전망되므로, 이를 극복할 수 있는 전문가 시스템 등의 지원 도구 마련이 필요하다.

전문가 시스템은 방대한 지식 가운데 관련 지식을 신속하게 검색하고, 과거 전문가 경험 및 지식을 토대로 사용자의 의사결정을 지원할 수 있다. 최근 공급 대비 수요가 많은 의료, 법률, 금융 서비스 분야를 중심으로 딥러닝 자연어 처리 기반의 전문가 시스템의 개발이 활발하며 이미 상용단계로 진입한 상태이지만, 건설 분야의 자연어 처리(Natural Language Process, NLP) 기법 관련 연구는 상대적으로 미진한 편이었다(Lee, 2019; Akinosho et al., 2020). 건설 분야에도 딥러닝 적용 연구가 활발히 이뤄지고 있으나 대부분 이미지를 활용한 건설 현장의 안전사고 감지(Kim, 2019; Kim et al, 2020; Lee et al., 2022; Kim et al., 2023)나 건설 현장 및 자재 관리(Bae et al., 2019; Park, 2021; Kang et al., 2022)에 대한 것이었다.

그러나 최근 NLP의 발전과 함께 관련 오픈소스에 대한 접근성이 개선됨에 따라 텍스트 기반의 딥러닝 모델의 적용 시도가 활발히 이뤄지고 있다. 건설 분야 NLP 적용 연구는 통계분석 도구로 NLP를 사용한 경우와 머신러닝 등 타 알고리즘을 결합한 응용 도구 개발 사례로 구분할 수 있다(Lee, 2019). 전자의 경우 건설 재해에 대한 원인 분석 및 동향 파악(Park and Kim, 2021; Kim et al., 2022) 등에 활용된 바 있으며, 후자의 경우 통계 결과를 기반으로 군집화나 네트워크 분석 등을 통해 잠재적 연관성 및 위험성 파악에 활용되거나(Eom et al., 2023) 입찰문서의 텍스트에 대한 통계 정보와 수치 정보를 결합해 공사비를 예측(Williams and Gong, 2014)하는 등의 다양한 적용 방법이 제안되었다.

한편 항목분류, 복합계산 등 딥러닝 기반 NLP 기법을 활용해 건설사업의 입찰문서 분석에 활용하는 연구가 이뤄지고 있다. Lee et al.(2019)은 플랜트 설계·조달·시공(Engineering, Procurement, and Construction, EPC) 사업의 입찰단계에서 입찰안내서(Invitation to Bid, ITB)에 대한 주제 영역을 분류할 수 있는 딥러닝 모델을 IBM의 Watson AI 플랫폼으로 구축해 방대한 분량의 ITB 문서 내 요구사항을 신속히 점검할 수 있음을 보이고자 하였다. Choi et al.(2021)은 EPC 사업의 계약 문서에 대한 위험조항을 자동으로 식별하기 위한 포괄적 도구를 개발하였다. 구문일치 기법을 활용해 위험관리 항목에 저촉되는지를 검토하였고, 14개의 입찰 및 계약문서 위험관리 항목에 대한 개체명 인식(Named Entity Recognition, NER) 기법과 단어 빈도 분석을 활용해 문서 내 위험조항의 식별 및 가시화 등에 활용하였다. Moon et al.(2021a, 2021b, 2022)은 여러 NLP 기법을 활용해 방대한 분량의 해외 건설 시방서 간의 위험조항 유사성 파악, 시방서의 위험 항목 분류, 시방서에 대한 개체명 인식 및 분류 등을 수행할 수 있음을 보였다. Choi and Lee(2022)는 온톨로지 기반의 관계 분석 모델로부터 해외 플랜트 프로젝트 사업의 ITB 문서로부터 독소조항 단어 추출하고, 이를 순환 신경망(Recurrent Neural Network, RNN) 계열 모델에 적용해 위험도를 평가하였다. 이를 통해 입찰단계에서의 검토사항 누락 등 인적오류를 줄이고자 하였다.

이처럼 해외 입찰단계에서 검토가 필요한 문서를 대상으로 NLP 활용한 연구가 빠르게 늘어나고 있으나, 국내 입찰문서로부터의 정보추출 및 분석 목적의 NLP 적용 연구는 미진한 상황이다. 또한 공공 건설사업의 BIM 적용 의무화에 따른 BIM 요구사항이 구체화되고 있어, 입찰문서 내 BIM 관련 항목을 인식하고 BIM 요구사항 분석을 지원할 수 있는 기법 개발과 적용 가능성에 대한 조사가 요구된다. 이러한 이유로 본 연구는 국내 입찰문서(입찰안내서, 제안요청서, BIM 수행계획서 등)에 포함된 BIM 관련 문장의 업무수행 난이도를 예측할 수 있는 딥러닝 모델을 제시하였다. 전문가 설문을 통해 구축한 데이터를 활용하여 모델을 학습시키고 예측 성능을 정량·정성적으로 조사하여, BIM 관련 입찰문서 요구사항의 수행 난이도 분석에 대한 제안 모델의 활용 가능성을 검토하였다.

1.2 연구의 방법 및 범위

본 연구는 한글로 구성된 BIM 입찰문서 요구사항 문장을 형태소 단위로 구분하고 해당 텍스트의 수행 난이도를 평가하는 딥러닝 모델의 예측 성능을 분석하고자 한다. 이를 위해 본 연구에서 활용된 형태소 분석기 및 딥러닝 모델의 구축은 다음의 과정을 거쳤다

BIM 입찰문서에 적합한 형태소 분석기를 구축하기 위해 관련 용어의 수집과 전처리, 그리고 사용자 사전 추가를 수행하였다. BIM 입찰문서는 BIM 관련 용어뿐만 아니라 계약, 건설 관련 용어를 모두 포함하므로, 일반 건설 용어를 제공하는 공공기관 웹사이트로부터 단어를 수집하였고 BIM 관련 지침으로부터 단어를 선별 추출하였다. 수집된 단어의 중복 여부를 확인하고 괄호 및 한자 등을 정제해 형태소 분석기에 추가하였다.

BIM 입찰 문장에 내포된 수행 난이도는 건설 단계, 연관 기술, 실무자 경력 등에 따라 체감 정도가 다르며, 수치화된 데이터가 아니므로 이를 객관화 및 정량화할 필요가 있다. BIM 요구사항에 대한 수행 난이도를 평가할 수 있도록 입찰문서로부터 문장을 선별하고, 각 문장에 대한 전문가 집단의 의견을 수렴하여 수행 난이도에 대한 이진 분류 데이터를 구축하였다. 이후 BIM 기술에 대한 난이도를 판별할 수 있도록 딥러닝 모델의 구성 계층을 설계해 해당 데이터를 학습시키고 모델의 난이도 예측 성능을 조사하였다.

2. 연구방법

2.1 입찰문서 형태소 분석기 구축 및 전처리

본 연구에서 입찰문서는 입찰안내서, 과업지시서, 수행계획서, 결과보고서 등을 의미하며 대부분 한글, 영문자, 숫자, 그리고 특수기호가 혼용된 복합 표현으로 이뤄진다. 비록 한글 텍스트 분석에 널리 활용되는 KoNLPy(Park and Cho, 2014) 등의 분석기가 존재하나, 일반 용어 중심으로 구성된 사전식 형태소 분석기(dictionary type of tokenizer)이므로 전문 분야에 적용하는데 한계가 있다. 특히 입찰문서는 프로젝트 입찰 및 계약, 건설기술, 관리 및 평가 기준 관련 용어를 포함하며, 대부분 복합명사가 사용되므로 이에 적합한 형태소 분석기의 채택이 필요하다(Eom et al., 2023). 또한 BIM 적용 의무화로 인해 BIM과 관련한 구체적인 요구사항에 대한 용어도 다수 포함되고 있어 적합한 형태소 적용이 필요하다.

입찰문서용 형태소 분석기를 구축하기 위해 국가건설기준센터(https://www.kcsc.re.kr)와 건설사업정보시스템(https://www. calspia.go.kr)의 건설용어사전 웹페이지로부터 각각 6,360, 6,653개 용어를 수집하였고, 토목용어사전(대한토목학회, 1996)으로부터 10,988개 용어를 추출하였다. BIM 관련 용어는 국토교통부의 BIM 기본지침 및 시행지침뿐만 아니라 조달청, 한국도로공사, 한국토지주택공사의 BIM 지침 및 가이드라인의 ‘용어’ 편에서 111개 단어를 발췌하였다. 수집된 단어의 괄호 및 특수기호, 공백 등을 제거하여 전체 24,112개 단어를 수집하였으나, 중복을 제외해 최종 18,332개를 사용자 사전에 추가하였다.

사용자 사전을 통해 형태소 분석기의 성능을 개선할 수 있으나 건설사업의 입찰문서는 방대한 건설기술 및 계약 용어를 포함하므로, 복합명사 자체로 단어를 추출하거나 구성 명사로 최대한 정확히 구분할 수 있는 형태소 분석기를 사용해야 한다. 특히 같은 단어임에도 띄어쓰기 상태가 발주처 및 작성자에 따라 달라지는 경우가 많으므로, 이를 형태소 단위로 정확히 구분할 수 있다면 모델 성능 개선에 기여할 수 있다. 이러한 이유로 본 연구는 입찰문장의 난이도 판별 모델의 설계 및 성능평가에 앞서 4가지 한글 형태소 분석기의 기본 성능을 조사하였다. 입찰문서에서 임의 추출한 복합명사에 300개에 대해 기본 형태소 분석기를 사용하여 각 분석기의 정확도와 속도를 비교하였다. 본 연구의 딥러닝 모델에서 사용하는 입력 데이터가 문장의 명사와 동사 정보만을 활용하도록 설계되는 점을 고려할 때, 복합명사를 가능한 단일명사 또는 명사 조합으로 구분되게 하는 것이 딥러닝 모델 학습에 유리하다고 판단된다. 따라서 형태소 분석 결과가 단일명사로 판정되거나, 분할 결과의 품사 조합이 명사 또는 외국어-명사로만 구성되고 분할된 단어 개수가 적을수록 복합명사에 대한 분할 성능이 우수하다고 가정해 형태소 성능을 평가하였다.

Fig. 1은 개별 복합명사에 대한 기본 형태소 분석기의 처리 결과와 소요 시간을 보여주며, Table 1은 조사 결과 중 일부를 정리한 것이다. 300개 입찰 단어 가운데 120개는 형태소 분석기 선택에 따른 차이가 없었으며, 나머지 단어는 형태소 분석기마다 복합명사의 분할 결과와 처리 시간이 상이했다. 관계형 데이터베이스를 활용한 Kkma(Lee et al., 2010)는 형태소 추출 정확도가 높고 명사 또는 외국어-명사 조합만으로 구성된 결과가 251개로 가장 많았으나(Okt: 233, Mecab: 236, Khaiii: 215), 타 분석기에 비해 처리 시간이 길었다. 한편 CRFs(Conditional Random Fields) 기반의 Mecab(Kudo et al., 2004)도 속도와 형태소 추출 정확도 측면에서 성능이 우수하였으나 조사나 어미 등 명사 외 다른 품사의 형태소가 종종 포함되었다. Okt도 복합명사에 대해 속도와 분류 정확도가 낮지 않았으나 Table 1과 같이 형태소 분할 오류가 종종 관찰되었다. 끝으로 CNN 모델 기반의 Khaiii는 처리시간이 타 분석기에 비해 빨랐고, 형태소 분할 성능 또한 복합명사를 단일명사로 추정하는 사례가 54개로 타 형태소 분석기보다 많았으며(Okt: 32, Kkma: 23, Mecab: 32) 형태소 분할 오류도 적었다. 전반적으로 별도의 입찰 관련 용어의 추가가 없었음에도 Khaiii가 300개의 복합명사에 대한 정확도와 속도 측면에서 상대적으로 우수한 것으로 판단하였으며, 또한 사용자 용어 추가를 고려해 최종적으로 카카오의 Khaiii를 딥러닝 모델의 전처리 도구로 선택하였다. Khaiii는 기구축된 용어와 사용자 정의 용어 간 중복을 허용하지 않으므로, 최종 적용된 건설 용어는 17,752개이며 모두 고유명사(NNP)로 정의하였다.

Fig. 1. Comparison with of Tokenizers Performance for Complex Nouns: (a) Count of Suitable Tokenizers for each Complex Nouns to Short Noun Sequences, (b) Histogram of Processing Time for Tokenization
../../Resources/KSCE/Ksce.2023.43.6.0851/fig1.png
Table 1. Comparison between Token Sequence of BIM Bidding Keywords by Tokenizers

Text

Tokenizer

Token sequences

Duration

(10-3 sec)

특별과업지시서

Okt

특별,

과,

업지시서

16.89

NOUN,

JOSA,

NOUN

Kkma

특별,

과업,

지시서

35.83

NNG,

NNG,

NNG

Mecab

특별,

과업,

지시,

2.29

NNG,

NNG,

VV,

EC

Khaiii

특별,

과업,

지시서

4.20

NNG,

NNG,

NNG

일조량분석

Okt

일,

조량,

분석

18.96

Modifier,

NOUN,

NOUN

Kkma

일조량,

분석

16.12

NNG,

NNG

Mecab

일조량,

분석

4.00

NNG,

NNG

Khaiii

일조량분석

1.94

NNG

BIM수행계획서

Okt

BIM,

수행,

계획,

13.80

ALPHA,

NOUN,

NOUN,

JOSA

Kkma

BIM,

수행,

계획서

21.29

OL,

NNG,

NNG

Mecab

BIM,

수행,

계획서

4.04

SL,

NNG,

NNG

Khaiii

BIM,

수행,

계획서

1.35

SL,

NNG,

NNG

현장설명회

Okt

현장,

설명,

22.38

NOUN,

NOUN,

NOUN

Kkma

현장,

설명회,

22.23

NNG,

NNG

Mecab

현,

장설,

명회

7.25

MM,

NNG,

NNG

Khaiii

현장

설명회

9.14

NNG,

NNG

단가산출서

Okt

단가

산출

1.27

NOUN,

NOUN,

JOSA

Kkma

단가

산출

10.93

NNG,

NNG,

JKM

Mecab

단가

산출

1.60

NNG+VCP+EC

NNG

JKB

Khaiii

단가

산출서

0.57

NNG,

NNG

지표지질조사

Okt

지표

지질

조사

1.28

NOUN,

NOUN,

NOUN

Kkma

지표

지질

조사

238.17

NNG,

NNG,

NNG

Mecab

지표

지질

조사

2.06

NNG,

VV+ETM,

NNG

Khaiii

지표

지질

조사

0.99

NNG,

NNG,

NNG

*NNG: 일반명사, NOUN: 명사, SL/OL/ALPHA: 외국어, VV: 동사, VCP: 긍정 지정사, JOSA: 조사, MM: 관형사, EC: 연결어미, ETM: 관형형 전성 어미, JKB/JKM: 부사격 조사, Modifier: 의존소

2.2 입찰문서의 BIM 관련 문장의 기술 난이도 평가 데이터 구축

입찰문서 BIM 문장의 난이도를 평가할 수 있는 딥러닝 모델의 학습을 위한 데이터 구축이 요구된다. 여기서 BIM 문장의 난이도는 기존 수행업무 내용에 대해 BIM 활용이 명시됨에 따라 수급자의 BIM 업무수행에 요구되는 자원(인력, 시간 등) 증가와 활용되는 BIM 활용 기법의 수준을 의미한다. 본 연구는 BIM 관련 입찰 문장의 난이도 정보를 포함한 데이터를 구축하기 위해 10개 입찰문서로부터 800개 문장을 선별하여 설계, 시공, BIM 전문기업 등의 실무자 40명을 대상으로 문장에 대한 체감 난이도를 조사하였다. 1개 문장에 대해 10명의 전문가의 답변을 평균하여 문장 난이도를 높음·낮음으로 이진 분류하였다. 추가로 입찰문서에 포함된 BIM과 무관한 문장 800개를 별도로 추출해 난이도가 낮다고 분류하고 기 구축한 800개 문장 데이터에 추가하였다(총 1,600개). Fig. 2는 BIM 기술 난이도 평가 데이터의 일부와 전체 데이터 분포를 보여준다. 데이터는 BIM 입찰문서의 문장과 해당 문장의 난이도를 나타내는 라벨로 구성되어 있으며, 딥러닝 모델의 학습 시 편향이 적도록 문장의 난이도 구성비가 유사하도록 분포시켰다.

Fig. 2. Samples of BIM Bidding Sentences and Distribution on Label of the Sentences: (a) Data Sample, (b) Data Distribution
../../Resources/KSCE/Ksce.2023.43.6.0851/fig2.png

2.3 입찰 문장의 BIM 난이도 평가 모델

입찰 문장의 BIM 관련 난이도를 판별하기 위해 본 연구는 장단기 기억(LSTM: Long Short Term Memory) 모델을 사용한다. LSTM 모델은 RNN 계열로 입력 문장의 단어 순서 정보를 기억할 수 있는 은닉층(hidden layer)을 포함하고 있다. 여기서 LSTM 모델은 RNN 은닉층에 입력, 망각, 출력 게이트를 추가함으로써 모델 훈련 과정에서 선택적으로 기억할 단어 배열 정보량을 조정하며, 추가로 셀 상태(cell state)라는 값을 활용해 삭제된 정보 일부를 보존하여 RNN의 학습 중 기울기 소실 또는 폭증에 기인한 장기 의존성 문제를 해결할 수 있다(Saitoh, 2018). 이를 통해 LSTM은 RNN 대비 긴 문장에 대해서도 우수한 성능을 보이는 것으로 보고되고 있다(Shewalkar, 2018; Prabowo et al., 2018; Cahuantzi et al., 2023).

본 연구의 딥리닝 모델은 Fig. 3과 같이 구성된다. 먼저 입력된 문장에 대해 구두점 및 특수문자 제거, 영문의 소문자 변환, 그리고 공백 제거 전처리가 이뤄진다. 전처리된 입력 문장은 건설 및 BIM 용어를 추가한 형태소 분석기를 거쳐 단어 배열(token sequence)로 변환된다. 여기서 단어 배열은 명사 및 동사 품사만 추출되며, 글자 1개로 이뤄진 단어는 추출이 잘못되거나 불필요한 것으로 간주해 제외하도록 하였다. 딥러닝 모델에 입력하기 위해 단어 배열을 정수로 변환하고(integer encoding) 배열의 길이를 맞춘 후(padding) 이를 밀집 벡터로 변환하였다(embedding). 밀집 벡터는 LSTM 층에 전달되어 문장 특징을 학습하고 최종적으로 전결합층(fully connected layer)으로 보내져 문장의 난이도를 예측한다. 이진분류 모델이므로 전결합층의 출력 결과에 대한 활성화 함수를 sigmoid로 사용하였고, 예측값과 실제값에 대한 손실함수는 binary cross-entropy로 정의하였다.

Fig. 3. Deep Learning Model for Predicting Level of BIM Bidding Sentences
../../Resources/KSCE/Ksce.2023.43.6.0851/fig3.png

3. BIM 문장 난이도 판별 모델의 학습 및 성능평가

3.1 딥러닝 모델의 학습

2.3절에 기술된 한글 형태소 분석기 이후의 모델의 구현은 Tensorflow 2.13의 Keras 패키지를 사용하였다. 1,600개의 입찰문장 데이터는 학습, 검증, 테스트 목적으로 각각 7:2:1의 비율로 구분하였으며, 각 데이터셋 모두 난이도의 높고 낮음이 약 48:52 비율로 배치되도록 하여 데이터의 편중에 따른 모델 학습 및 성능평가에 미치는 편향이 최소화되도록 하였다.

모델 성능에 영향을 미칠 수 있는 배치 크기와 임베딩 층의 크기를 달리하여 모델의 성능 지표 변화를 조사하였다. Table 2에 나타낸 바와 같이 4가지 배치 크기(batch size)에 대해 임베딩 층의 차원 및 LSTM의 은닉층 수를 달리하며 검증 데이터에 대한 손실함수와 F1-score를 비교하였다. 모델 학습을 위한 에포크(epoch)를 30으로 기본 설정하였으며, 검증 데이터에 대한 손실함수가 감소 후 증가하는 경향이 나타나면 학습이 자동으로 종료되도록 하였다.

Figs. 4-7은 검증 데이터에 대한 딥러닝 모델의 배치 크기별 임베딩 차원 및 LSTM 층의 깊이에 따른 손실함수 및 F1-score의 변화를 보여준다. 여기서 손실함수의 경우 파란 영역이 모델 성능 개선에 유리한 임베딩 층의 차원(embedding dimension) 및 LSTM층의 깊이(\# of hidden layers)를 나타내며, F1-score는 반대로 붉은 영역이 성능 개선에 유리함을 나타낸다. 검증 데이터에 대해 손실함수와 F1-score 값은 각각 0.26~0.65, 0.73~0.90 범위로 수렴하였다. 결괏값의 분포가 일관성을 보이는 것은 아니나 Figs. 4-7은 모델의 성능 지표가 임베딩 층의 크기와 LSTM 깊이에 반드시 비례해 개선되는 것은 아니라는 사실을 보여준다. 임베딩 층의 크기가 증가함에 따라 LSTM의 깊이가 깊어지면 오히려 손실함수 값이 증가하고 F1-score가 감소하는 경향을 나타냈으며, 반대로 임베딩 크기가 작은 경우 손실함수의 증가와 F1-score의 증가를 동반하였다. 임베딩 및 LSTM 크기가 차이 날수록 오히려 성능이 개선되었는데, 이는 학습데이터 규모가 작아(약 1,120개) 딥러닝 모델의 규모가 작을수록 훈련 데이터에 대한 모델의 과적합이 일어나지 않았기 때문으로 추정된다. 전반적으로 작은 임베딩 크기 및 얇은 LSTM 깊이에서 지표가 더 양호했던 결과도 같은 원인으로 분석된다.

한편 제시된 모델의 경우 LSTM층 깊이보다 임베딩 층의 크기가 모델 성능 변화에 상대적으로 영향을 더 미치는 것으로 파악된다. 배치 크기 256인 경우를 제외하고 Figs. 4-6(a)의 파란색 계열 영역이 가로축에 편중되어 있고, Figs. 4-6(b)의 붉은색 계열 영역이 가로축에 편중되어 있다. 이는 임베딩의 크기가 LSTM층 깊이보다 모델의 성능 지표 개선에 영향을 크게 미치는 것을 의미하며, 동일한 전산 자원 조건에서 LSTM층의 깊이보다 임베딩 층의 크기를 증가시키는 것이 효과적인 접근방법이라고 추정된다.

Figs. 4-7에 대한 분석을 통해 검증 데이터에 대한 F1-score가 0.893으로 가장 높은 모델(배치: 64, 임베딩 층: 32, LSTM 은닉층: 16)을 BIM 문장 난이도를 판별에 사용하였다. 해당 모델의 학습 중 지표 변화 및 성능 지표를 정리해 Fig. 8Table 3에 나타내었다. Fig. 8에서 확인할 수 있듯이 모델의 학습은 과적합을 피하도록 검증 데이터에 대한 손실함수 값의 증가 경향이 확인되는 29번째 epoch에서 중단되었다. 학습데이터에 대한 모델의 정확도 및 손실함수 변화는 학습이 진행됨에 각각 단조 증가 및 감소하여 0.975, 0.097로 각각 수렴하였고, 검증 데이터에 대해 0.897과 0.276에 수렴하였다.

검증 데이터를 기준으로 모델의 성능이 최대가 되는 하이퍼파라미터를 선정하였으므로, 시험 데이터를 활용해 모델의 객관적인 성능 지표를 확인할 필요가 있다. 최적 모델 선정에 이용되지 않은 160개 BIM 입찰문장에 대한 모델의 성능 지표를 Table 4에 나타내었다. 160개 입찰문장 가운데 135개 문장에 대해 수행 난이도를 올바르게 예측하였으며, 검증 데이터 대비 모델의 성능 지표는 전반적으로 다소 감소하였으나, 유사한 수준의 지표를 보유하고 있는 것으로 판단된다.

추가로 본 연구에서 제안된 딥러닝 모델의 성능 지표의 적절성을 확인하기 위해 LSTM모델 사용 시 가장 높은 성능 지표를 보였던 모델에서(배치: 64, 임베딩 층: 32, 은닉층: 16) LSTM층 대신 RNN 계열인 기본 RNN(vanilla RNN)과 GRU(Gated Recurrent Units)을 적용해 모델을 재구성하고, 동일 방법으로 학습을 진행하고 시험데이터에 대해 성능 지표를 비교하였다. Table 5에 나타낸 바와 같이 기본 RNN 모델의 F1-score가 0.81로 GRU와 LSTM 모델 대비 약 0.02 정도 작게 나타났다. 가중치 소실 등의 우려가 있었음에도 LSTM 모델과 기본 RNN 모델과의 성능 지표 차이가 작게 나타난 것은 문장으로부터 명사와 동사만 추출해 딥러닝 모델의 입력 데이터로 활용해 문장 길이가 축소되었다는 점과 학습 및 성능평가에 활용한 텍스트 대부분이 모델 성능을 좌우할 정도로 긴 문장이 아니었던 점에 기인하였다고 판단된다. 한편 LSTM이 GRU 모델과 비교해 성능이 미미하게 높게 나타났으나 유의미한 차이를 확인하지 못하였다. 이는 기본적으로 GRU 모델이 LSTM의 구조를 간소화한 것이고, 데이터셋의 규모도 작아 별다른 성능 차이를 보이지 않은 것으로 추정된다.

Fig. 4. Effect of Hyper-parameter on the Model Metric: Batch Size 32: (a) Loss, (b) F1-score
../../Resources/KSCE/Ksce.2023.43.6.0851/fig4.png
Fig. 5. Effect of Hyper-parameter on the Model Metric: Batch Size 64: (a) Loss, (b) F1-score
../../Resources/KSCE/Ksce.2023.43.6.0851/fig5.png
Fig. 6. Effect of Hyper-parameter on the Model Metric: Batch Size 128: (a) Loss, (b) F1-score
../../Resources/KSCE/Ksce.2023.43.6.0851/fig6.png
Fig. 7. Effect of Hyper-parameter on the Model Metric: Batch Size 256: (a) Loss, (b) F1-score
../../Resources/KSCE/Ksce.2023.43.6.0851/fig7.png
Fig. 8. Change in Accuracy and Loss of the Present Model: (a) Training Data, (b) Validation Data
../../Resources/KSCE/Ksce.2023.43.6.0851/fig8.png
Table 2. Case of Hyper-parameter for the Proposed Deep Learning Model

Hyper-parameter

Value

Batch-size

32, 64, 128, 256

Embedding dimension

16, 32, 64, 128

LSTM depth (# of hidden layers)

16, 32, 64, 128

Table 3. Metric of the Present Model for Validation Data

Accuracy

Precision

Recall

F1-score

0.897

0.897

0.891

0.893

Table 4. Metric of the Present Model for Test Data

Accuracy

Precision

Recall

F1-score

0.844

0.865

0.811

0.833

Table 5. Comparison with Metric of the Present and other RNN Models for Test Data

Model

Accuracy

Precision

Recall

F1-score

Vanilla RNN

0.819

0.844

0.792

0.809

GRU

0.838

0.862

0.799

0.827

LSTM

0.844

0.865

0.811

0.833

3.2 모델의 난이도 판별 결과에 대한 정성적 분석

시험데이터에 대한 BIM 입찰문장의 난이도 판별 결과의 적정성을 조사하였다. Table 6과 같이 시험데이터의 문장 일부를 추출해, 실제 수행 난이도와 예측 결과 간 차이를 비교하였고 출력층의 결괏값(Score: 0~1) 또한 함께 나타내었다. 제안 모델의 판별 결과를 TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative) 군집별로 구분하여 다음과 같이 설명하였다.

TP의 첫 번째 문장은 복수 노선 간 비교 분석을 통한 경제성 검토가 명시되어 있으므로, 프로젝트 사업비용 검토가 가능한 기본설계 수준의 BIM 대안노선 모델이 생성되어야 하며, 이를 위한 BIM 수행경험과 물량 산출 자동화 등 여러 제반 기술 수행이 전제되므로 수행 난이도가 높다. 두 번째 문장은 모델링의 기하요소 확인과 모델의 분류구조 설정, 객체별 공정별 분류체계 정의에 대한 전문성을 요구하므로 난이도가 높다. 세번째 문장은 모델의 정보품질을 판단하기 위한 속성검토에 대한 기준이 정의되어야 하고, 이를 검증하기 위한 시스템 구현과 검증을 위한 의사결정 능력을 요구하므로 난이도가 높다. 또한 마지막 문장은 협의를 통한 수행사항이나, 터널 시공성을 검토할 수 있도록 복잡한 지보패턴을 포함한 상세 모델의 작성이 요구될 뿐만 아니라 버력 운반 및 배출 등의 시뮬레이션을 위한 수량산출 자동화 및 산출 근거의 신뢰성에 대한 발주처의 설득 등 여러 수행업무가 병행될 수 있어 난이도가 높다. 따라서 제시된 모델의 예측 결과는 각 문장이 내포한 수행업무의 난이도를 잘 판별하고 있는 것으로 판단된다.

TN의 문장은 일반 계약 사항이나 문서의 작성에 대한 안내사항을 담고 있는 문장이 다수였으며, 모델은 해당 문장의 수행 난이도가 낮다고 판별하였다. 또한 품질관리 등 BIM 활용 수행업무가 문장에 포함되었음에도 구체적인 요구사항이 담겨 있지 않은 경우 수행 난이도가 낮다고 평가하고 있어, 모델의 난이도 판별 결과가 적절하다고 판단된다.

FP의 문장은 실제 업무수행 과정에서 겪는 어려움과 상관성이 낮은 내용이다. 포장 도면의 작성계획과 설계 노선의 가시화 방법에 대한 문장은 BIM 업무와 직접적인 관계가 없어 난이도 판별 결과가 낮게 예측되어야 한다. 단, 포장 도면이 BIM 모델로부터 추출을 전제하고 모델 상세가 LOD350~400 수준으로 높다면 수행 난이도가 높은 업무로 분류될 수도 있다. 한편 BIM 수행을 위한 장비 및 소프트웨어 마련에 대한 요구 문장은 업무환경 구축 내용이며, 기업 규모가 영세한 경우 부담이 될 수 있으나 업무의 수행 난이도와 직접적인 관련성이 낮다. 따라서 제시된 문장들은 모두 난이도가 낮다고 판별되어야 하나 이를 적절히 예측하지 못하였다고 판단된다.

끝으로 FN에서 첫번째 및 마지막 문장은 BIM 모델의 빠른 갱신 및 공정, 수량 등의 관리가 병행되므로 업무 강도가 높다. 두번째 문장은 공정 및 물량관리를 BIM 모델로 수행해야 하므로 높은 모델 상세수준을 요구하고, 세번째 문장은 일반적으로 보링데이터 확보 어려움에 따른 지층 역전현상이나 실제 지표형상에 근접한 모델링이 쉽지 않다. 또한 굴착 또는 발파 등의 공종 등을 고려한 모델링 작업이 요구되므로 모델 구축에 많은 자원이 필요하다. 따라서 제시된 문장 모두 난이도가 높았으나 반대로 예측하였다.

제안된 모델은 입찰문서 내 BIM 관련 문장에 대한 수행 난이도를 전반적으로 잘 예측하는 것으로 파악된다. 입찰문서 내 계약 관련 사항이나 제출 자료의 작성 및 제출에 대한 요구사항들을 분별해 냈으며, BIM 관련 용어가 등장하여도 문장의 문맥을 고려해 수행 난이도를 판별한 것으로 확인된다. 다만, 제안 모델은 단지 문맥정보(문장 내 단어 조합 및 순서)를 활용해 문장의 난이도를 판별한 것이며, 3.2절의 문장 그룹별 분석과 같이 BIM 용어와 관련된 업무 및 요구사항 등 배경지식을 고려해 예측 결과를 제시한 것은 아니다. 따라서 문장의 난이도 판별을 위한 배경지식은 라벨링에 함축되어 담겨 있으므로 숙련된 BIM 업무수행 경험이 반영된 데이터셋 구축이 중요하다 할 수 있다.

한편 제시된 모델 또한 BIM 관련 문장의 난이도를 오판한 결과를 포함하고 있으므로, 관련 내용과 유사한 문장을 추가로 수집해 예측 성능을 개선할 필요가 있다. Table 6의 FP계열 문장에서 예측 확률(score)이 1에 근접하거나 FN계열 문장에서 예측 확률이 0에 근접할수록 관련 문장의 학습이 충분히 이뤄졌다고 보기 어렵다. 따라서 업무 환경 구축 및 도면 작성 가이드, 지반 모델링 및 공정·수량관리 관련 문장을 우선해 추가 학습하는 것이 모델 성능 개선에 효과적이라 사료된다.

Table 6. Sentences and Prediction Results of TP, TN, FP, FN Groups for Test Data

Group

Sentences

Label

Prediction

Score

TP

복수의 노선을 LOD 200∼LOD 300 수준으로 BIM 데이터를 통해 장·단점 및 경제성 등을 고려하여 최적노선을 결정한다.

HIGH

HIGH

0.853

건물 부위객체는 BIM 소프트웨어의 해당 객체의 작성기능을 사용함을 원칙으로 한다 (예: 기둥은 반드시 기둥 작성기능으로 작성).

HIGH

HIGH

0.904

속성 정보의 존재 속성 정보의 표현 형식 및 내용의 정확성 등 정보품질이 확보되어야 한다.

HIGH

HIGH

0.797

시공이 어려운 터널계획에 대해 우리공사와 협의하여 필요시 BIM 데이터로 운반 및 배출방법에 대한 검증을 한다.

HIGH

HIGH

0.826

TN

기술제안 반영설계는 입찰자 부담이며, 기술제안의 내용이 기준 또는 관련게획과 부적합하여 시행한 재설계, 보완설계와 추가 공사 등 일체비용은 입찰자의 부담으로 한다.

LOW

LOW

0.032

관리도서(사업수행계획서, 품질관리계획서, 공정관리계획서, 안전관리계획서 등)는 관계법령 및 입찰안내서의 내용에 적합하게 작성하여야 한다.

LOW

LOW

0.037

설계도면에는 구조물 축조 및 준설, 지반처리공법, 구조체(가설구조물, 적출장, 가설도로, 적치장 등)의 재료, 규격, 설계 및 소요강도, 기타 재료에 관한 사항이 표기되어야 하며, 도면이해를 위한 주기 및 타 도면과의 관련여부를 나타내는 관련 도면번호가 명기되어야 한다.

LOW

LOW

0.043

품질관리에 필요한 세부 체크리스트, 시기, 방법 등은 발주자/감독관 간의 협의에 의해 확정함

LOW

LOW

0.276

FP

포장패턴은 단지 전체에 일관성을 부여할 수 있도록 하며 단지 전체 평면도상에 그 패턴 및 포장컬러 계획을 포함하여 계획하여야 한다.

LOW

HIGH

0.779

각 노선별 코리더 통합지표면 모델링 INFRAWORKS에 동시 구현할 경우 사면겹침 및 간섭으로 시각화 저하

LOW

HIGH

0.840

계약상대자는 시공 BIM 관련 업무가 원활히 진행될 수 있도록 전문인력, 하드웨어, 소프트웨어, 공간, 장비, 그리고 협력업체에 의해서 사용되는 BIM 업무지원 장비를 포함하여 BIM 업무수행을 원활히 지원할 수 있도록 BIM 업무환경을 구축해야 한다.

LOW

HIGH

0.940

작성된 BIM 모델을 검토할 수 있도록 필요한 BIM S/W와 모바일 기기를 발주자에게 제공하고 LH 및 설계사에게 기본교육을 제공하여야 한다.

LOW

HIGH

0.911

FN

매월 3D,4D,5D 시뮬레이션을 통한 공사의 진행사항 및 예상 공정을 미리 점검하여 업무내용을 분야별로 파악하기 위한 월간공정보고를 실시하여야 한다.

HIGH

LOW

0.060

제안과업은 BIM데이터와 비용일정통합 관리 시스템을 구축(공정시뮬레이션4D원가관리 5D)해야 한다.

HIGH

LOW

0.374

지반조사 보링데이터를 이용한 지층 모델

HIGH

LOW

0.075

현장 변경사항의 BIM 모델 실시간 반영

HIGH

LOW

0.223

*TP: True Positive, TN: True Negative, FP: False Positive, FN: False Negative

4. 결 론

본 연구에서는 한글 형태소 분석기에 건설 프로젝트 및 BIM 관련 용어를 추가하고 이를 LSTM 모델에 결합함으로써, 국내 입찰문서의 BIM 관련 내용의 수행 난이도를 판별할 수 있는 딥러닝 모델을 제시하였다. 모델의 구현을 위해 입찰 텍스트 관련 데이터를 구축해 모델 학습에 활용하였고 해당 모델의 최적화를 위해 주요 하이퍼파라미터에 대한 영향을 조사하였다. 최적 모델에 대한 BIM 문장의 수행 난이도 판별 결과를 정량적·정성적으로 평가함으로써 다음의 결론을 도출하였다.

제안된 BIM 수행 난이도 판별 모델은 학습 시 임베딩 층의 크기, LSTM 층의 깊이, 그리고 배치 크기에 모두 영향을 받았으며, 상대적으로 임베딩 층의 크기와 배치 크기가 LSTM 층의 깊이에 비해 모델 성능 지표에 큰 영향을 미쳤다. 임베딩 층의 크기가 LSTM 층의 깊이보다 큰 모델이 성능에 유리하였고 배치 크기가 커짐에 따라 모델 계층의 크기 영향은 감소하였다.

제안된 모델은 1,440개 입찰 문장으로 구성된 훈련 및 검증 데이터에 대해 배치 크기 256, 임베딩 층 크기 32, LSTM 깊이 16 규모일 때 최적 성능을 보였다. 최적 모델을 시험데이터(160개)에 적용한 결과 F1-score 0.833의 성능을 보였고, 분석 결과 또한 BIM 수행업무를 고려할 때 타당한 것으로 분석된다. 그러나 모델의 학습과 검증, 그리고 시험 목적으로 사용된 전체 문장 데이터의 규모가 1,600개로 작아 추후 다양한 건설 분야의 신규 입찰문서의 수집을 통해 추가적인 BIM 관련 문장 선별 구축이 요구되며, 이에 대한 BIM 실무자의 체감 난이도가 정량적으로 반영된 데이터 구축이 필요하다. 다만 발주처 및 수급 기업 다수가 내부 양식이나 기구축한 입찰문서를 일부 수정·보완해 재사용하는 경우가 다수이므로 현재 구축된 모델을 활용하여도 BIM 관련 입찰 문장의 난이도 판별에 어려움이 없을 것으로 판단되며, 예측이 잘못된 문장과 관련된 분야를 중심으로 데이터를 추가 구축함으로써 모델 성능을 개선할 수 있을 것으로 기대된다.

본 연구는 BIM 수행 난이도를 판별할 수 있는 딥러닝 모델을 제시하였고 이를 통해 BIM 수행업무에 대한 이해가 낮은 건설 실무자가 입찰사업 참여에 필요한 유용한 정보를 빠르게 인지하는 방법을 정립해 제시했다는 점에서 의미가 있다고 생각된다. 제안 모델을 활용해 국내 BIM 입찰사업 참여와 관련한 의사결정을 지원하는 기본 도구로 활용될 수 있을 것으로 기대하며, 본 연구가 제시한 방법은 입찰문서의 BIM 난이도 판별뿐만 아니라 다양한 건설문서 분석 및 자동화에 활용될 수 있을 것으로 판단된다.

Acknowledgements

This paper is supported by the Korea Agency for Infrastructure Technology Advancement(KAIA) grant funded by the Ministry of Land, Infrastructure and Transport (Grant RS-2022-00143371). The paper is also expanded from a conference paper presented at 2023 KSCE Convention held in Yeosu, South Korea on Oct. 18-20, 2023.

References

1 
Akinosho, T. D., Oyedele, L. O., Bilal, M., Ajayi, A. O., Delgado, M. D., Akinade, O. O. and Ahmed, A. A. (2020). “Deep learning in the construction industry: A review of present status and future innovation.” Journal of Building Engineering, Elsevier, Vol. 32. https://doi.org/10.1016/j.jobe.2020.101827.DOI
2 
Bae, S., Ham, S., Lee, I., Lee, G. P. and Kim, D. (2019). “Deep learning based crack detection from tunnel cement concrete lining.” Journal of Korean Tunnelling and Underground Space Association, KTA, Vol. 24, No. 6, pp. 583-598, https://doi.org/10.9711/KTAJ.2022.24.6.583 (in Korean).DOI
3 
Cahuantzi, R., Chen, X. and Güttel, S. (2023). “A comparison of LSTM and GRU networks for learning symbolic sequences.” Proceeding of Science and Information Conference, London, UK, pp. 771-785, https://doi.org/10.1007/978-3-031-37963-5_53.DOI
4 
Choi, S. J., Choi, S. W., Kim, J. H. and Lee, E. B. (2021). “AI and text-mining applications for analyzing constractor’s risk in Invitation to Bid(ITB) and contracts for engineering procurement and construction (EPC) projects.” Energies, MDPI, Vol. 14, No. 15. https://doi.org/10.3390/en14154632.DOI
5 
Choi, S. W. and Lee, E. B. (2022). “Contractor's risk analysis of engineering procurement and construction(EPC) contracts using ontological semantic model and bi-long short-term memory (LSTM) technology.” Sustainability, MDPI, Vol. 14, No. 11. https://doi.org/10.3390/su14116938.DOI
6 
Eom, S. H., Cha, G., Park, S. K., Park, S. and Park, J. (2023). “Analysis of potential construction risk types in formal documents using text mining.” KSCE Journal of Civil and Environmental Engineering Research, KSCE, Vol. 43, No. 1, pp. 91-98, https://doi.org/10.12652/Ksce.2023.43.1.0091 (in Korean).DOI
7 
Kang, E. A., Kim, S. and Kim, S. (2022). “Quality control of reinforced concrete work using deep-learning based on object recognition.” Journal of the Regional Association of Architectural Institute of Korea, AIKRA, Vol. 24, No. 2, pp. 17-24 (in Korean).URL
8 
Kim, M. H. (2019). Application of computer vision based deep learning technique for detecting safety helmet of construction workers, Msc. thesis, Pukyong National University, Busan, Korea (in Korean).URL
9 
Kim, S., Cha, G., Cho, M. and Park, S. (2022). “Text mining based analysis of construction accident causes and risk factors.” Proceedings of the 2022 Spring Conference of the Korea Academia-Industrial Cooperation Society, Jeju, South Korea, pp. 272-273 (in Korean).URL
10 
Kim, J., Lee, C. W., Park, S. H., Lee, J. H. and Hong, C. H. (2020). “Development of fire detection model for underground utility facilities using deep learning: Training data supplement and bias optimization.” Journal of the Korea Academia-Industrial Cooperation Society, KAIS, Vol. 21, No. 12, pp. 320-330, https://doi.org/10.5762/KAIS.2020.21.12.320 (in Korean).DOI
11 
Kim, J., Park, S. and Hong, C. H. (2023). “A study on falling detection of workers in the underground utility tunnel using dual deep learning techniques.” Journal of the Society of Disaster Information, KOSDI, Vol. 19, No. 3, pp. 498-509, https://doi.org/10.15683/kosdi.2023.9.30.498 (in Korean).DOI
12 
Kudo, T., Yamamoto, K. and Matsumoto, Y. (2004). “Applying conditional random fields to Japanese morphological analysis.” Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, ACL, Barcelona, Spain, pp. 230-237.URL
13 
Lee, J. H. (2019). “Global research trend based on Natural Language Processing of irregular text data in the construction industry.” Magazine of Construction Management, KICEM, Vol. 20, No. 2, pp. 62-65 (in Korean).URL
14 
Lee, K., Kang, S. and Shin, Y. (2022). “A study on the application of object detection method in construction site through real case analysis.” Journal of the Society of Disaster Information, KOSDI, Vol. 18, No. 2, pp. 269-279, https://doi.org/10.15683/KOSDI.2022.6.30.269 (in Korean).DOI
15 
Lee, D., Yeon, J., Hwang, I. and Lee, S. (2010).“KKMA : A tool for utilizing sejong corpus based on relational database.” JKIISE Transactions on Computing Practices, KIISE, Vol. 16, No. 11, pp. 1046-1050 (in Korean).URL
16 
Lee, D. H., Yoon, G. H. and Kim, J. J. (2019). “Development of ITB risk management model based on AI in bidding phase for oversea EPC projects.” The Journal of the Institute of Internet, Broadcasting and Communication, IIBC, Vol. 19, No. 4, pp. 151-160, https://doi.org/10.7236/JIIBC.2019.19.4.151 (in Korean).DOI
17 
Moon, S., Chi, S. and Im, S. B. (2022). “Automated detection of contractual risk clauses from construction specifications using bidirectional encoder representations from transformers (BERT).” Automation in Construction, Elsevier, Vol. 142, 104465, https://doi.org/10.1016/j.autcon.2022.104465.DOI
18 
Moon, S., Lee, G. and Chi, S. (2021a). “Semantic text-pairing for relevant provision identification in construction specification reviews.” Automation in Construction, Elsevier, Vol. 128, 103780, https://doi.org/10.1016/j.autcon.2021.103780.DOI
19 
Moon, S., Lee, G., Chi, S. and Oh, H. (2021b). “Automated construction specification review with named entity recognition using natural language processing.” Journal of Construction Engineering and Management, ASCE, Vol. 147, No. 1. https://doi.org/10.1061/(ASCE)CO.1943-7862.0001953.DOI
20 
Park, S. (2021). Development of visualization system for deep learning-based progress comparison using the real image of construction site and 4D model, Ph.D thesis, Gyeongsang National University (in Korean).URL
21 
Park, E. J. and Cho, S. Z. (2014). “KoNLPy: Korean natural language processing in Python.” Proceedings of the 26th Annual Conference on Human & Cognitive Language Technology, KIISE, Kangwon, Korea, pp. 133-136 (in Korean).URL
22 
Park, K. and Kim, H. (2021). “Analysis of seasonal Importance of construction hazards using text mining.” KSCE Journal of Civil and Environmental Engineering Research, KSCE, Vol. 41, No. 3, pp. 305-316, https://doi.org/10.12652/Ksce.2021.41.3.0305 (in Korean).DOI
23 
Prabowo, Y. D., Warnars, H. L. H. S., Budiharto, W., Kistijantoro, A. I., Heryadi, Y. and Lukas (2018). “Lstm and simple rnn comparison in the problem of sequence to sequence on conversation data using Bahasa Indonesia.” Proceedings of 2018 Indonesian Association for Pattern Recognition International Conference, IEEE, Jakarta, Indonesia, pp. 51-56, https://doi.org/10.1109/INAPR.2018.8627029.DOI
24 
Saitoh, K. (2018). Deep Learning from Scratch 2, Hanbit Media, translated by Gaeapmapsi (in Korean).URL
25 
Shewalkar, A. N. (2018). Comparison of RNN, LSTM and GRU on Speech Recognition Data, Msc. thesis, North Dakota State University, North Dakota, USA.URL
26 
Wiliams, T. P. and Gong, J. (2014). “Predicting construction cost overruns using text mining, numerical data and ensemble classifiers.” Automation in Construction, Elsevier, Vol. 43, pp. 23-29, https://doi.org/10.1016/j.autcon.2014.02.014.DOI