Mobile QR Code QR CODE : Journal of the Korean Society of Civil Engineers

  1. 연세대학교 기후변화 적응형 사회기반시설 연구센터 연구교수 (Yonsei University)
  2. 연세대학교 건설환경공학과 교수 (Yonsei University)


건설사고, 위험요소, 텍스트마이닝, 빈도 분석, 중심성 분석
Construction accident, Hazard, Text mining, Frequency analysis, Centrality analysis

  • 1. 서 론

  •   1.1 연구배경 및 목적

  •   1.2 연구범위 및 방법

  • 2. 연구방법

  •   2.1 텍스트마이닝

  •   2.2 건설공사 위험요소

  • 3. 텍스트마이닝을 이용한 건설공사 위험요소 분석

  •   3.1 빈도 분석

  •   3.2 중심성 분석

  • 4. 건설공사 위험요소의 계절별 중요도 분석 결과

  •   4.1 빈도 분석 결과

  •   4.2 중심성 분석 결과

  •   4.3 계절별 중요도 분석 결과

  • 5. 결 론

1. 서 론

1.1 연구배경 및 목적

건설사고 예방을 위해서는 설계단계부터 건설공사 위험요소(Hazard)를 고려한 안전대책을 수립해야 한다. 국토교통부는 위험발생객체, 위험발생위치, 작업프로세스로 구분되는 건설사고 위험요소를 정의했다(MOLIT, 2014). 건설사고 위험요소는 위험발생객체 110개, 위험발생위치 66개, 작업프로세스 78개로 총 254개 항목으로 구성되며, 사고결과, 사고원인, 사고 가능성, 사고 심각성에 따른 위험성(Risk) 등 건설사고 프로파일 분석에 사용될 수 있도록 제안되었다. 한편, 건설 현장 근로자는 야외작업에 빈번하게 노출되기 때문에 날씨가 근로환경에 영향을 미칠 수 있다(McInnes et al., 2018). 우리나라 연평균 기온은 지난 106년(1912년~2017년)간 0.18°C/10년 상승하고 있으며, 겨울(0.25°C/10년)과 봄(0.24°C/10년)의 기온상승이 두드러지고, 여름은 19일 길어지고 겨울은 18일 짧아지는 등 기후변화가 일어나고 있다(NIMS, 2018). 이에 따라 건설 분야에서도 기후변화에 적응하기 위한 설계메뉴얼(Jeong et al., 2017)이 제시되고 있다.

건설사고 재해사례 텍스트는 이전에 발생한 건설사고에 대해 공정, 사고원인, 사고장소, 피해규모 등 건설사고 분석에 필요한 유용한 정보를 제공할 수 있음에도 불구하고 비정형 데이터(Unstructured data)인 문서형태로 기록되기 때문에, 이를 이용한 사고분석을 위해서는 도메인 전문가가 직접 필요한 정보를 추출하는 과정이 필요하다. 이러한 문제를 해결하기 위해 텍스트마이닝을 건설사고 재해사례 텍스트에 적용해 건설사고 문서분류(Goh and Ubeynarayana, 2017), 사고 유발요인 분석(Zhang et al., 2019), 건설사고 토픽분석(Zhong et al., 2020)을 수행하는 연구가 진행되고 있다.

본 연구에서는 기후변화 적응형 건설사고 안전대책마련에 대한 기초연구로 계절별 건설공사 위험요소의 중요도 분석을 위해 국내 건설사고 재해사례 데이터에 텍스트마이닝 기법을 적용했다. 총 254개 건설공사 위험요소 중 봄, 여름, 가을, 겨울 계절별로 구분된 건설업 재해사례 텍스트데이터 그룹에서 추출 가능한 51개 건설공사 위험요소를 대상으로 문서빈도(Document Frequency, DF), 단어빈도(Term Frequency, TF), 단어-역문서빈도(Term Frequency- Inverse Document Frequency, TF-IDF), 연결중심성(Degree Centrality, DC), 근접중심성(Closeness Centrality, CC), 매개중심성(Betweenness Centrality, BC)을 측정했다. 제안 방법은 대량의 건설사고 관련 텍스트데이터에서 건설공사 위험요소 추출 및 분석에 효과적으로 적용할 수 있으며, 분석결과는 날씨, 계절, 기후를 고려한 건설사고 안전대책 마련을 위한 기초자료로 활용될 수 있다.

1.2 연구범위 및 방법

텍스트마이닝을 이용한 계절별 건설사고 위험요소 분석은 데이터 수집(Acquisition), 데이터 전처리(Pre-processing), 데이터 그룹화(Grouping), 데이터 분석(Analysis) 4단계로 진행되며, 분석 프로세스는 Fig. 1과 같다.

Fig. 1.

Analysis Process

Figure_KSCE_41_03_13_F1.jpg

데이터 수집단계(Fig. 1(a))에서는 한국산업안전보건공단 사이트(kosha.or.kr)에 공개된 건설업 재해사례 텍스트데이터를 웹 크롤링(Web crawling)을 통해 수집했으며, 웹 크롤링이 불가능한 파일형태의 일부 데이터는 수작업으로 관련내용을 수집했다. 최초 수집데이터 3,829건에서 사고일자를 확인할 수 없는 데이터, 중복데이터를 제거하고, 최종 2,026건의 사고데이터를 분석에 이용했다. 데이터 전처리단계(Fig. 1(b))에서는 숫자, 특수문자 등을 제거하는 데이터 정제(Data cleaning), 텍스트에서 명사만 추출하는 품사 태깅(POS tagging), 분석에 불필요한 단어인 불용어 제거(Stop-words removal)를 수행했다. 데이터 그룹화 단계(Fig. 1(c))에서는 전처리가 완료된 데이터를 사고발생일 기준 매년 3월부터 5월까지 봄, 6월부터 8월까지 여름, 9월부터 11월까지 가을, 12월, 1월, 2월은 겨울로 3개월씩 그룹화했다. 2,026건의 전체 데이터에 대한 계절별 분포는 봄 453건(22.4 %), 여름 614건(30.3 %), 가을 567건(28.0 %), 겨울 392건(19.3 %)으로 나타났다. 데이터 분석단계(Fig. 1(d))에서는 51개 건설공사 위험 요소에 대해 계절별로 DF, TF, TF-IDF 빈도 분석과 DC, CC, BC 중심성 분석을 수행했다. 프로그래밍 언어는 Python을 이용했으며, 웹 크롤링은 BeautifulSoup (BeautifulSoup, 2020), 한국어 자연어 처리는 KoNLPy (Park and Cho, 2014), 빈도 분석은 scikit-learn (Scikit- learn, 2020), 중심성 분석은 Gephi (Bastian et al., 2009)를 사용했다.

본 논문의 구성은 다음과 같다. 2장에서는 텍스트마이닝, 건설공사 위험요소를 설명하고, 3장에서는 빈도 분석과 중심성 분석을 이용한 건설공사 위험요소 분석방법을 소개한다. 4장에서는 빈도 분석, 중심성 분석결과를 이용해 건설공사 위험요소의 계절별 중요도를 분석하고, 5장에서 결론을 맺는다.

2. 연구방법

2.1 텍스트마이닝

텍스트마이닝은 비정형 데이터인 문서자료로부터 유의미한 정보를 추출하기 위한 데이터마이닝 기법으로 교육(Kim et al., 2015), 경영(Park, 2016), 의료(Yun et al., 2018), 재난(Yoon and Yoon, 2018) 분야 등에서 기존에 축적된 대량의 문서데이터에서 필요한 정보를 추출하는데 활용되고 있으며, 건설분야에서는 사고분석에 주로 활용되고 있다. Goh and Ubeynarayana(2017)는 텍스트마이닝을 이용해 건설사고 문서를 사고유형에 따라 분류(Classification)했다. Kim and Kim(2019)은 텍스트마이닝을 이용해 계절별 건설현장 추락사고 특징을 도출했다. Kim and Chi(2019)는 유의어 사전을 활용한 건설사고 검색확장과 암묵적 지식(Implicit knowledge) 추출에 텍스트마이닝을 이용했다. 건설사고 분석 이외에 건설자동화 연구동향 분석(Kim et al., 2016), 시방서 부적합 항목 검토(Lee et al., 2018), 대규모 OSC (Off-Site Construction)에 대한 지역민 인식조사(Wang et al., 2019), 건설 프로젝트 계약 모니터링(Marzouk and Enaba, 2019), 건설불량 소송사건의 패턴 분석(Jallan et al., 2019)등 건설분야에서 텍스트마이닝의 활용범위가 점차 확대되고 있다.

본 연구에서는 1990년부터 2019년까지 국내에서 발생한 건설업 재해사례 텍스트데이터를 이용했다. 전체 데이터를 동시출현(Co- occurrence) 네트워크 구조로 나타냈을 때, 1,567개 노드와 92,163개 링크로 나타났다(Fig. 2). 계절별 네트워크의 규모는 봄(Fig. 3(a)) 485개 노드, 16,994개 링크, 여름(Fig. 3(b)) 637개 노드, 25,564개 링크, 가을(Fig. 3(c)) 598개 노드, 24,011개 링크, 겨울(Fig. 3(d)) 433개 노드, 15,560개 링크를 나타냈으며, 네트워크 규모는 계절별 데이터 분포와 동일하게 여름, 가을, 봄, 겨울 순서로 나타났다.

Fig. 2.

Co-occurrence Network of All Construction Accidents

Figure_KSCE_41_03_13_F2.jpg

Fig. 3.

Co-occurrence Networks of Construction Accidents by Season

Figure_KSCE_41_03_13_F3.jpg

건설업 재해사례 텍스트 네트워크(Fig. 2)에 Louvain 알고리즘(Blondel et al., 2008)을 적용한 클러스터링 결과 4개의 주요 클러스터로 분류됐다. 가장 높은 비중을 차지하는 클러스터 1 (Fig. 4(a))은 전체 텍스트데이터의 32 %를 차지했으며, 사망, 부상, 붕괴, 매몰, 감전 등 ‘사망사고’관련 중대재해 단어들로 클러스터를 구성했다. 다음으로 클러스터 2 (Fig. 4(b))는 31 %로‘추락사고’, 클러스터 3 (Fig. 4(c))은 26 %로 ‘낙하사고’, 클러스터 4 (Fig. 4(d))는 11 %로 ‘해체작업 중 사고’관련 단어들이 클러스터를 구성했다.

Fig. 4.

Four Clusters of Construction Accident Data

Figure_KSCE_41_03_13_F4.jpg

2.2 건설공사 위험요소

건설공사 위험요소는 잠재적으로 재해를 일으킬 수 있는 직접적인 위험요소인 위험발생객체, 잠재적 재해 위험이 높은 장소인 위험발생장소, 작업 중 목적물이나 가시설이 무너지는 재해를 발생할 수 있는 작업프로세스로 구분할 수 있으며, 위험발생객체는 거푸집, 동바리, 비계, 작업발판이, 위험발생위치는 고소, 대심도, 경사지, 절개지가 작업프로세스는 굴착, 해체, 설치, 타설 등이 대표적인 예이다(MOLIT, 2014).

위험발생객체, 위험발생장소, 작업프로세는 각 110개, 66개, 78개 항목으로 구성되어있으나, 모든 위험요소를 수집된 건설업 재해사례에 적용한 결과 위험발생객체 22개, 위험발생장소 8개, 작업프로세스 21개 항목에 대해 분석이 가능했으며, 나머지 항목은 재해사례 텍스트에 포함되지 않은 것으로 나타났다. 또한, 일부 위험요소는 분석을 위해 위험요소 명칭을 수정 후 적용했다. 예를 들어, 위험발생객체 위험요소 중 ‘터널 천단부’, ‘터널 막장면’, ‘터널 하부’는 모두 ‘터널’로, ‘교량 상부’는 ‘교량’으로, ‘바닥 개구부’는 ‘개구부’를 적용했다. 또한, 위험발생객체, 위험발생위치, 작업프로세스 각 그룹에 중복적으로 정의된 ‘거푸집’, ‘고소작업대’, ‘슬래브’등 일부 위험요소는 중복을 피해 그룹화 후, 분석을 수행했다.

3. 텍스트마이닝을 이용한 건설공사 위험요소 분석

3.1 빈도 분석

텍스트마이닝에서 빈도 분석은 문서에서 중요한 단어는 등장빈도가 높을 것이라는 가정을 기반으로 하며, 대표적으로 DF, TF, TF-IDF가 있다. DF는 가장 기본적인 빈도 분석 방법으로 분석대상 문서집합에서 특정 단어(Term)를 포함하는 문서빈도를 의미한다. 본 연구에서 DF는 건설사고 위험요소에 해당하는 단어가 등장하는 사고사례 빈도를 의미하며, DF값이 높을수록 더 많은 건설사고에 해당 위험요소가 관련되어있음을 의미한다. DF에서는 하나의 문서에 단어의 중복출현을 고려하지 않는다. 반면, TF는 문서집합에서 특정단어의 출현빈도를 의미한다. TF값이 높은 건설공사 위험요소는 해당 계절그룹에서 자주 등장하는 위험요소를 의미한다.

TF-IDF는 특징추출(Feature extraction)기법의 일종으로 TF와 DF의 역(Inverse)수 곱으로 정의되며, Eq. (1)과 같다(Song et al., 2019). 여기서 t는 단어, d는 단일문서, D는 전체문서를 의미한다. TF-IDF값은 단어가 특정문서에서 집중적으로 등장하는 경우 높은 값을 나타내며, 이러한 특성으로 주제어 추출(Keyword extraction), 문서분류(Document classification)에 주로 이용된다.

(1)
T F - I D F ( t ,   d ,   D ) = t f ( t ,   d ) × i d f ( t ,   D )

3.2 중심성 분석

텍스트마이닝에서 중심성 분석은 문서집합에서 단어들의 동시출현을 네트워크 형태로 나타내고 이들의 관계를 분석하는 기법을 의미한다. 단어들의 동시출현은 단어목록과 단어별 동시출현 횟수를 이용해 행렬(Matrix)로 구성할 수 있고, 이는 다시 노드(Node)와 링크(Link)를 갖는 네트워크형태로 가시화할 수 있다. 여기서 노드는 단어를, 노드 사이의 링크는 두 단어 사이의 동시출현을 의미하고, 동시출현 횟수는 차수(Degree)로 정의된다. 텍스트마이닝에서 중심성 분석을 통해 각 단어(노드)가 전체 네트워크에서 어떤 위치, 영향력, 역할을 갖는지 분석이 가능하며, 다른 단어와 상대적 위치, 영향력, 역할을 파악하는데 유용하다. 중심성 분석에는 DC (Eq. (2)), CC (Eq. (3)), BC (Eq. (4))를 이용했다(Das et al., 2018).

(2)
D C ( x ) = deg ( x )
(3)
C C ( x ) = 1 y d ( x ,   y )
(4)
B C ( x ) = x y z σ y z ( x ) σ y z

DC는 연결중심성으로 주어진 단어 x의 차수로 정의된다. 즉, DC (x)는 단어x와 같이 언급된 모든 단어 수를 측정하는 것으로 본 연구에서는 건설공사 위험요소와 동일한 사고사례에 등장한 단어 수를 의미한다. 따라서, DC의 값이 큰 건설공사 위험요소는 동시출현하는 단어가 많음을 의미하고, 이는 곧 해당 위험요소가 좀 더 다양한 상황, 위치, 장소, 작업 등 재해사례 텍스트에 기술된 여러 요소와 관련있음을 의미한다. CC는 근접중심성으로 단어 x와 단어 x를 제외한 나머지 단어 y사이의 거리 d (x, y)의 합의 역수로 정의되며, CC 값이 클수록 건설사고 재해사례 텍스트에 등장하는 단어 중 중심이 되는 단어로 본 연구에서는 건설사고에 미치는 영향력 정도를 의미한다. BC는 매개중심성으로 주어진 단어 x를 제외한 나머지 서로 다른 단어 y와 z의 최단경로(Shortest path) σ y z 중 x를 포함하는 경로 σ y z ( x ) 의 비중으로 정의되며, 서로 다른 단어들 사이에서 건설사고 위험요소 x의 중재역할 정도를 의미한다.

대제목

4. 건설공사 위험요소의 계절별 중요도 분석 결과

4.1 빈도 분석 결과

위험발생객체, 위험발생장소, 작업프로세스에 해당하는 건설사고 위험요소에 대한 빈도 분석 수행결과는 Tables 1, 2, 3과 같다. 위험발생객체에 대한 빈도 분석 수행결과 거푸집(Formwork), 이동식크레인(Mobile crane), 슬래브(Slab)를 포함한 22개 항목에 대해 계절별로 DF, TF, TF-IDF가 도출됐으며, 결과는 Table 1과 같다. DF와 TF는 각 계절 그룹에서 문서빈도와 단어빈도 추출 후 최소-최대 정규화(Min-Max normalization)를 수행한 결과이고, TF-IDF는 Python의 공학용 라이브러리 scikit-learn에 정의된 TfidfVectorizer 함수를 이용한 계산 결과다.

Table 1.

Results of Frequency Analysis of Hazardous Objects

Risk Factor Spring Summer Autumn Winter
DF TF TF-IDF DF TF TF-IDF DF TF TF-IDF DF TF TF-IDF
Formwork 0.10 0.15 0.03 0.09 0.11 0.02 0.11 0.14 0.02 0.09 0.11 0.02
Mobile crane 0.01 0.01 - 0.03 0.03 0.01 0.02 0.02 0.01 0.02 0.01 -
Slab 0.07 0.07 0.01 0.04 0.04 0.01 0.07 0.08 0.02 0.07 0.07 0.02
Tunnel 0.02 0.02 - 0.02 0.03 - 0.02 0.02 - 0.02 0.02 0.01
Scissor lift 0.03 0.04 0.01 0.01 0.03 0.01 0.02 0.02 0.01 0.01 0.02 -
Scaffold 0.17 0.21 0.01 0.14 0.20 0.01 0.17 0.20 0.01 0.15 0.18 0.01
Tower crane 0.04 0.05 0.01 0.03 0.04 0.01 0.02 0.02 0.01 0.03 0.03 0.01
Toe board 0.08 0.08 0.02 0.08 0.10 0.02 0.11 0.12 0.02 0.09 0.08 0.02
Retaining wall 0.02 0.02 0.01 0.02 0.01 - 0.04 0.04 0.01 0.03 0.04 -
Backhoe 0.05 0.05 0.02 0.02 0.02 0.01 0.04 0.04 0.01 0.03 0.03 0.01
Building 0.04 0.04 0.01 0.06 0.06 0.01 0.06 0.06 0.01 0.06 0.06 0.01
Dump truck 0.02 0.04 0.01 0.01 0.02 - 0.01 0.01 - 0.02 0.03 0.01
Deckplate 0.01 0.02 0.01 0.01 0.01 - 0.01 0.01 - 0.02 0.03 0.01
Ladder 0.05 0.07 0.01 0.04 0.06 0.01 0.04 0.04 0.01 0.04 0.06 0.01
Bridge 0.03 0.03 0.01 0.03 0.03 0.01 0.03 0.02 0.01 0.02 0.02 0.01
Excavator 0.04 0.05 0.01 0.03 0.04 0.01 0.03 0.03 0.01 0.05 0.07 0.02
Pier 0.01 0.02 0.01 0.02 0.02 0.01 0.01 0.01 - 0.02 0.01 -
Wale 0.03 0.04 0.01 0.01 0.01 - 0.02 0.02 - 0.01 0.03 0.01
Opening 0.07 0.07 0.01 0.06 0.05 0.01 0.07 0.07 0.01 0.04 0.04 0.01
Lift 0.03 0.03 0.01 0.03 0.04 0.01 0.03 0.06 0.01 0.03 0.03 0.01
Vehicle 0.02 0.02 - 0.02 0.02 - 0.02 0.02 - 0.02 0.02 0.01
Loading box 0.03 0.04 0.01 0.02 0.02 0.01 0.01 0.01 - 0.02 0.02 0.01

[i] DF = Document Frequency; TF = Term Frequency; TF-IDF = Term Frequency – Inverse Document Frequency

Table 2.

Results of Frequency Analysis of Hazardous Locations

Risk Factor Spring Summer Autumn Winter
DF TF TF-IDF DF TF TF-IDF DF TF TF-IDF DF TF TF-IDF
Outer wall 0.06 0.05 0.01 0.06 0.05 0.01 0.06 0.06 0.01 0.03 0.03 0.01
Excavation surface 0.01 0.01 - 0.01 0.01 - 0.01 0.01 - 0.01 0.01 -
Suspended scaffold 0.03 0.05 0.01 0.02 0.03 0.01 0.02 0.02 0.01 0.02 0.03 0.01
Mast 0.01 0.02 0.01 0.01 0.01 - 0.01 0.01 - 0.01 0.01 -
Rolling tower 0.02 0.02 0.01 0.01 0.01 - 0.01 0.01 - 0.02 0.03 0.01
Steel frame 0.08 0.12 0.01 0.09 0.12 0.01 0.06 0.08 0.01 0.12 0.20 0.01
Cargo crane 0.02 0.02 - 0.02 0.02 0.01 0.01 0.01 - 0.02 0.02 -
Crane 0.11 0.14 0.01 0.12 0.16 0.01 0.09 0.12 0.01 0.14 0.17 0.02

[i] DF = Document Frequency; TF = Term Frequency; TF-IDF = Term Frequency – Inverse Document Frequency

Table 3.

Results of Frequency Analysis of Work Processes

Risk Factor Spring Summer Autumn Winter
DF TF TF-IDF DF TF TF-IDF DF TF TF-IDF DF TF TF-IDF
Pouring 0.02 0.02 0.01 0.01 0.01 - 0.01 0.01 - 0.02 0.02 -
Dismantling 0.06 0.05 0.01 0.07 0.06 0.01 0.05 0.05 0.01 0.07 0.06 0.02
Installation 0.07 0.06 0.02 0.07 0.06 0.01 0.04 0.04 0.01 0.07 0.06 0.01
Salvage 0.01 0.01 - 0.01 0.01 - 0.01 0.01 - 0.02 0.01 -
Excavation 0.07 0.10 0.01 0.05 0.06 0.01 0.06 0.09 0.01 0.07 0.09 0.01
Cleanup 0.03 0.03 - 0.04 0.03 - 0.06 0.05 - 0.03 0.02 -
Transportation 0.09 0.08 0.01 0.08 0.08 0.01 0.06 0.06 0.01 0.08 0.08 0.01
Demolition 0.02 0.02 - 0.03 0.03 - 0.03 0.03 - 0.03 0.03 -
Assembly 0.08 0.08 0.01 0.07 0.07 0.01 0.08 0.08 0.01 0.07 0.07 0.01
Cradle 0.03 0.03 0.01 0.03 0.02 - 0.01 0.01 - 0.03 0.03 0.01
Piping 0.04 0.05 0.01 0.04 0.06 0.01 0.05 0.06 - 0.05 0.06 0.01
Material 0.05 0.05 0.01 0.05 0.05 0.01 0.07 0.06 0.01 0.05 0.04 0.01
Tied up 0.06 0.05 0.01 0.06 0.05 0.01 0.05 0.04 0.01 0.05 0.05 -
Replacement 0.01 0.01 - 0.03 0.03 - 0.02 0.02 - 0.03 0.03 0.01
Wire rope 0.02 0.02 0.01 0.02 0.02 0.01 0.01 0.01 - 0.03 0.03 0.01
Equipment 0.02 0.02 - 0.01 0.01 - 0.03 0.03 - 0.02 0.02 0.01
Electricity 0.02 0.04 - 0.05 0.06 - 0.03 0.03 - 0.04 0.04 -
Cut off 0.02 0.02 - 0.06 0.07 0.01 0.04 0.05 0.01 0.04 0.05 0.01
Inspection 0.02 0.02 - 0.02 0.02 - 0.02 0.02 - 0.02 0.03 0.01
Removal 0.03 0.02 0.01 0.05 0.04 0.01 0.03 0.03 0.01 0.02 0.02 0.01
Soil 0.05 0.05 0.01 0.04 0.04 0.01 0.06 0.05 0.01 0.05 0.05 0.01

[i] DF = Document Frequency; TF = Term Frequency; TF-IDF = Term Frequency – Inverse Document Frequency

비계(Scaffold), 거푸집(Formwork), 작업발판(Toe board)이 타 위험발생객체 단어들보다 높은 DF, TF를 나타냈다. 계절별로는 봄에는 사다리(Ladder), 백호우(Backhoe), 타워크레인(Tower crane), 적재함(Loading box), 띠장(Wale), 고소작업대(Scissor lift) 여름에는 이동식크레인(Mobile crane) 가을에는 작업발판(Toe board), 거푸집(Formwork), 옹벽(Retaining wall) 겨울에는 굴삭기(Excavator), 데크플레이트(Deckplate)가 해당 계절에 가장 높은 DF를 나타냈다. 한편, 거푸집(Formwork)은 비계(Scaffold)에 비해 모든 계절에서 낮은 DF와 TF를 나타냈지만, TF-IDF는 비계(Scaffold)보다 높은 수치를 나타냈으며, 이는 거푸집(Formwork)이 비계(Scaffold)에 비해 특정 건설재해사례에서 좀 더 집중적으로 등장함을 의미한다.

위험발생위치 8개 단어에 대한 빈도 분석 수행결과는 Table 2와 같다. 모든 계절에서 크레인(Crane)이 가장 높은 DF를, 굴착면(Excavation surface)이 가장 낮은 빈도를 나타냈다. 외벽(Outer wall)은 다른 계절에 비해 겨울에 빈도가 낮았고, 반면 크레인(Crane)과 철골(Steel frame)은 겨울에 가장 발생빈도가 높게 나타났다. 달비계(Suspended scaffold)는 봄에 발생빈도가 높게 나타났다. 굴착면(Excavation surface), 마스트(Mast)는 계절에 상관없이 낮은 빈도를 나타냈다.

작업프로세스 21개 단어에 대한 빈도 분석 수행결과는 Table 3과 같다. 작업프로세스 관련 건설사고 위험요소는 운반(Transportation), 조립(Assembly)이 대체로 높은 빈도를 나타냈으며, 인양작업(Salvage), 타설작업(Pouring)이 상대적으로 낮은 빈도를 나타냈다. 계절별로는 봄에는 운반(Transportation)이 여름에는 절단(Cut off), 제거(Removal), 전기(Electricity)가 가을에는 자재(Material), 토사(Soil), 정리(Cleanup), 장비(Equipment)가 겨울에는 와이어로프(Wire rope), 인양작업(Salvage)이 계절별로 높은 빈도를 기록했다.

빈도 분석결과를 종합해 보면, 계절별로 위험발생객체, 위험발생장소, 작업프로세스에 해당하는 건설사고 위험요소가 상이함을 확인할 수 있으며, 계절별로 건설사고 발생과 밀접한 위험요소를 확인할 수 있다. 봄에는 사다리(Ladder), 백호우(Backhoe), 타워크레인(Tower crane), 적재함(Loading box), 띠장(Wale), 고소작업대(Scissor lift), 달비계(Suspended scaffold), 운반(Transportation)이 건설사고 발생과 관련이 높게 나타났다. 여름에는 이동식 크레인(Mobile crane), 절단(Cut off), 제거(Romoval), 전기(Electricity), 가을에는 작업발판(Toe board), 거푸집(Formwork), 옹벽(Retaining wall), 자재(Material), 토사(Soil), 정리(Cleanup), 장비(Equipment), 겨울에는 굴삭기(Excavator), 데크플레이트(Deckplate), 크레인(Crane), 철골(Steel frame), 와이어로프(Wire rope), 인양작업(Salvage)이 해당 계절에 발생하는 건설사고와 관련이 높게 나타나 해당 계절에서 이들 위험요소와 관련한 건설사고가 자주 발생함을 의미한다.

4.2 중심성 분석 결과

빈도 분석과 동일한 위험요소들을 대상으로 DC, CC, BC 중심성 분석 결과는 Tables 4, 5, 6과 같다. DC는 이전 DF, TF와 동일하게 최소-최대 정규화를 수행했으며, CC와 BC는 Gephi에서 정규화된 결과치를 이용했다. 위험발생객체에 대한 중심성 분석결과 봄, 겨울에 거푸집(Formwork)이 여름, 가을에 작업발판(Toe board)이 가장 높은 BC와 CC를 나타냈다. 계절별로는 봄에는 타워크레인(Tower crane), 백호우(Backhoe), 적재함(Loading box), 사다리(Ladder), 교량(Bridge), 띠장(Wale), 덤프트럭(Dump truck), 데크플레이트(Deckplate)가, 여름에는 비계(Scaffold), 이동식크레인(Mobile crane), 교각(Pier)이, 가을에는 작업발판(Toe board), 거푸집(Formwork), 개구부(Opening), 옹벽(Retaining wall), 리프트(Lift)가, 겨울에는 슬래브(Slab), 건물(Building), 굴삭기(Excavator), 차량(Vehicle)이 해당 계절에서 높은 DC를 나타냈다. 빈도 분석에서 가장 높은 DF, TF를 나타낸 비계(Scaffold)는 상대적으로 낮은 중심성 순위를 나타냈으며, 이것은 비계(Scaffold)와 관련한 사고는 많지만 비계사고와 관련한 위험요소의 수는 제한적일 수 있음을 의미하며, 거푸집(Formwork)과 작업발판(Toe board)은 비계사고에 비해 더 적게 등장하지만 관련한 위험요소와 사고발생유형이 다양함을 의미한다.

Table 4.

Results of Centrality Analysis of Hazardous Objects

Risk Factor Spring Summer Autumn Winter
DC CC BC DC CC BC DC CC BC DC CC BC
Formwork 0.36 0.62 0.004 0.33 0.60 0.003 0.39 0.62 0.225 0.32 0.61 0.003
Mobile crane 0.05 0.52 - 0.14 0.54 - 0.08 0.52 - 0.05 0.52 -
Slab 0.23 0.57 0.001 0.17 0.55 - 0.30 0.59 0.002 0.31 0.60 0.003
Tunnel 0.08 0.53 - 0.10 0.53 - 0.04 0.51 - 0.10 0.54 -
Scissor lift 0.08 0.53 - 0.10 0.53 - 0.10 0.53 - 0.07 0.53 -
Scaffold 0.15 0.55 - 0.24 0.57 0.001 0.18 0.55 - 0.16 0.55 -
Tower crane 0.23 0.57 0.001 0.17 0.55 - 0.12 0.53 - 0.14 0.55 -
Toe board 0.27 0.59 0.002 0.35 0.61 0.004 0.40 0.63 0.006 0.26 0.59 0.002
Retaining wall 0.08 0.53 - 0.08 0.53 - 0.18 0.55 - 0.08 0.53 -
Backhoe 0.19 0.56 0.001 0.12 0.54 - 0.18 0.55 0.001 0.14 0.55 -
Building 0.18 0.56 0.001 0.23 0.57 0.001 0.20 0.56 0.001 0.24 0.58 0.001
Dump truck 0.10 0.54 - 0.05 0.52 - 0.06 0.52 - 0.08 0.53 -
Deckplate 0.07 0.53 - 0.05 0.52 - 0.03 0.51 - 0.06 0.53 -
Ladder 0.17 0.56 - 0.16 0.55 - 0.10 0.53 - 0.14 0.55 -
Bridge 0.14 0.55 - 0.13 0.54 - 0.13 0.54 - 0.06 0.53 -
Excavator 0.15 0.55 0.001 0.14 0.54 - 0.15 0.55 - 0.21 0.57 0.001
Pier 0.08 0.53 - 0.11 0.54 - 0.10 0.53 - 0.07 0.53 -
Wale 0.13 0.54 - 0.04 0.51 - 0.09 0.53 - 0.05 0.52 -
Opening 0.19 0.56 0.001 0.18 0.55 0.001 0.30 0.59 0.003 0.14 0.55 -
Lift 0.12 0.54 - 0.12 0.54 - 0.14 0.54 - 0.06 0.53 -
Vehicle 0.03 0.52 - 0.07 0.52 - 0.05 0.52 - 0.10 0.54 -
Loading box 0.18 0.56 0.001 0.13 0.54 - 0.06 0.52 - 0.07 0.53 -

[i] DC = Degree Centrality; CC = Closeness Centrality; BC = Betweenness Centrality

Table 5.

Results of Centrality Analysis of Hazardous Locations

Risk Factor Spring Summer Autumn Winter
DC CC BC DC CC BC DC CC BC DC CC BC
Outer wall 0.21 0.57 0.001 0.23 0.57 0.001 0.28 0.58 0.002 0.15 0.55 -
Excavation surface 0.05 0.52 - 0.03 0.51 - 0.09 0.53 - 0.02 0.52 -
Suspended scaffold 0.11 0.54 - 0.10 0.53 - 0.10 0.53 - 0.10 0.54 -
Mast 0.08 0.53 - 0.08 0.53 - 0.07 0.52 - 0.01 0.51 -
Rolling tower 0.07 0.53 - 0.02 0.51 - 0.04 0.51 - 0.07 0.53 -
Steel frame 0.18 0.56 0.001 0.09 0.53 - 0.15 0.54 - 0.18 0.56 0.001
Cargo crane 0.07 0.53 - 0.12 0.54 - 0.03 0.51 - 0.04 0.52 -
Crane 0.21 0.57 0.001 0.28 0.59 0.003 0.30 0.59 0.002 0.33 0.61 0.004

[i] DC = Degree Centrality; CC = Closeness Centrality; BC = Betweenness Centrality

Table 6.

Results of Centrality Analysis of Work Processes

Risk Factor Spring Summer Autumn Winter
DC CC BC DC CC BC DC CC BC DC CC BC
Pouring 0.08 0.53 - 0.03 0.51 - 0.08 0.52 - 0.06 0.53 -
Dismantling 0.23 0.57 0.001 0.26 0.58 0.001 0.26 0.58 0.001 0.32 0.61 0.003
Installation 0.28 0.59 0.003 0.20 0.56 0.001 0.19 0.56 - 0.26 0.59 0.002
Salvage 0.05 0.52 - 0.06 0.52 - 0.06 0.52 - 0.08 0.53 -
Excavation 0.13 0.54 - 0.12 0.54 - 0.19 0.55 0.001 0.11 0.54 -
Cleanup 0.06 0.53 - 0.10 0.53 - 0.11 0.53 - 0.05 0.52 -
Transportation 0.33 0.61 0.004 0.31 0.60 0.004 0.20 0.56 0.001 0.25 0.58 0.002
Demolition 0.03 0.52 - 0.11 0.53 - 0.07 0.52 - 0.11 0.54 -
Assembly 0.17 0.55 0.001 0.20 0.56 0.001 0.16 0.55 - 0.14 0.55 -
Cradle 0.18 0.56 0.001 0.14 0.54 - 0.08 0.52 - 0.14 0.55 -
Piping 0.09 0.53 - 0.14 0.54 - 0.11 0.53 - 0.10 0.54 -
Material 0.14 0.55 - 0.13 0.54 - 0.25 0.57 0.001 0.15 0.55 -
Tied up 0.17 0.56 - 0.21 0.56 0.001 0.14 0.54 - 0.08 0.53 -
Replacement 0.03 0.52 - 0.09 0.53 - 0.10 0.53 - 0.09 0.54 -
Wire rope 0.14 0.55 - 0.15 0.54 - 0.11 0.53 - 0.17 0.56 -
Equipment 0.04 0.52 - 0.02 0.51 - 0.10 0.53 - 0.09 0.54 -
Electricity 0.05 0.52 - 0.06 0.52 - 0.03 0.51 - 0.03 0.52 -
Cut off 0.07 0.53 - 0.21 0.57 0.001 0.16 0.55 - 0.16 0.55 0.001
Inspection 0.08 0.53 - 0.05 0.52 - 0.10 0.53 - 0.13 0.55 -
Removal 0.10 0.53 - 0.21 0.56 0.001 0.18 0.55 - 0.08 0.53 -
Soil 0.15 0.55 0.001 0.13 0.54 - 0.24 0.57 0.002 0.19 0.56 0.001

[i] DC = Degree Centrality; CC = Closeness Centrality; BC = Betweenness Centrality

위험발생위치에서 중심성은 계절에 상관없이 크레인(Crane)이 가장 높은 DC, CC, BC를 나타냈다. 계절별로는 봄에는 달비계(Suspended scaffold)가 여름에는 카고크레인(Cargo crane)이 가을에는 외벽(Outer wall), 굴착면(Excavation surface) 겨울에는 크레인(Crane)이 해당 계절에서 높은 중심성을 나타냈다.

작업프로세스와 관련해서 봄, 여름은 운반(Transportation), 가을, 겨울은 해체작업(Dismantling)이 가장 높은 중심성을 나타냈다. 봄에는 운반(Transportation), 설치작업(Installation), 거치(Cradle)가 여름에는 제거(Removal), 절단(Cut off), 고정(Tied up), 조립(Assembly), 배관(Piping), 전기(Electricity)가 가을에는 자재(Material), 토사(Soil), 굴착(Excavation), 정리(Cleanup)가 겨울에는 해체작업(Dismantling), 와이어로프(Wire rope), 점검(Inspection), 인양작업(Salvage)이 해당 계절에서 가장 높은 중심성을 나타냈다.

중심섬 분석결과를 종합해 보면, 빈도 분석 결과와 마찬가지로 계절별로 위험발생객체, 위험발생장소, 작업프로세스에 따라 건설사고 위험요소의 중심성 정도가 상이함을 확인할 수 있다. 빈도 분석 결과 특정 계절에서 높은 빈도를 나타낸 거푸집(Formwork), 이동식크레인(Mobile crane), 타워크레인(Tower crane), 작업발판(Toe board) 등 위험요소는 동일 계절에서 마찬가지로 높은 중심성을 나타냈다.

4.3 계절별 중요도 분석 결과

빈도 분석과 중심성 분석 결과를 고려해 건설공사 위험요소의 계절별 중요도 산출식 Eq. (5)를 정의했다. 여기서는 최소-최대 정규화를 적용한 DF, TF, DC의 합으로 중요도를 결정했다. TF-IDF와 CC는 단어 간 차이가 크지 않고, BC는 그 수치가 작아 산출식에서 제외했다. 제안한 산출식은 위험요소가 더 많은 사고사례에 등장하고, 사고사례에서 노출빈도가 높으며, 더 많은 종류의 단어들과 사용되는 위험요소를 결정한다.

(5)
I m p o r t a n c e   o f   H a z a r d = N o r m ( D F ) + N o r m ( T F ) + N o r m ( D C )

Eq. (5)를 적용한 계절별 중요도 분석 결과는 Fig. 5와 같다. 봄에는 거푸집(Formwork), 비계(Scaffold), 운반(Transportation), 여름은 비계(Scaffold), 크레인(Crane), 작업발판(Toe board), 가을은 거푸집(Formwork), 작업발판(Toe board), 비계(Scaffold), 겨울은 크레인(Crane), 거푸집(Formwork), 철골(Steel frame) 순서로 계절별 상위 3대 위험요소로 도출됐다. 한편 위험도가 낮은 하위 3개 위험요소는 봄에는 교체(Replacement), 차량(Vehicle), 철거(Demolition), 여름은 이동식비계(Rolling tower), 장비(Equipment), 굴착면(Excavation surface), 가을은 데크플레이트(Deckplate), 카고크레인(Cargo crane), 이동식비계(Rolling tower), 겨울은 마스트(Mast), 굴착면(Excavation surface), 카고크레인(Cargo crane)으로 나타났다. 또한, 계절과 상관없이 평균적으로 가장 사고와 밀접한 위험요소는 거푸집(Formwork), 크레인(Crane), 비계(Scaffold), 작업발판(Toe board), 운반(Transportation) 순서로 나타났다.

Fig. 5.

Importance of Seasonal Hazards

Figure_KSCE_41_03_13_F5.jpg

5. 결 론

본 연구를 통한 건설공사 위험요소의 계절별 중요도 분석 주요결과는 다음과 같다. 첫째, 빈도 분석 결과 분석에 사용된 51개 위험요소 중 비계는 모든 계절에서 가장 빈도가 높았고, 크레인은 봄, 여름, 겨울에 두 번째로 빈도가 높게 나타났지만, 가을에는 네 번째로 빈도가 하락하는 등 위험요소별로 계절에 따라 발생 빈도 순위에 차이가 발생했다. 둘째, 중심성 분석결과 봄에는 거푸집, 여름과 가을에는 작업발판, 겨울에는 크레인의 중심성이 가장 높게 나타났으며, 이러한 결과는 이들 위험요소가 해당 계절에 작업공종, 작업장소, 건설장비 등과 관련해 좀 더 복잡하고 다양한 사고로 이어질 수 있음을 의미한다. 셋째, 빈도 분석과 중심성 분석을 종합한 건설공사 위험요소의 계절별 중요도 분석결과 봄, 가을은 거푸집, 여름은 비계, 겨울은 크레인이 가장 중요한 위험요소로 나타났다. 넷째, 거푸집, 크레인, 비계, 작업발판, 운반은 계절과 상관없이 가장 위험한 건설공사 위험요소로 취급될 수 있다. 이들 위험요소는 안전대책 수립 시 반드시 고려해야 하는 위험요소로 분류할 수 있으며, 건설업 전체 사고발생율 감소에 영향을 미칠 수 있다.

본 연구는 다음과 같은 한계가 있다. 첫째, 수집된 건설업 재해사례 데이터는 건설공사 위험요소를 고려하고 작성되지 않아, 전체 건설공사 위험요소 중 20 %만 추출가능했다. 따라서, 향후 건설업 재해사례를 기술할 때, 건설공사 위험요소를 반영할 수 있는 방법이 고려될 수 있다. 둘째, 재해사례 텍스트에 기술된 건설사고 위험요소가 실제사고와 직접관련이 있는 의미인지, 사고와 관련없이 사용됐는지에 대해 고려되지 않았다. 따라서, 건설업 재해사례 텍스트에 대한 구문분석, 의미분석 연구로 확장될 수 있다. 셋째, 본 연구에서는 건설사고 텍스트데이터와 사고발생일을 기준으로 계절별 위험요소의 중요도를 분석했다. 향후, 사고발생 지역 온도, 강우강도 등 날씨관련 부가 속성(Attribute)을 이용한 기온별, 강우량별 건설공사 위험요소 중요도 분석으로 확장될 수 있다.

본 논문에서는 국내 건설업 재해사례 텍스트 데이터에 텍스트마이닝을 적용해 건설공사 위험요소의 계절별 중요도 측정방법을 제시했다. 제안방법은 대규모 건설업 재해사례 텍스트로부터 건설공사 위험요소 추출 및 분석 시 시간과 비용을 줄일 수 있다. 또한, 계절별로 건설사고 위험요소에 대해 빈도관점과 중심성관점에서 중요도를 식별할 수 있으며, 식별결과는 날씨, 계절, 기후와 관련한 건설사고 안전대책수립에 활용할 수 있다.

Acknowledgements

이 논문은 2018년도 정부(교육부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임(No. 2018R1A6A1A08025348).

References

1 
Bastian, M., Heymann, S. and Jacomy, M. (2009). "Gephi: An open source software for exploring and manipulating networks." 3rd International AAAI Conference on Weblogs and Social Media, San Jose, California, pp. 361-362.
2 
BeautifulSoup (2020). Beautiful soup documentation, Available at: https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (Accessed: June 25, 2020).
3 
Blondel, V. D., Guillaume, J. L., Lambiotte, R. and Lefebvre, E. (2008). "Fast unfolding of communities in large networks." Journal of Statistical Mechanics: Theory and Experiment, DOI: 10.1088/ 1742-5468/2008/10/P10008. 10.1088/1742-5468/2008/10/P10008 DOI
4 
Das, K., Samanta, S. and Pal, M. (2018). "Study on centrality measures in social network: A survey." Social Network Analysis and Mining, Vol. 8, No. 13, DOI: 10.10007/s13278-018-0493-2. 10.1007/s13278-018-0493-2 DOI
5 
Goh, Y. M. and Ubeynarayana, C. U. (2017). "Construction accident narrative classification: An evaluation of text mining techniques." Accident Analysis & Prevention, Vol. 108, pp. 122-130. 10.1016/j.aap.2017.08.026 28865927 DOI
6 
Jallan, Y., Elizabeth B., Baabak A. and Caroline, M. C. (2019). "Application of natural language processing and text mining to identify patterns in construction-defect litigation cases." Journal of Legal Affairs and Dispute Resolution in Engineering and Construction, Vol. 11, No. 4, DOI:10.1061/%28ASCE%29LA. 1943-4170.0000308. 10.1061/(ASCE)LA.1943-4170.0000308 DOI
7 
Jeong, S. S., Bae, D. H., Kim, H. K., Kim, J. H., Lee, J. H., Kim, S. E., Park, S. K., Kim, J. H., Yun, T. S., Mun, S. H., Park, J. H. and Kang, H. J. (2017). Climate change-induced infrastructure design manual, Korean Society of Civil Engineers Press, KSCE (in Korean).
8 
Kim, J. S. and Kim, B. S. (2019). "Characteristics analysis of seasonal construction site fall accident using text mining." Korean Journal of Construction Engineering and Management, Vol. 20, No. 3, pp. 113-121 (in Korean).
9 
Kim, S., Lim, S. Y., Park, M. S. and Kim, K. T. (2016). "Text mining analysis for instigating international research trend in construction automation." Proceedings of 2016 Korean Society of Civil Engineers, KSCE, pp. 51-52 (in Korean).
10 
Kim, T. H. and Chi, S. H. (2019). "Accident case retrieval and analysis: Using natural language processing in the construction industry." Journal of Construction Engineering and Management, Vol. 145, No. 3, DOI: 10.1061/%28ASCE%29CO.1943-7862.0001625. 10.1061/(ASCE)CO.1943-7862.0001625 DOI
11 
Kim, Y. H., Jeong, J. H., Kang, D. B., Park, K. M. and Kim, S. M. (2015). "Trend analysis of research topics in journal of lifelong learning society: Using network text analysis." Journal of Lifelong Learning Society, Vol. 11, No. 1, pp. 291-315 (in Korean). 10.26857/JLLS.2015.02.11.1.291 DOI
12 
Lee, G. T., Moon, S. H., Oh, H. C., Shin, Y. H. and Chi, S. H. (2018). "Non-compliance specification checking based on text- mining construction standard analysis." Proceedings of 2018 Korean Society of Civil Engineers, KSCE, pp. 269-270 (in Korean).
13 
Marzouk, M. and Enaba, M. (2019). "Text analytics to analyze and monitor construction project contract and correspondence." Automation in Construction, Vol. 98, pp. 265-274. 10.1016/j.autcon.2018.11.018 DOI
14 
McInnes, J. A., MacFarlane, E. M., Sim, M. R. and Smith, P. (2018). "The impact of sustained hot weather on reisk of acute work- related injury in Melbourne, Australia." International Journal of Biometeorology, Vol. 62, pp. 153-163. 10.1007/s00484-017-1435-9 28887672 DOI
15 
Ministry of Land, Infrastructure and Transport (MOLIT) (2014). Development of risk factor for construction project, MOLIT Research Report (in Korean).
16 
National Institute of Meteorological Sciences (NIMS) (2018). Climate change in the Korean peninsula for 100 years, NIMS Research Report (in Korean).
17 
Park, E. J. and Cho, S. Z. (2014). "KoNLPy: Korean natural language processing in Python." Proceedings of the 26th Annual Conference on Human & Cognitive Language Technology (in Korean).
18 
Park, M. H. (2016). "The analysis of knowledge structure using Co-word method in quality management field." Journal of the Korean Society for Quality Management, Vol. 44, No. 2, pp. 389-408 (in Korean). 10.7469/JKSQM.2016.44.2.389 DOI
19 
Scikit-learn (2020). Scikit-learn machine learning in python, Available at: https://scikit-learn.org (Accessed: June 25, 2020).
20 
Song, J., Hu, R., Sun, B., Gu, Y., Xiong, W. and Zhu, J. (2019). "Research on news keyword extraction based on TF-IDF and Chinese features." Proceedings of 2019 2nd International Conference on Financial Management, Education and Social Science, FMESS, Huhhot, China, pp. 334-342.
21 
Wang, Y., Li, H. and Wu, Z. (2019). "Attitude of the Chinese public toward off-site construction: A text mining study." Journal of Cleaner Production, Vol. 238, DOI: 10.1016/j.jclepro.2019.117926. 10.1016/j.jclepro.2019.117926 DOI
22 
Yoon, S. Y. and Yoon, D. K. (2018). "Analysis of direct and indirect impacts of seismic risk using text mining." Proceedings of 2018 Korean Society of Civil Engineers, KSCE, pp. 8-10 (in Korean).
23 
Yun, J. H., Ryu, E. J. and Lee, S. Y. (2018). "Text network analysis related to disclosure of cancer diagnosis among Korea and other countries." Asian Oncology Nursing, Vol. 18, No. 3, pp. 154-162 (in Korean). 10.5388/aon.2018.18.3.154 DOI
24 
Zhang, F., Fleyeh, H., Wang, X. and Lu, M. (2019). "Construction site accident analysis using text mining and natural language processing techniques." Automation in Construction, Vol. 99, pp. 238-248. 10.1016/j.autcon.2018.12.016 DOI
25 
Zhong, B., Pan, X., Love, P. E., Ding, L. and Fang, W. (2020). "Deep learning and network analysis: Classifying and visualizing accident narratives in construction." Automation in Construction, Vol. 113, 103089. 10.1016/j.autcon.2020.103089 DOI