민지영
(Jiyoung Min)
1
유병준
(Byeongjun Yu)
2
김종혁
(Jonghyeok Kim)
3
전해민
(Haemin Jeon)
4†
-
정회원,한국건설기술연구원 구조연구본부 수석연구원
-
정회원,㈜스트라드비전 연구원
-
정회원,한밭대학교 건설환경공학과 학부생
-
정회원,한밭대학교 건설환경공학과 부교수
Copyright © The Korea Institute for Structural Maintenance and Inspection
키워드
비전센서, 딥러닝, 방충설비 세분화, 항만시설물
Key words
Vision sensor, Deep learning, Fender segmentation, Port structure
1. 서 론
「항만법 제2조(정의)」에서 정의하는 항만시설은 기본시설, 기능시설, 지원시설, 항만친수시설, 항만배후단지로 구분되며, 기본시설은 수역시설, 외곽시설,
임항교통시설, 계류시설로 구분된다. 국내에 설치된 항만 중 공공관리주체에서 관리하는 항만시설 1,144개 중 외곽시설은 311개소, 계류시설은 685개소로
전체 시설물의 87.1%를 차지하며, 항만 운영 및 작업자 안전에 있어 매우 중요한 시설이다. 2000년 이전 건설된 시설이 약 49.4%에 해당하여
2030년을 기점으로 공용연수 30년을 초과하는 노후 항만시설물이 약 50%까지 증가할 것으로 예상된다. 이와 같이 항만시설의 노후화뿐만 아니라 기후변화로
인해 설계파고 이상의 파랑이 발생하는 빈도가 증가함에 따라 항만시설 파손 사례가 증가하고 있고, 점검 및 유지관리를 통한 안전성 및 사용성 확보가
중요한 문제로 대두되고 있다. 특히, 접안 시 선박에 의한 접안력 및 마찰력으로 인해 선체 및 구조물에 발생하는 파손을 방지하기 위하여 안벽 상부공
측면에 설치되는 방충설비의 경우, 항만 사용성 측면에서 중요성을 가진다. 「시설물의 안전 및 유지관리에 관한 특별법」개정에 따라 성능평가체계 중 사용성능
평가에서 손상 유무를 판별하게 되어 있으며(국토교통부, 2018), 현재 인력기반 육안 점검을 통해 「항만 및 어항 방충설비 유지관리 매뉴얼(2018)」에 따라 손상 면적 또는 손상 길이, 볼트 풀림 등 손상을
직접 분류・측정하여 기록하고 있다(해양수산부, 2018; 해양수산부, 2015). 그러나 물양장 등 소형 선박 접안시설을 제외하고는 신규 및 교체 설치 전체 공정의 까다로움, 접안 시 발생하는 잦은 파손 사례, 육상 접근의
어려움 등을 고려할 때 방충설비의 점검은 고도화될 필요가 있다.
한편, 드론 촬영 영상을 활용한 항만시설물 점검 기술 개발에 관한 수요가 증가하면서, 해양수산부에서 발표한 ‘항만시설물 스마트 유지관리 로드맵(2020)’에도
관련 기술이 대표기술로 포함되어 있다(해양수산부, 2020). 특히 드론은 점검자가 육상에서 점검하기 어려운 상치콘크리트, 본체 등 상・하부공 전면부(seaward)의 외관조사에 적극적으로 활용할 수 있기
때문에 영상 기반 방충설비 점검도 가능하다.
현재까지 영상 기반 방충설비의 점검 및 유지관리 자동화와 관련한 연구는 보고된 바 없으며, 방충설비를 활용한 센싱 및 접안 보조장치 개발과 관련한
연구만 일부 수행되었다. Sakakibara and Kubo(2007)은 방충설비에 공기압 센서를 부착하여 계측한 데이터를 무선으로 선박에 전송함으로써 선박 접안 시 보조 가능한 시스템을 개발하였다(Sakakibara and Kubo, 2007). Yamada et al.(2012) 역시 공기압의 변화를 측정하고 데이터를 무선으로 전송하여 선박의 접안을 보조할 수 있는 기술을 개발하였다(Yamada et al., 2012). 즉, 현재까지 영상 활용 딥러닝 기술을 도입한 안벽 방충설비 자체의 상태 건전성 진단에 관한 연구는 전무한 실정이다.
이에 본 논문에서는 비전센서 및 딥러닝 기법을 이용하여 수많은 촬영 영상 중 방충설비를 자동으로 검출할 수 있는 방충설비 세분화(segmentation)
알고리즘을 개발하고, 실제 항만시설 영상에 이를 적용하여 정확도를 검증하고자 한다. 알고리즘 개발 프로세스는 다음과 같다. (1) 다양한 유형의 방충설비
영상 데이터를 수집하고, (2) 딥러닝 모델 성능 향상을 위하여 탄력적 변형(elastic distortion), 좌우 변환, 색상 수정, 기하학적(affine)
변환을 통해 영상 데이터 셋을 증강시킨 다음, (3) 각 영상에 대하여 픽셀 단위 라벨링을 수행한다. 그리고 (4) 효율적인 물체 세분화를 위하여
인코더(encoder)-디코더 (decoder) 형식과 인간의 시각체계의 편심 기능에서 영감을 얻은 수용 영역 블록(receptive field block)
합성곱 모듈을 DenseNet 형태로 개선한 딥러닝 모델을 개발하고, (5) 국내 A항에서 촬영된 영상에 개발 알고리즘을 적용하여 정확도를 검증한다.
다만, 항만시설은 보안시설이 대부분이기 때문에 본 논문에서 현장과 관련한 구체적인 정보를 제공하는 데에 한계가 있음을 밝혀둔다.
2. 방충설비 검출을 위한 딥러닝 모델 개발
2.1 물체 세분화을 위한 딥러닝 모델
근래 컴퓨터 비전 분야에서 특정 물체를 식별하는 객체 인식과 물체가 존재하는 위치를 파악하는 객체 검출 분야에 딥러닝을 적용하는 기술들이 활발하게
제안되고 있다. 객체 인식과 검출 문제에서 딥러닝이 주목받을 수 있었던 데에는 합성곱 신경망(Convolutional Neural Network,
CNN)이 큰 역할을 하였으며, CNN은 필터를 사용하여 영상의 각 부분에서 합성곱 연산을 수행하고 다운 샘플링을 통해 특징을 요약하여 영상 내에
존재하는 특징을 추출한다. 각각의 층(layer)에서 서로 다른 종류의 필터들을 사용하여 다양한 특징을 추출하고 그 결과들을 결합하여 학습하면서 오차들을
수정할 수 있으므로 객체 인식과 검출에서 큰 이점을 가진다.
그러나 CNN을 사용한 객체 검출은 객체가 존재하는 관심 영역(region of interest)을 찾기 위해 영상의 모든 부분을 일정한 간격으로
확인하는 방법을 사용하기 때문에 많은 연산량이 필요하다는 문제가 있다. 따라서 초기에 입력되는 이미지에서 각각의 특성을 가지고 분할되는 영역들을 바탕으로
관심 영역을 제안하는 알고리즘을 포함하는 RCNN (Regions with CNN features)이 제안되었다(Girshick et al., 2014). 그러나 해당 방법 역시 추출된 모든 후보 영역들에 CNN을 사용한 연산을 수행하기 때문에 연산량 및 연산 시간에 있어 개선이 필요하다. 이에 입력
이미지를 초기에 특징에 맞추어 나누는 대신 CNN을 사용하여 특징에 따른 분할을 수행하는 Fast RCNN (Fast Region- based CNN)이
제안되었다(Girshick, 2015). Fast RCNN은 초기 연산 비용의 절약에는 성공했지만, 여전히 연산량이 높아 CNN을 거쳐 특징이 추출된 이미지에서 후보 영역을 추출할 수
있는 RPN (Region Proposal Networks)을 추가하여 후보 영역을 추출하고 객체 검출과 분류를 수행하는 Faster RCNN이 제안되었다(Ren et al., 2015). 앞에서 설명한 RCNN은 관심 영역을 검출하는 층과 객체를 분류하는 층이 별도로 존재하는 형태의 모델을 사용하며 이와는 달리 하나의 층에서 관심
영역의 검출과 객체의 분류가 모두 이루어지는 YOLO (You Only Look Once) 혹은 SDD (Single Shot Multibox Detector)의
방법들도 제안되었고, 이는 실시간 물체 검출에 적용 될 수 있다. YOLO는 입력 이미지를 일정 크기의 그리드로 나누고, 각 그리드 내 관심 영역을
검출하며, 최종 레이어의 특징맵에서 관심 물체를 검출한다. 그러나 그리드보다 작은 형태의 물체를 감지할 수 없으며, 마지막 단의 특징맵만 사용하면서
정확도가 상대적으로 낮다는 한계점이 있다(Redmon et al., 2016). 이러한 단점을 극복하기 위하여 SSD는 합성곱 각 단계의 특징맵에서 모두 물체를 검출하여 검출 성능을 향상시켰다(Liu et al., 2016).
객체 검출에서 더 나아가 영상에서 물체를 픽셀 단위에서 검출하는 물체 분할(instance segmentation)에 관한 연구도 다수 수행되었다.
기존의 객체 검출 모델인 Faster RCNN의 RPN에서 얻은 정보를 활용하여 픽셀 단위로 세분화된 객체 마스크(mask)를 예측하는 mask RCNN
기법이 제안되었다(He et al., 2017). 객체 검출 모델을 활용한 mask RCNN과 달리 Long et al.(2015)은 하나의 네트워크에서 인코더를 사용하여 영상의 특징을 추출하고 영상을 단순화한 후 디코더를 사용하여 영상의 크기를 원래 크기로 복원하는 과정을 통해
영상 분할을 시도한 FCN (Fully Convolutional Networks)를 제안하였다(Long et al., 2015). U-net은 영상 분할 시 영상 전체의 문맥 정보를 전달하기 위해 FCN의 인코더와 같은 단계의 디코더에 인코더 영상의 정보를 전달하는 연산을
추가하여 객체 자체뿐 아니라 주변의 정보들도 전달 할 수 있도록 하였다(Ronneberger et al., 2015).
건설 분야에서는 인코더-디코더 네트워크를 활용하여 균열을 검출하는 건전도 진단 기술이 개발되어 왔다. 다만 대부분 검출하고자 하는 대상에 특화된 네트워크
개발이 아닌 VGG 또는 ResNet과 같이 기존에 개발된 합성곱 모듈을 적용하는 방식으로 진행되었다(Dung and Anh 2019; Islam and Kim 2019; Dong et al., 2021). 본 논문에서는 영상의 픽셀단위 검출을 위하여 영상 분할화 기법 중 하나인 FCN 기반 인코더-디코더 형식의 네트워크를 개발하여 높은 정확도 및
정밀도로 방충설비를 검출할 수 있는 합성곱 모듈을 제안하였다. 크기 및 모양이 다양한 방충설비를 검출하기 위해, 다양한 크기에서 추출된 특징을 활용하는
계층적 특징 융합과 모든 레이어의 출력을 연결하는 방식으로 합성곱 모듈을 설계하였다.
Fig. 1 Fender installation
2.2 방충설비 세분화를 위한 딥러닝 네트워크 개발
딥러닝 기반의 방충설비 검출을 위하여, 인코더-디코더 형식의 네트워크와 인간 시각체계의 편심 기능에서 영감을 얻은 수용 영역 블록(이하 RFB; Receptive
Field Block) 합성곱(convolution module) 모듈을 DenseNet 형태로 개선하여 활용하였다(Liu et al., 2018). RFB로 구성된 모듈은 입력된 특징맵을 커널의 수용영역의 크기가 다양한 표준 합성곱과 커널 사이즈에 비례하여 팽창율(dilation rate)을
갖는 팽창 합성곱을 이은 피라미드로(이하 RFP; Receptive Field Pyramid), 넓은 영역을 효율적으로 탐색할 수 있다. 입력 특징맵의
채널을 줄여 네트워크 전체의 파라미터를 줄이고 계산 속도를 개선하기 위한 채널 변조층(channel modulation layer), 다양한 크기의
특징을 얻기 위한 단일 표준 합성곱과 복수개의 팽창 합성곱으로 구성된 경로의 다각화, 그리고 다양한 크기에서 추출된 특징을 적절히 합하고 디그리딩(degridding)을
위한 계층적 특징 융합(이하 HFF; hierarchical feature fusion)을 마지막 출력 레이어에 추가하여 네트워크를 구축하였다(Wang et al., 2019). 검출 성능향상을 위하여 DenseNet과 같이 이전 레이어의 출력을 더하여 입력으로 삼는 DRFP (DenseNet+RFP) 혹은 DRFPt (tiny
version of DRFP) 기반으로 특징맵을 연결하여 설계하였다.
방충설비 영상의 세분화를 위한 딥러닝 네트워크의 전체적인 구조는 Fig. 2와 같다. 특징맵의 크기를 줄이는 스트라이드 합성곱(stride convolution), 특징맵의 크기를 키우는 픽셀 셔플(pixel shuffle),
그리고 제안하는 합성곱 모듈인 DRFP와 DRFPt를 활용하여 특징맵의 크기를 줄였다 키우는 인코더-디코더 구조의 네트워크를 설계하였다. 그림에서
상단부는 인코더이고, 하단부는 디코더이다. 본 논문에서 제안하는 네트워크는 경계선에 대한 정보를 잃지 않는 업샘플링(upsampling) 방식, 모든
레이어의 특징맵을 연결하는 깊은 레이어 구조와 다양한 크기에서 추출한 특징을 이용하는 합성곱 모듈을 통해 높은 정확도를 보여주는 동시에, 10 fps
(Intel Core i7-9700K 3.60 GHz CPU와 32 GB 램(RAM) 사양 기준)이상의 빠른 동작속도를 가진다. 각 단계의 음영처리
된 모듈은 채널의 감소로 인하여 하락한 검출 정확도를 보상하기 위하여 Fig. 3와 같이 단일 표준 합성곱에 팽창율이 다른 두 개의 팽창 합성곱을 이용하여 다양한 크기의 특징을 추출한다. 작은 크기의 특징맵(Q1, E1 또는 Q2,
E2)에는 상대적으로 좁은 영역을 탐색하는 DRFPt를 사용하여 계산량을 줄이고 효율적으로 탐색할 수 있도록 설계하였다.
Fig. 2 Deep learning network for fender detection
Fig. 3 Convolution modules (DRFP and DRFPt) for fender detection
2.3 방충설비 영상 데이터셋 구축
본 논문에서 제안한 딥러닝 기반의 방충설비 세분화 알고리즘은 입력 영상과 출력 영상의 구성으로 학습데이터를 구성하고, 이를 바탕으로 네트워크의 파라미터를
학습하는 지도학습(supervised learning)에 기반한다. 출력 영상은 원본 영상을 라벨링(labelling)하여 구축하였으며, 방충설비
학습을 위한 원본(입력) 및 라벨링(출력) 영상 데이터셋을 Fig. 4의 예시와 같이 확보하였다. 확보된 원본 영상은 MATLAB 라벨링 툴박스를 이용하여 Fig. 5와 같이 픽셀단위로 라벨링하였다. 또한, 확보된 원본 및 라벨링 영상은 검출 성능 향상을 위하여 탄력적 변형(elastic distortion),
좌우 변환, 색상 수정, 기하학적(affine) 변환 방법을 적용하여 증강시켰다(Fig. 6). 영상의 기하학적 변환시 양선형 보간법(bilinear interpolation)을 적용하여 최근방 이웃 보간법(nearest neighbor
interpolation)에서 발생할 수 있는 영상 경계부의 계단현상을 감소시키고자 하였다.
개발된 딥러닝 모델의 성능을 검증하기 위하여 BP형, V형, 타이어형, 원통형, 충격흡수판을 포함한 국내 항만시설에서의 방충설비의 영상을 1,047장
확보하였으며 원본 영상에 대하여 라벨링을 수행하였다. 방충설비 영상 중 BP·V형 방충설비는 510장, 타이어형 방충설비는 362장, 충격흡수판형
방충설비는 120장, 원통형 방충설비는 33장, 그 외 롤러형 등 기타 방충설비는 22장이 포함되었다. 원본 영상 및 라벨링 영상 중 20%인 209개는
모델의 성능을 평가하기 위한 데이터로 사용하였으며, 나머지 838개의 데이터는 앞서 제시한 변환 방법을 적용하여 증강시켜 총 4,190개의 데이터로
부풀린 다음 딥러닝 모델의 학습을 위해 사용하였다.
Fig. 4 The collected images of various types of fenders
Fig. 5 Labelling of different types (BP, tire, and cylindrical) of fender images
Fig. 6 Image augmentation using (a) elastic distortion,
2.4 딥러닝 네트워크 성능 분석
모델 구축을 위한 딥러닝 프레임워크로 파이토치(Pytorch)를 사용하였다. 모델 학습을 위한 배치 사이즈(batch size)는 3으로 설정하였고,
전체 데이터 세트를 학습하는 에포크 (epoch)를 500으로 설정하여 반복하였다. 테스트 수행 결과의 성능은 IoU (Intersection over
Union)와 조화평균(F1 score)으로 평가하였다. IoU는 영상 내 물체 세분화에 대표적으로 사용되는 지표로 참값(GT: ground truth)과
예측값 간의 교집합과 합집합의 비율이다. 조화평균은 정밀도와 재현율의 조화평균인데, 정밀도는 방충설비라고 분류한 것 중에서 실제로 방충설비인 것의
비율, 재현율은 실제 방충설비인 것 중에서 모델이 방충설비라고 예측한 것의 비율을 뜻한다.
개발 모델의 학습 성능은 IoU와 조화평균이 각각 84.5%, 90.1%이었으며, 세분화 결과는 Fig. 7(c)과 같다. 그림에서 보는 바와 같이 본 논문에서 설계한 DRFP 기반의 인코터-디코더 형식의 딥러닝 네트워크가 BP, 타이어, 충격흡수판 타입 등
다양한 형태의 방충설비를 보다 정밀하게 검출하며, 전체 데이터셋의 48%, 37%를 차지하는 BP형·V형 및 타이어형의 방충설비 세분화의 성능이 상대적으로
높았다.
본 논문에서 설계한 딥러닝 네트워크의 성능 비교를 위하여, 생의학 분야에서 영상 세분화를 목적으로 제안된 U-net 네트워크(Ronneberger et al., 2015)와 특징점 검출을 위한 VGG16 모델(Simonyan et al., 2014)로 구성된 VGG16-Unet을 활용하여 모델 학습 성능을 분석・비교하였다. 모델 구축을 위한 딥러닝 프레임워크로 텐서플로우(Tensorflow)를
사용하였고, 영상 데이터 셋, 하드웨어 구성, 학습 파라미터 등의 조건은 본 논문에서 개발한 딥러닝 세분화 모델과 동일하게 설정하였다. VGG16-Unet은
중심 및 상하좌우를 표현할 수 있는 가장 작은 $3\times 3$ 크기의 필터를 중복하여 사용함으로써 전체적인 합성곱 레이어의 파라미터 개수를 감소시켜
학습속도 향상의 이점을 누릴 수 있으며, 본 논문에서는 16개의 가중치 레이어로 구성된 VGG16-Unet 모델을 사용하였다.
기존 VGG16-Unet 모델의 학습 성능은 IoU와 조화평균이 각각 81.4%, 88.0%이었으며, 세분화 결과는 Fig. 7(d)와 같다. 다. 그림에서 보는바와 같이 본 연구에서 개발한 네트워크가 기존 모델 대비 2~3% 더 높은 정밀도로 세분화할 수 있음을 확인하였다.
Fig. 7 Comparison of segmentation results with the
3. 방충설비 검출 딥러닝 모델의 현장 적용성 검토
3.1 개발 딥러닝 네트워크의 현장 촬영 영상에의 적용
타 SOC 시설물과 달리 항만시설물의 고유 특징 중 하나는 평균간조면(L.W.L)과 평균만조면(H.W.L)까지의 간만대 및 비말대(물보라대)의 존재이다.
방충설비는 상・하부공의 전면부에 위치하기 때문에 조위 차이로 인한 색상변화가 필연적으로 발생한다. 또한 구조물 표면에 따개비 혹은 조개와 같은 해양생물의
서식은 방충설비의 외형에 영향을 미친다. 따라서 항만시설 촬영 영상 내에서 방충설비를 검출하기 위해서는 이러한 형상 및 색상 변화를 고려한 영상 데이터
셋 구축이 필요하다.
본 논문에서는 조위차 등으로 인하여 노출되는 방충설비의 색상 및 형상 변화에도 방충설비를 안정적으로 검출할 수 있는지 실제 항만시설에의 적용 가능성을
검토하고자 한다. 이를 위하여 국내 A항에 설치되어 있는 BP형 방충설비를 만조시와 간조시에 촬영하였으며, 촬영 영상 예시를 Fig. 8에 나타내었다. A항 촬영 원본 영상 265장 및 이를 2절과 동일하게 탄력적 변형, 좌우 변환, 색상 수정, 기하학적 변환 방법을 적용하여 증강한
1,325장 영상에 대하여, 본 논문에서 개발한 DRFP 기반 인코더-디코더 형태의 딥러닝 네트워크와, 결과 비교를 위하여 기존에 개발된 VGG16-Unet을
통해 학습함으로써 세분화 성능을 비교・검증하였다. 단, 학습을 위한 영상 데이터는 Fig. 8(a)와 같이 만조시에 촬영된 영상만 사용하였으며, 테스트를 위한 영상 데이터로는 Fig. 8(b)와 같이 간조시에 촬영된 원본영상 87장만을 사용하였다.
간조시 촬영된 영상을 사용하여 본 논문에서 개발한 딥러닝 네트워크의 성능을 평가한 결과 IoU 및 조화평균이 각각 81.4%, 88.4% 였다. 반면,
기존 모델인 VGG16-Unet을 통해 성능을 평가한 결과 66.8%, 77.2%로 개발 모델보다 각각 14.6%, 11.2% 낮게 나타났다. 현장
적용성 검증을 위한 원본 영상, 참값, 검출 결과의 예를 Fig. 9(a)~(d)에 나타내었다. 그림에서 보듯이, 개발 모델의 경우 만조위보다 높은 곳에 위치한 방충설비에 대하여 방충설비와 주변 콘크리트 사이의 경계면을 명확하게
검출하였으며, 간만대에 위치한 방충설비의 경우 주변 콘크리트와 방충설비의 색상 차이에 따라 검출율이 다르게 나타났다. 반면, VGG16-Unet
모델은 방충설비와 주변 콘크리트의 색상 차이가 명확한 경우를 제외하고 다수의 경우에서 방충설비의 모서리면에 대한 검출율이 낮게 나타났다.
개발 모델의 경우 IoU 및 조화평균 모두 80% 이상으로 대부분의 방충설비가 안정적으로 검출되었으나, (1) 방충설비의 일부만 촬영된 경우, (2)
따개비 등 해양생물이 방충설비와 주변 콘크리트 표면에 붙어 있어 경계면이 모호한 경우, (3) 방충설비 인근에 타설면 혹은 표시선 등이 음각 라인으로
나타난 경우 방충설비 검출 성능이 저하됨을 확인할 수 있었다. 이러한 문제를 해결하기 위해서는 성능을 저하시키는 원인을 포함한 학습 영상 데이터 셋
확보가 필요하다.
Fig. 8 Image dataset captured at high and low tide
Fig. 9 Comparison of segmentation results with the proposed model and VGG16-Unet
3.2 영상 합성을 통한 방충설비 세분화 성능 개선 검토
따개비 및 음각 라인으로 인한 오검출율을 줄이기 위하여, 영상 합성을 통한 학습 데이터 셋을 추가로 구축하였다. 영상합성을 위하여 포토샵(Adobe
photoshop CS6)을 사용하였으며, 합성 영상의 예시를 Fig. 10에 나타내었다. 따개비 및 음각 라인이 포함된 합성 영상 235장을 추가로 구축하여 이를 포함한 원본 영상 500장과 증강 영상을 포함한 총 2,500장의
영상 데이터 셋을 사용하여 모델 학습을 수행하였다. 이후 3.1절에서 사용한 테스트 영상을 통해 세분화 성능을 확인하였다.
개발 모델의 경우 IoU 및 조화평균이 각각 83.1%, 89.1%으로 기존 대비 1~2% 향상되었으며, VGG16-Unet 모델의 경우 80.9%,
88.3%로 10% 이상 향상됨을 확인하였다. 각 모델에 대하여 합성 영상 사용 전(Fig. 9)과 합성 영상 사용 후(Fig. 11) 성능 검증 결과를 비교해보면(Table 1), 기존에 오검출되었던 방출설비 인접 음각 라인이 영상 합성 후 전체 영상에서 검출되지 않았으며, 따개비의 경우 합성 전에 비하여 세분화되긴 하였으나
명확한 검출은 어려웠다. 이는 항만시설물 간만대에 위치한 방충설비를 대상으로 딥러닝 모델을 사용할 때 따개비 등 해양생물을 포함한 더 많은 영상이
학습 데이터 셋으로 구축되어야 함을 의미하며, 지속적인 영상 확보를 통하여 모델 성능을 개선시킬 계획이다.
개발 모델의 경우 상대적으로 특징점이 적은 수의 영상 데이터 셋에서도 VGG16-Unet과 비교하여 10% 이상의 높은 IoU 및 F1 Score값을
가졌으며(Fig. 9), 특징점을 포함한 데이터 셋이 충분한 경우에는 다소 개선된 성능을 보임을 확인하였다(Fig. 11). 이는 개발된 네트워크가 DenseNet 기반으로 설계되었으며, 다양한 크기의 팽창율을 갖는 합성곱으로 구성되어 데이터 셋 내에서 다양한 크기의
특징점을 보다 빠르게 학습하기 때문에 적은 수의 학습 데이터만으로도 안정적으로 성능을 확보할 수 있는 것으로 판단된다.
Fig. 10 Synthesis of fender images with barnacles and engraving lines
Fig. 11 Segmentation results after application of synthetic images
Table 1 Fender segmentation results
IoU (%)
|
Proposed model
|
VGG16-Unet
|
Without synthetic images
|
81.4
|
66.8
|
With synthetic images
|
83.1
|
80.9
|
4. 결 론
본 논문에서는 비전 센서의 영상 정보와 딥러닝 네트워크를 사용한 방충설비 검출 알고리즘을 개발하였다. 딥러닝 네트워크의 경우 인코더-디코더 형식의
DenseNet 기반의 수용 영역 피라미드(RFP: Receptive Field Pyramid)의 합성곱 모듈로 설계함으로써 방충설비를 안정적으로
검출하도록 하였다. 1,047개의 다양한 유형의 방충설비 원본 영상 데이터에 대하여, 80%인 838개에 대하여 영상을 증강시켜 총 4,190개의
학습 데이터를 생성하였으며, 나머지 20%인 209개를 통하여 개발 모델의 성능을 확인하였다. 그 결과 IoU 및 조화평균이 각각 84%, 90%
이상임을 확인하였다. 동일한 영상 데이터 셋 및 학습 환경의 U-net 네트워크 기반 VGG16 영상 세분화 모델(VGG16-Unet)과 성능을 비교한
결과, 본 연구에서 개발한 DRFP 기반의 모델이 상대적으로 우수한 세분화 성능을 보임을 확인하였다.
설계 및 학습된 세분화 딥러닝 네트워크의 현장 적용성 검토를 위하여, 계류시설의 주요 특징 중 하나인 조위차 등에 의한 방충설비의 색상 및 형상 변화를
안정적으로 검출할 수 있는지 검토하였다. 검토 결과 본 논문에서 개발한 딥러닝 네트워크가 기존 세분화 모델인 VGG16-Unet 대비 특징점이 적은
수의 영상 데이터 셋으로 보다 나은 세분화 성능을 보임을 확인하였다. 따개비 및 음각 라인으로 인한 오검출을 줄이고 검출율을 향상시키기 위하여 학습
영상 확보를 위해 영상 합성을 수행하였으며 그 결과 성능이 향상될 수 있음을 확인하였다. 특히, 영상 합성이 수월했던 음각 라인의 경우 기존에 방충설비로
오검출된 모든 케이스에 대하여 검출되지 않음을 확인하였다.
향후에는 검출된 방충설비에서 발생한 결락, 균열, 갈라짐 등의 주요 손상 유형을 검출하고 손상지수를 산정함으로써 드론을 활용한 점검에 탑재하여 활용할
수 있는 영상 기반 방충설비 건전도 진단 알고리즘으로 고도화하고자 한다. 이를 위하여 드론을 사용하여 방충설비를 촬영하고, 촬영된 영상 품질을 고려하여
개발한 딥러닝 네트워크의 세분화 성능을 개선한 다음, 검출된 방충설비에 대하여 손상을 정량적으로 추정함으로써 「시설물의 안전 및 유지관리 실시 세부지침(성능평가편)」에
포함된 방충설비 사용성능 평가가 자동으로 수행될 수 있는 시스템을 구축할 계획이다.
감사의 글
본 논문은 2021년 해양수산부 재원으로 해양수산과학기술진흥원(과제번호 20210659)의 지원을 받아 수행되었으며, 이에 감사드립니다. 또한
항 내 시설물 촬영 및 지원에 협조해주신 ○○항만공사에 감사드립니다.
References
Ministry of Land, Infrastructure and Transport., (2018), Detailed guidelines for
safety and maintenance of facilities (performance evaluation), in Korean
Ministry of Oceans and Fisheries., (2018), Harbor and fishing port fender maintenance
manual, in Korean
Ministry of Oceans and Fisheries., (2015), Detailed guidelines for safety inspection
of port facilities, in Korean
Ministry of Oceans and Fisheries., (2020), Port facility maintenance and mid- to
long-term road map establishment project, in Korean
Sakakibara, S., Kubo, M. (2007), Ship berthing and mooring monitoring system by pneumatic-type
fenders, Ocean engineering, Elsevier, 34(8-9), 1174-1181.
Yamada, S., Sakakibara, S., Miyamoto, M., Nakatani, K. (2012), Final acceptance test
on advanced ship maneuvering and mooring support system at ship-to-ship transfer operations
by fender monitoring system of pneumatic fenders, The twenty-second International
offshore and polar engineering conference Rhodes, 901-908.
Girshick, R., Donahue, J., Darrell, T., Malik, J. (2014), Rich feature hierarchies
for accurate object detection and semantic segmentation, Proceedings of the IEEE conference
on computer vision and pattern recognition, Columbus, 580-587.
Girshick, R. (2015), Fast r-cnn, Proceedings of the IEEE international conference
on computer vision, Santiago, 1440-1448.
Ren, S., He, K., Girshick, R., Sun, J. (2015), Faster r-cnn: Towards real-time object
detection with region proposal networks, Advances in neural information processing
systems, Montreal, 91-99.
Redmon, J., Divvala, S., Girshick, R., Farhadi, A. (2016), You only look once: Unified,
real-time object detection, Proceedings of the IEEE conference on computer vision
and pattern recognition Las Vegas, 779-788.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., Berg, A.C. (2016),
SSD: Single shot multibox detector, European conference on computer vision, Amsterdam,
21-37.
He, K., Gkioxari, G., Dollár, P., Girshick, R. (2017), Mask r-cnn, Proceedings of
the IEEE international conference on computer vision, Venice, 2961-2969.
Long, J., Shelhamer, E., Darrell, T. (2015), Fully convolutional networks for semantic
segmentation, Proceedings of the IEEE conference on computer vision and pattern recognition,
Boston, 3431-3440.
Ronneberger, O., Fischer, P., Brox, T. (2015), U-Net: Convolutional Networks for Biomedical
Image Segmentation, Proceedings of the International conference on medical image computing
and computer-assisted intervention ,Munich, 234-241.
Dung, C. V., Anh, L. D. (2019), Autonomous concrete crack detection using deep fully
convolutional neural network, Automation in Construction, 99, 52-58.
Islam, M.M.M., Kim, J.-M. (2019), Vision-based autonomous crack detection of concrete
structures using a fully convolutional encoder–decoder network, Sensors, 19(4251)
Dong, C., Li, L., Yan, J., Zhang, Z., Pan, H., Catbas, F.N. (2021), Pixel-level fatigue
crack segmentation in large-scale images of steel structures using an encoder–decoder
network, Sensors, 21(4135)
Liu, S., Huang, D. (2018), Receptive field block net for accurate and fast object
detection, Proceedings of the European Conference on Computer Vision (ECCV), Munich,
385-400.
Wang, H., Su, D., Liu, C., Jin, L., Sun, X., Peng, X. (2019), Deformable non-local
network for video super-resolution, IEEE Access, 7, 177734-177744.
Simonyan, K., Zisserman, A. (2015), Very deep convolutional networks for large-scale
image recognition, Proceedings of the 3rd International conference on leaning representations