Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 74, No. 04, p.635-643

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 02 Oct. 2024Revised : 23 Dec. 2024Accepted : 05 Feb. 2024

DOI :

https://doi.org/10.5370/KIEE.2025.74.4.635

서빙 로봇을 위한 LLM 기반 공간정보 처리 및 음성 인식 기반 명령

LLM-Based Spatial Information Processing and Voice Command Actions for Serving Robots

박명근 (Myeonggeun Park) ¹iD 이학준 (Hakjun Lee) ¹iD 권우경 (Wookyong Kwon) ^†iD

(Polaris Research, Polaris3D, Republic of Korea.)

^†Corresponding Author : Intelligent Robot System Research Section, Daegu-Gyeongbuk Research Center, ETRI, Republic of Korea. E-mail : wkwon@etri.re.kr

License :

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0)which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.

Translated Abstract

This study proposes an integrated framework to enhance the autonomy and user interaction of serving robots. By combining spatial information processing, speech recognition, and large language models (LLMs), the system improves efficiency and usability in complex environments. It enables precise task execution and enhances user interaction through intuitive speech commands and natural language understanding. The framework also boosts operational efficiency, allowing robots to navigate autonomously and respond to commands in real-time. This approach advances both robot autonomy and user experience, offering a new paradigm in service robotics.

Key words

Serving Robots, Large Language Models (LLMs), Spatial Information Processing, Speech Recognition, Voice Command

1. 서 론

인공지능 기술의 발전에 따라 다양한 산업에서 로봇의 활용이 급격히 증가하고 있으며, 그 중 서비스 로봇 도입의 확산은 주목할 만하다. 최근 서비스 로봇의 활용 범위가 확장됨에 따라 방범, 안내, 배송 서비스 등을 일상 생활에서 더욱 빈번하게 접할 수 있게 되었다. 그 중에서도 서빙 로봇은 F&B (Food & Beverage) 분야에서 반복적인 노동력 부담을 낮추고, 고객 경험을 개선하는 데 중요한 역할을 수행하고 있다. 지능화의 관점에서 기존 서빙 로봇의 활용에 있어 한계점이 존재하며 이를 극복하기 위해서는 향상된 기술의 도입이 요구된다. 서빙 로봇의 활용성 향상을 위해서는 복잡한 환경에서의 자율적 이동 및 사용자와의 자연스러운 상호작용이 필수적이다. 본 연구에서는 노드-엣지 그래프 및 공간 정보화를 통한 자동화된 지도 작성 방안을 제안하며, 음성 인식 기술과 대형 언어 모델을 결합하여 서빙 로봇의 효율적 운영을 위한 새로운 기법을 제시한다.

1.1 로봇 주행과 공간 지도 작성

로봇 내비게이션에서 가장 중요한 요소 중 하나는 정확한 지도 작성 능력이다. 초기 연구에서는 확률적 로봇 모델을 제안하며, 노드와 엣지를 활용한 로봇의 내비게이션 및 위치 추정 기법을 체계적으로 설명하였다^[2]. 이러한 접근은 로봇이 복잡한 환경에서도 신뢰성 있게 이동할 수 있는 기반을 제공한다. 또한 노드-엣지 그래프의 중요성을 강조하며, 로봇의 공간 학습과 자율적 위치 추정을 위한 기본 구조를 제시하였다^[3].

최근 연구들은 이러한 전통적인 접근을 확장하여, 로봇의 자율적 지도 작성 및 내비게이션 성능을 더욱 향상시키기 위한 다양한 방법론을 제시하고 있다. 예를 들어, 복수의 로봇이 협력하여 환경을 탐색하고 지도화하는 멀티 로봇 시스템에서는 각 로봇이 개별적으로 지도 작성 작업을 수행한 후, 이를 통합하여 글로벌 지도를 생성하는 방식이 채택되고 있다^[4]. 이 과정에서 노드-엣지 그래프 구조는 로봇 간 정보 공유와 경로 최적화를 돕는 핵심 역할을 한다. 또한, ArUco 마커 기반 로컬라이제이션을 통한 노드 그래프 접근법은 최근 많은 주목을 받고 있다^[5]. 이 방법은 마커를 노드로 사용하여 로봇이 자신의 위치를 추정하고, 마커 간의 직선 거리와 각도 차이를 활용하여 2D 공간에서의 상대적인 위치를 계산하는 방식으로, 정확하고 효율적인 지도 작성을 가능하게 한다. 이와 같은 최신 연구들은 노드-엣지 그래프가 로봇의 복잡한 환경에서의 자율성 향상에 필수적임을 다시 한 번 입증하고 있다. 본 연구는 이러한 기법을 언어모델 기반으로 서빙 로봇의 공간 정보화에 적용하여, 로봇의 자율적 내비게이션 및 사용자와의 상호작용을 최적화하는 새로운 접근법을 제시한다.

1.2 음성 인식을 통한 사용자 상호작용

음성 인식 기술의 발전은 로봇과 사용자의 상호작용 방식을 크게 변화시키고 있다. 초기 연구에서 음성 명령을 활용하여 멀티로봇 시스템에서의 통신과 작업 할당을 구현하였으며, 이는 기존의 키보드나 조이스틱을 통한 제어 방식보다 사용자가 더 직관적이고 효율적으로 로봇을 제어할 수 있음을 입증하였다^[6]. 이후 연구에서 음성 인식을 통해 개인 비서 로봇을 제어하는 방법을 통해, 사용자 경험을 개선하고 자연스러운 상호작용을 보인바 있다^[7].

최근 연구에서는 대형 언어 모델과 시각적 정보 처리 시스템을 결합하여 자연어를 통한 로봇 제어 방식을 제안하고 있다. 이 방식은 음성 명령을 로봇의 행동으로 실시간 변환하여 사용자와의 상호작용을 강화한다. 이러한 자연어 기반의 음성 명령 처리 시스템은 로봇이 복잡한 작업 환경에서도 사용자의 요구를 즉각적으로 반응하도록 설계되었다. 또한, 딥러닝 기반의 음성 인식 모델이 적용되면서 잡음을 제거하고 명확한 음성 신호를 추출하여 로봇 제어의 신뢰성을 높이고 있다. 이러한 기술은 로봇이 다양한 환경에서 사용자와 원활하고 직관적인 상호작용을 수행할 수 있는 기반을 제공하며, 서빙 로봇의 사용자 경험을 획기적으로 향상시킬 잠재력을 가지고 있다.

1.3 연구동기 및 기여점

본 연구의 주요 목적은 공간 정보 처리, 음성 인식, 그리고 대형 언어 모델을 통합하여 서빙 로봇의 자율성을 강화하고 사용자와의 상호작용을 보다 자연스럽게 만드는 데 있다. 기존 연구들은 각각의 분야에서 상당한 성과를 이루었으나, 이러한 기술들을 통합하여 서빙 로봇에 적용한 연구는 아직 부족한 실정이다. 이에 따라, 본 연구는 각 기술의 장점을 결합하여 서빙 로봇의 효율적 운용과 사용자 경험 향상을 목표로 하는 새로운 시스템을 제안한다.

본 연구의 기여는 서빙 로봇을 위해 자율성과 사용자 상호작용을 향상시키기 위해 대형 언어 모델 기반의 접근 방식을 제안한 데 있다. 첫째, 공간 정보 처리, 음성 인식, 그리고 대형 언어 모델을 하나의 통합 시스템으로 결합하여, 서빙 로봇의 효율성과 사용성을 개선하기 위한 구조를 제안하였다. 이를 통해 로봇이 복잡한 환경에서도 정확하고 신뢰성 있는 동작을 수행할 수 있도록 하였다.

둘째, 음성 인식을 활용한 명령어 처리와 대형 언어 모델 기반의 자연어 이해를 통해, 로봇과의 상호작용이 보다 직관적이고 자연스럽게 이루어지도록 하였다. 이러한 방식은 사용자에게 보다 간편하고 직관적인 인터페이스를 제공하며, 로봇이 사용자의 다양한 요구를 즉각적으로 반영할 수 있도록 돕는다.

셋째, 로봇의 운영 효율성을 극대화하기 위한 기술적 개선을 통해, 복잡한 환경에서도 자율적으로 이동하고 사용자 명령을 처리할 수 있는 능력을 강화하였다. 이러한 접근은 서빙 로봇의 실질적인 운영 효율을 크게 향상시켜, 산업 전반에서의 적용 가능성을 높인다.

요약하자면, 본 연구를 통해 서빙 로봇의 3차원 공간 인지 기술을 적용하여, 인지한 공간 상에서 자율적으로 이동하기 위한 지도를 구축하고 해당 지도에서 주요 지점들을 이동하기 위한 노드-엣지 그래프를 작성하였다. 해당 그래프에서 선정된 노드들을 목표 지점으로 하여, 서빙 로봇이 인식된 음성 명령을 통해 움직이도록 구현함으로써, 로봇의 자율성과 사용자 경험을 동시에 개선할 수 있는 새로운 방법을 제시하였다.

2. 관련 연구

2.1 로보틱스에서의 대규모 언어 모델

기존 연구에서는 대형 언어 모델을 활용한 자연어 처리와 로봇 제어에 있어 많은 진전을 보여주고 있다. 특히, 대규모 텍스트 데이터를 기반으로 한 GPT-2^[8]는 자연어의 이해와 생성 가능성을 입증했으며, 후속 연구로 발전된 GPT-3와 GPT-4는 복잡한 명령어를 로봇 동작으로 변환하는 능력을 크게 향상시켰다^[9-^12]. 음성 인식 기술을 활용한 연구들은 개인 비서 로봇에서 사용자와의 상호작용을 직관적이고 효율적으로 만드는 방법을 제시하였고, 멀티로봇 시스템에서 음성 명령을 사용한 작업 할당의 효율성도 입증되었다^[13-^14].

이와 더불어, 대형 언어 모델을 활용한 자연어 기반 로봇 제어는 복잡한 작업 계획 및 실행에서 높은 잠재력을 보인다. 자연어 명령을 통해 로봇이 자율적으로 작업을 계획하고 실행할 수 있는 프레임워크가 제안되었으며, 이러한 접근 방식은 로봇의 자율성을 크게 향상시킬 수 있음을 보여준다^[15]. 또한, LLaMA와 같은 경량화된 대형 언어 모델은 네트워크 의존성을 줄이면서도 엣지 컴퓨팅 환경에서 실시간 자율 제어를 위한 유망한 가능성을 제공하고 있다^[7].

2.2 로봇의 공간 정보 처리 기술

대형 언어 모델의 공간 추론 성능을 개선하기 위한 여러 연구들이 진행되어 왔다. StepGame 벤치마크를 활용한 연구에서는 GPT 모델이 자연어 텍스트를 공간적 관계로 매핑하는데 탁월한 성능을 보였으나, 다중 홉 추론에서는 제한적인 성능을 나타내었다^[16]. 이러한 결과는 대형 언어 모델이 기본적인 공간 개념을 이해할 수 있으나, 보다 복잡한 공간적 관계나 논리적 연결을 처리하는 데 추가적인 개선이 필요함을 시사한다. 로봇의 3D 환경 이해를 위한 추가 연구에서는 대형 언어 모델의 공간 오디오 처리 능력을 탐구하여 음원 위치 추정, 원거리 음성 인식, 그리고 위치 정보를 활용한 음성 추출 작업에서 유의미한 성과를 거두었다^[17]. 이러한 성과는 로봇이 실시간으로 복잡한 음향 환경을 이해하고 반응하는 데 중요한 기초를 제공한다.

또한, GIS (Geographic Information System) 도메인에 특화된 대형 언어 모델인 BB-GeoGPT가 도입되었다. 이 모델은 지리 공간 쿼리 처리 및 분석 능력을 크게 향상시켰으며, 지리적 맥락에서의 자연어 이해 및 처리를 가능하게 했다^[18]. 이는 로봇이 지리 정보를 더 효율적으로 처리하고 환경 내에서 보다 정교한 결정을 내리는 데 기여할 수 있음을 보여준다. 특히, BB-GeoGPT는 지형 데이터 분석과 공간적 의사 결정에서 중요한 진보를 이루었으며, 다양한 실세계 응용 분야에서 활용 가능성을 높이고 있다.

2.3 공간 처리와 음성 명령의 통합

대형 언어 모델을 활용하여 음성 명령의 공간적 의미를 해석하고 이를 로봇의 내비게이션 및 조작 작업과 연결하는 통합 프레임워크가 제안되었다. 이 프레임워크는 자연어 명령에서 공간적 관계를 추출한 후, 이를 로봇의 작업 계획에 통합하는 대형 언어 모델 기반 시스템으로, 복잡한 공간 참조가 포함된 명령어도 정확하게 처리할 수 있는 능력을 갖추고 있다. 예를 들어, "책상 위의 빨간 컵을 가져와"와 같은 명령은 객체의 위치와 관계를 분석하여 로봇이 물리적 작업을 효율적으로 수행할 수 있게 한다^[19-^20]. 이와 같은 접근 방식은 사용자에게 직관적인 명령을 제공하며, 로봇의 자율적 작업 계획을 크게 향상시킨다.

더 나아가, 대형 언어 모델을 사용하여 음성 명령과 로봇의 센서 데이터를 결합하여 보다 정교한 공간 추론을 수행하는 방법이 제안되었다. 이 시스템은 음성 명령을 로봇의 실시간 환경 인식 데이터와 통합함으로써, 로봇이 복잡한 작업 환경에서도 높은 적응력을 발휘하도록 한다. 이러한 통합된 접근은 음원 위치 추정, 원거리 음성 인식, 위치 정보를 활용한 작업 실행 등 다양한 기능에서 성과를 보였으며^[21-^22], 로봇의 작업 계획이 보다 세밀하고 효율적으로 이루어지도록 돕는다. 이로 인해 서비스 로봇이 사용자와의 상호작용에서 더욱 자연스럽고 신뢰성 있는 동작을 수행할 수 있게 되었으며, 다양한 실제 환경에서의 적용 가능성이 더욱 높아졌다.

3. 대형 언어 모델 (LLM) 기반 공간 정보화 및 음성 명령

3.1 대형 언어 모델을 이용한 공간 정보화를 통한 지도 작성

다중 로봇의 운영을 위해서는 사전에 공간에 대한 정보가 필요하며, 이는 인지센서를 통한 지도 생성을 통해 가능하다. 기존에는 서빙 로봇 주행이 가능하도록 2D 라이다 맵을 통해 로봇이 움직임을 탐지하고 운영할 수 있는 수준의 지도를 작성하여 사용하였다. 하지만 해당 방법은 한 평면 상의 포인트들의 표시로 인해 제공할 수 있는 정보에 한계점이 존재한다. 또한 해당 정보에서 제공되는 한계로 인해, 현장에서 로봇 설치자가 환경정보를 확인하고 해당 환경정보를 반영하여 수동으로 로봇의 사전 이동 가능 경로를 설정해야 한다.

이러한 한계점을 보완하기 위해 본 고에서는 로봇을 활용하기 위한 공간의 시각적 맥락 (Visual Context)을 포함하는 지도를 구성하기 위한 방법을 구현하였다. 로봇의 3차원 정보와 라이다 센서를 융합하여 시각적 메쉬 (Visual Mesh)가 포함된 가상 지도 구축을 위해 모바일 디바이스를 통한 지도의 정보 획득 – 데이터 전처리 – 대형 언어 모델을 이용한 데이터 정보화 과정을 통해 2D 분할 지도를 구축하였다.

3D 공간을 지도 정보 획득을 위한 장비로는 3D 스캐너, 뎁스 카메라, 핸드헬드 디바이스, 모바일 디바이스를 활용할 수 있다. 실제 사용성과 이동 편의성을 고려하여 모바일 장치를 이용해 데이터를 수집하였다. 모바일 어플리케이션 중 3D Scanner를 사용하여 데이터를 수집하였으며 해당 어플리케이션은 다양한 사용자 맞춤 설정 옵션과 모드를 지원하여 사용자의 목적에 맞도록 데이터 수집을 지원한다. 또한 고급 모드 및 물체 단위 스캔도 지원하는 특징이 있다. 해당 방법을 통해 공간 전체를 스캔하면 obj 형태의 결과 파일을 획득할 수 있다.

해당 모델링 파일은 흐린 부분과 튀는 데이터 부분들이 존재하므로 데이터를 사용하기 위해서는 전처리 과정이 필요하며 전처리된 데이터를 2D 라이다 지도와 매칭시켜 로봇이 인지하는 지점과 지도상의 지점이 일치하도록 변환해 주어야 한다. 전처리는 Blender를 이용해 수행하였으며 임계값 이상의 이상치 (outlier) 포인트를 제거하고 평탄화를 통해 메쉬 (mesh)를 매끄럽게 함으로써 원하는 형태의 지도를 획득할 수 있다. 이렇게 정제된 3D 데이터를 2D 라이다 지도와 매칭시키기 위해서 수직 방향으로 투영 (projection) 하여 2D 평면으로 변환한다. 회전 (rotation) 및 평행 이동 (translation) 변환을 통해 두 지도를 정합시킨다. 이를 통해 로봇이 주위 환경의 높이 및 구조를 간략화하여 2D 형태로 표현할 수 있게 된다.

서빙 로봇의 운영을 위해서 주요 객체인 테이블, 의자, 주방의 위치 정보들이 필요하며, 이러한 정보를 장애물이 정합된 지도에 표시하기 위해서는 각 객체들의 정보를 표시해야 한다. 변환된 2D 지도에 대해 분할 작업을 수행하기 위해 SAM (Segment Anything Model)을 활용하여 각 영역을 자동으로 분할하고 레이블을 지정하였다. SAM은 이미지의 각 픽셀을 객체별로 분류하는 강력한 모델로, 다양한 객체 및 영역을 정확하게 식별 가능하다. 이를 통해 생성된 2D 분할 지도는 각 객체 또는 공간에 대한 세부 정보를 포함하게 되며, 로봇이 주어진 환경에서 정확한 경로를 탐색하거나 특정 작업을 수행할 때 중요한 역할을 할 수 있게 한다. 이러한 과정을 통해 로봇은 복잡한 3D 환경을 보다 간단하고 효율적으로 이해하고, 해당 지도를 기반으로 작업 계획이 가능하다.

그림 1. SAM으로 생성된 2D 분할 지도

Fig. 1. 2D segmentation map generated by SAM

SAM을 활용하여 생성된 2D 분할 지도에서, 객체별 좌표와 클래스를 추출한다. 추출한 좌표와 클래스를, 로봇의 현재 위치 및 목적지 정보와 함께 GPT-4의 입력으로 사용하게 된다. 이때, 사전 이동 가능 경로를 생성하기 위해 주행 경로의 노드와 엣지 정보를 얻기 위한 프롬프트도 입력에 포함시킨다. GPT-4는 다양한 텍스트 입력에 대해 수준 높은 이해와 생성 능력을 갖춘 대형 언어 모델로, 로봇의 상태와 환경 정보를 바탕으로 다양한 시나리오에서 최적 경로를 생성하는데 활용 가능하다. 이를 통해 사전 이동 가능 경로 설정 없이 대형 언어 모델을 사용하여 주행 경로 생성을 할 수 있게 된다.

그림 2에서 빨간색으로 구분된 선은 테이블을, 파란색으로 구분된 선은 의자를 분할한 결과이다. 또한 빨간색 원, 노란색 원, 초록색 선은 각각 목적지, 출발지 그리고 대형 언어 모델이 생성한 경로를 의미한다.

그림 2. 대형 언어 모델 기반 위치 추정 예시

Fig. 2. Example of location estimation based on LLM

3.2 음성 명령 변환

사용자 음성을 명령어로 변환하기 위해 음성 인식 기술 (STT, Speech-to-Text)과 대형 언어 모델을 이용한 명령어 파싱하고 변환한다. 음성 인식 기술은 음성을 텍스트로 변환하는 기술로, 본 실험에서는 높은 정확도로 다양한 언어의 음성을 인식할 수 있고 API를 통해 쉽게 접근이 가능한 OpenAI의 STT 모델인 Whisper를 사용하였다.

Whisper 모델은 OpenAI에서 개발한 대규모 음성 인식 모델로, 680,000 시간의 다국어 및 다양한 환경에서의 음성 데이터셋과 transformer 아키텍처를 기반으로 학습하였다. 이는 이전의 다른 음성 인식 모델 대비 성능을 크게 향상시켰으며, 한국어를 포함한 다국어 음성 인식 및 번역에서도 우수한 성능을 보여준다^[4]. 이 후 단계에서는 음성에서 추출된 텍스트를, 로봇을 제어하기 위한 명령어로 변환하기 위해 최신 대형 언어 모델 중 하나인 OpenAI의 GPT-4 계열^[8]의 GPT-4o 모델을 활용하였다. 음성 명령 처리 과정은 크게 네 단계로 구분된다:

1) 특정 단어를 감지하는 Voice trigger 단계

2) 음성을 텍스트로 변환하는 Speech-to-Text 단계

3) 텍스트 (프롬프트)를 함수로 변환하는 Function Calling 단계

4) 로봇의 주행 API를 사용하여 로봇을 제어하는 Driving 단계

첫번째 단계인 Voice trigger 단계에서는 블루투스 이어폰을 통해 사용자로부터 음성을 입력 받으며 사전에 지정해놓은 특정 단어 (예: “시리야", “이리온", “리온아") 가 감지되면 음성 인식을 진행하도록 구현하였다. 특정 단어가 인식되면 그 이후에 나오는 음성 명령을 텍스트로 변환하는 Speech-to-Text 단계를 거치게 되며 이 단계에서 추출한 텍스트를 명령어로 변환하기 위해 대형 언어 모델의 입력인 프롬프트로 사용하게 된다. GPT-4o 모델에서 제공하는 Function calling 기능은 특정 주행 API 함수 (예: “SetAutoDrive”, “StartReturnToHome”)를 호출하는데 사용된다. 이러한 명령어는 주행, 멈춤, 속도 제어와 같은 서빙 로봇의 구체적인 동작을 실행하기 위해 변환된다.

3.3 대형 언어 모델을 이용한 명령어 파싱 및 변환

본 연구에서는 GPT-4o의 Function Calling 기능을 활용하여 음성 명령어를 로봇 동작 명령어로 변환하는 프롬프트를 정의하였다. OpenAI에서 제공하는 여러 인자 중 “name”에는 주행 API 함수의 이름을, “description”에는 이 함수에 대한 자세한 프롬프트를, “required”에는 함수의 입력 파라미터가 필요한 경우 정의하였다.

그림 3. 언어 모델을 이용한 명령어 파싱 과정

Fig. 3. Command parsing process using a language model

4. 시스템 설계

본 논문의 소프트웨어는 음성 인식을 통한 사용자 명령 수집 (Speech Recognition module), 대형 언어 모델을 활용한 명령어 변환 모듈 (Command Parsing module)과 지도 및 경로 탐색 모듈 (Mapping and Path Planning module)로 구성하였다.

음성 인식 모듈은 사용자와 로봇 간의 상호작용을 위한 단계로, 사용자의 음성을 입력받아 이를 텍스트로 변환한다. 사용자의 음성 명령을 수신하기 위해 블루투스 이어폰과 연결하며 사전에 정의된 트리거 단어가 인지되면 음성을 텍스트로 변환한다. 주요 하위 모듈에 대한 설명은 다음과 같다:

1) 블루투스 장치 연결 (Bluetooth Device connection) : 블루투스 이어폰을 음성 입력 장치로 연결하며 이를 통해 사용자는 별도의 물리적인 행동 (예: 디스플레이 터치) 없이 음성만으로 로봇에 명령을 내린다.

2) Voice Trigger : 음성 인식 기능이 필요하지 않을 때 불필요한 음성 데이터를 처리하지 않도록 특정 "트리거 단어"를 통해 음성 인식을 활성화한다. 예를 들어, "이리온"과 같은 구체적인 명령어가 인식되면 음성 인식 모듈이 활성화되어 후속 명령을 처리한다.

그림 4. 소프트웨어 아키텍처

Fig. 4. Software architecture

3) STT (Speech-to-Text) : 음성을 텍스트로 변환하는 단계로, 딥러닝 기반의 STT 모델을 사용하여 사용자 음성을 텍스트로 변환한다. 변환된 텍스트는 이후 명령어 변환 모듈로 전달되어 후속 처리가 진행된다.

명령어 변환 모듈은, 음성 인식 모듈에서 전달된 텍스트를 대형 언어 모델의 프롬프트로 사용하여 사용자의 자연어 명령을 파싱하고 로봇이 수행할 동작을 결정한다:

1) Function Calling : 사용자의 명령과 주행 API 리스트를 대형 언어 모델의 입력으로 사용하며 로봇이 수행해야할 구체적인 명령어로 변환한다. 예를 들어, "집으로 가"라는 명령이 전달되면 대형 언어 모델은 "StartToReturnHome”과 같은 로봇의 동작 함수로 맵핑하여 명령어를 생성한다.

지도 및 경로 탐색 모듈은, 로봇이 탐색해야 할 공간의 지도를 생성하고 해당 지도에서 목적지로 가는 최적의 경로를 계산하는 기능을 수행한다:

1) 3D 스캐닝 (3D Scanning) : 모바일 디바이스를 사용하여 주변 환경을 3D로 스캔하고 이를 기반으로 3D 지도를 생성한다. 데이터 처리를 최소화하기 위해, 3D 지도를 2D 지도로 변환하며 변환된 2D 지도를 기반으로 후속 작업을 진행한다.

그림 5. Function calling 예시: go_to_table

Fig. 5. Function calling example: go_to_table

그림 6. Function calling 예시: none

Fig. 6. Function calling example: none

그림 7. Function calling 예시: stop_robot

Fig. 7. Function calling example: stop_robot

2) SAM 기반 라벨링 (SAM-based Labeling) : Segment Anything Model (SAM)을 활용하여 로봇이 스캔한 환경의 객체를 분류하고 라벨링한다. 이러한 정보를 기반으로 로봇은 의자, 테이블과 같은 다양한 객체를 주행 경로에 반영한다.

3) 대형 언어 모델 기반 위치 추정 (LLM-based Localization) : 대형 언어 모델을 사용하여 로봇의 현재 위치를 추정하고 이를 사용자 명령과 실시간 공간 데이터에 맞추어 경로를 최적화하여 목적지로 이동한다.

5. 실험 결과

제안한 방법을 검증하기 위해 사용된 서빙로봇의 주요 하드웨어의 구성 요소는 LiDAR, 뎁스 카메라, 블루투스 이어폰과 로봇의 동작을 제어하는 구동 장치이다. 사용한 뎁스 카메라의 FOV는 RGB, Depth 영역에서 각각 69° × 42° ($H$x$V$), 87° × 58° ($H$x$V$)이며 30fps의 프레임 레이트로 사용하였다. Depth 정확도의 경우 2m 거리에서 2% 오차율을 보이며 오차율이 최소가 되는 이상적인 거리인, 최소 30cm에서 최대 3m 영역에서 데이터 3D 스캐닝을 진행하였다.

주요 소프트웨어 구성 요소로는 음성 인식 모델인 OpenAI의 Whisper 모델이, 명령어 변환에는 GPT-4o가 사용된다. 공간 인식 및 경로 탐색에는 뎁스 카메라, LiDAR, 3D scanning 알고리즘, Segment Anything 모델과 GPT-4o 등이 사용된다.

표 1 주요 하드웨어 구성

Table 1 Main hardware configuration

뎁스 카메라	서빙로봇 ‘이리온 2’

블루투스 이어폰

5.1 음성 명령어 성능 평가

음성 명령어의 성능을 평가하기 위해 60dB 소음 환경에서 voice trigger 모듈, 명령어 파싱 모듈, 사용자의 음성 명령에 따른 로봇의 목적지 주행 성공률을 측정하였다. Voice trigger 모듈의 경우 총 4가지 단어 (“이리온”, “리온아”, “안녕”, “하이”) 에 대한 인식 성공율을 측정하였으며 추가 학습 없이 GPT-4o 모델을 사용하였다. 특정 단어에 대한 학습 필요성을 확인하기 위해, 일상생활에서 흔히 사용되는 단어 (“안녕”, “하이”) 에 대한 인식율과 일반적으로 자주 사용되지 않는 단어 (“이리온”, “리온아”) 를 비교 측정하였다. 명령어 파싱 모듈의 경우 STT에서 변환된 텍스트를 기반으로 대형 언어모델이, 동일한 의미를 내포한 여러 명령어 (예: “집으로 가”, “집으로 와”, “홈으로 복귀해”, “홈으로 돌아가” 등)를 주행 API로 변환하는 정확도를 평가하였다.

음성 인식율에 블루투스 이어폰의 음성 처리가 큰 영향을 끼치며 미가공된 음성 데이터를 사용하게 될 경우 조용한 환경임에도 불구하고 STT의 인식 성능이 현저히 떨어지는 것을 관찰할 수 있었다. 이러한 이유로 음성 처리에 필요한 별도의 드라이버를 추가로 설치하여 실험을 진행하였다.

표 2를 통해 “안녕”과 “하이”에 대한 인식 성공률 대비 “이리온”, “리온아”의 성능 저하가 있는 것을 확인할 수 있다. “이리온”, “리온아” 음성의 경우 일반적으로 많이 사용하지 않는 단어로, 사용자별 활성 명령어에 대한 파인튜닝을 통해 이를 개선할 수 있을 것으로 기대한다. 표를 통해 명령어 파싱 모듈에 대한 성능 결과를 확인할 수 있다.

표 3에서 Driving API name은 로봇의 주행 API를 나타내며 초기 위치로 돌아가고 (“StartToReturnToHome”), 주행을 멈추고 (“EndAutoDrive”), 경로를 설정하고 (“SetMainPath”), 로봇의 주행 속도를 설정하는 (“SetAutoDriveVelocity”) 것을 의미한다. “SetMainPath”의 경우 특정 테이블 번호 (예: “3번 테이블로 가”)와 함께 경로를 생성하게 된다.

표 2 활성 명령어별 분류 정확도 (Voice trigger)

Table 2 Classification accuracy by active command (Voice trigger)

활성 명령어	“안녕”	“하이”	“이리온”	“리온아”
분류 정확도	96%	97%	90%	84%

표 3 명령어 파싱 정확도 (Function calling)

Table 3 Command parsing accuracy (Function calling)

Driving API name	“StartReturnToHome”	“EndAutoDrive”	“SetMainPath”	“SetAutoDriveVelocity”
Accuracy	97%	98%	95%	96%

그림 8. 음성 및 주행 테스트 영상

Fig. 8. Voice command and driving test video

그림 9. 사용자 명령에 따라 로봇이 실제 주행하는 사진

Fig. 9. Robot actually driving according to the user's command

5.2 주행 성공률 측정

주행 성공률을 평가하기 위해 특정 건물의 2D 분할 지도를 생성하였고 대형 언어 모델 기반 위치 추정 모듈 (LLM-based Localization)의 성능만을 측정하기 위해 해당 모듈만 독립적으로 측정하였다. 주행 성공률을 높이기 위해 대형 언어 모델에 1) 2D 분할지도에서 불필요한 배경은 제거하고 흰색으로 대체 2) 장애물은 하나의 클래스로 통합 3) 출발지, 목적지와 장애물은 텍스트 형태의 좌표로 제공 4) 최단 경로를 생성하되 장애물 영역은 회피해야하는 가이드를 제공하는 등 성능 향상을 위한 사전 정보 (instruction)를 제공하였다. 이렇게 생성된 지도를 기준선 지도 (Baseline Map)로 정의하여 실험을 진행하였으며 주행 성공률은 아래의 두 가지를 고려하여 성공 여부를 결정하였다:

1) 출발지 ($x_{2}$, $y_{2}$)를 기준으로 목적지 ($x_{1}$, $y_{1}$)까지 $x$, $y$방향으로 임계값 이상 후진하지 않는 경우

2) 출발지에서 목적지까지 생성된 경로의 픽셀 수 (또는 주행 거리)가 정의한 범위 이내인 경우

(1)

$D_{shortest}=\sqrt{(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}}$

(2)

$D_{longe st}= |x_{2}-x_{1}| + |y_{2}-y_{1}|$

(3)

$D_{shortest}\le D_{path}\le D_{longe st}$

표 4는 세 가지 경우에 대한 주행 성공률을 정리한 표이며 Case 1~3은 각각 기준선 지도만 사용한 경우, 기준선 지도에 장애물을 1개 또는 2개 랜덤으로 추가한 경우, 기준선 지도의 장애물을 50픽셀씩 확장한 경우이다. Case 2는 Case 1에서 생성된 경로에 장애물이 있는 경우 얼마나 유동적으로 경로를 잘 생성하는지를 평가하기 위해, Case 3은 로봇의 크기를 반영하여 경로 생성이 가능한지를 평가하고자 추가하였다. 필요에 따라 장애물의 크기를 조절하여 로봇의 크기를 유동적으로 반영할 수 있다.

표 4 Case별 주행 성공률

Table 4 Driving success rate by case

	Case 1	Case 2	Case 3
주행 성공률	0.84	0.80	0.80

그림 10. Case별 예시 이미지

Fig. 10. Example images by case

각 실험마다 출발지와 목적지를 무작위로 반복 생성하여 평가하였으며 특정 영역에서만 출발지 및 목적지가 생성되는 것을 방지하기 위해 영역을 격자 형태로 분할하였다. 이 때, 격자가 장애물보다 작은 경우 출발지나 목적지를 생성할 수 없으므로 각 격자의 크기는 물체의 폭을 반영하여 5x3의 격자로 생성하였다.

추가로, 사전 정보 (Instruction)의 유효성을 검증하기 위해 2D 분할 지도를 사용한 경우와 기준선 지도 (Baseline Map)를 사용한 경우를 나누어 실험하였으며 이에 대한 결과는 표 5에 나타내었다. 이를 통해 사전 정보가 있는 경우가 상대적으로 더 좋은 성능을 보이는 것을 확인할 수 있다.

표 5 사전 정보 유무에 따른 결과

Table 5 Results based on the presence or absence of prior information

	2D 분할 지도	기준선 지도
주행 성공률	0.12	0.84

그림 11. 2D 분할 지도 예시 (왼쪽), 기준선 지도 예시 (오른쪽)

Fig. 11. Example of a 2D segmentation map (left), example of a baseline map (right)

표 4의 Case 2와 Case 3에서 Case 1 보다 성능이 떨어진 것을 확인할 수 있다. 이는 위/아래 같은 방향성만을 제시하거나 경로 생성이 가능함에도 생성이 불가능하다고 예측하는 경우가 있었으며 이에 따라 Case 1에 비해 상대적으로 저하된 결과를 얻었다. 또한 주행 성공률을 측정하기 위해 정의한 두 가지 기준이, 장애물을 우회하여 돌아가야 하는 경우에는 적절하지 않은 것을 확인할 수 있었다. 모든 상황에 대한 최적 경로를 평가하는 기준은 추가적인 연구를 통해 개선이 필요하다. 이외에 Case 별로 부족한 성능은, 실제 동작 시 필터링을 하거나 파인튜닝을 통해 성능 개선이 가능할 것으로 예상한다.

6. 결 론

본 연구에서 대형 언어 모델을 활용한 공간 정보 처리와 음성 명령을 통한 서빙 로봇 통합 프레임워크를 제안하였다. 이 시스템은 효율적인 작업 실행을 가능하게 하고, 직관적인 음성 명령과 자연어 이해를 통해 사용자 상호작용을 강화하며, 로봇의 자율 탐색과 실시간 명령 응답 능력을 통해 운영 효율성을 증대시킨다. 이를 통해 서비스 로봇의 자율성과 사용자 상호작용을 크게 향상시킬 수 있다. 공간 정보 처리, 음성 인식, 그리고 대규모 언어 모델 (LLMs)을 결합함으로써, 복잡한 환경에서의 효율성과 사용성이 개선하며 해당 접근 방식은 로봇의 자율성과 사용자 경험을 동시에 개선함으로써 서비스 로보틱스 분야에 새로운 패러다임을 제시하였다.

향후 연구에서는 멀티모달 학습을 통해 로봇의 환경 이해 능력을 향상시키고, 적응형 학습 메커니즘을 개발하여 새로운 환경과 작업에 대한 빠른 적응 개선이 필요하다. 대형 언어 모델을 명령기반 다중 로봇 협업 시스템 개발, 그리고 사용자 개인화 서비스 제공 방법으로 확장하려고 한다. 이러한 연구를 통해 서비스 로봇의 능력과 적용 범위를 확장하고, 인간-로봇 상호작용을 고려한 기술 고도화를 통해 개선의 여지가 있다.

Acknowledgements

This work was partly supported by Electronics and Telecommunications Research Institute(ETRI)[25ZD1130, Regional Industry ICT Convergence Technology Advancement and Support Project in Daegu-GyeongBuk(Robot)], Korea Evaluation Institute of Industrial Technology(KEIT)(20023305), and Seoul R&BD Program(SP240008) grant funded by the Korean government.

References

D. Belanche, L. V. Casaló, C. Flavián, C, J. Schepers, “Service robot implementation: a theoretical framework and research agenda,” The Service Industries Journal, vol. 40, pp. 203-225, 2020. DOI:10.1080/02642069.2019.1672666

Sebastian Thrun, “Probabilistic robotics,” Communications of the ACM, pp. 52-57, 2002. DOI:10.1145/504729.504754

Y. Yamada, T. Sumikura, T. Harada and Y. Yoshida, “Evaluating Spatial Understanding of Large Language Models,” arXiv preprint arXiv:2401.16865, 2024.

C. Zhu, X. Xu, W. Wang, J. Yang and D. Wang, “Can Large Language Models Understand Spatial Audio?,” arXiv preprint arXiv:2309.11359, 2023. DOI:10.48550/arXiv.2310.14540

F. Li, Y. Zhang, Z. Feng, X. Li and Y. Gao, “Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark,” arXiv preprint arXiv:2306.01183, 2023. DOI:10.48550/arXiv.2401.03991

Y. Tanaka and S. Katsura, “A voice-controlled motion reproduction using large language models for polishing robots,” In 2023 IEEE International Conference on Mechatronics (ICM), pp. 1-6, 2023. DOI:10.1109/ICM54990.2023.10101966

N. Kojima, P. Shah, K. Dogan, A. Agarwal, J. Baldridge and Y. Artzi, “Zero-Shot Compositional Concept Learning,” arXiv preprint arXiv:2205.01536, 2022. DOI:10.48550/arXiv.2107.05176

A. Radford, J. Wu, R. Child, D. Luan, D. Amodei and I. Sutskever, “Language Models are Unsupervised Multitask Learners,” OpenAI, 2019.

T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, et al., “Language Models are Few-Shot Learners,” arXiv preprint arXiv:2005.14165, 2020. DOI:10.48550/arXiv.2005.14165

J. Garcia and F. Fernández, “A Comprehensive Survey on Safe Reinforcement Learning,” Journal of Machine Learning Research, vol. 16, no. 1, pp. 1437-1480, 2015. DOI:10.5555/2789272.2886795

S. A. Li, Y. Y. Liu, Y. C. Chen, H. M. Feng, P. K. Shen and Y. C. Wu, “Voice Interaction Recognition Design in Real-Life Scenario Mobile Robot Applications,” Applied Sciences, vol. 13, no. 5, pp. 3359, 2023. DOI:10.3390/app13053359

J. Huang, Y. Gao, L. Weng, C. Xiong and X. Hu, “LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models,” arXiv preprint arXiv:2304.14026, 2023. DOI:10.48550/arXiv.2212.04088

M. Ahn, A. Brohan, N. Brown, Y. Chebotar, O. Cortes, B. David, C. Finn, C. Fu, K. Gopalakrishnan, K. Hausman, et al., “Do As I Can, Not As I Say: Grounding Language in Robotic Affordances,” arXiv preprint arXiv:2204.01691, 2022. DOI:10.48550/arXiv.2204.01691

P. Sikorski, L. Schrader, K. Yu, L. Billadeau, J. Meenakshi, N. Mutharasan, F. Esposito, H. AliAkbarpour and M. Babaiasl, “Deployment of NLP and LLM Techniques to Control Mobile Robots at the Edge: A Case Study Using GPT-4-Turbo and LLaMA 2,” arXiv preprint arXiv:2405.17670, 2024. DOI:10.48550/arXiv.2405.17670

M. S. Hossain, S. Aktar, N. Gu, W. Liu, Z. Huang, “GeoSCN: A Novel multimodal self-attention to integrate geometric information on spatial-channel network for fine-grained image captioning,” Expert Systems with Applications, vol. 272, 2025. DOI:10.1016/j.eswa.2025.126692

Z. Shi, Q. Zhang, A. Lipani, A., “Stepgame: A new benchmark for robust multi-hop spatial reasoning in texts,” In Proceedings of the AAAI conference on artificial intelligence, vol. 36, no. 10, pp. 11321-11329, 2022. DOI:10.48550/arXiv.2204.08292

Z. Zheng, P. Peng, Z. Ma, X. Chen, E. Choi, E. and D. Harwath, “BAT: Learning to Reason about Spatial Sounds with Large Language Models,” arXiv preprint arXiv:2402.01591, 2024. DOI:10.48550/arXiv.2402.01591

Y. Zhang, Z. Wang, Z. He, J. Li, G. Mai, J. Lin, C. Wei and W. Yu, “BB-GeoGPT: A framework for learning a large language model for geographic information science,” Information Processing & Management, vol. 61, no. 5, pp. 103808, 2024. DOI:10.1016/j.ipm.2024.103808

I. Singh, V. Blukis, A. Mousavian, A. Goyal, D. Xu, J. Tremblay, D. Fox, J. Thomason and A. Garg, “ProgPrompt: program generation for situated robot task planning using large language models,” Autonomous Robots, vol. 47, no. 8, pp. 1689-1706, 2023. DOI:10.48550/arXiv.2209.11302

S. Godfrey, A. Tomar, R. Gopalakrishnan, S. Niekum and P. Stone, “MARLIN: Multi-Agent Reinforcement Learning with Language-Based Negotiation,” arXiv preprint arXiv:2310.12534, 2023. DOI:10.48550/arXiv.2410.14383

Y. Kim, D. Kim, J. Choi, J. Park, N. Oh and D. Park, “A survey on integration of large language models with intelligent robots. Intelligent Service Robotics,” vol. 17, no. 5, pp. 1091-1107, 2024. DOI:10.1007/s11370-024-00550-5

G. Sejnova, M. Vavrecka and K. Stepanova, “Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks,” arXiv preprint arXiv:2404.01932, 2024. DOI:10.1109/IROS58592.2024.10802160

저자소개

박명근(Myeonggeun Park)

B.S. degree in Electrical Engineering from Jeonbuk National University, Jeonju, South Korea, in 2023, Currently Researcher at Polaris3D Company Inc. since 2023, Interested in Edge AI, Vision AI, and Large Language Models (LLMs)

이학준(Hakjun Lee)

B.S. degree in Electrical Engineering from Chungbuk National University, Cheonju, South Korea, in 2014, M.S. and Ph.D. degrees in Electrical Engineering from the Pohang University of Science and Technology (POSTECH), Pohang, South Korea in 2016 and 2020, respectively, Currently CRO at Polaris3D Company Inc. since 2021, Interested in robust control, navigation systems of unmanned aerial vehicles, sensor fusion, and stochastic signal processing

권우경(Wookyong Kwon)

B.S. degree in electrical engineering from Pohang University of Science and Technology (POSTECH), Pohang, South Korea, in 2011, M.S. and Ph.D. degrees in Graduate Institute of Ferrous Technology from POSTECH, in 2012 and 2017, respectively, He is currently a Senior Researcher with ETRI (Electronics and Telecommunications Research Institute).

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

LLM-Based Spatial Information Processing and Voice Command Actions for Serving Robots

Translated Abstract

Key words

1. 서 론

1.1 로봇 주행과 공간 지도 작성

1.2 음성 인식을 통한 사용자 상호작용

1.3 연구동기 및 기여점

2. 관련 연구

2.1 로보틱스에서의 대규모 언어 모델

2.2 로봇의 공간 정보 처리 기술

2.3 공간 처리와 음성 명령의 통합

3. 대형 언어 모델 (LLM) 기반 공간 정보화 및 음성 명령

3.1 대형 언어 모델을 이용한 공간 정보화를 통한 지도 작성

3.2 음성 명령 변환

3.3 대형 언어 모델을 이용한 명령어 파싱 및 변환

4. 시스템 설계

5. 실험 결과

5.1 음성 명령어 성능 평가

5.2 주행 성공률 측정

(1)

(2)

(3)

6. 결 론

Acknowledgements

References

저자소개

박명근(Myeonggeun Park)

이학준(Hakjun Lee)

권우경(Wookyong Kwon)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

LLM-Based Spatial Information Processing and Voice Command Actions for Serving Robots

Translated Abstract

Key words

1. 서 론

1.1 로봇 주행과 공간 지도 작성

1.2 음성 인식을 통한 사용자 상호작용

1.3 연구동기 및 기여점

2. 관련 연구

2.1 로보틱스에서의 대규모 언어 모델

2.2 로봇의 공간 정보 처리 기술

2.3 공간 처리와 음성 명령의 통합

3. 대형 언어 모델 (LLM) 기반 공간 정보화 및 음성 명령

3.1 대형 언어 모델을 이용한 공간 정보화를 통한 지도 작성

3.2 음성 명령 변환

3.3 대형 언어 모델을 이용한 명령어 파싱 및 변환

4. 시스템 설계

5. 실험 결과

5.1 음성 명령어 성능 평가

5.2 주행 성공률 측정

(1)

(2)

(3)

6. 결 론

Acknowledgements

References

저자소개

박명근(Myeonggeun Park)

이학준(Hakjun Lee)

권우경(Wookyong Kwon)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers