1. ์ ๋ก
๋๋ฆฝ์ง์ ์์คํ
์ ๋น์ต์ ์์ ํน์ฑ๊ณผ ๋น์ ํ์ ์ธ ๋ชจ๋ธ ๋ฐฉ์ ์์ ๊ฐ์ง๋ฉฐ ๋ถ์์ ํ ๋ํน์ฑ์ ์ง๋ ๋ํ์ ์ธ ๋ถ์กฑ ๊ตฌ๋ ์์คํ
์ด๋ค. ์ด๋ฌํ ํน์ฑ์ผ๋ก ์ธํด
๋๋ฆฝ์ง์๋ ์๋ก์ด ์ ์ด ์ด๋ก ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ํจ์ฑ์ ๊ฒ์ฆํ๊ธฐ์ ์ ํฉํ ์คํ ๋ชจ๋ธ๋ก ๋๋ฆฌ ์ฌ์ฉ๋์ด ์๋ค. ํนํ ์์คํ
์ ๋ถ์์ ์ฑ๊ณผ ๋น์ ํ์ ํน์ฑ์ ํจ๊ณผ์ ์ผ๋ก
์ ์ดํ๊ธฐ ์ํด ์ง์๋ฅผ ์์ง ์์ธ๋ก ๋๋ฌ์ํค๋ swing-up ์ ์ด๋ ํด๋น ์ํ๋ฅผ ์ ์งํ๋ ๊ท ํ ์ ์ด๋ฅผ ์ค์ฌ์ผ๋ก ์ฐ๊ตฌ๊ฐ ์งํ๋์๋ค[1,2,3]. ์ต๊ทผ ์ ์ด๊ธฐ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๊ณ ๋๋์ ์ ์ด ๋์์ ํ์๋ก ํจ์ ๋ฐ๋ผ ์ง์์ ์๋ฅผ ์ฆ๊ฐ์ํจ ๋ค๋จ ๋๋ฆฝ์ง์ ์์คํ
์ฐ๊ตฌ๊ฐ ํ๋ฐํ ์งํ๋๊ณ ์์ผ๋ฉฐ,
๊ทธ์ค 3๋จ ๋๋ฆฝ์ง์๋ฅผ ํ์ฉํ ์ ์ด๊ธฐ ์ค๊ณ์ ์ฑ๋ฅ ๊ฒ์ฆ ๋ํ ์ํ๋๊ณ ์๋ค[4,5]. ๋ค๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ๋งํฌ๊ฐ ์ถ๊ฐ๋จ์ ๋ฐ๋ผ ์์คํ
์ ์ํ ๋ณ์๊ฐ ์ฆ๊ฐํ๋ฉฐ ์ด๋ ์ ์ด ๋๋๋ฅผ ํฌ๊ฒ ๋์ผ ๋ฟ ์๋๋ผ ๊ธฐ์กด์ ์ ์ด ์ ๋ต์ผ๋ก๋ ๋ค๋ฃจ๊ธฐ
์ด๋ ค์ด ์๋ก์ด ์ ์ด ๋ฌธ์ ๋ฅผ ์ ์ํ๋ค. ํนํ ๋ค๋จ ๋๋ฆฝ์ง์ ์์คํ
์์๋ ๋จ์ํ ์ง์๋ฅผ ์ธ์ฐ๊ฑฐ๋ ๊ท ํ ์ํ๋ฅผ ์ ์งํ๋ ๋ฌธ์ ๋ฅผ ๋์ด ๋ณต์์ ๊ท ํ์ (Equilibrium
Point) ๊ฐ ์ฒ์ด๋ฅผ ์๊ตฌํ๋ ์ฒ์ด ์ ์ด(Transition Control) ๋ฌธ์ ๊ฐ ์ฃผ์ํ ์ ์ด ๋ฌธ์ ๋ก ํ์ฅ๋๋ค.
์ฒ์ด ์ ์ด๋ ๋ค๋จ ๋๋ฆฝ์ง์ ์์คํ
์์ swing-up ์ ์ด์ ์ ์ฌํ ํน์ฑ์ ๊ฐ์ง๋ฉด์๋ ๋์ฑ ํ์ฅ๋ ๊ฐ๋
์ ํฌํจํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋๋ฆฝ์ง์ ์์คํ
์ ๊ท ํ์ ์
๊ฐ ์ง์์ ์ํ์ ๋ฐ๋ผ ์ง์๊ฐ ์์ชฝ์ ํฅํ ๋ถ์์ ํ ๊ท ํ์ ๊ณผ ์๋์ชฝ์ ํฅํ ์์ ํ ๊ท ํ์ ์ผ๋ก ๋๋์ด์ง๋ค. ๋จ์ผ ์ง์ ์์คํ
์์๋ ๋ถ์์ ํ ๊ท ํ์ ์ด
ํ๋๋ฟ์ด์ง๋ง ๋ค๋จ ๊ตฌ์กฐ์์๋ ์ง์์ ๊ฐ์๊ฐ ์ฆ๊ฐํ ์๋ก ๋ค์ํ ์กฐํฉ์ ๊ท ํ์ ๋ค์ด ์กด์ฌํ๊ฒ ๋๋ค. ์ด๋ฌํ ๋ค์์ ๊ท ํ์ ๊ฐ์ ์ด๋ํ๋ ์ฒ์ด ์ ์ด๋ swing-up
์ ์ด๊ฐ ์ฃผ๋ก ์์ ํ ๊ท ํ์ ์์ ๋ถ์์ ํ ๊ท ํ์ ์ผ๋ก์ ์ด๋๋ง์ ๋ชฉํ๋ก ํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ ์ฌ๋ฌ ๋ถ์์ ํ ๊ท ํ์ ๊ฐ์ ์ฒ์ด๋ฅผ ํฌํจํ๋ฏ๋ก ๋์ฑ ๋ณต์กํ ์ ์ด
์ ๋ต์ ์๊ตฌํ๋ค. ์ฒ์ด ์ ์ด๋ ํ์ฌ ๊ท ํ์ ์์์ ๊ท ํ ์ ์ด, ๋ชฉํ ๊ท ํ์ ์ผ๋ก์ ์ฒ์ด ์ ์ด, ๋ชฉํ ๊ท ํ์ ์์์ ๊ท ํ ์ ์ด์ ์์๋ก ๊ตฌ์ฑ๋๋ฉฐ ๊ฐ ๋จ๊ณ๋
์ฐ์์ ์ธ ์ ์ด ๋์์ ํตํด ์ํ๋๋ค. ์ด์ ๋ฐ๋ผ ์ฒ์ด ์ ์ด์ ์ฑ๊ณต์ ์ธ ๊ตฌํ์ ์ํด ๊ฐ๊ฐ์ ์ ์ด๊ฐ ์ ๊ธฐ์ ์ผ๋ก ์๋ํ๋ ์ ์ด ์ ๋ต์ด ํ์ํ๋ค.
์ต๊ทผ ๋๋ฆฝ์ง์ ์ฒ์ด ์ ์ด ์ฐ๊ตฌ์์๋ Direct collocation ๊ธฐ๋ฒ๊ณผ ๊ฐ์ ์ต์ ์ ์ด ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ์ฒ์ด ๊ถค์ ์ ์ค๊ณํ์๋ค[6,7]. ๊ทธ๋ฌ๋ ์ฌ์ ์ ๊ณ์ฐ๋ Optimal trajectory๋ ์ธ๋์ด๋ ๋ชจ๋ธ ๋ถํ์ค์ฑ์ ๋ํ ๋ฏผ๊ฐ์ฑ์ด ๋์ ์ค์ ์์คํ
์ ์ ์ฉ ์ ์์ ์ ์ธ ์ ์ด ์ฑ๋ฅ์
ํ๋ณดํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๋ฅผ ์ง๋๋ค. ํนํ ์ฒ์ด ์ ์ด๋ ์์คํ
์ด ๋ค์์ ๋ถ์์ ํ ๊ท ํ์ ์ฌ์ด๋ฅผ ์ด๋ํด์ผ ํ๋ ํน์ฑ์ ์ธ๋์ ๋ํ ๋ฏผ๊ฐ๋๊ฐ ๋์ฑ ํฌ๊ฒ ๋ํ๋๋ค.
์ต์ ์ ์ด ๊ธฐ๋ฐ์ ์ฒ์ด ์ ์ด๋ ์ค๊ณ๋ ๊ถค์ ์ ์ ํํ ์ถ์ข
ํด์ผ ํ๋ฏ๋ก ์ผ์ ์์ค ์ด์์ ์ธ๋์ด ์์ฉํ ๊ฒฝ์ฐ ๋ชฉํ ๊ท ํ์ ์ผ๋ก์ ์์ ์ ์ธ ์๋ ด์ด ์ด๋ ค์ธ
์ ์๋ค[8]. ์ด๋ฌํ ๋ฌธ์ ์ ์ ๊ทน๋ณตํ๊ณ ์ ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ฐํํ์ต์ ๊ธฐ๋ฒ ์ค ํ๋์ธ Sim-to-Real ๊ธฐ๋ฒ์ ์ฌ์ฉํด 3๋จ ๋๋ฆฝ์ง์์ ์ฒ์ด ์ ์ด๋ฅผ ์ํํ๋ค.
Sim-to-real ๊ธฐ๋ฒ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ํ์ตํ ๋ฐ์ดํฐ๋ฅผ ์ค๋ฌผ ์์คํ
์ ์ ์ฉํ๋ ๊ธฐ๋ฒ์ด๋ค[9]. ํด๋น ๊ธฐ๋ฒ์ ํ์ต ํ๊ฒฝ์์์ ๋ฌผ๋ฆฌ์ ์ ์ฝ์ด ์์ด ์์์ ์ด๊ธฐ ์ํ ์ค์ ์ด ๊ฐ๋ฅํ๋ฏ๋ก ๋ค์ํ ์ํ์์์ ํ์ต์ ํตํด ์ธ๋์ ๊ฐ๊ฑดํ ์ ์ด ์ ์ฑ
์ ์๋ฆฝํ
์ ์๋ค.
๊ทธ๋ฌ๋ Sim-to-Real ๊ธฐ๋ฒ์ ์๋ฎฌ๋ ์ด์
๋ชจ๋ธ๊ณผ ์ค์ ํ๋์จ์ด ๊ฐ์ ์ฐจ์ด๋ก ์ธํด ๋ฐ์ํ๋ reality gap ๋ฌธ์ ๋ฅผ ๋๋ฐํ๋ค[10]. ์ด ๊ฒฉ์ฐจ๋ฅผ ํด์ํ์ง ๋ชปํ ๊ฒฝ์ฐ ์๋ฎฌ๋ ์ด์
์์ ํ์ต๋ ์ ์ด ์ ์ฑ
์ด ์ค๋ฌผ ์์คํ
์์ ์ํ๋ ์ฑ๋ฅ์ ๋ณด์ฅํ์ง ๋ชปํ ์ ์๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ ์๋ค์ด
์์๋ ์ฐ๊ตฌ์ค์์ ์ ์ํ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ์ฌ์ฉํ์ฌ ํด๋น ๋ฌธ์ ์ ์ ํด๊ฒฐํ๋ค. ํด๋น ์์คํ
์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์ ์ฌ์ฉํ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ ์ค๋ฌผ ์์คํ
๊ฐ์ ๋์ ์ ํฉ์ฑ์ ์ง๋
reality gap์ ์ต์ํํ๋ค. ์ด๋ฅผ ํตํด Sim-to-Real ๊ฐํํ์ต ๊ธฐ๋ฒ์ ํ์ฉํ ์ง์ ํ 3๋จ ๋๋ฆฝ์ง์์ 56๊ฐ์ง
์ฒ์ด ์ ์ด ๊ตฌํ์ ๋ชฉํ๋ก ํ๋ค.
๋ณธ ๋
ผ๋ฌธ์ ๊ตฌ์ฑ์ ๋ค์๊ณผ ๊ฐ๋ค. 2์ ์์๋ Sim-to-Real ๊ธฐ๋ฒ ๋ฐ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์ค๋ช
ํ๋ค. 3์ ์์๋ ๋ณธ ์ฐ๊ตฌ์์ ํ์ฉํ๋ 3๋จ
๋๋ฆฝ์ง์ ์์คํ
์ ๊ธฐ๊ตฌ์ ์ค๊ณ ๋ฐ ์ํ์ ๋ชจ๋ธ์ ๋ํด ์ค๋ช
ํ๋ค. 4์ ์์๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฅผ ์ค๊ณํ๊ณ ์ค์ ํ๊ฒฝ์์์ ์ ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ถ์ํ๋ค.
๋์ผ๋ก 5์ ์์๋ ๋ณธ ์ฐ๊ตฌ์ ๊ฒฐ๋ก ์ ์์ ํ๋ค.
2. Sim-to-Real ํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ ๋ฐ ์๊ณ ๋ฆฌ์ฆ
2.1 Sim-to-Real ํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ
๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ ์ ํต์ ์ธ ์ ์ด ๋ฐฉ์์์ ์ ์ด ์ฐ์ฐ์ ์ํํ๋ ๊ตฌ์ฑ ์์๋ฅผ ๊ฐํํ์ต ์์ด์ ํธ๋ก ๋์ฒดํ ๊ตฌ์กฐ๋ก ์ ์ํ ์ ์๋ค. ์ด๋ ๊ฐํํ์ต
์์ด์ ํธ๋ ํ๊ฒฝ๊ณผ์ ๋ฐ๋ณต์ ์ธ ์ํธ์์ฉ์ ํตํด ์ต์ ์ ์ ์ด ์ ์ฑ
์ ํ์ตํ๋ ์์คํ
์ ์๋ฏธํ๋ค. ์์ด์ ํธ๋ ๋งค timestep์์ ํ๊ฒฝ์ผ๋ก๋ถํฐ ๊ด์ธก๋
์ํ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ ํ์ฌ์ ์ ์ฑ
์ ๋ง์ถฐ ํ๋์ ์ ํํ๊ณ ๊ทธ์ ๋ํ ๋ณด์์ ํตํด ํผ๋๋ฐฑ์ ๋ฐ๋๋ค. ์ด๋ฌํ ๊ณผ์ ์ด ๋ฐ๋ณต๋๋ฉฐ ์์ด์ ํธ๋ ๊ฒฝํ์ ์ถ์ ํ๊ณ
์ด๋ฅผ ๋ฐํ์ผ๋ก ์ ์ฑ
์ ์ ์ง์ ์ผ๋ก ๊ฐ์ ํด ๋๊ฐ๋ค. ํ์ต๋ ์ ์ด๊ธฐ๋ ์ฃผ์ด์ง ์ํ ์ ๋ณด๋ฅผ ์
๋ ฅ๋ฐ์ ํ์ต๋ ์ ์ฑ
์ ๋ง์ถฐ ์ ์ด๋์ ์ถ๋ ฅํ๊ฒ ๋๋ค.
ํ์ต ๋ฐ ํ๊ฐ ๊ณผ์ ์์ ์์ด์ ํธ์ ์ํธ์์ฉ์ด ์ด๋ฃจ์ด์ง๋ ํ๊ฒฝ์ ํฌ๊ฒ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅ๋๋ค. ์ฒซ์งธ๋ ์ค๋ฌผ ์์คํ
์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ, ๋์งธ๋
๊ฐ์ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ์ ๊ฐ์ ํ๊ฒฝ์ด๋ค.
์ค๋ฌผ ์์คํ
์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต์ ์งํํ ๊ฒฝ์ฐ ์์คํ
์ ์ํ์ ๋ชจ๋ธ์ด๋ ์ ํํ ๋์ญํ ์ ๋ณด๊ฐ ์ฌ์ ์ ํ๋ณด๋์ง ์๋๋ผ๋ ํ์ต์ด ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์๋ค.
์ด๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ์ด๊ธฐ ์ค๊ณ์์ ํ์์ ์ธ ํ๋ผ๋ฏธํฐ ์๋ณ ๊ณผ์ ์ด๋ ๋ณต์กํ ๋น์ ํ ๋ชจ๋ธ๋ง ์์ด๋ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์ต์ ์ ์ ์ฑ
์ ์์จ์ ์ผ๋ก ํ์ตํ
์ ์์์ ์๋ฏธํ๋ค. ํนํ ์ค์ ํ๊ฒฝ์์ ์์ง๋๋ ๋ฐ์ดํฐ๋ ์ผ์ ๋
ธ์ด์ฆ, ๋ง์ฐฐ, ๋ฐฑ๋์, ํ๋์จ์ด์ ๋น์ ํ์ฑ, ์ธ๋ ๋ฑ ๋ค์ํ ๋น์ด์์ ์์(non-idealities)๋ฅผ
์์ฐ์ค๋ฝ๊ฒ ํฌํจํ๊ณ ์๋ค. ๋ฐ๋ผ์ ์ด์ ๊ฐ์ ํ๊ฒฝ์์ ํ์ต๋ ์ ์ฑ
์ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ ํ์ต ๊ฒฐ๊ณผ์ ๋น๊ตํ์ ๋ ๋ ๋์ ํ์ค ์ ํฉ์ฑ๊ณผ ๊ฐ๊ฑด์ฑ์ ๊ฐ๋๋ค๋
ํน์ง์ด ์๋ค.
ํ์ง๋ง ์ค๋ฌผ ์์คํ
์ ๋์์ผ๋ก ํ๋ ์ ์ด๊ธฐ ํ์ต์์๋ ๋ค์ํ ์ ์ฝ๊ณผ ์ํ ์์ ๋ํ ์กด์ฌํ๋ค. ์ค์ ํ๊ฒฝ์์ ๋๋ฆฝ์ง์ ์์คํ
์ ํ์ต์ ์งํํ ๊ฒฝ์ฐ
๋ชจ๋ ์ง์๊ฐ ์ค๋ ฅ์ ์ํฅ์ ๋ฐ์ ๋ฐ๋ฅ์ ํฅํ ์ํ์์ ์์๋๋ฉฐ ์ฐ๊ตฌ์๊ฐ ์ํ๋ ๊ฐ๋ ๋ฐ ๊ฐ์๋๋ก ์ด๊ธฐ ์ํ๋ฅผ ์ค์ ํ๋ ๊ฒ์ด ์ด๋ ต๋ค. ๋ํ ํ์ต ์๋
์ญ์ ํ์ค์ ๋ฌผ๋ฆฌ์ ์๊ฐ์ ์ํด ์ ํ๋๋ค. ์ด๋ฌํ ์ด์ ๋ก ์ต๊ทผ์๋ ์๋ฎฌ๋ ์ด์
๊ธฐ๋ฐ์ ๊ฐ์ ํ๊ฒฝ์์ ์ถฉ๋ถํ ํ์ต์ ์ํํ ํ ์ด๋ฅผ ์ค์ ํ๊ฒฝ์ ์ด์ํ๋
Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ด ํ๋ฐํ ํ์ฉ๋๊ณ ์๋ค[11,12].
์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์์ ํ์ต์ ์์ ์ค๋ช
ํ ๋ฌผ๋ฆฌ์ ํ๊ฒฝ์์์ ์ ์ฝ์ ๊ทน๋ณตํ๊ณ ๋ฐ๋ณต์ ์ธ ์คํ์ ๋ณด๋ค ์์ ํ๊ณ ์์ ๋กญ๊ฒ ์ํํ ์ ์๋ค๋ ์ ์์ ํ์ต ํจ์จ์ฑ์
ํฌ๊ฒ ํฅ์์ํจ๋ค. ํนํ ๊ฐํํ์ต๊ณผ ๊ฐ์ด ์๋ง์ ์ํ์ฐฉ์ค๋ฅผ ํตํด ์ ์ฑ
์ ๊ฐ์ ํ๋ ๋ฐฉ์์์๋ ์์คํ
์ ์์ ๊ฐ๋ฅ์ฑ ์์ด ํ์ต์ ๋ฐ๋ณตํ ์ ์๋ค๋ ์ ์ด
ํฐ ์ด์ ์ผ๋ก ์์ฉํ๋ค. ๋ํ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์์๋ ์ด๊ธฐ ์ํ๋ฅผ ์์๋ก ์ค์ ํ ์ ์์ผ๋ฉฐ ์ค์๊ฐ ํ์ต์ด ์๋ ๊ฐ์ํ๋ ์๋ฎฌ๋ ์ด์
์ ํตํด ๋ณด๋ค ์งง์ ์๊ฐ
๋ด์ ๋๋์ ๋ฐ์ดํฐ๋ฅผ ์์งํ ์ ์๋ค. ์ด๋ฅผ ํตํด ํ์ต ์๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํฅ์์ํฌ ๋ฟ๋ง ์๋๋ผ ์ค์ ํ๊ฒฝ์์ ๊ตฌํ์ด ์ด๋ ค์ด ๋ค์ํ ์ด๊ธฐ ์กฐ๊ฑด์์๋
ํ์ต์ ์ํํ ์ ์์ด ์ธ๋์ด ์กด์ฌํ๋ ํ๊ฒฝ์์๋ ๊ฐ์ธํ ์ ์ด ์ ์ฑ
์ ํ์ฑํ ์ ์๋ค.
ํ์ง๋ง ์์ ์๋ก ์์ ์ธ๊ธํ๋ฏ์ด Sim-to-Real ๊ธฐ๋ฒ์ reality gap์ด๋ผ๋ ๊ทผ๋ณธ์ ์ธ ํ๊ณ์ ์ด ์กด์ฌํ๋ค. ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ์ค๋ฌผ ์์คํ
์
๋ชจ๋ ๋ฌผ๋ฆฌ์ ํน์ฑ์ ์๋ฒฝํ๊ฒ ๋ชจ์ฌํ ์ ์๊ธฐ ๋๋ฌธ์ ์๋ฎฌ๋ ์ด์
์์ ํ์ต๋ ์ ์ฑ
์ด ์ค์ ํ๊ฒฝ์์ ๊ทธ๋๋ก ์ ์ฉ๋์ง ์๊ฑฐ๋ ์๊ธฐ์น ๋ชปํ ๋์์ ์ ๋ฐํ ์
์๋ค. ์ด์ ๋ณธ ์ฐ๊ตฌ๋ reality gap์ ์ํํ๊ธฐ ์ํ ๋ค์ํ ์๋ ์ค์์ ์คํจ์ฑ์ด ๋์ ๋ ๊ฐ์ง ๊ธฐ๋ฒ์ ์ฑํํ์ฌ Sim-to-Real ์ ์ด
์ฑ๋ฅ์ ํฅ์์ํค๊ณ ์ ํ์๋ค.
๋จผ์ ์ํํธ์จ์ด์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์๋ฎฌ๋ ์ด์
๋ด์์ ์ ์ฉ ๊ฐ๋ฅํ DR(Domain Randomization) ๊ธฐ๋ฒ์ ํ์ฉํ๋ค[13,14]. DR ๊ธฐ๋ฒ์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ์ด๊ธฐ ์กฐ๊ฑด์ ๋ฌด์์๋ก ์ ์ ํ์ฌ ํ์ต์ ์งํ์ํค๋ ๊ธฐ๋ฒ์ด๋ค. ์ด๋ฅผ ํตํด ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ๋ค์ํ ์กฐ๊ฑด์์ ํ์ต์
์งํํ ์ ์๊ณ ๋์ฑ ์ผ๋ฐํ๋ ์ ์ด ์ ์ฑ
์ ์๋ฆฝํ ์ ์๋ค.
๋ํ ํ๋์จ์ด์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ๋ณธ ์ฐ๊ตฌ์ค์์ ์ง์ ์ ์ํ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ์ฌ์ฉํ์ฌ ๋ฌผ๋ฆฌ์ ์ ํฉ์ฑ์ด ๋์ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๊ตฌ์ถํ๋ค. ์ด๋ฅผ ํตํด
์๋ฎฌ๋ ์ด์
๊ณผ ์ค์ ํ๊ฒฝ์ ๋ชจ๋ธ ๊ฐ ์ฐจ์ด๋ก ์ธํ reality gap์ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์์ผ๋ฉฐ ์ด๋ฌํ Sim-to-Real ๊ธฐ๋ฐ ํ์ต ์ ๋ต์ 3๋จ
๋๋ฆฝ์ง์ ์์คํ
๊ณผ ๊ฐ์ด ์ด๊ธฐ ์กฐ๊ฑด์ ์ ์ฝ์ด ํฌ๊ณ ๋์ ๋น์ ํ์ฑ์ ๊ฐ์ง๋ ์ฒ์ด ์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ์์ด ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋ ์ ์๋ค.
2.2 ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ
๋ณธ ์ฐ๊ตฌ์์๋ ์ฒ์ด ์ ์ด์ ๊ฐ์ด ๋ถ์์ ํ ๊ท ํ์ ๊ฐ์ ์ฒ์ด๋ฅผ ์๊ตฌํ๋ ๊ณ ์ฐจ ๋น์ ํ ์์คํ
์ ์ ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด Truncated Quantile
Critics(TQC) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ฌ ๊ฐํํ์ต ๊ธฐ๋ฐ ์ ์ด๊ธฐ๋ฅผ ๊ตฌํํ์๋ค. ์ผ๋ฐ์ ์ธ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ทน๋จ์ ์ธ ๋ณด์ ์์ธก์ผ๋ก ์ธํด ์ ์ฑ
์ด ๋ถ์์ ํด์ง๊ฑฐ๋
์๋ ด ์๋๊ฐ ์ ํ๋๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ฉฐ, ํนํ ๋๋ฆฝ์ง์์ ๊ฐ์ ๊ณ ์ฐจ ๋น์ ํ ์์คํ
์์๋ ์ด๋ฌํ ํ์์ด ๋์ฑ ๋น๋ฒํ๊ฒ ๋ฐ์ํ๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Quantile Regression Deep Q-Network (QR-DQN)์ Soft Actor-Critic(SAC)์ ์ฅ์ ์
๊ฒฐํฉํ TQC๋ ์ต์ ๋ถํฌ ๊ธฐ๋ฐ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์ฐ์์ ์ธ ํ๋ ๊ณต๊ฐ์ ๋์์ผ๋ก ํ๋ ๊ณ ์ฑ๋ฅ ์ ์ฑ
ํ์ต์ ์ ํฉํ๋ค. TQC์ ํต์ฌ ์ ๋ต์ ์์ธก๋
๋ณด์ ๋ถํฌ ์ค ์์ ๋ถ์์๋ฅผ ์ ๊ฑฐํจ์ผ๋ก์จ Q-๊ฐ์ ๊ณผ๋ ํ๊ฐ๋ฅผ ์ต์ ํ๊ณ ์ ์ฑ
์ด ๋ณด๋ค ํ์ค์ ์ธ ๊ธฐ๋ ๋ณด์์ ๊ธฐ๋ฐ์ผ๋ก ์๋ ดํ ์ ์๋๋ก ์ ๋ํ๋ ๊ฒ์ด๋ค.
์ด ๊ณผ์ ์ ๊ฐํํ์ต ์ด๊ธฐ์ ์์ฃผ ๋ฐ์ํ๋ ๊ณผ๋ํ ํ์(optimistic exploration)์ ์ต์ ํ์ฌ ํ์ต ์์ ์ฑ์ ๋์ด๊ณ ์ค์ ํ๊ฒฝ์ ์ ์ฉ
์ ์์ ์ฑ ์ธก๋ฉด์์๋ ์ ๋ฆฌํ๋ค.
ํ 1 ๊ฐํํ์ต ์์ด์ ํธ ๊ตฌํ์ ์ฌ์ฉ๋ ํ์ดํผํ๋ผ๋ฏธํฐ
Table 1 Hyperparameters used to implement reinforcement learning agents
Hyperparameter
|
Value
|
Optimizer
|
ADAM
|
Learning rate
|
0.0003
|
Discount factor ($\gamma$ )
|
0.99
|
Replay buffer size
|
1e6
|
Number of critics ( $N$)
|
3
|
Number of hidden layers in critic networks
|
3
|
Size of hidden layers in critic networks
|
512
|
Number of hidden layers in policy networks
|
2
|
Size of hidden layers in 1st policy networks
|
400
|
Size of hidden layers in 2nd policy networks
|
300
|
Minibatch size
|
256
|
Nonlinearity
|
ReLU
|
Target smoothing coefficient ( $\beta$)
|
0.005
|
Target update interval
|
1
|
Gradient steps per iteration
|
1
|
Environment steps per iteration
|
1
|
Number of atoms ($M$ )
|
25
|
ํนํ ๋ณธ ์ฐ๊ตฌ์์ ๋ค๋ฃจ๋ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ์ํ ๊ณต๊ฐ์ด ๊ณ ์ฐจ์์ด๋ฉฐ ์ด๊ธฐ ์กฐ๊ฑด์ ๋ฏธ์ธํ ๋ณํ๋ง์ผ๋ก๋ ๋์์ด ๊ธ๊ฒฉํ ๋ถ์์ ํด์ง ์ ์๋ ํน์ฑ์ ๊ฐ์ง๋ค.
์ด์ฒ๋ผ ๋ณด์์ ๋ถ์ฐ์ด ํฌ๊ณ ์คํจ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ ์ด ํ๊ฒฝ์์๋ ๋ณด์์ tail ์ ๋ณด๊น์ง ๊ณ ๋ คํ๋ ๋ถํฌ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ด ํจ๊ณผ์ ์ด๋ฉฐ TQC๋ ์ด๋ฌํ
ํ๊ฒฝ์ ํนํ๋ ์ ์ฑ
์ ํ์ตํ๋ ๋ฐ ์์ด ๊ธฐ์กด ๋ฐฉ๋ฒ๋ณด๋ค ๊ฐ์ธํ ์๋ ด ํน์ฑ์ ๋ณด์ธ๋ค. ๋ํ ๋ณต์์ critic network๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ ๋ณด์ ๋ถํฌ๋ฅผ
ํ์ตํ๊ณ ์ด๋ฅผ ํตํฉํ๋ ๊ตฌ์กฐ๋ ์ธ๋์ด๋ ๋ชจ๋ธ ๋ถํ์ค์ฑ์ด ์กด์ฌํ๋ ์ค์ ํ๊ฒฝ์์ ์ ์ฑ
์ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ์์ ์ฑ์ ๋์์ ํ๋ณดํ ์ ์๋ค๋ ์ ์์ ๋ณธ ์ฐ๊ตฌ์
๋ชฉ์ ๊ณผ ๋์ ๋ถํฉ์ฑ์ ๊ฐ์ง๋ค.
๋ณธ ์ฐ๊ตฌ์์๋ ์ฒ์ด ์ ์ด ๊ณผ์ ์์ ์๊ตฌ๋๋ ์ ๋ฐํ ๊ท ํ์ ๊ฐ์ ์ฒ์ด์ ์ด๊ธฐ ์กฐ๊ฑด์ ๋ํ ๊ฐ๊ฑด์ฑ์ ํ๋ณดํ๊ณ ์ ์์คํ
์ ํน์ฑ์ ๋ง์ถฐ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ
์กฐ์ ํ์๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ํ์ต ์๋์ ์ฐ์ฐ ํจ์จ์ ๊ณ ๋ คํ์ฌ critic network์ ๊ฐ์๋ฅผ ์ค์ด๊ณ , ๋๋ฆฝ์ง์์ ๊ณ ์ฐจ ๋ชจ๋ธ ๋ฐฉ์ ์์ ๋ฐ์ํ์ฌ policy
network์ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์๋ค. ์ฌ์ฉํ ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ํ 1์ ์ ๋ฆฌ๋์ด ์์ผ๋ฉฐ, replay buffer size ๋ฑ์ ๋๋จธ์ง ์ค์ ์ Kuznetsov[15]๊ฐ ์ ์ํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ค.
3. 3๋จ ๋๋ฆฝ์ง์ ์์คํ
๋ฐ ์ฒ์ด ์ ์ด
๊ทธ๋ฆผ 1์ 3๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ์ ๊ฐ๋
๋๋ฅผ ๋ํ๋ธ๋ค. ๋ณธ ๋
ผ๋ฌธ์์๋ ๊ตญ์ ๋จ์๊ณ(SI ๋จ์๊ณ)๋ฅผ ์ฌ์ฉํ๋ฉฐ ๊ฐ ๋ณ์์ ์๋ฏธ๋ ๋ค์๊ณผ ๊ฐ๋ค. $M$์ cart์
์ง๋, $m_{1}$, $m_{2}$, $m_{3}$๋ ๊ฐ ์ง์๋ค์ ์ง๋์ ์๋ฏธํ๋ค. $l_{1}$, $l_{2}$, $l_{3}$๋ ๊ฐ ์ง์๋ค์
ํ์ ์ถ์ผ๋ก๋ถํฐ ๋ฌด๊ฒ์ค์ฌ๊น์ง์ ๊ธธ์ด๋ฅผ ์๋ฏธํ๊ณ $L_{1}$์ 1๋จ ์ง์์ ํ์ ์ถ๊ณผ 2๋จ ์ง์์ ํ์ ์ถ๊น์ง์ ๊ธธ์ด, $L_{2}$๋ 2๋จ ์ง์์ ํ์ ์ถ๊ณผ
3๋จ ์ง์์ ํ์ ์ถ๊น์ง์ ๊ธธ์ด๋ฅผ ์๋ฏธํ๋ค. $u$๋ cart์ ๊ฐ์๋, $y$๋ cart์ ์ด๊ธฐ์์น๋ก๋ถํฐ์ ๋ณ์๋ฅผ ์๋ฏธํ๊ณ $c_{1}$, $c_{2}$,
$c_{3}$๋ ๊ฐ ์ง์์ ํ์ ์ถ์์ ๋ฐ์ํ๋ ๋ง์ฐฐ๊ณ์๋ฅผ ์๋ฏธํ๋ค. $\theta_{1}$์ 1๋จ ์ง์์ ํ์ ๋ณ์๋ก์จ ์ง๋ฉด์ ๋ํ ๋ฒ์ ๊ณผ ์ด๋ฃจ๋
๊ฐ์ด๋ฉฐ, $\theta_{2}$๋ 2๋จ ์ง์๊ฐ 1๋จ ์ง์์ ์ด๋ฃจ๋ ์๋์ ์ธ ํ์ ๋ณ์, $\theta_{3}$๋ 3๋จ ์ง์์ 2๋จ ์ง์๊ฐ ์ด๋ฃจ๋ ์๋์ ์ธ
ํ์ ๋ณ์์ด๋ค. $i$, $j$, $k$๋ ๊ฐ๊ฐ rail์ ์ค์ฌ์ ์ ์์ ์ผ๋ก ํ๋ ์ง๊ฐ์ขํ๊ณ์ ์ขํ์ถ์ ๋ํ๋ธ๋ค.
๊ทธ๋ฆผ 1. 3๋จ ๋๋ฆฝ์ง์์ ๊ฐ๋
๋
Fig. 1. The conceptual diagram of a triple inverted pendulum
3.1 3๋จ ๋๋ฆฝ์ง์์ ๋ชจ๋ธ ๋ฐฉ์ ์
3๋จ ๋๋ฆฝ์ง์์ ์ํ์ ๋ชจ๋ธ์ Euler-Lagrange equation์ ์ด์ฉํ์ฌ ์ ๋ํ๋ฉด ์ (1)๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์๋ค.
์ฌ๊ธฐ์ $\star$๋ ๋์นญํ๋ ฌ์ ๋์นญ๋ถ ์์๋ฅผ ๋ํ๋ธ๋ค. $n_{i}$, $m_{ij}$, $r_{i}$์ ์๋ฏธ๋ ์ (2)์ ๊ฐ์ด ์ ๋ฆฌํ ์ ์๋ค.
์ฌ๊ธฐ์ $g$๋ ์ค๋ ฅ๊ฐ์๋์ด๋ฉฐ $h_{i}$์ $d_{i}$์ ์๋ฏธ๋ ์ (3)๊ณผ ๊ฐ๋ค.
์ํ๋ฐฉ์ ์ ์ ๋๋ฅผ ์ํด ์ (1)์ ์ (4)๋ก ์ ๋ฆฌํ ์ ์๊ณ
์ (4)๋ฅผ ํตํด $\ddot{\theta}_{1}$, $\ddot{\theta}_{2}$, $\ddot{\theta}_{3}$๋ฅผ ์ (5)์ฒ๋ผ ํํํ ์ ์๋ค.
์ฌ๊ธฐ์ $b_{ij}$์ $\Phi$๋ ์ (6)๊ณผ ๊ฐ๋ค.
์ํ๋ฒกํฐ๋ฅผ $x_{1}=y$, $x_{2}=\theta_{1}$, $x_{3}=\theta_{2}$, $x_{4}=\theta_{3}$, $x_{5}=\dot{y}$,
$x_{6}=\dot{\theta}_{1}$, $x_{7}=\dot{\theta}_{2}$, $x_{8}=\dot{\theta}_{3}$, $x_{9}=\int_{0}^{t}y(\tau)d\tau$๋ก
์ ์ํ๊ณ $\ddot{y}$๋ฅผ ๊ฐ์๋ $u$๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ด 3๋จ ๋๋ฆฝ์ง์์ ๋ชจ๋ธ ๋ฐฉ์ ์์ ๋น์ ํ ์ํ๋ฐฉ์ ์์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
์ํ๋ณ์์ ๋ง์ง๋ง ์์์ธ $\int_{0}^{t}y(\tau)d\tau$๋ cart์ ์์น ์ ์์ํ ์ค์ฐจ๋ฅผ ์์ ๊ธฐ ์ํด ์ถ๊ฐํ ํญ์ด๋ค. 3๋จ ๋๋ฆฝ์ง์์
๋ชจ๋ธ์์ cart์ j์ถ ๋ฐฉํฅ์ ์ํ์ด๋ ์ธ์ ์ํ์ด๋๊ณผ ํ์ ์ด๋์ ๋ฐ์ํ์ง ์๋๋ค๊ณ ๊ฐ์ ํ๋ค. ๊ทธ๋ฆฌ๊ณ 1๋จ ์ง์์ 2๋จ ์ง์๋ ๊ฐ hinge์์
i์ถ ๋ฐฉํฅ์ ํ์ ์ถ์ ์ค์ฌ์ผ๋ก ํ ํ์ ๋ง์ด ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ๋ค. ํด๋น ๋ชจ๋ธ์์ ์๋์ ์ ํ์ ์ธ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋ ๋ง์ฐฐ๋ง์ ๊ณ ๋ คํ๋ฉฐ ๋น์ ํ์ ๊ด๊ณ๋ฅผ ๊ฐ์ง๋
์ ์ง ๋ง์ฐฐ๊ณผ Coulomb ๋ง์ฐฐ์ ๊ณ ๋ คํ์ง ์๋๋ค. ์ ๋๋ ๋ชจ๋ธ ๋ฐฉ์ ์์ ์ด์ฉํด Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ด๋ฌํ ๊ฐ์ ์
์ต๋ํ ๋ถํฉํ๋ ๊ธฐ๊ตฌ๋ถ ์ค๊ณ๊ฐ ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค.
3.2 3๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ๋ถ ๋ฐ ๊ตฌ๋๋ถ
์ค์ ์ฌ์ฉ๋๋ ์์คํ
์ด reality gap์ ์ต์ํํ๋ ค๋ฉด ์ด๋ก ์ ์ผ๋ก ์ ๋๋ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ ๋์ ์ ํฉ์ฑ์ ์ ์งํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ์ ๋๋ ๊ฐ์ ์
๋ถํฉํ๋ ๋์๋ง์ ์ํํ๋๋ก ์ค๊ณํ๋ ๊ฒ์ด ํ์์ ์ด๋ค. ๋ง์ผ ์์คํ
์ด ๊ฐ์ ๊ณผ ๋ค๋ฅธ ๋์์ ์ํํ๋ฉด, ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ ์ค๋ฌผ ์์คํ
๊ฐ์ ๋์ ์๋ต ์ฐจ์ด๊ฐ
๋ฐ์ํ์ฌ ๋ชจ๋ธ์ ์ ๋ขฐ๋๊ฐ ์ ํ๋ ์ ์๋ค. ๋ฐ๋ผ์ ๋ณธ ์ฐ๊ตฌ์์ ์ ์ํ๋ 3๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ๋ถ ๋ฐ ๊ตฌ๋๋ถ ์ค๊ณ๋ ์ด๋ก ์ /์คํ์ ๊ธฐ์ค์ ๋ถํฉํ๋๋ก ์ ํฉ์ฑ์
๊ทน๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค. ์ ์ํ๋ 3๋จ ๋๋ฆฝ์ง์์ ๊ธฐ๊ตฌ์ ๊ตฌ์กฐ๋ ๊ทธ๋ฆผ 2์ ๊ฐ๋ค.
๊ทธ๋ฆผ 2. 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ๊ธฐ๊ตฌ์ ๊ตฌ์กฐ
Fig. 2. The mechanical structure of triple inverted pendulum system
์ ์๋ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ๊ฐ ์ง์ ๊ฐ ์ฐ๊ฒฐ ๋ฐฉ์์ ์ ๋ฐ๋๋ฅผ ๊ณ ๋ คํ์ฌ ์ค๊ณ๋์๋ค. ๊ทธ๋ฆผ 3์์ ํ์ธํ ์ ์๋ฏ์ด, ๊ฐ ์ง์๋ฅผ ์ฐ๊ฒฐํ๋ revolute joint๋ ๋จ์ผ bearing์ด ์๋ ๋ณต๋ ฌ bearing ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์ฌ ํ์ ์ด ๋จ์ผ
์ถ์ ๊ธฐ์ค์ผ๋ก ์์ ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋๋ก ํ์๋ค. ์ด๋ฅผ ํตํด ๋ถํ์ํ ๋ฐฉํฅ์ ์์ง์์ ์ต์ํํ๊ณ ์ ๋ฐํ ํ์ ์ฑ๋ฅ์ ํ๋ณดํ ์ ์๋๋ก ํ์๋ค.
๋ํ 3๋จ ์ง์์ 2๋จ ์ง์์ ๋ํ ํ์ ๊ฐ $\theta_{3}$ ๋ฐ 2๋จ ์ง์์ 1๋จ ์ง์์ ๋ํ ํ์ ๊ฐ $\theta_{2}$๋ฅผ ์ธก์ ํ๊ธฐ ์ํด
์ํ ์๊ธฐ์ ์์ฝ๋๋ฅผ ์ฅ์ฐฉํ์๋ค. ํนํ $\theta_{3}$๋ฅผ ์ธก์ ํ๋ ์์ฝ๋๋ฅผ slip ring์ ์ฐ๊ฒฐํ๊ธฐ ์ํด์๋ 1๋จ ์ง์์ 2๋จ ์ง์์ ์ฐ๊ฒฐ
๋ถ์๋ฅผ ๊ดํตํด์ผ ํ๋ค. ์ด๋ฅผ ์ํด ๋ณธ ์ฐ๊ตฌ์์๋ ์ค๊ณต์ถ(hollow shaft) revolute joint๋ฅผ ์ฌ์ฉํด ์ง์ ๊ฐ์ ๊ฐ์ญ์ ์ค์ด๊ณ ํ์
์ ๋ณด๋ฅผ ์ํํ ๋ฐ์์ฌ ์ ์๋๋ก ์ค๊ณํ์๋ค.
๊ทธ๋ฆผ 4๋ ์ด์ ์ ๋ณธ ์ฐ๊ตฌ์ค์์ ์ ์ํ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ rail ๋ฐ cart์ ๊ตฌ์กฐ์ด๋ค[5]. ํด๋น ๊ตฌ์กฐ์์๋ ์ง์์ ์ด๋์ ๋ฐ๋ผ ์นดํธ์ ๋นํ๋ฆผ($\alpha$)์ด ๋ฐ์ํ๋ ๋ฌธ์ ๊ฐ ๊ด์ฐฐ๋์๋ค. ์ด๋ ๋ชจ๋ธ ๋ฐฉ์ ์์์ ๊ณ ๋ ค๋์ง ์์ ์์์ด๋ฉฐ
์๋ฎฌ๋ ์ด์
ํ๊ฒฝ๊ณผ์ ์ ํฉ์ฑ์ ์ ํ์ํค๋ ์์ธ ์ค ํ๋์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ทธ๋ฆผ 5์ ๊ฐ์ด ์ด์ค ์คํํธ ๊ฐ์ด๋ ๋ ์ผ ๊ตฌ์กฐ๋ฅผ ์ ์ฉํ์๋ค. ์ ์๋ ๊ตฌ์กฐ๋ ๊ธฐ์กด ๊ตฌ์กฐ ๋๋น ๋์ฑ ๊ฒฌ๊ณ ํ ๊ณ ์ ์ ์ ๊ณตํ์ฌ ์ง์์ ์์ง์์ผ๋ก ์ธํ ๋นํ๋ฆผ์ ์ํํ
์ ์์ผ๋ฉฐ ๋ฒจํธ์ ์ฅ๋ ฅ์ด pulley๋ฅผ ํ์ ์ํค๋ ์ถ์๋ง ์ ๋ฌ๋๋๋ก ์ ๋ํ ์ ์๋ค.
๊ทธ๋ฆผ 3. ์ ์๋๋ 3๋จ ๋๋ฆฝ์ง์์ ๋จ๋ฉด๋ ๋ฐ ์์ฝ๋ ๋ฐฐ์
Fig. 3. Cross-sectional view and encoder wiring of the proposed triple inverted pendulum
๊ทธ๋ฆผ 4. 2040 ์๋ฃจ๋ฏธ๋ ํ๋กํ์ผ์ ์ด์ฉํ ๋ ์ผ ๋ฐ ์นดํธ ๊ตฌ์กฐ
Fig. 4. The structure of the rail and cart constructed using 2040 aluminum profile
๊ทธ๋ฆผ 5. ์ ์๋๋ ๊ตฌ๋๋ถ ๊ตฌ์กฐ
Fig. 5. Proposed driving structure
๋ณธ ์ฐ๊ตฌ์์๋ ๊ทธ๋ฆผ 5์ ๊ฐ์ด ๊ฐ์๊ธฐ๋ฅผ ์ฌ์ฉํ์ง ์์ BLDC ๋ชจํฐ๋ฅผ ์ฑํํ์ฌ pulley๋ฅผ ์ง์ ๊ตฌ๋ํ๋๋ก ์ค๊ณํ์๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋ฐฑ๋์๋ฅผ ์ ๊ฑฐํ์ฌ limit cycle
ํ์์ ๋ฐ์์ ์ต์ํํ๋ ํจ๊ณผ๋ฅผ ๊ธฐ๋ํ ์ ์๋ค. ๋ํ, BLDC ๋ชจํฐ์์ ๋๋ ฅ์ ์ ๋ฌํ๋ ๋ถ๋ถ์ coupling์ ์ฌ์ฉํด ๋ถํ์ํ ๋ถํ๊ฐ ์ถ๋ ฅ์
์ํฅ์ ์ฃผ๋ ๊ฒ์ ๋ฐฉ์งํ์๋ค.
์ ์๋๋ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์์๋ cart์ ์ด๋๋ถ, ๊ตฌ๋๋ถ, ๊ทธ๋ฆฌ๊ณ ๊ฐ ์ง์์ bearing์ด ์ฌ์ฉ๋๋ฉฐ, ๋ชจ๋ธ์์๋ ์๋ ๋ฐ ํ์ ๊ฐ์๋์ ๋น๋กํ๋
์ ์ฑ ๋ง์ฐฐ๋ง์ ๊ณ ๋ คํ์๋ค. ์ ์ง ๋ง์ฐฐ์ด๋ ์ฟจ๋กฑ ๋ง์ฐฐ ๋ฑ์ ํฌํจํ์ง ์์ผ๋ฉฐ ์ค์ ๋ก ์ ์๋๋ ๋๋ฆฝ์ง์ ์์คํ
์ญ์ ์ด๋ฌํ ๋ชจ๋ธ๋ง ํน์ฑ์ ๋ฐ์ํ๋๋ก ์ค๊ณ๋์ด์ผ
ํ๋ค.
๊ณต์ฅ์์ ์ถ๊ณ ๋ bearing์ ์ฅ๊ธฐ๊ฐ ์ฌ์ฉ์ ๊ณ ๋ คํ์ฌ ์ ์ฑ์ด ๋์ grease๊ฐ ๋ํฌ๋ ์ํ์ด๋ค. ๊ทธ๋ฌ๋ ์ด๋ฌํ bearing์ ๋ณ๋์ ์ฒ๋ฆฌ ์์ด
3๋จ ๋๋ฆฝ์ง์์ ์ ์ฉํ ๊ฒฝ์ฐ cart์ ์์ง์๊ณผ ์ง์ ํ์ ์ ๋ถํ์ํ ๋ง์ฐฐ์ด ๋ฐ์ํ๋ฉฐ ์ ์ฑ ๋ง์ฐฐ ์ฑ๋ถ ์ฆ๊ฐ๋ก ์ธํด ์ํํ ๊ตฌ๋์ ๋ฐฉํดํ ๊ฐ๋ฅ์ฑ์ด
๋๋ค.
ํนํ revolute joint์ ์ฌ์ฉ๋ bearing์์ ์ ์ง ๋ง์ฐฐ์ด ๋ฐ์ํ ๊ฒฝ์ฐ ๋๋ฆฝ์ง์๊ฐ ์ด๊ธฐ ์ํ์์ ์์ง์ด๊ธฐ ์ด๋ ค์์ง๋ฉฐ ์๊ธฐ์น ์์ ์ด๊ธฐ
์ํ ํธ์ฐจ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ์๋ค. ์๋ฅผ ๋ค์ด ์์ ํ ๊ท ํ์ ์์ ์์ ํธ์ฐจ๊ฐ ์๊ธธ ๊ฒฝ์ฐ, ์์คํ
์ด ์ด๊ธฐ ์ค์ ๊ณผ ๋ค๋ฅธ ์ํ๋ก ์ด๋ํ ์ ์์ผ๋ฉฐ ์ด๋
limit cycle ํ์์ ์ ๋ฐํ๋ ์ฃผ์ ์์ธ ์ค ํ๋๋ก ์์ฉํ ์ ์๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๋ณธ ์ฐ๊ตฌ์์๋ solvent๋ฅผ ์ฌ์ฉํ์ฌ bearing์
๊ทธ๋ฆฌ์ค๋ฅผ ์ ๊ฑฐํ ํ bearing ๋ด๋ถ๋ฅผ ์ค์ผ ์ฒ๋ฆฌํ์ฌ ๋ง์ฐฐ์ ์ต์ํํ๋ ๋ฐฉ๋ฒ์ ์ ์ฉํ์๋ค.
3.3 ์ฒ์ด ์ ์ด
์ฒ์ด ์ ์ด๋ ๋ค์ํ ๊ท ํ์ ๊ฐ์ ์ฒ์ด๋ฅผ ๋ค๋ฃจ๋ฏ๋ก ์์คํ
๋ด ๊ท ํ์ ์ ์ฒด๊ณ์ ์ผ๋ก ์ ์ํ๊ณ ์ด๋ฅผ ์ ์ด์ ๋ชฉํ ์ํ๋ก ๋ช
ํํ ์ค์ ํ๋ ๊ณผ์ ์ด ์ ํ๋์ด์ผ
ํ๋ค. 3๋จ ๋๋ฆฝ์ง์์ ๊ท ํ์ ์ ๊ฐ ์ง์์ angle ๊ฐ์ ๋ฐ๋ผ ์ด 8๊ฐ์ง๋ก ๊ตฌ๋ถ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ๊ฐ ์ง์์ ์ํ๋ฅผ Down ๋๋ Up์ผ๋ก ํ๊ธฐํ๋ฉฐ
Down์ 0, Up์ 1์ ๋์
ํ๋ฉด 2์ง์ ํ์์ผ๋ก ํํ์ด ๊ฐ๋ฅํ์ฌ ๊ท ํ์ ์ ์์๋ฅผ ๊ตฌ๋ถํ๊ธฐ ์ฝ๊ฒ ๋ํ๋ผ ์ ์๋ค. ๊ท ํ์ ์ EP(Equilibrium
Point)๋ก ํ๊ธฐํ๋ฉฐ ๊ฐ ์ง์์ ์กฐํฉ์ ๋ฐ๋ผ EP0(Down, Down, Down), EP1(Down, Down, Up), EP2(Down, Up,
Down), EP3(Down, Up, Up), EP4(Up, Down, Down), EP5(Up, Down, Up), EP6(Up, Up, Down),
EP7(Up, Up, Up)๊ณผ ๊ฐ์ด ๊ตฌ๋ถ๋๋ค. ์ด๋ฌํ ์กฐํฉ์ ๊ทธ๋ฆผ 6์ ์๊ฐ์ ์ผ๋ก ์ ์๋์ด ์๋ค.
๊ทธ๋ฆผ 6. 3๋จ ๋๋ฆฝ์ง์์ ๊ท ํ์
Fig. 6. Equilibrium point of triple inverted pendulum
์ฒ์ด ์ ์ด์ ๊ด๋ จํ ์ ํ ์ฐ๊ตฌ๋ ๊ฐ ๊ท ํ์ ๊ฐ์ ์ฒ์ด ๊ถค์ ์ ์ฌ์ ์ ๊ณ์ฐํ ํ ์ด๋ฅผ ์ถ์ข
ํ๋ ๋ฐฉ์์ ์ ์ฉํ์๋ค[6,7]. ์ด๋ฌํ ๋ฐฉ์์ ๊ถค์ ์ ์ ํํ ์ถ์ข
ํ ์ ์๋ ํ๊ฒฝ์์๋ ํจ๊ณผ์ ์ด์ง๋ง ์ธ๋์ด ์กด์ฌํ๋ ๊ฒฝ์ฐ์๋ ์ฌ์ ์ ๊ณ์ฐ๋ ๊ถค์ ์ ๋ฐ๋ผ๊ฐ๊ธฐ ์ด๋ ค์ ์ฑ๋ฅ ์ ํ๊ฐ
๋ฐ์ํ ์ ์๋ค. ๋ฐ๋ฉด Sim-to-Real ๋ฐฉ์์ ์ฒ์ด ๊ถค์ ์ ์ง์ ๊ณ์ฐํ์ง ์๊ณ ๋ชฉํ ๊ท ํ์ ์ ๋ณด์ ํจ์์ ์ต๋๊ฐ์ผ๋ก ์ค์ ํ์ฌ ํ์ตํ๋ ๋ฐฉ์์
์ฌ์ฉํ๋ค. ์ฆ ํน์ ํ ๊ถค์ ์ ์ฌ์ ์ ์ ์ํ๋ ๊ฒ์ด ์๋ ๊ท ํ์ ์์ฒด๋ฅผ ์ต์ข
๋ชฉํ ์ํ๋ก ์ค์ ํจ์ผ๋ก์จ ์ง์๊ฐ ์ด๋ค ์ด๊ธฐ ์ํ์์ ์ถ๋ฐํ๋ ์ฃผ์ด์ง ๋ชฉํ
๊ท ํ์ ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์๋ ดํ๋๋ก ํ์ต๋๋ค. ํด๋น ๋ฐฉ์์ 3๋จ ๋๋ฆฝ์ง์์ 56๊ฐ์ง ์ฒ์ด ๊ถค์ ์ ์ง์ ๊ตฌํ ํ์ ์์ด 8๊ฐ์ง ๊ท ํ์ ์ ๋ํ ํ์ต๋ง์ผ๋ก๋
์ฒ์ด ์ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ํํ ์ ์๋ค. ๋ํ Sim-to-Real ํ์ต ๊ธฐ๋ฒ์ ํตํด ๋ค์ํ ์ด๊ธฐ ์กฐ๊ฑด๊ณผ ํ๊ฒฝ ๋ณํ์๋ ๊ฐ์ธํ ์ ์ด ์ฑ๋ฅ์ ํ๋ณดํ
์ ์๊ณ ์ฒ์ด ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ๋ค์ํ ์ธ๋์ด๋ ๋ชจ๋ธ ๋ถํ์ค์ฑ์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ๊ทน๋ณตํ ์ ์๋ค.
4. ์คํ ๋ฐ ๊ฒฐ๊ณผ
4.1 ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ ์ค์
๊ฐํํ์ต ์์ด์ ํธ๊ฐ ํ์ต ๊ณผ์ ์์ ์ง์ ์ํธ์์ฉํ๋ ํ๊ฒฝ์ 3์ฅ์์ ์ ๋๋ ์ํ์ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก Python์ ์ด์ฉํ์ฌ ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ผ๋ก ๊ตฌํํ์๋ค.
3๋จ ๋๋ฆฝ์ง์ ์์คํ
์ ๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐ์ํ์ฌ ํ๊ฒฝ์ ๊ตฌ์ถํ์ผ๋ฉฐ ํด๋น ํ๋ผ๋ฏธํฐ๋ ํ 2์ ์ ๋ฆฌ๋์ด ์๋ค. ๋ํ ๋น์ ํ ์๋ฏธ๋ถ ๋ฐฉ์ ์์ ํด๋ฅผ ๊ตฌํ๊ธฐ ์ํด ode4 Runge-Kutta ๋ฐฉ๋ฒ์ solver๋ก ์ฑํํ์๋ค.
ํ 2 3๋จ ๋๋ฆฝ์ง์์ ๋ฌผ๋ฆฌ์ ํ๋ผ๋ฏธํฐ
Table 2 Physical parameters of triple inverted pendulum
Parameter
|
Link
|
$i=1$
|
$i=2$
|
$i=3$
|
$m_{i}$[kg]
|
0.2297
|
0.1345
|
0.1644
|
$L_{i}$[m]
|
0.1645
|
0.210
|
0.245
|
$l_{i}$[m]
|
0.0819
|
0.1239
|
0.1532
|
$I_{i}$[kgm2]
|
1.269e-03
|
9.371e-04
|
1.744e-03
|
$c_{i}$[Nms/rad]
|
1.293e-03
|
1.626e-06
|
3.305e-04
|
์๋ฎฌ๋ ์ด์
ํ์ต ํ๊ฒฝ์์ ๊ฐ ์ํผ์๋์ ๊ธธ์ด๋ 10์ด๋ก ์ค์ ํ์ผ๋ฉฐ, ODE solver๋ 1ms ๊ฐ๊ฒฉ์ผ๋ก ์ฐ์ฐ์ ์ํํ๊ณ , ์์ด์ ํธ๋ 10ms๋ง๋ค
์ํ ์ ๋ณด๋ฅผ ๊ด์ธกํ๋๋ก ๊ตฌ์ฑํ์๋ค. ์ด๋ฌํ ์ค์ ์ ํตํด ์์ด์ ํธ๋ ์ํผ์๋๋น ์ต๋ 1000ํ ๋์ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ ์ง์ ์ผ๋ก ์ต์ ์ ํ๋ ์ ์ฑ
์
ํ์ตํ ์ ์๋๋ก ์ค๊ณ๋์๋ค. ์ํผ์๋์ ์ข
๋ฃ ์กฐ๊ฑด์ timestep์ด 1000์ ์ด๊ณผํ๋ ๊ฒฝ์ฐ ์ธ์๋ ์ถ๊ฐ์ ์ผ๋ก cart์ ๋ณ์ $y$๊ฐ 0.48[m]๋ฅผ
์ด๊ณผํ๊ฑฐ๋ cart์ ๊ฐ์๋ $a$๊ฐ 2.5[m/sยฒ] ๋ณด๋ค ํด ๊ฒฝ์ฐ ์กฐ๊ธฐ ์ข
๋ฃ๋๋๋ก ์ค์ ํ์๋ค. ์ด๋ ํ์ต๋ ์ ์ด๊ธฐ๊ฐ ์ค๋ฌผ ์์คํ
์ ์ ์ฉ๋ ๋ cart๊ฐ
๋ ์ผ์ ํ๊ณ๋ฅผ ๋ฒ์ด๋๊ฑฐ๋ ์์คํ
์ ์์์ด ๊ฐ ์ ์๋ ์ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์ฌ์ ์ ์ธ ์์ ์กฐ์น์ด๋ค.
4.2 ๋ณด์ํจ์ ์ค๊ณ
๊ฐํํ์ต ์์ด์ ํธ๋ ํ๊ฒฝ๊ณผ ์ง์์ ์ผ๋ก ์ํธ์์ฉํ๋ฉฐ ๋งค ์์ ์์ ์ป์ ๋ณด์ ๊ฐ์ ๋ฐํ์ผ๋ก ์์ ์ ํ๋ ์ ์ฑ
์ ์ ์ง์ ์ผ๋ก ์ต์ ํํ๋ค. ์ด๋ ๋ณด์ ๊ฐ์
์ฐ์ถํ๊ธฐ ์ํ ๋ณด์ ํจ์๋ 3๋จ ๋๋ฆฝ์ง์ ์์คํ
์์ ์กด์ฌํ๋ 8๊ฐ์ ๊ท ํ์ ์ค ์ด๋ค ๊ท ํ์ ์ ๋๋ฌํ๊ธฐ ์ํ ์ฒ์ด ์ ์ด๋ฅผ ์ํํ๋์ง์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๊ฒ
๋๋ค. ๊ทธ๋ฆผ 7์์ ์ ํด๋ ๊ท ํ์ ์ ๋ง์ถฐ ๋ณด์์ด ์ต๋๊ฐ ๋๋ target angle์ ํ 3๊ณผ ๊ฐ๋ค.
ํ 3 ๊ท ํ์ ์ ๋ฐ๋ฅธ ๊ฐ ์ง์์ ๋ชฉํ ๊ฐ๋
Table 3 Target angle of each pendulum according to the equilibrium point
Equilibrium Point
|
Target Angle
|
$\theta_{1}^{*}$
|
$\theta_{2}^{*}$
|
$\theta_{3}^{*}$
|
0
|
-ฯ
|
-ฯ
|
-ฯ
|
1
|
-ฯ
|
-ฯ
|
0
|
2
|
-ฯ
|
0
|
-ฯ
|
3
|
-ฯ
|
0
|
0
|
4
|
0
|
-ฯ
|
-ฯ
|
5
|
0
|
-ฯ
|
0
|
6
|
0
|
0
|
-ฯ
|
7
|
0
|
0
|
0
|
๊ฐ ๊ท ํ์ ์์ ์ต๋ ๋ณด์์ด ๋๋๋ก ์ค๊ณํ ๋ณด์ ํจ์๋ ์ (8)๊ณผ ๊ฐ๊ณ ๊ทธ๋ํ๋ก ํํํ๋ฉด ๊ทธ๋ฆผ 7๊ณผ ๊ฐ๋ค.
๊ทธ๋ฆผ 7. ๋ณด์ ํจ์ ๊ทธ๋ํ
Fig. 7. Reward function graph
์ต์ข
์ ์ธ ๋ณด์ ํจ์๋ ๋ชจ๋ ๋ณด์ ๊ฐ์ ๊ณฑํ์ฌ ์ต๋๊ฐ์ด 1์ด ๋๋ ํํ๋ก ์ (9)์ ๊ฐ์ด ํํํ ์ ์๋ค.
์์ ์ค๊ณํ ๋ชจ๋ ๋ณด์ ํจ์๋ [0, 1]์ ๊ฐ์ผ๋ก ์ ๊ทํ๊ฐ ์ด๋ฃจ์ด์ง ํํ์ด๋ฉฐ ๊ฐ ์ํผ์๋๋ ์ต๋ 1000๊ฐ์ timestep์ผ๋ก ๊ตฌ์ฑ๋๋ฏ๋ก ๋จ์
timestep๋ง๋ค 1์ ๋ณด์์ ์ป๋๋ค๊ณ ๊ฐ์ ํ ๊ฒฝ์ฐ ํ๋์ ์ํผ์๋์์ ํ๋ํ ์ ์๋ ๋ณด์์ ์ต๋๊ฐ์ 1000์ด ๋๋ค.
๋ณธ ์ฐ๊ตฌ์์ ์ฌ์ฉ๋ ๋ณด์ ํจ์๋ ๊ท ํ์ ์ ๋ํ ์์กด๋์ ๋ฐ๋ผ ๋ ๊ฐ์ง ์ ํ์ผ๋ก ๊ตฌ๋ถํ ์ ์๋ค. ์ฒซ ๋ฒ์งธ ์ ํ์ target angle์ ์ข
์์ ์ธ
๋ณด์ ํจ์๋ก ์ด๋ $R_{\theta_{1}}$, $R_{\theta_{2}}$, $R_{\theta_{3}}$๋ก ์ ์๋๋ค. ํด๋น ๋ณด์ ํจ์๋ค์ ๋ชฉํ
๊ท ํ์ ๊ณผ์ ์ค์ฐจ๊ฐ ๊ฐ์ํ ์๋ก ๋ณด์์ด ์ฆ๊ฐํ๋ ํํ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๋ฅผ ํตํด ์์ด์ ํธ๊ฐ ๊ฐ ์ง์๋ฅผ ๊ท ํ์ ์ผ๋ก ์๋ ด์ํค๋ ํ๋ ์ ์ฑ
์ ํ์ตํ๋๋ก ์ ๋ํ๋ค.
๋ ๋ฒ์งธ ์ ํ์ $R_{u}$, $R_{y}$, $R_{\dot{\theta}_{1}}$, $R_{\dot{\theta}_{2}}$, $R_{\dot{\theta}_{3}}$๋ก
๊ตฌ์ฑ๋๋ฉฐ <$u$, $y$, $\dot{\theta}_{1}$, $\dot{\theta}_{2}$, $\dot{\theta}_{3}$>๋ผ๋ ๊ฐ ๋งค๊ฐ๋ณ์์
๊ฐ์ด 0์ ๊ฐ๊น์์ง์๋ก ๋ณด์์ด ์ฆ๊ฐํ๋ ๋ฐฉ์์ผ๋ก ์ค๊ณ๋๋ค. ์ด๋ ์์ด์ ํธ๊ฐ ์ ์ด ์
๋ ฅ์ ์ต์ํํ๊ณ cart์ ์์น๋ฅผ ์์ ๋ถ๊ทผ์ผ๋ก ์ ์งํ๋ฉฐ ์ง์์
๋ถํ์ํ ์์ง์์ ์ต์ ํ ์ ์๋๋ก ํ์ตํ๋๋ฐ ๋์์ ์ค๋ค.
4.3 ํ์ต ์ ๋ต
์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ์ค์ ํ ํ ๊ฐ ๊ท ํ์ ์ ๋ง์ถฐ target angle์ ๋ณ๊ฒฝํด๊ฐ๋ฉฐ ์ด 8ํ์ ๊ฑธ์ณ ํ์ต์ ์งํํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ ๊ทธ๋ฆผ 8๊ณผ ๊ฐ์ผ๋ฉฐ ๋ณด์๊ฐ์ด ์ฝ 700์์ 800์ด๋ผ๋ ๊ฐ์ ๋๋ฌํ ํ ์ผ์ ํ ์์ค์ ์ ์งํ๋ ๊ฒฝํฅ์ ๋ณด์๋ค. ๋ํ ๊ฐ ๊ท ํ์ ๋ง๋ค ํ์ต์ด ์๋ฃ๋๋ ์์ ์ด ๋ค๋ฅด๊ฒ
๋ํ๋ฌ์ผ๋ฉฐ ์ด๋ ๊ท ํ์ ๊ฐ์ ์ ์ด ๋์ด๋ ์ฐจ์ด์ ๊ธฐ์ธํ๋ ๊ฒ์ผ๋ก ๋ถ์๋๋ค. ์ด๋ฌํ ์ฐจ์ด๋ ๊ฐ ๊ท ํ์ ์ ์์ ์ฑ ๋ฐ ์ ์ด ๋์ด๋๋ฟ๋ง ์๋๋ผ ๋ณด์ ํจ์์
๊ตฌ์กฐ, ํ์ ๊ณผ์ ์ ์ฐจ์ด ๋ฑ์ ์ํด์๋ ์ํฅ์ ๋ฐ์ ์ ์๋ค. ์ถ๊ฐ์ ์ผ๋ก ํ์ต์ด ์๋ฃ๋ ์ดํ์๋ ๋ณด์์ด ์ผ์ ํ ๊ฐ์ผ๋ก ์์ ํ ์๋ ดํ์ง ์๋ ๋ชจ์ต์
ํ์ธํ ์ ์์๋๋ฐ ์ด๋ ์ธ๋์ด ์กด์ฌํ๋ ํ๊ฒฝ์์๋ ๊ฐ๊ฑดํ ์ ์ด ์ ์ฑ
์ ํ์ตํ ์ ์๋๋ก ์ค๊ณ๋ ํ์ต ์กฐ๊ฑด ๋๋ฌธ์ด๋ค.
๊ทธ๋ฆผ 8. ๊ฐ ๊ท ํ์ ์ ๋ํ ํ์ต ๊ฒฐ๊ณผ
Fig. 8. Result for learning about each equilibrium point
๊ฐํํ์ต ์์ด์ ํธ๊ฐ ๋ณด๋ค ๋ค์ํ ์ํ๋ฅผ ๊ฒฝํํ๊ณ ์ผ๋ฐํ๋ ์ ์ด ์ ์ฑ
์ ํ์ตํ ์ ์๋๋ก, ๊ฐ ์ํผ์๋์ ์ด๊ธฐ ์ํ๋ ๋ฌด์์์ฑ์ ๊ฐ์ง๋๋ก ์ค์ ํ์๋ค.
์ด๋ฅผ ์ํด ์๋ฎฌ๋ ์ด์
ํ๊ฒฝ์ ๋น์ ํ ์ํ๋ฐฉ์ ์์ ๊ตฌ์ฑํ๋ ์ํ ๋ณ์๋ค์ ๋์๋ก ์ด๊ธฐํํ์ฌ ์์ด์ ํธ๊ฐ ๊ด๋ฒ์ํ ์ํ ๊ณต๊ฐ์ ํ์ํ ์ ์๋๋ก ํ์๋ค.
๋ค๋ง ์ด๊ธฐ ์ํ ๋ณ์์ ๋์ ๋ฒ์๋ ์ค๋ฌผ ์์คํ
์ ๋ฌผ๋ฆฌ์ ํ๊ณ๋ฅผ ๊ณ ๋ คํ์ฌ ์ค์ ํ์์ผ๋ฉฐ ๊ทธ ๋ฒ์๋ ์ (10)๊ณผ ๊ฐ์ด ์ ์๋๋ค.
๊ทธ๋ฌ๋ ์ด๋ฌํ ๋์ ๊ธฐ๋ฐ ์ด๊ธฐํ ๊ณผ์ ์์ ์ผ๋ถ ์ํ ๋ณ์ ์กฐํฉ์ด ํ์ค์ ์ธ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์๋ฐฐํ๋ ๊ฒฝ์ฐ๊ฐ ๋ฐ์ํ ์ ์๋ค. ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ถ๊ฐ๋ฅํ ์ด๊ธฐ ์ํ์์
ํ์ต์ด ์์๋๋ฉด ๋ชจ๋ธ ๋ฐฉ์ ์์ ์ฐ์ฐ ๊ฒฐ๊ณผ ์ญ์ ๋นํ์ค์ ์ธ ๊ฐ์ผ๋ก ์ด์ด์ง ์ ์๋ค. ๊ฐํํ์ต ์์ด์ ํธ์ ๊ด์ ์์๋ ์ด์ ํ์ต ๊ณผ์ ์์ ํ ๋ฒ๋ ๊ฒฝํํ์ง
๋ชปํ๋ ๋ถ๊ท์นํ ์ํ๋ฅผ ์
๋ ฅ๋ฐ๊ฒ ๋๋ฉฐ ํ์ต๋ ํ๋ ์ ์ฑ
๊ณผ ๋ฌด๊ดํ ์์ธก ๋ถ๊ฐ๋ฅํ ํ๋์ ์ถ๋ ฅํ ๊ฐ๋ฅ์ฑ์ด ์ฆ๊ฐํ๋ค. ์ด๋ก ์ธํด ์ ์ด ์์คํ
์ ๋์์ด ๋น์ ์์ ์ผ๋ก
์ด๋ฃจ์ด์ง๊ณ ์ค์ ๋ ์ข
๋ฃ ์กฐ๊ฑด์ ์กฐ๊ธฐ์ ์ถฉ์กฑ์์ผ ํ์ต์ด ์กฐ๊ธฐ ์ข
๋ฃ๋ ๊ฐ๋ฅ์ฑ์ด ์ฆ๊ฐํ๋ค. ์ด์ฒ๋ผ ๋ฌผ๋ฆฌ์ ์ผ๋ก ์๋ฏธ ์๋ ์ด๊ธฐ ์ํ๊ฐ ํน์ ์ํผ์๋์์ ๋ฐ์ํ
๊ฒฝ์ฐ ๋ณด์ ๊ฐ์ ํ๊ท ์๋ ๋ณ๋์ฑ์ด ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค.
๋ฐ๋ฉด ํ์ต๋ ์ ์ด๊ธฐ๋ฅผ ์ค๋ฌผ ์์คํ
์ ์ ์ฉํ ๊ฒฝ์ฐ์๋ ์ด๋ฌํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์๋๋ค. ์ค์ ํ๊ฒฝ์์๋ ๋ฌผ๋ฆฌ ๋ฒ์น์ ์๋ฐฐ๋๋ ์ํ๊ฐ ์์ฐ์ ์ผ๋ก ๋ฐ์ํ
์ ์๊ธฐ ๋๋ฌธ์ ์์ด์ ํธ๊ฐ ๋นํ์ค์ ์ธ ์ํ ์ ๋ณด๋ฅผ ๊ด์ธกํ ๊ฐ๋ฅ์ฑ์ด ์ฌ๋ผ์ง๋ค. ๋ฐ๋ผ์ ๊ฐํํ์ต ๊ณผ์ ์์ ํ์ต๋ ํ๋ ์ ์ฑ
์ด ์ ์์ ์ธ ์ํ ์ ๋ณด์ ๊ธฐ๋ฐํ์ฌ
์์ ์ ์ผ๋ก ๋์ํ ์ ์์ผ๋ฉฐ ๋ณด๋ค ์ ๋ขฐ์ฑ ๋์ ์ ์ด ์ฑ๋ฅ์ ๊ธฐ๋ํ ์ ์๋ค.
4.4 ํ์ต ์ ๋ต
๊ทธ๋ฆผ 9๋ 3๋จ ๋๋ฆฝ์ง์์ ์ฒ์ด ์ ์ด ์คํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ Youtube ์์์ ์บก์ณํ ๊ทธ๋ฆผ์ด๋ฉฐ ์ค์ ์์์ ์ฃผ์๋ https://youtu.be/vVx3ffGo2mk์
๊ฐ๋ค. (์์ ์ ๋ชฉ : World's first reinforcement learning-based transition control of a triple
inverted pendulum, ์ฑ๋๋ช
: Embedded Control Lab.)
๊ทธ๋ฆผ 9. ์ฒ์ด ์ ์ด ์คํ ์์
Fig. 9. Experimental image of transition control
์คํ ๊ฒฐ๊ณผ ๋ชจ๋ ๊ท ํ์ ์์ ์ ์ด๊ฐ ์ฑ๊ณต์ ์ผ๋ก ์ด๋ฃจ์ด์ก์ผ๋ฉฐ ๊ทธ๋ฆผ 10์ ๊ทธ์ค ์ผ๋ถ ์ฒ์ด ์ ์ด ๊ฒฐ๊ณผ๋ฅผ ์๊ฐ์ ์ผ๋ก ์ ์ํ ๊ฒ์ด๋ค. ํด๋น ๊ทธ๋ํ๋ ์์ ํ ๊ท ํ์ ์ธ EP0์์ ์์ํด ๊ฐ๊ธฐ ๋ค๋ฅธ ๊ท ํ์ ์ผ๋ก์ ์ฒ์ด ์ ์ด ๊ฒฐ๊ณผ๋ฅผ
๋ํ๋ธ๋ค. ์ฒ์ด ์์๋ EP0์ ์์์ผ๋ก EP4, EP1, EP6, EP2, EP5, EP7 ๊ทธ๋ฆฌ๊ณ ์ต์ข
์ ์ผ๋ก EP3๋ก ์ด์ด์ง๋ค. ๊ทธ๋ํ์์ ํ์ธํ
์ ์๋ฏ์ด ์ ์ด์ ์ฃผ์ ๋์์ธ $\theta_{1}$, $\theta_{2}$, $\theta_{3}$๋ ๋ชจ๋ ๊ท ํ์ ์์ ์์ ์ ์ผ๋ก ๋ชฉํ ๊ฐ์ ์๋ ดํ๋
์์์ ๋ณด์๋ค. ์ด๋ ๊ฐ ๊ท ํ์ ์ ๋ํ ํ์ต์ด ์ฑ๊ณต์ ์ผ๋ก ์ด๋ฃจ์ด์ก์์ ์๋ฏธํ๋ฉฐ ๋์๊ฐ 3๋จ ๋๋ฆฝ์ง์์ 56๊ฐ์ง ์ฒ์ด ์ ์ด๋ฅผ ๋ชจ๋ ์ฑ๊ณต์ ์ผ๋ก ์ํํ
์ ์์์ ์คํ์ ์ผ๋ก ์
์ฆํ๋ค.
๊ทธ๋ฆผ 10. ์ฒ์ด ์ ์ด ๊ฒฐ๊ณผ
Fig. 10. Result of transition control
๊ทธ๋ฌ๋ ์ผ๋ถ ๊ท ํ์ ์์๋ ๊ฐ๋๋ณ๋ก ์ฝ๊ฐ์ ์ง๋์ด ๊ด์ฐฐ๋๋ค. $\theta_{1}$์ EP3, EP7, $\theta_{2}$๋ EP1, EP3, EP5,
EP7, $\theta_{3}$๋ EP1, EP5์์ ์ง๋์ด ๋ฐ์ํ์๋ค. ์ด๋ฌํ ํ์์ ์ผ์์ ํด์๋์ ๋ฐ๋ฅธ ์์ํ ์ค์ฐจ ์ํฅ์ผ๋ก ์ค๋ช
๋ ์ ์์ผ๋ฉฐ,
์ด๋ ์ธก์ ์ ํ๋ ์ ํ์ ์ง์ ์ ์ธ ๊ด๋ จ์ด ์๋ ๊ฒ์ผ๋ก ๋ถ์๋๋ค. ๋ณธ ์ฐ๊ตฌ์ ์ฌ์ฉ๋ ์ค๋ฌผ ์์คํ
์ ๋ชจ๋ธ ๋ฐฉ์ ์๊ณผ์ ์ ํฉ์ฑ์ ๊ณ ๋ คํ์ฌ ์ค๊ณ๋์์ผ๋ ์ง์์
๊ฐ๋๋ฅผ ์ธก์ ํ๋ ์์ฝ๋์ ํด์๋๋ ํ๊ณ๊ฐ ์กด์ฌํ๋ค. ๋๋ฆฝ์ง์ ์์คํ
์ 1๋จ ๋ฐ 2๋จ ์ง์๋ถ์๋ 8192 CPR(Counts Per Revolution),
3๋จ ์ง์๋ถ์๋ 4096 CPR ํด์๋์ ์์ฝ๋๊ฐ ๋ถ์ฐฉ๋์ด ์์ผ๋ฉฐ ๊ฐ์๋ ์ฐ์ถ ์ ์์ํ ์ค์ฐจ๊ฐ ๋ฐ์ํ ์ ์๋ค. ์ด๋ฌํ ์ค์ฐจ๋ ์ฒ์ด ์ ์ด ์ค ๊ณ ์
๊ตฌ๊ฐ์์๋ ์ํฅ์ด ๋ฏธ๋ฏธํ๋ ๊ท ํ์ ๋๋ฌ ์ดํ ์์คํ
์ด ์ ์ ์ํ๋ก ์ ํ๋ ๊ฒฝ์ฐ ๊ด์ธก๋ ์ํ ์ ๋ณด์ ๋ณด๋ค ํฐ ์ํฅ์ ๋ฏธ์น๋ฉฐ ์ด๋ก ์ธํด ์ ์ด ์
๋ ฅ์ด ๋ฐ๋ณต์ ์ผ๋ก
๋ฏธ์ธํ๊ฒ ๋ณ๋๋๋ฉฐ ๋ฆฌํ์ด ๋ฐ์ํ ์ ์๋ค.
๋ํ ๊ฐ ์ง์์์ ์ง๋์ด ๋ฐ์ํ ๊ท ํ์ ๋ค์ ๊ณตํต ํน์ฑ์ ๋ถ์ํ ๊ฒฐ๊ณผ $\theta_{1}$์ ๊ฒฝ์ฐ 2๋จ ๋ฐ 3๋จ ์ง์๋ถ๊ฐ ๋ชจ๋ ๋๋ฆฝ๋ ์ํ์์, $\theta_{2}$๋
3๋จ ์ง์๋ถ๊ฐ ๋๋ฆฝ๋ ์ํ์์, $\theta_{3}$๋ 2๋จ ์ง์๋ถ๊ฐ ์๋๋ฅผ ํฅํ๊ณ 3๋จ ์ง์๋ถ๊ฐ ๋๋ฆฝ๋ ์ํ์์ ์ง๋์ด ๋ฐ์ํ๋ ๊ฒฝํฅ์ ๋ณด์๋ค.
์ธ ๊ฒฝ์ฐ ๋ชจ๋ ๊ณตํต์ ์ผ๋ก 3๋จ ์ง์๋ถ๊ฐ ๋๋ฆฝ๋ ์ํ๋ผ๋ ์ ์์ ๊ฐ์ฅ ๋ณต์กํ ๋ชจ๋ธ ํน์ฑ์ ๊ฐ์ง๋ 3๋จ ์ง์๋ถ์ ์ ์ด ๋ฏผ๊ฐ๋๊ฐ ์ง๋ ํ์์ ์ฃผ์ ์์ธ์ผ๋ก
ํด์๋ ์ ์๋ค. ์ฆ 3๋จ ์ง์๋ถ๋ ์์ํ ์ค์ฐจ์ ๋ฐ๋ฅธ ์ ์ด ์
๋ ฅ์ ์์ ๋ณ๋์๋ ๋ฏผ๊ฐํ๊ฒ ๋ฐ์ํ๋ฉฐ ์ด์ ๋ฐ๋ฅธ ๋ฐ๋ณต์ ์ธ ๋ฆฌํ์ด ๊ด์ฐฐ๋๋ค. ์ด๋ฌํ ์์ ํ
์ดํ์ ๋ฆฌํ ํ์์ ์ ๊ฐํ๊ธฐ ์ํด์๋ ๋ณด๋ค ๊ณ ํด์๋์ ์์ฝ๋๋ฅผ ์ ์ฉํ์ฌ ์ ๋ฐํ ๊ฐ๋ ์ผ์ฑ์ ์ํํ๊ฑฐ๋ ๋ชจ๋ธ ๊ธฐ๋ฐ ํํฐ๋ง ๊ธฐ๋ฒ์ ํตํด ์๋ ์ ๋ณด๋ฅผ ์ํํธ์จ์ด์ ์ผ๋ก
๋ณด์ ํ๋ ๋ฐฉ์์ด ํจ๊ณผ์ ์ผ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.