시각-언어 기반의 자율 이동 작업

인공지능

by 잘못된 선택 2021. 9. 25. 22:47

시각-언어 기반의 자율 이동(VLN) 작업을 간단하게 정의하면 에이전트(로봇)가 실시간 입력되는 영상정보와 목적지로 가기 위한 경로를 설명하는 자연어 지시를 동시 복합적으로 처리하여 최단 거리로 목적지까지 이동하도록 만드는 작업입니다. 로봇은 90개의 실제 건물 내부 환경중 하나의 랜덤한 환경에 놓이게 됩니다. 영상 정보는 3차원 실내 공간 안에서 로봇 주위에 대한 시각 정보를 의미합니다. (영상 주변에 대한 파노라마 영상 사용) 최종적으로 목표 지점간의 차이가 3m 이내인 경우, 작업 성공으로 판단합니다. 더 자세한 내용은 문제가 처음 제기된 논문 "Vision-and-Language Navigation: Interpreting Visually-grounded Navigation Instructions in Real Environments," Proc of CVPR-18, 2018."에서 살펴보실 수 있습니다.

VLN은 eval.ai 에서 주최하는 챌린지 형태의 작업입니다. 챌린지에서는 공개된 base코드를 변형하여 높은 성능을 만드는 것을 목적으로 합니다. (사이트 : https://eval.ai/web/challenges/challenge-page/97/leaderboard/270 )

VLN 작업을 위한 에이전트는 딥러닝 모델을 사용하여 자연어와 영상을 처리하여 행동을 선택하는 과정을 반복합니다. 기본적으로 지시와 경로 쌍으로 이루어진 R2R(RoomToRoom) 벤치마크 데이터 집합을 이용한 지도학습을 통해 에이전트 모델을 학습시킵니다. 또한 가상 환경 안에서 에이전트의 상태와 행동을 비롯한 MDP(Markov Decision Process)를 정의하여 강화학습으로 학습시킬수도 있습니다. 다만 강화학습을 통해 에이전트가 다양한 위치 상태를 경험하게 만들수는 있지만 새로운 자연어 지시를 만들기에는 자연어 지시가 너무 복잡하다는 한계가 존재합니다. 이러한 한계점은 강화학습으로 아무리 오랫동안 학습시켜도 이상적인 성능에 도달하지 못하게 만듭니다. (애초에 R2R 데이터의 지시가 충분하지 못하다.)

딥러닝 모델의 구조나, 학습 방법에 따라서 성능차이가 확연히 달라질 수 있기 때문에 당연히 VLN 관련 기존 연구들도 딥러닝 모델과 학습 방법을 통해 성능 개선하고자 하였습니다. 자연어 처리 분야의 최신 기술인 GPT, BERT를 도입한 모델들이 높은 성능을 보여주었고, 그중에서도 영상 정보를 고려하여 자연어를 학습시키는 VisBERT와 같은 기술이 모델을 개선한 연구에서는 최고의 성능을 보여주었습니다. 그밖에도 부족한 학습 데이터를 보완하기 위해 학습 데이터를 생성하는 모델을 만들기도 하고 탐색 알고리즘을 개선하는 등의 노력을 찾아볼 수 있었습니다.

제가 처음 제안한 논문은 모방 학습과 강화 학습을 결합한 복합 학습이라는 학습 방법을 분석하고 개선하였으며, 기존 모델이 사용하던 보상함수의 문제점을 발결하고 개선한 논문입니다.

( https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002634012 )

두번째 제안한 논문은 에이전트가 효과적으로 VLN 작업을 수행하기 위한 장소 정보 활용 알고리즘을 제안한 논문입니다. 사람의 경우 과거 경험한 실내 환경의 구조를 장소라는 랜드마크로써 기억하고 이동할때 그 기억을 이용한다는 점에 착안한 아이디어이고, 물체 정보도 마찬가지 방법으로 사용할 수 있습니다. 다만 VLN에서 제공된 GT(Ground Truth) 정보가 물체에 대한 정보는 제공하지 않기 때문에 제공된 장소 정보만을 활용하여 연구를 진행하였고, 결과적으로 VLN 작업에서 SOTA 성능을 보일 수 있다는 것을 입증하였습니다.

( https://manuscriptlink-society-file.s3-ap-northeast-1.amazonaws.com/kips/conference/2020fall/presentation/KIPS_C2020B0263.pdf )

'인공지능' 카테고리의 다른 글

웹캠으로 화장하기(feat. 빵형) (2)	2022.03.03
실시간 딥페이크(real time deepfake) 실습해보기(feat. avatarify) (0)	2022.02.26
손가락으로 소리 껐다 켰다하기(feat. 빵형) (4)	2022.02.04
dlib을 이용한 스노우 카메라 만들기(feat. 빵형) (0)	2022.01.26