투모로 로보틱스, RSS 2025에서 CLIP-RT 공개…자연어 기반 로봇 학습으로의 도약
Published 2025. 6. 2.
Admin
투모로로보틱스는 2025년 개최된 세계적인 로봇 학술대회인 Robotics: Science and Systems(RSS)에서 서울대학교와 공동으로 개발한 새로운 Vision-Language-Action(VLA) 기반 로봇 파운데이션 모델(RFM) ‘CLIP-RT’를 발표했습니다. 해당 모델은 “컵을 선반으로 옮겨라”와 같은 자연어 지시만으로 로봇이 조작 기술을 학습할 수 있도록 설계되어 텔레오퍼레이션 등의 별도 특수 학습 환경 없이 로봇 학습이 가능하다는 점이 특징입니다.
CLIP-RT는 contrastive imitation learning 프레임워크를 기반으로 시각, 언어, 행동 정보를 통합적으로 학습해 시각적 환경과 언어 명령을 효율적으로 로봇 행동으로 매핑할 수 있습니다. 약 10억(1B) 파라미터 규모의 비교적 경량 모델임에도 불구하고, 스탠퍼드대학교의 OpenVLA(70억, 7B 파라미터) 대비 평균 과제 성공률에서 약 24%p 높은 성능을 기록했습니다.
로봇 조작 벤치마크인 LIBERO 테스트에서는 92.8%의 과제 성공률을 달성했으며, 최대 163Hz의 실시간 제어 속도를 구현했습니다. 또한 소수의 시연만으로도 새로운 작업에 일반화할 수 있어 실제 산업 환경에서의 활용 가능성을 입증했습니다.
이번 연구는 장병탁 서울대학교 교수(서울대학교 AI연구원장)가 이끄는 서울대학교 AI연구원과 투모로로보틱스의 공동 연구 성과로 자연어와 로봇 제어를 직접 연결함으로써 로봇을 가르치는 방식을 음성 지시 수준으로 단순화하는데 기여했습니다.
논문원문보기

