0003942773_001_20251124070109361.jpg?type=w800

AI 스타트업 월드랩스의 월드 모델 '마블'이 만들어낸 3D 환경. '담쟁이덩굴로 덮인 벽이 있는 성 안뜰'을 만들어달라고 요청하면 이 같은 3D 세상을 만들어준다. /월드랩스
인공지능(AI) 분야 석학으로 꼽히는 페이페이 리 미국 스탠퍼드대 교수가 세운 스타트업 월드랩스는 지난 12일 상업용 ‘월드모델’인 마블을 출시했다. 마블은 단순히 언어나 이미지를 생성하는 것이 아니라, 세계의 구조를 생성하는 모델이다. 텍스트나 이미지, 영상을 입력하면 이를 가상의 3D 세계로 구축해준다. 실제 로봇이나 자율주행 등의 훈련에 사용할 수 있는 환경을 만드는 것이다. 페이페이 리는 “LLM이 기계에게 ‘읽고 쓰는 법’을 가르칠 수 있다면, 마블 같은 시스템은 기계에게 ‘보고 만드는 법’을 가르칠 수 있다”고 했다.

AI 석학인 얀 르쿤 교수는 10년 이상 몸담았던 메타를 최근 떠나기로 했다. 이유는 메타가 거대언어모델(LLM) 중심으로 AI 연구를 진행하기 때문이다. 그는 LLM이 “유용하지만 인간처럼 추론·계획하는 수준에 도달할 수 없다”고 주장하며, 영상과 공간 데이터 기반으로 물리 세계를 이해하는 월드모델을 개발해야 한다고 주장해왔다. 그는 퇴사 이후 새로운 스타트업을 설립해 월드모델 연구를 지속할 것으로 전해졌다.

AI가 물리적 실체를 갖추고 현실 세계로 나오는 ‘피지컬 AI’와 ‘월드모델’ 개발에 빅테크들이 집중하고 있다. AI가 디지털 영역을 넘어 센서와 로봇 등 물리적 장치를 통해 현실 세계를 인식하고, 스스로 판단하며 행동하는 기술로 휴머노이드 로봇이나 자율주행 차량 등에 적용되는 기술이다. 현재 주류를 이루고 있는 거대언어모델(LLM)이 텍스트를 통해 사람들에게 또 다른 뇌를 제공해준다면, 월드모델이나 피지컬AI는 궁극적으로 AI가 세상을 직접 조작하는 몸(로봇, 자율주행차)을 제공하는 셈이다. 시장조사업체 프레시던스 리서치에 따르면 피지컬AI 시장 규모는 2025년 44억4000만달러에서 2030년 230억6000만달러(약 33조원)로 성장할 전망이다.

◇실제 세계에 영향 주는 AI 온다

월드 모델은 LLM과 유사하게 데이터에서 패턴을 학습하지만, 학습의 초점이 ‘언어’가 아닌 ‘세계의 작동 원리’에 있다. LLM이 텍스트를 통해 다음에 올 단어가 무엇일지 학습한다면, 월드 모델은 시공간적 인과관계를 예측하고 환경의 상태 변화를 이해하도록 설계된다. 피지컬 AI는 월드 모델의 예측 결과에 따라 로봇, 기계, 센서 등이 실제 물리 세계에서 작동하도록 하는 것이다.

예컨대 LLM은 “컵이 떨어지면?”이라는 문장에서 다음 단어로 “깨진다”를 예측하는 수준에 머무른다. 하지만 월드 모델은 실제 물리 시뮬레이션처럼 “컵이 낙하하며 중력에 의해 지면에 충돌 후 파손된다”는 과정을 내부적으로 시각화하고 예측한다. 피지컬 AI는 직접 로봇팔로 컵을 잡아 떨어뜨리지 않도록 조정한다. 즉, LLM이 ‘언어 세계의 모델’이라면, 월드 모델과 피지컬AI는 ‘물리적·인지적 세계의 모델’인 셈이다. AI가 단순한 텍스트 이해를 넘어 실제 세계를 시뮬레이션하고 상호작용할 수 있게 만드는 핵심 기술로 꼽힌다.

빅테크들은 LLM에 더해 월드 모델 개발에 박차를 가하고 있다. LLM 고도화가 일정 부분 한계에 도달했기 때문이다. LLM 기반의 텍스트, 이미지, 음악, 비디오 등을 생성하는 AI는 이미 전부 상용화 단계에 이르렀고, 경쟁 역시 치열하다. 반면 피지컬AI는 제조, 물류, 서비스 등 인간의 물리적 노동을 일정 부분 직접 해소할 수 있고 시장도 아직 본격적으로 개화하지 않았다. AI가 ‘세상을 직접 조작’하는 능력인 만큼 기존 소프트웨어 AI보다 경제적 파급력이 클 전망이다. 젠슨 황 엔비디아 CEO는 “AI가 세계를 이해하고 바꾸는 손과 발을 갖게 되는 것”이라고 평가하기도 했다.

지난 1월 미국 라스베이거스에서 열린 CES 2025에서 젠슨 황 엔비디아 최고경영자(CEO)가 자사 피지컬 AI가 탑재된 휴머노이드를 소개하고 있다. /AFP 연합뉴스
엔비디아는 피지컬 AI 분야의 주도권을 잡기 위해 노력하고 있다. 엔비디아는 휴머노이드 로봇용 파운데이션 모델인 ‘그루트 N1.6’을 지난달 출시했다. 자연어 명령을 물리적 행동으로 정밀하게 수행할 수 있도록, 시각·추론·조작 능력을 통합한 것이다. 그루트 플랫폼 위에서 주변 환경 예측, 상태 생성, 시나리오 생성 등을 담당하는 AI인 ‘코스모스’와 이를 시뮬레이션하는 ‘옴니버스’ 등을 운영하고 있다. 로봇 하드웨어 업체들에게 엔비디아가 제공하는 AI와 시뮬레이션 플랫폼을 판매하는 방식이다.

최근 일론 머스크가 이끄는 xAI는 엔비디아 출신의 AI 연구원 지샨 파텔과 에단 허를 영입한 것으로 알려졌다. 두 연구원은 엔비디아에서 실시간 물리 기반 3D 시뮬레이션 플랫폼인 옴니버스를 개발한 인물이다. xAI는 게임 분야와 로봇용 AI에 적용하기 위해 월드 모델을 개발 중인 것으로 알려졌다. 머스크는 X에 올린 게시물에서 xAI가 “내년 말까지 훌륭한 AI 기반 게임을 출시할 것”이라고 밝혔다. 메타 역시 월드모델 ‘브이제파2(V-JEPA2)’를 공개했다. 영상으로 학습한 AI가 중력과 같은 물리적 세계의 법칙을 이해해 낯선 물체와 환경과 상호작용하며 작업을 완료할 수 있는 것이 특징이다.

◇한국도 월드 모델?

정부는 지난 9월 250여개 기업과 함께 ‘피지컬 AI 글로벌 얼라이언스’를 출범시키며, 이 분야 경쟁에 뛰어들었다. 하지만 아직 시작 단계이고, 대부분의 지원이 LLM에 집중돼 있다는 지적도 적지 않다. 기업들도 대부분 LLM 분야에서 경쟁하고 있기 때문에, 월드모델까지 신경쓸 겨를이 없었다는 분석이다.

다만 제조업 기반이 탄탄한 한국이 물리 데이터를 바탕으로 피지컬 AI 시대에 강점을 보일 수 있다는 분석도 나온다. 미국이 피지컬 AI의 원천 기술에서 우위를 점하고 있다면서도 이를 물리적으로 구현하는 제조 기반은 상대적으로 약하기 때문이다. 지난달 엔비디아가 한국에 GPU를 공급하며 ‘AI 동맹’을 체결한 것도 제조업 기반 데이터를 확보하기 위한 목적이라는 분석도 나온다. 테크 업계 관계자는 “엔비디아의 지원을 통해 피지컬 AI 모델 개발에 필요한 컴퓨팅 자원을 확보했고, 한국은 이를 토대로 피지컬 AI 구축에 나설 수 있게 됐다”며 “상대적으로 부족한 AI 기반을 제조업 데이터로 메울 수 있게 된 것”이라고 했다.