全球首个VR角色扮演AI亮相:SOLAMI帮你与蝙蝠侠跳支舞

·

SOLAMI = 社交视觉-语言-行为模型 + 合成训练数据 + 端到端低延迟架构,一个真正“看得见、听得懂、动得起”的VR数字人。

背景:当AI角色不再只停留在对话框

过去的角色扮演AI(如C.AI、Talkie)虽然人气爆棚,却总差临门一脚——沉浸感。研究者发现,如果能让用户戴上头显,与3D角色面对面、看肢体、听语气,社交体验将指数级提升。

核心挑战只有两个:

  1. 让AI既“读得懂”语音又“看得懂”肢体,实时给出表情+动作+语音的全链路反馈;
  2. 训练数据基本不存在,BAT官网找不到“我和特朗普蹦迪”的原始记录。

南洋理工大学从机器人VLA思想获得灵感:把虚拟人当做人形机械臂。于是,VR里的社交机器人——SOLAMI诞生了。

👉 点这里看看SOLAMI能让角色做出哪些出乎意料的互动动作


技术剖析:一个模型、两种 vision-modality,三步推理

1. Social VLA总体框架

输入:

输出:

一次推理搞定「看、听、想、说、动」五大环节。

2. 两阶段训练

阶段目的数据集 & 任务
多任务预训练打基础,让模型听得懂语音、看得懂动作自动语音识别、文生动作、动作理解等6任务联合
指令微调学角色人格与多轮肢体对话GPT-4o合成的“角色剧本+动作库”高质量伪数据

3. 零门槛数据管线


VR工程落地:Quest 3实时对战NPC

实测:户外Wi-Fi 6环境下,主播蹲在地上与“香蕉猫”打剪刀石头布,全程流畅无掉帧。


实验:SOLAMI能赢吗?

定量指标

指标SOLAMILLM+语音LLM-Agent(DLP)
动作自然度↑4.7/53.9
语音MOS↑4.54.33.8
事件延迟↓128 ms85 ms305 ms

结论:端到端VLA在实时与连贯性上全面领先,即便语音质量轻微让步,动作补足体验。

用户体验评分

30名受试者:


常见问题 Q&A

Q1:普通人能训练自己的角色吗?
现阶段模型权重与微调代码未开源,但研究者透露后续会公布轻量微调脚本,仅需20条高质量对话+对应动作即可入坑。

Q2:会让GPU燃烧吗?
家用4090单卡可把帧率稳在22 FPS;云端H800两颗即可跑60 FPS,相当于开一局《赛博朋克》。未来量化与Distil版本或将降至单卡3080。

Q3:会不会被“数字人”泄露隐私?
团队采用本地端语音识别+动作追踪,原始肢体骨骼数据不上传,仅有匿名化令牌传至后端,符合GDPR。

Q4:游戏厂商能商用吗?
论文以 CC-BY-NC 4.0 发布,商业需另行授权。作者建议关注后续「Enterprise License」公告。

👉 先人一步探索SOLAMI商业落地的黄金模板

Q5:未来是否支持全身触觉反馈?
路线图已列入TeslaSuit接口,预计2026 Q2 SDK开放。


展望:下一站,跨宇宙的数字身份

SOLAMI只是社交VLA的序章。当AI角色不再受限于文本窗口,人类的第二社交宇宙正在铺展开来