全球首个VR角色扮演AI亮相：SOLAMI帮你与蝙蝠侠跳支舞

SOLAMI = 社交视觉-语言-行为模型 + 合成训练数据 + 端到端低延迟架构，一个真正“看得见、听得懂、动得起”的VR数字人。

背景：当AI角色不再只停留在对话框

过去的角色扮演AI（如C.AI、Talkie）虽然人气爆棚，却总差临门一脚——沉浸感。研究者发现，如果能让用户戴上头显，与3D角色面对面、看肢体、听语气，社交体验将指数级提升。

核心挑战只有两个：

南洋理工大学从机器人VLA思想获得灵感：把虚拟人当做人形机械臂。于是，VR里的社交机器人——SOLAMI诞生了。

输入：

输出：

一次推理搞定「看、听、想、说、动」五大环节。

阶段	目的	数据集 & 任务
多任务预训练	打基础，让模型听得懂语音、看得懂动作	自动语音识别、文生动作、动作理解等6任务联合
指令微调	学角色人格与多轮肢体对话	GPT-4o合成的“角色剧本+动作库”高质量伪数据

实测：户外Wi-Fi 6环境下，主播蹲在地上与“香蕉猫”打剪刀石头布，全程流畅无掉帧。

指标	SOLAMI	LLM+语音	LLM-Agent(DLP)
动作自然度↑	4.7/5	—	3.9
语音MOS↑	4.5	4.3	3.8
事件延迟↓	128 ms	85 ms	305 ms

结论：端到端VLA在实时与连贯性上全面领先，即便语音质量轻微让步，动作补足体验。

30名受试者：

Q1：普通人能训练自己的角色吗？
现阶段模型权重与微调代码未开源，但研究者透露后续会公布轻量微调脚本，仅需20条高质量对话+对应动作即可入坑。

Q2：会让GPU燃烧吗？
家用4090单卡可把帧率稳在22 FPS；云端H800两颗即可跑60 FPS，相当于开一局《赛博朋克》。未来量化与Distil版本或将降至单卡3080。

Q3：会不会被“数字人”泄露隐私？
团队采用本地端语音识别+动作追踪，原始肢体骨骼数据不上传，仅有匿名化令牌传至后端，符合GDPR。

Q4：游戏厂商能商用吗？
论文以 CC-BY-NC 4.0 发布，商业需另行授权。作者建议关注后续「Enterprise License」公告。

Q5：未来是否支持全身触觉反馈？
路线图已列入TeslaSuit接口，预计2026 Q2 SDK开放。

SOLAMI只是社交VLA的序章。当AI角色不再受限于文本窗口，人类的第二社交宇宙正在铺展开来。