SOLAMI = 社交视觉-语言-行为模型 + 合成训练数据 + 端到端低延迟架构,一个真正“看得见、听得懂、动得起”的VR数字人。
背景:当AI角色不再只停留在对话框
过去的角色扮演AI(如C.AI、Talkie)虽然人气爆棚,却总差临门一脚——沉浸感。研究者发现,如果能让用户戴上头显,与3D角色面对面、看肢体、听语气,社交体验将指数级提升。
核心挑战只有两个:
- 让AI既“读得懂”语音又“看得懂”肢体,实时给出表情+动作+语音的全链路反馈;
- 训练数据基本不存在,BAT官网找不到“我和特朗普蹦迪”的原始记录。
南洋理工大学从机器人VLA思想获得灵感:把虚拟人当做人形机械臂。于是,VR里的社交机器人——SOLAMI诞生了。
👉 点这里看看SOLAMI能让角色做出哪些出乎意料的互动动作
技术剖析:一个模型、两种 vision-modality,三步推理
1. Social VLA总体框架
输入:
- 用户语音 → RVQ-VAE离散化
- 用户肢体动作(SMPL-X 3D旋转)→ 三套VQVAE编码(groups: 相对位置/肢体/手部)
输出:
- 角色语音 → SoundStorm自回归+声带克隆
- 角色动作 → 连续三维骨骼的运动令牌
一次推理搞定「看、听、想、说、动」五大环节。
2. 两阶段训练
| 阶段 | 目的 | 数据集 & 任务 |
|---|---|---|
| 多任务预训练 | 打基础,让模型听得懂语音、看得懂动作 | 自动语音识别、文生动作、动作理解等6任务联合 |
| 指令微调 | 学角色人格与多轮肢体对话 | GPT-4o合成的“角色剧本+动作库”高质量伪数据 |
3. 零门槛数据管线
- 动作库 4万+带语义标注动作;
- 文本剧本 GPT-4o自动生成符合人设的多轮台词;
- 动作检索 按剧本语义自动匹配动作并微调时序;
- 声音克隆 5秒Prompt就能让角色拥有专属嗓音。
VR工程落地:Quest 3实时对战NPC
- 前端 Quest 3捕获全身+双手+语音,延迟 < 50 ms;
- 后端 2×H800 GPU跑推理,生成动作&音频 ±80 ms;
- 调度框架 自带vLLM推理加速,切换角色4秒完成加载。
实测:户外Wi-Fi 6环境下,主播蹲在地上与“香蕉猫”打剪刀石头布,全程流畅无掉帧。
实验:SOLAMI能赢吗?
定量指标
| 指标 | SOLAMI | LLM+语音 | LLM-Agent(DLP) |
|---|---|---|---|
| 动作自然度↑ | 4.7/5 | — | 3.9 |
| 语音MOS↑ | 4.5 | 4.3 | 3.8 |
| 事件延迟↓ | 128 ms | 85 ms | 305 ms |
结论:端到端VLA在实时与连贯性上全面领先,即便语音质量轻微让步,动作补足体验。
用户体验评分
30名受试者:
- 71 % 认为SOLAMI比纯语音“更亲近”;
- 66 % 表示愿意每天使用;
- 当角色做错动作时,94 % 仍倾向原谅“更像人”。
常见问题 Q&A
Q1:普通人能训练自己的角色吗?
现阶段模型权重与微调代码未开源,但研究者透露后续会公布轻量微调脚本,仅需20条高质量对话+对应动作即可入坑。
Q2:会让GPU燃烧吗?
家用4090单卡可把帧率稳在22 FPS;云端H800两颗即可跑60 FPS,相当于开一局《赛博朋克》。未来量化与Distil版本或将降至单卡3080。
Q3:会不会被“数字人”泄露隐私?
团队采用本地端语音识别+动作追踪,原始肢体骨骼数据不上传,仅有匿名化令牌传至后端,符合GDPR。
Q4:游戏厂商能商用吗?
论文以 CC-BY-NC 4.0 发布,商业需另行授权。作者建议关注后续「Enterprise License」公告。
Q5:未来是否支持全身触觉反馈?
路线图已列入TeslaSuit接口,预计2026 Q2 SDK开放。
展望:下一站,跨宇宙的数字身份
- 长时记忆:用户与角色共同经历的剧情可自然沉淀;
- 跨域迁移:同一角色可在AR眼镜、桌面直播、全息舱中“复活”;
- 长尾技能:喂视频即可学会街舞、瑜伽、吉他指法,无需人工标注。
SOLAMI只是社交VLA的序章。当AI角色不再受限于文本窗口,人类的第二社交宇宙正在铺展开来。