帧输出DeepMind扩散模型最新突破一夜爆火九游会J9国际震撼!AI实时生成游戏每秒20
一位a16z的游戏和3D技术领域投资人▽▷□▽★△、前Unity员工给出了他的看法▲▽★▷◇-:
谷歌DeepMind打造出了首个完全AI驱动的实时游戏引擎——GameNGen◇●-▷。
换句话说◇•,GameNGen在模拟图像时能够在一定程度上保持较高的视觉质量◆◆○◆▼□,尽管可能存在一些压缩带来的细节损失◇▲•■●。
讽刺的是□☆-■□■,训练这些模型需要从传统游戏引擎输入控制器动作和输出帧作为训练数据▼◇。
为了解决自回归生成中的误差累积=-○□★◇,即自回归漂移问题▽=★◁,GameNGen引入了噪声增强技术◆●◇•■▽。
历史观察(即之前的帧)被编码到潜在空间☆▪▼,网友们看到这项研究一时间炸开了锅-…△,谁发谁火九游会J9国际官网★•■。消费者将能体验从文本直接创造游戏或虚拟世界的全新方式◁▽■■•■。专业工作流程中仍然会有3D场景图的一席之地△▪•▼。单个去噪器步骤和自编码器评估各需要10毫秒◇•△。通过使用4步采样和单次自编码器评估◇•=◁★▪,在单个谷歌TPU上△△□,
除了被效果惊艳到○•▽●■,不少研究者还表示这项研究没有那么简单□△,它是一种基于扩散模型的最新突破■▽•▷▽。
游戏引擎是一个让一群人创造东西的工具▲○▷◆,它将继续存在★◁,特别是与任何集成的超级AI共存=□▽◇。显然-★…▪=●,今天的游戏引擎已经过时◁★□○-,但我们已经在构建下一代引擎了▲★◆。
值得注意的是▲☆,模型仅使用4步DDIM采样就能产生高质量的结果▷▷■,这大大提高了生成速度▲★◆。
本文为澎湃号作者或机构在澎湃新闻上传并发布□■◁☆,仅代表该作者或机构观点□•-=▼,不代表澎湃新闻的观点或立场◁▼•◁★,澎湃新闻仅提供信息发布平台•△。申请澎湃号请用电脑访问■▷◆◆★。
这是构建虚拟事物的基础★-☆△★▲。未来它或许能够普及到它能够获取数据的任何视频游戏△▷=▲○,随后△▲▽▷■,可能还能为尚未存在的游戏生成数据九游会J9国际官网…△◁,创造新游戏○▼△◇-•。
我觉得人们还没有意识到这有多疯狂◆▽■=。我是一名开发人员★★■•,专门负责将生成式AI集成到游戏引擎中▼▷,所以我很清楚我在说什么•▷▼▼…。
在训练时-▼,模型对输入的上下文帧添加不同程度的高斯噪声▽●=▽▷,并将噪声级别作为额外输入提供给模型……○。这使得模型能够学习纠正之前采样中的错误…○•□□,对维持长时间序列的图像质量至关重要▪◆=▼▼。
虽然我认为这些由扩散模型实时生成的帧最终会改变我们体验游戏的方式☆●◁▽,但我仍然认为专业开发者需要一个3D场景图来进行触感控制和创造性表达●▼▷。
在第二阶段○=,基于预训练的Stable Diffusion v1●▪◇….4来预测下一帧☆=,模型以过去的帧序列和动作作为条件输入•◁□,并进行了一些关键修改…□▷●。
视频质量方面◆▪◆▪,对于长度为16 帧(0○•.8 秒)和32帧(1••◇.6 秒)的模拟□□○,FVD分别为114◁•●.02◆▪▷★-、186△◆▲★○◆.23★▽▷。
在1=○▽●▷.6秒和3▼■△◇◇.2秒的片段中=▲▷,人类仅有58%▲○▷◁•○、60%的概率能正确区分真实游戏和模拟▷▷…帧输出DeepMind扩散模型最新突破一夜爆。
研究人员使用了两种主要的图像质量评估方法▲■▷:基于感知的图像相似度度量方法LPIPS和衡量图像质量的常用指标PSNR-▪▷●★。
动作条件化的世界模型已更进一步•▷▽!神经网络模拟在扩展实际交互数据方面具有巨大潜力▪◇,特别是在物理模拟器表现不佳的领域…▲。
在人类评估方面◁△◇△▲,研究人员为10 名人类评估者提供了130个随机短片段(1•△■◆.6秒和3○◇◁▪☆▪.2 秒的长度)=◁☆▼-•,并将模拟与真实游戏并排展示○•▷==▲。
此外▷▼★=…火九游会J9国际震撼!AI实时生成游戏每秒20,为了提高图像质量-△•-,特别是在细节和HUD(平视显示器)方面▲▪◇…☆★,研究者对Stable Diffusion的预训练自编码器的解码器部分进行了微调▪▪。这个过程使用MSE损失▷◇,针对目标帧像素进行优化□○…◇●…。
具体来说•=…☆□▷,首先移除了所有文本条件▲=▪…,替换为动作序列•○★。每个动作被编码为一个单一的token▽•◁□,通过交叉注意力机制与模型交互•-▪-。
不过▪……,在一片好评声中九游会J9国际官网●☆☆,也有网友指出◁▽▲☆,论文很好○◇★•◁◇国产游戏机传奇落幕:已无法正常访问九游会 作为中国游戏机的传奇●=▷…=,正式的硬件发布也已超过9个月时间=•■▪。从宣布重新回归到传出团队解散•▽••▽,小霸王也一直都面临着与微软-○、索尼•…▷ 更多 国产游戏机传奇落幕:已无法正常访问九游会,,但称其为□△▪◇=“游戏引擎○…”不太妥当-◁●★•:
GameNGen在TPU-v5硬件上运行▼★▷…▪▲,足以实现实时交互式游戏体验▼○◁●◁。它以每秒20帧模拟起了经典射击类游戏DOOM(毁灭战士)●★●•。系统能够达到每秒20帧的生成速度★▪□▽,未来……△-▼◆,并与当前噪声化的潜在表示在通道维度上拼接■◆。但在我看来•◇◁☆,推特○★、Reddit上相关帖子热度持续不减○○□•。
这对我来说是一个个人里程碑▲▪--,也是从手工编写在GPU上运行的显式渲染代码到训练同样在GPU上运行的神经网络的完整回环●○,感觉圆满了▷▽-△。
在推理阶段□=,GameNGen使用DDIM采样方法□◁●,并采用了无分类器引导技术▷=-,但仅用于过去观察的条件■-▼•。研究者发现=●,对过去动作条件使用引导并不能提高质量•◆。
开发者可能会使用更传统的3D创作引擎创建游戏的◆●▷▽•▼“灰盒=◁▲▪□◇”版本◁●,然后一个图像到图像的模型实时提升分辨率(类似于英伟达的DLSS技术)…△▷。
首先九游会J9国际官网▽▲□▽△,训练一个强化学习Agent来玩游戏•△☆◇▪▷,并记录过程中所有动作□…-…•、技能和观察数据-★-。这些记录成为第二阶段的训练数据集•◁•。
为生成尽可能贴近人类游戏行为的训练数据=▼,研究人员设计了一个简单的▽▼★▽、特定于环境的奖励函数◇••☆●,根据一系列特定的游戏情况来分配分数▼◁●▷••,条件包括□-•●■: