veo 3 - 搜索 News

资讯

6 小时

“慢一拍”的多模态大模型，限制了应用端的能力表现。以视频生成为例，智象未来CEO梅涛指出，目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。

1 小时

甚至从数据上来说，视频数据比文本数据包含的信息更丰富，那么预测下一帧得到的认知会远比预测下一词得到的认知更全面。就像文章中举出的例子：我们并不能用Veo 3估算夏威夷群岛的岩石体积是否比珠穆朗玛峰更大，但ChatGPT却可以回答这个问题。

7 小时

对此，有评论者提出：视觉、语言、行动系统就像独立的洞穴，如果能够通过共享结构建立桥梁，可能就不需要逃离“洞穴”，跨模态连接就成了探索过程中的挑战，需要找到一个连接这些模态的统一的方法。

7 小时

有趣的是，大语言模型的核心算法其实相当简单：主要是预测下一个词，再加上一些强化学习的调优。这种简单性让我们不禁猜想：这些算法会不会就是大脑使用的那种「万能算法」呢？如果真是这样，那就太令人兴奋了。

1 小时

纵览网（www.zonglan.com）虽然嘴上没明说，但快手显然也不想在AI时代仍甘当短视频老二。

一些您可能无法访问的结果已被隐去。