资讯

“慢一拍”的多模态大模型,限制了应用端的能力表现。以视频生成为例,智象未来CEO梅涛指出,目前视频生成还处于GPT-2到GPT-3之间的阶段。他将视频创作的三个要素总结为叙事性、稳定性和可控性。
甚至从数据上来说,视频数据比文本数据包含的信息更丰富,那么预测下一帧得到的认知会远比预测下一词得到的认知更全面。 就像文章中举出的例子:我们并不能用Veo 3估算夏威夷群岛的岩石体积是否比珠穆朗玛峰更大,但ChatGPT却可以回答这个问题。
对此,有评论者提出:视觉、语言、行动系统就像独立的洞穴,如果能够通过共享结构建立桥梁,可能就不需要逃离“洞穴”,跨模态连接就成了探索过程中的挑战,需要找到一个连接这些模态的统一的方法。
有趣的是,大语言模型的核心算法其实相当简单:主要是预测下一个词,再加上一些强化学习的调优。这种简单性让我们不禁猜想:这些算法会不会就是大脑使用的那种「万能算法」呢?如果真是这样,那就太令人兴奋了。
纵览网(www.zonglan.com)虽然嘴上没明说,但快手显然也不想在AI时代仍甘当短视频老二。