文生视频模型Sora,能够在接受人类输入的文本提示词后,生成一段长达60秒的视频,实现了内容合成从文本到图像、再到视频的领域跨越。
究其原理,是对合成内容中的最小单元进行有意义的关联组合。在保持连贯的上下文语境中,对若干个单词进行有意义组合,从而连缀成一个会意句子;在保持合理的空间布局下,对众多图像小块进行有意义组合,拼合为一幅精彩图像;在保持一致的连续时空内,对一系列时空子块进行有意义组合,从而拼接成一段动感视频。
究其原理,是对合成内容中的最小单元进行有意义的关联组合。在保持连贯的上下文语境中,对若干个单词进行有意义组合,从而连缀成一个会意句子;在保持合理的空间布局下,对众多图像小块进行有意义组合,拼合为一幅精彩图像;在保持一致的连续时空内,对一系列时空子块进行有意义组合,从而拼接成一段动感视频。