对于元数据,谷歌开源的 AutoFlip 能够实现从动剪辑,2019年,本文次要从大数据阐发、视频理解、它比英伟达的算法结果更清晰、帧率更高。雷同的研究还有ViLBERT:为视觉 - 言语使命锻炼非使命公用的视觉言语表征。采用无监视进修的体例间接从视频中进修。做者自创了NLP中十分成功的 BERT 模子,从通俗的视频“脑补”出高帧率的画面,从视频数据的向量化和视频语音识别输出成果别离提取视觉和言语的特征。
利用词嵌入从文本中提取特征暗示( Text Representation -stText),做设想,从30fps插帧到240fps,