微软研究院创建了一个能够自动生成“智能”字幕的系统

目录:

Anonim

您肯定遇到过令人困惑、不正确或对所指图像只字不提的标题;甚至有可能,如果您致力于发表自己的文章,您会发现最tedious 填写此部分。好吧,Redmond 的人们创建了一个旨在让您更轻松的工具。

微软研究院发表的一项作品,自称是一种能够模仿人类语言的叙事特征的“字幕生成系统”,即一种可以将屏幕截图描述为关于我们中的某个人的技术,与其对应的语境。Facebook、微软和谷歌等公司已经努力了一段时间的东西,但这一次超出了预期。

它由什么组成

他玩得很开心

这样,系统甚至有能力从几幅图像中讲述一个完整的故事,描述它并讲述它就像那是一本书。根据专家的说法,该实用程序最终可能会成为一项功能,为某些应用程序、语音识别应用程序、自动生成其他领域的描述等提供更人性化的体验。

而事实是,工具并不局限于简单地说出它“看到”了什么,而是提供了一个更广泛的该作品的作者之一弗兰克·费拉罗 (Frank Ferraro) 解释说,图像中反映的情境背景,实现了“叙事背景和独特的叙事风格”。把自己设身处地,他给了我们一个明确的example

他妈妈为他骄傲

因此,我们提出下面的案例:酒吧。一些第一张图片显示人们点了啤酒并喝了它,而最后一张显示有人在沙发上睡着了”,他评论道。

传统的系统“可以简单地指出沙发上躺着一个人,而我们的系统可能包括他们可能处于那种情况,因为他们喝了几杯酒就喝醉了”。提供understanding的附加内容以及本文中包含的图像和照片说明也反映出的某种情感。

通过|麻省理工科技评论

在Xataka Windows |微软推出了一个应用程序,可以确定你的狗的品种

编辑的选择

Back to top button