来源|多知
作者|徐晶晶
“自去年6月发布以来,通义听悟在各平台已有超过500万用户,活跃用户日均转写音视频3次以上,后台日均处理音视频20万次、音视频时长12万小时、字符数约20亿字。”
在3月19日举行的发布会上,阿里大模型产品、办公学习AI助手“通义听悟”的产品负责人杨帆披露了产品上线9个月的成绩单。
在这500多万用户中,主要是学生、老师、白领、记者、律师、金融分析师等群体。值得注意的是,杨帆在调研中发现,学生群体占比约一半,且他们的活跃度相当高。
学习场景由此成为通义听悟的核心场景之一。
杨帆透露,通义听悟后台每天收到很多私信“求(增加音视频转写)时长”。不少同学用通义听悟两倍速上网课备考。其中一个博士生甚至利用通义听悟分析网络视频进行学术研究。通义听悟上线9个月来,该同学的使用时长已近7000小时,平均每天转写20小时以上。
此次发布的几大新功能,重点依然围绕办公、学习场景展开:上线音视频问答助手“小悟”;自动识别语言;学习内容高效整理;AI改写;思维导图。
此外,针对学习科研场景对AI工具的强烈需求,通义听悟推出“高校公益计划”,向中国大陆高校师生(须通过后缀edu.cn的教育邮箱进行认证)赠送500小时音视频转写时长,存储空间从20G拓展至200G。
01
聚焦音视频场景,做音视频的AI化
发布会上,杨帆介绍了通义听悟的发展历程。
通义听悟最早诞生于2021年1月,那时它还只是一款企业内部提效工具,用于阿里巴巴内部会议提效。而它背后的研发团队此前一直做的是人机交互。从人机交互切换到人人交流,杨帆说,“我们做的是人人交流的内容信息的AI化。”
他介绍了通义听悟的核心应用场景的拓展逻辑:“在阿里巴巴集团内部,员工分工不同。人人交流的第一个典型场景就是会议场景。我们发现的第二个场景是访谈,起因是阿里巴巴有很多用户访谈人员和商家访谈人员,他们经常拿着录音笔访谈用户和商家,甚至一天访谈几十个人。他们最需要的就是整理录音问答。随后我们挖掘的场景是员工培训,也有很多员工自学内部视频课。学习的场景就出现了。”
此后,通义听悟不断迭代:听悟API被包括钉钉在内的阿里巴巴集团内部众多应用集成;2022年,听悟支持中英文自由说,实时中英互译、标题段落、自动纠错、待办事项等功能。
直到2023年6月,通义听悟V1.0全网发布。这既是通义家族第一个面向大众消费者端的应用产品,也是中国市场首个大模型全量用户应用。通义听悟接入通义千问大模型,融合了十多项AI功能,包括转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等,并支持标重点、记笔记。
随后通义听悟不断升级:2023年8月,通义听悟发布多端产品形态,浏览器插件、小程序、支持阿里云盘文件导入与转写;2023年11月,通义听悟V2.0版本发布,全部升级大模型相关能力,且拓展B端客户,已服务于上百家企业客户。
虽然功能在不断迭代拓宽,但通义听悟的核心是围绕着人人交流拓展功能,并未离开主线。“人人交流发生在访谈、会议、授课等场景。人人交流的信息越来越多,这些音视频内容如何借助AI被用户更快理解,是我们当时的技术初心。”音视频承载了密集的信息内容,但因涉及多模态理解、自然语言处理、搜索等多项复杂技术,长期以来存在内容查找难、回顾难、提炼难的痛点。杨帆介绍,通义听悟为这一需求而生。
杨帆说:“作为一款工作学习AI助手,通义听悟希望让高知识附加值的音视频被轻松阅读、整理和分享。”
由此也可以理解,尽管学生用户占半,但在通义听悟的学习场景里,并非要提供整个泛教育的解决方案,而是只聚焦学习场景音视频的AI化。“通义听悟的产品使命就是围绕音视频发生的场景做音视频的AI化,我们永远不离开这条主线。”
02
“小悟”上线,音视频内容直接“问”
来看看通义听悟这次发布的几个新功能。
最重磅的是音视频问答助手“小悟”,“能够让用户更快地把关键信息问出来,更好地改善了交互的方式”。
据介绍,小悟通过多语言Query处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,在业内首次实现对超长音视频的单记录、跨记录、多语言自由问答,支持内容问答的音视频时长和文件数均突破业界上限。
用户不仅可在单一记录页呼唤小悟,对最高6小时、6G大小的音视频提问任何相关话题,或直接小悟要求整理金句、梳理结论、写会议纪要;更可在首页针对用户所有记录提问,支持一次性扫描理解上百条音视频内容;也可花式对英文视频用中文提问,小悟将直接给出中文回答,省去翻译。小悟还会智能推荐问题。
笔者以2023云栖大会上阿里云创始人王坚的演讲视频为例,上传该视频后,可以生成章节速览、发言总结、要点回顾等。播放课程视频,转写的文字与视频进度会一一对应,可以点击文字跳转进度。点击“字幕”功能,则可为视频生成相应字幕。一键“截图并插入笔记”后,想保存的截图便出现在右侧的笔记区。
针对上述视频内容,笔者唤醒小悟,让小悟整理王坚的演讲金句时,小悟也给出了相应答案,倘若不满意这个答案还可以进行刷新重答。
针对用户需求,通义听悟还上线了一键AI改写、思维导图生成等新能力。例如,一键AI改写,将口语转为书面表达,尤其适合整理采访;思维导图自动生成,最多支持五级脑图,适合播客摘要。
(通义听悟思维导图示例)
产品细节体验也进一步升级,包括笔记支持一键插入视频时间戳及截图(学习内容高效整理)、音视频文件语种自动识别等。
03
“技术拉高了天花板,未来取决于谁跑得更快更好”
在发布会的群访环节,杨帆透露了通义听悟的商业化路径:目前没有任何面向C端收费的计划,而是面向B端客户收费。“通义听悟面向C端开展业务的使命是为了向客户展现阿里巴巴技术研究的方向以及通义大模型的进化。也希望能够通过这样的产品,用户用得满意。”
通义听悟是否会进行多模态能力的拓展?团队表示,目前的产品已经涉及多模态能力。比如,音视频的抽取,已经运用了很多多模态技术。其中的章节速览功能要想实现,首先便要对视频做切割,这其中也用了多模态的处理技术来做切割。今年,通义听悟还将在多模态方面有新的探索。
未来是否会布局硬件产品,杨帆还透露,其团队希望集中精力做好AI方向,其目前所有的产品优化都是围绕着AI段进行。倘若将来布局硬件方面,也会选择和合作伙伴合作研发。
市面上的AI助手很多,功能也多有相似之处。谈及如何跳出同质化竞争,杨帆表示,技术的相似性,是大家从业生涯里始终都要面对的一个问题。其团队一直是在竞争环境下成长的团队,无惧竞争。
“AI的每一波浪潮都是随着技术在某一个阶段的进步而产生。在某个阶段进步后,技术的天花板被拉高,自然会出现各个选手都沿着技术进展来创新产品模式和商业模式。在这种情况下,赛道开放给大家,无非是看谁跑得更快更好。
要想脱颖而出,首先,谁先投入到某些领域先找到一个好的技术切入点和需求切入点做研发,谁就会产生优势;其次,谁做得更精细,做得更好,谁就更有优势。”
END
本文作者:徐晶晶