实测阿里云AI“通义听悟” 大模型应用进入落地期
《科创板日报》6月1日讯(记者 张洋洋)六一儿童节当天,阿里就给所有“打工”的大朋友送上了一份“节日礼物”。
【资料图】
6月1日上午,阿里云发布了面向音视频内容的AI新品“通义听悟”,并正式公测,公测期间,用户可领取100小时以上免费转写时长。
这是阿里通义大模型最新的应用进展,也是国内首个开放公测的大模型应用产品。
根据阿里云智能CTO周靖人介绍,“通义听悟”是依托通义千问大模型和音视频AI模型的AI助手,可进行实时语音识别,实现对话的实时记录、多语言翻译、发言总结、提取PPT、内容规整等。
▍后续将出增强版和企业版并商业化
“真不错,以后就不怕做会议记录了。”“通义听悟”公测甫一发布,《科创板日报》记者便看到有用户在社交媒体感叹。
记者本人也在第一时间进入公测网站,对“通义听悟”的效果进行测试。
首先我们上传了一个60分钟左右的音频,主题是《科创板日报》记者参与的一次采访,同场说话者有5位以上。
“通义听悟”页面显示,多人场景中,用户可以选择发言人模式,以区分说话人。
60分钟的音频,整体的转写时长,大概在4分钟左右,速度较快。
准确率方面,根据记者对比观察,无论是区分各个说话人,还是转写内容的准确性,听悟的质量都比较高。
值得一提的是,“听悟”可以根据AI转写,提取这场说话内容的关键词,给出全文摘要。
甚至可以在上下文当中,基于AI的逻辑判断,对说话者的内容做总结。
此外,“通义听悟”还有一个实用功能是:可以设置插件,无论看视频、看直播,还是开会,点开听悟插件,就能实现音视频的实时转录和翻译。
“视频转文字真是我离不开的插件了,给我冲啊”,“一听这介绍就知道,利好学习还有工作。”公测发布之后,不少用户在社交媒体如是评论。
对于“通义听悟”的后续业务计划上,阿里云智能CTO周靖人在接受《科创板日报》等媒体采访时表示,接下来在下一个阶段,阿里云会陆陆续续会推出一些增强版、企业版,那个时候会有一些商业化的安排。
▍AI应用爆发了吗?
生成式AI这波浪潮带给我们的影响正在各个领域延伸。
在国内,大模型的竞争程度甚至比海外还激烈,在前期打基建为主,大小厂商大模型产品基本成型的情况下,他们现在正陆陆续续开始将其应用于各自产品的核心应用场景,AI的应用初潮开始显现。
比如在近期的一季报中,网易、网易有道、腾讯音乐等公司都在财报中披露了各自业务线上面的AI应用产品。科大讯飞星火认知大模型可用来分析文件内容的产品也在路上。
而反映在资本市场就是,经历过一轮又一轮AI不同主题的冲高回落,今日上午,以应用为首的AI概念股再度走强,恒信东方、奥飞娱乐等涨停,万兴科技、昆仑万维、海天瑞声、蓝色光标、金山办公等纷纷大幅冲高。
对于哪些AI应用有望率先落地,近期多家机构发布研报展开了探讨。
国金证券认为,AI应用落地,一方面取决于应用领域公司的投入度,包括研发投入和资本开支等,另一方面也取决于应用领域的容错率,一般而言试错成本低的AI应用领域往往更加容易落地,金融IT、企业服务、游戏行业有望率先落地。
中金公司提出,办公是工具类软件中的高频场景之一,所需图文创作、表格数据处理等能力与LLM天然契合,在一众AI应用中将率先落地,其中文档又是办公场景中最能直接受益于大模型文字创作能力的细分应用。
不过,AI应用市场大爆发或许还有待时日。
多名投资人在接受《科创板板日报》记者采访时称,现阶段看应用端还为时尚早,主要原因在于还没有特别好的场景,每一个行业看起来都可以做,但是市场都很小。
一名投资人称,其所在的机构,最近AI应用项目看的“比较少”,“扫了一圈感觉都没有特别大的价值”,其预计,AI的应用市场可能下半年会好一些。