中经视野首页研究报告中经榜

大模型下探索视频AI市场,战争才刚刚开始

2023-06-07 03:54

文 / 钛媒体APP   编辑 / 庄梅

字号

  3-1.jpg

       大模型面向产业落地的难点是什么?

  1.目前,基于生成的AI技术(AIGC),为了获得高质量的模型算法,仍然需要大量的数据进行培训,初始培训成本非常高。这对于倾向于开发基本模型的企业来说是一个必须通过的门槛。

  2.对于算法更准确、培训成本更低、用户访问更方便的模型,这方面的改进空间更清晰。媒体、游戏、营销等行业已经看到了许多典型的内容生成场景,但AIGC技术并不适用于所有场景,商业层面的实际回报率也不明确。

  3.从市场需求的共性来看,企业更加关注AI技术以及如何与业务融合,但同时,他们也会有一些担忧或紧张,以及新技术是否会对业务产生影响。与此同时,各国对AI和数据采集监管的法律规定以及对“ChatGPT”的支持也反映了这种观望态度。

  在过去的六个月里,关于AIGC创新的新闻在整个科技圈铺天盖地,但在经历了激烈的操作之后,仍然有更多的“路上”。

  6月1日,阿里云宣布了通义大模型进展,聚焦音视频AI的“通义听悟”正式亮相,成为中国第一款开放式公测大模型应用产品。

  通义理解的前身是早在2021年就开发投放市场的“理解”产品。这一次,除了整合阿里通义问题大模型的理解和总结能力外,它还整合了阿里最先进的语音语义、多模态算法和其他技术。在公开测试期间,理解用户可以通过每天登录和其他任务获得免费转录时间,阿里云的许多官方平台也将播放大量20小时的转录密码。此外,理解企业版仍在与钉钉“钉闪记”、夸克APP、阿里云盘等进行能力进行集成。

  对国内AI语音技术服务商和“类ChatGPT”应用企业来说,这一举措并非好消息。

  从听悟到通义听悟

  根据目前的官方定义,一般理解具有“倾听”和“理解”的能力,即“良好的听力”。它可以高精度地生成会议记录,区分不同的发言人。“高理解”可以形成摘要,总结全文和每位发言人的观点,整理重点和待办事项。

  事实上,这也明确了外界对AI音频和视频技术产品的一个重要期望:AI应该理解人类,并以人类可以理解的方式表达出来。AI理解人类意味着不仅要听到表面语义,还要理解人类的情感和意图;AI表达意味着在文本生成、内容摘要、风格和情感表达方面取得突破。同时,结合多模态技术,它不仅通过文本、音频,还通过图像和视频传递给AI理解。

3-2.gif

  在大型模型技术应用之前,这一过程中存在许多细节挑战。然而,在阿里云首席技术官周靖人看来,在一般意义大模型的祝福下,阿里将多年积累的语音技术和多模态能力有机地结合起来,最终形成了今天的一般意义理解。

  “知其然不知所以然”是指产品没有大模型的局限性。过去的理解只能转录语音文本,但其背后的分类、理解和信息收集取决于人。我以前用过小模型,但结果不好。”周靖人在会后的交流活动中指出。

  以语音识别TTS为例,理解内置语音识别模型Paraformer。它首次解决了端到端识别效果和效率在工业应用层面的问题。通过GPU推理,不同版本的paraformer可以提高推理效率5~同时,Paraformer采用低帧率建模方案,采样次数为6倍,可将计算量降低近6倍,支持大型模型的高效推理。

  与ECAPA-TDNN和ResNet模型相比,说话人识别模型CAM++不仅实现了准确识别和高效计算,而且实现了整体优解。VoxCeleb和CN-Celeb都刷新了行业主流中英文测试集的最佳精度,在计算效率和推理速度方面具有明显优势。

  为了保证提取的摘要信息事实的准确性,大大降低幻觉,该团队还整合了推理、对齐和对话问答的研究成果。例如,在推理能力方面,2022年,该团队提出了基于大语言模型的知识探测和推理使用框架proton。

  对手会是讯飞吗?

  业内一个普遍的声音是,“由于大型模型的到来,许多产品将再次这样做”。访问大型模型的能力可能会改变产品的业务逻辑、交互模式甚至收费模式。

  从当前产品界面的一般理解来看,它仍然针对高频场景,这些场景通常与对话或交流有关,如上述总结、翻译和内容摘录,本质上是对内容语义的理解和输出。根据官方描述,它被定位为一名工作学习AI助手,瞄准具有高知识附加值的音频和视频内容场景,如会议、课堂、面试、培训、面试、直播、观看视频、听播客等,可以通过最新的AI技术(如大模型)快速提炼和沉淀知识。

  通义理解技术负责人庾志杰一直从事智能语音交互的相关工作。他解释说,“目前,视频转换为文本仍然是视频中的音频转换,视频直接转换为文本的理解过程尚未显示。未来,我们将进行多模式理解,不仅将音频转换为文本,还将帮助我们更好地理解视频和视觉模式的内容。”

  下一步,一般理解将被各种业务系统集成到智能服务中。开发人员最终可以根据实际场景创建基于业务场景的Maas服务。周靖人补充说:“一般理解将推出企业版本,并为企业场景定制。每个企业也会有不同的需求,以及数据安全和数据隐私的要求。”。

  所以,通义听悟的对手会是讯飞吗?

  事实上,音频和视频是人机交互的重要入口。市场上成熟的AI音频和视频产品并不少见。除了具有软硬件能力的服务提供商,如科大讯飞、搜狗、网易有道等,飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具也具有类似的能力。可能的区别在于,由于大模型的到来,背后的AI技术逻辑是否会完全改变。

  上个月,科大讯飞发布了星火模型。其中,软件产品科大讯飞听到并写道,它配备了大型模型并开放使用。在收费模式下,它已经给出了市场参考标准——根据单次AI能力的使用(单次字数不超过8000字),会员每月/季度/年收费。

3-3.jpg

  互联网公司在这方面的积累从来没有缺席过,在不断丰富AI技术体系的同时,也在快速推进大模型+的创新。比如从早期的iDST实验室到达摩托车学院,阿里在2019年开始投资大模型。2021年,多模态大模型M6被训练实现10万亿参数。2022年,通义大模型发布。到目前为止,通义的问题和理解已经逐渐产业化。

  根据《中国AI大型模型地图研究报告》,据不完全统计,中国已经发布了79个参数超过10亿的大型模型,特别是在自然语言理解、机器视觉、多模式等方面,出现了许多在行业中具有影响力的大型模型。上述网易有道根据教育场景推出了“子曰”模型,而外出询问的“序列猴子”是一个具有多模态生成能力的大型语言模型

  可以看出,能够容纳后来者的赛道,仍然存在尚未挖掘的价值空间,更不用说大型模型将带来新的变量。

本文来源今日头条,转载请注明来源!文章仅代表作者观点,不代表中经视野立场!(图片来源互联网,版权归原作者所有)
广告、内容合作请点这里:

相关推荐

评论(0)

我要跟帖
已输入0
发表
新评论

912941

阅读

284

文章

热门文章

关于中经商业评论

微信扫一扫