“没想到这个老罗竟然是数字人,真是看不出来!”

在6月15日,超头IP罗永浩在百度电商平台的直播中,吸引了1300万人观看,销售额超过了5500万元。
这一成绩甚至超过了罗永浩本人在5月23日直播带货时创下的5000万GMV。
当数字人老罗能够在直播间中连续直播近7小时,他时不时与搭档互动,展现出罗氏独特的幽默风格,流畅地配合产品讲解,不仅同步提供链接、发放福袋,还能够及时回答弹幕上的问题,甚至结合热点进行调侃。这一切表明,AI数字人已经为传统电商带来了新的想象空间。
这一切都是基于文心4.5Turbo的技术升级。
整场直播中,AI调用了1.3万次知识库,生成了9.7万字的产品解说,双数字人搭档完成了超过8300个动作,最终成功复刻了罗氏幽默的1:1效果。
随着数字人直播技术从仅能对口型发展到能够流畅执行大动作,百度AI数字人的业务范围也在不断扩大。虽然罗永浩只有一个,但需要AI数字人支持的主播和商家却有成千上万。
1、1:1复刻“罗氏幽默”
老罗在百度进行的首场数字人直播效果显著超过了预期。
在这次直播中,有40%的动作片段是由人工智能生成的。老罗和朱萧木组成了数字人搭档,共创造了8300个符合物理运动规律且没有出现“崩”的动作。同时,全部的脚本也是由AI生成的,涵盖了1.3万次知识库调用和9.7万字的产品解说内容。

根据数据表现,数字人老罗的受欢迎程度似乎超过了真人老罗——在这场直播中,订单量比真人直播增长了150%,而在近7小时的持续直播中,观众的人均观看时长也增加了30%。
那么,一场同时具备个人幽默感和高水平专业知识的数字人直播是如何炼成的呢?
直播间中的双人CP默契配合,率先突破了数字人直播的全新体验。
老罗和朱萧木这两个数字人真实地展现了主播与助播之间的状态,配合得如同真人一般流畅自然。这次数字人直播间实现了双音轨技术,能够模拟现实中的双人互动、语言相互打断等复杂场景。百度副总裁兼百度电商总经理平晓黎在接受《创业最前线》采访时表示,“无论是在商品讲解时的节奏变化,还是应对突发的互动需求,这两个数字人都能应对自如。”
基于文心4.5T的技术提升和深度训练,这场数字人直播成功地复制了“罗氏幽默”的1:1效果。
复刻的基础源自于强大的剧本生成能力。
“我们首先利用真人高克隆技术生成数字人,通过上传真人视频进行回放,用户可以选择单人或双人主播。在确定角色分配后,我们会进行选品。”百度电商商业业务部负责人、数字人创新业务部总监吴晨霞在接受《创业最前线》采访时表示。
在选品过程中,直播间会依据主推产品、次推产品和福利产品等不同类型来编写脚本。团队会将所有产品的详情页信息以及电商知识库中的资料提供给大模型,以便生成剧本,随后再进行后续的剧本创作。
数字人的幽默特性可以分为两大类:浅层幽默和深层幽默。百度集团副总裁吴甜进一步说明,浅层幽默是指老罗的讽刺、语言习惯以及个人风格,大模型通过分析罗永浩的历史数据来学习,并模仿他的一些关键幽默元素进行再现;而深层幽默则更加复杂,需要结合社会文化和当下的热点话题来理解。
复刻“罗氏幽默”的挑战在于,需要保持角色设定的一致性,同时又要确保数字人的可控性。
针对这两点,我们专门对老罗的数字人进行训练和学习。一方面,我们要理解什么是“罗氏幽默”,更重要的是掌握他的语言风格;另一方面,还会学习他的口头禅和小动作,并进行有针对性的专项训练。吴甜补充道:“最终的目标是让罗永浩本人都觉得相似。”
为了确保剧本创作的高度互动性,一个重要因素是对直播间内多种信息的收集与反馈。
吴晨霞表示,剧本中融合了多模态元素,这样就能达到多模态和全模态的高度统一。她提到,老罗的数字人在直播时表现得非常流畅,介绍产品时,语言和动作完美协调,不再像之前的数字人只依赖视频循环播放。
她还提到,以前的数字人主要是通过唇形来驱动,当脚本发生变化时,只是唇形会随之调整。而老罗的数字人则能够生成全新的动作来适应新的脚本,从而实现动作与文本的高度协调。
除了主副直播数字人,AI大脑还能够在直播间中配置多种智能体角色——例如镜头外的主播、副播、场外音、场控、运营以及水军等,这些角色都可以通过AI大脑来实现。
吴甜表示:“我们通过流式生成的设计,使大模型能够感知直播间的环境信号,这样智能体可以判断何时需要进行互动,比如发送福袋、回复弹幕评论或与用户进行互动等。”

(图/百度直播)
通过体验、内容和视觉技术的突破,罗永浩的数字人直播间的交易总额已超越之前的真人直播间。此外,从该项目的筹备到正式上线直播,百度团队仅耗时三周。
2、数字人电商3.0
人工智能赋能传统电商并不是什么新事物。
在电子商务领域,各大电商平台正在积极进行人工智能改造,包括智能客服、智能营销、数字人主播和AI导购等应用。
麦肯锡和艾瑞等行业咨询报告指出,目前92%的消费者在电商环境中体验过人工智能应用,商家使用AI工具的比例已超过60%。
人工智能的迅速发展正在推动智能电商的快速演变,数字人也已经从最初的笨拙表现,发展到了可以补充甚至取代真人主播的地步。
在数字人1.0时代,AI数字形象的人物表现显得僵硬,动作也多是循环。录制素材的要求较高,通常使用统一的文案,因此整体上缺乏互动性。
进入数字人2.0超拟真时代,AI数字人已具备高仿真度的动作模拟和角色克隆能力,语音和动作更加自然,无论是在脚本还是互动方面都更加灵活。
当前已经步入3.0高说服力数字人阶段,也就是罗永浩数字人展现的一种新状态。这一阶段不仅能够进行智能脚本的创作,并且在形象、声音和举止上保持高度的一致性。此外,通过AI大脑进行决策和思考,能够合理调配多个智能体。

(图片来源/百度慧播星)
可以展望数字人4.0的阶段。在可预见的未来,数字人可能会超越真实人类,拥有海量的知识库,并且能够同时处理多个任务,最终实现直播间内容的个性化呈现,达到千人千面的效果。
百度优选作为百度集团的智能电商平台,正在不断探索人工智能赋能的可能性。
百度优选针对用户推出了搜索智能导购和全网商品对比等功能,以提升购物决策的效率。目前,每天有超过2000万用户通过百度的智能导购进行购买决策。
针对商家,百度优选推出了慧播星数字人、天枢智能营销平台以及AI商家端等产品。目前,已有超过10万商家使用数字人进行直播,每天有超过600万用户在数字人直播间购物。
今年的618刚结束,可以看到数字人的身影随处可见。
在今年的百度优选618省心好物节上,主要商家采用了真人与数字人结合的直播方式,百万级商家的销售额同比增长了375%,腰部商家的销售额同比增长了344%。中小商家则更倾向于使用纯数字人进行直播,其销售额同比增长达116%。此外,百度优选的直播转化率同比提升了31%,开播成本则降低了80%。

(图/百度慧播星)
数字人不仅成为了新型生产力,真人与数字人共同直播也成为了百度优选的独特特色。
“如果以带货的总交易额(GMV)作为评判标准,目前市场上数字人的直播效果大约有一半能超过真人,另外一部分的效果与真人相当。不过,平晓黎认为,未来具有强大说服力的数字人直播效果一定会彻底超越真人。”
在她看来,数字人直播在某些领域具有显著优势。例如,在保健品销售时,数字人拥有更广泛的知识,有能力进行深入的讲解;而在教育领域,主播多为老师,真正的优秀教师无法天天进行直播,而数字人恰好解决了这个问题,使得名师能够退到幕后,专注于教学研究。
平晓黎补充道:“未来必将是数字人与真人和谐共存的状态。”
3、从罗永浩,到AI数字人普惠
引入数字人至直播间不仅能提高GMV和直播效率,还在降低成本方面效果显著。
数字人直播的成本比真人直播可降低80%,对于中小型电商品牌来说,节省的金额可能更高。平晓黎指出,像老罗这样的大主播在准备真人直播时所需的时间和成本都非常昂贵,而数字人直播能够有效地缓解这些问题。
从技术视角来看,吴甜更坚定地认为,数字人等新兴技术将在未来进一步降低直播的成本。

(图/摄图网,依据VRF协议)
数字人的成本可分为两个部分,一部分是制作数字人的费用,另一部分是提供在线服务的费用。吴甜指出,随着技术系统的不断完善和发展,未来数字人的制作成本将会进一步降低,特别是对于那些没有强大IP的主播,制作成本将有更大的降低潜力。
随着直播时间的增加和直播场次的增多,数字人直播的边际收益将会提升,因为数字人只需承担IT成本和现场运营成本,从而解放了真人主播的工作。
平晓黎表示:“现在制作一个百度的数字人的成本已经降到大约一千元,而普通商家进行真人直播所需的场地、设备和人工成本,最低一个月也得花费上万元。”
对于百度数字人而言,老罗无疑是一个重要的benchmark。
大模型具备良好的泛化能力。在学习了大量相关直播场景的数据后,它还具备了迁移能力,能够将知名主播的学习经验转移到普通主播身上。吴甜指出,这为百度的数字人提供了更广阔的市场化和规模化的发展空间。
百度打造数字人体系的初衷,就是希望通过AI惠及更多普通主播和中小商家。
最近,百度电商推出了两个重要计划:梦蝶计划旨在通过流量支持、超头主播数字人打造及预算资助,大幅增加百度优选的超头主播数量;繁星计划则将新增10万个慧播星数字人,并投入1亿元用于数字人消费补贴及千万级的运营支持,以帮助更多普通人和中小企业开展数字人直播。
平晓黎表示:“百度电商通过数字人帮助商家销售商品的服务已经实现了商业化,纯数字人一年内也为我们带来了数十亿元的收入。”
老罗的数字人并不是孤立的案例。数字人的重要性在于为人们提供服务。当每个人都能成为主播时,智能电商的门槛也在不断降低。百度数字人将真正实现人工智能惠及大众的最终目标。