快意大模型赋能短视频交互场景,AI小快半年圈粉千万

原文标题:半年涨粉1000万!揭秘快意大模型在短视频互动场景中的大规模应用实践

原文作者:AI前线

冷月清谈:

**快意大模型简介** - 快手自研,拥有13B、66B、175B三种参数规模。 - 在MMLU/C-Eval/GSM-8K/HumanEval等榜单上取得领先结果。 - 175B版本模型表现接近GPT-4。

AI小快介绍

  • 快手基于快意大模型打造的多模态情感陪伴机器人。
  • 半年涨粉1000万,具有有用、有趣、有温度的特点。

AI小快核心技术

  • **类人对话:**通过人物信息、风格化形象和人格刻画,强化模型情感陪伴能力。
  • **超长轮次对话:**提出Parrot用户提问模拟器和DialogBench评测基准,提升模型远程理解和记忆能力。

AI小快面临的挑战

  • 多模态内容理解。
  • 人格化挑战。
  • 价值观对齐。

快手AI团队未来规划

  • 继续解决AI小快面临的挑战。
  • 将大模型技术推向更广阔的市场。



怜星夜思:


1、大家觉得ChatGPT的出现会对移动互联网格局产生哪些影响?
2、AI小快和ChatGPT相比有哪些优势和劣势?
3、对于普通用户来说,像AI小快这样的情感陪伴机器人有哪些潜在好处和风险?

原文内容

演讲嘉宾 | 刘澈 快手大模型与多媒体技术部智能交互团队负责人

在 QCon 北京 2024 大会上,快手大模型与多媒体技术部智能交互团队负责人刘澈,根据自己在快手的实践经历,发表了题为《快意大模型在短视频互动场景的应用探索》的演讲,其中重点分享了快意大模型微调阶段的数据工程以及对齐技术,以及基于快意大模型在快手短视频互动场景中打造的 C 端智能助理 —— AI 小快的相关研发经历。

本文经刘澈老师基于演讲内容整理并授权 InfoQ 发布。

一、大模型技术的诞生与发展

语言是沟通之桥,自计算机诞生之时,人类便一直致力于研究和实践如何赋予机器类似人类的沟通和互动能力。长久以来,这一领域充斥着挑战,然而,随着大模型技术的出现和发展,这一难题得到了革命性的突破。

大模型的发展可以追溯到2018年。在Google提出Transformer模型架构后,研究者们引入了Masked Language Model任务,来基于海量数据对Transformer进行预训练,成功开发出BERT模型,并在GLUE等自然语言理解任务榜单上取得显著提升。之后,预训练逐渐向具有更深、更宽的超大规模神经网络方向前进。2020年,OpenAI推出了GPT-3,拥有高达1750亿个参数,通过Scaling Law的方式让模型能力有了显著提升。在2022年底,OpenAI进一步推出了ChatGPT,这是基于预训练模型进行指令微调(SFT)和基于人类反馈的强化学习(RLHF)对齐的版本,成功激发了超大规模预训练模型中的语言知识,增强了模型在各种任务上的适应性,大幅提升了AI模型在人类指令执行和对话互动方面的能力。

ChatGPT发布后,国内各互联网公司纷纷布局,在2023年一年中先后发布数十个自研AI大模型,标志着人工智能技术的竞争正式进入了一个新的阶段。这些大规模模型体现出各公司在AI领域的深入研究力量,未来越来越多的AI技术将会更深地融入到人们的日常生活中。无论是常识问答、阅读理解、角色扮演,还是代码编写、数学运算、逻辑推理等应用领域,大规模模型都已经展现出其庞大的应用潜力。

二、快意大模型的技术创新

面对ChatGPT这一划时代的技术革新,快手迅速作出反应,开始积极布局大模型领域,制定全新的AI战略。首先,在AI算力基建方面,快手着手构建了千亿参数级的大模型训练及推理基础设施,并通过Infra架构层面的优化,将模型算力利用率(MFU)提升至业界领先水平;其次,在数据方面,依托短视频和直播场景,快手构建了海量的文本和多模态数据,涵盖了百科、新闻、书籍、评论、菜谱、论文、问答社区、博客等各类内容,并对这些数据进行深度清洗,确保训练超大规模语言模型具备足够高质量的tokens。经过1年的研发周期,快手正式推出了自“快意大模型”(KwaiYii),在MMLU/C-Eval/GSM-8K/HumanEval等榜单上取得领先结果,并开启了短视频场景下大模型落地时代。

快意大模型沿用了Transformer decoder-only技术架构,设计有13B、66B、175B三种参数规模,在每个参数规模下包含预训练模型(KwaiYii-Base)对话模型(KwaiYii-Chat)两个版本。通过在4T+高质量tokens上进行预训练和百万级高质量指令数据上进行对齐,快意预训练模型和对话模型已在行业权威评测榜单上取得显著领先的效果,其中175B版本模型的表现已接近GPT-4

三、AI 小快——具备多模态

人格化能力的情感陪伴机器人

大模型主要有两条落地应用赛道,分别是AI生产力工具和AI消费娱乐伴侣。AI消费娱乐伴侣不仅能满足用户的信息获取、娱乐互动等需求,还能够为各类群体提供社交和陪伴等情绪价值,具备极高的用户粘性,因此受到业内外广泛关注。
在快手站内,用户在浏览短视频过程中也有广泛的信息获取、互动讨论以及情感陪伴需求,因此快手AI团队基于快意大模型推出了官方消费娱乐智能助理-AI小快。AI小快主打特点是有用,通过整合多模态视频理解、RAG搜索结果、评论上下文等社区文化知识,AI小快能够解答用户提出的常识和视频内容理解问题,同时,AI小快还具备有趣和有温度的特点,例如,当被问及"什么才是世界上最甜的东西?"时,AI小快能够给出一个充满情商的答案:"世界上最甜的东西,或许是爱情、亲情或者友情中的甜蜜瞬间吧。甜到了心坎里,让人忍不住微笑与感动"。这样的回答不仅符合人类的情感认知,还获得了大量用户的点赞和喜爱,因此在上线的半年时间里,AI小快凭借自身优势迅速涨粉1000万,受到站内外用户广泛关注。

AI 小快实用案例

AI小快具备这样能力的原因,源于快手快意大模型在情感陪伴领域的实践成果。众所周知,ChatGPT/GPT-4等通用大模型落地于互动娱乐场景时,会存在着风格机械、答案刻板的问题,因此难以和用户形成良好的互动共鸣。为了让大模型学会“说人话”,并具备用户喜闻乐见的人格形象,快手AI团队在类人对话方向深入探索,从人物客观背景信息、人物风格化形象呈现、内在人格刻画三个层面,由表及里构建了数万级的人物形象卡片及训练数据,进行快意情感陪伴大模型的微调,从而显著强化了模型在类人对话方面的表现。目前快意情感陪伴大模型已在类人对话权威评测榜单CharacterEval取得总分第一的结果,显著优于情感陪伴赛道同类产品,如Baichuan-NPC,MiniMax,通义星辰等。


此外,要形成良好的人机互动效果,AI小快必须能够理解和处理超长轮次对话。在这个技术领域内,业界还存在诸多待解决难题,例如如何构建超长轮次对话数据、如何加强模型的远程理解和记忆能力、以及如何进行完善的评测。为此,快手AI团队先后提出两项关键技术:在超长轮次对话数据构建方面,团队提出了基于大模型的用户提问模拟器技术(Parrot);在完善评测体系方面,团队提出了长多轮对话评测榜单(DialogBench)。具体来说,在超长轮次对话数据集构建方面,Parrot引入了Learning to Ask的思想,即首先基于大模型学习人类的提问内容和行为,训练出一个"提问模型"(Parrot-Ask Model),之后让该提问模型和人类标注员进行对聊,收集超长轮次的对话数据,并用这些数据训练最终的对话模型(Parrot-Chat Model)。这个方法将业界大模型的多轮对话能力普遍提升7pp以上,并取得同规模参数下MT-Bench/MT-Bench++榜单的SOTA水平。而在评测基准构建方面,快手AI团队创新引入了基于GPT4自动出长多轮考卷的方案,构建了业界首个评测预训练和SFT模型类人对话能力的榜单DialogBench,全面覆盖意图识别、槽位填充、知识/常识/人格特征感知的回复生成等12项任务,最大化规避了人工构建考卷时存在的主题不均衡、先验知识不正确、互动风格单一等不可控因素。两项工作相关论文获得ACL'24和NAACL'24主会高分录用。
值得一提的是,尽管AI小快已经具备一定影响力,其在实践中仍面临诸多挑战,例如多模态内容理解、人格化挑战以及价值观对齐等问题任重道远。快手AI团队将继续致力于解决这些问题,以实现社会视角、公司视角、用户视角三个维度的平衡共赢。展望未来,快手将继续探索大模型落地短视频场景下的技术边界,并努力将AI小快等优秀产品推向更广阔的市场,为用户带来更加丰富多彩的娱乐和消费体验。
 内容推荐

大模型技术正在引领行业发展创新浪潮。那么,如何让大模型技术与行业深度融合?如何通过大模型技术为各行各业提供更加智能化的解决方案?在金融、法律、医疗、教育、政府等各行业的实践场景中,又有哪些大模型落地经验?「AI 前线」特别为您精选了刚刚结束的 AICon 全球人工智能开发与应用大会上的精彩演讲,并经过嘉宾授权将演讲的精彩 PPT 提供给大家。关注「AI 前线」,回复关键词「行业创新」即可免费获取。

 活动推荐

本届 ArchSummit 会议上,重点聚焦 AI 大模型技术在各行业的落地实践, 顺丰集团、众安银行、天弘基金、鸿海科技集团、宁德核电、广发证券、微众银行介绍大模型技术的应用效果 。会议上还设置了大模型应用、架构升级、智算平台、AI 编程、成本优化等专题和话题内容。如您感兴趣,可点击「阅读原文」查看更多详情。目前会议进入 9 折购票阶段,可以联系票务经理 17310043226 , 锁定最新优惠。


今日荐文









图片

你也「在看」吗?👇

潜在好处:

  • 提供情感支持和陪伴,缓解孤独和焦虑。
  • 充当思想伴侣,帮助用户探索想法和感受。
  • 提供个性化建议和支持,帮助用户应对生活中的挑战。

潜在风险:

  • 过度依赖,削弱用户社交技能和人际关系。
  • 沉迷其中,影响现实世界的人际交往和活动。
  • 可能存在隐私泄露或被用于恶意目的的风险,需要妥善管理数据和信息安全。

我认为ChatGPT会对移动互联网格局带来积极影响,因为它可以帮助人们更高效地完成任务,例如回答问题、撰写电子邮件和创建内容。这将让人们有更多的时间从事创造性或社交活动,这可能导致移动互联网上内容质量的提高。此外,ChatGPT还可以帮助企业改善客户服务并开发新的产品和服务,从而带来移动互联网生态系统的整体增长。

我认为ChatGPT对移动互联网格局的影响还有待观察。一方面,它可能带来新的创新和机遇,另一方面,它也可能加剧现有的数字鸿沟,让那些没有能力访问或使用该技术的人掉队。因此,我们需要密切关注ChatGPT的发展,并采取措施确保其惠及所有人,而不是仅仅惠及少数人。

优势:

  • 专注于短视频场景,能够更好地理解和处理短视频内容。
  • 多模态能力强,可以同时处理文本、图像和视频等多种形式的内容。
  • 可定制性高,可以根据快手用户的具体需求进行调整和优化。

劣势:

  • 模型规模较小,在某些复杂任务上的性能可能不如ChatGPT。
  • 训练数据以中文为主,在处理英文和其他语言方面可能存在不足。
  • 目前仅限于快手平台使用,普及度和影响力不及ChatGPT。

我认为ChatGPT会对移动互联网格局产生深远的影响。首先,它可以作为一种新的信息检索和获取方式,改变人们获取信息的习惯,挑战传统搜索引擎的地位。其次,ChatGPT的智能对话能力可以赋能移动应用,提升用户交互体验,为社交、购物、客户服务等领域带来变革。此外,ChatGPT还可以催生新的商业模式,例如基于人工智能的内容创作、个性化推荐和虚拟助理服务。