美图深耕垂类AI:用户体验驱动的落地实践

美图深耕垂类AI模型,以用户需求驱动视觉AI产品化,实现极致体验。

原文标题:技术选择背后的用户逻辑:美图的垂类模型思考

原文作者:AI前线

冷月清谈:

美图高级计算机视觉专家曲晓超分享了公司在视觉AI领域的技术选择和实践。不同于普遍追求通用大模型,美图选择深耕多个细分视觉场景,通过垂类模型来精准满足用户需求。这种策略基于用户痛点迭代产品功能,打造差异化竞争力,并减少基础模型的巨额投入。例如,Wink通过视频美容成为市场领先,美图设计室则解决了小微电商物料设计难题。文章强调,在影像工具产品中,用户体验是首要考量,这要求深入理解用户的工作流和使用习惯,才能实现技术有效落地。此外,美图构建高效的“研究与落地协同机制”,确保技术趋势与用户需求洞察的紧密结合。未来,美图将继续关注生成式AI对传统图像场景的重塑,并积极推动AI技术的普及化。

怜星夜思:

1、美图选择深耕垂类模型,这和目前业界大模型“通用化”趋势似乎有点不一样。大家觉得在未来,垂类模型和大模型哪个会是主流?或者它们会如何共存发展呢?
2、文章里提到了用户体验和工作流的重要性。除了常规的用户调研,大家觉得公司还能通过哪些“非传统”的方式,更深入地发现用户那些自己都没意识到的痛点,从而更精准地开发AI产品?
3、美图提到垂类模型能减少基础模型的大规模投入。但同时维护和迭代多个垂类模型,长期来看,运营成本会不会比投入一个基础大模型再做微调更高呢?大家怎么看成本和效益的平衡?

原文内容

  作者 | 曲晓超
  策划 | 罗燕珊

在视觉 AI 快速演进的当下,从底层算法到场景落地,技术与用户需求之间的连接正变得愈发紧密。不同于一味追逐“通用大模型”趋势,美图选择聚焦于多个细分视觉场景,通过垂类模型深入挖掘用户价值,实现精准响应与产品化落地。

围绕垂类模型的价值判断、视觉 AI 的产品演进、AI 工作流的构建机制以及未来图像智能化的新趋势,日前 InfoQ 与 美图公司高级计算机视觉专家曲晓超 进行了简单交流,了解其背后的技术选择与实践路径。

8 月 22~23 日的 AICon 深圳站 将以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

InfoQ:美图选择在多个细分视觉场景上部署垂类模型,而不是一味追随通用大模型路线。这个选择背后的判断标准是什么?您怎么看垂类模型的长期价值?

曲晓超: 根据用户需求迭代模型能力和产品功能,打造真正落地的场景能力,持续解决特定用户的痛点,才能形成良性循环。

模型落地到产品需要规模化的投入,才能为用户提供良好的产品体验和实现持续的迭代优化。通过垂类模型在细分赛道的投入,一方能够打造差异化的产品能力,形成竞争力;另一方面减少在基础模型训练方面的大规模投入,通过持续升级垂类模型能力,在效果和用户体验上做到极致。同时,也能更加灵活、快速地响应用户多变的需求。

InfoQ:在人像美化、特效生成、AI 换装等功能中,垂类模型提供了更加精准和高效的支持。结合实际项目,您能否分享一个让您印象深刻的落地场景?它解决了什么关键问题?

曲晓超: 比如 Wink 这款产品凭借视频美容和画质修复在市占率达到了第二,在推出这款产品之前,我们发现随着短视频的普及,用户对视频人像美容的需求很强烈,市面上同类型产品的效果却没有那么好,所以我们把对图片端人像美化的认知延续到视频上,融合对用户审美趋势把握,将视频美容这个场景独立出来,在垂类场景做到第一,也让 Wink 这款产品受到用户的欢迎。

InfoQ:垂类模型不仅要在算法层面达标,还要满足交互体验和业务反馈的多重要求。在这些平衡点中,您会优先关注哪些指标或用户体验维度?为什么?

曲晓超: 做影像工具类产品,首要考虑的还是用户体验。因为良好用户体验的背后是综合性的能力要求,既需要做到简单易用,也需要满足用户需求。

比如,在美图设计室问世之前,我们也看到一些大而全的在线设计平台,从海报设计切入到 PPT、文档设计各种功能,我们也希望覆盖完善的需求,但发现成果并不明显。

在探索的过程中,我们发现电商物料设计是可以深挖的,很多小微电商卖家,没有足够资金去请商拍、设计等专业团队,但他们商品上新、投流需要设计的需求又很刚性,美图设计室就是通过对小微电商物料设计这个细分场景的需求深挖,针对性推出了 AI 商品图、AI 模特、人像背景等一系列功能,让没有专业设计能力的用户也能够产出优质的物料。随着用户的阈值越来越高,要打动用户最关键的还是要有好的效果,我们不仅仅是做浅层应用,而是在一个场景中持续深挖,目前美图的各个产品在细分领域都拥有核心能力的优势,比如 Wink 的视频美容、画质修复,美图设计室的抠图等等。

InfoQ:目前美图已有多个 AI 能力通过“工作流”形式进入生产力场景,如 AI 改图、无痕改字、智能抠图等。您认为构建 AI 工作流的核心价值是什么?在实际部署中遇到过哪些挑战?

曲晓超: 关键还是要深入了解用户实际的工作流程、工作场景和使用习惯,才能做到技术应用可落地。比如我们推出的 AI 口播工具开拍,就是通过对普通人录制口播视频整个流程中遇到的痛点难点进行分析挖掘,包括用户面对镜头容易紧张、不熟悉剪辑、需要特效花字等每一个环节遇到的问题推出相应的功能去解决,来完成基于 AI 工具对整个工作流的搭建。

InfoQ:美图公司长期推动从研究成果向产品化转化,这其中涉及从算法到工程、从功能到产品的多个环节。您如何打造一个高效的“研究与落地协同机制”?有哪些经验或教训可以分享?

曲晓超: 首先要对技术趋势和用户需求都有敏锐的洞察能力,还要抓准技术落地的具体场景,研究目标和业务目标是对齐的,研发团队和落地团队努力的方向也是一致的。另外,我们面向垂直场景的规模化投入是谨慎且理性的,需要基于对用户需求准确的判断,包括通过社媒收集需求、分析市场竞争格局,产品冷启动期的 NPS 调研、用户正向反馈等等。抓准场景后做深、做细、做精,做到极致。

InfoQ:当前视觉 AI 领域正不断涌现新能力与新形态。从您的角度看,未来在图像智能化方面,还有哪些尚未被充分挖掘的潜在场景或技术方向值得关注?

曲晓超: 生成式 AI 的出现,让很多传统的图像智能化场景可以获得重塑,技术的代际变化可以让我们在应用场景中做得更深更精,实现更强的理解力与跨模态能力;另外一个重要的方向是要推动 AI 技术的普及,通过产品化的方式让普通人也能够体验到 AI 带来的便利,这也是美图做 AI 工具一直在贯彻的方向。

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

@讨论3的成本问题:这个其实很像以前的“单体应用 vs 微服务”的争论。大模型类似单体应用,集中投入,但如果改动某个小部分,可能影响全局,维护起来也很重;而垂类模型就像微服务,每个模型专注一个功能,开发和迭代更快,即使某个模型出问题,也不影响其他。虽然看起来维护多个会复杂,但如果每个垂类模型都做到模块化、组件化,并且能复用一些底层的共同能力,那么其维护和迭代成本会相对可控。而且,随着MaaS(Model as a Service)和MLOps的成熟,管理和部署多个模型的工具会越来越完善,成本可能会逐渐降低。关键在于是否有高效的MaaS平台支撑。

@讨论2:这不就是传说中的“用户都不懂自己想要什么”嘛!哈哈哈。我觉得除了正儿八经的调研,可以搞点“野路子”:
1. 看用户的“奇葩”操作:比如我修图的时候,为了把某个东西P掉,可能要抠半天,再借用别的东西补齐。这不就说明我需要一个“智能消除”或者“无痕替换”功能吗?
2. 混用户群、看B站抖音评论区:看看大家都在“秀”些啥,又都在“骂”些啥。有时候一个表情包、一个梗都能反映出用户对现有工具的某种不满或期待。
3. 自己就是用户:产品经理和开发者自己得多用自己的产品,才能真正体会到哪里不爽、哪里可以更好。别光看数据,得用“心”去感受!

关于“发现用户痛点”:结合AI自身的能力,其实可以考虑从“数据驱动”和“行为预测”的角度切入。
1. 用户行为路径分析:通过对产品日志和用户行为数据的深度挖掘,分析用户在达到某个目标时,哪些步骤耗时最长、重复操作最多、或者中途放弃率最高。这些“卡点”往往就是痛点。
2. 失败原因分析:当用户未能完成某个任务时,系统是如何记录的?找出共性的失败模式,比如由于某种功能缺失、操作过于复杂导致的失败。
3. 关联推荐与异常检测:基于用户过去的偏好和行为,结合AI能力,主动推送他们可能需要的“新功能”或“优化方案”。甚至是当用户行为出现异常(比如频繁卡顿或重复尝试),则立即介入分析。这种“数据+AI驱动”的方法可以实现更前瞻性的痛点发现。

关于美图的垂类模型方向:我觉得这背后是成本和效率的考量。通用大模型开发成本天文数字,而且要达到商业落地的“实用”标准,还需要大量的微调和工程化投入。垂类模型虽然显得“小”,但它投入精准,见效快,更容易形成用户粘性和商业闭环。好比你开餐馆,是先开个啥菜都做的综合大饭店,还是先做个把特色菜做到极致的小店?后者更容易活下来。未来也许会出现“垂类模型工厂”,基于某个轻量级的大模型底座,快速孵化和定制各种垂类应用,形成一个生态系统,大模型提供基座,垂类模型则是终端产品。这可能是一种更具经济效益的AI发展路径。

回@讨论2:要发现用户“自己都没意识到的痛点”,这很关键!常规调研通常只能收集到用户已知的问题。除了问卷和访谈,我认为可以尝试更深入的“行为观察”和“情景分析”。比如,让产品设计师像“侦探”一样,到用户真实的工作或生活场景中去,不打扰地观察他们如何使用现有工具、完成任务,甚至观察他们“绕过”现有障碍的“变通方法”。这些变通方法往往隐藏着巨大的隐形需求。另外,分析用户在社交媒体、论坛上的“吐槽”和“抱怨”,这些情绪化的表达往往比结构化的反馈更能揭示真实痛点。甚至可以通过A/B测试一些“反直觉”的功能,看用户实际使用情况来验证假设。

re: @美图的垂类战略 & 大模型未来:我个人认为,未来视觉AI领域不太可能由单一技术路线主导,更有可能是“大模型+垂类模型”的协同共存。大模型提供广谱的通用能力和知识基座,就好比OS操作系统,它决定了大部分应用程序的运行环境。而垂类模型则是在这个基座上针对特定场景和任务进行深度优化,提供极致的性能和用户体验,就像每个操作系统都有专业绘图软件、视频剪辑软件一样。美图的策略正是抓住了特定场景的“刚需”和“痛点”,在这种情况下,垂类模型的效果和效率远超通用大模型,也更容易实现商业闭环。未来,大模型可能会变成垂类模型的基础设施,而不是直接的竞争对手。

关于美图的成本嘛… @讨论3:我觉得吧,这就像是开饭店,有钱的直接开连锁,没钱的先搞个特色小吃店。美图就是先做了好几家特色小吃店,每家都有招牌菜,顾客都喜欢,也能每个店都赚点小钱。虽然每个店都要找厨师、买菜啥的,但风险小啊。要是搞个大饭店,万一菜不好吃,或者没人来,那不是血亏?所以,只要这些“垂类小店”都能持续产出价值,并且后续能把一些厨房(通用能力)共享起来,我觉得这钱花得值!毕竟,能赚到钱的模型才是好模型,大不大、通不通用,都是浮云!能挣钱才是王道!

关于@讨论3说的成本问题:我认为这取决于“ROI(投资回报率)”和“商业化闭环”的速度。虽然维护多个垂类模型听起来分散且复杂,但每个垂类模型如果能迅速切入市场、解决刚需并实现盈利,那么它的资金回笼速度和风险分散能力可能优于“押宝”一个巨大但商业化周期长、落地不确定性高的大模型。大模型虽然一次性投入大,但后续微调可能成本也不低,而且要找到足够大的应用场景来摊薄成本也是个挑战。垂类模型的优势在于其可控性和精准性,更容易测算投入产出。长远看,当技术发展到一定程度,也许垂类模型会共享底层架构,甚至实现某种程度的“自动化维护”,从而降低整体成本。

@讨论1:我觉得美图这个路子挺聪明的,毕竟不是每个公司都有钱烧通用大模型。通用大模型就像个啥都能干但也啥都干不太精的全能选手,垂类模型就是某个领域的专家。我们用AI工具本来就是想解决某个具体问题,而不是搞个大而全的东西。未来嘛,肯定是大模型负责搞定“通用脑子”,垂类模型负责把某个“专长”练到极致。就像你不可能用Photoshop去剪视频,但它们都是Adobe家产品,各司其职。反正能解决用户痛点、能赚钱的就是好模型,管它大不大呢!