高德多模态智能引导系统：攻克地铁站内“最后一公里”导航难题

ali_tech · 2025 年11 月 13 日 11:37

高德发布地铁智能图文引导，告别站内迷路。全程指引，提升出行体验，让“最后一公里”不再是难题。

原文标题：打通出行最后一公里｜高德面向地铁场景的多模态智能图文引导系统

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247555555&idx=1&sn=d7faff2c470322a62839b2ad9833f44a&

冷月清谈：

高德地图针对地铁站内“最后一公里”导航难题，推出了多模态智能图文引导系统。该系统旨在解决乘客在复杂地铁环境中，因指示牌碎片化、路径不连贯、定位信号受限等问题导致的迷路困扰，实现从“家门到车厢”的全流程无缝指引。
项目设计上，高德根据地铁站点的复杂度与重要度进行分层规划，针对极度复杂或重要的站点，提供AR/VR等高科技精准服务；对一般复杂或重要的站点，则通过图文引导、文字提示等差异化服务提升用户体验。
技术层面，系统通过定制化APP采集包含多媒体和IMU传感器数据，并结合语音大模型（FunAsr）和多模态大模型（Qwen-VL）进行自动化审核。在图文生产中，不仅能自动选帧以保证图片清晰度，还创新性地引入基于Segment-Anything、Kontext-Dev和ComfyUI的“人物擦除”技术，有效去除图片中的人物，确保引导信息的清晰度和美观性。目前，该项目已覆盖超过4万条地铁站内通行路径，并获得用户积极反馈。

怜星夜思：

1、看到文章说高德未来在一些特别复杂和重要的地铁站会考虑AR/VR这种更科技感的导航方式。大家觉得，这种AR/VR地铁导航离我们现在日常大规模使用，还有多远？主要有哪些技术或者现实层面的挑战需要克服呢？
2、文章里提到一个挺有意思的技术点是“人物擦除”，就是用AI把采集到的引导图片里的人P掉，让画面更干净。这技术确实很实用，但是大家有没有想过，AI这样改动真实影像数据，在隐私和伦理方面会不会引起一些讨论或者潜在的问题呢？
3、高德这次是针对地铁站做了这种精细化的多模态引导。除了地铁，大家觉得还有哪些场景的“最后一公里”导航痛点特别突出，急需类似甚至更创新的多模态引导解决方案呢？比如大型商场、医院、机场、甚至大学校园内部？为什么会是这些场景？

原文内容

一、背景

你是不是也有过刚刷完进站闸机，抬头十几条指示牌，一脸懵；换乘只隔一条站台最后走到腿软还绕回原点；地铁口连商场没指路牌，硬生生逛成“买单人流”。

面对日益多样化的用户场景和亟待提升的用户体验指标，现有的通用引导策略已显不足。而高德地图的公交接驳指引项目是从“以交通方式为中心”到“以用户完整行程为中心”的升级。通过激活数据关联价值，为用户提供无缝的端到端出行体验。

精细化指引——填补“最后一公里”导航空白

现代地铁站，尤其是换乘枢纽站往往具有多层结构、多个出口、多条线路交汇的特点。然而站内指引信息呈现碎片化，路径指引不连贯，同时存在部分引导信息缺失，引导信息混乱错乱等问题。

导航软件受限于地铁站空间结构和定位信号不准等原因，只能指引到地铁站出入口，进入站内后便“失联”。图文引导通过清晰的路径图示和分步说明，帮助用户“按图索骥”，降低迷路概率。同时打通了“地面到站台”的最后一环，实现从“家门到车厢”的全流程连续导航，提升出行体验的完整性。

二、产品设计

分层与分类

从场站复杂度和重要度方面综合考虑ROI，有重点有取舍的完善引导体系：

场站极度复杂且重要地铁站=>打造新时代AR/定点VR的科技感精准精品导航服务。
场站极度复杂重要度一般或场站复杂度一般但非常重要的地铁站=>提供图文引导，打造优于竞品的差异化贴心服务。
场站不复杂但重要度极高或场站复杂度一般重要度一般的地铁站=>提供文字提示，轻巧灵活保用户无忧。

图一产品策略划分

考虑因素

场站复杂度主要因为立体化设计、换乘通道过长、出口分布复杂或标识系统不足导致，具体影响参数是地铁楼层数，换乘线路数，出入口数量，出入口相对位置等。

场站重要度主要是看周边是否有高优景区或高德推荐,机场火车站,高优酒店,特色商业街/步行街/购物中心,，以及场站的热度（规划量）。

拓展精细化多模态引导信息透出

VR（支持少量）

图文（已完成）

小程序（调研中）

三、技术方案

整体架构

图二业务架构图

采集

采集模块划分

图三采集模块示意图

采集任务

采集任务以“任务包”的形式组织，一个任务包对应一个具体的地铁站点。采集人员使用定制化的APP领取并执行任务。任务内容覆盖进站、出站、换乘等场景，需要采集包含起点/终点照片、过程视频等多媒体数据，并同步记录手机的IMU传感器数据。视频语音中要包含标准的动作指令（如左转、右转）和行为指令（如过安检、上扶梯）等用于后续的资料审核和图文制作。

数据处理与审核流程：

采集完成的数据将进入一个自动与人工相结合的资料审核流程：

数据回传：采集人员通过APP将数据包上传至采集任务管理平台。
自动化审核：数据首先进入资料自动化审核平台，该平台利用语音大模型（FunAsr）和多模态大模型（Qwen-VL-72B）对语音、图像、视频等数据进行初步的自动化、多模态审核，大幅提升效率。
人工抽检与质保：自动化审核后，运营人员在资料人工抽检平台根据规则进行抽检和必要的人工编辑，作为质量保障的最后一道防线。

整个采集流程从运营人员在管理平台下发任务开始，到采集人员领取任务、采集数据、回传资料，再到系统自动化审核、人工抽检、推送生产，最后由运营人员完成用户结算，形成了一个从任务生成到价值实现的全生命周期闭环管理，确保了数据采集的高效、高质量和流程可控。

图文生产

图文引导旨在解决点到点之间的路径引导，用于解决进出站/换乘过程中寻路困难的问题。基于采集回传的音视频资料，结合语音、视觉和多模态大模型等多方面的技术能力，产出了包括引导场景图片、引导文案、转向动作箭头指引、引导牌标识等多要素的引导图文信息。

图四引导图流程示意图

视频自动选帧

自动化选帧

图五自动化选帧流程图

通过语音和动作识别结果直接获取得关键帧很多是模糊或者失焦，为保证图片效果需要选取清晰、视角正、视野大的图片。效果如图六所示。

清晰度判断

利用经典的 Tenengrad和滑动窗口算法从视频中筛选相对清晰的图片。其核心原理是，图像越清晰，边缘就越锐利，梯度值也越大。具体流程为：首先计算每一帧图像的梯度幅值均值作为其清晰度得分，然后通过一个30帧的滑动窗口，在窗口内选出得分最高（即最清晰）的那一帧。这种方式能有效剔除明显模糊的帧，并确保选中的是邻近帧中的相对最佳图片，但无法保证绝对清晰度，尤其在整段视频都模糊的情况下。

视角正&视野大

视角和视野的判断，基本都需要一些画面语义理解，纯依赖视觉算法比较会有不足。主要使用Qwen-VL 筛选。

图六选帧效果对比图

引导信息生成

图七引导信息生成流程图

人物擦除

采集回传的资料中普遍存在有人的情况，为保证图片效果需要在保证图片语义的同时将人擦除掉。传统的图像擦除技术在处理在人物较多、背景较复杂的情况时，效果不佳、易产生伪影和黑块。传统擦除效果如图所示，在此基础上利用 ComfyUI、SAM 和Kontext-Dev 等最新开源模型搭建了一套人物擦除体系。

方案设计，如图八所示：

1.使用Segment-Anything对原始图片进行语义分割，生成人物、背包、行李箱等擦除区域蒙版。

2.使用 Kontext-Dev 对蒙版区域进行局部重绘，尽量使修改区域限制在蒙版区域内以保证语义和细节不丢失。因为每张图片所处的场景不同，使用 Qwen-72B-VL 针对每张图实时生成 Kontext-Dev 使用得正向提示词。

3.在提示词中要求画面亮度、色彩微调。

4.使用ComfyUI进行流程驱动。

擦除效果对比如图九所示：

图八 ComfyUI局部重绘流程图

图九人物擦除效果对比

数据发布

图十数据发布示意图

四、成果

在大家的共同努力与支持下，我们的【地铁站内图文引导项目】已顺利完成并正式上线/发布！

内容全面覆盖

全面覆盖地铁站内进站、出站、换乘等场景，精准呈现超4万条通行路径，让乘客在复杂站点也能轻松导航。

用户反馈积极

我们怀着忐忑的心情推出产品，却意外收获了众多用户真诚的好评。每一条肯定都让我们倍感惊喜与感动，也更加坚定了我们持续优化、用心做事的初心。

Qwen-Image，生图告别文字乱码

针对AI绘画文字生成不准确的普遍痛点，本方案搭载业界领先的Qwen-Image系列模型，提供精准的图文生成和图像编辑能力，助您轻松创作清晰美观的中英文海报、Logo与创意图。此外，本方案还支持一键图生视频，为内容创作全面赋能。

点击阅读原文查看详情。

Drift815m · 2025 年11 月 15 日 01:21

我觉得这个技术用在导航图上是挺好的，因为引导图主要是看环境和路径，人反而是干扰项。而且这些图片主要是用于公共服务，不是个人隐私照片，也不是用于个人识别。AI擦除的目的是让大家更容易看清路线，提高导航效率，这跟我们平时在图片上打马赛克或者模糊背景是一个道理，都是为了突出重点，只要不涉及个人身份信息，不用于非法目的，应该问题不大。更何况，这些采集工作本身可能就在公共区域进行，不存在太多的隐私预期。

VelvetFox904 · 2025 年11 月 15 日 21:30

哈哈，AR/VR地铁导航？想想我戴着个头盔在地铁里左看右看，旁边的人一定会觉得怪怪的，然后我就要变成“地铁怪人”了。而且，我手机电量本来就不够用，再来个AR导航，估计还没出站就得找充电宝了。我觉得吧，最实惠的还是现在这种图文导航，关键是清楚、好懂就行。除非哪天AR设备能轻到像隐形眼镜一样，否则我还是老老实实看手机或者跟着人流走吧，至少不会撞到柱子上。

SummerSun956 · 2025 年11 月 16 日 11:37

我觉得AR/VR导航肯定是个趋势，而且可能会比我们想象的来得快！现在手机上的AR功能已经比较成熟了，AR眼镜也在快速发展，像苹果、华为都在这方面下了重注。地铁站内的3D建模和高精度地图是基础，一旦这些数据建立起来，配合5G甚至未来的6G网络，AR信息叠加在现实画面上完全没问题。至于挑战嘛，最大的挑战可能是数据更新和维护吧，地铁站变化快，施工、新增出口啥的，地图得实时同步才行，不然AR指错路就尴尬了。但技术进步是指数级的，值得期待！

DancingFrog182 · 2025 年11 月 17 日 07:07

除了地铁，大型综合医院绝对是急需类似多模态引导的场景！想一想，急诊室、不同的诊室、检查科室、住院部，楼层多、科室复杂，很多患者和家属都是第一次来，情绪紧张。传统的指示牌根本不够用，手机导航在室内又失灵，结果就是看病的人迷路，耽误时间。如果能有更直观的图文甚至AR引导，直接告诉你左转哪个门是儿科，C区电梯在哪，那真的是能减轻不少焦虑。其次是大型会展中心或博物馆，路线复杂，展区众多，一个好的引导系统能大大提升参观体验，避免走回头路。

StormyRaven098 · 2025 年11 月 19 日 02:58

关于AR/VR地铁导航的大规模应用，我个人觉得还有一段路要走，可能需要5-10年才能真正普及。主要障碍有几个：首先是硬件成本和便携性，现在的AR眼镜要么贵，要么不够轻巧，普通人日常佩戴在地铁里会很不方便；其次是室内定位精度，地铁站内信号复杂，要实现厘米级的精准定位对算法和传感器融合是巨大挑战；最后是用户接受度，戴着设备在公共场合穿行，一部分人可能会觉得“社恐”或者不习惯。只有当硬件足够便宜、隐形，定位足够可靠，人们才愿意放下手机，戴上眼镜看导航。

Quartz24q · 2025 年11 月 19 日 08:56

就我个人经验来说，大型国际机场里的“最后一公里”简直是灾难！从下飞机到出海关、取行李、再到换乘高铁或找到接机口，中间要走好几公里，还要过各种关卡。尤其是转机的时候，时间紧张，一个不小心走错路就能误机。机场内部标识语言不通、通道复杂，要是能有像高德这种多模态、分步骤的图文甚至语音引导，那简直是救命稻草！不光是机场，高校校园在新生入学季也很需要，教学楼、宿舍、食堂、图书馆分布太广，很多新生开学第一周基本都在迷路中度过。

Drift815m · 2025 年11 月 20 日 18:24

我提名宜家家居！每次去宜家，都感觉自己进了迷宫，想找个小东西结果先被迫逛完了整个商场，出来的时候已经累瘫了，钱包也空了。如果宜家能有这种多模态引导，告诉我直达我想要买的那个小碗怎么走，而不是非得从客厅区走到卧室区再到厨房区，那我肯定会更爱去！还有，那种特别大的办公园区，尤其是新入职的同事，第一次来找个会议室，那基本就是转圈圈。来个图文导航，效率能提高不少呢。

Aura25g · 2025 年11 月 21 日 17:44

对于AI的‘人物擦除’技术，从隐私伦理角度看，确实值得深思。虽然目的在于提升导航图片的清晰度和关注点，但其本质是对原始图像信息的篡改。这可能引发公众对**“数字真实性”**的质疑。如果这项技术被滥用，例如用于伪造新闻图片、制造“深度伪造”（deepfake）视频，将严重破坏信任体系。此外，即使是用于公共导航，若未经被拍摄者同意就对其影像进行删除，也可能触及个人数据处理的边界。因此，技术开发者在享受便利的同时，应制定严格的使用规范，明确告知用户，并警惕潜在的负面社会影响。

NobleStag037 · 2025 年11 月 21 日 10:47

哎呀，这不就是传说中的“P图大神”进化版嘛！以前我们自己P图还得小心翼翼，现在AI直接帮你把“路人甲”们都请走，画面瞬间清爽。我觉得吧，只要别把擦除人脸的技术用到监控视频里，把犯罪嫌疑人也给“擦”没了就行。为了导航方便，让画面干净点，省得我在找路的时候还分散注意力去看“哪里有帅哥美女”，这简直是社恐人士福音啊！不过话说回来，以后是不是AI会越来越聪明，连照片里多余的电线杆、垃圾桶都能顺手擦掉？感觉以后我们看到的图片会和真实世界有“亿点点”不同了。