科大讯飞AI翻译战略升级:耳机新品亮相,同传大模型与全球化布局探秘

讯飞发布AI翻译新品及技术升级,详解其全球化战略与大模型创新。

原文标题:六问讯飞 AI:新品耳机发布背后,如何理解讯飞 AI 翻译战略与技术创新?

原文作者:AI前线

冷月清谈:

科大讯飞近日举行发布会,重点推出了AI同传技术升级、全新AI翻译耳机以及双屏翻译机2.0。在AI同传方面,中英互译的用户体验显著提升,首字响应时间缩短至2秒,专业词库扩充至10万以上,同时新增了中英到阿拉伯语、西班牙语的端到端同传互译。独特的“声音复刻”功能允许用户使用自身音色播报翻译结果。新一代讯飞AI翻译耳机搭载“多感融合AI降噪系统”,采用骨导与气导结合的开放式设计,支持60种语言同传互译,中英同传延迟低至2秒。升级后的双屏翻译机2.0新增了讲话人分离和结合星火办公大模型提供会议纪要生成功能。

讯飞副总裁赵翔解释,其AI翻译战略旨在应对全球化交流的深化趋势,依托公司“语音识别-翻译-语音合成-端侧产品”的完整技术链条。战略方向主要包括夯实基础技术、聚焦特定场景进行深度开发,以及构建从轻量级软件到软硬件一体化解决方案的全产品矩阵。讯飞坚持“自主研发+场景落地”的大模型战略,强调国产化底座、多语种特色和行业深度结合。公司20多年的技术积累,尤其在降噪技术和多语种方言上的投入,构成了其在语音翻译领域的独特优势。

翻译耳机在硬件和软件上均有创新,尤其在降噪方面,科大讯飞翻译耳机总经理林会杰表示,其核心是全球首创的“多感融合能源降噪”系统,结合多麦克风阵列和优化算法,实现在嘈杂环境下的高效离线拾音。针对方言与小语种翻译的难点,讯飞通过长期的数据积累和“多语种共享建模关键技术”提升性能。硬件产品被视为“技术+硬件+场景”的融合,覆盖个人到企业级全场景。在涉外服务场景,双屏翻译机2.0的双屏设计、多语种支持、降噪优化及离线模式,均旨在提升沟通效率与信息安全。

怜星夜思:

1、讯飞的翻译耳机和翻译机在发布会上展现了很强的专业能力,尤其像会议、机场这些场景。但话说回来,大家觉得在更随意的日常交流中,比如旅行、街头问路,或者朋友间的跨语言闲聊,这些AI翻译工具能真正替代人工吗?有没有可能用起来反而有点‘社交尴尬’,或者效率并没有想象中高?
2、讯飞强调他们的AI大模型是‘自主研发+国产化底座’,这种坚持自主可控的路线,对于中国AI翻译技术在全球的地位会有什么影响?是加速突破还是可能面临一些新的壁垒?大家觉得这背后除了技术因素,还有没有更深层次的考量?
3、AI翻译技术发展太快了,连‘声音复刻’这种仿佛科幻电影里的功能都来了。那么,大家觉得未来像同声传译、文学翻译这些特别依赖人类智慧和情感的领域,会不会被AI逐渐取代?如果不会,那AI和人类翻译师,各自的‘不可替代性’在哪儿,又该怎么互相协作才能达到最好效果?

原文内容

作者 | 蔡芳芳

近日,科大讯飞在上海世界会客厅举行“对话世界,沟通无限——AI 同传技术升级暨翻译耳机新品发布会”,并同步联动迪拜 Gitex Global 科技盛会,向全球展示其 AI 翻译技术的最新进展。此次发布会重点包括同传大模型技术升级、AI 翻译耳机新品发布以及双屏翻译机 2.0 的功能升级。

AI 同传技术方面,科大讯飞对中英同传效果进行了优化,将翻译主观体验提升至 4.6 分(满分 5 分),首字响应时间降低至 2 秒。专业词库扩充至 10 万以上,覆盖医疗、金融、法律等高壁垒行业,同时新增中英到阿拉伯语、西班牙语的端到端同传互译功能。此外,中英同传引入“声音复刻”功能,用户仅需一句话语音样本即可用自身音色播报翻译结果。

依托科大讯飞端到端语音同传大模型的持续优化,讯飞 AI 翻译耳机在准确度、响应速度和播报自然度上也实现了全面升级。现场发布的新一代讯飞 AI 翻译耳机搭载“多感融合 AI 降噪系统”,采用骨导与气导结合的开放式设计,支持 60 种语言同传互译,内置 10 万以上专业词库,部署专属同传服务集群,中英同传首响播报延迟低至 2 秒,蓝牙 6.0 连接技术保障低延迟。耳机覆盖通话实时翻译、面对面翻译、线上同传和旁听同传四大核心场景,同时集成语音助手功能,支持口语陪练、资讯查询等服务。

讯飞双屏翻译机 2.0 也迎来功能升级,新增讲话人分离功能,可在中英会议翻译中智能区分讲话人并支持自定义名称。此外,设备结合星火办公大模型,新增会议纪要生成与内容分享功能,预计于 10 月底正式上线。

国际权威咨询机构 IDC 最新报告显示,科大讯飞在 AI 翻译速度、效果、专业度等 8 大核心维度中排名第一,其中 6 项获得满分。此次双城发布标志着科大讯飞全球化战略的进一步推进。

发布会后,科大讯飞副总裁、消费者事业群常务副总裁赵翔等高管接受了 InfoQ 等媒体采访,对科大讯飞的 AI 翻译战略展开了进一步解读,并深入分享了讯飞 AI 翻译技术细节与落地思考。

讯飞 AI 翻译战略:以全链条技术应对全球化交流需求

当被问及 AI 翻译战略的整体定位与推出原因时,科大讯飞副总裁、消费者事业群常务副总裁赵翔表示,核心背景在于全球化交流的深化趋势。他指出,尽管存在地缘政治不确定性,但国与国之间的交流更为紧密,“开放式人员交流深化”是大趋势。在此背景下,翻译市场需求持续增长,而机器翻译的进步会促进人们更深入的交流,从而带动翻译需求进一步扩大。

赵翔介绍,讯飞从语音技术起家,已形成“语音识别 - 翻译 - 语音合成 - 端侧产品”的完整技术链条,这是讯飞切入 AI 翻译领域的底气。其战略定位主要围绕三个方向展开:

  • 夯实基础技术:持续投入语音识别、多语种翻译准确率等核心技术的研发,并覆盖更多小语种和方言的数据积累。

  • 聚焦场景做深做精:针对如工厂跨境沟通、国际展会洽谈等具体场景进行定制化开发,解决真实痛点,而非泛泛地布局赛道。

  • 全产品矩阵一体化:构建从轻量级软件(如 APP、电脑端翻译工具),到标准化硬件(如翻译机、耳机),再到软硬件一体解决方案(如会议室同传系统)的全链条产品矩阵。

他强调了全产品矩阵的优势:不同场景适配不同产品形态,而所有产品的技术底座是打通的。在保护用户隐私的前提下,整合不同产品在不同场景下的用户数据,可以反哺模型优化,形成“用户用得越多,翻译准确率越高”的正向循环。

讯飞大模型自研战略与语音翻译优势

关于讯飞在大模型领域的战略及其在语音翻译上的优势,赵翔表示,讯飞的大模型战略核心是“自主研发 + 场景落地”,具体有三个关键点:

  • 国产化底座:所有大模型研发都基于自主芯片与国产化硬件,确保技术自主可控。

  • 多语种特色:致力于打造多语种能力突出的模型。

  • 行业深度结合:将大模型与教育、医疗、翻译等现有行业场景深度融合,不做通用大模型,而是做“能解决行业实际问题的的模型”。

赵翔进一步解释,讯飞之所以坚持自主研发大模型,是因为若仅在开源模型上微调,难以达到国际领先水平,也无法满足真实场景下基于场景化数据持续打磨的需求。

关于讯飞做语音翻译的优势,赵翔认为,这源于讯飞 20 多年的技术积累,而非大模型出现后的“一蹴而就”。从底层语音识别、语音合成到中间的语音翻译算法,再到上层的语音平台,整个技术链条是自然衔接、持续迭代的。他举例称,讯飞坚持研发降噪技术已超过 10 年,在工厂、展会等嘈杂场景下的精准降噪能力是讯飞的优势之一。同时,讯飞在多语种和方言上的长期投入(如讯飞星火语音大模型已支持 101 种语言识别、全国 202 个地市级方言识别,同时支持 55 种语言的语音合成等)也构成了竞争壁垒。大模型的迁移学习能力正在帮助公司大幅减少新语种拓展所需的标注数据量。

AI 翻译耳机的软硬件技术创新

如何保证收音的清晰度,是 AI 翻译耳机的关键痛点和难点。

对于新品 AI 翻译耳机在降噪方面的软硬件创新,科大讯飞翻译耳机总经理林会杰进行了技术解读。他表示,耳机降噪系统的核心是全球首创的“多感融合能源降噪”,作为“骨导 + 气导”形态的开放式翻译耳机,配备 2 个数字硅麦克风,可有效捕获环境音与语音细节;1 个骨传导麦克风,负责采集骨震动信号;麦克风延长杆 30 度指向佩戴者,形成最佳收音角度。同时,基于讯飞自研的降噪算法,在地铁、酒会等嘈杂场景下仍能清晰拾音。

林会杰特别指出,这套复杂的算法是全离线运行的——既要实时处理多颗麦克风的输入,又要保证处理后的数据传给云端或手机时,对方听到的声音清晰自然。为了实现这一点,团队做了很多优化工作:比如通过模型芯片化,将复杂模型压缩至几十 KB 大小,以便在耳机这类内存有限的设备上实现高效实时处理,保障无论在面对面交流还是远程通话中的翻译质量。

关于新品的战略创新与协同逻辑,林会杰表示,核心是“场景化定制 + 全产品协同”。新品会根据工厂、展会等特定场景优化功能,并且它不是孤立的,会与讯飞的其他翻译产品(如翻译机、APP)在数据上打通,反哺整个翻译系统的持续优化;而新品的功能也会根据其他产品的用户反馈做调整,形成“数据 - 优化 - 产品 - 数据”的闭环。

方言与小语种翻译难点突破

针对方言和小语种影响翻译准确率的问题,科大讯飞副总裁、研究院常务副院长高建清承认这是语音翻译深度应用的核心难题。在大模型将翻译准确率提升至 90%-95% 的背景下,语音识别的准确率已成为制约语音翻译大规模应用的关键。

讯飞的解决方案包括两方面:

  • 长期投入“苦活”
    :在方言方面,已覆盖全国 202 个地市级方言,并与输入法合作推行“方言保护计划”以持续收集数据。在多语言方面,支持 101 个语种的识别和 55 个语种的合成,这背后是巨大的商业和财务投入。
  • 技术创新
    :采用 多语种共享建模关键技术, 科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模,通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练,最终,显著提升了小语种语音系统性能。

目前,方言和小语种的翻译准确率与大语种相比仍有差距,但讯飞表示将持续投入优化。

用户需求洞察与硬件优势

在用户需求洞察方面,讯飞的核心思路是“技术落地解决实际问题”。例如,随着“一带一路”推进和中国企业出海潮,跨国商务沟通对即时、准确、便携的翻译工具需求激增,讯飞因此开发了翻译机、翻译耳机和。

关于硬件产品在 AI 翻译战略中扮演的角色,中国(尤其是华南地区如深圳)的智能硬件供应链在成熟度和创新能力上全球领先。讯飞的硬件并非“简单组装”,而是“技术 + 硬件 + 场景”的融合,例如翻译耳机的骨传导麦克风、翻译机的离线功能都是基于核心技术定制开发。完整的硬件矩阵从个人使用的 APP、手持设备到企业级会议系统,覆盖全场景,并与软件、云平台数据打通,提供一致的翻译体验。

外事场景适配

关于讯飞翻译产品在国际化服务窗口(如外事场景)的应用及信息安全,科大讯飞翻译机总经理孙境廷介绍称,讯飞翻译产品已在机场接待、外事会议等场景落地,讯飞双屏翻译机 2.0 针对此类高要求场景做了三项关键适配:

  • 双屏设计:在对话过程中,工作人员和外国乘客各自拥有专属屏幕,翻译结果清晰可见,这种双向互动的设计不仅提升了沟通效率,还让外国乘客感受到更多的尊重。
  • 多语种支持:讯飞翻译机支持在线翻译为 200 多个国家和地区的语言,能识别 35 种语言。当外国乘客咨询时,可自动识别语言,快速打破沟通壁垒,有效解决了机场工作人员与不同国家旅客因语言不通导致的沟通效率低、信息获取难等问题。
  • 降噪与收音优化:配备 5 麦克风阵列与 AI 降噪技术,拥有高精度声源定位与自适应降噪能力,支持全向、定向两种收音模式,能过滤 1 米外背景噪音,即使在机场候机厅等高分贝嘈杂环境下,仍能精准锁定目标音源,有效降低噪声干扰,提升翻译质量。

针对于外事服务等场景,讯飞持续进行定制化的需求设计。同时,讯飞双屏翻译机 2.0 具备离线具备离线模式,在无网、弱网的情况下依然可以使用,也能适配高保密场景。

会议推荐

10 月 23-25 日 QCon 上海站开幕倒计时 3 天,3 天沉浸式学习,100+ 工程实战案例,直面一线的挑战与解法。大会将聚焦 AgenticAI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践。一票难求,立即扫码预占席位!

今日荐文

图片

你也「在看」吗?👇

哈哈,想象一下你在酒吧搭讪一个外国小姐姐,结果你掏出个翻译耳机跟人家聊:‘你…好…请…问…方…便…给…我…你…的…微…信…吗?’。这画面想想就尬死了,分分钟社死现场!可能在需要快速获取信息或避开麻烦的时候有用,但要真建立人际关系,那还是得多学外语或者找个真人翻译陪着吧,起码表情管理是机器学不来的!

AI翻译,特别是同传,在效率和即时性方面有着天然优势,尤其适用于大型会议、新闻发布等追求速度和信息覆盖广度的场景。‘声音复刻’等功能则提升了用户体验的自然度。然而,人工翻译的优势在于对文化内涵的深度理解、语言的艺术性表达、临场应变能力以及对细微情感的捕捉。在外交谈判、文学创作、法庭审判等对精确性、信任度和人际互动有极高要求的场景,以及需要创新思维和文化转译的领域,AI目前仍难以匹敌。未来趋势更可能是人机协作,AI提供初译或辅助信息,人类翻译师进行润色、校对和文化适配,共同提升翻译质量和效率。

我觉得日常用还是挺方便的!上次去日本,在小店里买东西,直接用翻译机跟老板沟通,虽然有点慢,但至少能表达清楚,比手舞足蹈好多了。但要说跟朋友那种‘灵魂交流’,机器翻译就差点意思了,有时候会把一些笑话或者梗翻译得很怪,感觉会打断气氛。所以像问路、点菜这种功能性交流没问题,深层次沟通还是得靠人。

从用户体验研究角度看,AI翻译在碎片化日常场景中面临多重挑战。首先是环境噪音和口音多样性对语音识别准确率的影响。其次是文化语境、俚语和非语言信息的缺失,这使得直译结果可能失去原意或产生误解。虽然技术一直在进步,但目前AI翻译尚难以完全捕捉人类交流中的情感、幽默和社会语境,因此在细腻的社交互动中可能仍显生硬。

我觉得AI取代人类翻译?不太可能吧!谁能把‘秋天的第一杯奶茶’这种土味情话翻译得又准又好,还能让人听明白背后的文化梗?机器再聪明,也翻不出人类的‘言外之意’和‘内涵’啊!而且万一AI翻译把我的情话翻成了‘请喝茶!’,那不仅是翻车,简直是大型事故现场!所以,我们人类翻译师的饭碗,至少在情感和文化领域还是挺稳的,负责给AI擦屁股也挺忙的,哈哈。

市场竞争角度看,坚持自主研发确实能打造差异化优势,尤其在对数据安全和特定语种(比如中国方言)需求较高的市场。如果能持续输出创新且领先的产品,就能在全球市场占据一席之地。但研发成本和时间投入也巨大,对团队的技术实力和资金链都是考验。如果只是‘为国产而国产’,而不能带来明显的性能提升或成本优势,那反而可能制约其在全球的扩张。

讯飞这种‘自主研发+国产化底座’的大模型战略,在当前地缘政治背景下,无疑是国家科技安全和产业自主性的重要保障。它有助于避免关键技术受制于人,并在标准制定、数据主权等方面掌握更多主动权。长期来看,这可能促使中国在AI翻译领域形成独特的生态系统,甚至可能与其他国家在技术标准和应用规范上展开竞争。然而,完全脱离国际开源社区和主流技术路径,也可能带来一定程度的孤立风险,需要权衡利弊。

我觉得挺好的呀!咱们自己的技术,用起来更放心!总不能什么都指望外国人吧?现在各种信息安全问题那么多,翻译这种涉及沟通和数据的,肯定得自己掌握核心技术才能有底气。就跟造芯片一样,虽然现在还有差距,但只要坚持下去,肯定会越来越强,到时候外国人也得用我们的技术!