ACL首届博士论文奖揭晓:深度探索大模型、跨模态与AI+医疗前沿突破

ACL首届博士论文奖揭晓!华盛顿大学Sewon Min获奖,李曼玲等三位博士获提名,研究聚焦LLM与跨模态应用前沿。

原文标题:ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名

原文作者:机器之心

冷月清谈:

首届ACL计算语言学博士论文奖正式揭晓,旨在表彰自然语言处理领域的卓越贡献。华盛顿大学的Sewon Min凭借 “重新思考大型语言模型中的数据使用” 论文荣获大奖,其研究对大型语言模型的行为和能力,特别是上下文学习,提供了关键见解。

同时,大会还授予三位杰出博士论文荣誉提名。伊利诺伊大学香槟分校的 李曼玲博士 凭借“以事件为中心的多模态知识获取”入选,该研究通过CLIP-Event和事件图谱结构,推动了多模态信息从实体到事件的知识跃迁,并实现了零样本多模态事件抽取。华盛顿大学的Ashish Sharma博士则探讨了“人机协作对心理健康与福祉的支持”,通过AI反馈机制提升心理健康对话的共情能力和自助干预效果。爱丁堡大学的Thomas Rishi Sherborne博士的论文“跨语言语义解析建模迁移”聚焦于如何高效地将语义解析器适应到新语言,提出了多种对齐策略和建模方案以克服数据稀缺等挑战。这些获奖及提名研究,共同展示了计算语言学在模型理解、跨模态信息抽取、人机协作及跨语言应用等前沿领域的最新突破。

怜星夜思:

1、Sewon Min的研究提到了“重新思考大型语言模型中的数据使用”和“非参数语言模型”的概念。大家觉得未来LLM的发展方向会是“数据存储即模型”这种非参数化趋势吗?或者说,这种模式会给LLM带来哪些颠覆性的变化和挑战?
2、Ashish Sharma的研究是关于AI辅助心理健康服务。这个方向听起来很棒,但大家有没有考虑过这种应用可能存在的伦理和隐私风险?我们应该如何平衡AI的效率和用户的心理安全呢?
3、Thomas Rishi Sherborne的论文聚焦于跨语言语义解析,文章提到了数据稀缺和英语偏见这两个挑战。在实际应用中,除了论文里提到的方法,大家觉得还有哪些新的思路可以用来克服这些挑战呢?

原文内容

机器之心报道

编辑:张倩、冷猫


昨晚,自然语言处理顶会 ACL 公布了今年的一个特别奖项 —— 计算语言学博士论文奖。


这个奖项是今年新增的,获奖者是来自美国华盛顿大学的 Sewon Min。她的博士论文题为「Rethinking Data Use in Large Language Models(重新思考大型语言模型中的数据使用)」。


ACL 大会官方表示,「Min 的论文对大型语言模型的行为和能力提供了关键见解,特别是在上下文学习(in context learning)方面。 其研究成果对当今自然语言处理的核心产生了影响。


Sewon Min 本科毕业于首尔大学,2024 年在华盛顿大学拿到博士学位,现在在加州大学伯克利分校电气工程与计算机科学系(EECS)担任助理教授。Google Scholar 上的数据量显示,她的论文被引量已经过万。


除了这篇获奖论文,ACL 大会官方还公布了三篇计算语言学博士论文奖提名,获奖者分别为伊利诺伊大学香槟分校博士李曼玲、华盛顿大学博士 Ashish Sharma 和爱丁堡大学博士 Thomas Rishi Sherborne。


以下是获奖论文的详细信息。


ACL 计算语言学博士论文奖


获奖论文:Rethinking Data Use in Large Language Models


  • 作者:Sewon Min

  • 机构:华盛顿大学

  • 链接:https://www.sewonmin.com/assets/Sewon_Min_Thesis.pdf


在这篇论文中,作者讨论了她在理解和推进大型语言模型方面的研究,重点关注它们如何使用训练所用的超大规模文本语料库。


首先,她描述了人们为理解这些模型在训练后如何学习执行新任务所做的努力,证明了它们所谓的上下文学习能力几乎完全由它们从训练数据中学到的内容决定。


接下来,她介绍了一类新的语言模型 —— 非参数语言模型(nonparametric LM)—— 它们将训练数据重新用作数据存储,从中检索信息以提高准确性和可更新性。她描述了她在建立此类模型基础方面的工作,包括首批广泛使用的神经检索模型之一,以及一种将传统的两阶段 pipeline 简化为一个阶段的方法。


她还讨论了非参数模型如何为负责任的数据使用开辟新途径,例如,通过分离许可文本和版权文本并以不同方式使用它们。最后,她展望了我们应该构建的下一代语言模型,重点关注高效 scaling、改进事实性和去中心化。


ACL 计算语言学博士论文奖提名


ACL 会议表示「在众多杰出的投稿中选出优胜者十分困难 —— 因此委员会推荐三位表现同样出色的论文获得特别提名」,因此在这里我们也将这三篇优秀的论文展示给读者。


论文 1:Event-Centric Multimodal Knowledge Acquisition


  • 作者:Manling Li

  • 机构:伊利诺伊大学香槟分校(UIUC)

  • 链接:https://www.ideals.illinois.edu/items/128632


「发生了什么?是谁?什么时候?在哪里?为什么?接下来会发生什么?」是人类在面对海量信息时理解世界所需回答的基本问题。


因此,在这篇论文中,作者聚焦于多模态信息抽取(Multimodal Information Extraction, IE),并提出以事件为中心的多模态知识获取方法(Event-Centric Multimodal Knowledge Acquisition),以实现从传统的以实体为中心的单模态知识向以事件为中心的多模态知识的跃迁。


作者将这一转变分为两个核心部分:


理解多模态语义结构以回答「发生了什么?是谁?什么时候?在哪里?」,即知识抽取。由于这些语义结构具备抽象性且难以锚定于图像中的具体区域,通用大规模预训练方法难以实现语言与视觉模态间的有效对齐。


为此,作者将复杂事件语义结构引入视觉 - 语言预训练模型(称为 CLIP-Event),并首次提出跨模态零样本语义迁移方法,从语言迁移到视觉,解决了信息抽取任务在迁移性上的瓶颈,并首次实现了零样本多模态事件抽取(M2E2)。


理解时间动态以回答「接下来会发生什么?是谁?为什么?」,即知识推理


作者提出了事件图谱结构(Event Graph Schema),首次支持在全球事件图上下文中进行推理与替代性预测,并提供结构化解释。


她提出的多模态事件知识图谱(Multimedia Event Knowledge Graphs),使机器具备从多源异构数据中发现并推理真实知识的能力。


本文作者李曼玲(Manling Li)于 2023 年毕业于 UIUC,计算机科学 PhD,导师是季姮(Heng Ji)。根据其领英信息,2023 年 8 月 - 2024 年 8 月,李曼玲在斯坦福大学人工智能实验室任博士后研究员。


李曼玲在斯坦福的导师是斯坦福大学助理教授、清华姚班校友吴佳俊, 并在李飞飞教授的指导下开展研究工作 。


目前,Manling Li 正在西北大学担任助理教授,带领机器学习与语言实验室(MLL Lab),致力于多模态智能体 AI 模型的尖端研究。实验室网址:https://mll-lab-nu.github.io


论文 2:Human-AI Collaboration to Support Mental Health and Well-Being


  • 作者:Ashish Sharma

  • 机构:华盛顿大学

  • 链接:https://digital.lib.washington.edu/researchworks/items/2007a024-6383-4b15-b2c8-f97986558500


随着全球心理健康问题的日益严重,医疗系统正面临为所有人提供可及且高质量心理健康服务的巨大挑战。


论文作者探讨了人机协作如何提升心理健康支持的可获取性与服务质量。


首先,作者研究了人机协作如何赋能支持者,帮助他们开展更高效、富有同理心的对话。论文以 Reddit 和 TalkLife 等在线互助平台上的互助者为研究对象。


通过强化学习方法,并在全球最大互助平台上开展一项涵盖 300 名互助者的随机对照试验,结果表明,AI 反馈机制显著提升了他们在对话中表达共情的能力。


其次,他探讨了人机协作如何帮助求助者,提升其对自助式心理干预工具的使用体验和效果。


这类干预(如认知行为疗法中的「自我训练工具」)往往认知负荷重、情绪触发强,从而影响其大规模推广。以负性思维的认知重构为案例,作者在一个大型心理健康平台上对 15,531 名用户进行随机试验,结果显示,人机协作不仅帮助用户缓解负面情绪,还为心理机制研究提供了理论支持。


第三,他系统评估了用于心理支持的人机协作系统。作者探讨了如何基于临床试验框架,有效评估 AI 心理干预在短期与长期的表现。同时设计了一套计算框架,用于自动评估大语言模型作为「治疗师」的行为表现。


本文作者 Ashish Sharma 于 2024 年毕业于华盛顿大学,计算机科学 PhD, 研究曾获得 ACL 杰出论文奖、The Web Conference 最佳论文奖,以及摩根大通人工智能研究博士奖学金。


目前,Ashish Sharma 正在微软应用研究院(Microsoft Office of Applied Research)担任高级应用科学家,研究方向聚焦于人机协作系统的开发与优化。


论文 3:Modeling Cross-lingual Transfer for Semantic Parsing


  • 作者:Thomas Rishi Sherborne

  • 机构:爱丁堡大学

  • 链接:https://era.ed.ac.uk/handle/1842/42188


语义解析将自然语言表述映射为意义的逻辑形式表示(例如,lambda 演算或 SQL)。语义解析器通过将自然语言翻译成机器可读的逻辑来回答问题或响应请求,从而充当人机交互界面。语义解析是语言理解系统(例如,数字助手)中的关键技术,它使用户能够在不具备专业知识或编程技能的情况下通过自然语言访问计算工具。跨语言语义解析使解析器适应于将更多自然语言映射到逻辑形式。当代语义解析的进展通常只研究英语的解析。语义解析器的成功跨语言迁移通过扩大这些工具的使用范围来提高解析技术的实用性。 


 然而,开发跨语言语义解析器引入了额外的挑战和权衡。新语言的高质量数据稀缺且需要复杂的标注。在可用数据的基础上,解析器必须适应语言在表达意义和意图方面的变化。现有的多语言模型和语料库也表现出对英语的固有偏见,对使用者较少或资源较少的语言的跨语言迁移效果参差不齐。目前,还没有教授语义解析器新语言的最优策略或建模解决方案。 


这篇论文考虑语义解析器从英语到新语言的高效适应。他们的研究动机来自一个案例研究:一名工程师将自然语言数据库接口扩展到新客户,在有限的标注预算下寻求对新语言的准确解析。克服跨语言语义解析的开发挑战需要在模型设计、优化算法以及数据获取和采样策略方面进行创新。 


论文的总体假设是,跨语言迁移可以通过在高资源语言(即英语)和任务中未见过的新语言之间对齐表示来实现。作者提出了不同的对齐策略,利用现有资源,如机器翻译、预训练模型、相邻任务的数据,或每种新语言中的少量标注示例。他们提出了适合跨语言数据数量和质量的不同建模解决方案。 


首先,他们提出了一个集成模型,通过多个机器翻译源来引导解析器,通过利用较低质量的合成数据来提高鲁棒性。其次,他们提出了一个零样本解析器,使用辅助任务在新语言中没有任何训练数据的情况下学习跨语言表示对齐。第三,他们提出了一个高效的元学习算法,在训练期间使用新语言中的少量标记示例优化跨语言迁移。最后,他们提出了一个潜变量模型,使用最优传输明确最小化跨语言表示之间的差异。 


论文的结果表明,通过在明确优化准确解析和跨语言迁移的模型中组合最少的目标语言数据样本,准确的跨语言语义解析是可能的。 


本文作者 Thomas Rishi Sherborne 2024 年在爱丁堡大学拿到计算机科学博士学位,2024 年 4 月作为一名技术人员加入 Transformer 作者 Aidan Gomez 创办的 AI 创企 Cohere,致力于挖掘大语言模型在企业应用中的潜力。


有意思的是,Thomas Rishi Sherborne 在自己的 Linkedin 界面写到「我目前不寻求新的职位,任何关于招聘的私信都不会回复(无一例外)」。看来,他对于 Cohere 的这份工作还是很满意的。


接下来,我们将继续关注 ACL 大会的奖项颁发情况,敬请关注后续报道。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

关于非参数语言模型(non-parametric LM)是否是未来主流,我认为这是一个值得深入探讨的议题。从学术角度看,参数化模型在训练后通常是静态的,而非参数模型通过外部数据存储的检索,具备了更好的可更新性和事实性。这意味着模型可以更容易地整合新知识,减少‘幻觉’,并且对数据权限管理也提供了新的可能性(例如,分离版权数据)。其挑战在于检索效率、检索质量以及如何有效融合检索结果与预训练知识,这涉及到复杂的架构设计和优化。如果能克服这些,它有望成为LLM发展的重要分支,尤其是在需要高精度事实性和实时更新的领域。

这简直是痛点中的痛点!我们这些非英语母语的用户,每次用智能助手或者各种AI工具,都感觉英语的表现特别好,其他语言就差一大截。文章说的那些挑战确实存在。除了论文提到的方法,我觉得可以从‘社区众包’和‘领域专家协同’入手。比如说,搞一个平台,让那些小语种的使用者能参与到数据的标注和纠错中来,虽然慢点,但数据质量肯定高。另外,对于某些特定行业的应用,可以邀请该领域的专家来做少量的精准标注,或者提供术语词典,这样AI学习起来也能更准确。毕竟,对小语种来说,‘少而精’的数据比‘泛而滥’的通用数据可能更有用。

嗯,‘数据存储即模型’听起来挺酷的,有点像我们在用脑子思考问题时,不是所有信息都塞在脑子里,而是大部分存在外面,需要时再调取。这样LLM岂不是可以变得更‘聪明’,不会老是胡说八道了?而且更新知识也方便,不用老是重训练。但问题是,这么多数据怎么存?怎么搜?搜错了怎么办?感觉搞不好会把AI变成一个‘度娘’,搜啥都给你一大堆结果,但到底哪个对,还得你自己判断,这不就有点本末倒置了?还得看实际应用效果吧。

说到AI心理健康,我首先想到的是,我的那些最私密、最脆弱的想法,真的要交给一个机器吗?它会不会把我的数据偷偷拿去分析?或者万一AI出现偏差,给出了不恰当的建议,那对本来就焦虑或者抑郁的人来说,简直是二次伤害。效率固然重要,但心理健康这种事,安全和信任才是第一位的吧。我觉得AI可以作为辅助工具,比如记录情绪、提供一些自我调节的练习,但真正的‘倾听者’和‘引导者’,还是得是活生生的人。或者至少,AI要有非常严格的监管和应急机制,确保不会出大的纰漏。

Ashish Sharma博士关于AI辅助心理健康的研究确实是重要方向,但您提到的伦理和隐私风险是核心挑战。首先,数据的匿名化和去标识化至关重要,确保用户的敏感对话内容不被滥用。其次,AI的‘共情’能力毕竟是算法模拟,而非真正的人类情感,过度依赖可能导致用户产生伪依恋,甚至在AI误判时造成伤害。平衡点在于将AI定位为‘增强工具’而非‘替代品’。即AI可以提供初步的筛选、信息支持或情绪记录,但关键性的诊断和深度干预仍应由专业人士主导。同时,透明度、可解释性和明确的用户告知(AI的局限性)也是构建信任、保障心理安全的关键。

非参数LM啊?听起来就像把LLM从过去的‘记忆大师’变成了‘图书馆管理员’,啥都不需要自己记,直接去图书馆(数据存储)找就行。这样好处是它再也不会‘现编’一些瞎话了,因为所有信息都可以追溯到‘书本’。但坏处是,万一图书馆被黑了,或者书被篡改了,那AI不就成了‘谣言传播机’?而且,我可不希望我的AI助手每次回答问题都要‘等等,我先去数据库里查一下’,那跟手动搜索有啥区别?希望它能是个‘无所不知又反应迅速’的图书馆管理员!

Thomas Rishi Sherborne的论文深入剖析了跨语言语义解析的痛点,即数据稀缺和英语中心偏见。除了论文中提出的通过机器翻译、预训练模型对齐和元学习等策略,未来可以探索更多路径。例如,可以利用 多任务学习和知识蒸馏 的方法,让模型在其他相关任务(如跨语言问答、多语言情感分析)中学习到更通用的跨语言表示,从而提升语义解析的能力。此外,合成数据生成结合 大模型自监督学习 也可能是一个突破点,通过设计精巧的Prompt Engineering和迭代优化,让大模型生成高质量的特定语言语义解析数据,弥补数据不足。联邦学习(Federated Learning)在保护隐私的前提下,也能汇集来自不同语言社区的数据,共同训练模型,提升稀有语种的性能。

伦理和隐私?这在任何涉及用户数据的AI应用里都是老生常谈的问题了。心理健康方面就更敏感了,毕竟是聊心事。我觉得吧,要平衡AI的效率和用户安全,关键在于规范和监管。首先是数据加密和访问权限,不能让这些数据随便泄漏。其次是责任归属,AI出了问题谁负责?是开发者还是平台方?再者,AI在提供建议时,必须明确告知这是AI的输出,并且不能提供诊断性建议,只能是辅助性的信息。最后,别指望AI能解决所有心理问题,它能提供一些普遍性的帮助,真正复杂的还得找专业医生。毕竟不是所有情绪都能被算法理解和处理的。

数据稀缺和英语偏见?哈哈,这不就是‘富者越富,穷者越穷’的真实写照嘛!英语AI就像是自带金汤匙出生的,数据要多少有多少。我们这些小语种,光找点句子都费劲。除了论文里那些‘高大上’的方法,我有个‘歪点子’:能不能搞个‘AI众筹’项目?就是全球的小语种用户一起贡献数据,然后开发一个‘人人为我,我为人人’的跨语言解析器。当然,前提是得保证数据安全。要不然,AI学会了所有语言,结果却只偏爱英语,那我们岂不是很受伤?感觉就像一个学霸,虽然会十几种语言,但平时只说英语,这就很让人emo了。