向量重塑商业成功:从理解相似性到行业转型

向量已成为数据时代的关键工具,本文解析了向量如何应用于商业,并以医疗保健为例,展示了向量在模式识别和决策制定中的强大能力。

原文标题:独家|无形的变革:向量如何重塑商业的成功(下)

原文作者:数据派THU

冷月清谈:

本文深入探讨了向量在商业领域中的应用,解释了如何利用向量表示将复杂数据转化为可操作的洞察。文章通过一个徒步路线的例子,生动地展示了欧几里得距离和余弦相似性这两种相似性度量方法在实践中的不同表现,强调了选择合适的度量标准对于推荐引擎、文档检索和欺诈检测等应用的重要性。此外,文章还以医疗保健行业的败血症早期检测为例,阐述了向量在模式识别方面的潜力。最后,文章呼吁商业领袖重视并理解向量思维,以便在数据驱动的时代做出更明智的决策,抓住机遇并保持竞争力。

怜星夜思:

1、文章中提到余弦相似度在欺诈检测中能检测消费习惯中的异常,而不是绝对数值大小,那么除了商家类型,交易时间,交易金额这些向量维度,还有哪些维度可以加入,以提高欺诈检测的准确性?
2、文章提到理解向量思维可以帮助商业领袖做出更明智的决策,那么,对于非技术背景的管理者,学习向量相关知识,最应该关注哪些核心概念?
3、文章中提到败血症早期检测系统利用中性粒细胞的运动模式向量进行诊断,那么除了医疗领域,向量在其他哪些领域的模式识别有应用前景?

原文内容

作者:Felix Schmidt
翻译:陈之炎
校对:赵茹萱

本文共4000字,建议阅读10分钟

本文介绍向量是如何重塑商业的成功。

攀登欧几里得山道

图源:Unsplash,Christian Mikhael

在本小节,将看到在实践中,不同的相似性度量方法是如何表现的,通过一个现实世界的具体例子和一些简单的代码示例,来展示相似性度量方法。即使你不是技术专家,也很容易理解代码。不要害怕!它并不复杂。

快速讨论一下一条10英里长的徒步旅行道。两个朋友,亚历克斯和布莱克,对同一次徒步旅行写下了不同的路线评论,两个人都给出了不同的评价:

这条路线在仅仅2英里内就上升了2000英尺!有了高海拔的尖峰,轻松就能完成!

亚历克斯
               
小心,我们在森林地形的尖峰处直直地爬升了100英尺!总的来说,这是10英里美丽的森林徒步旅行!

布莱克
           
将这些描述表示为向量:

图片

结合两种相似性度量方法,看看它提示了什么信息:   

           
运行这段代码,会发生一些神奇的事情:   


这个输出显示了为什么同一条路线会显得不同。

较大的欧几里得距离(8.12)表明这两个描述差异巨大,正如2000与100之间的巨大差异,以及2与10之间的差异,使得二者很不一样,直接提取出数字之间的差异,但并未理解它们的真实含义。

较高的余弦相似度(0.95)告诉我们一些更有趣的事情:这两个描述捕捉到了相似的模式。

如果查看归一化的向量,也可以看出;亚历克斯和布莱克都在描述一条以海拔上升为主要特征的路线。每个归一化向量的第一个数字(海拔上升)相对于第二个数字(路线长度)要大得多。或者,将它们都提升到相同的水平,并基于比例进行归一化——二者共享定义这条路线的相同特征。

完全与现实相符:亚历克斯和布莱克徒步了同一条路线,但在写评论时关注了不同的部分。亚历克斯关注了较陡的部分,描述了100英尺的爬升,而布莱克描述了整个路线的轮廓,平均每英里上升200英尺,总共10英里。余弦相似度将这些描述识别为相同路线模式的变体,而欧几里得距离则将它们视为完全不同的路线。

这个例子说明了选择适当的相似性度量的必要性。归一化并采用余弦相似度可以揭示许多有意义的相关性,而这些相关性在实际用例中会被像欧几里得距离这样的简单距离度量所遗漏。

度量选择的实际影响   
 
图源:Unsplash,fabio

选择的度量不仅仅是改变了数字,它影响了复杂系统的实际结果。以下是它在各个领域的具体表现:

  • 在推荐引擎中:当涉及余弦相似度时,可以将具有相同口味的用户分组,即使他们的总活动量不同也可以正确分组。流媒体服务可以利用这一点,推荐与用户类型偏好相符的电影,而不是仅仅根据一小部分活跃观众的热门选择来推荐。
  • 在文档检索中:当查询一个包含文档或研究论文的数据库时,余弦相似度会根据文档内容与用户查询在意义上的相似性来对文档进行排名,而不是根据文档的长度。这使得系统能够检索出与查询上下文相关的结果,即使这些文档的大小各不相同。
  • 在欺诈检测中:行为模式往往比单纯的数字更重要。余弦相似度可以用来检测消费习惯中的异常,因为它比较的是交易向量的方向——比如商家类型、交易时间、交易金额等——而不是绝对数值的大小。 
   
这些差异在应用中尤为重要,它们让我们了解系统是如何“思考”的。再回到信用卡的那个例子:例如,它可能会使用欧几里得距离将一笔7000美元的高额交易识别为可疑交易——即使这笔交易对于你来说是正常的,因为你平均每月消费20000美元。

另一方面,基于余弦相似性的系统会理解这笔交易与你常见的消费模式一致,从而避免不必要的错误通知。

像欧几里得距离和余弦相似度这样的度量并非仅仅是理论上的,它们是现实世界系统赖以建立的蓝图。无论是推荐引擎还是欺诈检测,选择的度量将直接影响系统如何理解数据中的关系。

现实中的向量表示:行业转型

图源:Unsplash,Louis Reed

这种抽象能力是向量表示如此强大的原因——它们将复杂和抽象的专业领域数据转化为可以评分和采取行动的概念。这些见解正在推动各行业业务流程、决策制定和客户价值交付的实质性转型。

接下来,将探讨具体用例的解决方案,看看向量是如何腾出时间来解决大问题,并创造能产生重大影响的新机会的。我选择了一个行业来展示基于向量的方法可以实现什么,所以这里有一个来自临床环境的医疗保健例子。为什么?因为它对我们所有人都很重要,并且比深入金融系统、保险、可再生能源或化学等领域更容易让人产生共鸣。    

医疗保健聚焦:复杂医疗数据中的模式识别
           
在医疗保健行业,向量表示可以完美解决风暴般的挑战,患者数据非常复杂:病史、遗传信息、生活方式因素和治疗结果都以微妙的方式相互作用,而传统的基于规则的系统无法捕捉到这些相关信息。

在马萨诸塞州总医院,研究人员实施了一个基于向量的败血症早期检测系统,败血症是一种每提前一小时检测就能将生存机会提高7.6%的病症(查看完整研究请访问pmc.ncbi.nlm.nih.gov/articles/PMC6166236/)。

在这种新方法中,用自发放射性中性粒细胞速度剖面(SVP)来描述一滴血液中中性粒细胞的运动模式。这里不深入探讨太多医学细节,因为关注的是向量,中性粒细胞是一种免疫细胞,是身体用来抵抗感染的“第一响应者”。

该系统将每个中性粒细胞的运动编码为一个向量,该向量不仅捕捉其大小(即速度),还捕捉其方向。因此,将生物模式转换为高维向量空间,从而揭示了健康个体和败血症患者在运动方面的统计学显著差异。然后,在机器学习模型的帮助下处理这些向量,用该模型检测败血症的早期迹象。结果是一种诊断工具,其灵敏度(97%)和特异性(98%),能够快速而准确地识别这种致命病症——使用了刚才学到的余弦相似度(论文没有详细说明,所以这只是纯粹的猜测,但它是最合适的)。

这只是如何将医疗数据编码为其向量表示并转化为灵活、可操作的见解的一个例子。这种方法能够重构复杂关系,并且与机器学习一起,绕过了以前诊断模式的限制,是临床医生拯救生命的强大工具。这是一个有力的提醒,向量不仅仅是理论构造——它们是实用的、拯救生命的解决方案,正如它们正在推动医疗保健的未来一样,也希望未来它们能够推动商业业务发展。    

引领并理解,否则就会面临淘汰,这是赤裸裸的真相。

图源:Unsplash,Hunters Race

当根据数据关系做决策时,领导者往往会做出微妙但灾难性的假设。使用代数工具,虽然得到了一些结果,但无法知道它是否正确:在不了解向量的基本原理的情况下做出领导决策,就像使用计算器进行计算,但不知道使用什么公式一样。

好消息是,这并不意味着商业领袖必须成为数据科学家。向量很吸引人,因为一旦掌握了核心概念,它们就变得非常容易使用。对少数几个概念的理解(例如,向量如何编码关系、为什么距离度量很重要以及嵌入模型如何工作)可以从根本上改变领导者做出高层决策的方式。这些工具将助力提出更好的问题,更有效地与技术团队合作,并对将主导业务的系统做出明智的决策。   

这种理解的投资回报是巨大的。虽然人们一直在谈论个性化,然而,很少有组织在其商业战略中使用基于向量的思维。它可以充分发挥个性化的潜力,通过量身定制的体验取悦客户并建立忠诚度,并可以在欺诈检测和运营效率等领域进行创新,发掘利用传统方法遗漏的数据中的微妙模式,甚至可以拯救生命,正如上文所述,它可以避免因领导者在不了解其含义的情况下将关键决策委托给他人而发生的失误。

事实上,向量已经存在,并且正在推动几乎所有人工智能技术的发展,帮助创造今天和明天的世界。不适应向量思维的公司会在日益数据驱动的竞争环境中落后。采用这种新范式的人不仅会存活下来,而且会在无尽的人工智能创新时代蓬勃发展。

现在是时候采取行动,开始通过向量来看待世界。学习它们的语言,审视它们的教义,并思考新的事物如何改变策略和指南。就像代数已成为解决实际生活挑战的工具一样,向量很快将成为数据时代的读写工具。实际上,它们已经成为强有力的工具,强大的人知道如何利用向量掌控未来。向量是否会重新定义下一个商业时代?而你是否已经准备好引领向量时代?   

编辑:王菁
校对:梁锦程





作者简介





陈之炎,北京交通大学通信与控制工程专业毕业,获得工学硕士学位,历任长城计算机软件与系统公司工程师,大唐微电子公司工程师,现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护,在人工智能深度学习和自然语言处理(NLP)方面积累有一定的经验。业余时间喜爱翻译创作,翻译作品主要有:IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等,其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组,希望能和大家一起交流分享,共同进步



转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。





关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织


这个问题很有意思!除了文章中提到的维度,我觉得还可以考虑以下几个方面来提高欺诈检测的准确性:

1. 地理位置信息:如果用户突然在异地甚至国外进行大额消费,这可能是一个危险信号。
2. 交易频率:短时间内出现大量交易,即使每笔金额不大,也可能是盗刷行为。
3. 用户设备信息:比如设备型号、操作系统等,如果设备与常用设备不符,就需要警惕。
4. 社交网络数据:分析用户在社交网络上的行为,比如最近是否参与了某些高风险活动,或者账号是否被盗用。
5. 历史欺诈案例:建立一个欺诈案例库,将新的交易行为与历史案例进行比对,看是否存在相似之处。

综合这些维度,可以更全面地评估交易的风险,从而提高欺诈检测的准确性。

我觉得没必要学那么多概念,直接看应用案例就行了!比如,看看 Netflix 是怎么用向量来推荐电影的,看看亚马逊是怎么用向量来推荐商品的。通过案例学习,更容易理解向量的价值,也更容易激发创新的灵感。毕竟,对于管理者来说,重要的是解决问题,而不是成为数学家。

除了医疗领域,向量在模式识别方面的应用前景非常广阔。以下是一些例子:

1. 金融领域: 利用交易数据向量识别信用卡欺诈、洗钱等行为。
2. 安全领域: 利用视频监控数据向量识别异常行为,例如非法入侵、暴力事件等。
3. 工业领域: 利用传感器数据向量识别设备故障、生产线异常等。
4. 交通领域: 利用交通流量数据向量识别拥堵路段、交通事故等。
5. 农业领域: 利用遥感数据向量识别作物病虫害、土壤墒情等。

总的来说,只要涉及到数据模式的识别,都可以考虑使用向量方法。

从一个曾经的技术小白的角度来说,我觉得最重要的是培养一种“向量化思维”。不要把向量仅仅看作是数学公式,而是要理解它背后的逻辑:

* 抽象: 如何将现实世界中的事物抽象成向量?
* 关联: 如何通过向量之间的关系来理解事物之间的关联?
* 应用: 如何利用向量来解决实际问题?

有了这种思维方式,即使不懂具体的算法,也能更好地理解数据分析的价值,并将其应用到商业决策中。

我觉得吧,啥领域不重要,重要的是数据!现在到处都在说大数据、人工智能,但是很多时候,数据质量不行,算法再厉害也没用。所以,要想让向量在模式识别方面发挥作用,首先要解决数据的问题:

* 数据采集: 如何获取高质量、多维度的数据?
* 数据清洗: 如何清理数据中的噪音和错误?
* 数据标注: 如何对数据进行标注,以便训练模型?

只有解决了这些问题,才能真正发挥向量的威力。

从学术角度来说,可以考虑引入一些行为经济学的概念,例如:

* 锚定效应:分析用户的消费习惯是否受到某些特定事件或促销活动的影响,导致消费行为出现异常波动。
* 损失厌恶:观察用户是否突然改变了消费偏好,避免购买某些商品或服务,这可能暗示着用户正在遭受经济损失或面临欺诈风险。

此外,还可以利用图神经网络(GNN)来分析用户之间的交易关系,识别潜在的欺诈团伙。通过构建用户交易网络,将每个用户视为一个节点,交易行为视为边,可以挖掘出隐藏在网络中的欺诈模式。

我觉得吧,与其想着增加维度,不如考虑怎么把现有维度用好。现在很多支付平台都有风控系统,但是经常误判,明明是自己正常的消费,却被提示有风险。是不是可以考虑引入用户反馈机制?比如用户可以主动标记某些交易为“正常”,或者提供更多的消费信息,让系统更好地了解用户的消费习惯。这样既可以提高准确性,又可以提升用户体验,一举两得!

对于非技术背景的管理者,学习向量相关知识确实不用太深入细节,抓住核心概念最重要。我觉得以下几点是需要重点关注的:

1. 向量是什么: 理解向量是一种表示数据的方式,可以用来描述事物(比如用户、商品、文章)的特征。
2. 向量如何编码关系: 理解向量之间的距离和相似度可以反映事物之间的关系,比如哪些用户更相似,哪些商品更相关。
3. 距离度量的重要性: 不同的距离度量方法(比如欧几里得距离、余弦相似度)适用于不同的场景,选择合适的度量方法很重要。
4. 嵌入模型的作用: 理解嵌入模型可以将复杂的文本、图像等数据转化为向量,从而方便进行分析和处理。

掌握了这些概念,管理者就能更好地与技术团队沟通,理解数据分析的结果,从而做出更明智的决策。

从更前沿的角度来看,我认为以下领域值得关注:

* 情感识别: 通过分析文本、语音、面部表情等数据,将人的情感状态转化为向量,从而实现更精准的情感识别。
* 行为预测: 通过分析用户的历史行为数据,将用户的行为模式转化为向量,从而预测用户未来的行为。
* 创意生成: 通过分析大量的艺术作品、音乐作品等数据,将艺术风格转化为向量,从而生成新的创意作品。

这些领域的研究还处于起步阶段,但具有巨大的潜力。