AI机器学习入门指南:从核心概念到实践流程

从-1到0.1,快速了解AI学习路径。本文帮你厘清人工智能、机器学习与深度学习基础概念,掌握处理数据、构建模型、特征工程等核心知识,开启AI探索之旅。

原文标题:AI 基础知识从-1到0.1:带你走进机器学习的世界

原文作者:阿里云开发者

冷月清谈:

本系列文章旨在为AI初学者提供一份清晰的入门指南,帮助读者从零开始理解和掌握AI的核心基础知识。文章首先澄清了人工智能(AI)、机器学习(ML)、深度学习(DL)以及大模型之间的层级与概念差异,强调了它们在模拟人类智能、数据预测与复杂模式识别中的作用。接着,文章系统阐述了机器学习的核心流程:数据收集与准备(记忆)、模型构建与训练(制定),以及使用已训练模型进行预测与决策。在数据层面,详细解释了数据、特征、标签、数据点等基础概念,通过房价预测的例子具体演示了线性回归模型,并揭示了权重与偏置作为模型“参数”的关键地位。文章进一步区分了数值数据与分类数据,以及带标签数据(监督学习)和无标签数据(无监督学习),并介绍了强化学习的原理与应用。特别强调了特征工程的重要性,将其比喻为“厨师处理食材”,通过特征选择、提取、清洗、转换和编码等步骤,极大地提升模型性能。此外,文章还深入讲解了Token、向量化和Embedding(如Word2Vec、BERT)在文本处理中的基石作用,并解释了GPU因其并行矩阵运算能力而成为大模型训练与推理的关键硬件。最后,文章概览了AI模型从需求分析到部署监控的十个实际应用步骤。

怜星夜思:

1、文章里提到“从-1开始是因为里面有部分我们高中学过的但已经被遗忘的知识”,大家觉得除了线性和向量,还有哪些高中或者大学初期学过的‘看似无用’的数学知识,在AI和机器学习里突然变得特别重要了?举个例子呗!
2、文章着重强调了特征工程的重要性,把它比作“厨师处理食材”。假设我们现在要为一个电商平台预测用户是否会购买某个特定商品,除了用户的基础信息(年龄、性别)和商品基础信息(价格、品类),你们觉得还可以从哪些‘隐藏’的数据中提取或构造出更有效的特征,来提高预测的准确率呢?
3、文章提到了GPU对大模型的重要性,甚至导致现在‘一卡难求’。假设未来这种‘算力稀缺’和‘算力昂贵’的局面持续下去,大家觉得这会对AI技术的发展方向、应用普惠性,甚至社会结构产生哪些深远影响?是好事还是坏事呢?

原文内容

沿着 AI 的发展脉络,本系列文章从Seq2Seq到RNN,再到Transformer,直至今日强大的GPT模型,我们将带你一步步深入了解这些关键技术背后的原理与实现细节。无论你是初学者还是有经验的开发者,相信读完这个系列文章后,不仅能掌握Transformer的核心概念,还能对其在整个NLP领域中的位置有一个全面而深刻的认识。那就让我们一起开始这段学习之旅吧!

Embedding、向量、无监督学习、卷积、RNN、Transformer、PyTorch……当你意识到 AI 时代已经到来,决定迈出学习的第一步时,是否也和我一样被这些繁多的术语弄得无所适从、不知从何开始?

本文旨在以简明易懂的方式,梳理 AI 的基础概念,帮助读者零帧起手,顺利开启 AI 学习之旅。

之所以是 -1 开始是因为里面有部分我们高中学过的但已经被遗忘的知识。

人工智能、机器学习、深度学习与大模型

人工智能(AI)人工智能指的是计算机执行各种决策任务的能力合集,这些任务通常模拟人类智能,例如理解自然语言、识别图像、解决问题和进行推理。AI 的目标是开发能够自主学习和适应的系统,以提升效率和准确性。

机器学习(ML)机器学习是人工智能的一个子集,专注于如何让计算机基于数据做出决策。机器学习的主要目标是从现有的数据中发现模式和规律,并利用这些模式对未来的数据进行预测。

深度学习(DL)深度学习是机器学习的一个领域,利用称为“神经网络”的多层结构来处理复杂数据模式识别,相对于普通机器学习,尤其擅长图像识别、自然语言处理等任务。

模型就是机器学习、深度学习中从数据中学习到的、用于做预测或决策的规则集合,这个学习过程称之为训练,这些规则通过训练过程从历史数据中提取模式和关系,使模型能够在面对新的、未见过的数据时做出靠谱的预测或决策。

而大模型是指在深度学习中拥有大量参数(后面再解释何为参数)和复杂结构的模型,这些模型通常需要大量的数据和强大的计算资源来训练,能够处理更复杂的任务并理解更深层次的数据模式。

DeepSeek 的母公司幻方量化是中国头部量化对冲基金,其核心业务是通过算法模型进行证券投资,通俗讲就是根据过往公司的增长、营收、外部环境、政策变化等数据预测未来的股价,让计算机预测该投资谁,而 DeepSeek 是其开源的通用模型,人家不是玩票的,是用来赚真金白银的,这也是大模型的一个现实意义。

机器学习基础概念

机器学习的核心流程可以概括为三个阶段:

1.记忆收集和准备数据

2.制定构建和训练模型

3.预测使用训练好的模型进行预测和决策

我们用一个例子来理解数据相关的几个核心概念,假设我们希望建立一个机器学习模型,根据房屋的各种属性(如面积、位置、卧室数量等)来预测房价。

数据、特征与标签

数据是用于训练和测试机器学习模型的原始信息。在预测房价的例子中,数据包含了关于不同房屋的信息以及它们对应的价格。

  • 结构化数据:以表格形式存储的数据,如电子表格或数据库表。每一行代表一个房屋,每一列代表一个属性。

  • 非结构化数据:如图片、文本等,不宜以表格形式表示。在预测房价时,非结构化数据可能包括房屋的照片或地段描述,但通常我们使用结构化数据作为主要输入。

特征表示数据的属性或性质,也是另外一个经常会提到的概念,如果数据在表格中,那么特征就是表格的列。在房价预测数据集中,每个房屋有 5 个特征(面积、卧室数量、浴室数量、地段评分、房龄),我们成这个数据集得维度是 5,其实房价也是房子的一个特征,但我们把房价这个希望模型预测的目标变量称为标签。

另外还有个常用的概念——数据点,也称为样本(Sample)或实例(Instance),是在数据集中代表一个具体实体或观测的单个记录,简单来讲每一行代表一个数据点,每一列代表一个特征或标签。

线性回归

线性函数是指其图像在平面直角坐标系中呈现为一条直线的函数。其基本数学表达式为:f(x)=ax+b,其中 a 表示斜率,b 表示截距。

机器学习中的线性回归正是基于线性函数构建的模型,其核心是通过线性函数对输入特征和输出目标之间的关系进行建模,假设目标变量(标签,房价)与一个或多个特征之间存在线性关系:

图片
    • 图片:目标变量或者叫因变量,也就是预测值,在预测房价的例子中,目标变量是房价;

    • 图片:自变量,也就是输入特征,房屋的各项属性,如面积、卧室数量、浴室数量等;

    • 图片线性函数的斜率(slope),用于描述输入特征对预测值的贡献程度,因此被称为权重(weight);

    • b:线性函数的截距,在模型中称为偏置量(bias),在房价预测模型中代表当所有特征值为零时的预测房价。

    大名鼎鼎的参数即权重与偏置,是模型学习和预测的关键要素。而DeepSeek 671B 满血版则指其模型拥有高达 6710 亿个权重与偏置,这一庞大的参数数量使模型能够捕捉更复杂的数据模式和关系,显著提升了模型的表达能力和预测精度。

    线性回归根据现有的特征数据集,通过不断调整模型中的参数,拟合出一条最贴近数据分布趋势的直线,从而用于预测目标变量(标签)的数值。

    也许经过复杂学习与训练后房价预测模型可以写成:

    图片

    模型是否可靠很大程度上取决于关联特征数量与对应的权重调整,因此我们经常会听到算法同学戏称自己是调参工程师。

    数据分类

    在机器学习中,理解数据的类型和结构是至关重要的,根关注点不同数据有不同的分类方式

    如果我们关注数据表中列的维度,根据特征中值的类型可以把数据分为

    • 数值数据(Numerical Data)由数值表示的数据,可以进行数学运算,用于度量和预测具体的数值结果,比如房屋面积(平方米)、价格(万元)、房龄(年)

    • 分类数据(Categorical Data)表示类别或状态的数据,用于分类和分组任务,比如房屋所在地区(中心区、郊区)、房屋类型(独栋、联排)、销售状态(已售出、待售)

    还记得标签和数据点的概念吗?表格中的一行数据记录称之为一个数据点,标签是指模型试图预测或分类的值,也就是说每个标签对应一个数据点的结果或类别。

    如果我们关注数据表中行的维度,根据数据点是否包含标签可以把数据分为

    • 标签数据(Lebeled Data)每个数据点都附带有标签的数据。

    • 无标签数据(Unlabeled Data)数据点没有标签的数据。

    很多初学者可能会有疑惑,怎么会存在没有标签的数据?其实这种数据才是常态,举个最简单的例子,我们需要细分网站客户群体。

    我们有这些客户的特征数据,但并没有对应的标签——群体分类,需要通过算法自行发现。

    监督学习与无监督学习

    监督学习(Supervised Learning)是一种处理标签数据的机器学习分支,其目标是学习特征与标签之间的映射关系,以便在新数据上进行准确的预测。监督学习主要分为两类:

    • 回归模型(Regression Models)用于预测连续数值型目标变量的模型,比如前面一直在用的预测房价模型正是回归模型

    • 分类模型(Classification Models)将数据分类到预定义的类别中的模型,比如判断邮件是否为垃圾邮件、图像识别中的物体分类

    监督学习之所以被称为“监督”,主要因为模型在训练过程中有明确的标签作为指导,就像教师指导学生一样。标签为模型提供了学习的目标,使其能够理解和掌握输入特征与输出目标之间的关系,从而在新数据上实现准确的预测或分类。监督学习有几个优势:

    • 准确性高:由于有明确的标签指导,模型通常在预测和分类任务中表现出较高的准确性。

    • 可解释性强:模型的输出可以直接与标签对比,便于理解和解释模型的决策过程。

    • 广泛应用:适用于各种实际问题,如图像识别、语音识别、医疗诊断、金融预测等。

    无监督学习(Unsupervised Learning)是一种处理无标签数据的机器学习分支,其目标是发现数据中潜在的结构,无需预先定义的标签。无监督学习主要包括以下几种分支:

    • 聚类算法基于相似度将数据分组的算法,例如客户细分、市场分群、图像分割

    • 降维算法减少数据维度,用更少特征进行如实描述的算法,比如把房屋模型中的 5 个维度转化为面积综合分、地段分、房龄 3 个维度

    • 生成算法可以生成类似于现有数据的新数据点的算法,是不是听起来和 GPT 的 G 有些关系

    无监督学习之所以称为“无监督”,是因为在训练过程中,模型不依赖于任何预先定义的标签。模型需要自行发掘数据中的潜在结构或规律,类似于学生自主学习,不依赖于教师的答案。无监督学习有几个应用:

    • 发现隐藏模式:能够揭示数据中难以察觉的隐藏模式或结构。

    • 数据探索:适用于初步的数据分析和探索,帮助理解数据的内在关系。

    • 数据预处理:如降维方法,可以优化数据,使后续的监督学习模型更加高效。

    两张好玩的图片帮大家理解监督学习与无监督学习,不断给婴儿看各种各样冰激凌的图片,让其分辨下一张是不是冰激凌,这是监督学习

    给婴儿看各种各样的图片,并没有这些图片是什么的答案,让婴儿将图片做分组这是无监督学习。

    当然如果我们有每张图片所代表的含义(标签),然后让应该对其分类就变成了监督学习,从这里也能看出来很多任务其实需要监督学习和无监督学习混合使用,比如数百万商品图片数据集无标签,需分类为 “服饰”“电子产品” 等,我们可以按照这样的步骤求解:

    1.用无监督学习对图片聚类,发现潜在类别(如相似颜色 / 形状的商品)

    2.人工标注聚类结果,数据有了标签

    3.监督学习模型训练,自动化分类网站服饰、电子产品图片

    这个方法还有个专门的名字 —— 半监督学习(Semi-Supervised Learning, SSL),这是一种结合少量标注数据和大量未标注数据进行模型训练的方法

    强化学习

    强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,主要研究智能体如何在环境中通过试错学习策略,以最大化累计奖励。强化学习广泛应用于游戏 AI、汽车自动驾驶、机器人控制等领域

    强化学习中同样有大量的概念,通过一个走迷宫的例子来理解强化学习:想象你是一个机器人(智能体),被扔进一个迷宫(环境)。迷宫的出口有宝藏(奖励),但路径错综复杂,墙上有陷阱(负奖励)。你的目标是通过不断尝试,找到走出迷宫的最佳路径(策略优化)。

    强化学习通过 Agent 与环境的交互来学习最优决策策略,以最大化累积奖励(Reward),通过“实践-反馈-改进”的循环机制,使 Agent 在无明确指导的情况下逐步掌握实现目标的最佳策略

    • 目标导向性:Agent 通过试错(Trial and Error)学习,在动态环境中自主选择动作,目标是通过长期策略获得最大化预期收益;

    • 无需监督信号:不同于监督学习依赖标注数据,强化学习仅通过环境提供的奖励信号调整策略,无需预先给定正确答案;

    特征工程

    特征是模型输入的数据,好的特征能够显著改善模型的预测能力,然而我们在日常工作中拿到的原始数据通常包含大量噪声、冗余信息和不完整内容(如缺失值、异常值),极大影响学习效率和模型性能及准确性。

    特征工程是指通过数据清洗、转换、组合等方法,从原始数据中提取或构造对预测目标更有用的信息的过程,像 “厨师处理食材” 一样,把原始数据加工成更适合机器学习模型 “消化” 的形式。

    核心工作

    特征工程主要有几个工作:
    • 特征选择从大量特征中筛选出对目标最相关的部分。假设我们有一个包含10个特征的房价预测数据集,通过特征选择发现其中3个特征(面积、位置评分、房龄)对房价影响最大,可以只保留这3个特征进行建模,大幅减少计算复杂性。

    • 特征提取从原始数据中创建新的特征,这些新特征可以更好地表示数据中的信息。在图像识别中,可以使用卷积神经网络(CNN)自动提取图像的高级特征,如边缘、形状和纹理,而无需手动定义这些特征。

    • 数据清洗处理脏数据,剔除噪声、填补缺失值、修正异常值。比如在医疗数据中,患者的某些检测指标可能缺失,可以使用该指标的平均值填补缺失部分。

    • 特征转换将数据转换为模型更易处理的格式。最典型就是归一化,也称之为特征缩放,将特征值调整到同一尺度,避免某些特征对模型训练产生不均衡的影响。

    • 编码类别是将非数值型特征转换为数值型特征,以便机器学习模型能够处理。比如数据集中性别特征 {男性, 女性} ,可以通过独热编码转换为两个新的特征:[1,0]、[0,1]。

    向量化、Token 和 Embedding 

    在特征工程领域,Token、向量化、Embedding 这三个概念犹如构建数据大厦的基石,它们在处理各类数据,尤其是文本数据时,发挥着至关重要的作用,后面大模型的学习中也会反复出现。

    Tokenization 分词

    Token 是文本预处理过程中的基本单元,代表文本中的最小有意义部分,对模型而言 Token 不一定是单词,取决于模型要求,它们可以是单词、字符、词组等

    • 字符级将文本分割为单个字符。例如,"机器学习" 分割为 ["机", "器", "学", "习"],适用于需要处理细粒度语言特征的任务,如拼写纠正、语言模型训练等。

    • 子词级将单词拆分为子词或更小的单位。例如,"unhappiness" 可能被分割为 ["un", "happiness"],在处理未知词汇和减少词汇表大小时尤为有效,广泛应用于 NLP 中

    • 单词级将句子分割为独立的单词或词语。例如,句子 "机器学习很有趣。" 分割为 ["机器学习", "很", "有趣"],常用于大多数文本分析任务,如情感分析、主题建模等。

    • 词组级将常见的多词表达合并为单个 Token。例如,"New York" 作为一个整体 Token,有助于捕捉特定短语的语义,例如人名、地名等。

    分词是文本预处理的第一步,然而计算机只能处理数值运算,无法直接理解文本或符号。还需要将分词结果转化为数字,模型内部一般都会内置词汇表与 Token ID 映射的编码表,模型使用这些编号而非原始文本进行计算。

    强烈安利这个视频:https://www.bilibili.com/video/BV1smXUYSEGi/

    Vectorization 向量化

    在数学中向量(Vector)是具有大小和方向的量,几何向量用于描述位移、力等物理量,其长度表示大小,箭头指向表示方向,矩阵可视为由多个行向量或列向量有序排列而成:

    图片

    高中学习向量和矩阵时候很不理解这东西有什么用,现在可以回答了,至少大模型要用!

    向量化是将非结构化数据(如文本、图像、声音等)转换为数值向量的过程,通过将 Token ID 转换为向量,模型可以:

    • 数学运算:向量化后数据可以进行各种数学运算,如矩阵乘法,满足模型训练和推理的需求;

    • 处理批量数据:向量化允许同时处理多个样本,提高训练效率;

    有非常多将 Token 转为数值向量的方法,最常见的有 Bag-of-Words、TF-IDF、One-Hot Encoding 等。这类传统方法如短文本分类等简单场景中仍具实用性,但其语义缺失、稀疏性、静态表示的核心缺陷限制了在复杂任务的性能。

    Embedding 嵌入

    Embedding 是向量化的一种高级形式,解决传统向量化技术缺陷,旨在将高维稀疏的离散数据转换为低维稠密向量,同时捕捉数据之间的语义关系。

    高维稀疏:数据特征的维度(数量)非常高,在每一份数据样本中,大多数特征的值接近 0,空间利用率低、计算复杂度高、模型训练困难(过拟合、收敛慢)。

    有几种常见的 Embedding 方法:

    • Word2Vec 是一种通过上下文预测生成词向量的模型,通过词共现学习语义,使语义相近的词向量距离接近。例如,Word2Vec 中 “猫” 和 “狗” 的余弦相似度可能为 0.8,而 “猫” 和 “石头” 为 0.2。

    • BERT 基于上下文动态编码,同一词在不同语境中向量不同。例如,BERT 中 “苹果” 在 “吃苹果” 和 “苹果手机” 中的向量差异显著。

    from gensim.models import Word2Vec
    

    sentences = [
        [“机器学习”, “很”, “有趣”],
        [“让”, “我们”, “一起”, “学习”],
        [“机器学习”, “是”, “人工智能”, “的”, “一个”, “分支”]
    ]

    训练Word2Vec模型

    model = Word2Vec(sentences, vector_size=50, window=2, min_count=1, workers=4)

    获取词向量

    word_vector_ml = model.wv[‘机器学习’]
    word_vector_ai = model.wv[‘人工智能’]

    print(“机器学习的词向量:”, word_vector_ml)
    print(“人工智能的词向量:”, word_vector_ai)

    计算词向量之间的相似度

    similarity = model.wv.similarity(‘机器学习’, ‘人工智能’)
    print(“机器学习与人工智能的相似度:”, similarity)

    输出

    机器学习的词向量: [ 0.00123456  0.00234567 ...  0.00345678]
    人工智能的词向量: [ 0.00456789  0.00567890 ...  0.00678901]
    机器学习与人工智能的相似度: 0.85
    

    话说你有没有好奇过为什么大模型普遍需要显卡,导致现在一卡难求?显卡不是为了游戏和图像、视频处理而制造的吗?这要从显卡的特性以及 CUDA 说起。CUDA 是 NVIDIA 推出的并行计算平台和编程模型,目的是让开发者能充分利用 GPU 强大的并行计算能力进行通用计算。

    图形渲染中的光线追踪和纹理映射本质上是矩阵变换,因此显卡的设计目标就是并行处理大量简单但重复的矩阵运算。而 CUDA 进一步增强了显卡在这方面的能力,开发者可以借助 CUDA 将更多的计算任务以并行的方式在 GPU 上执行。

    而大模型的训练和推理需要密集的矩阵运算,这与 GPU 的并行矩阵运算能力天然契合,同时 NVIDIA 提供了为深度神经网络开发的 GPU 加速库——cuDNN,得大模型对显卡有了强烈的需求。

    还有什么

    前面介绍的主要是 AI 相关最基础的概念,接下来还有深度学习基本知识、模型训练、Transformer 架构、Tensorflow 框架、RAG & Langchain 等大模型工程知识。但在一切开始之前可以先了解模型被应用在业务中的大致过程,这将有助于理解上述介绍的概念。

    1.需求分析 → 明确目标、指标、资源。

    2.数据收集 → EDA、清洗、预处理。

    3.划分数据集 → 训练集 / 验证集 / 测试集。

    4.特征工程 → 特征选择、生成、转换。

    5.模型选择 → 基于任务和数据选择候选模型。

    6.训练与调优 → 基线训练、超参数调优、防止过拟合,TensorFlow 和 PyTorch 最主要的应用阶段。

    7.模型评估 → 测试集评估、误差分析。

    8.优化改进 → 数据、特征、模型层面的迭代。

    9.部署与监控 → 服务化部署、性能监控、文档记录。

    10.反馈与迭代 → 根据反馈持续改进。

    下篇文章《AI 基础知识从0.1到0.2》会通过一个简单案例介绍一下这个过程。

    Quick BI 助力企业构建智能商业分析


    针对企业在数据分析过程中面临的取数难、报表效率低和数据割裂等问题,Quick BI 支持通过自然语言完成看板搭建与数据获取,借助 AI 发现异常并归因,真正实现“对话即分析”,显著提升数据使用效率与用户体验,助力企业高效运营、科学决策。


    点击阅读原文查看详情。


    关于‘算力稀缺’的深远影响,我个人是偏向担忧的。首先,这可能加剧AI创新的‘马太效应’:拥有大量资本和顶级GPU资源的大公司将掌握AI技术的主导权,形成事实上的技术垄断,而中小型企业和独立研究者则难以入局,导致技术多样性和创新活力受限。其次,高昂的算力成本会体现在AI服务的价格上,使得AI的应用难以普及到各行各业,尤其是利润薄弱的传统产业,这可能会进一步拉大数字鸿沟,而非AI技术普惠人类的初衷。长期来看,这种资源集中可能影响到社会公平性和技术民主化进程。

    嗯,除了线性代数和微积分,我觉得组合数学和离散数学的一些概念也挺有意思的。虽然文章里没直接提,但在某些复杂图神经网络或者推荐系统里,需要处理节点关系、图结构,那时候排列组合、图论的一些基础知识就能派上用场。虽然不是核心,但它能帮你理解数据之间的复杂连接关系,甚至设计出更精妙的特征,感觉就像是给AI学习提供了不同的“思维方式”。

    我觉得这事儿有两面性吧。从坏处看,确实可能让AI变成巨头们的‘游戏’,小公司想搞大模型,光买卡就能破产。这肯定会限制很多天马行空的创意落地的机会,大家只能盯着少数几个大模型修修补补。但是,从另一个角度看,也许‘物以稀为贵’也能促进更高效、更绿色的AI发展?当算力变得很贵的时候,研究者们是不是就会被逼着去想办法,怎么用更小的模型、更少的计算量去达到同样的效果?比如,模型剪枝、量化、轻量化网络结构设计等。这或许能倒逼AI技术向更‘精打细算’的方向进化,避免不必要的算力浪费。

    哈哈,说到高中数学,我当年微积分就学得稀里糊涂的,感觉就是为了考试。结果现在搞AI,发现‘梯度’这个词真是无处不在,深度学习的优化算法,什么梯度下降,都是微积分里求导数的概念。那时候老师讲曲线的切线、变化率,谁能想到这是AI模型学习的“指路明灯”呢?每次模型迭代,不就是在沿着梯度的反方向下降吗?简直是AI的灵魂伴策!

    说到‘一卡难求’和未来影响,我脑洞大开地想到一个略带“赛博朋克”的场景:也许将来,‘算力’会成为一种与电力、水资源并列的基础设施,甚至催生出全新的‘算力交易市场’。普通人如果想用AI服务,可能得按秒计费,或者通过完成特定任务来赚取‘算力积分’。社会分层可能就不止是贫富差距,还会出现‘算力富豪’和‘算力贫民’。当然,这有点夸张了,但也说明了算力作为新能源的重要性。不过,人类的智慧总是无穷的,也许未来会出现革命性的芯片技术,或者类似‘分布式计算’的P2P算力共享模式,把这个问题给解决了呢?谁说得准呢!

    关于大家讨论的‘哪些高中数学知识在AI里特别有用’这个问题,我第一个想到的就是概率论和统计学!高中时觉得这些概念只停留在抛硬币、摸球的概率计算,大学里可能会学到正态分布、假设检验什么的,当时觉得枯燥,但现在回头看,机器学习里大量的算法,比如朴素贝叶斯分类器、聚类算法的评估、甚至深度学习中的激活函数和损失函数设计,都离不开概率统计的支撑。理解数据分布、误差分析、模型泛化能力这些,没有扎实的概率统计基础寸步难行啊!

    关于‘提取有效特征’的讨论,我觉得可以从用户的“行为序列”中挖掘。例如,用户在浏览商品详情页后的下一步操作是什么?是直接退出、加入购物车、收藏还是返回列表页?通过分析这些序列模式,可以构建诸如“浏览-购买转化路径长度”、“购物车停留时长”、“多次访问但未购买的品类偏好”等动态特征。此外,结合自然语言处理技术,对用户评论内容进行情感分析,提取“语气积极度”或者“对商品某个维度的关注点”,这些非结构化数据也能转化为强有力的预测特征。

    说到从隐藏数据里挖特征,我觉得我们可以搞点“反直觉”的。比如,用户的**“犹豫程度”**。一个用户反复对比好几个同类商品,或者把商品加购物车又移除,再加回来,这种行为模式本身就是一种特征。这可能预示他们对价格敏感,需要促销刺激;或者对品质要求高,需要更多详细信息。我们甚至可以根据用户在不同商品间切换的频率和时间,构建一个“选择困难指数”作为特征。再夸张点,看看用户是在白天还是深夜购物,‘夜猫子属性’是不是也有助于预测某些商品的购买意愿?哈哈。

    我来提一个相对宏观一点的视角吧!除了用户和商品本身的属性,我们还可以考虑**“外部环境”特征。比如,结合用户所处地区的实时天气、节假日信息**(特别是传统节日,可能影响特定商品的购买)、甚至社交媒体上的热门话题时尚趋势。你比如,某个地区突然流行起骑行,那么当地用户对自行车、户外装备的购买意愿就可能飙升。这些特征虽然不直接来自用户或商品数据,但能捕捉到潜在的外部驱动力,为预测模型提供更全面的上下文信息。