• 归一化:将数据调整到一个标准范围内的过程,用于提高模型的收敛速度和性能;
  • 核函数:SVM 等核方法中,核函数用于将输入数据映射到高维空间,以便在该空间中更容易找到数据的分离超平面;常用核函数(线性核、多项式核、高斯径向基函数(RBF)核等)

背景:   原始k8s基于物理CPU调度,物理核对性能与CPU型号、HT、Turbo 等强相关,导致相同CPU核数时,性能会不一样;

  故需归一化解决:算力的一致性;

HT:超线程技术,即一个物理core视为 两个逻辑core;

Turbo:睿频加速,运行cpu自动提高运行频率;

预处理

主要用于清洗数据、格式化数据

  • 数据清洗:去除或修正缺失值、重复值、异常值或噪声;
  • 数据标准化和归一化:将数据缩放到一个特定的范围或标准化为特定均值和方差分布,加快训练速度并提高模型稳定性;
  • 数据转换:将数据转换为模型可接收的格式,如文本转为向量(词袋模型、词嵌入embedding)、图像转为特定的尺寸和通道数;
  • 特征工程:挑选和转换数据中特定的特征,或者通过算法生成新特征,提高模型的表现力和准确性;
  • 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型训练+评估;

后处理

  对模型生成预测或输出结果后对结果进行的处理,目的是提高结果的可解释性、可用性,根据具体应用需求对结果进行调整;

  如:

    结果解码:如分类模型输出后解码为具体标签;

    阈值设定:分类任务中,超阈值的结果转换为具体的类别;

    结果过滤和清理:去除不合理结果;

    集合方法:对多个模型的输出进行聚合,以提高总体的准确性和稳健性,如投票法,加权平均法等(类似随机森林);

模型文件

  模型架构:模型层数、每一层的神经元书面、激活函数类型等信息;

  权重和偏置;

  配置文件,优化器的设置、学习率、训练时长等;

词袋模型(BoW):

  将文本表示为词汇表中词的集合,而不考虑词的顺序和语法;

特点:

  1、词汇表创建:从语料库中提取唯一词汇,构建一个固定大小的词汇表;

  2、向量化文本:文档被向量化后,向量中每个元素对应词汇表中一个词在文档中出现的频次(TF, Term Frequency)

    如:词汇表[“a”, “b”, “c”],文档是”a c a”,那么此时文档向量化后的结果是 [2, 0, 1];

  3、TF-IDF:增强版的词袋模型,考虑术语频率的基础上,还会考虑逆文档频率(IDF,Inverse Document Fequecy),即词在整个语料库中出现的频率;(结论:降低常见词的权重,相对提高那些特定文档中频繁但在整个语料库中少见的词的权重)

    TF-IDF(t, d)= TF(t, d) * IDF(t)

    IDF(T) = log(N / DF(t))

    N 为文档总数,DF(t) 是含有词 t 的文档数量;

    TF(t, d) = 词 t 在文档 d 中出现的次数 / 文档 d 中所有词的总数

词嵌入(word embeddings,即向量化)

见:Embedding

近似最近邻检索

ANNS (Approximate Nearest NeithRRla Search)

核心思想:不再局限于只返回最精确的结果项,仅搜索可能是近邻的数据项,精度换速度;

ANNS 向量索引分为:

  • 基于树的索引:KD树:     K-dimension tree,对数据点在k维空间(如三维x,y,z)中划分的一种数据结构;

    本质上就是一种平衡二叉树,在被划分出的特定几个部分进行相关检索;

  1. 特征点数据 features;
  2. 展开 kd-tree;
  3. 选择最大方差维数 ki,Assign Partition Key
  4. 选取 ki 维中值 kv 作为阈值 Median Select
  5. 分割数据 Partition Feature
  6. 左 / 右子树特征点数据 features -> 展开左 / 右子树;

  当查询点的邻域与分割超平面两侧空间交割时,需要查找另一侧子空间,导致检索过程复杂,效率下降;

  KD 树对于低维度最近邻搜索较优,当 K >= 10,搜索效率明显降低;

基于图的索引

HNSW,可见向量检索 & 多模态向量检索引擎备注部分;

基于哈希的索引

LSH,可见向量检索 & 多模态向量检索引擎备注部分;

基于量化的索引

马尔可夫决策过程(Markov Decision Process, MDP)

  核心在于其依赖状态的决策过程,并假设未来只依赖于当前状态和当前决策(马尔可夫性质);

组成要素:

1、状态集(S):描述环境在某一时刻的情况的集合;

2、动作集(A):在某一时刻,智能体可采取的所有可能动作的集合;

3、状态转移概率,表示为(状态 s 采取动作 a 后转移到状态 s’ 的概率):P(s’ s,a)

4、奖励函数:定义某一时刻下采取某个动作后获得的即时奖励,表示为 R(s, a) 或 R(s, a, s’);

5、折扣因子:0~1,权衡当前奖励与未来奖励的相对重要性,接近1代表未来奖励更重要,反之当前奖励高;

强化学习

reinforcement learning,RL

函数:回归(函数输出是一个值)、分类(函数输出是一个类)

生成式学习:

找出函数的三步:设定范围设定标准达成目标

标签: #AI