2.1k 词
深入理解 ChatGPT:预训练(Pre-train)的奥秘今天我们来深入探讨 ChatGPT 背后的核心技术之一:预训练(Pre-train)。这不仅是理解 ChatGPT 强大能力的关键,也是当前大模型领域的热门话题。 什么是预训练?预训练,又被称为自监督学习(Self-supervised Learning)或构建基石模型(Foundation Model)。它在 ChatGPT 的命名中占据了“P”的位置,代表着“Pre-trained”。 简单来说,ChatGPT 的核心功能是文本接龙。它是一个函数,能够根据输入生成连贯的文本。这个函数的能力并非凭空而来,而是通过以下两种方式获得的: 人类老师的教导:提供大量的输入-输出对,让模型学习正确的响应。 网络上的海量数据:通过自监督学习从无标签数据中提取知识。 传统机器学习的局限性在传统的监督学习中,例如英中翻译系统,我们需要收集大量的成对的(paired)中英对照例句。人类老师需要明确告诉机器,输入“I eat an apple”应该输出“我吃苹果”。机器通过这些成对数据来学习翻译函数。 然而,这种方式存在一个显著的...
660 词

核心理解:
两个区间 [a, b] 和 [c, d] 重叠的完整数学条件是:
(第一个区间的起点 第二个区间的终点)
(第二个区间的起点 第一个区间的终点)
而排序的核心作用就是通过调整区间顺序,消除对 的显式判断,使得我们只需关注 这一个条件。

1.6k 词
Shadow price 平均非扩张一定是非扩张 不动点理论(梯度下降法): Convex function(可导情况)Definition 一阶等价条件: 左边是函数曲线上任意值y,右边是看成切线过点(x,f(x))也是任意x。 证明过程: 已知f是凸函数反证回去:理解为在x点沿着y-x的方向就是x+t(y-x): 应用: Convex function(不可导情况)次微分 注意:次微分是一个集合公式理解:左边是图像,右边是切线,y就是斜率 梯度是次微分唯一元素(可导) 证明核心:梯度一定在次微分集合里面,要证明次微分集合只有唯一元素。假设存在p属于次微分,让p等于梯度。对应任意把 换成 ,就有: 应用: 由于属于最小值: 而次梯度定义是: proximity算子 subdifferential of L1-normproximity operator of L1-normsubdifferential of L2-normproximity operator of L2-norm证明:Let. Then is firmly nonexpansive. 应用:函数...
3.2k 词
测度论:σ-field field和σ-field:区别在于性质三:field要求有限unions属于F σ-field要求可数unions属于F Borel σ-field 注意:,意味着A是一个区间。 术语:Measurable spaace Measure Measured space 关系网 finite measure and probability measure probabilities(常用于证明)注意: 全集S带进去,概率等于1. Measure种类:Counting measure 格式: cdf : ==, IndependentIndependent of random variable 写是在说:随机变量的取值落在集合中,这构成一个事件 定义两个随机变量: :第一次掷硬币的结果,设为 1 表示正面,0 表示反面; ​:第二次掷硬币的结果,定义同上。 我们设概率空间 为四种可能结果的集合: 每个事件概率为 ​。设 是第一次是否为正面,是第二次是否为正面。 我们来看这两个随机变量是否独立。 根据定义,对所有...
6.2k 词
Deterministic Model and Stochastic ModelDeterministic ModelA deterministic model is a model that contains no random variables and always produces the same output for a given set of initial conditions and inputs. Its behavior is entirely predictable and without any element of chance. Stochastic ModelA stochastic model is a model that incorporates random variables and elements of chance. Due to the presence of randomness, even with the same initial conditions and inputs, the model can produce ...