深入理解 ChatGPT:预训练(Pre-train)的奥秘今天我们来深入探讨 ChatGPT 背后的核心技术之一:预训练(Pre-train)。这不仅是理解 ChatGPT 强大能力的关键,也是当前大模型领域的热门话题。
什么是预训练?预训练,又被称为自监督学习(Self-supervised Learning)或构建基石模型(Foundation Model)。它在 ChatGPT 的命名中占据了“P”的位置,代表着“Pre-trained”。
简单来说,ChatGPT 的核心功能是文本接龙。它是一个函数,能够根据输入生成连贯的文本。这个函数的能力并非凭空而来,而是通过以下两种方式获得的:
人类老师的教导:提供大量的输入-输出对,让模型学习正确的响应。
网络上的海量数据:通过自监督学习从无标签数据中提取知识。
传统机器学习的局限性在传统的监督学习中,例如英中翻译系统,我们需要收集大量的成对的(paired)中英对照例句。人类老师需要明确告诉机器,输入“I eat an apple”应该输出“我吃苹果”。机器通过这些成对数据来学习翻译函数。
然而,这种方式存在一个显著的...
Shadow price
平均非扩张一定是非扩张
不动点理论(梯度下降法):
Convex function(可导情况)Definition
一阶等价条件:
左边是函数曲线上任意值y,右边是看成切线过点(x,f(x))也是任意x。
证明过程:
已知f是凸函数反证回去:理解为在x点沿着y-x的方向就是x+t(y-x):
应用:
Convex function(不可导情况)次微分
注意:次微分是一个集合公式理解:左边是图像,右边是切线,y就是斜率
梯度是次微分唯一元素(可导)
证明核心:梯度一定在次微分集合里面,要证明次微分集合只有唯一元素。假设存在p属于次微分,让p等于梯度。对应任意把 换成 ,就有:
应用:
由于属于最小值:
而次梯度定义是:
proximity算子
subdifferential of L1-normproximity operator of L1-normsubdifferential of L2-normproximity operator of L2-norm证明:Let. Then is firmly nonexpansive.
应用:函数...
测度论:σ-field
field和σ-field:区别在于性质三:field要求有限unions属于F
σ-field要求可数unions属于F
Borel σ-field
注意:,意味着A是一个区间。
术语:Measurable spaace
Measure
Measured space
关系网
finite measure and probability measure
probabilities(常用于证明)注意:
全集S带进去,概率等于1.
Measure种类:Counting measure
格式:
cdf : ==,
IndependentIndependent of random variable
写是在说:随机变量的取值落在集合中,这构成一个事件
定义两个随机变量:
:第一次掷硬币的结果,设为 1 表示正面,0 表示反面;
:第二次掷硬币的结果,定义同上。
我们设概率空间 为四种可能结果的集合:
每个事件概率为 。设 是第一次是否为正面,是第二次是否为正面。
我们来看这两个随机变量是否独立。
根据定义,对所有...
Deterministic Model and Stochastic ModelDeterministic ModelA deterministic model is a model that contains no random variables and always produces the same output for a given set of initial conditions and inputs. Its behavior is entirely predictable and without any element of chance.
Stochastic ModelA stochastic model is a model that incorporates random variables and elements of chance. Due to the presence of randomness, even with the same initial conditions and inputs, the model can produce ...