Flash Attention2
Flash Attention 扩大Transformer中上下文长度的规模是一个挑战,这是因为Attention layer的运行时间和内存需求是输入序列长度的二次方
Flash Attention 扩大Transformer中上下文长度的规模是一个挑战,这是因为Attention layer的运行时间和内存需求是输入序列长度的二次方
任务定义
感知机是一种线性分类器,用于二分类问题。它的基本思想是找到一个线性超平面将数据集中的不同类别分开。感知机算法的目标是通过迭代更新权重向量,使其能够正确分类所有训练样本。
逻辑回归 在逻辑回归模型中,对于二分类问题,目标变量 y 可以取 0 或 1 的值,其中 1 代表属于类别 $c_1$,0 代表属于类别 $c_2$。模型的目的是基于输入特征 x 来预测 y 的概率 $p(y=1|x)$,这个概率由 Sigmoid 函数 σ 来计算,具体如下: