千羽鶴
Search
CTRL + K
千羽鶴
Search
CTRL + K
c++ primer plus
using和namespace
关于过程编程,面向对象编程和泛型编程
函数声明
初始化
局部和全局的命名空间引入
leetcode
滑动窗口
定长滑动
半径为k的子数组平均值
大小为k平均值大于等于阈值的子数组个数
定长子串中元音的最大数目
链表
分隔链表
合并零之间的节点
thino
2024-12-25
transformer
什么是transformer
大语言模型学习
Attention注意力机制
Attention机制详解与应用
DCA:长文本处理的新突破(Dual Chunk Attention)
KV Cache技术详解:优化Transformer自回归生成效率
Transformer中的Attention详解与应用指南
【长上下文模型优化】基于Shifted Sparse Attention的创新方法
优化Attention计算复杂度的技术探讨
深度学习中的注意力机制优化:从MHA到MLA
FFN、Add & LN 的作用与应用
Transformer核心模块解析:FFN、Add & LN 的作用与应用
深度学习中的Layer Norm设计:Post-Norm、Pre-Norm与Sandwich-Norm比较
激活函数与FFN结构优化:SwiGLU、GeGLU及其应用解析
激活函数详解与比较:从Sigmoid到Swish
MCP
介绍
Positional Encoding位置编码
相对位置编码
DeBERTa的相对位置编码与绝对位置编码解析
T5模型与相对位置编码优化解析
相对位置编码与XLNet位置编码详解 深入理解Transformer机制
绝对位置编码
BERT与RNN位置编码的对比与应用
Transformer绝对位置编码详解与改进分析
NTK插值方法解析与优化:从NTK-aware到NTK-by-parts
YaRN方法解析:扩展RoPE嵌入与注意力优化的实践
介绍
位置内插法扩展语言模型上下文长度
数字输入优化与外推方法解析
旋转位置编码与ALiBi:深度学习中的位置嵌入优化
Pre-training 预训练
预训练过程
训练Tokenizer
预训练的Scaling Law
预训练策略
高效深度学习模型训练框架选择与优化指南
推理耗时
数据多样性与模型优化探索
数据清洗
数据爬取
数据配比与训练顺序优化指南
模型打分与数据去重
深度学习中的显存优化与梯度处理方法
混合精度训练
继续预训练
训练容灾及训练监控
预训练定义以及数据来源
预训练评估
预训练评估2
RL强化学习基础
RLHF基于人类反馈的强化学习
Actor-Model
critic-model
Instruct-GPT
Reference-Model
Reward-Model
RLHF研究方法及研究总结
RL在NLP场景下的拓展
在线与离线RLHF的比较与应用
深入理解Prompt到Response的MDP模型分析
Actor-Critic算法
PPO算法
PPO训练的trick和问题
RL在NLP场景下的拓展
SARSA-λ与Q-learning对比
SARSA算法
价值迭代算法
强化学习分类
强化学习的独特性
强化学习问题,流程
时序差分算法
深度Q网络
策略梯度算法
策略迭代算法
蒙特卡洛方法
贝尔曼方程
马尔可夫决策过程
Structure & Decoding Policy 结构和解码策略
大模型结构与混合专家(LLM & MoE)解析
深度解析语言模型采样方法:Top-K、Top-P、Temperature及综合策略
解码采样策略:Greedy Search与Beam Search的实现与优化
分词
BBPE:字节级别的BPE分词技术解析与应用
WordPiece分词算法解析与实践
使用Byte Pair Encoding (BPE)优化子词分词的技巧与实践
使用Unigram语言模型(ULM)优化分词算法:核心思路与实践
分词算法的比较
常用分词库
后训练
SFT监督微调
SFT数据及处理
开源数据集
数据多样性探索
数据生产合成与质量过滤
数据飞轮在SFT中的应用与优化
STF训练
多轮对话专项提升
多轮对话专项提升2
训练启动脚本
训练技巧和训练策略
训练框架及参数设置
监督微调与预训练的区别
词嵌入
FastText
oneHot
Word2Vec
介绍
导航
机器学习
单变量线性回归
关于逻辑回归中的代价函数
关于逻辑回归的思考
机器学习引言
毕业设计
学习资料
Welcome🎉
关于大语言模型学习导航
大语言模型学习
Attention注意力机制
Attention机制详解与应用
DCA:长文本处理的新突破(Dual Chunk Attention)
KV Cache技术详解:优化Transformer自回归生成效率
Transformer中的Attention详解与应用指南
【长上下文模型优化】基于Shifted Sparse Attention的创新方法
优化Attention计算复杂度的技术探讨
深度学习中的注意力机制优化:从MHA到MLA
FFN、Add & LN 的作用与应用
Transformer核心模块解析:FFN、Add & LN 的作用与应用
深度学习中的Layer Norm设计:Post-Norm、Pre-Norm与Sandwich-Norm比较
激活函数与FFN结构优化:SwiGLU、GeGLU及其应用解析
激活函数详解与比较:从Sigmoid到Swish
Positional Encoding位置编码
NTK插值方法解析与优化:从NTK-aware到NTK-by-parts
YaRN方法解析:扩展RoPE嵌入与注意力优化的实践
位置编码介绍
位置内插法扩展语言模型上下文长度
数字输入优化与外推方法解析
旋转位置编码与ALiBi:深度学习中的位置嵌入优化
相对位置编码
DeBERTa的相对位置编码与绝对位置编码解析
T5模型与相对位置编码优化解析
相对位置编码与XLNet位置编码详解 深入理解Transformer机制
绝对位置编码
BERT与RNN位置编码的对比与应用
Transformer绝对位置编码详解与改进分析
Pre-training 预训练
推理耗时
数据多样性与模型优化探索
数据清洗
数据爬取
数据配比与训练顺序优化指南
模型打分与数据去重
深度学习中的显存优化与梯度处理方法
混合精度训练
继续预训练
训练容灾及训练监控
预训练定义以及数据来源
预训练评估
预训练评估2
预训练过程
训练Tokenizer
预训练的Scaling Law
预训练策略
高效深度学习模型训练框架选择与优化指南
RL强化学习基础
SARSA-λ与Q-learning对比
SARSA算法
价值迭代算法
强化学习分类
强化学习的独特性
强化学习问题,流程
时序差分算法
深度Q网络
策略迭代算法
蒙特卡洛方法
贝尔曼方程
马尔可夫决策过程
Structure & Decoding Policy 结构和解码策略
大模型结构与混合专家(LLM & MoE)解析
深度解析语言模型采样方法:Top-K、Top-P、Temperature及综合策略
解码采样策略:Greedy Search与Beam Search的实现与优化
分词
BBPE:字节级别的BPE分词技术解析与应用
WordPiece分词算法解析与实践
使用Byte Pair Encoding (BPE)优化子词分词的技巧与实践
使用Unigram语言模型(ULM)优化分词算法:核心思路与实践
分词算法的比较
常用分词库
后训练
SFT监督微调
SFT数据及处理
开源数据集
数据多样性探索
数据生产合成与质量过滤
数据飞轮在SFT中的应用与优化
STF训练
多轮对话专项提升
多轮对话专项提升2
训练启动脚本
训练技巧和训练策略
训练框架及参数设置
监督微调与预训练的区别
词嵌入
FastText
oneHot
Word2Vec
词嵌入介绍