导航
分词
词嵌入
Attention
- Attention机制详解与应用
- Transformer中的Attention详解与应用指南
- 优化Attention计算复杂度的技术探讨
- KV Cache技术详解:优化Transformer自回归生成效率
- 深度学习中的注意力机制优化:从MHA到MLA
- DCA:长文本处理的新突破(Dual Chunk Attention)
- 【长上下文模型优化】基于Shifted Sparse Attention的创新方法
FFN,Add&LN
- Transformer核心模块解析:FFN、Add & LN 的作用与应用
- 深度学习中的Layer Norm设计:Post-Norm、Pre-Norm与Sandwich-Norm比较
- 激活函数与FFN结构优化:SwiGLU、GeGLU及其应用解析
- 激活函数详解与比较:从Sigmoid到Swish
Positional Encoding
- 介绍
- Transformer绝对位置编码详解与改进分析
- BERT与RNN位置编码的对比与应用
- 相对位置编码与XLNet位置编码详解 深入理解Transformer机制
- T5模型与相对位置编码优化解析
- DeBERTa的相对位置编码与绝对位置编码解析
- 旋转位置编码与ALiBi:深度学习中的位置嵌入优化
- 数字输入优化与外推方法解析
- 位置内插法扩展语言模型上下文长度
- NTK插值方法解析与优化:从NTK-aware到NTK-by-parts
- YaRN方法解析:扩展RoPE嵌入与注意力优化的实践
Structure & Decoding Policy 结构和解码策略
- 大模型结构与混合专家(LLM & MoE)解析
- 解码采样策略:Greedy Search与Beam Search的实现与优化
- 深度解析语言模型采样方法:Top-K、Top-P、Temperature及综合策略
Pre-training 预训练
- 预训练定义以及数据来源
- 数据爬取
- 数据清洗
- 模型打分与数据去重
- 数据多样性与模型优化探索
- 数据配比与训练顺序优化指南
- 训练Tokenizer
- 高效深度学习模型训练框架选择与优化指南
- 预训练策略
- 训练容灾及训练监控
- 预训练的Scaling Law
- 混合精度训练
- 深度学习中的显存优化与梯度处理方法
- 继续预训练
- 推理耗时
- 预训练评估
- 预训练评估2
后训练
强化学习基础
- 强化学习问题,流程
- 强化学习的独特性
- 马尔可夫决策过程
- 贝尔曼方程
- 蒙特卡洛方法
- 策略迭代算法
- 价值迭代算法
- 时序差分算法
- SARSA算法
- SARSA-λ与Q-learning对比
- 强化学习分类
- 深度Q网络
- 策略梯度算法
- Actor-Critic算法
- PPO算法
- RL在NLP场景下的拓展
- RL在NLP场景下的拓展
- RLHF流程
- RLHF研究方法及研究总结
- Instruct-GPT
- Actor-Model
- critic-model
- Reward-Model
- 深入理解Prompt到Response的MDP模型分析
- Reference-Model
- 在线与离线RLHF的比较与应用
- PPO训练的trick和问题
- GRPO
- ReMax