千羽鶴

Search CTRL + K

千羽鶴

Search CTRL + K

c++ primer plus

using和namespace

关于过程编程,面向对象编程和泛型编程

局部和全局的命名空间引入

leetcode

滑动窗口

定长滑动

半径为k的子数组平均值

大小为k平均值大于等于阈值的子数组个数

定长子串中元音的最大数目

链表

合并零之间的节点

thino

transformer

什么是transformer

大语言模型学习

Attention注意力机制

Attention机制详解与应用

DCA：长文本处理的新突破（Dual Chunk Attention）

KV Cache技术详解：优化Transformer自回归生成效率

Transformer中的Attention详解与应用指南

【长上下文模型优化】基于Shifted Sparse Attention的创新方法

优化Attention计算复杂度的技术探讨

深度学习中的注意力机制优化：从MHA到MLA

FFN、Add & LN 的作用与应用

Transformer核心模块解析：FFN、Add & LN 的作用与应用

深度学习中的Layer Norm设计：Post-Norm、Pre-Norm与Sandwich-Norm比较

激活函数与FFN结构优化：SwiGLU、GeGLU及其应用解析

激活函数详解与比较：从Sigmoid到Swish

MCP

Positional Encoding位置编码

相对位置编码

DeBERTa的相对位置编码与绝对位置编码解析

T5模型与相对位置编码优化解析

相对位置编码与XLNet位置编码详解深入理解Transformer机制

绝对位置编码

BERT与RNN位置编码的对比与应用

Transformer绝对位置编码详解与改进分析

NTK插值方法解析与优化：从NTK-aware到NTK-by-parts

YaRN方法解析：扩展RoPE嵌入与注意力优化的实践

位置内插法扩展语言模型上下文长度

数字输入优化与外推方法解析

旋转位置编码与ALiBi：深度学习中的位置嵌入优化

Pre-training 预训练

预训练过程

训练Tokenizer

预训练的Scaling Law

预训练策略

高效深度学习模型训练框架选择与优化指南

数据多样性与模型优化探索

数据配比与训练顺序优化指南

模型打分与数据去重

深度学习中的显存优化与梯度处理方法

混合精度训练

继续预训练

训练容灾及训练监控

预训练定义以及数据来源

预训练评估

预训练评估2

RL强化学习基础

RLHF基于人类反馈的强化学习

Reference-Model

RLHF研究方法及研究总结

RL在NLP场景下的拓展

在线与离线RLHF的比较与应用

深入理解Prompt到Response的MDP模型分析

优化PPO方向的算法

Actor-Critic算法

PPO训练的trick和问题

RL在NLP场景下的拓展

SARSA-λ与Q-learning对比

价值迭代算法

强化学习分类

强化学习的独特性

强化学习问题,流程

时序差分算法

策略梯度算法

策略迭代算法

蒙特卡洛方法

贝尔曼方程

马尔可夫决策过程

Structure & Decoding Policy 结构和解码策略

大模型结构与混合专家（LLM & MoE）解析

深度解析语言模型采样方法：Top-K、Top-P、Temperature及综合策略

解码采样策略：Greedy Search与Beam Search的实现与优化

分词

BBPE：字节级别的BPE分词技术解析与应用

WordPiece分词算法解析与实践

使用Byte Pair Encoding (BPE)优化子词分词的技巧与实践

使用Unigram语言模型（ULM）优化分词算法：核心思路与实践

分词算法的比较

常用分词库

后训练

SFT监督微调

SFT数据及处理

开源数据集

数据多样性探索

数据生产合成与质量过滤

数据飞轮在SFT中的应用与优化

STF训练

多轮对话专项提升

多轮对话专项提升2

训练启动脚本

训练技巧和训练策略

训练框架及参数设置

监督微调与预训练的区别

词嵌入

机器学习

单变量线性回归

关于逻辑回归中的代价函数

关于逻辑回归的思考

机器学习引言

毕业设计

Enter to select

to navigate

ESC to close

导航

分词

介绍
oneHot
Word2Vec
FastText

词嵌入

介绍
oneHot
Word2Vec
FastText

Attention

Attention机制详解与应用
Transformer中的Attention详解与应用指南
优化Attention计算复杂度的技术探讨
KV Cache技术详解：优化Transformer自回归生成效率
深度学习中的注意力机制优化：从MHA到MLA
DCA：长文本处理的新突破（Dual Chunk Attention）
【长上下文模型优化】基于Shifted Sparse Attention的创新方法

FFN,Add&LN

Transformer核心模块解析：FFN、Add & LN 的作用与应用
深度学习中的Layer Norm设计：Post-Norm、Pre-Norm与Sandwich-Norm比较
激活函数与FFN结构优化：SwiGLU、GeGLU及其应用解析
激活函数详解与比较：从Sigmoid到Swish

Positional Encoding

介绍
Transformer绝对位置编码详解与改进分析
BERT与RNN位置编码的对比与应用
相对位置编码与XLNet位置编码详解深入理解Transformer机制
T5模型与相对位置编码优化解析
DeBERTa的相对位置编码与绝对位置编码解析
旋转位置编码与ALiBi：深度学习中的位置嵌入优化
数字输入优化与外推方法解析
位置内插法扩展语言模型上下文长度
NTK插值方法解析与优化：从NTK-aware到NTK-by-parts
YaRN方法解析：扩展RoPE嵌入与注意力优化的实践

Structure & Decoding Policy 结构和解码策略

大模型结构与混合专家（LLM & MoE）解析
解码采样策略：Greedy Search与Beam Search的实现与优化
深度解析语言模型采样方法：Top-K、Top-P、Temperature及综合策略

Pre-training 预训练

预训练定义以及数据来源
数据爬取
数据清洗
模型打分与数据去重
数据多样性与模型优化探索
数据配比与训练顺序优化指南
训练Tokenizer
高效深度学习模型训练框架选择与优化指南
预训练策略
训练容灾及训练监控
预训练的Scaling Law
混合精度训练
深度学习中的显存优化与梯度处理方法
继续预训练
推理耗时
预训练评估
预训练评估2

后训练

监督微调与预训练的区别
数据飞轮在SFT中的应用与优化
数据生产合成与质量过滤
数据多样性探索
开源数据集
训练框架及参数设置
训练技巧和训练策略
多轮对话专项提升
多轮对话专项提升2
训练启动脚本

强化学习基础

强化学习问题,流程
强化学习的独特性
马尔可夫决策过程
贝尔曼方程
蒙特卡洛方法
策略迭代算法
价值迭代算法
时序差分算法
SARSA算法
SARSA-λ与Q-learning对比
强化学习分类
深度Q网络
策略梯度算法
Actor-Critic算法
PPO算法
RL在NLP场景下的拓展
RL在NLP场景下的拓展
RLHF流程
RLHF研究方法及研究总结
Instruct-GPT
Actor-Model
critic-model
Reward-Model
深入理解Prompt到Response的MDP模型分析
Reference-Model
在线与离线RLHF的比较与应用
PPO训练的trick和问题
GRPO
ReMax

Connected Pages

Depth

On this page

分词
词嵌入
Attention
FFN,Add&LN
Positional Encoding
Structure & Decoding Policy 结构和解码策略
Pre-training 预训练
后训练
强化学习基础

Pages mentioning this page

No other pages mentions this page