## 谷歌给的源码确实上手有点痛苦,分享点我浏览的资料吧。
## 连接就不挨个给了,直接去搜标题,应该能搜到。
## B 站上的视频讲的很好。
jessevig/bertviz: Tool for visualizing attention in the Transformer model (BERT, GPT-2, XLNet, and RoBERTa)
汉语自然语言处理-BERT 的解读语言模型预训练-实践应用-transformer 模型(二)-语料预处理-情感分析分类-数据增强-解决过拟合问题-深度学习训练技巧_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
9.1. Attention Mechanism — Dive into Deep Learning 0.7 documentation
[MXNet/Gluon] 动手学深度学习番外篇:注意力机制概述_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
动手学深度学习 注意力 - 搜索结果 - 哔哩哔哩弹幕视频网 - ( ゜- ゜)つロ 乾杯~ - bilibili
9.3. Transformer — Dive into Deep Learning 0.7 documentation
The Annotated Transformer
NLP 必读:十分钟读懂谷歌 BERT 模型 - 知乎
最强 NLP 模型 BERT 可视化学习 - 知乎
[NLP] Attention 原理和源码解析 - 知乎
BERT---容易被忽视的细节 - 知乎
BERT 时代与后时代的 NLP - 知乎
[NLP] 理解 NLP 中网红特征抽取器 Tranformer - 知乎
NLP 历史突破!快速解读 Google BERT 模型 + Word Embedding_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
BERT 专题系列(一):Attention 机制_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
BERT 专题系列(二):Transformer ( Attention is all you need )_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
BERT 专题系列(三):
AI 解惑者的个人空间 - 哔哩哔哩 ( ゜- ゜)つロ 乾杯~ Bilibili
超越 BERT: GPT-2 , XLNet,MT-DNN 模型详解(英文字幕)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
60 分钟带你掌握 NLP BERT 理论与实战_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
## 下面是可以关注的一些和 BERT 相关的开源项目:
keras-bert
bert_sa
bert-as-service
### 上手简单的:
fast-bert
### 蒸馏或者提高效率的:
cuBERT
albert_zh
PKD-for-BERT-Model-Compression
https://github.com/huggingface/transformers/tree/master/examples/distillation