首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
baka009
›
全部回复第 1 页 / 共 1 页
回复总数
2
281 天前
回复了
FlyingBackscratc
创建的主题
›
程序员
›
有谁能用大白话简单解释一下相对位置编码是什么意思吗?
@
FlyingBackscratc
吃到两个月的回复
可以看看这个文章
https://www.kexue.fm/archives/8130
相对编码 RoPE 的作者。
344 天前
回复了
FlyingBackscratc
创建的主题
›
程序员
›
有谁能用大白话简单解释一下相对位置编码是什么意思吗?
对一一个语言模型,假设预训练时最多见过长度为 4 的语句,且包含“三楼你好”和“你好四楼”,那么
使用绝对位置编码时,对于词语“你好”:
楼主你好:这词我认识,“你好”在 3 、4 位置,1 、2 位置是一个对象,意思是在和楼主问好
你好楼主:这词我认识,“你好”在 1 、2 位置,3 、4 位置是一个对象,意思是在和楼主问好
二楼你好:这词我认识,“你好”在 3 、4 位置,1 、2 位置是一个对象,意思是在和二楼问好
xx 楼主你好: 啥玩意?这词我认识,但是“你好”在 5 、6 位置代表什么意思啊?
使用相对位置编码训练后:
二楼你好:这词我认识,“你好”在某个两 token 对象的后面,意思是在和二楼问好
楼主你好: 这词我认识,“你好”在某个两 token 对象的后面,意思是在和楼主问好
今天楼主出门和小红约会,两人在地铁口见面后,小红说:“你好楼主。”:这词我认识,“你好”在某个两 token 对象的前面,意思是在和楼主问好。
如上所述,相对位置指的是 token 与 token 之间的相对位置,模型通过学习相对位置,能更好的捕捉局部的语义。而不会出现,“没见过,这词在这个位置是啥意思?”的情况。同时增强了模型的外推性。只用四长度语句训练后,能外推到更长的情景下。
PS ,这论坛注册完还要等好久才能回复,不然昨天就回复你了。。。
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2752 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 9ms ·
UTC 13:02
·
PVG 21:02
·
LAX 05:02
·
JFK 08:02
Developed with
CodeLauncher
♥ Do have faith in what you're doing.