首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
Coding
V2EX  ›  分享创造

中文敏感词同音字替换工具

  •  1
     
  •   josherich · 265 天前 · 4185 次点击
    这是一个创建于 265 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用同音字替换敏感词

    live demo

    Caveats

    • 实现不包含分词,因此例如“干”这样的单字会被替换,以及一些语义错误替换,可在 checkbox 中勾去
    • 词库直接决定了替换的质量,这里使用的词库来自于 github/sensitive-word-filter

    声明

    • 此工具仅供同音字替换功能,请合理使用
    • 此工具大部分代码源自以下项目
      • github/pinyinjs
      • github/sensitive-word-filter

    todos

    • 更完整的词库
    • 自定义替换
    第 1 条附言  ·  265 天前
    补充几点
    - 加入形近字和替换单字的混合方案会提高可读性,会是非常大的改进
    - 这类工具最合适的使用场景是文字被系统拒绝后,往往需要自我参茶,反复修改,因为系统不会告诉你关键字。
    - 最重要的,这类工具绝不是为了发布含有会被参茶内容的文字,这是一个太大的话题,不是一个简单的混淆工具可以解决,或试图解决的
    第 2 条附言  ·  202 天前

    2019-05-22 增加 Chrome Extension

    37 回复  |  直到 2019-03-25 16:18:27 +08:00
        1
    AlisaDestiny   265 天前   ♥ 2
    还是研究一下形近字吧,因为形近字本基上丕影响阋读。
        2
    josherich   265 天前
    @AlisaDestiny 形近字确实较易阅读,但有稀疏性的问题,并不是每个敏感字都有对应的合适形近字,我也没有找到比较好的词典。另一种形近实现是火星文,阅读体验也一般。可以考虑融合这几种实现
        3
    kylehz   265 天前 via Android
    可以在敏感字中插入不相干的中文字或者英文字母
    也可以调换字的顺序,部分乱序不影响阅读
        4
    zbinlin   265 天前   ♥ 31
    现代通假字,想想都觉得可悲
        5
    Android2MCU   265 天前 via iPhone
    清风不识字,何故乱翻书
        6
    josherich   265 天前   ♥ 2
    @zbinlin 其实避讳周朝已有之,是礼乐文明的标志
        7
    feiyuanqiu   265 天前   ♥ 1
    "下一 esrever 子句把,法办的单简个一有,词感敏避逃".split("").reverse().join("")
        8
    zbinlin   265 天前   ♥ 7
    @josherich 避讳是礼乐文明的标志?还不如说避讳是在礼乐文明中产生的怪胎。
        9
    affyun   265 天前   ♥ 1
    非常适合猪圈食用
        10
    yanaraika   265 天前 via Android
    ╔═╤═╤═╤═╤═╗
    ║┊│┊│用│测│:║
    ║┊│┊│直│鞋│砌║
    ║┊│┊│①│和│圌║
    ║┊│┊│┊│款│视║
    ║┊│┊│┊│蔗│圌║
    ╚═╧═╧═╧═╧═╝

    http://m.xiaohexie.com/#
        11
    josherich   265 天前   ♥ 2
    @zbinlin 反讽而已,对付礼乐文明需要我们每个人熟练掌握反讽和春秋笔法
        12
    green15   265 天前 via iPhone
    当年的各种河蟹专用工具,不知道现在还活不活
        13
    BXIA   265 天前 via iPhone
    这不就是当年的火星文吗……
        14
    nanaw   265 天前 via Android
    用到这玩意真是可悲。话又说回来,干嘛要在国内平台上说话呢。

    还有 demo 里那些敏感词我想只替换一两个字就够没必要替换整个词霸气。。
        15
    nanaw   265 天前 via Android
    @nanaw 词吧$。
        16
    clino   265 天前
    伐伦供 敏术 功单党 敏术自由
    这基本上没有可读性了都...
        17
    Kazuhira   265 天前 via Android
    然后再来个敏感词 list ?
        18
    hugee   265 天前 via Android
    比形近字差十万八千里
        19
    zmz125000   265 天前 via Android
    替换了也不敢发
        20
    NaiveSimpleYoung   265 天前 via Android
    替换了你更加鹤立鸡群了,找你喝茶更方便了。
        21
    ctro15547   265 天前
    火星文转换器 了解一下?洤國亾姄笩錶汏浍
        22
    lihua   265 天前
    @ctro15547 火星文 +1
        23
    md5   265 天前 via iPhone
    你这还不如火星文好懂
        24
    darmau   265 天前 via iPhone
    我国早就能识别这种谐音了
        25
    kukumao   265 天前
    来个 php 版本的吧
        26
    Zeonjl   265 天前 via iPhone
    这个中文会在我们的有生之年在网络媒体消失吗?
        27
    noFound   265 天前
    可读性太差,还不如拆字
        28
    mansurx   265 天前   ♥ 2
    ╔═╤═╤═╤═╤═╗
    ║┊│个│人│玩│十║
    ║┊│┊│都│过│几║
    ║┊│┊│知│贴│年║
    ║┊│┊│道│吧│前║
    ║┊│┊│这│的│,║
    ╚═╧═╧═╧═╧═╝
    https://github.com/FangHeXie/download
        29
    hoosin   265 天前
    有什么意义呢
        30
    mercury8   265 天前 via iPhone
    想到了马伯庸的一个短篇 《寂静之城》
        31
    sobigfish   265 天前
    @hoosin #29 自我审查 /河蟹
        32
    omph   265 天前   ♥ 1
    这里应该用的上
    https://github.com/liuhuanyong
        33
    tvallday   263 天前 via Android
    可以用日本的和制汉字代替。
        34
    tvallday   263 天前 via Android
    @Kazuhira 敏感词 list 无边无际,根本不知道什么时候写了敏感词。
        35
    josherich   262 天前 via iPhone
    @tvallday 不错的办法,但没有现成的字典,稀疏性也是一个问题
        36
    Telegram   261 天前
    原来谷歌输入法有个扩展功能,可以自己根据需要用 lua 语音写函数。比如每个字中间加■,特■别■适■合■游戏■里■骂■战,哈哈。

    可惜,现在谷歌不更新了,兼容性比较差。
        37
    qingyang   261 天前 via Android
    当所有人都噤声的时候,就是一切都结束的时候
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4132 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 27ms · UTC 09:15 · PVG 17:15 · LAX 01:15 · JFK 04:15
    ♥ Do have faith in what you're doing.