关于目前中文关键字过滤的方式

2019-05-13 18:53:09 +08:00
 pkookp8
1.正则
2.特定关键字
3.机器学习?

对于 1,规则不好维护,并且有人想特意绕过也不是不能做到,比如使用火星文,同音字
对于 2,没有语意分析,会导致例如添加了关键字[成人]
等这人参果长成人型 这句话的成人被屏蔽
对于 3 不了解,大概是基于统计学,如果没有初始的学习数据,而且很难说得清为什么一句话被过滤出来

有没有现成的,针对中文进行拆字和注音,依据字形或读音来进行过滤
可以一定程度上减少火星文,同音字的垃圾内容

仅讨论技术
2846 次点击
所在节点    奇思妙想
1 条回复
zgcwkj
2019-05-15 14:18:03 +08:00
目前基本上是正则加关键字过滤,无论中文还是英文。
因为大脑比写死的程序强,所以如果要别较厉害的话,可以尝试机器学习,但你又懂得多少呢?
还不如按照大家的方式来的快!(当然你也可以自己研究)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/563755

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX