我感觉中文 ai 出来的话,应该做的第一件事是语义识别

2018-01-25 00:03:25 +08:00
 leyle
大环境如此,在这片土地上要么忍要么滚,但是呢,做的事又太糙了,都是瞎屏蔽,比如 **不离十。
以后中文 ai 发展起来了,第一件事应该是让汉字回归汉字,就不会在这里打码了。。。
4847 次点击
所在节点    程序员
29 条回复
PythonAnswer
2018-01-25 00:10:46 +08:00
拆字党火星文永远不怕
cisisustring
2018-01-25 01:22:30 +08:00
道理都懂,我们这一代不滚,下一代还会重复问自己要不要滚.
WuwuGin
2018-01-25 05:21:55 +08:00
错别字近音字无所畏惧
yearliny
2018-01-25 05:24:32 +08:00
@PythonAnswer 人能识别的,人工智能也能识别,火星文和拆字难道对机器学习没有办法吗?最大的问题在于,人可以创造新的组合方法,所以在一种新的拆字组合方法刚刚出现的时候,难以被屏蔽,但机器识别使得没有任何一种拆字组合方法成为主流,并且主流的鉴定标注的阈值会因机器学习的精准度不断降低。

当一句话不能长时间大范围流行的时候,这就已经给它的传播带来了极大的难度,你不能要求别人想猜谜一样不断的理解你的意思。

正如 Google 对验证码的理解一样,随着机器视觉识别的兴起,复杂的字符验证码只能增加人类识别的难度,对机器学习的 bot 越来越难以防范。同样的道理,当你想要通过拆字、组合、火星文等方法来传播 xx 信息的时候,你需要不断的增加歧义来混淆机器识别,但这同样会增加人类识别的难度。
wweir
2018-01-25 07:19:50 +08:00
@yearliny 这行文、排版的风格很是喜欢
pkookp8
2018-01-25 07:47:48 +08:00
验证码都没法攻克的 rob
文字转图片加码就好了吧
dd1982cn
2018-01-25 08:08:11 +08:00
就从多音字来说 ai 连 店长都念不对 怕是连从 0 到 1 都还没有 何谈发展啊 难道机器不学习这么基础的事情?
sean10
2018-01-25 08:14:40 +08:00
@dd1982cn NLU,词性标注可以做到识别多音字了吧。
aksoft
2018-01-25 08:32:48 +08:00
在等 20 年
dong3580
2018-01-25 09:03:44 +08:00
两种不同的语境,同样的一句话可以表达相反的意思,这就是中文的强大:
例如:"你做的好事"
purejs
2018-01-25 09:06:06 +08:00
瞎 YY 些啥
maskerTUI
2018-01-25 09:22:45 +08:00
领导:你这是什么意思?
小明:没什么意思,意思意思。
领导:你这就不够意思了。
小明:小意思,小意思。
领导:你这人真有意思。
小明:其实也没有别的意思。
领导:那我就不好意思了。
小明:是我不好意思。

提问:以上“意思”分别是什么意思?
enenaaa
2018-01-25 09:55:56 +08:00
说反了, 什么时候能准确识别语义了, 才会有强 AI。
snakeyou
2018-01-25 13:01:53 +08:00
@dong3580

任何语言都有类似的情况。

Shut up! 可以表示让对面闭嘴,也可以表示对对方所说事情的赞叹。
He can ’ t help himself(你能从字面看出这句话的实际意思吗)他无法抗拒做某事=他非常想做某事

日语有个万能词どうも,任何想跟人打个招呼(表示感谢 歉意 慰问等等等等)的情况下几乎都可以用。
说实话日语里这种情况是在太多了,因为由于组词的存在,日语口语中可以省略的句子成分太多了。
Mutoo
2018-01-25 13:24:06 +08:00
什么时候 AI 能够聪明到遇到不懂的句子,问人:这什么意思。然后给它解译一番,AI 说:原来如此,我懂了。下次它再遇到类似的东西能举一反三。那就不怕什么拆字啊火星文之类的了。细思极恐。
XinLake
2018-01-25 13:47:06 +08:00
Google 早就开始研究这事了,搜索引擎输入文字几乎就可以理解到用户的意思。此外还有图像识别。

人机对话过程中出现的一些模棱两可、模糊的含义,机器当即就提出,人就换个准确一点的表述。电影《钢铁侠》也有类似的场景,钢铁侠的电脑不就是具备语言和视觉能力的超级 AI 电脑么。语言理解+图像 就像人的耳朵和眼睛,再加上 AI。

不过 Google 还提出过一个东西,就是知识图,就是将人类知识数字化,变成机器可以理解可以维护的数据集。目前图像识别里,吧图像的特征提取出来的数据(可用改数据匹配到图像),可以理解为一种简易的机器掌握的(数字化的)知识吧。就像人脑从小孩开始就建立人脑知识库,不断的除错完善扩大,机器这么做也需要漫长的过程
banksiae
2018-01-25 14:36:46 +08:00
噗噗,语义还早呢;
现在应该将是领域语用,这个做好我认为在不久的将来能看到。但是语义层面的,还是要结合场景。“你找我有事”,我觉得计算机不太可能理解
yearliny
2018-01-25 14:55:27 +08:00
@wweir 谢谢欣赏,因为自己经常阅读一些英文或英文翻译过来的书,时间一长用词和句式自然而然的变成了这样,之前还很懊恼这个问题,没想到还能有人喜欢。
kaiser1992
2018-01-25 14:58:37 +08:00
难,以前都是基于统计学方法实现,理解效果不佳,现在用的深度学习有所提高,虽有提高但是也不行,你看看谷歌翻译出来的是什么玩意。
chengzhoukun
2018-01-25 14:58:52 +08:00
@PythonAnswer 火星文审查系统的论文都有了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/425719

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX