V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  xwzhong  ›  全部回复第 1 页 / 共 1 页
回复总数  1
2017-02-07 09:45:32 +08:00
回复了 aseec 创建的主题 问与答 想制作聊天机器人,有哪些不错的语料库呢?
1. 电影,电视剧等字幕对话。至于哪些方面的数据能用,需要看你针对的方面,比如日常对话,可以多找找符合生活方面的影视作品。
2. 百度贴吧、微博等社区平台去爬。爬虫技术要求较高,需要突破平台的反扒机制, sina 微博还需要模拟登陆,当然你也可以使用 sina 开放平台提供的 api ,但是有频率限制。最好是根据自己的需要前往指定的平台爬取数据,比如你计划专注于汽车领域的问题,可以去汽车之家这些特定的平台爬取。
3. 写个程序,用两个机器人互相对话,比如:小冰、小黄鸡、图灵机器人等。能用性待调研。(我预测不太行,除了小冰的回答准确率高一点,其他的待商榷)
4. 看看别人做 chatbot 的时候用的语料是什么,论文一般会有说 5. 最后一个虽然需要买,但个人认为最优质的语料: http://blog.sina.com.cn/s/blog_16d74e01f0102x0o6.html

作者:诺言
链接: https://www.zhihu.com/question/44764422/answer/137439552
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3103 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 00:40 · PVG 08:40 · LAX 16:40 · JFK 19:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.