自己基于影视剧字幕建设了一套三千多万近 1G 的高质量聊天语料库,求一起玩耍

2016-09-18 08:38:03 +08:00
 warmheartli

我用了洪荒之力,想到了这个办法,并用半个月时间才建成,绝对有用,我的聊天机器人有戏了,大家轻拍哈 http://www.shareditor.com/blogshow/?blogId=112

9695 次点击
所在节点    程序员
32 条回复
menc
2016-09-18 15:04:11 +08:00
看 sample ,觉得语义并不强啊。。。电影字幕的 context 还是过多的通过表演表达出来了,单看字幕什么都看不出。。。
bearqq
2016-09-18 15:18:12 +08:00
我取了某群聊天记录 2012 年到 2016 年训练, telegram 机器人在, https://telegram.me/the_BB_bot
其实我想说的是效果很差,试试就知道了。。
hinkal
2016-09-18 15:30:44 +08:00
@warmheartli 哦哦,如果能搞一份中英对照的,估计我及某些人会感兴趣拿来训练机器翻译
ooh
2016-09-18 15:38:16 +08:00
想法很 ok 啊
muziki
2016-09-18 15:46:18 +08:00
Google 新出来的 Allo 用机器学习预测,可以敷衍式对话
gladuo
2016-09-18 16:14:27 +08:00
可能还得认真过滤一下,字幕好多都是听译,不好的数据再多也 train 不出来好 model
kepenj
2016-09-18 16:57:29 +08:00
二营长!你他娘的意大利炮呢
sunchen
2016-09-18 17:03:52 +08:00
和楼主有相同想法,也怕了几个站的字幕。但是有个问题,对话边界在字幕文件里是没有的,又不好识别
mozutaba
2016-09-18 20:48:16 +08:00
@cctvsmg 报名内测
GentleSadness
2016-09-18 20:53:10 +08:00
我记得美国有个最大的用于科研的语料库,好像是免费的
dreamtrail
2016-09-19 09:28:36 +08:00
楼主能不能放个片段出来听听?
warmheartli
2016-09-19 11:03:36 +08:00
@dreamtrail 这个不是听的哈,是文本(前面列了一些),跟影视剧基本没有关系了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/306870

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX