一个简单的网文推荐系统,解决书荒

2016-09-25 14:04:18 +08:00
 shidenggui
最近在学习机器学习,以前很喜欢看网文,当时最烦的就是看完一本书之后找不到其他类似那么好看的书,俗称书荒。就收集了一点数据来做一个书籍相似度的查询,用了最简单的余弦相似度计算。貌似效果比预期中好点。

目前服务托管在 daocloud 上,地址: http://netbook.daoapp.io/ 。 欢迎大家试用 && 提出意见

下面是 《亵渎》 的匹配结果

17130 次点击
所在节点    分享创造
101 条回复
millken
2016-09-27 17:12:21 +08:00
《被生活网住的人生》
这部类似的没有么?
shidenggui
2016-09-27 17:55:26 +08:00
@awolfly9 这个需要的数据集太多了,估计豆瓣淘宝之类的才有机会收集到,个人很难
@millken 只能匹配一部分网络小说
awolfly9
2016-09-27 18:15:57 +08:00
@shidenggui 可以试试抓取豆瓣的数据,利用他的数据库来做匹配,当然也可以抓取一次然后存取成自己的数据,不过我不知道你是怎么实现的
cszhiyue
2016-09-27 18:51:57 +08:00
@awolfly9 @shidenggui 楼主已经大概说了。个人不负责任的猜测应该是把网文的原文下载下载,分词,然后计算余弦相似度。豆瓣的数据知识一些评论和 tag ,应该达不到要求。
挺有意思的想法,目前也尝试做一下玩玩。
awolfly9
2016-09-27 19:02:30 +08:00
@cszhiyue 查询了一下余弦相识度,似乎明白了一点。感谢分享

可以建立一个 github 大家一起完善完善,挺好用的,如果有兴趣的话可以一起做
cszhiyue
2016-09-27 19:10:58 +08:00
@awolfly9 目前还在抓数据。测试一下再 update
oulongqi
2016-09-27 21:04:04 +08:00
很多词都搜不到哦,可以考虑先把词语丢到小说网站网随便拿几个接过来冷启动一下。
solobat
2016-09-27 22:40:17 +08:00
哈哈, 赞楼主. 之前我也把优书网的书爬到 leancloud 上, 还没来得及用呢.
shidenggui
2016-09-27 22:46:04 +08:00
@solobat 最开始本来想用 leancloud 的,后来看到 daocloud 貌似有免费送的 2x 容器,就试用了下。现在这些云服务太方便了,开发个东西,几个小时就搞定了
awolfly9
2016-09-28 10:08:03 +08:00
@cszhiyue 更新后隔空喊一下
azh7138m
2016-09-28 10:18:36 +08:00
@aeshfawre 动漫有字幕,也不是不行
Sukizen
2016-09-29 09:05:44 +08:00
楼主在哪里,有个项目想找你谈谈
ijustdo
2016-09-29 09:28:58 +08:00
1. 字数格式化 多少万字
2. 点击作者 可以搜索 同作者的相似书记
3. 点击下面任意书名 搜索点击的书名

还有就是书的量不够咧 找了好几个都没有
ijustdo
2016-09-29 09:35:31 +08:00
数据量不够啊 哈哈
多抓几个站 然后 标签建库 通一本书 如果多个站出现的相同标签加权
然后用常用词库 分词 再建一些 常用词的 向量库

到时候出了放出书名 搜索 关键词搜索 还可以放排行
如果爬虫过关 还可出热门....

有点小意思 找个小说网站卖了吧
shidenggui
2016-09-29 09:36:46 +08:00
shidenggui
2016-09-29 11:52:00 +08:00
@ijustdo 谢谢思路,不过这样搞工程浩大,我也就是好玩弄了个 demo
vlike
2016-09-29 21:27:21 +08:00
感觉不错,可以介绍一下实现的原理及工具吗?
bravecarrot
2016-10-03 12:24:33 +08:00
楼主选取的特征有哪些?
mfanming
2016-10-06 09:27:01 +08:00
没有白鹿原
alouha
2016-10-24 18:35:53 +08:00
额,从零开始这本书都木有,好奇楼主的算法,希望能放到 github 上

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/308827

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX