owllook - 一个网络小说搜索网站 - https://www.owllook.net/

2017-04-29 20:50:42 +08:00
 xiaozizayang

1.说明

网络小说搜索引擎( novels-search )—— owllook 网址:https://www.owllook.net/

owllook是一个基于其他网站的垂直小说搜索引擎,至于为什么写这个,一个是想利用sanic尽量做成异步服务,二是想就此练习下推荐系统,顺便作为毕业设计。

开源在 github,https://github.com/howie6879/novels-search

本项目纯属共享学习之用,不得用于商业!

对于用户信息,利用 mongodb 进行存储。

某些必要的缓存,利用 redis 进行缓存处理,注意,对于限制数据:都将在 24 小时删除。

对于不同网站的小说,页面规则都不尽相同,我希望能够在代码解析后再统一展示出来,这样方便且美观,而不是仅仅跳转到对应网站就完事,清新简洁的阅读体验才是最重要的。

目前采用的是直接在百度上进行结果检索(现在发现百度不行,又加了 360,谷歌的也写了一个,部分数据准备开始用爬虫获取),也不是不能做的更大更全,只是觉得没什么意义,目前的检索结果已经很足够。

我尽量写少量的规则来完成解析,具体见规则定义,遇到自己喜欢的小说网站,你也可以自己添加解析。

BTW,sanic 写界面确实不是很方便。

详细介绍owllook -- 一个简洁的网络小说搜索引擎

运行:

python server.py

或者

gunicorn --bind 127.0.0.1:8001 --worker-class sanic_gunicorn.Worker server:app

2.demo

下面是一些截图展示,具体效果图请看这里

目录解析页:

阅读:

书架:

3.关于

0.1.0:

TODO:

License

novels-search is offered under the Apache 2 license.

21111 次点击
所在节点    分享创造
78 条回复
LaudOak
2017-04-29 21:03:06 +08:00
不错,资瓷
Travers
2017-04-29 21:19:26 +08:00
任意章节都是 404 will found …
xiaozizayang
2017-04-29 21:20:51 +08:00
@Travers 不会吧,你搜索的什么?
hljjhb
2017-04-29 21:28:09 +08:00
内容页居然没有上 /下一章
Travers
2017-04-29 21:28:57 +08:00
发现 dns 的问题,换了一个 DNS 就正常了。移动自带的 DNS 有点坑啊。 @xiaozizayang
xiaozizayang
2017-04-29 21:30:09 +08:00
@hljjhb 还在写~~全部在线解析这块有点难搞,毕竟东西都不在数据库
xiaozizayang
2017-04-29 21:30:37 +08:00
@Travers 那就好,吓我一跳
qcloud
2017-04-29 21:44:49 +08:00
贼 6
mozutaba
2017-04-29 21:57:39 +08:00
给力
liangguan5
2017-04-29 21:57:41 +08:00
赞,刚刚搜索昆仑试了下,解析后的排版看着比原网页舒服太多
zhuoziyu
2017-04-29 21:59:01 +08:00
目录页和正文我是智能匹配的
目录页 API: https://zhuishu.me/api/chapters?url=目录页 url
正文提取我用 golang 实现了 Readability 算法,https://zhuishu.me/api/chapter?url=http://www.qu.la/book/22441/8382743.html

更多 API 请参看 https://www.zhuishuapi.com/swagger/

生活艰难,准备赚些外块。目前正在做追书 APP,自己不运营,打算卖程序,相信会有站长感兴趣
xiaozizayang
2017-04-29 22:01:00 +08:00
@liangguan5 哈哈 有帮助就好
zhuoziyu
2017-04-29 22:03:06 +08:00
demo: https://zhuishu.me 后台管理功能已经完备了,商业授权功能都有了,就是前端比较简陋
xiaozizayang
2017-04-29 22:06:12 +08:00
@zhuoziyu 只敢做解析,不敢做爬取,太侵权了
zhuoziyu
2017-04-29 22:19:10 +08:00
@xiaozizayang 我只是用算法解析目录页,一样的。可能我的 url 看起来不那么合法
目前只是仅供 app 测试,没打算运营呢
感觉目前都是移动端会有转码阅读功能,pc 端这样估计会有风险
defunct9
2017-04-29 22:20:11 +08:00
www.booksky.org 一样么?
xiaozizayang
2017-04-29 22:21:12 +08:00
@zhuoziyu 目录页用什么算法解析?我现在也在做移动端
xiaozizayang
2017-04-29 22:23:52 +08:00
@defunct9 不一样,主动与被动的关系,我这个可以说是元搜索引擎,你说的这个是综合收集载查询的那种,比那个也多了解析
366204135
2017-04-29 22:32:59 +08:00
我之前想做一个抓取豆瓣的数据的。可是没做 做了一个别的 https://www.ewmzc.com 生成二维码的
thedog
2017-04-29 23:58:04 +08:00
赞一个,一直都想做一个类似的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/358135

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX