一个微信公众号文章聚合网站,可定制,用 django 撸的,极爽

2015-12-08 10:24:12 +08:00
 pango
花了两个周末,做了个微信公众号文章聚合网站: http://www.weiheji.net

其实已经有很多类似的网站了,不过我还是重新造了个轮子,因为可以按照自己的心意添加一些想要的功能:

比如,可以自定义公众号,把公众号添加为关注后,就可以在“我的关注”里专心阅读所有关注公众号的更新。
比如,可以 RSS 订阅。
比如,网页是 responsive 的。
。。。
只要我能想到的功能,我就能做出来满足自己,这是我作为一个码农的小小骄傲。

截图:


在手机上的效果:


网站是用 django 撸的,整个撸的过程极爽。 django 的 view,model,template 用起来有多顺手自不必多说,一行配置完成缓存功能、半分钟切换数据库或者缓存实现、自动生成后台管理系统、一分钟完成 RSS 功能。。。,更不必说各种第三方实现的 middleware 拿来就能用,比如会员管理、文章标签、分页。。。,所有网站需要的功能都有人帮你实现了,而且还是免费的,你只需要花一点点时间配置一下,真是 django 在手,天下我有。
人生苦短,我用 django 。

抓取部分用到神器 pyspider , https://github.com/binux/pyspider ,个人感觉一般的抓取, pyspider 已经完全可以替代掉 scrapy 了。作者很巧妙地通过 message queue 将抓取、网页数据抽取、抓取结果处理分开成几个部分,可高度自己定制,抓取效率非常高,推荐使用。

最后,请点击: http://www.weiheji.net ,请尽情吐槽。
10112 次点击
所在节点    分享创造
42 条回复
lawder
2015-12-08 10:49:27 +08:00
抓的搜狗搜索吗?
50vip
2015-12-08 10:56:19 +08:00
很厉害。。。
XianZaiZhuCe
2015-12-08 11:05:12 +08:00
那干嘛不用 wordpress 还自己撸什么
sinux
2015-12-08 11:12:38 +08:00
代码呢?
1987618girl
2015-12-08 11:26:57 +08:00
代码呢,求 git
pango
2015-12-08 11:49:51 +08:00
@lawder 部分数据来自于搜狗搜索
pango
2015-12-08 11:50:34 +08:00
@XianZaiZhuCe 自己撸可以撸出成就感
pango
2015-12-08 11:52:22 +08:00
@1987618girl 无 git 。
@sinux 你是说抓取部分还是 django 部分?
Moker
2015-12-08 12:47:39 +08:00
以前也通过搜狗抓过 后来被封了 就别搞了
qmqy
2015-12-08 12:50:51 +08:00
请问楼主如何处理搜狗反爬虫的策略的?
听说搜狗这方面做了超多限制,各种黑科技。
pango
2015-12-08 13:28:48 +08:00
@Moker 是挺烦
Jackhuang
2015-12-08 14:19:32 +08:00
抓搜狗有两个问题,第一是搜狗老是增加难度,第二是不全,而现在在网页端可以分析 xml ,公众可以很全,但是问题是中间有一步需要人工转发到网页端提取 xml 。请问楼主怎么搞定的?前段时间想法就是先人工把公众号的历史搞定,之后更新信息从搜狗抓,但是人工这一步太烦了,搜狗现在用 phtomjs 模拟浏览器, url 居然是 sogou ,原来是直接 tx 的 url 了,意味着还要一步,假期写了一半的爬虫就此放弃了。。。 @pango
daoluan
2015-12-08 15:29:15 +08:00
半分钟切换数据库或者缓存实现
这句话是什么意思?
costimes
2015-12-08 15:47:16 +08:00
RSS 非全文输出…………
sadara
2015-12-08 16:13:20 +08:00
求代码
dong3580
2015-12-08 16:50:42 +08:00
@qmqy
先获取列表,保存下 cookie ,然后带 cookie 请求公众号所在的列表地址,
再用该 cookie 去请求某页的列表,
继续用该 cookie 请求列表中某篇文章的内容。
建议用浏览器抓抓,看看原理就懂了,很好理解的。
lazarus
2015-12-08 17:00:21 +08:00
code 没放出来吗?
pango
2015-12-08 17:12:05 +08:00
@Jackhuang 我也是人工,但是数量不多,结合自己写个小程序辅助一下,所以还好。另外还支持直接提交文章,提交的文章只要把 biz 提取出来就可以自动分类。我没涉及到 xml 。
honeycomb
2015-12-08 17:13:17 +08:00
楼主强力!
pango
2015-12-08 17:14:18 +08:00
@daoluan 就是把 mysql 换成其他数据库如 sqlite ,把 memcache 换成 redis 什么的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/241919

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX