konachan 图站爬虫一枚

应要求顺便把K站爬虫也撸出来了...

https://github.com/wudaown/konachanDL

yande.re 爬虫参考另外一个帖子

https://www.v2ex.com/t/199965

PS: 大家多拍拍想进步不知道怎么搞

ericls

2015-06-20 16:41:56 +08:00

既然都用了 Python3 了

如果真的是「爬虫」，也应该用aiohttp之类的异步吧

binux

2015-06-20 18:27:27 +08:00

人家明明有 API，你非得解析页面
http://konachan.com/post.json

wudaown

2015-06-20 18:55:42 +08:00

@binux 新手完全不会.. 能简单说一下怎么使用api么.. 想针对API在修改一下

wudaown

2015-06-20 21:25:05 +08:00

@binux 发现每个页面都有json... 那还要解析每一页的json效率会差很多吗？

xupefei

2015-06-20 21:27:19 +08:00

@wudaown 给人家服务器带来的压力高了不少。

wudaown

2015-06-20 21:41:59 +08:00

@xupefei 这样啊~ 谢谢.. 那我的想法对吗？打开对应页面的json然后解析？

binux

2015-06-20 22:15:45 +08:00

@wudaown 你有什么是需要打开对应页面才能拿到的吗？

wudaown

2015-06-20 22:21:43 +08:00

@binux http://konachan.com/post.json?page=2&tags=yuuki_asuna 是第二页的json
http://konachan.com/post.json?page=1&tags=yuuki_asuna 是第一页的json ...
分析完一页不是要分析第二页么..

binux

2015-06-20 22:24:40 +08:00

@wudaown 如果你要第二页上的东西，这不是必须的吗？

Lucius

2015-06-20 22:43:01 +08:00

@wudaown 效率差很多吧。你要爬的只是内容，解析HTML是把整个页面给load了

Lucius

2015-06-20 23:56:26 +08:00

@wudaown ... json 已经直接给了你爬完后的数据。

evlos

2015-06-21 00:00:11 +08:00

@wudaown API 格式一般是永久固定的，HTML 只要页面一改版就跪了。

wudaown

2015-06-21 00:14:14 +08:00

@Lucius 就是不用分析一眼就看出来需要什么...

KyoHiroki

2015-06-21 01:26:46 +08:00

1.html页面如果有用js生成的动态内容，你是爬不到的，json没有这个问题；
2.渲染html页面对服务器的负担比json大；
3.html页面可能会经常修改，不易维护。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/200042

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.