Python 爬 ehentai 发生了一些诡异的事情,特来求救

2016-05-08 15:14:21 +08:00
 RqPS6rhmP3Nyn3Tm

本来我还在想, e 站直接把图片地址放在 html 里,连解析 JS 都省了,最多二十分钟搞定。现在想想,还是太年轻。

因为发生了一些很奇怪的事情。

咳,代码挂在 这里,能帮忙看一下那就最好了。

12716 次点击
所在节点    问与答
28 条回复
hanqi7012
2016-05-08 19:16:39 +08:00
h@h 是不是在国内不能运行了?
Krime
2016-05-08 19:31:09 +08:00
http://pan.baidu.com/s/1pLcQDHx
两年前还在学校用.net 时写的了,目前还能用。源码在另一台笔记本上没拷出来,新电脑也懒得装 VS 了。
qnnnnez
2016-05-08 19:33:52 +08:00
@hanqi7012 可以的,但是有可能下图片的时候被墙

补充一下,略缩图页面的 H@H Downloader 链接提供一个文本文件,里面有一些信息
RqPS6rhmP3Nyn3Tm
2016-05-08 19:43:51 +08:00
@UnisandK 感谢……明天研究一下,今天折腾这玩意实在是有点心累
RqPS6rhmP3Nyn3Tm
2016-05-08 19:54:00 +08:00
@UnisandK 哇靠,这 API 也太丑了吧,我都看不下去了
zmj1316
2016-05-08 20:45:11 +08:00
因为 eh 家有个 hath,相当于把图片分布到大量的用户机器上 serve 了,有可能你被分配到的那个 hath 用户的 ip 被墙了就 reset 了?
RqPS6rhmP3Nyn3Tm
2016-05-08 20:53:14 +08:00
@zmj1316 不,是主站 reset
so898
2016-05-09 02:03:25 +08:00
一整栋楼的绅士……虽然我也写过 ehentai 的抓取器……
那时候就发现 ehentai 这货返回的 html 会有不一样的,之前还以为是浏览器插件,后来发现要固定 user-agent 来抓
再后来尝试了浏览器插件来抓图……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/277127

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX