技术渣,谁给写个爬虫,感谢

2019-05-21 16:34:24 +08:00
 onecode

最新 http://adr.meizitu.net/wp-json/wp/v2/posts?page=1&per_page=20 图片详情 http://adr.meizitu.net/wp-json/wp/v2/i?id=152201

16921 次点击
所在节点    Python
137 条回复
510908220
2019-05-22 14:48:44 +08:00
Rizio
2019-05-22 14:54:49 +08:00
直接看 pronhub 不好?再不然 C6
daguaochengtang
2019-05-22 14:59:02 +08:00
@registerrr 我也好奇这个网站首页是什么
Tuuure
2019-05-22 15:31:25 +08:00
@onecode #22 那就做个爬虫工具,爬取网页上所有的图片链接并显示。
CatTom
2019-05-22 16:35:45 +08:00
貌似所有写爬虫的人第一练手都是妹子图(手动狗头)
jaylee77
2019-05-22 16:46:22 +08:00
这个贴我已经收藏了
Kazuhira
2019-05-22 16:51:44 +08:00
DIY...
sethverlo
2019-05-22 16:54:41 +08:00
能不能在标题里加个 NSFW ……
tikazyq
2019-05-22 17:12:39 +08:00
写好的爬虫可以用爬虫平台 Crawlab 来管理,试一下呗,https://github.com/tikazyq/crawlab
fank99
2019-05-23 09:57:35 +08:00
我怀疑你在开车。但我又没有证据
rffan
2019-05-23 10:23:00 +08:00
哇,我都不敢点开你的 JSON 里面的值。这车开的不错,我收藏一下。
evlos
2019-05-23 11:04:07 +08:00
Dick-driven Development 简称 DDD
overkazaf
2019-05-23 14:18:20 +08:00
import os
import time
import requests
import sys

def fetch(total_page, per_page):
url_prefix = "http://adr.meizitu.net/wp-json/wp/v2/posts?"
image_path = "./images"

if not os.path.exists(image_path):
os.mkdir(image_path)

os.chdir(image_path)

for i in range(1, int(total_page)):
url = url_prefix + "page=" + str(i) + "&per_page=" + str(per_page)
r = requests.get(url)
d = r.json()
for item in d:
img_src = item['thumb_src']
cmd = "wget -c " + img_src
os.system(cmd)
time.sleep(0.1)
print 'Images have been succefully downloaded to ./images folder'

if __name__ == "__main__":
if len(sys.argv) == 3:
[f, total_page, per_page] = sys.argv
fetch(total_page, per_page)
else:
fetch(18, 100)



我是雷锋,拿走不谢
overkazaf
2019-05-23 14:31:10 +08:00
格式有问题,codes 改到这里了: https://shimo.im/docs/uuUDfLT1yTgWtNFm/
hhzc
2019-06-19 14:54:14 +08:00
@zhtttyecho 110 的无门槛今天还能领吗?
zhtttyecho
2019-06-19 15:26:52 +08:00
@hhzc 活动截止到 6 月 18 号蛤,话说,你为什么在这个帖子艾特我。。。
hhzc
2019-06-19 17:22:49 +08:00
@zhtttyecho 那帖回复提示权限不够,所以在这里试试。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/566261

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX