爬虫新手求助

2018-07-26 11:18:27 +08:00
 zstone123
想要爬一些网站练手,纸上谈兵太无聊了。
求可爬网站(反爬策略对新手友好的那种)
5140 次点击
所在节点    Python
28 条回复
ml1344677
2018-07-26 11:32:27 +08:00
反爬策略仅限于验证码的网站:安居客(拿下某地所有房源数据)
封禁 IP 的网站:房天下(拿下某地所有房源数据)
不封禁 IP 但是传给你错误数据的网站:高德地图(点击某个 POI 点出现某地块轮廓,要求大量爬取轮廓)
通过翻页方式和异步加载限制爬虫的网站:豆瓣(个人认为主要考察爬取策略)
dbow
2018-07-26 11:34:24 +08:00
亚马逊试试?
OpenJerry
2018-07-26 13:22:44 +08:00
还在上学的话可以试试爬学校教务,做个教务的命令行客户端,或者自动抢课之类的
XxxxD
2018-07-26 13:43:33 +08:00
目前遇到的挺多都还挺友好的,试试盗版小说网站和图片网站
tt67wq
2018-07-26 14:04:11 +08:00
wzwwzw
2018-07-26 15:53:42 +08:00
淘宝,京东,各大电商网站。
LeungV2
2018-07-26 15:57:16 +08:00
PY 爬虫吗? 好像挺好玩的
zdnyp
2018-07-26 15:58:54 +08:00
看兴趣呀,比如喜欢玩 LOL 的,把各个英雄的出场率、胜率啥的都抓来,喜欢音乐的就爬音乐站,喜欢电影的爬电影站...
实在没啥兴趣,搞爬虫干啥...
unforgiven
2018-07-26 16:46:30 +08:00
如果你是新手 只是练练手的话 最好的实验对象是色情小网站
alen
2018-07-26 16:55:41 +08:00
Lwf1995
2018-07-26 17:58:35 +08:00
@unforgiven 同意,我试过。哇咔咔。
Lwf1995
2018-07-26 17:59:24 +08:00
@Lwf1995 哎,已经是老油条了,这种事情都不感觉到不好意思了。想当年我还是个看见妹子就脸红的小男生
yykrlc
2018-07-26 18:13:58 +08:00
搜狗.微信欢迎你。XX 小网站一般需要翻墙爬比较快...
nciyuan
2018-07-26 19:51:28 +08:00
感觉之前 wget -m 就把 Apache Httpd 整站爬下来了.........是不是我有错片场了?
0x5f
2018-07-26 20:19:21 +08:00
爬电影站 小电影站只要爬的慢一点 不会反爬
Leigg
2018-07-26 20:27:46 +08:00
www.bigcilin.com ,旅途愉快
dd99iii
2018-07-26 20:58:24 +08:00
按兴趣
easylee
2018-07-26 21:12:32 +08:00
开着梯子干 91 啊,绝对好爬,兄弟爬到了记得发我一份哈。
tuding
2018-07-26 21:43:10 +08:00
这车开得猝不及防
Linxing
2018-07-27 00:31:33 +08:00
今日头条爬一波吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/474295

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX