58 同城全国城市房屋信息爬虫

2019-04-09 07:42:25 +08:00
 Northxw

  虽然大家都说 58 同城的假数据较多,可我还是按耐不住抓取的热情。代码已实现 Scrapyd 部署,反反爬措施,Mysql 异步存储,UA、Retry 中间件等主要功能。但代码存在某处 Bug, 欢迎提交 issue。也欢迎您来 pull, 希望自己能长期维护更新下去。

  Github 地址: https://github.com/Northxw/City58。欢迎 star。

4430 次点击
所在节点    程序员
20 条回复
lavenderkissyou
2019-04-09 08:29:53 +08:00
404 了
lulinux
2019-04-09 08:41:00 +08:00
搞这个东西是不可怕的
rawidn
2019-04-09 08:51:30 +08:00
律师函警告
Northxw
2019-04-09 09:15:03 +08:00
@lavenderkissyou emmm... 去浏览器访问, 应该可以进去的。
Northxw
2019-04-09 09:15:43 +08:00
@rawidn 额, 已添加公告, 若涉及侵权麻烦邮箱联系, 第一时间处理。
Northxw
2019-04-09 09:16:28 +08:00
@lulinux 额 比较隐晦的话题
ccoming
2019-04-09 09:18:53 +08:00
加链接最好后面多留一个空格,免得: https://github.com/Northxw/City58%E3%80%82%E6%AC%A2%E8%BF%8E
Northxw
2019-04-09 09:21:51 +08:00
@ccoming 抱歉抱歉<(_ _)>
stop9125
2019-04-09 10:21:12 +08:00
提几个建议
1.上传代码的时候去除多余的东西,类似于 _py* 和 *.pyc
2.密码不要暴露
3.那个 BUG 和邮箱服务关系不大,你可以再看一下
Northxw
2019-04-09 10:24:11 +08:00
@stop9125 嗯嗯,比如我在.git 设置了忽略.idea,但是我之前已经上传了;然后关于密码,都已经作过更改或者失效了,哈哈;然后,那个 Bug, 慢慢研究吧
guyeu
2019-04-09 10:48:37 +08:00
如果要 ignore 已经被 track 的文件,可以`git rm --cached ***`
Northxw
2019-04-09 10:53:01 +08:00
@guyeu 感谢感谢(❁´ω`❁)
BB0923
2019-04-09 11:07:28 +08:00
好东西,小白怎样使用?
mokeyjay
2019-04-09 11:09:48 +08:00
58 的假数据不是较多,而是基本全都是= =
Northxw
2019-04-09 11:16:09 +08:00
@BB0923 要不你先去快速入门爬虫?挺简单的。

@mokeyjay 额,小姐姐,这个我真的就不知道了。。。
li02
2019-04-09 11:37:09 +08:00
去年搞了个跑在 Console 里的爬虫,爬自己的城市足够了
Northxw
2019-04-09 11:45:34 +08:00
@li02 部署到远端 server 了吧
li02
2019-04-09 11:56:43 +08:00
@Northxw 记不清了,记得只是输出 CSV 文件,优点就是方便
Northxw
2019-04-09 12:07:57 +08:00
@li02 都行的, 部署完后, 数据处理方式看自己啦
luoleng
2019-06-23 21:06:28 +08:00
楼主研究过那个手势验证码嘛?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/553188

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX