豆瓣租房信息爬取过滤

2019-07-17 11:33:36 +08:00
 pandameng

#####最近要找房搬家所以启用了去年的爬虫并做了一些修改,现在基本逻辑是:

  1. 标题中带数字的

1.1 四位数整除 50 除不开的 pass

1.2 11 位数电话号码 pass

  1. 一级排除关键字,如果含有直接 pass,比如远点的地点、公寓等

  2. 指定范围关键字,如果含有置为符合数据保存

  3. 二级排除关键字,不包含(2,3)但包含二级 pass 掉,不包含二级置为备用数据保存

一个小组爬 15 页,每页 25 条,每小时爬取一次。

之前也就爬取 5 个小组的,感觉数据还行,昨天增加到 16 个小组,符合的数据增加了很多,但是很多都是各类大中小型的公寓,整的我以为把个人发布的过滤掉了专门筛选了公寓的数据呢。

目前思路只能通过排除关键字增加过滤程度,看多了就会发现有些关键字排除型就大点,比如"南北通透|拎包入住"大概率是公寓或者中介,".*大单间"很多也都是公寓,但是同时也会过滤掉个人发布的

所以大家有没有什么其他思路

4186 次点击
所在节点    Python
26 条回复
Rorysky
2019-07-17 13:00:45 +08:00
豆瓣没有反爬措施?
guansixu
2019-07-17 13:35:01 +08:00
豆瓣小组找房体验太差了,一个个点进去,还得一个个问问有没有租出去,要是楼主回复的慢点,几天过去了都见得能沟通完。还是找专业的吧。
dai123456
2019-07-17 13:35:02 +08:00
不需要使用高匿名的 IP 吗?
snappyone
2019-07-17 13:39:21 +08:00
爬取所有数据->人工标注->机器学习
pandameng
2019-07-17 13:43:05 +08:00
@Rorysky @dai123456 用了一个 ip 池,单进程执行,并且每条都会停顿 0.8s 。不过昨天加了多进程,进程数可能开多了导致 ip 被封了[悲伤]
pandameng
2019-07-17 13:45:48 +08:00
@snappyone 触碰到了盲点 还要去学习机器学习(●—●)
pandameng
2019-07-17 13:49:39 +08:00
@guansixu 不想找公寓 不想多花钱 还有点时间 所以只能自己优化喽
SeaRecluse
2019-07-17 14:08:47 +08:00
为什么要把 11 位号码去掉呢,好多人比如我留微信的时候就只留个号码
pandameng
2019-07-17 14:17:10 +08:00
@SeaRecluse 标题中的手机号 ,目前为止看到的 95%以上都是中介、公寓管家,个人发帖基本都是在帖子内留个微信号啥的
brust
2019-07-17 16:58:47 +08:00
好多小组,那个管理员就是从事中介或者公寓的
Yang2096
2019-07-17 17:26:14 +08:00
http://bj.yurixu.com/manage/beijing.php 这个只有北京和上海的, 不知道楼主在哪
pandameng
2019-07-17 18:14:26 +08:00
@Yang2096 不巧 深圳
icegreen
2019-07-17 18:14:34 +08:00
现在靠谱房源都链家了; 豆瓣真的很难遇到合适的。
pandameng
2019-07-17 18:15:51 +08:00
@brust 所以主要目的就是过滤掉中介公寓的
不过目前来看可能要上机器学习了
sodadev
2019-07-18 09:21:35 +08:00
@Rorysky 豆瓣防爬基本等于没有吧。。。
sodadev
2019-07-18 09:22:08 +08:00
@Yang2096 这个就是我正在用的 上面也有好多中介和二房东。
Abirdcfly
2019-07-18 11:25:48 +08:00
@Rorysky #1 豆瓣是对爬虫最?友好的网站了。特别过分的才会有封 ip 之类的惩治措施。所以爬虫教学 /入门帖很多是爬豆瓣的 2333
qw30716
2019-07-18 15:15:17 +08:00
楼主,我也深圳,有机会共享下
pandameng
2019-07-19 01:11:07 +08:00
@qw30716 现在是放在了家里树莓派上 还没整到公网
twitch
2019-07-20 10:51:54 +08:00
现在豆瓣上的中介有点多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/583724

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX