#####最近要找房搬家所以启用了去年的爬虫并做了一些修改,现在基本逻辑是:
1.1 四位数整除 50 除不开的 pass
1.2 11 位数电话号码 pass
一级排除关键字,如果含有直接 pass,比如远点的地点、公寓等
指定范围关键字,如果含有置为符合数据保存
二级排除关键字,不包含(2,3)但包含二级 pass 掉,不包含二级置为备用数据保存
一个小组爬 15 页,每页 25 条,每小时爬取一次。
之前也就爬取 5 个小组的,感觉数据还行,昨天增加到 16 个小组,符合的数据增加了很多,但是很多都是各类大中小型的公寓,整的我以为把个人发布的过滤掉了专门筛选了公寓的数据呢。
目前思路只能通过排除关键字增加过滤程度,看多了就会发现有些关键字排除型就大点,比如"南北通透|拎包入住"大概率是公寓或者中介,".*大单间"很多也都是公寓,但是同时也会过滤掉个人发布的
所以大家有没有什么其他思路
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.