不会python写爬虫,来v2ex求助
要求:
1 支持用户名密码登陆论坛,论坛为一问一答形式,深度都为1级。
2 匹配特征字段“生日”帖子标题,并抓取指定论坛网页1-300页。
3 根据帖子的跟贴,抓取的生日帖子的跟贴的源内容,加工并排列成指定格式的txt文本文件。
生成txt文件
格式如 姓名 抓取日期 生日
王五 20150803 20100801
赵六 20150803 19800901
3 放到vps里7*24小时运行,抓取会员生日。
如能用shell脚本实现更佳
本人QQ 324013020
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.