Python 爬虫 请教能实现我的这两点吗?

2020-06-13 10:04:13 +08:00
 leihongjiang

因为自己需要浏览很多的页面,工作量太大,也找不到合适类似的软件. 所以自己想写两个爬虫

1:根据需要的网站 爬取到标题和 url 根据自己的需求浏览 2:设置关键词 搜索 全部抓取数据 然后设置爬虫判断是否展示

如果 Python 小白 开始学习的话.需要多长的时间可以.

4215 次点击
所在节点    程序员
43 条回复
crella
2020-06-13 10:35:21 +08:00
先把要爬的页面和需求发出来
TimePPT
2020-06-13 10:48:44 +08:00
如果需求简单,小白就别爬虫了,chrome 就有采集插件
wangfj2333
2020-06-13 10:55:50 +08:00
我用八爪鱼就没成功过。。
tomczhen
2020-06-13 10:56:52 +08:00
1. “根据自己的需求浏览” ,所以需求是什么?
2. “全部抓取数据”,所以全部是怎么定义?
xingshu1990
2020-06-13 10:57:55 +08:00
学习路线,requests (包括 get 以及 post,知道 header 哪些参数放脚本里能让爬虫爬到数据就好)
如果目标网站没有数据加密措施,页面内容匹配需要学 re 或者 BS4 或者 XPATH 或者 lxml 。
另外还有数据保存,比如保存 txt mysql excel 等。
somalia
2020-06-13 10:58:56 +08:00
火车头怎么样
lilydjwg
2020-06-13 11:04:34 +08:00
看起来需求是浏览网页时做辅助。那么,浏览器扩展它不香么?
leihongjiang
2020-06-13 11:19:10 +08:00
@tomczhen 我需要看这篇文章 然后打开链接就可以了.
全部抓取 就是抓取 搜索到的所有页面 然后设置判断
imn1
2020-06-13 11:20:40 +08:00
我知道这种需求,以前有考虑过,放弃
实际上就是针对没有 sitemap 、没有站内搜索,或者这两方面做得不好的站点,自己按需导航
例如 V2EX 的节点 sitemap 还过得去,但站内搜索就……

放弃原因并不是难写,而是耗费储存空间、耗时,一个工作要么空间换时间、要么时间换空间,两者都耗费就不值得做
而且这样爬不仅仅是一两天的事,是个常态,这样就极可能被网站 ban,得不偿失

建议善用 Ctrl-F 或者写页内脚本,把不想看的内容 display:none,或者 highlight 想看的内容
dsg001
2020-06-13 11:25:12 +08:00
html,css,xpath,正则,如果这些都熟,专心学下 python 一个月差不多了
leihongjiang
2020-06-13 11:32:25 +08:00
@lilydjwg 有可以聚合的吗.
leihongjiang
2020-06-13 11:33:31 +08:00
@imn1 如果有成品的采集 不是更方便吗
leihongjiang
2020-06-13 11:33:44 +08:00
@TimePPT 给推荐下
leihongjiang
2020-06-13 11:34:03 +08:00
@wangfj2333 八爪鱼能抓取 跳转后的链接吗
leihongjiang
2020-06-13 11:34:39 +08:00
@somalia 火车头需要单击点开 某个任务 才能查看到数据
leihongjiang
2020-06-13 11:35:41 +08:00
@dsg001 如果我只抓取 10 个网站的 首页更新的文章 有什么好的办法吗.毕竟一个月太长了
lilydjwg
2020-06-13 11:36:31 +08:00
@leihongjiang #11 我的意思是你自己按你的需求写。
dsg001
2020-06-13 12:48:26 +08:00
@leihongjiang 外包?或者把需求写清楚,偶尔有大手子顺手就写了
falcon05
2020-06-13 12:56:05 +08:00
挺简单,小白也很容易,一周应该能搞搞定了吧,就模拟请求,读写文件,字符串处理,如果有 RSS feed,就更简单了。
Junn
2020-06-13 13:27:42 +08:00
PY 爬虫的实例教程看一两个,然后 PY 基本语法什么教程看一遍,1 ~ 2 天吧
看 HTML 、CSS 、正则等等相关教程,1 天吧
参考教程、文档、根据自己需求开始干,1 ~ 2 天吧

总体努力的话 1 周可以了~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/681172

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX