只会用火车头采集的想改学 python 到底多久才能学会呀!!!

2015-10-19 10:09:51 +08:00
 xiaoyu9527

专门实战类的教程书籍可以推荐呀。 看理论书籍很快就忘记了。

3150 次点击
所在节点    问与答
3 条回复
kenshinhu
2015-10-19 10:12:10 +08:00
火车头采集是什么来的?
hippoboy
2015-10-19 11:04:20 +08:00
个人感觉 python 的书籍不是很多

有编程经验的看看 github 的实例,再不行 oschina 上也有很多

换句话说,seo 运营为王....比较反感那种用火车头抄抄抄的网站....转成 python,依然反感->_->

当然做信息集合的精选就另说了
lecher
2015-10-19 11:46:12 +08:00
只会用火车头,说明可能有几点没有掌握好。
1.数据库读写操作
2.编写基础的逻辑代码,循环,判断等等

但是至少这些是了解的。
1.html 的结构和显示原理
2.基础的服务器搭建
3.正则表达式

以上的五点都了解,就可以做到用 python 写采集器了。
所以除了看 python 的理论书籍之外,再增加数据库操作的学习就可以做到写一个阻塞的单线程采集器来替换火车头了。
学习阶段无非就是这几个。
1.学会用 python 抓取网页信息, requests 之类的库很方便就可以抓取到网页内容。
2.学会用 python 解析网页信息,可以用正则表达式扫描,也可以用 lxml 之类的将 html 解析成序列化的结构数据。
3.学会用 python 读写数据库, pymysql 之类的。达到第三阶段就可以实现用 python 写一个可以替换火车头的采集器了。
4.学习任意一个 python 的爬虫框架如 scrapy ,把 1 、 2 、 3 阶段的操作都放到框架里面,可以方便做采集任务的管理。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/229108

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX