4 月份开始写的爬虫文章,今天做一个总结

2017-09-15 19:05:46 +08:00
 wisefree

2017 年 4 月份开始写爬虫系列文章,不知不觉到了 9 月份,时间过的真快,写毕业论文,毕业了,找工作,然后辞职,然后接着奋斗

4 月份开始写,一直断断续续,今天给爬虫文章收一个尾。

文章放到了的个人网站上:www.zhouww.com

Python_爬虫总结

补充了如下内容

有些文章需要些基础,有些文章只讲讲心得。欢迎大家指正,欢迎投稿。

4514 次点击
所在节点    Python
28 条回复
cxd44
2017-09-15 21:58:32 +08:00
谢谢,可以写一些对没啥基础的人的教程吗?
chrisliu1314
2017-09-15 22:18:17 +08:00
写的很系统。可以加一些爬虫框架,比如,pyspider
a87150
2017-09-15 22:36:22 +08:00
写爬虫的时候总觉得有点不好意思,感觉给别人添麻烦了
a1044634486
2017-09-15 22:40:37 +08:00
为啥你的站打开好慢,我的天。
ila
2017-09-15 22:43:03 +08:00
@chrisliu1314 能否讲讲他和 scrapy 的差异吗
chrisliu1314
2017-09-15 23:12:49 +08:00
@ila 没有过 scrapy。。。
chrisliu1314
2017-09-15 23:13:10 +08:00
@ila 没有用过
wisefree
2017-09-15 23:31:59 +08:00
@chrisliu1314 一直没用过框架,有机会去接触下
wisefree
2017-09-15 23:32:35 +08:00
@a1044634486 不会吧,国内 ip 我分流到了 coding 的 pages 上,国外的是 github 的 pages 上
wisefree
2017-09-15 23:35:21 +08:00
@cxd44 我的文章需要的基础会在前面说明的,如果加入基础,文章会很长
wisefree
2017-09-15 23:35:45 +08:00
@a87150 还好吧,>_<
26888
2017-09-15 23:43:09 +08:00
遇到中文网页不是用 utf8 编码(比如是 gb2312)这样的页面,存到数据库里(数据库是 utf8),一般怎么处理?什么时候转码啊?
a1044634486
2017-09-16 00:09:18 +08:00
a1044634486
2017-09-16 00:10:54 +08:00
wisefree
2017-09-16 09:02:42 +08:00
@26888 页面——》 Python ——》数据库,python 可以处理的。用 Python 把页面的内容解析出来,存入数据库。
taochunfan
2017-09-16 09:03:23 +08:00
老哥您的网站打不开啊!!
wisefree
2017-09-16 09:03:30 +08:00
@a1044634486 好吧,感谢反馈。说实话,coding,有时候不稳定,我也会遇到,>_>
wisefree
2017-09-16 09:06:50 +08:00
@taochunfan coding 的 pages 和 github 的 pages,应该没有问题啊,我刚刚又试了一遍。(虽然说 coding 有时候不稳定)
taochunfan
2017-09-16 09:08:49 +08:00
@wisefree 现在又可以了
wisefree
2017-09-16 09:43:05 +08:00
@taochunfan 真心尴尬,具体原因我也不太清楚,抱歉哈

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/391050

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX