理论上爬虫能爬取到所有我们看到的页面吗?

2014-04-02 14:11:48 +08:00

zoosucker

如果每次浏览器和服务器的通信都有一个token，而我们又无法看懂到底是什么，那么我们的爬虫是不是就无法爬取页面信息了啊?

4063 次点击

所在节点

11 条回复

Esay

2014-04-02 14:17:58 +08:00

是的。
抓取比较困难的内容可以使用 http://phantomjs.org/ 这样没有界面的浏览器。

asing

2014-04-02 14:24:30 +08:00

lz的问题可以这样理解不

如果一个网站的管理后台路径是example.com/ksdks31
这样爬虫也抓取不到吧

这样只需书签下地址就可以，也不用做ip访问限制等策略了.

jsonline

2014-04-02 14:25:09 +08:00

天天有人研究爬虫

binux

2014-04-02 14:31:40 +08:00

我们看到页面是一个获得信息，消除信息不确定性的过程，爬虫也是

dorentus

2014-04-02 15:46:59 +08:00

理论上么，爬虫和浏览器一样都是 user agent，自然能做的东西都是一样的……

cxh116

2014-04-02 15:49:03 +08:00

像某些小说站,内容都生成图片了,这个应该是无法索引

msg7086

2014-04-02 17:40:54 +08:00

@asing 说不定就有浏览器连书签也爬虫给你看

xh1994

2014-04-03 00:13:21 +08:00

不能！那些通过 ajax 加载内容的页面你怎么爬？而且现在这样的页面越来越多了！

mengli

2014-04-03 00:14:46 +08:00

@cxh116 弄个orc文字识别如何？你总不可能把文章加工的很验证码一样。

cxh116

2014-04-06 19:38:38 +08:00

@mengli ocr的话,不同的站用不同的字体,而且还有很多站加了背景图之类的

通用的蜘蛛实现是比较难,针对每个站写定向蜘蛛肯定是没有问题

zoosucker

2014-04-29 10:18:33 +08:00

@xh1994 我用selenium + Python做的一个爬虫，类似自己一个一个点击，这样就可以搞定Ajax的了。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.