早期的网页爬虫是如何进行的?

2015-12-25 16:49:19 +08:00
 lx19930805

现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

2939 次点击
所在节点    问与答
22 条回复
imn1
2015-12-25 17:18:16 +08:00
?
啥意思
没有 HTML 何来网页?没有 HTML 的时代也没有爬虫一说
那时候都是 tele bbs+邮件列表
qw7692336
2015-12-25 17:28:54 +08:00
不是更容易吗
ck65
2015-12-25 17:37:22 +08:00
隐约觉得楼主暴露年龄段了。
lx19930805
2015-12-25 18:02:38 +08:00
@imn1 一开始就纠结该怎么用词,果然有人提了.所以我前面有解释.
因为不懂各种词的表达,所以不要见怪.
就是网页源代码,里面的那些 HTML 代码.
早期没有"审查元素",是如何具体爬出来的.
lx19930805
2015-12-25 18:03:34 +08:00
@ck65 我觉得这没什么必要隐藏(93).该说的应该是觉得我是个新手,我才刚接触
lx19930805
2015-12-25 18:03:50 +08:00
@qw7692336 具体呢?
Zzzzzzzzz
2015-12-25 18:05:47 +08:00
view-source, 审核元素其实不准的, 因为浏览器会补全一些元素
早些时候也不流行 xpath, 都是直接用正则直接处理 raw html 的.
abelyao
2015-12-25 18:06:26 +08:00
@lx19930805 你是指在没有「审查元素」之前怎么怎么从一大堆 HTML 中找出想要的信息的位置吧?那当然是人工查找啦, HTML 那么简单…
lx19930805
2015-12-25 18:14:40 +08:00
@abelyao 啊?那获取源代码,然后复制粘贴到想要的地方显示出来呢.不是也要通过爬虫吗?
抱歉,我是新人,看了一下 python 的爬某个网站,发现都是先审查,然后根据相应 div 内容等来改的
imn1
2015-12-25 18:15:44 +08:00
@lx19930805
你是说 DOM 吧?
DOM 其实很早就有了, 9x 年代,大概 ie3~4 期间出现
再早些时候 js 都没有, html 页面很简单,直接文本查找就可以了,正则
那个是贺氏时代,网速慢得要死,没什么人弄爬虫
但那时有一种另类爬虫,就是离线浏览器,基本上就是抓<a href=>
loading
2015-12-25 18:16:35 +08:00
居然要审查元素…楼主,你水平暴露了。

我们以前都是用 windows 记事本来审查元素的,不需要 chrome 或者 firefox
qqmishi
2015-12-25 18:22:59 +08:00
右键查看网页源代码,人肉去查,,,
xcodebuild
2015-12-25 18:26:57 +08:00
楼主的描述方式有点白啊,,,以及正则不适合处理 html ,用 xpath
lx19930805
2015-12-25 18:31:24 +08:00
@loading @qqmishi @codefalling 很抱歉我语文表达不好,而且也是刚接触这方面,各种专业词语都不懂,无法表达.
在没有"审查元素"之类的东西(不知道'查看网页源代码'过去有没有,请尽量当它没有吧)出来前,是如何爬的.
Kokororin
2015-12-25 18:33:16 +08:00
就算过去没有查看源代码,记事本总有吧。直接打开里面输入 url 地址就是源代码
lxy
2015-12-25 18:36:43 +08:00
在“审查元素”这个功能没有之前,可以右键查看源码吧?即使没有,也可以直接 Ctrl+S 保存网页文档,然后查看源码。不知那个时候有没有抓包工具,反正我小学的时候就会用 IE6 保存网页了。
xidianpanpei
2015-12-25 19:47:26 +08:00
估计楼主是想知道在浏览器没有查看网页源码功能的时候,大家是怎么解析网页做爬虫的。这个其实不复杂,因为无论 python 中 request 还是 linux 的 curl 都是先获取到网页源码后,接着再做解析处理的。不信可以在终端中执行'curl www.baidu.com'这个命令,就可以直接获取百度首页的源码。
binux
2015-12-25 19:55:17 +08:00
审查元素只是帮你建树并定位节点,但是 HTML 源代码本事就存在的,即使没有审查元素,也可以脑内建树嘛。
而且早期的页面,没有那么多复杂的元素<h1>就是<h1>,<li>就是<li>,结构清晰得多。
crab
2015-12-25 20:21:59 +08:00
winnet winhttp .....等等等
xcodebuild
2015-12-25 20:55:46 +08:00
@lx19930805 我还真不知道早期浏览器有没有这个功能,但是 curl 一下也就出来了-。-

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/246141

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX