早期的网页爬虫是如何进行的?

2015-12-25 16:49:19 +08:00

lx19930805

现在多是通过"审查元素"获取网页的代码结构,然后正则获取想要的内容.然后再代码编写
那请问过去的爬虫是通过什么方法获取网页和想要的内容?毕竟没有 HTML 提供

3117 次点击

所在节点

22 条回复

loading

2015-12-25 21:32:46 +08:00

楼主去看看织梦 cms 的采集功能。

loading

2015-12-25 21:34:40 +08:00

http://m.baidu.com/from=2001a/bd_page_type=1/ssid=0/uid=0/pu=usm%400%2Csz%401320_1003%2Cta%40iphone_2_5.1_1_10.8/baiduid=DF7CA29AC28DBEC89B9067FDD8F92CE4/w=0_10_%E7%BB%87%E6%A2%A6cms+%E9%87%87%E9%9B%86/t=iphone/l=3/tc?m=8&srd=1&dict=32&title=%25u7EC7%25u68A6CMS%25u5E2E%25u52A9%25u4E2D%25u5FC3_%25u5E2E%25u52A9%25u8BF4%25u660E%2F%25u91C7%25u96C6%25u5E2E%25u52A9&tch=124.0.0.0.0.0&src=http%3A%2F%2Fhelp.dedecms.com%2Fcollection%2F2011%2F0621%2F137.html

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/246141

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX