如何分析网页源代码从中获取自己想要的信息？

2012-02-19 21:17:14 +08:00

cloverstd

我想监控一个网页的更新。
我想用wget或者curl获取网页后，然后用C++来分析网页Html，然后再提取出自己想到的信息。
我想是用find()函数来寻找特殊的关键字后再来提取，请问下有没有其他有效的分析网页更新的方法？

5376 次点击

所在节点

4 条回复

soulsaunter

2012-02-19 21:21:55 +08:00

一般需要使用到一个htmlparser 的东西来对网页构造出一个可操作的对象，然后，根据自己的分析，写一个算法来从对象中获取你想要的。说到底，分析（算法）是关键。

ligyxy

2012-02-19 21:29:35 +08:00

@soulsaunter 是否有入门的小例子？

avatasia

2012-02-19 22:06:25 +08:00

既然你会用c++，那么自己包装一个IE壳，你可以去greenbrower的代码里扒，然后用一个网页AppContainer，内嵌iframe获取你的目标网页，AppContainer里写一些操作iframe的dom的脚本。

ehaagwlke

2012-02-19 22:28:27 +08:00

找工具的话，有一个叫URLy Warning的东东，http://tech.sina.com.cn/down 里有。会把页面扒到本地，定时更新，有变化的部分会高亮显示。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.