如何分析网页源代码从中获取自己想要的信息?

2012-02-19 21:17:14 +08:00
 cloverstd
我想监控一个网页的更新。
我想用wget或者curl获取网页后,然后用C++来分析网页Html,然后再提取出自己想到的信息。
我想是用find()函数来寻找特殊的关键字后再来提取,请问下有没有其他有效的分析网页更新的方法?
5376 次点击
所在节点    问与答
4 条回复
soulsaunter
2012-02-19 21:21:55 +08:00
一般需要使用到一个htmlparser 的东西来对网页构造出一个可操作的对象,然后,根据自己的分析,写一个算法来从对象中获取你想要的。说到底,分析(算法)是关键。
ligyxy
2012-02-19 21:29:35 +08:00
@soulsaunter 是否有入门的小例子?
avatasia
2012-02-19 22:06:25 +08:00
既然你会用c++,那么自己包装一个IE壳,你可以去greenbrower的代码里扒,然后用一个网页AppContainer,内嵌iframe获取你的目标网页,AppContainer里写一些操作iframe的dom的脚本。
ehaagwlke
2012-02-19 22:28:27 +08:00
找工具的话,有一个叫URLy Warning的东东,http://tech.sina.com.cn/down 里有。会把页面扒到本地,定时更新,有变化的部分会高亮显示。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/27722

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX