请教,开发爬虫时有什么工具可以根据 HTML 源码确定合适的 XPath 表达式和 CSS 表达式?

2017-09-04 19:30:46 +08:00
 saximi
32 位的 WINDOWS7 下开发爬虫,使用的浏览器可能涉及 IE、CHROME、FIREFOX。
想根据网站源码确定对应的 XPath 表达式、CSS 表达式,请问有什么好用的工具么?
感谢指点!
2951 次点击
所在节点    Python
11 条回复
cnwtex
2017-09-04 19:36:56 +08:00
chrome 里面按 f12, 然后 Ctrl+Shift+C 找到想要的元素,然后右键点 Elements 对应的源码,COPY->XPATH
saximi
2017-09-04 20:50:19 +08:00
@cnwtex 谢谢,不知 IE 下有这样的工具么?
littlewing
2017-09-05 00:18:30 +08:00
chrome
zbl430
2017-09-05 09:13:13 +08:00
用 chrome 就好了,用那么多浏览器干嘛。。
canbingzt
2017-09-05 09:15:40 +08:00
chrome 给出的 XPath 经常是 //div[1]/div[2]/div[3]这种,有时候很坑
baixiangcpp
2017-09-05 09:16:51 +08:00
CSS and XPath checker
chengxiao
2017-09-05 09:26:14 +08:00
浏览器直接给出的比较坑,推荐用一个叫 Xpath Helper 的扩展来自己调试
一般就是找到相应 id 或者 class 再向下定位几级元素会更准确一些
yykrlc
2017-09-05 10:57:02 +08:00
chrome +XPath Helper
saximi
2017-09-05 22:47:21 +08:00
@chengxiao 谢谢,找到这个插件了!
ila
2017-09-10 03:37:41 +08:00
说个笑话,chrome f12 检测的 tbody
pinsily
2017-10-07 13:06:11 +08:00
个人觉得还是花一两个钟把 Xpath 这些语法弄清楚,浏览器给的当个参考,百分百妥当

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/388136

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX