链接,http://www.xuexila.com/sudu/fazhan/ 我想抓取,这个目录下的链接,在练习神箭手做爬虫来练习下,看了几个 demo,昨晚成功写了一个,心底很高兴,挺有成就感的,但是今天抓取的,感觉有点怪,抓取到了其他目录的链接。
我是这样写的正则。 var configs = { domains: ["www.xuexila.com"],// 网站域名,设置域名后只处理这些域名下的网页 scanUrls: ["http://www.xuexila.com/sudu/fazhan/"],// 入口页链接,分别从这些链接开始爬取 contentUrlRegexes: [/http://www.xuexila.com/sudu/fazhan/\d+.html/],// 内容页 url
/http://www.xuexila.com/sudu/fazhan/\d+.html/ 不知道这个写法对吗,这个是参考了里面的 demo,然后瞄了一眼 30 分钟入门正则的,晚上打算认真学习下正则,感觉挺有用的。谢谢大家了。
ps:学 python 挺有趣的,现在在看嵩天老师的 python 程序设计,第 4 周。还没到爬虫那一块。自学一点就是学起来费劲,比如我昨天刚接触的神箭手,前面三行代码看了几个 demo 才写的,后面的抽取规则,不懂,一开始没写,然后运行,没有抓取结果,然后重新看了下代码,发现要写抽取规则,看见 // 默认使用 xpath 抽取,我的天,不懂 xpath,赶紧百度了一下,看到是要把 html 转换成 dom 节点,然后我又去百度了下在线 html 转换 dom,搜了好久没搜到,后来看到一篇文章,说打开网页,然后右键,审查元素,然后复制 xpath,原来这么简单,我会了。但是实际上,有 xpath 语法的,因为我抽取标题的规则,是直接右键,然后复制出来的是 /html/body/div[5]/div/div[2]/div[1]/h1,我又试了下,发现不行,然后又跑去看了下 demo,又看了一眼 xpath,结果发现,标题的抽取直接 //h1 就可以了。反正折腾下来,就写了一个小爬虫。哈哈。然后昨晚,问了关于 xpath 的一个问题,https://www.v2ex.com/t/362343,我试了下,没成功,晚上再去摸索一下。现在是链接的正则,我不知道对不对,还是请大家帮忙看下,谢谢。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.