像这样的文章要怎么爬取?

2018-07-04 20:53:12 +08:00
 LeCent

右上选择月份,显示该月份的最后一篇,然后往前翻

http://www.sandeechan.com/blog/?m=200707

2201 次点击
所在节点    Python
3 条回复
DrSpencerReid
2018-07-05 09:29:24 +08:00
看 url 也能看出来怎么抓了。。。。。。http://www.sandeechan.com/blog/?m=200707&paged=3
liuguichao
2018-07-05 09:30:16 +08:00
定位 html 标记,使用 xpath 提取 option value。

<select id="archives-dropdown-2" name="archive-dropdown" onchange="document.location.href=this.options[this.selectedIndex].value;">

<option value="">選擇月份</option>
<option value="http://www.sandeechan.com/blog/?m=201103"> 2011 年 三月 &nbsp;(31)</option>
<option value="http://www.sandeechan.com/blog/?m=201102"> 2011 年 二月 &nbsp;(28)</option>
<option value="http://www.sandeechan.com/blog/?m=201101"> 2011 年 一月 &nbsp;(31)</option>
<option value="http://www.sandeechan.com/blog/?m=201012"> 2010 年 十二月 &nbsp;(31)</option>

</select>
RicardoScofileld
2018-07-05 10:37:28 +08:00
直接从页面固定位置获取下一页的 url 不就好了吗,然后接着请求下一页

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/468176

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX