网易杭州的菜单,公网的, ip 属于杭州电信。
目测没有什么防爬虫措施。
侵删(虽然应该不用保密)
url 格式为:
http://numenplus.yixin.im/singleNewsWap.do?materialId=14905
规律:
每周末或节假日末,集中更新下一周(到周日)的菜单, materialId 一般是连续的。
比如这次是 10.7 日更新了 14903,14904,14905,14906 ;
然后会更新一堆新闻之类的,比如 14920 ;
可能有一串 id 都是同一篇文章,比如 14800-14810 ;
有些 id 、过大的 id 对应的页面提示无内容。
1
kendetrics 2015-10-09 17:59:44 +08:00 1
饿了。。
|
2
tomine 2015-10-09 18:13:39 +08:00
哪里体现出了爬虫?
|
3
k1995 2015-10-09 18:16:56 +08:00
百度云爬虫路过, http://pan.whatsoo.com
|
5
vivisidea 2015-10-09 18:52:47 +08:00
菜单都是骗人的。。。。
|
7
Marfal 2015-10-09 19:05:19 +08:00
|