我有 3500 个网站的顶级域名,现在需要获取每个 website 内的全部子 url,并爬取子 url 内的 html 文字信息。
举例来说,以 www.giftofwings.com 为例子: 得到一堆类似于 http://www.giftofwings.com/cgi-bin/SoftCart.exe/cam.html?L+mystore1+bkcm8438ffb2f5b2+1507421651 http://giftofwings.com/specials.html 的 url,注意这里不要.js 和.css 等,只要页面。 拿到这个 list 后在做一个简单的 html 爬取,最后提交的是这些 html 的源码,只要文字信息,不爬任何多媒体,所以应该比较快。
详讯麻花腾:腰腰霸腰霸叁叁玲叁伍 null。