主要 py 文件码源:
import scrapy
from myfirst.items import MyfirstItem
class TestSpider(scrapy.Spider):
name = 'test'
part_url = '
https://www.qiushibaike.com/imgrank/' page = 'page/'
def start_requests(self):
for page_number in range(1, 2, 1):
if page_number == 1:
yield self.make_requests_from_url(self.part_url)
else:
yield self.make_requests_from_url(self.part_url + self.page + str(page_number) + "/")
def parse(self, response):
item = MyfirstItem()
item["img_url"] = response.xpath("//div[@class='thumb']/a/img/@src")
for url in item["img_url"]:
print(url)
url 打印出来:
<Selector xpath="//div[@class='thumb']/a/img/@src" data='//
pic.qiushibaike.com/system/pictures/11'>
实际地址比 data 的要长
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/412305
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.