百度搜索结果 url 爬虫 ,怎么实现爬指定 1 到 10 页的结果(现在是固定爬取某一页的 url)

2017-12-06 15:01:39 +08:00
 Superbin

#coding=utf-8 import urllib2 import urllib import sys import re #from selenium import webdriver #from selenium.webdriver.common.keys import Keys import time

#url = "href = "http://www.baidu.com/link?url=bu4fsa-txw7aHhz0LEu-Ej8ON__uS6btmV_mo7nI2O0_qKtfc-3rJHSyXnYOINHSgDASX4R1V6GcjE2UBGFdjZ9ahmEbG2gsGGW6MVW7pQm"" #print url pattern = re.compile(r"href = "( http://www.baidu.com/link?url=.+?)"") #rehh = re.findall(pattern, url)

#for i in rehh: #print i

with open('data.txt','a+') as f: key_word = [] with open('key_word.txt','r') as kf: for line in kf: request = urllib2.Request('http://www.baidu.com/s?wd='+line.decode('gbk').encode('utf-8')+'&pn=0') response = urllib2.urlopen(request)

        #print response.read()
        #pattern = re.compile(r"href = \"(.+?)\"")
        rehh = re.findall(pattern, response.read())

        for i in rehh:
            request2 = urllib2.Request(i)
            response2 = urllib2.urlopen(request2)

            print response2.geturl()
            f.write(response2.geturl())
            f.write('\n')

f.close() kf.close()

2753 次点击
所在节点    Python
3 条回复
cyrbuzz
2017-12-06 19:04:10 +08:00
排版感人。
shawndev
2017-12-07 11:11:24 +08:00
selenium
shawndev
2017-12-07 11:12:19 +08:00
pn=0,pn 即 pagenumber

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/412476

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX