import re
import urllib.request
import urllib.error
headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
for i in range(2,10):
aurl="
http://m.qiushi.92game.net/?page="+str(i)
pagedata=urllib.request.urlopen(aurl).read().decode('utf-8','ignore')
data2 = pagedata
pat='<div class="qiushi" id=".*?">(.*?)</div>'
datalist = re.compile(pat)
datalist2 = datalist.findall(pagedata)
for j in range(0,len(datalist2)):
print("第"+str(i)+"页第"+str(j)+"条内容是")
print(datalist2[j])
这是爬一个网站的代码,我想请教这么几个问题
假如说做一个扩展的话,想单独爬标题我会,单独爬内容也会
把爬出来的字段,放到数据库里面,或者放到一个表格里面,应该怎么样写?
暂时在看 pyhton 方面的教程
框架这块我还没开始学。想先多了解一下。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/613107
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.