@
lecher 我已经自己写了一个
#-*-coding:utf8-*-
import requests
import re
#把网页名存进数组
# <a href ="Deception.00.temperature.html">00Z </a> 00 06 12 18
#按网页开始循环,每次新建一个同名的 txt ,
# <tr><th><h5> 1962</h5><th><h5>是表头
# <th><h5><font color = black> -8.8<i>是数据
html = requests.get('
https://legacy.bas.ac.uk/met/READER/surface/stationpt.html')
#print html.text
site = re.findall('<a href ="(.*?)">',html.text,re.S)
for each in site:
print '正在分析子站点',each
f=open(each,'a')
small=requests.get('
https://legacy.bas.ac.uk/met/READER/surface/'+each)
# data=re.findall('<th><h5><font color = black>(.*?)<i>',small.text,re.S)
# for each in data:
f.writelines(small.text)
f.close()
我发现直接把网页扒下来还好用一些
因为表格可以直接复制进 execl
可以更容易分析数据