V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  15015613  ›  全部回复第 11 页 / 共 15 页
回复总数  299
1 ... 3  4  5  6  7  8  9  10  11  12 ... 15  
2017-05-19 08:34:17 +08:00
回复了 yuluofanchen 创建的主题 问与答 神箭手如何保留 a 标签的文字?
data = extract(data, "//a/text()");
2017-05-16 23:59:35 +08:00
回复了 wudaown 创建的主题 Python BS4 求助
from lxml import etree
with open('tmp.html','r') as f:
____tree=etree.HTML(f.read())
tmp=tree.xpath('//tr')
import json
out=list()
for tmp1 in tmp[1:]:
____i=0
____dict_d={1:'Date',2:'Day',3:'Time',4:'Course',5:' Course Title',6:'Duration'}
____t1=dict()
____for t in tmp1:
________i=i+1
________t2=t.xpath('text()')[0]
________t1[dict_d[i]]=t2
____out.append(t1)
out2=dict()
for o in out:
____try:
________out2[o['Course']]={'Course Title':o[' Course Title'],'Date':o['Date'],'Day':o['Day'],'Duration':o['Duration'],'Time':o['Time']}
____except:
________pass
print(out2)
2017-05-16 23:55:52 +08:00
回复了 wudaown 创建的主题 Python BS4 求助
In [1]: from lxml import etree
In [2]: with open('tmp.html','r') as f:
...: tree=etree.HTML(f.read())
In [10]: tmp=tree.xpath('//tr')
In [29]: import json
In [37]: out=list()
...: for tmp1 in tmp[1:]:
...: i=0
...: dict_d={1:'Date',2:'Day',3:'Time',4:'Course',5:' Course Title',6:'Duration'}
...: t1=dict()
...: for t in tmp1:
...: i=i+1
...: t2=t.xpath('text()')[0]
...: t1[dict_d[i]]=t2
...: out.append(t1)
In [45]: out2=dict()
...: for o in out:
...: try:
...: out2[o['Course']]={'Course Title':o[' Course Title'],'Date':o['Date'],'Day':o['Day'],'Duration':o['Duration'],'Time':o['Time']}
...: except:
...: pass
In [46]: out2
Out[46]:
{' AC1101 ': {'Course Title': ' ACCOUNTING I ',
'Date': ' 24 November 2017 ',
'Day': ' Friday ',
'Duration': ' 2.5 ',
'Time': ' 9.00 am '},
' AD1101 ': {'Course Title': ' FINANCIAL ACCOUNTING ',
'Date': ' 24 November 2017 ',
'Day': ' Friday ',
'Duration': ' 2.5 ',
'Time': ' 9.00 am '},
' BA3201 ': {'Course Title': ' LIFE CONTINGENCIES AND DEMOGRAPHY ',
'Date': ' 24 November 2017 ',
'Day': ' Friday ',
'Duration': ' 3 ',
'Time': ' 9.00 am '}}
2017-05-15 09:15:55 +08:00
回复了 venhow 创建的主题 业界八卦 关于 WannaCry 病毒与云备份
@est
->发现文件被加密->打开云盘历史版本->选择恢复至特点时间前点的版本->问题解决
2017-05-06 15:07:35 +08:00
回复了 microget 创建的主题 问与答 有没有免费的网页快照收藏类的工具?
@schezukNewTos
这也是没办法的事呀!
用 robots.txt 限制不让爬的网站毕竟是少数,对付博客一类的网站也算是够用了。
我也算是 archive.org 重度用户了吧。平时查询的网页,80%都可以找的到吧。

对于 ajax,如果是打开网页就加载的那种好像结果还不错,要往下拉才加载的这种效果的确是不太好。

archive.org 还好用的同类服务,我也很想知道呀。
2017-05-06 12:58:49 +08:00
回复了 microget 创建的主题 问与答 有没有免费的网页快照收藏类的工具?
https://archive.org/

感觉好用别忘了捐钱支持
2017-05-06 10:37:41 +08:00
回复了 GrahamCloud 创建的主题 推广 云爬虫 与 爬虫软件的认真探讨
@GrahamCloud
总体来说,和刚出来时没有多少提高,刚刚出来功能不完善可以理解,但过了这么久还没有提高,那就太……
2017-05-06 10:23:32 +08:00
回复了 GrahamCloud 创建的主题 推广 云爬虫 与 爬虫软件的认真探讨
@GrahamCloud
问题太多了,直接没办法用。

举个例子吧。
http://book.sfacg.com/
抓取每日首页推荐情况。
之前便有人反映过,页面的弹出层无法点击去除,现在这个问题还在,没有改善。
不过这个问题不太影响本次抓取,便不说了。

先选取首页的轮播图,只能得到图片的 url 和小说页面的 url,得不到小说的名称,但原始数据里头是含有小说名称的。
```
<img data-original="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" alt="无敌的我选择种田" src="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" style="display: inline;">
```
然后下面的 人气风向标、最近有意思的新书,由于有重叠层,选取的数据有错误,基本不能用。

仅仅最后 封面推荐爬取的还算符合要求。

再打开小说详情页,不支持异步加载,评论数量完全无法抓取。

还有选取的数据不支持后期处理,不支持分组。
不支持图片的爬取下载,只能爬取文字资料。

就这服务水平、服务质量也好意思大言不惭的说,“所有你需要的功能”、“最好的云爬虫工具”。

价格 1 元 50 个页面,太贵了,这样的质量也好意思收费这么贵?

对了还不支持登录爬取,这点忘了。

@Moker
我也是这样觉得,看他们隔两天上来发一次广告,真是烦人的很。
2017-04-27 23:23:57 +08:00
回复了 wafm 创建的主题 微信 当下是否可以这么认为:只要拥有智能机就视为是微信用户?
@wafm
你对微信用户的定义太宽泛了,实在不能苟同。

手机上装了微信就是微信用户???

你开发了一个 App,什么安装有奖、新用户优惠各种推广活动,不少人下载安装了,用了一次就再也没使用,app 还暂时在手机上没卸载,这样的也算是用户。

是不是用户,也要从使用频率上来定义。
最少一周用一次微信的才能算做微信的用户,一年才上一两次的,也能算做用户??
2017-04-25 07:55:22 +08:00
回复了 endosome 创建的主题 macOS 求推荐一个 Firefox 下载管理扩展
DownThemAll
2017-04-24 12:12:00 +08:00
回复了 15015613 创建的主题 Linux archlinux 更新后, sddm 黑屏
2017-04-19 22:44:17 +08:00
回复了 chousb 创建的主题 推广 我不卖 T 恤,我只送!
分母+1
2017-04-18 23:55:26 +08:00
回复了 qq316107934 创建的主题 宽带症候群 宽带劫持投诉到工信部,联通不认帐怎么办
@EricCartman
手机 Firefox 也可以装插件呀!就是数量少了一点。
HTTPS Everywhere , uBlock Origin 都可以在手机上用呀!
2017-04-18 19:16:45 +08:00
回复了 hiboshi 创建的主题 问与答 你们都是把爬虫托管在哪里
把爬的图片上传到对象存储上,应该可以解决这个问题。
爬完一张,上传一张,然后定期删除本机图片。
2017-04-10 14:19:14 +08:00
回复了 qq7790586 创建的主题 问与答 请教下 Ubuntu 系统备份恢复的问题
1 ... 3  4  5  6  7  8  9  10  11  12 ... 15  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2206 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 37ms · UTC 01:45 · PVG 09:45 · LAX 17:45 · JFK 20:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.