V2EX › 15015613 的所有回复 › 第 11 页 / 共 15 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 3 4 5 6 7 8 9 10 11 12 ... 15

❮

❯

2017 年 5 月 19 日

回复了 yuluofanchen 创建的主题 › 问与答 › 神箭手如何保留 a 标签的文字？

data = extract(data, "//a/text()");

2017 年 5 月 16 日

回复了 wudaown 创建的主题 › Python › BS4 求助

from lxml import etree
with open('tmp.html','r') as f:
____tree=etree.HTML(f.read())
tmp=tree.xpath('//tr')
import json
out=list()
for tmp1 in tmp[1:]:
____i=0
____dict_d={1:'Date',2:'Day',3:'Time',4:'Course',5:' Course Title',6:'Duration'}
____t1=dict()
____for t in tmp1:
________i=i+1
________t2=t.xpath('text()')[0]
________t1[dict_d[i]]=t2
____out.append(t1)
out2=dict()
for o in out:
____try:
________out2[o['Course']]={'Course Title':o[' Course Title'],'Date':o['Date'],'Day':o['Day'],'Duration':o['Duration'],'Time':o['Time']}
____except:
________pass
print(out2)

2017 年 5 月 16 日

回复了 wudaown 创建的主题 › Python › BS4 求助

In [1]: from lxml import etree
In [2]: with open('tmp.html','r') as f:
...: tree=etree.HTML(f.read())
In [10]: tmp=tree.xpath('//tr')
In [29]: import json
In [37]: out=list()
...: for tmp1 in tmp[1:]:
...: i=0
...: dict_d={1:'Date',2:'Day',3:'Time',4:'Course',5:' Course Title',6:'Duration'}
...: t1=dict()
...: for t in tmp1:
...: i=i+1
...: t2=t.xpath('text()')[0]
...: t1[dict_d[i]]=t2
...: out.append(t1)
In [45]: out2=dict()
...: for o in out:
...: try:
...: out2[o['Course']]={'Course Title':o[' Course Title'],'Date':o['Date'],'Day':o['Day'],'Duration':o['Duration'],'Time':o['Time']}
...: except:
...: pass
In [46]: out2
Out[46]:
{' AC1101 ': {'Course Title': ' ACCOUNTING I ',
'Date': ' 24 November 2017 ',
'Day': ' Friday ',
'Duration': ' 2.5 ',
'Time': ' 9.00 am '},
' AD1101 ': {'Course Title': ' FINANCIAL ACCOUNTING ',
'Date': ' 24 November 2017 ',
'Day': ' Friday ',
'Duration': ' 2.5 ',
'Time': ' 9.00 am '},
' BA3201 ': {'Course Title': ' LIFE CONTINGENCIES AND DEMOGRAPHY ',
'Date': ' 24 November 2017 ',
'Day': ' Friday ',
'Duration': ' 3 ',
'Time': ' 9.00 am '}}

2017 年 5 月 15 日

回复了 venhow 创建的主题 › 业界八卦 › 关于 WannaCry 病毒与云备份

@est
->发现文件被加密->打开云盘历史版本->选择恢复至特点时间前点的版本->问题解决

2017 年 5 月 6 日

回复了 ixo 创建的主题 › 问与答 › 有没有免费的网页快照收藏类的工具？

@schezukNewTos
这也是没办法的事呀！
用 robots.txt 限制不让爬的网站毕竟是少数，对付博客一类的网站也算是够用了。
我也算是 archive.org 重度用户了吧。平时查询的网页，80%都可以找的到吧。

对于 ajax，如果是打开网页就加载的那种好像结果还不错，要往下拉才加载的这种效果的确是不太好。

比 archive.org 还好用的同类服务，我也很想知道呀。

2017 年 5 月 6 日

回复了 ixo 创建的主题 › 问与答 › 有没有免费的网页快照收藏类的工具？

https://archive.org/

感觉好用别忘了捐钱支持

2017 年 5 月 6 日

回复了 GrahamCloud 创建的主题 › 推广 › 云爬虫与爬虫软件的认真探讨

@GrahamCloud
总体来说，和刚出来时没有多少提高，刚刚出来功能不完善可以理解，但过了这么久还没有提高，那就太……

2017 年 5 月 6 日

回复了 GrahamCloud 创建的主题 › 推广 › 云爬虫与爬虫软件的认真探讨

@GrahamCloud
问题太多了，直接没办法用。

举个例子吧。
http://book.sfacg.com/
抓取每日首页推荐情况。
之前便有人反映过，页面的弹出层无法点击去除，现在这个问题还在，没有改善。
不过这个问题不太影响本次抓取，便不说了。

先选取首页的轮播图，只能得到图片的 url 和小说页面的 url，得不到小说的名称，但原始数据里头是含有小说名称的。
```
<img data-original="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" alt="无敌的我选择种田" src="http://rs.sfacg.com/web/m/images/homePush/2017/04/5c95aca9-9e5d-4301-bd83-896cf938ea17_big.jpg" style="display: inline;">
```
然后下面的人气风向标、最近有意思的新书，由于有重叠层，选取的数据有错误，基本不能用。

仅仅最后封面推荐爬取的还算符合要求。

再打开小说详情页，不支持异步加载，评论数量完全无法抓取。

还有选取的数据不支持后期处理，不支持分组。
不支持图片的爬取下载，只能爬取文字资料。

就这服务水平、服务质量也好意思大言不惭的说，“所有你需要的功能”、“最好的云爬虫工具”。

价格 1 元 50 个页面，太贵了，这样的质量也好意思收费这么贵？

对了还不支持登录爬取，这点忘了。

@Moker
我也是这样觉得，看他们隔两天上来发一次广告，真是烦人的很。

2017 年 4 月 27 日

回复了 wafm 创建的主题 › 微信 › 当下是否可以这么认为：只要拥有智能机就视为是微信用户？

@wafm
你对微信用户的定义太宽泛了，实在不能苟同。

手机上装了微信就是微信用户？？？

你开发了一个 App，什么安装有奖、新用户优惠各种推广活动，不少人下载安装了，用了一次就再也没使用，app 还暂时在手机上没卸载，这样的也算是用户。

是不是用户，也要从使用频率上来定义。
最少一周用一次微信的才能算做微信的用户，一年才上一两次的，也能算做用户？？

2017 年 4 月 25 日

回复了 endosome 创建的主题 › macOS › 求推荐一个 Firefox 下载管理扩展

DownThemAll

2017 年 4 月 24 日

回复了 15015613 创建的主题 › Linux › archlinux 更新后， sddm 黑屏

https://gist.github.com/yingziwu/5ad47fa7b8f2e32e87368755322eb023

2017 年 4 月 19 日

回复了 chousb 创建的主题 › 推广 › 我不卖 T 恤，我只送！

分母+1

2017 年 4 月 18 日

回复了 qq316107934 创建的主题 › 宽带症候群 › 宽带劫持投诉到工信部，联通不认帐怎么办

@EricCartman
手机 Firefox 也可以装插件呀！就是数量少了一点。
HTTPS Everywhere ， uBlock Origin 都可以在手机上用呀！