V2EX › my8100 的所有回复 › 第 1 页 / 共 3 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3

❮

❯

69 天前

回复了 qtoq126 创建的主题 › Python › 写的 Scrapy 爬虫程序在 For 循环中会漏爬很多数据

把 scrapy 抓取的网页保存到文件，再手动调用解析一次，看是网页还是解析问题。

153 天前

回复了 TwoCrowns 创建的主题 › 酷工作 › base 上海/广州，大量外企外包捞人， WLB+商业保险

@TwoCrowns 好像 base64 解码也搜不到微信？

305 天前

回复了 moudy 创建的主题 › Python › Python += 运算符可以修改原始引用？！

写成这样会清楚一些吧：

g_all = Graphics()

g_all = g_all + circle(origin, i*5)
frames.append(g_all)

305 天前

回复了 moudy 创建的主题 › Python › Python += 运算符可以修改原始引用？！

https://github.com/sagemath/sage/blob/c4363fc97eb67fb08073ea37ef88d633e9feb160/src/sage/plot/graphics.py#L1129

def __add__(self, other):
"""
If you have any Graphics object G1, you can always add any other
amount of Graphics objects G2,G3,... to form a new Graphics object:
``G4 = G1 + G2 + G3``.

338 天前

回复了 ddvmonster123 创建的主题 › 深圳 › [紧急求助租房]在科兴园上班，求租一个附近的房子，预算 2k 以下，明天就想看房入住，比较紧急

没用过，可以看看深圳租房团深圳租房小天使。

2024-02-20 12:55:53 +08:00

回复了 wallriding 创建的主题 › Google › 恐怖故事：买了我的二手 iPhone 的人可能一直拥有我 Google 账户的访问权限

浏览器 F12 看实际返回的时间带不带年份信息。

2023-12-06 21:38:20 +08:00

回复了 amiwrong123 创建的主题 › 问与答 › 我这个 py 包 py4j 是不是不太对，__inti__.py 里面只有几行代码？

试试 from py4j.protocol import get_return_value

2022-11-15 12:52:56 +08:00

回复了 itskingname 创建的主题 › 正则表达式 › 正则表达式如何忽略子字符串中的内容

“忽略双引号内部的中括号中的内容”，既然这么明确，为啥不先 re.sub 一次将无关内容替换为空字符串？

2022-11-03 20:49:29 +08:00

回复了 ADzzzz 创建的主题 › 问与答 › 求教，一个字符串内同时包含门店地址与门店名称，且地址与名称之间没有可用于分隔的文字，如何使用正则分别匹配出地址与名称？

https://regex101.com/r/JHLiu0/1

2021-01-16 23:46:43 +08:00

回复了 yixiugegegege 创建的主题 › Python › 迫于逻辑实在理不清了， Python 求助

from collections import defaultdict

child_dict = defaultdict(list)
for d in data["child"]:
child_dict[d["f_pyfirstletter"]].append(d)

assert {"child": child_dict} == target_data

2021-01-16 22:46:23 +08:00

回复了 chaleaoch 创建的主题 › 问与答 › Python 的开源项目现在 requirements.txt 越来越少了. 如何搭建开发环境?

https://github.com/agronholm/apscheduler/blob/master/setup.cfg#L23

2019-11-07 07:55:04 +08:00

回复了 Livid 创建的主题 › Python › 关于 Flask 项目的代码文件组织

https://blog.miguelgrinberg.com/post/the-flask-mega-tutorial-part-xv-a-better-application-structure

2019-08-25 10:11:40 +08:00

回复了 xiangyuecn 创建的主题 › 程序员 › 各位大佬，我问个 GitHub 的问题： Traffic 里面好几天没涨流量了

Visitors and git clone insights traffic stats on all repos shows as zero since the 21st August 2019 #1650
https://github.com/isaacs/github/issues/1650

2019-08-23 09:58:35 +08:00

回复了 aaronhua 创建的主题 › Python › scrapydweb 和 spiderkeeper 有什么区别？

“请尽量让自己的回复能够对别人有帮助”

2019-08-22 23:50:03 +08:00

回复了 aaronhua 创建的主题 › Python › scrapydweb 和 spiderkeeper 有什么区别？

1. 可靠性：持续集成，目前代码覆盖率 > 89%。
2. 实用性：集成 LogParser，爬虫进度可视化，基于 Scrapy 日志分析的监控和警报。
3. 可扩展性：在爬虫集群的任意多个节点实现一键操作，包括部署，运行，停止和删除项目，汇总分布式爬虫的日志分析报告等。
4. 权威性：Scrapyd 开发者成员之一，及时适配新版本新特性。

在线体验就完事了： https://scrapydweb.herokuapp.com/

2019-06-30 22:03:27 +08:00

回复了 kikaoki 创建的主题 › 问与答 › 有办法知道这两个网页在时间上的先后关系么？

## Chrome F12 开发者工具
http://www.pudong.gov.cn/shpd/department/20190315/019020004004_3377cd83-5f78-4809-ad60-f5eef65ad1c2.htm
Last-Modified: Mon, 25 Mar 2019 08:47:12 GMT

http://www.pudong.gov.cn/shpd/department/20190315/019020004004_988dd3b7-77ec-4ba8-bd3d-b6badaf470ca.htm
Last-Modified: Fri, 15 Mar 2019 09:18:50 GMT

## 下载 xls 文件
右键>属性>详细信息>最后一次保存的日期也能看出区别。

你自己再确认一下。

2019-06-30 18:26:53 +08:00

回复了 qazwsxkevin 创建的主题 › Python › [爬虫]通过 xpath 提取元素，目标混在多个节点名称相同之中，处理思路应该怎么做？(内详)

参考 #1 的写法：
```
In [229]: sel.xpath("//tbody[tr/th/text()='跑步机']/tr[@align='center']/td/text()").extract()
Out[229]:
['\n ',
'\n ',
'\n ',
'\n ',
'38Min.',
'14:29',
'15:07']

In [230]:
```

2019-06-30 18:10:48 +08:00

回复了 qazwsxkevin 创建的主题 › Python › [爬虫]通过 xpath 提取元素，目标混在多个节点名称相同之中，处理思路应该怎么做？(内详)

<tr><th colspan="5" class="pit" align="center">跑步机</th></tr>
<td>
这里第二行的 <td> 应该是多余的

```
In [215]: from scrapy import Selector

In [216]: sel = Selector(text=doc)

In [217]: sel.xpath("//th[contains(text(), '跑步机')]/parent::tr/following-sibling::tr/td/text()").extract()
Out[217]:
['\n ',
'\n ',
'\n ',
'\n ',
'38Min.',
'14:29',
'15:07']

In [218]: sel.xpath("//th[text()='跑步机']/parent::tr/following-sibling::tr/td/text()").extract()
Out[218]:
['\n ',
'\n ',
'\n ',
'\n ',
'38Min.',
'14:29',
'15:07']

In [219]:
```

2019-06-28 15:33:49 +08:00

回复了 my8100 创建的主题 › Python › 正式成为 scrapy/scrapyd 开源项目开发成员，欢迎大家留言反馈问题和建议

@itskingname 参考 #3 链接：
1. 提交，回复 issues
2. 提交 PR
3. 持续下去，等待 invitation

2019-06-28 11:14:24 +08:00

回复了 my8100 创建的主题 › Python › 正式成为 scrapy/scrapyd 开源项目开发成员，欢迎大家留言反馈问题和建议

@ddzy 头像眼熟

1 2 3

❮

❯