V2EX › Yingruoyuan 的所有回复 › 第 1 页 / 共 2 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2

❮

❯

2021-02-25 09:42:34 +08:00

回复了 Yingruoyuan 创建的主题 › 程序员 › 最近准备做一个对项目所有数据源数据库的健康监测系统，数据库主要涉及 MySQL， Oracle， MongoDB， PostgreSQL， redis， SQLserver 等，有推荐的开源实现方案吗？

@thet，好的，了解，我重新看了下 prometheus 的使用文档，这些功能应该都可以通过在 exporter 中增加对应的 http 或者 api 的服务实现，不需要去改动源码，谢谢哈

@Qetesh，zabbix 我没有用过不太熟悉，说的不对还望指正哈，看了下文档和网上推荐的教程，好像 zabbix 在监控不同的数据库 driver 的时候需要不同的前端展示方案来配合，（比如 Oracle 用了 pyora，mysql 用的自带的 Template DB MySQL 模板，PostgreSQL 有用 libzbxpgsql 模板或者 pg_monz 模板的）有统一可以实现的方案吗？如果想扩展实现一些健康巡查的功能，可以通过他的 web 扩展那些模块实现吗？

@so1n，嗯嗯，我正打算先写些 http 的服务来实现功能模块，看下能否通过接入 exporter 来满足健康巡检的功能需求，谢谢哈

感谢各位的建议！

2021-02-24 18:04:37 +08:00

@thet ,如果想对 Prometheus 做二次开发，加些自己的功能进去，（比如对数据库做些健康巡查等）会比较容易实现吗？

2017-12-07 09:38:02 +08:00

回复了 nannanziyu 创建的主题 › 分享创造 › Mac 开源工具 - 截图并通过在线 OCR API 识别文字

支持楼主，请问下楼主，我想弄个 python 版的练练手，但没有 swift 和 oc 基础，看懂你这个项目大概需要多久？

2017-10-10 15:06:40 +08:00

回复了 Yingruoyuan 创建的主题 › Python › 有没有方法对 windows 版微信接收到的图片自动进行批量处理

@NaVient，这个蛮有用的，我试下，谢谢！
@dreamcracker @bfbd @demen，谢谢

2017-10-10 10:08:42 +08:00

回复了 Yingruoyuan 创建的主题 › Python › 有没有方法对 windows 版微信接收到的图片自动进行批量处理

@zjsxwc 这是种方法，我等下试下

2017-10-10 10:07:53 +08:00

回复了 Yingruoyuan 创建的主题 › Python › 有没有方法对 windows 版微信接收到的图片自动进行批量处理

@dcty，我找了下这些目录下，没有对方发过来的图片，难道是手机端不能同时登陆的原因？

2017-07-04 16:09:46 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中

@rebeccaMyKid 谢谢，思路很有帮助；
只是我用的是 sqlarchemy 来插入到 mysql 里面，如果写入到文件里，在爬取结束之后我还是要导入到数据库的，所以在性能可以承受的情况下，直接导入可能会更省事些

2017-07-04 15:50:26 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中

@1130335361 @knightdf @seven2016，谢谢各位解惑！
我找到原因了，我的问题是因为我自己写的 sqlarchemy 的 models 模块和 scrapy 的 items.py 冲突了，pipelines 里面用 models 代替了 item，所以会出现混乱的无法找到指定的 pipeline 来进行对应操作；
解决方法是在 pipelines 中只保留一个 spider 对应一个 pipelines，这个 spider 的所有数据输出都经过这一个 pipeline 来处理，然后把各个 items 加入 pipelines.py 中，再利用 item.__class__做判断是哪一种 item 数据类型，来决定插入哪张表就可以解决了

2017-07-04 15:06:17 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中

@1130335361 有指定呢，在 settings.py 里面和 spider 的 custom_settings = { 'ITEM_PIPELINES':{}}里都指定了呢，但是输出数据的时候会只输出到了一张表里，比如商品信息和店铺信息都写在了商品表里面

2017-07-04 14:52:13 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中

@knightdf 我又 google 了一些资料，但是越看越迷糊了；
生成了 item 之后，yield 传递到 pipeline，在 pipelines.py 我定义了多个 class 来处理不同的数据，但我在 spider 里面获取到数据后该怎么让对应的 pipeline 来处理呢？

2017-07-04 14:32:35 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 如何在一个 spider 中指定对应 pipeline 输出到多张表中

@seven2016 我有定义 item 及 pipeline 来对应不同的表结构，但是不明白在 spider 中把指定的数据输入到指定的表中？我现在遇到了所有的数据都输入到一张表中，另外一张表没有数据输入的现象
@knightdf ,可以一个 spider 抓取多个 pipeline 的数据吗？因为涉及到关联的对应关系，想一起抓下来

2017-06-29 11:25:08 +08:00

回复了 hztDbFXEed73dkMf 创建的主题 › 程序员 › 想做一个类似微博时光机定时发微博的功能，请问一下同时处理大量的定时任务有什么好的方案吗？

用 python 脚本并发控制，然后把脚本放在 crontab 里

2017-06-23 09:38:48 +08:00

回复了 prasanta 创建的主题 › Python › 新书< Python 后端接口开发>目录预览

看目录介绍挺全面系统的，只是不知道内容怎样，期待楼主作品

2017-06-07 16:49:37 +08:00

回复了 Yingruoyuan 创建的主题 › 程序员 › 请问阿里云 oss 有工具或者命令或者什么地方可以查看统计一个目录下的文件个数吗？

@tianshuang 谢谢；
找到方法了：
```
i=0
auth = oss2.Auth('您的 AccessKeyId', '您的 AccessKeySecret')
bucket = oss2.Bucket(auth, '您的 Endpoint', '您的 Bucket 名')
for b in islice(oss2.ObjectIterator(bucket), 10):
print(b.key)
i += 1
print(i)
```

2017-06-05 16:05:47 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 下载图片到 4w 张左右总是会卡住

@all,
感谢各位提供帮助，问题应该还是出在内存上，由于我是可以直接拿到那几十万的 url 的，这些请求会进入到在 scrapy 的请求队列中，占用内存，直至最后服务器内存不够 down 掉；
我在网上查了下资料，scrapy 的调度器来控制队列，但是似乎不 hack 源码没有办法控制调度器对队列的操作；
最后我的解决方法是在数据库就把数据切片，切成 2w 套循环，就不会出现内存不够的问题了；
希望后来的大神有更优雅的方法可以指教。我会持续关注这个问题

2017-06-04 21:49:44 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 下载图片到 4w 张左右总是会卡住

@Yc1992 好的，谢谢，我去检查下 io
@zsz 谢谢

2017-06-04 15:29:50 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 下载图片到 4w 张左右总是会卡住

@litter123 我对 netstat 命令不大熟悉，可以给个提示应该怎么查看 scrapy 的异常连接吗？
@Yc1992 哦，这种情况，我以前没有遇到过，请教下这种情况是怎么去 debug 呢？

2017-06-03 20:38:10 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 下载图片到 4w 张左右总是会卡住

@rabbbit 刚才是我看错了，CONCURRENT_REQUESTS 默认的是 16 个，我尝试了把 RETRY_ENABLED = False，并且缩短了 download_timeout，但是并没有明显改善，但是我发现虽然 top 监控的内存占用率并没有提高，但是在卡住的那段时间里，输入命令等会变得很卡，我在找是不是和服务器性能哪里有关的原因导致的

2017-06-03 19:49:03 +08:00

回复了 Yingruoyuan 创建的主题 › Python › scrapy 下载图片到 4w 张左右总是会卡住

@Yc1992 我是在空目录下重新下载的，img_url 里一般也不会有重复的

@ooh 是的，是用的继承 ImagesPipeline 的方法
@rabbbit DOWNLOAD_TIMEOUT = 30，CONCURRENT_REQUESTS 这个用的默认的，应该是 8 个吧

2017-05-08 14:29:08 +08:00

回复了 Yingruoyuan 创建的主题 › Python › 针对 ajax 的 post 请求，怎样转化为 Python 版？

@hcymk2 谢谢，是我看 post 方法的时候没看仔细，修改为：
```
params = {
'testid': testid,
'testvalue': testvalue,
'token': token,
}
resp = requests.post(url=url, json=json.dumps(params), headers=headers)
```
就可以了

1 2

❮

❯