V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  ClericPy  ›  全部回复第 108 页 / 共 133 页
回复总数  2641
1 ... 104  105  106  107  108  109  110  111  112  113 ... 133  
@uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
2019-10-22 21:06:02 +08:00
回复了 yixiugegegege 创建的主题 Python 求教,公司要重新做爬虫架构
聚焦爬虫常见的组件就是下载器, 解析器, 存储器
此外还得考虑调度器, 代理池, 日志系统那些
避免重复数据和压力过大, 可以在 解析器-存储器 以及 调度器-下载器 之间加上消息队列服务. 以上 4 或 5 个部件统一以后, 拆起来就容易了. 必要时候下载器和解析器之间也可以缓存原始 Response
代理池得维护一份, 毕竟有些不存在的网站也要采集, 还得避免限频反爬
日志系统做好分析, 方便报警和调试

爬虫多了确实难管理, 最好还是套框架重构(舍弃旧代码)
如果是 Windows, superfetch 服务和你说的有点关系, 简而言之就是热数据在内存留备份避免重新从硬盘 IO 进来
2019-10-22 20:51:51 +08:00
回复了 yixiugegegege 创建的主题 Python 求教,公司要重新做爬虫架构
@Trim21 那个 XXlab...
没自研能力的话, 直接套 Scrapy 或者 pyspider (貌似作者也在 V2) 也算是省心省力的, 那个前后端现成的 lab 因为源码没读过也没用过, 就不盲目推了, 不过看 demo 是挺好看的

有一次还看到个跑协程的框架, 名字记不起来了

PS:

前几天试了下 Python 并发能力, 访问 gin 在本地接口, 不知道是不是 aiohttp 有 C 加成的原因

3.7.1 (v3.7.1:260ec2c36a, Oct 20 2018, 14:57:15) [MSC v.1915 64 bit (AMD64)]

Aiohttp (没有 uvloop)
async_test: 2000 / 2000, 100.0%, cost 1.4881 seconds, 1344.0 qps.

requests+threading

2000 / 2000, 100.0%, cost 4.695 seconds, 426.0 qps.

golang, net/http
2000 / 2000, 100.00 %, cost 0.33 seconds, 5990.95 qps.
2019-10-22 20:31:39 +08:00
回复了 yixiugegegege 创建的主题 Python 求教,公司要重新做爬虫架构
这东西说起来简单, 实现起来费了大劲了...

偷偷地说: 等那个人来吧
2019-10-22 17:32:03 +08:00
回复了 wusheng0 创建的主题 程序员 一到中午就心跳的很快?
心率问题就老老实实去医院, 这里都是段子手
2019-10-22 15:55:09 +08:00
回复了 Guidoo 创建的主题 问与答 各位 趴着午睡,疯狂打嗝怎么办?
原来这是病吗? 我还以为是正常情况呢, 调整座椅高度会缓解一点, 好几次趴着睡, 刚醒的时候不愿意起来, 就发现可以打一个好长好长好长的气出来, 然后又可以一直打一直打... 我还纳闷哪来的气
2019-10-22 15:43:21 +08:00
回复了 smallpython 创建的主题 Python Python 中如何查看一个函数都有什么参数
楼上除了 5 楼有点贴近, 其他都像混子啊...

前两天刚实现了一个自动把 function 转 UI 的, 正好用到了这方面的内省知识

首先最推荐的是 inspect.signature, 具体用法看文档

其次是 5 楼类似那个的 inspect.getfullargspec, 这个比 5 楼那个得到的更全面一点, 不过归类做的不如 signature 好
2019-10-22 13:30:59 +08:00
回复了 vjnjc 创建的主题 生活 最近加了个猎头,发现跟他聊聊天也挺有趣的
@vjnjc 水平一般, 能力有限, 再学点能恰饭的技能吧, 还是太菜了, 抗不了大项目

@zhangalong69 两句忠告, 1. 找个好友一起 2. 千万千万别碰修改器和特工这两大毒瘤, 虽然特工玩的时候还是蛮开心的
@laike9m 哈哈, V 站划水比例 1:9
另外, shiv 没试过打包 C lib 会不会跪, 理论上应该会凉
2019-10-22 12:37:54 +08:00
回复了 dxgfalcongbit 创建的主题 分享发现 发现自己能听到次声频段...
既然来了 V2EX, 是不是发上来看看能不能解码?
2019-10-22 12:14:43 +08:00
回复了 vjnjc 创建的主题 生活 最近加了个猎头,发现跟他聊聊天也挺有趣的
@interqhq 头四年挣的老本, 半年花了一半了... 赡养费+社保导致原计划一年休养生息减少到半年了...

没错, 我就是会老家避免猝死的
2019-10-22 12:08:24 +08:00
回复了 vjnjc 创建的主题 生活 最近加了个猎头,发现跟他聊聊天也挺有趣的
前三楼是孪生兄弟么

我是去年开始明显感觉搞不过小学生了, 以前以为会是反应速度受限, 结果发现并不只. 所以无主 3 脱坑以后很少游戏了, 近两年本来还打 csgo 的, 被劝退, 一拖四的时代不复存在了

下个月也准备找工作, 失业久了真容易抑郁, 虽然每天都在学东西, 但是学一堆不挣钱的玩意真没意思
2019-10-22 12:04:42 +08:00
回复了 zcarroll 创建的主题 问与答 真诚请教, 19 毕业生,做码农还是营销?
营销的道德洁癖都治不了, 销售就更不用说了... 不过大量人转销售还是提成高, 里面水虽然深但是有些灰色回扣据说拿到心虚手软

零基础入开发岗的话, 这种虽然凤毛麟角的, 但是其实只要比别人多付出两到三倍努力, 也不是搞不了, 毕竟所有跨行的性价比都高不到哪去, java 目前市场还算稳定, 非科班目前就算不受歧视, 天花板也有点限制, 虽然也有冲破天花板的, 但那种太少见了

至于培训班出来的, 没接触过, 不知道会什么样子.

就一个忠告, 只学语言找不到靠谱工作, 大多找到的是体力活敲代码. 所以就楼主目前的情况, 考公务员反而靠谱一点, 这两天正好国考报名, 对应届生(毕业 2 年内都算)岗位优势很大
2019-10-22 11:50:32 +08:00
回复了 faketemp 创建的主题 问与答 正则表达式 一个奇怪问题
@faketemp
呃, 这和 NFA 引擎不会做那些细致回溯有点关系, 可以参考用 aa 匹配 aaaa 会发现只会得到两个结果, 而不是三个结果, 基本上就是拿着正则串去原始字符串里找, 具体算法还挺有意思, 可以去了解下 NFA 和 DFA 方面的东西
2019-10-22 11:36:16 +08:00
回复了 faketemp 创建的主题 问与答 正则表达式 一个奇怪问题
又看了下那些回帖, 已经有答案了, 这个条件改用零宽断言是对的 http(?:(?!http).)+?MAIN
被测试工具四个字给误导了, 以为是上来问 notepad++ 软件问题

提个小建议, 以后跨工具测试正则可以 https://regex101.com/ 省的一个个工具去安装了
2019-10-22 11:23:01 +08:00
回复了 faketemp 创建的主题 问与答 正则表达式 一个奇怪问题
@faketemp 太敏感了...
本来以为是聊正则的, 结果... 这软件我没装, 不知道会是什么效果, 不来坑楼主
2019-10-22 11:14:32 +08:00
回复了 faketemp 创建的主题 问与答 正则表达式 一个奇怪问题
昨天就看到这帖子, 然后...
测试工具:Notepad++
劝退了
2019-10-22 11:04:08 +08:00
回复了 qazwsxkevin 创建的主题 Python 如何多线程(可控数量)历遍完字典?
最简单的还是 multiprocessing.dummy 里面的线程池, 可以 map 也可以自己调度, 符合楼主说的只能 5 并发, 如果不是 IO 密集的, 把 dummy 去掉就是多进程...

from multiprocessing.dummy import Pool


def do(sth):
print(sth)
return sth


pool = Pool(5)
tasks = [i for i in range(20)]
result = pool.map(do, tasks)

print(result)

这个目前信息看起来不像是栈
1 ... 104  105  106  107  108  109  110  111  112  113 ... 133  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2310 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 38ms · UTC 02:14 · PVG 10:14 · LAX 19:14 · JFK 22:14
Developed with CodeLauncher
♥ Do have faith in what you're doing.