V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  dfgddgf  ›  全部回复第 1 页 / 共 4 页
回复总数  77
1  2  3  4  
2022-09-18 10:18:54 +08:00
回复了 daijinming 创建的主题 程序员 有没有简单,开源 CMS 系统可以推荐
Http File Server
https://rejetto.com/hfs/

内部使用,无非是资源共享,这个软件集成上传,文件共享,网页展示。
既然可以用文件作为媒介来交流,为什么要 cms

回归原始不香吗
2022-09-16 04:52:19 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@dbow
perl 5.36.0 is now available

Date: May 28, 2022 00:33
2022-09-15 19:27:56 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@wxf666 VirtualBox 虚拟机 linux mint 安装 apache2 ,使用 84KB 的网页文件作为主页,使用上面的代码稍作修改

在 cygwin 环境执行上面的 perl 代码,重复下载本地的 84KB 的网页文件( http://192.168.1.5/index.html) 10 万次数
耗时

real 3m25.076s
user 2m5.890s
sys 0m31.780s


算下来,连同网页正则匹配,平均请求速率是 100000/205s=487.8 个 /每秒

perl 做异步爬虫够不够强大

那些说 perl 没落、过时、已死的网友,其实是不了解 perl 语言及其生态的。
2022-09-15 18:56:51 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@wxf666 300M 带宽 每秒 37.5-40MB/s 下载速度,按照一个网页 0.7MB 计算,每秒可以下载 50 个。

如果网页比较小,每秒下载几百个网页轻轻松松。

别把人家服务器搞崩溃了。

爬虫学的好,牢饭吃得饱。
2022-09-15 18:49:26 +08:00
回复了 dfgddgf 创建的主题 Perl 一段 perl 代码展示如何 all in one 优雅地编写一个异步爬虫
@wxf666 300M 宽带跑满,必应和百度都能坚挺,扛得住
2022-09-15 14:39:20 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@zzzkkk guzzle 看了一些源代码,底层貌似没有依赖 c 或者 c++

应该是底层没有设计成高度可靠的组件。

perl 的爬虫模块 mojo::useragent 配合 libEV ,确实很强大。

cygwin 平台并发 50 轻轻松松,而且还保持 http 连接可以复用
2022-09-15 04:44:57 +08:00
回复了 dfgddgf 创建的主题 程序员 请问最佳的爬虫语言是什么
@shuimugan 这个思路新奇,复杂的问题拆解为更为简单的基础问题。

这是 linux shell 编程的基本思路。

您的观点可以得到验证。在异步的环境里做网页解析,确实占用率比较高。大概异步使用高精度的时间作为时间的区分标准,不停地查询 io 状态,这个比较耗费资源。

按照这样的逻辑推断。应该把异步交给一个专门的组件(软件)来搞,而同步的工作、大量耗费 cpu 资源的用队伍列表的方式使用常规的软件来搞。

学习了。这种专业的问题,只有资深专家,做过大型项目的前辈才能了解其中的诀窍。
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5485 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 07:59 · PVG 15:59 · LAX 00:59 · JFK 03:59
Developed with CodeLauncher
♥ Do have faith in what you're doing.