V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  binux  ›  全部回复第 179 页 / 共 339 页
回复总数  6769
1 ... 175  176  177  178  179  180  181  182  183  184 ... 339  
2016-05-20 06:10:29 +08:00
回复了 taevas 创建的主题 Apple apple id 严重有问题
@nvidiaAMD980X 那为什么还要密保答案?
2016-05-20 04:52:10 +08:00
回复了 arrowna 创建的主题 程序员 有哪些开源下载软件可以和 utorrent 媲美么?
utorrent 特性那么多,你到底觉得哪点好?
又没有开源下载软件全盘复制 utorrent 的功能的,你不说清楚怎么比?
2016-05-20 04:29:14 +08:00
回复了 oglop 创建的主题 问与答 哪个 js 的带高亮的 code editor 能让我复制带高亮的 html?
能不能复制这和 code editor 有什么关系?你试试往 web gmail 或者 <html contenteditable> 粘贴,本来就是带高亮的。
2016-05-19 21:29:32 +08:00
回复了 icedx 创建的主题 问与答 求推荐爬虫的代理池 要求文档 接受收费服务
2016-05-19 21:21:26 +08:00
回复了 icedx 创建的主题 问与答 求推荐爬虫的代理池 要求文档 接受收费服务
crawlera?
2016-05-19 18:12:03 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@SlipStupig 压力控制和挖掘本来就可以独立为一个或者多个模块,你居然称之为「零散代码」,你的系统到底有多小?

既然你说你的爬虫「功能跟百度蜘蛛一样」,我告诉你的第一个方案就是「百度蜘蛛」所用的。
当然,根据你爬虫的规模,可以使用简化的方法。但是根据是否需要快启动,你手头永远的数据,是否要防 ban ,你永远的 ip 池大小,以及你要达到的效果;方法实在是太多。你是否真的想清楚了?
2016-05-19 15:49:22 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
连查一下 Alexa 都会流量浪费,存 100 万都成本高。。你资源到底多么少啊。。我怀疑你根本没能力给一个非共享的正经网站抓挂了。
看来我一开始就问你有多少时间和资源真是问对了。
2016-05-19 02:39:17 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@SlipStupig
如果是这样
首先,你的系统必须得支持分站点压力控制吧。
然后抓之前,先看看对方站点有多少 IP ,查一下站点排名,流量,然后就能定一个差不多的抓取压力了。
2016-05-19 00:53:34 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@SlipStupig
分站点统计都做不到吗?
你不是说时间很充足吗。。这点数据积累都没有?遇到新网站的概率才多少。。从一个初始值开始做就行了啊。

所以我问你有多少时间和资源做这件事啊,你看,我给你一个时间很多的方案,你又说不行。
2016-05-19 00:47:44 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@binux 响应时间和错误率
2016-05-19 00:46:02 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@SlipStupig 那你可以统计待抓链接量和上一天的平均响应时间,尝试放大并发,一天之后看平均响应时间是否有变化。没有就继续加大。
2016-05-19 00:39:22 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
@SlipStupig 能说说你有多少时间和资源吗?
2016-05-18 21:54:50 +08:00
回复了 SlipStupig 创建的主题 Python 爬虫抓取速度自适应问题
从简单到复杂有非常多种办法,就看你有多少时间和资源去做这个事情了
当年,每当有人说掉排名的时候我就问人家要地址,我给你查为什么排到任何一个位置上( SEO 多么梦寐以求的技能啊),然而就是没人告诉我,也不知道是为什么。
2016-05-18 05:37:04 +08:00
回复了 itlynn 创建的主题 Python 求助下 Ubuntu 15.10(64 位)下安装 pyspider 下的问题
2016-05-17 22:23:53 +08:00
回复了 openbaby 创建的主题 Linux 如何在单核 256M 内存下压榨出 nginx 的极限性能?
70 个 ip 能导致内存占满系统失去响应?
2016-05-17 18:34:48 +08:00
回复了 yech1990 创建的主题 Linux 禁用了 wget 的服务器, 这怎么破?
在本地编译好了传上去
2016-05-17 18:04:33 +08:00
回复了 princelai 创建的主题 Python 哪种 Web 图标展示库和 Pandas、Matplotlib 结合的最好?求推荐
ipython.notebook
2016-05-17 18:03:06 +08:00
回复了 aias 创建的主题 Python fail 命令在 os.popen 中是不能执行的?
In [1]: import os

In [2]: f = os.popen("tail -f ./domains.txt")

In [3]: f.readline()
Out[3]: 'www.thephonebook.bt.com\n'

In [4]: f.read(10)
Out[4]: 'www.chambe'

In [5]: f.readline()
Out[5]: 'rofcommerce.com\n'
2016-05-17 06:42:06 +08:00
回复了 Yvette 创建的主题 阅读 大家拿到书,腰封都是怎么处理的?
取下来,看完了再放回去
1 ... 175  176  177  178  179  180  181  182  183  184 ... 339  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   852 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 47ms · UTC 23:18 · PVG 07:18 · LAX 16:18 · JFK 19:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.