V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  iannil  ›  全部回复第 37 页 / 共 43 页
回复总数  845
1 ... 29  30  31  32  33  34  35  36  37  38 ... 43  
硕士都称渣了,我等如何活下去
2014-08-11 17:03:12 +08:00
回复了 SarahDeng 创建的主题 酷工作 成都创业团队招 CTO
@SarahDeng 各种东西都外包,你们确实需要一个cto,嗯嗯
pathon是神马?and 用Yaf为啥不用phalcon啊?
2014-08-11 14:55:34 +08:00
回复了 shyrock 创建的主题 Python web scraper 的核心逻辑,请高手指点
2014-08-11 14:52:32 +08:00
回复了 shyrock 创建的主题 Python 想用 SAE 自动登陆 CHH 刷积分,但是发现登陆的时候有验证码
6楼是正解,你先在浏览器上手动输入验证码啥的登录,然后获得登录后的cookie,cookie是保存你登录状态与个人信息的,所以你下次去签到就带着这个登录后的cookie去签到,就可以绕过登录时的验证码了。

当然,如果目标网站在服务端会定时清掉你的cookie,此方法就不ok了。此时你需要社会工程学帮助!!也就是当程序发现cookie失效时,程序自动获取新的验证码图片,通过实时通讯工具如微信发送给你自己,你手机上回复你人肉识别的验证码内容给服务器,即可继续了。

当然,如果你有钱买人工给你输入验证码就当我啥也没说!!或者你用ocr识别,尽快错误率很高,哪怕服务器会因此把你干掉你也乐此不疲,也当我啥也没说!!如果目标服务器财大气粗,你这么频繁输入错误的验证码登录也不把你干掉,也当我啥也没说!!
2014-08-11 14:38:19 +08:00
回复了 shyrock 创建的主题 Python web scraper 的核心逻辑,请高手指点
基本是对的,但一个网页的链接有n多,也就是说你会遇到一个页面开始,然后1*n*n*n这种方式展开的链接个数,同时链接会有重复的,于是如何保存已抓取的链接和如何把满足某些条件的链接筛选出来会是你需要解决的一个新问题。

好了,当你有一个链接处理机制来帮助你管理你抓取的所有链接后,你爬虫的抓取效率变得非常高效,高效到你的爬虫因此被目标网站屏蔽了,你该如何解决?改header头的东西我就不多说了,只说关键的屏蔽ip怎么解决?
你需要将你的爬虫做成分布式,由中央服务器作为任务调度中心,处理抓取的页面,将要抓取的链接分发到各个辖属机器。
辖属机器只做一件事,就是向中央服务器请求任务,并把请求来的任务执行后将结果返回给调度中心。每个辖属机器是一台几十块一年的虚拟机即可,我们要的是辖属机器的ip而已。

好了,现在你由n多个ip分散在n个机器中替你做抓取,数据统一集中在你隐藏在幕后的中央服务器里,效率非常高,一般你控制的好,目标服务器不会发现某个ip请求过于频繁,流量过高,但是事情有可能就是那么变态!目标服务器还是发现了你!把你所有的小爬虫都干掉了!怎么办?

你需要优化调度中心的东西,你的中央服务器不能只简单的把任务平均分给各个辖属机器,你需要实时的监控各个辖属机器的任务数量与执行状态,任务过高的辖属机器得让他歇歇,免得他被干掉,这事为啥不在辖属机器里做呢?因为我们用的是几十块一年的虚拟机啊!!成本啊!!你有钱买几千块一年的机器当我没说啊!!

好了,现在你的任务调度中心很智能的保证每个辖属机器的任务不会过高,如果你嫌效率还是低,再开一个虚拟机就好了。ip也有很多,访问频率和流量你也控制的很好,链接管理也控制的很好,基本上爬虫的框架就有个雏形了。

什么?你只问核心逻辑?那就这些了。
请用命令行
至今没找到满意的mac下svn图形界面客户端
2014-08-11 14:21:28 +08:00
回复了 SarahDeng 创建的主题 酷工作 成都创业团队招 CTO
在v2ex看招聘帖是个让人心情愉悦的事呢
祝楼主找到满意的cto
2014-08-10 14:21:45 +08:00
回复了 jemygraw 创建的主题 分享创造 我又来了,宣传我们的小社区,Go 友团
27寸屏幕打开,背景图没有铺满屏幕
2014-08-07 14:34:50 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
@Tianpu tor是个好办法,但tor的问题在于连接tor的成本过高以及速度上的限制,无法稳定高速的进行抓取操作。
2014-08-07 14:30:53 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
@dong3580 是的, 如果完全不考虑效率问题,操作速度以及操作习惯完全与人一致的爬虫是无法屏蔽的。
但是对爬虫来说,效率是必定要考虑的,因为如果爬虫速度比人还慢,就会丢失了一半的价值,另一半的价值是爬虫不知疲倦没有情绪。
2014-08-07 01:29:18 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
@66CCFF 代理成本也不低,因为你需要雇佣技术人员针对这些代理写一套检测有效性、分配ip、联合调度等内容的程序。另外,代理也有相同的问题,就是如果要绕过防火墙,必须要由proxy,也就是代理服务器主动发起连接。
2014-08-07 00:23:41 +08:00
回复了 Tianpu 创建的主题 分享创造 自动封锁采集器、自动评论、垃圾蜘蛛
变ip的方法有,但成本一般比较高,常见的方法:
1、多条家用线路重拨获得新ip,这种比较简单
2、购置大量的虚拟机,然后通过proxy中转请求来达到切换ip的目的,这种比较复杂,因为有个路由器和防火墙的关系,需要proxy主动向调度中心发起请求。
3、使用VPN拨号
又见有趣的招聘帖,马克
顺便预祝楼主找到期望的人才,加油
我只想问,楼主,头像真的是你吗?
2014-08-02 18:14:52 +08:00
回复了 zhiyongyici 创建的主题 问与答 解决两个问题,换半年广告
@zhiyongyici 那就行了,我没站需要友情链接的,先存着吧,哈哈
2014-08-02 17:57:22 +08:00
回复了 zhiyongyici 创建的主题 问与答 解决两个问题,换半年广告
@zhiyongyici wordpress的主题开发楼主了解多少?theme下对应主题文件夹下,有个functions.php,你可以在这个文件里写接受请求的方法A,然后在集成simditor的wordpress页面里,配置upload下url的地方写上指向你刚写的方法A,让来自simditor的图片能被js触发,以ajax的方式发送到方法A。

在方法A的内部将图片保存在指定位置,并且对图片进行命名,使得图片能被公网访问,如http://example.com/a.jpg这个种形式,你再把这个地址用json格式封装,如{"file_path": "http://example.com/a.jpg"}返回给simditor。

回复的问题你需要描述的更清楚一些更详细一些才好解答。
2014-08-02 17:17:34 +08:00
回复了 belin520 创建的主题 分享发现 收到一封来自 John Kentebe 的邮件
马克,关注之后发展,有人和这个John沟通上了吗?
2014-08-02 17:14:54 +08:00
回复了 zhiyongyici 创建的主题 问与答 解决两个问题,换半年广告
http://simditor.tower.im/docs/doc-config.html

按照simditor官网的文档,最底部是有说明如何上传文件的,也就是upload和pasteImage。
upload里有个url参数,是你服务端接受上传图片的url地址,simditor会把图片传给这个url,你服务端如果能正常收到这个图片并保存下来,返回这个图片在你服务器上保存的公网可访问的url地址给simditor,simditor将这个图片地址显示在编辑器里即可。

可视化编辑器本身就是会隐藏掉如<a href="xxx">@user</a>这样的html的,在simditor里应该会直接显示@user这样的东西。
1 ... 29  30  31  32  33  34  35  36  37  38 ... 43  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4954 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 44ms · UTC 10:00 · PVG 18:00 · LAX 03:00 · JFK 06:00
Developed with CodeLauncher
♥ Do have faith in what you're doing.