V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  zhanglp888  ›  全部回复第 7 页 / 共 8 页
回复总数  146
1  2  3  4  5  6  7  8  
2014-08-20 17:24:08 +08:00
回复了 pc10201 创建的主题 Python 如何用 scrapy 同时监控并采集 1000 个网站?
我以前就是干这个的,首先,你需要列表,如何分类,有的站快,有的站慢,任务如何排,如何检查是否采集成功了你都需要安排。
先不说用什么实现
我是三个主任务:1 抓数据,2,分析数据,把里面有用的东西存起来,3,检查是不是成功了
关于1 ,我是把所有需要抓的东西放在数据库里建立当天list,完成一个,就在往数据库里写入一条log
关于2,log 里完成的站,会开始分析数据
关于3,log 里采集完成的站的数据会被检查是不是完成了(比如是不是抓到内容,会不是会是广告),出问题,重新计入到当天任务中

每个站都有更新,你如何是检查这个是不是抓过了你需要考虑,内容重复的检查你可能需要第四个任务去办理
@liubin 是因为“该公司为创业型的移动互联网公司” 这句话吗?
2014-08-07 13:49:21 +08:00
回复了 ddzz 创建的主题 程序员 javascript 的美化版那么多,怎么就没人美化 php
@xuwenmang 已哭晕在厕所里!
我也有同样问题,我的A在国内,B在国外,我一直认为是墙在作怪
2014-08-07 13:44:02 +08:00
回复了 582033 创建的主题 MySQL 是什么让你放弃 Mysql 而使用 MariaDB 的?
@em70 MariaDB的bug,比较常出现的是什么,能说一下吗?
2014-08-04 16:32:59 +08:00
回复了 sshsky 创建的主题 云计算 请教:企业站点遭受 DDOS 攻击解决方案(万网空间)?
放弃万网,换云服务器
@ireader 看到php 都能给到40w,真的是激动了!
$result['title']
2014-07-29 11:48:18 +08:00
回复了 RemRain 创建的主题 云计算 Do you want to hear a joke?
呵呵~确实挺好笑
2014-07-29 11:40:50 +08:00
回复了 jxwho 创建的主题 程序员 管理代码
公司内部svn服务器 管理web方面的代码
公司内部git服务器 管理android ios方面的代码
2014-07-29 11:39:26 +08:00
回复了 giantbeardk 创建的主题 程序员 怎样把上传文件和其他数据,在同一个表单提交。。。
<form name="f" id="f" action="xxxx" method="post" enctype="multipart/form-data">
</form>
2014-07-28 17:22:52 +08:00
回复了 youlil 创建的主题 程序员 你的编程起点在哪里
上上下下左右左右 ba 调出来30人算吗?
2014-07-25 23:16:16 +08:00
回复了 shoumu 创建的主题 程序员 后台获取网页截图
可以用CutyCapt来截屏!
http://cutycapt.sourceforge.net/

是linux下的!


使用方法:

with X server
./CutyCapt --url=http://www.example.org --out=example.png

without X server :
./CutyCapt/xvfb-run.sh --server-args="-screen 0, 1024x768x24" /usr/local/CutyCapt/CutyCapt --url=http://www.sohu.com --out=sohu.jpg
去下个pageant,把证书加载上,就可以了!
2014-07-24 12:45:10 +08:00
回复了 pc10201 创建的主题 Python 解析网页到底用不用正则解析?
我做过一段时间的抓取html的工作,我是这样做的:
1.读取全部html后,用tidy这个工具,整理html(可转成utf-8)。
2.根据想要的东西读取内容,用的是xpath,用正则很难
xpath方面,用过phpquery这个工具
java方面: 看这个 -》 http://www.ibm.com/developerworks/cn/xml/x-javaxpathapi.html
php方面:看这个 -》 http://www.ibm.com/developerworks/cn/xml/x-datamineparsephp/

中间的问题有很多,很难完美解决
2014-07-17 09:18:42 +08:00
回复了 874808862 创建的主题 DNS 谁能给个能用的 dns 啊,都用不了,付费的也行
用OpenDNSCrypt 试试
加密码的dns
http://www.opendns.com/about/innovations/dnscrypt/
2014-07-11 15:43:25 +08:00
回复了 xieranmaya 创建的主题 程序员 jQuery 真是被逼无奈啊~
不仅是latest,就连cdn,我也觉得不保险(因为墙的存在啊)
2014-07-11 15:42:36 +08:00
回复了 xieranmaya 创建的主题 程序员 jQuery 真是被逼无奈啊~
不仅是latest,就连cdn,我也沉得不保险(因为墙的存在啊)
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5462 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 07:44 · PVG 15:44 · LAX 23:44 · JFK 02:44
Developed with CodeLauncher
♥ Do have faith in what you're doing.