你们都用 python 做什么开发?除了 web 开发外.

2015-04-15 09:17:46 +08:00
 lhuiwu6
11449 次点击
所在节点    Python
69 条回复
imn1
2015-04-16 11:34:09 +08:00
@whatisnew
优势在于大量parse
我是尽量用正则,过万html的话,lxml+xpath比正则parse要多1/3甚至一倍时间
我是parse出一个url list给wget/aria2c下载,后者可以多线程且在windows支持unicode,因为我要下载的同时改名,生成路径可能含有非ascii字符,但aria2c不如wget稳定,所以我又写了一个辅助改名的python调用wget下载。linux没这问题,但linux是工作机,不在linux上玩爬虫
webkit需要pyqt,虽然看过例子很简单,但未试过这样用,我一般 cli 搞定
lemayi
2015-04-16 12:02:29 +08:00
@jookr 感谢感谢!长见识了。
jookr
2015-04-16 14:30:12 +08:00
@lemayi
@laotaitai

我也是被header多了学的
这家伙天天header我的站
lemayi
2015-04-16 14:57:54 +08:00
@jookr 这是啥出来的图?看来确实是自己做站才能实际掌握很多东西啊
deepreader
2015-04-16 21:18:42 +08:00
oamzn
2015-04-17 09:36:55 +08:00
@jookr你这个日志表示什么生成的。
jookr
2015-04-17 12:51:49 +08:00
@oamzn

"""
function get_visitor()
{
$ua = strtolower($_SERVER['HTTP_USER_AGENT']);
$ref = isset($_SERVER['HTTP_REFERER'])?$_SERVER['HTTP_REFERER']:'';

if(stristr($ua,'baiduspider')){$visitor='baidu';}
elseif(stristr($ua,'googlebot')){$visitor='google';}
elseif(stristr($ua,'yahoo')){$visitor='yahoo';}
elseif(stristr($ua,'yodaobot')){$visitor='yodao';}
elseif(stristr($ua,'sosospider')){$visitor='soso';}
elseif(stristr($ua,'sogou')){$visitor='sogou';}
elseif(stristr($ua,'msnbot')){$visitor='msn';}
elseif(stristr($ua,'360spider')){$visitor='qihu';}
elseif(stristr($ua,'yisouspider')){$visitor='yisou';}
elseif(stristr($ref,MANAGE_DIR)){$visitor='admin';}
else{$visitor='user';}

return $visitor;
}

function log_visitor()
{
//print_r($_SERVER);exit;
$insert_data['visitor'] = $this->get_visitor();
if($insert_data['visitor']!='admin'){

$insert_data['url'] = !empty($_SERVER['HTTP_X_REWRITE_URL'])?$_SERVER['HTTP_X_REWRITE_URL']:$_SERVER['REQUEST_URI'];

$ref = isset($_SERVER['HTTP_REFERER'])?$_SERVER['HTTP_REFERER']:'';
$insert_data['ref'] = str_replace('http://'.$_SERVER['HTTP_HOST'],'',$ref);

$insert_data['ip'] = filter_var($_SERVER["REMOTE_ADDR"], FILTER_VALIDATE_IP, FILTER_FLAG_NO_PRIV_RANGE)?$_SERVER["REMOTE_ADDR"]:0;

$insert_data['time'] = time();

$insert_data['ua'] = $_SERVER['HTTP_USER_AGENT'];

$this->insert('visitor',$insert_data);
}
}
"""
MeiganFang
2015-04-17 21:54:20 +08:00
@tec xx万刀,是不是有点夸张?
tikazyq
2015-04-24 02:30:22 +08:00
数据分析,机器学习

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/183798

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX