shell 采集 google 和 api 随机调用的问题

2014-06-26 01:34:40 +08:00
 hopestar86
需要借助api和google大批量的查询域名的相关信息

shell没怎么系统的学过,开始用的php实现的,但是发现php处理速度太慢了,据说用python不错,但是python完全没学过

请教一

for DOMAIN in $(cat domains.txt)
do
DOMAIN_PATH="list/$DOMAIN/";
mkdir -p $DOMAIN_PATH;
curl -s -d "app=domain.whois&domain=$DOMAIN&appkey=$APPKEY&sign=$SIGN&format=json" $API_URL > $DOMAIN_PATH"age.txt"
done

由于api是免费的,但是限制每小时只能查询240次,远远不够我的需求,所以我申请了多组api

请教怎么让$APPKEY 和 $SIGN 随机调用 我的API组 (或者依次,240次后换下一个)

请教二

curl -A "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" https://www.google.com/search?q=keyword&gws_rd=ssl

可以获取到google查询的内容,但是据说查询多了,google会封你的ip

除了 -x 使用代理服务器的话 还有更简单的避免方法吗?

回归到前面 使用 -x 代理服务器, 又是随机调用的问题


请教三

api结果返回的json的数据,shell 有什么好用处理json的工具吗?


请教四
shell 可以正则提取内容吗?

谢谢
3205 次点击
所在节点    Linux
4 条回复
superbear
2014-06-26 09:13:03 +08:00
知道了四,shell里面有正则
ccbikai
2014-06-26 09:41:13 +08:00
shell 处理json 用 jq 很爽
pc10201
2014-06-26 10:06:57 +08:00
还是python吧,比shell强大而且舒服很多
hopestar86
2014-06-26 12:21:38 +08:00
@pc10201 呵呵,知道python处理这个很好,就是现在不会

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/119571

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX