V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  anexplore  ›  全部回复第 7 页 / 共 7 页
回复总数  130
1  2  3  4  5  6  7  
2015-04-23 17:20:18 +08:00
回复了 holinhot 创建的主题 Python 请教如何删除 6 万 txt 中重复的行
sort -u src.txt > des.txt 就可以搞定了...
2015-04-10 19:19:30 +08:00
回复了 Lullaby 创建的主题 Java 关于 http 代理请求返回 Unexpected end of file from server?
@Lullaby 这是stackoverflow上一个问题,希望可以有帮助
"Unexpected end of file" implies that the remote server accepted and closed the connection without sending a response. It's possible that the remote system is too busy to handle the request, or that there's a network bug that randomly drops connections.

With the information available it's impossible to say what's going wrong. If you have access to the servers in question you can use packet sniffing tools to find what exactly is sent and received, and look at logs to of the server process to see if there are any error messages.

http://stackoverflow.com/questions/19824339/java-simple-code-java-net-socketexception-unexpected-end-of-file-from-server
2015-04-10 18:04:03 +08:00
回复了 Lullaby 创建的主题 Java 关于 http 代理请求返回 Unexpected end of file from server?
2015-04-10 17:48:08 +08:00
回复了 alangz 创建的主题 Kafka 初学 kafka 遇到一些疑问
下面是zookeeper的启动脚本片段;
start)
echo -n "Starting zookeeper ... "
if [ -f "$ZOOPIDFILE" ]; then
if kill -0 `cat "$ZOOPIDFILE"` > /dev/null 2>&1; then
echo $command already running as process `cat "$ZOOPIDFILE"`.
exit 0
fi
fi
nohup "$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root. logger=${ZOO_LOG4J_PROP}" \
-cp "$CLASSPATH" $JVMFLAGS $ZOOMAIN "$ZOOCFG" > "$_ZOO_DAEMON_OUT" 2>&1 < /dev/ null &
2015-04-10 01:05:24 +08:00
回复了 guozhi 创建的主题 硬件 请问是先入 iPhone 还是 MacBook?
没啥必然先后顺序, 我先买的mbp,后入6,买mbp是为了搞开发,只因为用够了ubuntu桌面版
2015-04-09 10:39:57 +08:00
回复了 aa233322aaa 创建的主题 Java 关于网络爬虫 中遇到的一些问题
@aa233322aaa
1.解DNS自然就知道网站的IP是什么,而且在不同地狱解析同一个网站的DNS可能还是不一样的;
2.要遵循robots协议;控制频率;也可以控制时间段,比如晚上访问量少的时候爬;被封掉就让频率更小;反爬虫很严格的站点毕竟还是少数;
3.一般一个服务都只有一个外网ip,所以要用多ip自然得多个服务器了。
这些东西多试一试就知道了。。。
2015-04-08 21:14:09 +08:00
回复了 aa233322aaa 创建的主题 Java 关于网络爬虫 中遇到的一些问题
@aa233322aaa 搞一个代理失效验证机制,验证通过推送给下载端;下载端动态更新代理;一个站点的dns可能会对应若干个ip,所以要轮转访问站点的若干ip,减小被封的概率;1s或者几秒访问一个站点一次,一般不会被封掉的;
2015-04-07 18:42:46 +08:00
回复了 aa233322aaa 创建的主题 Java 关于网络爬虫 中遇到的一些问题
对一个网站,假设100个ip,一个ip 1s一个网页,一天8w,100个ip一天就是800w了。假设N个网站,一个ip一秒100左右(N个网站轮转),那么一天就是800w了,10个ip一天就是8000w了。假设一个网页平均50kB那么每秒流量就是100*50kB= 5MB;多整点代理ip吧
2015-04-07 18:27:38 +08:00
回复了 tanteng 创建的主题 MacBook Pro MacBook pro 可不可以不关机直接装包里带走?
工作日合盖子拿着就走,周末一半关机半天
当我认真看书的时候一会儿就感觉饿了
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   963 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 22ms · UTC 22:45 · PVG 06:45 · LAX 15:45 · JFK 18:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.