1 
                    
                    blahnice      2013-08-28 10:55:14 +08:00    py3,oh holy christ 
                 | 
            
     2 
                    
                    gangsta      2013-08-28 11:00:27 +08:00 
                    
                    +1  
                以前见过Java版的  | 
            
     3 
                    
                    cxshun   OP @blahnice py3咋了?是很多组件还不支持还是很不爽它?以前用py2,但最近慢慢过度到py3了。感觉py3还是比py2好多了,py2的编码问题搞的头都大了。 
                 | 
            
     4 
                    
                    blahnice      2013-08-28 11:20:25 +08:00    @cxshun 只是建议需要在帖子中说明下,毕竟现在外界默认使用的还是非py3. 
                py3一个大版本不兼容,很多库没跟上直接导致没有使用的欲望。  | 
            
     5 
                    
                    justfindu      2013-08-28 11:27:43 +08:00 
                    
                    别啊~ 煎蛋最近总是崩溃~ 这样会增加很大压力啊亲 - - 
                 | 
            
     6 
                    
                    greatghoul      2013-08-28 11:31:10 +08:00 
                    
                    煎蛋妹子图不错呀,赶紧去访问下。 
                 | 
            
     7 
                    
                    cxshun   OP @blahnice 确实,我加上了提醒。 
                @justfindu 哈哈,只是发出来而已。我加上了说明。其实只是访问网页而已,煎蛋的图源貌似都在渣浪,所以这个应该问题不大。把访问网页的时间设长一点,应该就OK了。但爬图片毕竟不是正事,不能搞太久。 @greatghoul 哈哈,确实啊。但XD要注意身体啊。 @gangsta JAVA版本的实现起来麻烦很多,虽然库大把,还是python好啊。人生苦短啊。  | 
            
     8 
                    
                    Hysteria      2013-08-28 12:25:52 +08:00 
                    
                    煎蛋网果真不错,刚好好浏览了一番。 
                 | 
            
     9 
                    
                    fengdragon      2013-08-28 12:41:47 +08:00 
                    
                    python2.6下的,使用库urllib,re 
                https://gist.github.com/fengdragon/6362155 在网页上抓出来的每张图都几十K是正常的么?还是有高清的。。。 直接用urlretrieve下的,刚开始学python,也没并行,一页页的拖下来的 == 26行的time.sleep是因为urlretrieve先建空白再填图,网速顿的话图的下沿有黑边。 自己看网速改吧就  | 
            
     10 
                    
                    cxshun   OP @fengdragon 不错,实际上处理起来倒不麻烦。但这样会把头像啥的都会取下来吧。另外,没有保存队列啥东西的。如果中途断了就比较杯具了。话说代码中为啥要限定页数呢,1-911,看来XD很久之前写的哦,不错啊。 
                @Hysteria 哈哈,必须不错啊。但不可看太多,伤身也。  | 
            
     11 
                    
                    fengdragon      2013-08-28 15:05:40 +08:00 
                    
                    @cxshun 取图没问题,头像不会爬,正则匹配过而且也加了超时判定, 
                只是代码太丑了还那么多sleep,我都不好意思看的再 = = 嗯,断了确实就悲剧了。我这网速比较稳定就没加处理(其实是不会。。 加页数限制也是因为还不会抓最大页数。。。。汗。。  | 
            
     12 
                    
                    cxshun   OP @fengdragon 代码不错啊。其实我比你多的东西就是多了一个保存队列,也多了一堆配置和恢复的东西而已。反正原理就那样。爬图本来就没多少含量,当练练手罢了。 
                 | 
            
     13 
                    
                    Loerise      2013-08-28 16:54:39 +08:00 
                    
                    等待微博爬相册工具~ 
                 | 
            
     14 
                    
                    volCANo      2013-08-28 19:30:18 +08:00 
                    
                    微信摇一摇抓图不就好了嘛 
                 | 
            
     15 
                    
                    Alexisused      2013-08-31 12:43:42 +08:00 
                    
                    哈哈   你果然搞出来了啊~ 
                 | 
            
     16 
                    
                    aisk      2013-08-31 12:46:26 +08:00 
                    
                    
                 | 
            
     17 
                    
                    0racleTink      2013-08-31 14:38:39 +08:00 
                    
                    @aisk 感谢默默送上 
                 | 
            
     18 
                    
                    jason52      2013-08-31 21:48:57 +08:00 
                    
                    
                 | 
            
     19 
                    
                    SharkIng      2013-08-31 21:56:20 +08:00 
                    
                    py3的确比较失败,库比较脱节所以很少人用,用的话也很不好找到支持的平台 
                 | 
            
     20 
                    
                    jason52      2013-08-31 21:56:43 +08:00 
                    
                    from pyquery import PyQuery as pq 
                import time fp=open("meizhitu.txt",'w') for i in range(800,990): url = 'http://jandan.net/ooxx/page-' + str(i) d1 = pq(url) posts = [] for anchor in d1('#comments p>img'): anchor = d1(anchor) ans = anchor.attr('src') posts.append(ans) print >>fp,ans print i #if (i%10 == 0): #time.sleep(5) fp.close  | 
            
     21 
                    
                    C0VN      2013-08-31 23:16:09 +08:00 
                    
                    我写过一个抓取虎扑相册的。恩,最黄的篮球网站。。。 
                 | 
            
     22 
                    
                    yipianfengyeqing      2013-09-01 02:22:26 +08:00 
                    
                    宅男福利 
                 | 
            
     23 
                    
                    cxshun   OP @aisk 哈哈,这个就简单啦,比煎蛋简单多了,等其他有空的XD弄一个。 
                @xavierskip 哈哈,中国的特色,必须的。 @jason52 这个牛叉。 @SharkIng 确实,变化太大,库的开发者也比较痛苦,也只能怪python自己不争气,说改就改。  | 
            
     24 
                    
                    tedd      2014-05-14 11:28:07 +08:00 
                    
                    @cxshun 煎蛋的图不是都链接的是weibo的吗?爬煎蛋图其实也就就是抓到每页的html,实际下载图片都是weibo来的(weibo流量),请问这样会对煎蛋服务器造成压力吗? 
                 | 
            
     25 
                    
                    Ljungqvist      2015-02-17 11:20:19 +08:00 
                    
                    执行 img_links = re.findall("http.*jpg",html_content)后提示错误: 
                UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 95: ordinal not in range(128)  | 
            
     26 
                    
                    cxshun   OP @tedd 照理应该不会,但还是调低点频率的好,毕竟煎蛋免费的,估计也哆呛的。 
                @Ljungqvist 印象中貌似没有这样的代码,看样子应该是编码的问题,在文件头部指定下#encoding:utf-8试试。如果再不行,那就可能是网页编码的问题,在网上找找,应该会有对应的文章的。  |