V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
justtery
V2EX  ›  分享创造

腾讯漫画爬虫........

  •  
  •   justtery · 2017-04-20 09:45:35 +08:00 · 5343 次点击
    这是一个创建于 2534 天前的主题,其中的信息可能已经有所发展或是发生改变。

    上周周末写了一个腾讯漫画的爬虫....

    现在已经有的功能:

    1.查找漫画

    2.查找出漫画的总章节数目

    3.下载单话漫画

    4.下载所有章节漫画(免费的括号笑)

    目前存在的问题:

    1.多线程下存在卡死或假死的状态(这块我是真的搞不懂了)

    跪求大佬们教育,为什么会出现多线程下爬虫不爬了的情况啊 昨天我加了请求超时时间也还是会出现这种状况(昨天的修改没有上传 github)

    代码地址:https://github.com/Fretice/Tencent_Cartoon_Download

    注:请忽略 readme 文件中的内容,因为好多都写错了 /(ㄒoㄒ)/~~

    第 1 条附言  ·  2017-04-21 09:47:45 +08:00
    感谢大家的回复,也知道了自己的问题所在:

    1. 命名规则不规范:如项目名称..当然我在 code 中的变量与方法名的命名规则上还是相对规范的

    2.打包有问题,不应该上传 venv...写个 requirements.txt 就好

    感谢各位前辈的指导,我一定会改正这些问题的.
    26 条回复    2017-04-21 10:09:32 +08:00
    nanlong
        1
    nanlong  
       2017-04-20 11:45:23 +08:00
    还没见过这么打包 python 项目的,你是第一个
    justtery
        2
    justtery  
    OP
       2017-04-20 11:52:25 +08:00
    @nanlong 还有更多的 要不要看
    strwei
        3
    strwei  
       2017-04-20 12:00:54 +08:00
    @nanlong hello
    zhihaofans
        4
    zhihaofans  
       2017-04-20 12:17:09 +08:00 via iPhone
    cartoon 是动画,漫画是 comic 。。。
    zhihaofans
        5
    zhihaofans  
       2017-04-20 12:19:30 +08:00 via iPhone
    https://ooo.0o0.ooo/2017/04/20/58f836c6e9bbe.png
    xvx
        6
    xvx  
       2017-04-20 13:29:17 +08:00 via Android
    腾讯卡通下载
    ty89
        7
    ty89  
       2017-04-20 13:47:15 +08:00   ❤️ 2
    驼_峰_加_下_划_线_的_命_名_也_是_少_见
    zhihaofans
        8
    zhihaofans  
       2017-04-20 13:51:57 +08:00 via iPhone
    @ty89 →PHP
    Marfal
        9
    Marfal  
       2017-04-20 14:04:01 +08:00
    .gitignore 老哥
    Marfal
        10
    Marfal  
       2017-04-20 14:05:25 +08:00
    @ty89 Tuó _Fēng _Jiā _Xià _Huá _Xiàn _De _Mìng _Míng _Yě _Shì _Shǎo _Jiàn
    justtery
        11
    justtery  
    OP
       2017-04-20 14:14:08 +08:00 via Android
    你们开心就好 😊 注意哦,那只是个项目名称,注意看文件文件名称,更给力的说
    55555
        12
    55555  
       2017-04-20 15:26:27 +08:00
    以前有人这么干过 不过他是付费的都有了 然后被腾讯直接警告了
    zhihaofans
        13
    zhihaofans  
       2017-04-20 16:11:22 +08:00 via iPhone
    不是很懂 venv 目录下的是干嘛的,依赖?
    golmic
        14
    golmic  
       2017-04-20 16:17:22 +08:00 via Android
    哈哈,看评论就知道很欢乐
    irory
        15
    irory  
       2017-04-20 17:03:01 +08:00
    和 LS 一样之前爬取过 qq 漫画 . 不过我只爬了海贼王的 . 共勉 http://irory.me/blog/8
    justtery
        16
    justtery  
    OP
       2017-04-20 17:37:35 +08:00
    @irory 素在下之言...你这个效率应该不会高吧.....(说的好像我这个效率高一样)
    irory
        17
    irory  
       2017-04-20 17:57:08 +08:00
    @justtery 多开几个 worker 跑下来还行 .. phantoms 这个的确有点慢了 .
    lauix
        18
    lauix  
       2017-04-20 18:23:12 +08:00
    Love4Taylor
        19
    Love4Taylor  
       2017-04-20 18:35:27 +08:00
    中国惊奇先生...... 没有 .gitignore 啊
    justtery
        20
    justtery  
    OP
       2017-04-20 19:59:32 +08:00 via Android
    @Love4Taylor 那个只是一个测试。。请忽略
    xuyl
        21
    xuyl  
       2017-04-20 23:38:09 +08:00
    这种打包方式确实奇葩,你搞个 requirements.txt 不就行了?
    visylar
        22
    visylar  
       2017-04-20 23:49:43 +08:00
    pic_list_download 作为一个 shared variable 传入 13 个线程如果没有注意 atomic access ,应该会有很多 race condition ,所以会卡死或假死
    RqPS6rhmP3Nyn3Tm
        23
    RqPS6rhmP3Nyn3Tm  
       2017-04-21 04:34:34 +08:00 via iPhone
    我当年也写过一个差不多的,不过你这打包方式真的奇特
    justtery
        24
    justtery  
    OP
       2017-04-21 08:12:42 +08:00 via Android
    @visylar 大佬能不能详细的给小弟讲一下
    MyFaith
        25
    MyFaith  
       2017-04-21 08:55:06 +08:00
    看了一眼 venv 目录,还是不 star 了。
    Ixizi
        26
    Ixizi  
       2017-04-21 10:09:32 +08:00
    hhhhhhhh 厉害了 我的哥
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3118 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 12:58 · PVG 20:58 · LAX 05:58 · JFK 08:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.