V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wudaown
V2EX  ›  问与答

konachan 图站爬虫一枚

  •  
  •   wudaown · 2015-06-20 15:52:56 +08:00 · 5161 次点击
    这是一个创建于 3443 天前的主题,其中的信息可能已经有所发展或是发生改变。

    应要求顺便把K站爬虫也撸出来了...

    https://github.com/wudaown/konachanDL

    yande.re 爬虫参考另外一个帖子

    https://www.v2ex.com/t/199965

    PS: 大家多拍拍 想进步 不知道怎么搞

    20 条回复    2015-06-21 01:31:23 +08:00
    ericls
        1
    ericls  
       2015-06-20 16:41:56 +08:00
    既然都用了 Python3 了

    如果真的是「爬虫」,也应该用aiohttp之类的异步吧
    n37r06u3
        2
    n37r06u3  
       2015-06-20 18:05:43 +08:00
    都是漫黄站啊
    binux
        3
    binux  
       2015-06-20 18:27:27 +08:00
    人家明明有 API,你非得解析页面
    http://konachan.com/post.json
    wudaown
        4
    wudaown  
    OP
       2015-06-20 18:55:42 +08:00
    @binux 新手 完全不会.. 能简单说一下怎么使用api么.. 想针对API在修改一下
    binux
        5
    binux  
       2015-06-20 18:57:59 +08:00
    @wudaown JSON
    wudaown
        6
    wudaown  
    OP
       2015-06-20 20:16:50 +08:00
    @binux 是通过python的json库么?
    wudaown
        7
    wudaown  
    OP
       2015-06-20 21:25:05 +08:00
    @binux 发现每个页面都有json... 那还要解析每一页的json效率会差很多吗?
    xupefei
        8
    xupefei  
       2015-06-20 21:27:19 +08:00
    @wudaown 给人家服务器带来的压力高了不少。
    wudaown
        9
    wudaown  
    OP
       2015-06-20 21:41:59 +08:00
    @xupefei 这样啊~ 谢谢.. 那我的想法对吗?打开对应页面的json然后解析?
    binux
        10
    binux  
       2015-06-20 22:15:45 +08:00 via Android
    @wudaown 你有什么是需要打开对应页面才能拿到的吗?
    wudaown
        11
    wudaown  
    OP
       2015-06-20 22:21:43 +08:00
    @binux http://konachan.com/post.json?page=2&tags=yuuki_asuna 是第二页的json
    http://konachan.com/post.json?page=1&tags=yuuki_asuna 是第一页的json ...
    分析完一页不是要分析第二页么..
    binux
        12
    binux  
       2015-06-20 22:24:40 +08:00 via Android
    @wudaown 如果你要第二页上的东西,这不是必须的吗?
    wudaown
        13
    wudaown  
    OP
       2015-06-20 22:32:55 +08:00
    @binux 那貌似和解析html页面差不多啊....
    Lucius
        14
    Lucius  
       2015-06-20 22:43:01 +08:00
    @wudaown 效率差很多吧。你要爬的只是内容,解析HTML是把整个页面给load了
    wudaown
        15
    wudaown  
    OP
       2015-06-20 23:12:39 +08:00
    @Lucius 可是打开json不也是打开整个么?
    Lucius
        16
    Lucius  
       2015-06-20 23:56:26 +08:00
    @wudaown ... json 已经直接给了你爬完后的数据。
    evlos
        17
    evlos  
       2015-06-21 00:00:11 +08:00
    @wudaown API 格式一般是永久固定的,HTML 只要页面一改版就跪了。
    wudaown
        18
    wudaown  
    OP
       2015-06-21 00:14:14 +08:00
    @Lucius 就是不用分析 一眼就看出来需要什么...
    KyoHiroki
        19
    KyoHiroki  
       2015-06-21 01:26:46 +08:00
    1.html页面如果有用js生成的动态内容,你是爬不到的,json没有这个问题;
    2.渲染html页面对服务器的负担比json大;
    3.html页面可能会经常修改,不易维护。
    wudaown
        20
    wudaown  
    OP
       2015-06-21 01:31:23 +08:00
    @KyoHiroki 知道的更多了~~ 继续学习
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   910 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 21:43 · PVG 05:43 · LAX 13:43 · JFK 16:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.