V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lzlee
V2EX  ›  问与答

求助, 提取 html 内容相关

  •  
  •   lzlee · 2020-02-22 12:12:51 +08:00 · 1918 次点击
    这是一个创建于 1740 天前的主题,其中的信息可能已经有所发展或是发生改变。

    抱歉, 实在不清楚要发到哪个节点

    有这么一个需求

    1. 我通过 chrome 开发者工具, 截取了某个 网页 的元素
    2. 我想通过 某种手段, 截取到 元素 的 子元素
    3. 我想通过 某种手段, 截取到 元素 的 属性 或者 内容
    4. 我会一点 java, python 和 shell, 这些我都可以去尝试, 当然其他的也行
    5. 输入是一段 html, 以及我的条件, 比如定制路径, 是否带外标签, 输出是 文字

    疑问

    1. 感觉像是 html 页面里, 提取特定 元素, 属性, 内容
    2. 中间可能会有 html 元素路径的指定, 和其他一些过滤
    3. 感觉这种事, 之前肯定有人做过, 我是第一次接触, 但是感觉没啥门路

    感谢各位大佬

    18 条回复    2020-02-25 00:05:31 +08:00
    learningman
        1
    learningman  
       2020-02-22 12:23:22 +08:00 via Android
    xpath,了解一下
    或者 css 选择器
    Procumbens
        2
    Procumbens  
       2020-02-22 12:41:20 +08:00
    BeautifulSoup?
    xiri
        3
    xiri  
       2020-02-22 13:11:16 +08:00
    用 python 做,lxml、BeautifulSoup 等都能实现你的要求(其实你的需求就是爬虫的数据清洗部分要干的事)
    7huixiang
        4
    7huixiang  
       2020-02-22 13:17:37 +08:00
    听着像文章采集器呢
    siknet
        5
    siknet  
       2020-02-22 13:21:41 +08:00 via Android
    火车采集器,最高效易学的了
    omph
        6
    omph  
       2020-02-22 13:43:05 +08:00
    简单的可以用 shell
    https://github.com/coderobe/hq
    oneisall8955
        7
    oneisall8955  
       2020-02-22 14:22:09 +08:00 via Android
    JAVA 中建议用 jsoup,和 jquery 一把梭一样,很简单。并且,xpath 有时候因为页面的元素不标准,导致解析不了,jsoup 没有这个问题
    tlday
        8
    tlday  
       2020-02-22 15:10:04 +08:00
    tlday
        9
    tlday  
       2020-02-22 15:10:33 +08:00
    littleylv
        10
    littleylv  
       2020-02-22 15:30:59 +08:00
    解析 html 的轮子非常多,基本各大语言都有,你有这发帖时间都找到了。
    1 楼的说的两个,搜索一下你就知道了
    lis66951735
        11
    lis66951735  
       2020-02-22 16:15:21 +08:00
    java jsoup , python BeautifulSoup
    TangMonk
        12
    TangMonk  
       2020-02-22 16:19:12 +08:00
    @littleylv #10 可惜 Pascal 的轮子比较少
    yuenc
        13
    yuenc  
       2020-02-22 20:01:29 +08:00
    nodejs puppeteer
    crella
        14
    crella  
       2020-02-23 10:11:37 +08:00 via Android
    ……我都是自己切割字符串查找文本的,我接触的网页比较简单……
    lzlee
        15
    lzlee  
    OP
       2020-02-24 16:18:24 +08:00
    感谢各位大佬的回复, 我挨个试试, 有效果的话, 会给反馈
    lzlee
        16
    lzlee  
    OP
       2020-02-24 16:24:18 +08:00
    @siknet
    感谢大佬
    火车我之前当做开发的时候用过, 功能确实很强大,
    当时记得是做一个 比价网站, 从各个购物网站上爬价格, 然后比较
    刚刚看了看, 发现 火车采集器 是个收费软件, 而且我的需求只是满足自己的一些好奇心
    大概是 在尝试理解一类用户的 思考方式 和 语言风格, 目前还只停留在很初级的阶段
    等真的哪天需要了, 再买个火车吧
    siknet
        17
    siknet  
       2020-02-24 20:33:03 +08:00 via Android
    火车采集器有免费版的啊,一般用足够了,注册个账号而已
    @lzlee
    lzlee
        18
    lzlee  
    OP
       2020-02-25 00:05:31 +08:00
    @siknet 还真有...谢谢大佬
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3517 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:59 · PVG 18:59 · LAX 02:59 · JFK 05:59
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.