V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
LUREN
V2EX  ›  问与答

提取网页数据需要,请问有什么 HTML 解析器好用?

  •  
  •   LUREN · 2020-08-02 11:38:42 +08:00 · 2029 次点击
    这是一个创建于 1603 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?

    目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。

    9 条回复    2020-11-06 17:35:13 +08:00
    Jackeriss
        1
    Jackeriss  
       2020-08-02 11:42:22 +08:00 via iPhone
    beautifulsoup
    ochatokori
        2
    ochatokori  
       2020-08-02 11:59:11 +08:00 via Android
    可以的话用 python 吧,python 应该有不少 html 解析库
    misaka19000
        3
    misaka19000  
       2020-08-02 12:21:10 +08:00
    python -> xpath
    ipadpro4k
        4
    ipadpro4k  
       2020-08-02 13:24:30 +08:00 via iPhone
    各种 soup
    daimiaopeng
        5
    daimiaopeng  
       2020-08-02 19:17:43 +08:00
    bs4
    csx163
        6
    csx163  
       2020-08-02 23:57:17 +08:00
    这个深有感触,还是正则靠谱
    shadeofgod
        7
    shadeofgod  
       2020-08-03 00:39:51 +08:00 via iPhone
    lxilu
        8
    lxilu  
       2020-08-03 00:56:06 +08:00 via iPhone
    C#平衡对
    kiancyc
        9
    kiancyc  
       2020-11-06 17:35:13 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2856 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 12:47 · PVG 20:47 · LAX 04:47 · JFK 07:47
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.