• 请不要在回答技术问题时复制粘贴 AI 生成的内容
snappyone
V2EX  ›  程序员

Java 提取网页主要内容,求指导

  •  
  •   snappyone · Sep 15, 2019 · 3051 views
    This topic created in 2438 days ago, the information mentioned may be changed or developed.

    现在遇到的问题是,自己写 xpath 需要写很多,每个网站写不同的,不太现实。

    自定义正则抽取数据,写的不好会遇到死循环等奇葩问题,请教下各位有没有比较好的这方面现成的库实现

    12 replies    2019-09-16 10:20:07 +08:00
    snappyone
        1
    snappyone  
    OP
       Sep 15, 2019
    如果有其他语言的较好实现,也可以考虑包装成对应 service 进行调用,每秒大概几百次调用这种频率
    Hyseen
        2
    Hyseen  
       Sep 15, 2019 via iPhone
    jsoup
    qfpZ2KhNsF23UGbN
        3
    qfpZ2KhNsF23UGbN  
       Sep 15, 2019 via iPhone
    可以试一下 jsoup
    300
        4
    300  
       Sep 15, 2019 via Android
    前几天那个帖子,根据一篇论文写的实现,抽取标题和内容
    你搜一下看看
    Belmode
        5
    Belmode  
       Sep 15, 2019
    参考 webmaigic,作者基于 httpclient、jsoup 实现一套 xsoup,并且抽象了一个爬虫理论,自己基本上定制 Pipeline 和 Processor 就好,非常易用。

    链接: http://webmagic.io/docs/zh/
    Belmode
        6
    Belmode  
       Sep 15, 2019
    @Belmode 是 webmagic,打错了。目前已经非常完善,基本功能充足。只是,对 xpath 不是完全支持,参考文档。由于版本稳定,作者在 0.7.3 版本时,放弃了维护了。
    snappyone
        7
    snappyone  
    OP
       Sep 15, 2019 via Android
    @Belmode 目前我就是基于这个二次开发的,保存了网页原始数据,现在对原始数据做二次处理想看看有没有现成一点的库
    polythene
        8
    polythene  
       Sep 15, 2019   ❤️ 1
    可以看看我的这篇给网页中每个 DOM 元素打分的方法: https://github.com/polyrabbit/hacker-news-digest/blob/master/%5Btutorial%5D%20How-to-extract-main-content-from-web-pages-using-Machine-Learning.ipynb,虽然是用 Python 写的,但原理都是类似的。

    我用它来提取 Hacker News 各个网站的正文,准确率很高。
    qfdk
        9
    qfdk  
    PRO
       Sep 15, 2019 via iPhone
    @Belmode humm 感觉不错的样子
    knightdf
        10
    knightdf  
       Sep 16, 2019
    python 有一个 dragnet 很不错
    szandy6
        11
    szandy6  
       Sep 16, 2019
    jsoup,像 jQuery 一样操作 DOM
    wysnylc
        12
    wysnylc  
       Sep 16, 2019
    如果你是 java 的建议使用 XXL-CRAWLER,一句话创建爬虫
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1106 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 18:39 · PVG 02:39 · LAX 11:39 · JFK 14:39
    ♥ Do have faith in what you're doing.