Java 提取网页主要内容，求指导

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 2438 days ago, the information mentioned may be changed or developed.

现在遇到的问题是，自己写 xpath 需要写很多，每个网站写不同的，不太现实。

自定义正则抽取数据，写的不好会遇到死循环等奇葩问题，请教下各位有没有比较好的这方面现成的库实现

12 replies • 2019-09-16 10:20:07 +08:00

snappyone

Sep 15, 2019

如果有其他语言的较好实现，也可以考虑包装成对应 service 进行调用，每秒大概几百次调用这种频率

Hyseen

Sep 15, 2019 via iPhone

jsoup

qfpZ2KhNsF23UGbN

Sep 15, 2019 via iPhone

可以试一下 jsoup

300

Sep 15, 2019 via Android

前几天那个帖子，根据一篇论文写的实现，抽取标题和内容
你搜一下看看

Belmode

Sep 15, 2019

参考 webmaigic，作者基于 httpclient、jsoup 实现一套 xsoup，并且抽象了一个爬虫理论，自己基本上定制 Pipeline 和 Processor 就好，非常易用。

链接： http://webmagic.io/docs/zh/

Belmode

Sep 15, 2019

@Belmode 是 webmagic，打错了。目前已经非常完善，基本功能充足。只是，对 xpath 不是完全支持，参考文档。由于版本稳定，作者在 0.7.3 版本时，放弃了维护了。

snappyone

Sep 15, 2019 via Android

@Belmode 目前我就是基于这个二次开发的，保存了网页原始数据，现在对原始数据做二次处理想看看有没有现成一点的库

polythene

Sep 15, 2019

可以看看我的这篇给网页中每个 DOM 元素打分的方法： https://github.com/polyrabbit/hacker-news-digest/blob/master/%5Btutorial%5D%20How-to-extract-main-content-from-web-pages-using-Machine-Learning.ipynb，虽然是用 Python 写的，但原理都是类似的。

我用它来提取 Hacker News 各个网站的正文，准确率很高。

qfdk

PRO

Sep 15, 2019 via iPhone

@Belmode humm 感觉不错的样子

knightdf

Sep 16, 2019

python 有一个 dragnet 很不错

szandy6

Sep 16, 2019

jsoup，像 jQuery 一样操作 DOM

wysnylc

Sep 16, 2019

如果你是 java 的建议使用 XXL-CRAWLER,一句话创建爬虫