聚合多个的网站最新文章入库 然后自己索引可以搜索到 有什么办法能够实现吗.

2020-06-15 16:00:27 +08:00
 leihongjiang

之前发布了两个主题

聚合浏览网页的 PHP 源码或者软件有吗 www.v2ex.com/t/680814

Python 爬虫 请教能实现我的这两点吗? www.v2ex.com/t/681172

都不太理想.可能是我表达问题的方式不对.

要求如下

1-10 网站 自己写采集规则 采集到标题 跟链接 入库 方便自己索引

采集到的 标题跟 url 按照抓取到的更新时间排序

可以选择查看 1-10 某个网站所采集的全部文章(不需要内容 只需要标题 跟 url)

应该 php 能够实现 我的需求.请指点学习方向

933 次点击
所在节点    程序员
1 条回复
Luoyuanlong
2020-06-15 21:21:46 +08:00
我之前做过 Java 论坛爬虫,多个论坛的信息抽取规则我将其分别写成一条类选择( document.select())语句,然后作为相应论坛的模板属性,爬取论坛的时候,使用 JEXL 执行此语句,得到执行结果,就是需要抽取的论坛信息。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/681722

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX