V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
stcasshern
V2EX  ›  问与答

有没有新闻通用爬虫?可以智能识别爬虫和标题?

  •  
  •   stcasshern · 2017-07-10 15:24:23 +08:00 · 1945 次点击
    这是一个创建于 2694 天前的主题,其中的信息可能已经有所发展或是发生改变。
    看了下一些收费 api 或者云爬虫可以做到提交网址返回正文,想请教下是个什么思路。
    自己写爬虫都是针对一个站点定制 xpath 或者 css selector 规则,那这种通用的是怎么解决的呢?
    3 条回复    2017-07-10 16:03:57 +08:00
    bearsiji
        1
    bearsiji  
       2017-07-10 15:26:59 +08:00   ❤️ 1
    bearsiji
        2
    bearsiji  
       2017-07-10 15:29:05 +08:00   ❤️ 1
    https://github.com/GravityLabs/goose 还有这个 你的目的就是内容提取,常见的方法是 HTML 节点结构打分
    stcasshern
        3
    stcasshern  
    OP
       2017-07-10 16:03:57 +08:00
    @bearsiji 谢谢。学习一个
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6044 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:29 · PVG 10:29 · LAX 18:29 · JFK 21:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.