自己想做一个咨询采集站,类似于多个新闻站点的聚合。
我想到的思路肯定是需要 python 写爬虫去采集,是用 bs 库吗?但是目标站点网页结构发生变化,我岂不是又要更新一次代码?
我想在 web 端爬取规则搞成可配置的形式,但是感觉有点复杂。有没有更好的方法?
目前只会一些 django。如果要实现这种新闻聚合站点,应该学一些什么?
目前会的技术栈有:java,springboot,python,django,vue,jquery,bootstrap.
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.