leader 让我写这么个爬虫 爬取目标是文章、新闻、资讯。
初始给我个关键词库,关键词千奇百怪,可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。
然后让我用这些词在 B 家上搜索,把是新闻的页面的新闻内容爬取下来。
从几个角度分析一下可行性?
首先我得先能识别他是不是新闻,其次是我得识别出他标题和内容在哪个标签里抽取出来,在这是这么搞的效率问题,一天能有多少产出。
我试着拿几个词搜了一下,前几页看到新闻的几率渺茫,而且从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题。。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.