leader 让我写这么个爬虫 爬取目标是文章、新闻、资讯。
初始给我个关键词库,关键词千奇百怪,可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。
然后让我用这些词在 B 家上搜索,把是新闻的页面的新闻内容爬取下来。
从几个角度分析一下可行性?
首先我得先能识别他是不是新闻,其次是我得识别出他标题和内容在哪个标签里抽取出来,在这是这么搞的效率问题,一天能有多少产出。
我试着拿几个词搜了一下,前几页看到新闻的几率渺茫,而且从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题。。