又一个天马行空的爬虫需求 大佬们来分析一下

2018-02-11 10:55:03 +08:00
 2ME

leader 让我写这么个爬虫 爬取目标是文章、新闻、资讯。

初始给我个关键词库,关键词千奇百怪,可能是挖掘机哪家强也可能是个商品名、也可能是个公司名、网站名、地名各种奇奇怪怪的词语句子。

然后让我用这些词在 B 家上搜索,把是新闻的页面的新闻内容爬取下来。

从几个角度分析一下可行性?

首先我得先能识别他是不是新闻,其次是我得识别出他标题和内容在哪个标签里抽取出来,在这是这么搞的效率问题,一天能有多少产出。

我试着拿几个词搜了一下,前几页看到新闻的几率渺茫,而且从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题。。

4838 次点击
所在节点    程序员
15 条回复
cdwyd
2018-02-11 11:25:21 +08:00
百度不是有个百度新闻,去那里搜出来的都是新闻吧
2ME
2018-02-11 11:28:22 +08:00
@cdwyd 最后写了 从新闻类目下搜大部分词也搜不到新闻,就算搜到了也词不对题 主要是关键词不一定是词 大部分情况下都是啥都搜不到
fire0594
2018-02-11 12:46:16 +08:00
从页面自动抽取标题和内容,python 有 goose 和 readability 两个库
ospider
2018-02-11 12:58:06 +08:00
你这不是爬虫问题,是文本分类,也就是 nlp 的问题
tttwww18
2018-02-11 13:10:03 +08:00
搜索引擎的 SERP 里面会有一些相对固定的返回模式,可以据此判断该 query 是否属于 news domain 然后再做提取处理。
2ME
2018-02-11 13:30:35 +08:00
@ospider 判断一个源是不是新闻不一定要 nlp 应该也可以从标记样式页面结构之类的入手吧 不过 nlp 对于我这个脚本仔来说确实太难了
soulmine
2018-02-11 13:54:46 +08:00
咱有个办法呀 你可以换个思路呀 比如你广撒网 然后爬十几二十个新闻网站 然后拿标题和你的那些关键词对比 看符不符合不就行了 ww 在或者说你去新闻这种地方去搜搜?
miniliuke
2018-02-11 13:58:45 +08:00
你找几家大的新闻网站,或者头条之类的。里面都是新闻,而且新闻网不都是我抄你,你抄我吗
2ME
2018-02-11 13:59:41 +08:00
@soulmine 这种思路被 leader 做为没有办法的办法 - - 需求内容一般都是 to B 的 有些新闻源都被爬烂了
2ME
2018-02-11 14:01:23 +08:00
@miniliuke B2B 的新闻资讯 和头条 163 这些不太搭边 不然直接爬这些新闻站就完了 需求用百度搜就是想爬一些小企业站的原创伪原创吧估计
Pinwheel
2018-02-11 15:37:18 +08:00
我们也有这样的需求,用关键词去搜索引擎搜索,不过我们是要做更细的历史、体育之类更加细分的东西。

先去爬门户网站的特定栏目数据作为样本,分词统计概率,再将从搜索引擎抓下来的内容用贝叶斯分类去找概率最高的,基本可以满足要求。
miniliuke
2018-02-11 15:47:48 +08:00
@Pinwheel 我感觉他是想要企业新闻类似的,一般企业新闻不会在新闻站中出现。只有大部分只有企业官网上有......就怕各个企业发稿天马行空
2ME
2018-02-11 15:57:58 +08:00
@miniliuke 是这需求
@Pinwheel 我是 SEO 爬完按 DM25 匹配一下就行了 别的对我来说就超纲了 = =
2ME
2018-02-11 16:08:27 +08:00
#13 DM25 -> BM25
insoxin
2018-02-11 16:08:49 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/430143

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX