有没有这样一款软件或者开源代码,可以按照输入的网站进行爬取,并根据设定的主题进行内容分类?

2020-12-19 19:38:37 +08:00
 sjmcefc2
2195 次点击
所在节点    程序员
10 条回复
siknet
2020-12-19 20:24:25 +08:00
软件没有,人可以做到,一般我们称之为乙方。

你不可能凭意念驱动软件对吧。。。
lithiumii
2020-12-19 20:28:55 +08:00
任意网站的话不太行
指定网站(比如淘宝京东知乎微博……)其实是有的,百度搜爬虫软件之类的应该就能搜到,还有挺多公司做这种的。
不过你得花钱,当然钱加够也有定制爬虫的服务
dswyzx
2020-12-19 20:30:24 +08:00
github 用爬取对象搜一搜,也许有白嫖的可能
SaltyLeo
2020-12-19 22:44:29 +08:00
招个应届生就可以了,想什么网站什么网站,想要什么数据就什么数据。觉得速度慢了,就换个新的。
mamahaha
2020-12-20 01:54:16 +08:00
要是不用登录的网站,应该很多
no1xsyzy
2020-12-20 02:52:05 +08:00
非单一软件,也可能不符合楼主要求(因为楼主的信息实在不明确):
1. 自动爬虫我记得 V 站上有人分享创造过,主要是基于“相似且并列的元素”,可以转成 RSS
2. 然后用第三方聚合器的 filter 功能进行分类。
mumbler
2020-12-20 05:41:53 +08:00
火车采集器
annielong
2020-12-20 12:30:40 +08:00
任意一个采集工具都能实现,但是非常细节的定制分类,是没有通用的,需要自己处理
sjmcefc2
2020-12-20 13:17:04 +08:00
@annielong 不用忒别 细节,只要是在网页里面有某些关键词就可以归为一个主题
veike
2020-12-20 14:33:39 +08:00
文本分类器?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/737100

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX