需求:根据网站域名或 IP 地址识别网站类别

2019-04-01 15:19:10 +08:00
 alwayslan
现有一批网站域名和 IP 地址,量比较大,需要对这些网站进行分类

例如:www.baidu.com 为搜索类、weibo.cn 为微博类

目前想到的实现方式是用正则匹配的方式,人工对各类域名关键字进行打标,但是该方式仅能实现部分常用域名的识别

还有一个想法是通过 selenium 进入网站进行截图和获取源码,通过图片识别和 NLP 来识别网站类型,当时该实现太过复杂了

大家是否碰到过类似的需求,你们是怎么处理的,或者是否有类似的开源项目进行参考
2534 次点击
所在节点    程序员
6 条回复
sobigfish
2019-04-01 15:33:29 +08:00
没遇到过,纯粹 yy:
有个偷懒 /有点偏的办法,用特定 UA ( iOS / Android) 的去抓目标页面的 iTunes / Play 的 URL, 看他在商店里怎么被分类的
有 iOS deeplink 的还有这种特定的 URI 比如 reddit 的 https://www.reddit.com/apple-app-site-association (里面有 app id 和开发者 ID 可以再去查 app 对应的分类)
opengps
2019-04-01 15:44:57 +08:00
根据 UserAgent 归类,很多人都这么用过的,那些公开的搜索引擎都是带有标记的
alwayslan
2019-04-01 15:55:49 +08:00
没太看懂 2 楼所说的
sobigfish
2019-04-01 15:57:17 +08:00
比如上面的结果里的 app bundle id com.reddit.Reddit
然后 http://itunes.apple.com/lookup?bundleId=com.reddit.Reddit
结果里有--》"genres":["News", "Social Networking"]

或者直接搜网站的名字 举例“微博”
https://itunes.apple.com/search?term=微博&media=software&country=cn&limit=1
结果--》"genres":["社交", "新闻"]
herojaxy
2019-04-01 16:22:06 +08:00
https://www.similarweb.com/website/v2ex.com
楼主可以试试 similarweb,做网站分析的。可以看到排名 pv uv 等等。
他有一个分类排名,可以看到他对目标网站的分类
楼主可以试试爬他的 Category Rank 这一个字段。

网站有点慢,翻墙快点。
AM2coder
2019-04-02 08:56:34 +08:00
把网站首页爬下来,提取高频词汇、网站名称、顶级域名等特征或衍生特征,而后聚类分类,再人工标记各类别(逃)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/550853

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX