V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
alwayslan
V2EX  ›  程序员

需求:根据网站域名或 IP 地址识别网站类别

  •  
  •   alwayslan · 2019-04-01 15:19:10 +08:00 · 2364 次点击
    这是一个创建于 1851 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现有一批网站域名和 IP 地址,量比较大,需要对这些网站进行分类

    例如:www.baidu.com 为搜索类、weibo.cn 为微博类

    目前想到的实现方式是用正则匹配的方式,人工对各类域名关键字进行打标,但是该方式仅能实现部分常用域名的识别

    还有一个想法是通过 selenium 进入网站进行截图和获取源码,通过图片识别和 NLP 来识别网站类型,当时该实现太过复杂了

    大家是否碰到过类似的需求,你们是怎么处理的,或者是否有类似的开源项目进行参考
    6 条回复    2019-04-02 08:56:34 +08:00
    sobigfish
        1
    sobigfish  
       2019-04-01 15:33:29 +08:00
    没遇到过,纯粹 yy:
    有个偷懒 /有点偏的办法,用特定 UA ( iOS / Android) 的去抓目标页面的 iTunes / Play 的 URL, 看他在商店里怎么被分类的
    有 iOS deeplink 的还有这种特定的 URI 比如 reddit 的 https://www.reddit.com/apple-app-site-association (里面有 app id 和开发者 ID 可以再去查 app 对应的分类)
    opengps
        2
    opengps  
       2019-04-01 15:44:57 +08:00
    根据 UserAgent 归类,很多人都这么用过的,那些公开的搜索引擎都是带有标记的
    alwayslan
        3
    alwayslan  
    OP
       2019-04-01 15:55:49 +08:00
    没太看懂 2 楼所说的
    sobigfish
        4
    sobigfish  
       2019-04-01 15:57:17 +08:00   ❤️ 1
    比如上面的结果里的 app bundle id com.reddit.Reddit
    然后 http://itunes.apple.com/lookup?bundleId=com.reddit.Reddit
    结果里有--》"genres":["News", "Social Networking"]

    或者直接搜网站的名字 举例“微博”
    https://itunes.apple.com/search?term=微博&media=software&country=cn&limit=1
    结果--》"genres":["社交", "新闻"]
    herojaxy
        5
    herojaxy  
       2019-04-01 16:22:06 +08:00   ❤️ 1
    https://www.similarweb.com/website/v2ex.com
    楼主可以试试 similarweb,做网站分析的。可以看到排名 pv uv 等等。
    他有一个分类排名,可以看到他对目标网站的分类
    楼主可以试试爬他的 Category Rank 这一个字段。

    网站有点慢,翻墙快点。
    AM2coder
        6
    AM2coder  
       2019-04-02 08:56:34 +08:00 via Android
    把网站首页爬下来,提取高频词汇、网站名称、顶级域名等特征或衍生特征,而后聚类分类,再人工标记各类别(逃)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2844 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:29 · PVG 23:29 · LAX 08:29 · JFK 11:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.