根据域名来给网站分类,如何办法

2016-10-30 19:07:05 +08:00
 1oscar

大概几十万个一级域名,想要根据域名来给网站分类,如何做到啊?

举例, www.baidu.com ,那就分为搜索网站, www.jd.com ,分为电商网站,以此类推。。。。。。

12370 次点击
所在节点    程序员
15 条回复
cdlnls
2016-10-30 19:10:33 +08:00
目测只能手动
机器不大可能知道你的那个域名是什么网站
而且不确定你的那几十万个域名是不是可以访问的
zachlhb
2016-10-30 19:11:50 +08:00
这个没办法吧,除非有网址库
knightdf
2016-10-30 19:13:31 +08:00
这叫根据域名?难道这不叫根据内容?
puyo
2016-10-30 19:39:10 +08:00
可不可以根据域名对应网站的 description 或者 keywords 来做分类
murmur
2016-10-30 19:50:35 +08:00
只根据域名无解 还有多少个数字网站呢
huage
2016-10-30 20:20:19 +08:00
没有办法
dsg001
2016-10-30 20:25:52 +08:00
采集域名 alexa 数据, alexa 有分类
CRight
2016-10-30 20:32:54 +08:00
3721 能做到吧...
bazingaterry
2016-10-30 20:49:56 +08:00
只能机器学习了?
huluhulu
2016-10-30 21:32:51 +08:00
采集这些域名的主页,
如果可以,采集主页上的链接页面的内容。
然后 TF-IDF 算法简单算一下,分成几类之后,就可以看看每一类大概是什么内容了。数据挖掘自动化分类的范畴。
alittletrain
2016-10-30 22:08:28 +08:00
比如万一碰到 www.度娘.com
是放到搜索? COSPLAY ?成*人?计量?还是社交类域名?
如果代码会说话,一定会告诉你:“不要搞事情。”
lhx2008
2016-10-30 22:13:35 +08:00
@alittletrain 事实上,还真有一个这样搞事的网站 baidu.wf
alittletrain
2016-10-30 22:23:34 +08:00
@lhx2008 世界之大,无。。。。
vh2h
2016-10-31 11:30:25 +08:00
@lhx2008 此乃神人也
itqls
2016-10-31 14:57:28 +08:00
@lhx2008 一天到晚搞事情

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/316615

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX