爬了 3534 个 Telegram 群/频道/机器人，却发现只有 6%的优质账号（开源所有代码和数据）

背景：使用 Telegram 的时候，为了能找到一些有意思的、好玩的、纯粹资源分享的群和频道，总是很困难，尽管有些网站推荐了不少的群 /频道 /机器人，但是往往其中很多都已经过期了，甚至很多都注销了，也有一些变成了涩涩群、机场群，一个一个筛选起来很麻烦，所以决定用 Python 爬虫来解决这一问题。

过程：用时一天时间，收集整理了很多网站数据，建立 URL 集合，使用 Scrapy 总共从十几个地址，爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中，爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。

结果：从 3534 个中，按照订阅数 /会员数排序，并排除了其他语言的账号只选择做中文内容的账号，也排除了包含：机场、Sex 、Gamble 、Politics 等内容，手工精选了 200 多个放在了下面的表格里，感兴趣的同学可以根据自己喜好选择加入。

感悟：从数据来看，其中有很多是早已注销的群 /频道 /机器人，也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ，这个比例还是挺惊人的，中文的优质内容在 Telegram 还是相对匮乏，Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号，但其中也有不少是羊毛，搬运，资源，影视，破解等内容，这些内容也是处于擦边球地带，真正优质的内容还会更少，当然这也限制与样本本身的质量，也许有不少好的账号还未被发现，也欢迎知道优质账号的同学能在 issue 留下它的链接。

GitHub 地址： https://github.com/alexbei/telegram-groups

Jirajine

2023-06-26 19:18:43 +08:00

如何定义优质？随便扫了一眼，色情、piracy 很多，新闻频道要么涉政要么机场网络相关，币圈相关和菠菜也分不开。你这样筛选意义不大，既会包含“低质量”内容，也会漏掉“高质量”内容。
什么内容算“高质量”取决于用户的需求，建议用更中立的方式，不要根据内容主题筛选，只把充斥 spam 刷屏、广告、废弃无管理等信噪比低的过滤掉就行。