爬了 3534 个 Telegram 群/频道/机器人，却发现只有 6%的优质账号（开源所有代码和数据）

背景：使用 Telegram 的时候，为了能找到一些有意思的、好玩的、纯粹资源分享的群和频道，总是很困难，尽管有些网站推荐了不少的群 /频道 /机器人，但是往往其中很多都已经过期了，甚至很多都注销了，也有一些变成了涩涩群、机场群，一个一个筛选起来很麻烦，所以决定用 Python 爬虫来解决这一问题。

过程：用时一天时间，收集整理了很多网站数据，建立 URL 集合，使用 Scrapy 总共从十几个地址，爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中，爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。

结果：从 3534 个中，按照订阅数 /会员数排序，并排除了其他语言的账号只选择做中文内容的账号，也排除了包含：机场、Sex 、Gamble 、Politics 等内容，手工精选了 200 多个放在了下面的表格里，感兴趣的同学可以根据自己喜好选择加入。

感悟：从数据来看，其中有很多是早已注销的群 /频道 /机器人，也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ，这个比例还是挺惊人的，中文的优质内容在 Telegram 还是相对匮乏，Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号，但其中也有不少是羊毛，搬运，资源，影视，破解等内容，这些内容也是处于擦边球地带，真正优质的内容还会更少，当然这也限制与样本本身的质量，也许有不少好的账号还未被发现，也欢迎知道优质账号的同学能在 issue 留下它的链接。

GitHub 地址： https://github.com/alexbei/telegram-groups