爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)

2023-06-26 12:09:24 +08:00
 BeiChuanAlex

背景:使用 Telegram 的时候,为了能找到一些有意思的、好玩的、纯粹资源分享的群和频道,总是很困难,尽管有些网站推荐了不少的群 /频道 /机器人,但是往往其中很多都已经过期了,甚至很多都注销了,也有一些变成了涩涩群、机场群,一个一个筛选起来很麻烦,所以决定用 Python 爬虫来解决这一问题。

过程:用时一天时间,收集整理了很多网站数据,建立 URL 集合,使用 Scrapy 总共从十几个地址,爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中,爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。

结果:从 3534 个中,按照订阅数 /会员数排序,并排除了其他语言的账号只选择做中文内容的账号,也排除了包含:机场、Sex 、Gamble 、Politics 等内容,手工精选了 200 多个放在了下面的表格里,感兴趣的同学可以根据自己喜好选择加入。

感悟:从数据来看,其中有很多是早已注销的群 /频道 /机器人,也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ,这个比例还是挺惊人的,中文的优质内容在 Telegram 还是相对匮乏,Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号,但其中也有不少是羊毛,搬运,资源,影视,破解等内容,这些内容也是处于擦边球地带,真正优质的内容还会更少,当然这也限制与样本本身的质量,也许有不少好的账号还未被发现,也欢迎知道优质账号的同学能在 issue 留下它的链接。

GitHub 地址https://github.com/alexbei/telegram-groups

18174 次点击
所在节点    程序员
67 条回复
opengps
2023-06-26 18:35:12 +08:00
怪不得我至今觉得 tg 用不起来,原来比例这么低,我还没进去
guazila
2023-06-26 18:40:23 +08:00
中国数字时代竟然不算涉政,不错。
BeiChuanAlex
2023-06-26 18:52:16 +08:00
@guazila 已删除
Jirajine
2023-06-26 19:18:43 +08:00
如何定义优质?随便扫了一眼,色情、piracy 很多,新闻频道要么涉政要么机场网络相关,币圈相关和菠菜也分不开。你这样筛选意义不大,既会包含“低质量”内容,也会漏掉“高质量”内容。
什么内容算“高质量”取决于用户的需求,建议用更中立的方式,不要根据内容主题筛选,只把充斥 spam 刷屏、广告、废弃无管理等信噪比低的过滤掉就行。
Arvin567
2023-06-26 20:18:53 +08:00
今日最佳帖子
lewi
2023-06-26 20:29:33 +08:00
点赞!
BeiChuanAlex
2023-06-26 20:34:32 +08:00
@Arvin567 谢谢
lizhesystem
2023-06-26 22:45:41 +08:00
好好好!
jzyzcz
2023-06-26 23:01:17 +08:00
telegram 上有些搜群的机器人,输入关键字,就会返回一些相关的群。

很好奇他们是怎么实现的,是有可以爬所有公开群 /频道的官方接口吗?
BeiChuanAlex
2023-06-26 23:16:42 +08:00
@jzyzcz 应该是爬的,然后做成接口
hanguofu
2023-06-27 06:02:38 +08:00
"买了一个域名" : 好评~~~ 楼主是个热心人!
HungryOrangeCat
2023-06-27 08:48:54 +08:00
@jzyzcz 这个我研究过一段时间,他们是从一个群的聊天信息里提取 TG 链接然后循环迭代这个做一个广度优先搜索类似的过程,缺点就是很消耗 TG 账号,因为一个 TG 账号每天只能访问 200 左右群组 /频道
invdan
2023-06-27 10:26:30 +08:00
感谢收录了我的两个群组😄
simazilinVV
2023-06-27 16:13:21 +08:00
你以为我上 tg 想干嘛
RageBubble
2023-06-30 17:16:26 +08:00
感谢,本来想用爬虫自己去爬 tgstat ,telegram-store 这样的数据库,没想到你已经做好了。😘😘😘😘😘😘😘😘😘😘😘😘😘😘😘😘😘
RageBubble
2023-06-30 17:31:42 +08:00
有一点没搞懂,为什么你说爬取了 5000 多个样本,但下载了 github 里面的 csv 后 excel 里打开只有 2209 行的数据?🧐
RageBubble
2023-06-30 17:39:32 +08:00
@RageBubble #55 希望大佬能分享下全部的 5000 多条数据
RageBubble
2023-06-30 17:48:47 +08:00
或者只给 3036 账号也可以,再次膜拜感谢😭
BeiChuanAlex
2023-06-30 18:49:10 +08:00
@RageBubble 只有 2000 多行数据是因为我用不能展示的关键字给过滤掉了,有太多的不适合展示的账号,就直接删掉了,最终只剩下这么多了,这还不是最终结果,最后一个一个点进去看,然后筛选,很费劲的。
oddboy
2023-07-01 09:11:51 +08:00
这属于在老鼠屎里舀清汤了,辛苦了大佬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/951729

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX