爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)

2023-06-26 12:09:24 +08:00
 BeiChuanAlex

背景:使用 Telegram 的时候,为了能找到一些有意思的、好玩的、纯粹资源分享的群和频道,总是很困难,尽管有些网站推荐了不少的群 /频道 /机器人,但是往往其中很多都已经过期了,甚至很多都注销了,也有一些变成了涩涩群、机场群,一个一个筛选起来很麻烦,所以决定用 Python 爬虫来解决这一问题。

过程:用时一天时间,收集整理了很多网站数据,建立 URL 集合,使用 Scrapy 总共从十几个地址,爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中,爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。

结果:从 3534 个中,按照订阅数 /会员数排序,并排除了其他语言的账号只选择做中文内容的账号,也排除了包含:机场、Sex 、Gamble 、Politics 等内容,手工精选了 200 多个放在了下面的表格里,感兴趣的同学可以根据自己喜好选择加入。

感悟:从数据来看,其中有很多是早已注销的群 /频道 /机器人,也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ,这个比例还是挺惊人的,中文的优质内容在 Telegram 还是相对匮乏,Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号,但其中也有不少是羊毛,搬运,资源,影视,破解等内容,这些内容也是处于擦边球地带,真正优质的内容还会更少,当然这也限制与样本本身的质量,也许有不少好的账号还未被发现,也欢迎知道优质账号的同学能在 issue 留下它的链接。

GitHub 地址https://github.com/alexbei/telegram-groups

18177 次点击
所在节点    程序员
67 条回复
RageBubble
2023-07-04 12:01:46 +08:00
@BeiChuanAlex #59 大佬我还有个问题 我研究了一下 scrapy 代码 为啥你不直接数据上传到 supabase 的数据表里,而是单独使用本地的 PostgreSQL 数据库呢
BeiChuanAlex
2023-07-04 12:19:58 +08:00
@RageBubble 我也上传到了 supabase ,本地也有。但是这些数据全是原始数据,里面有大量的不适宜数据,不能直接公开。
RageBubble
2023-07-04 14:10:56 +08:00
@BeiChuanAlex #62 噢噢 没事 到时候我自己再爬一次就是了
giter
2023-07-29 17:42:13 +08:00
请问楼主,Github 的 md 文件爬不出来结果是怎么回事?其它都能爬,就是 Github 不能爬。

```
INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
INFO: Closing spider (finished)
```
BeiChuanAlex
2023-07-29 21:19:09 +08:00
@giter 给的信息太少了,很难分析原因。爬虫爬不出数据,要么是代码写的有问题,要么被反爬了。
cqcn1991
2023-11-28 10:57:51 +08:00
@BeiChuanAlex 想请问一下 LZ, 这个爬虫是能爬每个 channel 的消息嘛?还是能干什么?
BeiChuanAlex
2023-11-29 00:15:45 +08:00
@cqcn1991 不能爬取消息,只能获取群的介绍。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/951729

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX