分享一份采集了一年的数据

9 天前
 zzjcool

背景

每天摸鱼就是刷刷知乎还有微博,但是随着国内内容站的质量下滑,以及作恶,强制下载客户端查看,所以渐渐的不想打开这些软件,慢慢的每天就只看一下热榜,追一下热点新闻,所以就想提升效率,做个页面直接查看微博和知乎的热榜。市场上现有的热榜网页有很多,但是都没有符合我的需求:

  1. 可以一个页面查看我需要站点的热门榜单
  2. 可以看到热门的趋势图
  3. 有极速上升的热点,能主动及时通知我
  4. 可以对每日、每周、每月的热点自定义生成总结报告
  5. 手机端友好

所以我自己写了个网页:

https://huoju.info/

但是,近一年工作、生活上有很多事情,上面的需求基本没有完成,不过数据已经采集了近一年了,不想让这数据浪费,所以分享出来。

数据应用

目前只是做了趋势的展示

比如今天知乎关于大 A 的提问 https://www.zhihu.com/question/788585736

查看热点趋势: https://huoju.info/hot/zhihu/788585736

可以看到 12:30 左右有一个明显的断崖,这种就是被限流的问题。

还有很多有意思的使用方式,但是个人精力有限,所以一直没有搞。

想交流的伙伴可以邮箱 email@zzj.cool 联系

Release

https://github.com/zzjcool/huoju-data/releases

数据库文档

表: HotType

用途: 存储热榜类型的基本信息。

字段名 数据类型 索引 注释
id bigint primary key 主键
type_name varchar(16) unique index 站点名称
refresh_time int 刷新时间

表: Hot

用途: 存储具体的热榜条目。

字段名 数据类型 索引 注释
id bigint primary key 主键
type_id int unique index (type_key) 热榜类型
unique_key varchar(64) unique index (type_key) 唯一标识
title varchar(255) index (idx_title) 标题
content text 内容
link varchar(255) 链接
image_link varchar(255) 图片链接

表: Rank

用途: 存储热榜条目的排名和热度指标。

字段名 数据类型 索引 注释
id bigint primary key 主键
type_id int index (idx_typename_timestamp) 站点名称
unique_key varchar(64) index 唯一标识
rank tinyint 排名
metric int 热度指标
timestamp int index (idx_typename_timestamp) 时间戳

详细说明

1470 次点击
所在节点    分享创造
1 条回复
guoziq09
8 天前
感谢~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1078721

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX