windows 下如何组织存储十万个, 10~100MiB 约 2~3T 的视频呢?

2018-05-23 20:25:38 +08:00
 yangguoshuai

续前,下载的问题解决了。

https://www.v2ex.com/t/456617

这些视频会被播放软件索引,比如 plex。

那么如何存储这些呢,主要属于中小文件。

是一个文件夹放所有的视频,还是按照比如前缀分别放?

以机械硬盘存储,一个文件夹不超过多少文件性能速度合适?

1671 次点击
所在节点    问与答
13 条回复
kslr
2018-05-23 20:56:46 +08:00
我在 ext4 存了大概 14T 100M+的视频文件,目录在 1 ~ 2 级。
cnyang
2018-05-23 21:32:26 +08:00
91 视频吧,按前缀数字化存储,共 27 个文件夹,每个文件夹 4000 左右
yangguoshuai
2018-05-24 08:20:21 +08:00
@cnyang 所以大神都下完了?
Junn
2018-05-24 08:45:11 +08:00
@cnyang 求分享
teaser
2018-05-24 10:47:19 +08:00
@cnyang 大手子
cnyang
2018-05-24 15:31:30 +08:00
@yangguoshuai 你猜☺☻☺

@Junn @teaser github 有许多脚本很方便的
yangguoshuai
2018-05-24 18:22:02 +08:00
@cnyang 其实脚本不重要。。
重要的是换 ip 获取视频地址。。

and,还有两个技术问题:
1 所有 php 的 dom 库解析他们的网页都会爆内存无解,我只能匹配字符串。。
2 家里的宽带太渣了,下载请求总被重定向到缓存地址导致下载失败。。。
3 才发现 vps 的一个月 500G 带宽好像纸一样。。。
cnyang
2018-05-26 19:15:49 +08:00
@yangguoshuai
ip 问题有很多解决方案,github 用的伪造请求 ip(X-Forwarded-For)一直有效,另破解 vip 方案更佳(网上有多搜搜)
内存问题可以请求一页就入库,然后下载当前页,然后再请求下一页并排重,当然可能会漏掉但不多,有时间可以研究下 url 规则,有规律的
yangguoshuai
2018-05-26 21:27:19 +08:00
@cnyang 感谢解答问题。。

第一个 xff 我确实是没想到,也没看别人的源码……只是看 1<<10 有一个帖子分享的一个源代码是走的一个接口提供的原始地址。。

破解 vip 的我再找找……

内存问题不是一页多页的,是就是一个页面(/v.php)解析 dom 的时候就会崩。。。我是用直接截取字符串来搞定的,稳定性还不错,对于后端程序员懒得写选择器来说也不麻烦

url 规则……

viewviedo 那个页面的 viewkey 我确实是没看出来啥规律,好像就是一个 hash

下载 mp4 的地址是不同的 cdn+文件 id+两个校验参数,
一个是 st 看起来好像是 base64 的 token,一个是时间戳,这些还没看出来啥规律。。


最后,下载加速我用的 vultr 的 vps,开$$γ,2.5USD 一个月的机器有 500G 的流量,实际上按小时收费跑完 500G 的流量能下 300G 左右( with BBR ),花费不到 0.2usd,还是超值的,流量用光了直接释放,用镜像还原一两个小时搞定一台新机器。

最后。。再问个比较杂的问题:
/etc/sysconfig/network-scripts/ifcfg-eth0

```
DEVICE=eth0
ONBOOT=yes
BOOTPROTO=static
IPADDR=1.1.1.1
NETMASK=255.255.255.0
GATEWAY=1.1.1.1
DNS1=108.61.10.10
```

这个配置改成 dhcp 配置咋弄。。直接把 BOOTPROTO 改成 dhcp 后面的都清掉就可以么……(懒得查文档啦 2333

感谢 v2 社区各位大神
cnyang
2018-05-26 21:58:14 +08:00
@yangguoshuai
1.不说太透,慢慢研究吧,哪天被封都没得看了
2.善用搜索,static 改为 dhcp,下面的删除 http://linux.vbird.org/linux_server/redhat6.1/linux_21internet.php
yangguoshuai
2018-05-26 22:32:46 +08:00
@cnyang 感谢,从 whether 到 howto 是艰辛的,但是知道了 existing 到知道 howto 就简单太多了😄
yangguoshuai
2018-05-27 23:00:42 +08:00
@cnyang 在 gayhub 上撸了一天外加各种搜还是没啥头绪哇,你说的 xff 我倒是看到有人用了。。。
现在正在以 10G/小时的龟速收集中。。。
发现 BBR 至少 1.5 倍带宽消耗哇。。。。

还望点解。。。
eWdzQGNnY2FsLmNvbQ==
cnyang
2018-05-28 06:50:08 +08:00
1.水深不语
2.服务器下好再打包拖回来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/457261

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX