V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Champa9ne  ›  全部回复第 4 页 / 共 4 页
回复总数  72
1  2  3  4  
楼主感觉保存成类似用 save page we 插件下载下来的那种包含图片的 html 的形式还是有必要的。刚才粗略看了一下昨天刷的网页大概在 800 左右,一个正经技术贴含图片下载下来大概大小在 5-10MB ,这样算一天估计在 4-8g 。

800 这个值只是没排除下面说的肯定没必要下载的访问和我昨天几乎屁事没干一直在刷网页的前提下的测量值。

而且因为也不是所有浏览的网页都有必要下载,感觉可以在下载的时候过一次正则匹配,因为有时候访问主站或者打开翻译器,在搜索引擎上搜索关键字不打开帖子这种操作反而会产生大量浏览记录。

比如访问 https://www.v2ex.com/则不下载,访问 https://www.v2ex.com/t/*则下载,访问 https://translate.google.com/则不下载这样。

实际上感觉如果是正经干活,一天按匹配规则刷下来可能 200-400 贴左右需要被下载就顶天了。感觉再多一天的存储量可能在两三 g 左右,如果是丢到 nas 上那应该问题不大吧。
2022-12-18 19:41:56 +08:00
回复了 Champa9ne 创建的主题 macOS 求助:卡巴斯基杀毒软件如何关闭网络内容过滤
@joker999 没,我特殊需求而已。我干这方面分析的,属于是工作有需求。

其实 Mac 属于是市场占用份额比较特殊的设备,一般情况不装杀软也是可以。
2022-12-18 16:58:53 +08:00
回复了 Champa9ne 创建的主题 macOS 求助:卡巴斯基杀毒软件如何关闭网络内容过滤
@dingwen07 好兄弟那是我写的 =_=
2022-12-02 08:50:19 +08:00
回复了 iamjerry 创建的主题 Linux Linux QQ 也要开始内测了, electron 全平台了。
放在 docker 里用,省心=w=
2022-11-07 22:06:35 +08:00
回复了 Champa9ne 创建的主题 程序员 有没有利用开源组件建立一个 Web 端的本地搜索引擎?
@cnit QUQ 这个 nb ,除了不开源外都十分完美,真 开箱即用。先用这个顶上了。感谢老哥。
2022-11-07 17:57:37 +08:00
回复了 Champa9ne 创建的主题 程序员 有没有利用开源组件建立一个 Web 端的本地搜索引擎?
@hamsterbase 要用在内网,不开源不太行,后期要稍微改一点也动不了。

@edw1n Everything 好像是能搜索文件名吧,还能对全文内容搜索吗,我晚上试试。

@microxiaoxiao 对的,只是要自己开发轮子感觉有点耗时耗力,实在没办法也不是不行。
2022-11-07 13:54:57 +08:00
回复了 Champa9ne 创建的主题 程序员 有没有利用开源组件建立一个 Web 端的本地搜索引擎?
各位大大推荐的有的是 Windows 端上的可执行应用,有的是仅基于网页书签的全文搜索。

@menghechina @LengthMin 感觉这两位老哥推荐的 meilisearch 和 fscrawler 比较符合能在 Web 端搜索服务器资料库里各种不同文件格式资料中的内容这个需求,感觉主要还是要看看对中文的支持如何,后期搭起来给兄弟们试试水。=w=

用过的老哥也可以说下测评。 =w=
2022-11-07 13:31:17 +08:00
回复了 Champa9ne 创建的主题 程序员 有没有利用开源组件建立一个 Web 端的本地搜索引擎?
主要是资料的类型是多样的,有离线保存的 html 、有 md 文件、有 txt 、doc 、甚至有源代码文件(不是工程结构的文件,类似于一些小型的脚本),所以用云文档、团队文档这种方式来管理就很难,毕竟要人顺手从网页插件下载个网页自动通过 smb 上传到服务器容易,但是要别人手动拉网页,在粘贴到云文档这个操作就有点麻烦了。
2022-11-07 13:26:18 +08:00
回复了 Champa9ne 创建的主题 程序员 有没有利用开源组件建立一个 Web 端的本地搜索引擎?
@cy1027
@xiubin

不是 Web 端搜本地,所有资料都是放在服务器上的,只是本地的 smb 会被挂载到服务器搜索目录的一个子目录里。smb 只是一个快捷上传资料的方式。

就类似于服务端的索引文件夹里有很多个路径,会被不同成员挂载 smb ,成员在本地 smb 只有自己上传的那部分资料,但是在服务器看来就是他有很多成员上传的存储在不同文件夹里的资料。

然后全文搜索引擎会对这个文件夹里的资料进行整体的搜索
2022-11-07 03:48:33 +08:00
回复了 Champa9ne 创建的主题 程序员 有没有利用开源组件建立一个 Web 端的本地搜索引擎?
标题应该是 有没有可能利用开源组件建立一个 Web 端的本地搜索引擎

居然不能修改标题的嘛,才发现改标题的时候删多了两个字 QUQ
1  2  3  4  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3551 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 00:41 · PVG 08:41 · LAX 17:41 · JFK 20:41
Developed with CodeLauncher
♥ Do have faith in what you're doing.