V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  igeeky  ›  全部回复第 1 页 / 共 3 页
回复总数  42
1  2  3  
我们用 postgresql + citus + pgvector 可以扩展到几亿, 十亿级别都没什么问题.
10 天前
回复了 young1 创建的主题 程序员 大模型吐 JSON
就是模型能力问题. 我最近也是大量这种长文本的生成. 豆包 1.6 错误率非常高. qwen, ds3.1, gemini 要好一些. 但是要多样化, 几个模型都要使用. json_schema 也依赖模型能力, 使用了 json_schema,返回非 json 也是很常见的. 后面直接改成返回非 json 了(适用于返回的字段比较少的情况)
65 天前
回复了 KaneW95 创建的主题 程序员 现阶段,接口性能测试最好的方案是什么
性能测试工具本身的性能也必须好. 单接口测试, 我一般推荐 wrk. 支持 lua 进行测试用例的编写.
156 天前
回复了 pengtao2001 创建的主题 程序员 redis 存储视频数据可行性
用 MinIO 自建存储.
@gaodq 不是时序数据. 帖子,评论类的数据. 应用场景不是在线使用. 是中台离线检索数据用.
@shellus 满足需求就行. 几十亿当然不多, 但是扩展到百亿级别完全是没问题的. 这个看着不像是个人说的. AI 生成的吧. 先学会像人一样说话吧.
@newshbb
@FightPig 具体不记得了, 选择阿里云速度最快的云盘就行.
速度虽然不块, 但是整体写入要比业务数据写入量还是要大几个数量级的. 完全够用.
citus 用着挺好的. 我使用的场景数据量不大, 大概是几十亿级别. 不到 10 个 T 的数据. 5 台 ECS, 1 个协调节点 + 8 个 worker 节点.
citus 分片 + 按时间分区.
MS 大品牌值得信赖.
超时时就有可能通过 reset 断开链接的.
可以输入报错请求的整体请求时间, 看看是不是就是 10 秒左右.
通常是要优化服务了.
非常好用, 感谢分享. 有个 BUG: 失效的超过一屏, 后面没显示出来.
2024-08-13 22:51:15 +08:00
回复了 kaf 创建的主题 NGINX openresty 怎么修改代理站的文件返回给客户端
https://github.com/iGeeky/wolf/blob/master/agent/lua/body_filter.lua
@kaf 参考这个代码吧, 也是鉴权后, 在页面添加鉴权信息的.
用户的密码存储密文是不符合国家信息安全相关的法律规定的. (什么法不记得了, 但是国家肯定有要求). 你们还是做信息安全的, 支持开除.
2024-04-05 11:52:49 +08:00
回复了 lemos1235 创建的主题 程序员 有什么可以方便监控多个服务器日志的工具?
使用 iTerm2 吧. 配置好不同的服务器地址后. 在多个 Tab 中打开. 然后使用广播输入的功能:
Shell -> Broadcast Input -> Broadcast Input to All Panes in All Tabs

打开该功能后, 你输入的每个命令都是在所有已连接的服务器上执行.
你可以批量执行 grep 命令搜索日志. 也能批量 tail -f 查看日志.
2024-03-29 10:00:34 +08:00
回复了 oakland 创建的主题 正则表达式 正则表达式合集帖(希望本帖能存活十年以上)
再推荐一个我一直在用的一个正则在线测试编写工具吧: https://regex101.com
测试效果图:
https://postimg.cc/XB0GyvM8
2024-03-29 09:49:58 +08:00
回复了 oakland 创建的主题 正则表达式 正则表达式合集帖(希望本帖能存活十年以上)
# 下面的正则是把用户输入的(无意义)大于 2 个字的重复的内容变成单个. 没想到有什么好的,简单的算法实现. 使用正则就比较简单.(python 代码)
userInputText = """
测试测试测试
哈哈哈哈哈哈哈哈哈哈哈哈
哈哈哈
你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?
"""
import re
regex = r"(?P<r>.{2,100}?)(?P=r){2,}"
subst = "\\1"
outputText = re.sub(regex, subst, userInputText, 0, re.MULTILINE)
print("## input")
print(userInputText)
print("## output:")
print(outputText)

# 输出:

## input

测试测试测试
哈哈哈哈哈哈哈哈哈哈哈哈
哈哈哈
你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?你在干嘛呢?

## output:

测试
哈哈
哈哈哈
你在干嘛呢?
2024-03-08 20:12:41 +08:00
回复了 JunYou 创建的主题 程序员 兄弟们,内网开发好难受啊,有没有什么解决办法
配置个强一点的笔记本或台式机. 本地运行大模型. 虽然比不上在线的服务, 总比没有强. 如果能把 70B 参数的跑起来,应该效果还行.
可以试试联合索引(query, type) 并且使用 hash 索引.
hash 索引不支持范围查询, 但是索引体积更小, 并且查询效率也更高.
2024-01-27 11:41:32 +08:00
回复了 leiuu 创建的主题 Kubernetes 用于 k8s 的最佳分布式存储框架是什么
不想折腾,可以看看阿里云的共享存储方案.
自己折腾,可以看看 MinIO, MinIO 是兼容 S3 的接口, 很成熟.
2023-10-17 21:13:44 +08:00
回复了 yueji 创建的主题 职场话题 不善社交的管理方式
任务要拆分的足够细, 时间预估的误差就会小很多. 细到单个功能点,不得超过 2 天.
2023-10-02 18:06:48 +08:00
回复了 steelshadow39 创建的主题 数据库 100W 数据量,数据库主键选择
如果 cpeName 没有范围查询需求, 也不会用 LIKE 进行查询, 可以用 hash 索引. 这样索引会小很多.
MYSQL 是支持 hash 类型的索引的.
如果数据库不支持 hash 索引, 你也可以自己用 cpeName 的 hash(比如 mmhash, crc64 等)作为主键. 这样查询时,只要自己 hash 一下, 再用 hash 值查询就行.
相对于语言, 数据库的造型也非常重要, 强烈推荐你用 PostgreSQL.
说一些比较常用的优势项:
字段类型支持数组(这样不用关联第二张表), 并且数组是支持索引的.
字段类型是支持 Json 的(不需要序列化到字符串再保存). 并且 JSON 中的字段也能索引.
支持倒排索引, 就是实现简单的字符串全文搜索. 并且支持中文分词.
支持文本,图片相似度(imgsmlr 扩展, 以图搜图)搜索.
支持向量(pg_vector)类型.
支持 GIS 扩展, 基于地理位置的查询.
1  2  3  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5660 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 65ms · UTC 02:53 · PVG 10:53 · LAX 19:53 · JFK 22:53
Developed with CodeLauncher
♥ Do have faith in what you're doing.