做了一个代码搜索引擎: dig.codes

2022-04-24 08:31:53 +08:00
 techv

作为一个全栈开发者,经常要在多种语言之间挑战,然而最熟悉的只有一种,其它的往往是随用随学,对搜索引擎的依赖很大,而搜索引擎的结果需要再点进去查找,比较繁琐了那么一点点。

dig.codes 希望减少那一点点繁琐,在结果页主要显示代码,通过看这一页的结果快速解决编程中的问题,比如“js 数组 方法”。如果需要深入了解这个问题,再点击原始链接查看详情。

实际上,“减少那一点点繁琐”的愿望并不好实现。dig.codes 的数据源是在线教程、文档、博客,挖掘其中的代码匹配用户查询并把最符合的代码呈现给用户,这个匹配过程其实相当难。用户输入是带有语义的自然语言,目前搜索引擎的算法主要是字符串匹配,这中间有个巨大的鸿沟——语义。这就导致你很容易发现 bad case ,当然也有很多 good case 。也尝试了语义搜索的方法,但是效果比字符串匹配差很多。这个愿望的圆满还任重道远。

下一步,搜索算法,减少答非所问的情况。同时也在考虑是否要实现 github 代码搜索。目前的搜索,主要是搜索文档中的代码,要搜索 GitHub 的话就是从工程代码中搜,即纯代码搜索。由于 GitHub 已经提供的代码搜索,dig.codes 再提供类似的功能意义何在?近期一直在考虑这个问题。如果您有什么建议,欢迎回复提出,十分感谢。

请大家试用 https://dig.codes/ , 提出您的宝贵意见和建议,以及各种讨论,谢谢,谢谢。

5399 次点击
所在节点    分享创造
39 条回复
techv
2022-04-24 13:42:34 +08:00
@fengyiqicoder language: 过滤在计划中,应该能提高准确率,多谢。
techv
2022-04-24 13:43:47 +08:00
@LeeReamond 谢谢鼓励,它在不断进化,请多多使用,希望它有一天能成为你的助手。
techv
2022-04-24 13:45:09 +08:00
@huntagain2008 恭喜您,发现了它的真正目的,希望这个特点成为它的价值。
techv
2022-04-24 13:45:58 +08:00
@fgd 谢谢,希望能帮到您。
techv
2022-04-24 14:00:23 +08:00
@gogogo1203 确实很难,我再好好考虑考虑取舍和定位的问题,谢谢您的建议。
zagfai
2022-04-24 14:05:39 +08:00
"python redis asyncio" 没有得到想要答案
Echoldman
2022-04-24 14:45:47 +08:00
用了一下,感觉很有意思,一定程度上能给到我想要的东西。
好奇的问下,这是你的个人在做的项目吗?
haobogu
2022-04-24 17:46:24 +08:00
如果是 Java 的话,可以试一下 IDEA 的插件 Alibaba Clouding Coding Assistant ,里面也有类似的代码搜索功能 https://alibaba-cloud-toolkit.github.io/cosy/#/zh-cn/guide/how-to-use-codesearch
techv
2022-04-24 18:05:15 +08:00
@zagfai 现在有了。知识库还需继续扩充。
techv
2022-04-24 18:06:45 +08:00
@Echoldman 如有想要的功能尽管提出来哦。是的,个人项目。
techv
2022-04-24 18:07:15 +08:00
@haobogu 好的,去学习一下
xman99
2022-04-24 18:32:50 +08:00
挺有意思的,哈哈
LemonK
2022-04-24 19:16:55 +08:00
优秀,关注了。曾经设想过类似的 UGC+知识图谱,OP 用搜索+机器抽取效果也很不错。
我个人还是赞同#2 先按语言一个个做精的想法,如果某个语言结果不全或者质量不高,对这个语言的用户来说就是基本不可用,留着也意义不大。
techv
2022-04-25 07:53:08 +08:00
@LemonK 多谢您和#2 的建议,已经在思考如何从单点做精。
zagfai
2022-04-25 14:11:12 +08:00
@techv 所以这个扩充是手动的嘛?还是?。。。
techv
2022-04-25 17:16:55 +08:00
@zagfai 手动添加数据源
huntagain2008
2022-05-23 12:31:43 +08:00
printf %b
点搜索就
500 — Internal Server Error

The server encountered an internal error and cannot complete your request.

iphoneXs safari
techv
2022-05-27 19:31:01 +08:00
@huntagain2008 已修复,非常感谢您的反馈。
bigtang
2023-05-30 08:18:56 +08:00
dig.codes 域名正在出售,网站是关闭了?问了一下 gpt, 列出几个吧:

SearchCode.com:SearchCode 从 Github 、BitBucket 、CodePlex 、SourceForge 、Fedora 等代码仓库里筛选了近 160 亿行开源代码;

tanglib.com: 小唐代码搜索,可以搜索 github star 数量超过 100 的项目中的代码,超过 1.15 亿个代码文件,可以搜索 openharmony 鸿蒙,Android 13 ,chromium 源代码等项目源码,小唐代码搜索是字符级搜索引擎,这意味着你可以搜索任意代码片段(包括符号);

grep.app:可以搜索超过 50 万个 Git 仓库中的代码,支持正则表达式搜索,但好像是不能组合搜索;

github.com : github 自己的代码搜索,GitHub 的代码搜索功能可以帮助开发者快速找到自己需要的代码,支持关键字、语言、文件名、文件路径、代码片段等多种搜索方式,可以根据代码的贡献者、更新时间、星级等指标进行排序。GitHub 的代码搜索引擎可以搜索 GitHub 上的所有公开仓库,也可以搜索自己的仓库和组织内的仓库,很强大但是网络访问不好。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/848859

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX