某同学说我做的搜索太业余,邀请大伙来投票

2019-06-18 14:50:59 +08:00
 nyfok

投票对象:

A. so.csdn.net

B. goobe.cn

事情起因: 某同学(某公司举足轻重的那种吧)看过我搜索后说,你没在真正搜索引擎公司干过,你这业余干的搜索,我没看出来好在哪里。

谁的产品,谁都会护短,所以我也不做过多辩解,尽量中立。但我绝不接受光扣个帽子,却也没说出个道理来。可能高人认为我自己能悟出来吧。

事实上我也知道我的产品还有一堆些问题和不足,但我天生愚钝,实在没看出来产品比 csdn 搜索差在哪儿,所以求助万能的 v 圈帮助。

一是帮我下面跟帖投个票,就说你更喜欢哪个搜索,哪个更好用。 二是最好说明一下原因。但凡是我这边的产品不足,我都会去尽量优化提升。

谢谢大家。ps,大搜索引擎公司没去过,以前自己创业做过一个视频搜索,wosss,不知道有没有人用过。

9953 次点击
所在节点    程序员
105 条回复
nyfok
2019-06-18 17:59:49 +08:00
@superalsrk 自己做的,目前总索引到 900 万了
nyfok
2019-06-18 18:00:08 +08:00
@stiekel 视频搜索
nyfok
2019-06-18 18:00:38 +08:00
@AngryPanda 前期都抓的 csdn,后来才抓别的站
nyfok
2019-06-18 18:01:20 +08:00
@dooonabe 是触发 bug 了,我今晚修复
nyfok
2019-06-18 18:02:11 +08:00
@shoumu 多谢
Azmaveth
2019-06-18 18:07:28 +08:00
做一下敏感词屏蔽 然后尽量爬爬国外的论坛,国外的有些技术贴真不好翻,做垂直类的就要做大引擎做不到的 ,我站 B
Azmaveth
2019-06-18 18:08:36 +08:00
对了 已经收藏并添加快捷了,即便是广告有用的东西也会保存一下 楼上那些说广告的真无趣~~~
hlwjia
2019-06-18 18:09:13 +08:00
敏感词真是。。。

还要.cn 的域名,我有点担心楼主的人身安全
nyfok
2019-06-18 19:25:10 +08:00
@encro 多谢,能说一下哪个关键词吗
SteveZou
2019-06-18 19:29:43 +08:00
我感觉你在做广告而且我有证据
z919126592
2019-06-18 19:35:02 +08:00
nyfok
2019-06-18 20:10:23 +08:00
刚才连续回复过猛,被 ban 了,这会刚恢复,我先拣要紧的说,回头再一一回复。
首先感谢大家的留言意见,不管是说好的还是批评的,我都非常感谢,因为发帖问大家的目的,也是因为我担心自己太自我、太膨胀,所以多听听朋友的意见总能让我更清醒的认识自己几斤几两,帮助自己提高。
尤其感谢提心我注意安全的朋友们,谢谢你们!我昨晚已经求助万能的 v 圈了,今天有几位很好的热心人给我违禁词清单了,我今晚就加上。我一定不给国家添乱。
再解释一下做 goobe 的原因。我是做产品的,或者说产品 80%,技术 20%。搞开发更像是我的兴趣爱好,一直坚持。和很多 it 男一样,烧数码,烧显示器,烧台灯,烧 wifi 我也是一个个玩过来(感谢另一个好社区 chiphell ),唯独编程始终不离不弃,应该算是强烈兴趣吧。
最近我在研究国内技术社区,窃以为程序员最刚需的就是搜索,不管是搜教程,搜 api,还是 debug 信息还是出错信息。如果一个技术社区连个搜索都做不好,怎么服务好他的用户?搜索最核心的就是 ranking 排序,现在很多引擎普遍是基于搜索关键词词频排序,而不太在意关键词之间的距离,这就会导致搜索的准确性。譬如“ import system.wen.httpcontext ”我们搜索时肯定期望文档中这几个词都要出现,而且越靠近约好。所以,考虑到技术搜索的特殊性,我觉得和通用新闻、资讯搜索不一样,所以我试水做了一个。另外,考虑到国内不能访问 google,我觉得这个搜索能够多索引一些国外网站,对大家也会更有帮助,所以另一部分重心放在了国外技术网站抓取上。
nyfok
2019-06-18 20:10:41 +08:00
为什么只做技术搜索?我从来没觉得 baidu 差,如果你真正做公司要养活团队,要回报股东,想着盈利的时候,未必会比 baidu 好到哪儿去。说技术超越 baidu 我也不太信,国内干过搜索的公司多的去了,腾讯也干过吧,现在也还有别的大公司在干搜索吧,但为什么用户搜索主要还用 baidu,那还是有原因的,几个人的小团队能干成的机会较小,能干成的一定是天才,我很崇拜。鉴于此,单纯的技术领域搜索还好,现在的硬件资源和技术资源我还勉强花的起,而且也可以有一些小创新可以试试看,所以纯粹是玩玩看。
搜索结果是二道贩子吗?对用人家的搜索结果,外穿一身皮的事情,我个人不太有兴趣,也违背了我玩的初衷。要做,就得做一个能够区别于 baidu,google 而又有独立存在价值的产品。所以,我摈弃了常规网页搜索正文提取的方法,而是老老实实一个个网站写模板,为的就是内容中不夹杂别的内容,保证搜索结果准确性。另外,我做结构化搜索,还能够提供论坛的回帖数显示,github 的 star 数显示,为的都是增强用户体验。楼上的有位朋友说得对,得垂直的够深,有特色,这和我想到一块了。目前是因为但关键字的 rank 我做的不好,还有当我的库里没有你的搜索结果时,前面偶尔几条结果我会参考 google,过一阵子我弄完后就回去掉。
当然搜索我觉得只是一步,未来我还期望提供更多的在线小工具,譬如 ip 查询,进制转换,js 加密解码,编程语言转化,webide 等等。尤其是知识共享平台。我觉得现在不比以前信息匮乏,现在信息足够多了,就要侧重在筛选,评级和共享,重用上,未来我可能会推出类似产品。在微软呆过的人可能知道 kb 和 so,我觉得这套知识积累成电沉淀体系就很好。
最后,再次真心感谢大家,祝大家好!
nyfok
2019-06-18 20:14:39 +08:00
说我做广告的人我也不反驳,我社区发了几个贴,都是意见征集为主,外带求帮助。另外,产品做了一半,总希望多听听大家意见,有价值就留着,没价值就关掉。这不就是论坛,圈子聊天沟通的意义吗,我为人人,人人为我。如果这属于广告行为,我虚心接受,并恳请 V2EX 管理员删除我的所有发帖,谢谢!
keith1126
2019-06-18 20:44:23 +08:00
看到楼主回复说是用 Lucene 做的,而且只自定义了文档评分的算法,坦白地说,这种程度的搜索引擎确实不够“专业”。

为什么这么评价呢,因为这种搜索引擎(从零开始,爬数据、处理数据、搭建搜索引擎、写前后端)的工作量,大概就只是一门课程的大作业级别,距离真正可用的搜索引擎还有很远。

(非嘲讽楼主,我上学期某门课的期末大作业就做了个搜索引擎,而且比这个功能掠夺,但也只能算 toy 级别的东西
keith1126
2019-06-18 20:44:51 +08:00
@keith1126 #55
掠夺 --> 略多
nyfok
2019-06-18 20:48:54 +08:00
@keith1126 感谢你中肯的意见,我很喜欢
keith1126
2019-06-18 20:49:35 +08:00
顺便试了试搜索,目测分词部分做得比较粗糙:比如“ jave 爬虫”有结果,但是“ jave 爬虫”无结果。

而且搜索结果的排序(或者说文档评分的算法)应该有点问题,比如搜索“周杰伦”,前排出来一大堆十多年前的结果。
keith1126
2019-06-18 20:54:20 +08:00
@keith1126 #58

中英文之间被自动加了空格...我的原意是 jave 和爬虫之间没有空格时搜索会有问题。

而且,还有一点小小的建议:例如“的”之类的词,可以作为停用词直接去除(网上应该有现成的中英文停用词表),这样可以提高搜索的准确率。

不过话说回来,这个搜索引擎的 UI 很简洁,深得我心。
nyfok
2019-06-18 21:02:10 +08:00
@keith1126 收到,我回头好好查查。停用词表我有,但现在为什么这个机制我忘了,回头好好看看。刚到家先吃饭,今晚当务之急先把禁查词加上,要不然真是有问题。再次感谢老兄!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/575113

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX