项目中有对大量dump出来的邮件文件(PST、EML)进行内容索引和查询的需求,由于可能有多人同时进行查询和建档工作,所以需要实现一个类似搜索引擎的查询平台,各位有没有推荐的实现方案?

2013-03-14 18:51:49 +08:00
 qwert_solo
比如用户在搜索接口中搜索“mentos”,在反馈回来的结果中应该包含如下展示:
1、“mentos”所在的上下文(一句话就行);
2、该单词出现所在的入库的原始文件地址(比如/home/data/library/wak.pst);
3、如果邮件中包含附件(如pdf、doc等),也需要对其进行索引查询。
数据量很大,几十个T吧,所以基本排除了查询时copy一份然后google desktop之类的方案。
4665 次点击
所在节点    程序员
11 条回复
qwert_solo
2013-03-15 16:55:12 +08:00
为啥没人理我呢?
是不是我没说清楚问题。。。。
热盼各位解答:)
vibbow
2013-03-16 07:54:06 +08:00
这又是哪家邮箱服务要做全文搜索了么?
Tianpu
2013-03-17 13:37:58 +08:00
哎呀 这几天刚做了个邮件列表的归档 才加到一天2000多封 你们邮件真多

可以看看www.xunsearch.com
sun1991
2013-03-17 17:01:40 +08:00
如果需要解析PST文件的程序, 可以联系我. 纯.Net实现, 不依赖额外组件. 抽取邮件正文, 附件.
sun1991@126.com
Actrace
2013-03-17 17:26:58 +08:00
总是有人闲着蛋疼。。。又是一个做搜索的。。。
jimmy2010
2013-03-17 18:49:36 +08:00
@Tianpu xunsearch我不会用。。我已经按照教程安装好了,但是不知道怎么使用,XS.php文件也包含在了web可访问的一个php中,但是打开之后是空白,是不是一定要二次开发之后才能使用?
要是能有使用的例子就好了,比如:从安装到最后能对服务器上某一文件夹下的超大文本文件做全文搜索..
Tianpu
2013-03-17 20:13:44 +08:00
@jimmy2010 如果不确定 最好找商业的支持 因为可能甚至是环境因素什么的
qwert_solo
2013-03-17 20:16:06 +08:00
@Actrace 看来是我没说清楚,不是做搜索,是自己项目中的数据需要整理
qwert_solo
2013-03-17 20:18:26 +08:00
@Tianpu 很好的建议,不过xunsearch是不是支持对诸如pst等的支持?没看到例子。。。@jimmy2010我也觉得要是有能使用的例子就好了:)
Tianpu
2013-03-17 20:27:45 +08:00
@qwert_solo 额外库的支持自己找啊 比如 http://www.five-ten-sg.com/libpst/

我觉得 海量的数据应该就是搜索的概念了 只是搜索的字段很少而已

不然把所有信息读到文本文件 或者 sql什么的 然后正则 或者 like也是解决的办法 只是性能上就不行了吧
qwert_solo
2013-03-19 02:22:43 +08:00
@Tianpu thanks!我去试试看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/62940

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX