有人知道microsoft office 系列软件的格式怎么解析的么?比如.ppt格式

2012-08-22 23:47:39 +08:00
 muxi
slideshare和百度文库都做得不错,office系列格式怎么解析?有现成文档或者开源组件没?
4100 次点击
所在节点    问与答
12 条回复
txx
2012-08-22 23:52:43 +08:00
我知道现在的docx pptx 重命名zip后能解压出来一坨xml。。。。

开源组建应该有吧 至少有 openoffice。。。。
muxi
2012-08-23 00:08:38 +08:00
@txx 感谢回复 http://poi.apache.org/ apache poi项目已经做了这样的工作 不知道百度文库之类的实现是不是用了这个项目
doskoi
2012-08-23 00:16:41 +08:00
微软的很多格式实际就是一个文件系统
xell
2012-08-23 08:46:22 +08:00
请参考 MSDN : http://msdn.microsoft.com/en-us/library/cc313118.aspx

实际上这种问题自己搜索一下就好了,例如 microsoft office format specification 之类的关键字就能带你找到相关技术文档。
BB9z
2012-08-23 08:54:48 +08:00
不一定非要自己解析吧。比如可以 => PDF => HTML 。
sectic
2012-08-23 09:36:43 +08:00
ruby有个库,可以解析doc,上次有人在邮件列表里问过,doc格式不适合解析,joel 以前谈过这个问题,首要是要保证计算机的读写,一开始也没有跨平台的需要
hyq
2012-08-23 09:41:45 +08:00
我先在項目中用的是openoffice轉成pdf,再用swftools轉成swf,最後在flash中閱讀
muxi
2012-08-23 10:18:57 +08:00
slideshare 被墙了,百度文库因为版权问题要先审后发,挺麻烦的,如果有成熟的方案,不如自己折腾一个,方便小范围的使用,这个貌似技术门槛挺高的,百度文库做的挺好的,感觉上比slideshare要好
neildd
2012-08-23 10:23:55 +08:00
openoffice有各个格式的详细解析文档
ailogx
2012-10-06 11:37:32 +08:00
@muxi 可以试试FlexPaper,现在阿里内部的知识管理(阿里味的教学相长)用的就是这个解决方案
chenlong828
2012-10-06 20:34:00 +08:00
百度文库等这种系统里面都是先在后台把文档转换成JPG,PDF等显示的,这方面的工具比较多,用不着去个人解析office文档的格式。
xuzhe
2012-10-06 21:01:50 +08:00
WPS 兼容微软很多都是照着 Open Office 来的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/45814

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX