大量的文本文件处理用什么语言比较好?

2015-01-27 09:54:41 +08:00
 lynnworld

主要是从文本中提取信息,转换加工。。数据量挺大的,希望速度快,还要容错性高.

7906 次点击
所在节点    问与答
28 条回复
vulgur
2015-01-27 10:26:14 +08:00
人生苦短,我用Python
lululau
2015-01-27 10:27:15 +08:00
最好的文本处理工具是 Perl,没有之一
roricon
2015-01-27 10:32:29 +08:00
据说是Perl
lingo233
2015-01-27 10:33:12 +08:00
awk?
acgeo
2015-01-27 10:38:47 +08:00
C++搞定一切!

C++吸星大法好!!

C++能创造其他语言!!


哈哈哈
princelai
2015-01-27 10:39:32 +08:00
perl,sed&awk不是专门干这个的嘛
sleeperqp
2015-01-27 10:41:30 +08:00
sed或者awk把
python也可以~~
em70
2015-01-27 10:41:37 +08:00
awk效率惊人,可以用来提取,给其他语言进行二次分析
loveuqian
2015-01-27 11:15:44 +08:00
PHP大军还有30秒到达战场????
lxrmido
2015-01-27 11:19:57 +08:00
PHP是最好的语言
tini9
2015-01-27 11:20:33 +08:00
ruby就挺好
czheo
2015-01-27 12:04:34 +08:00
感觉乱不是语言的问题
lu18887
2015-01-27 12:12:19 +08:00
楼上的不要把这帖子变成月经贴好么!
tabris17
2015-01-27 12:12:34 +08:00
大多数支持正则的脚本都没问题,看你熟悉哪个了

资格老点的就是perl了,但是python\ruby\php都没问题
garfeildma
2015-01-27 12:14:05 +08:00
xml解析可以scala啊,内建xml支持
对ms不反感的话C#也挺好
NeoAtlantis
2015-01-27 12:17:27 +08:00
xml解析,如果单个文件不算太大的话试试python的beautifulsoup。
Dongdong36
2015-01-27 12:47:58 +08:00
1L +1
zythum
2015-01-27 12:49:34 +08:00
字符串处理效率高。无疑awk
aa88kk
2015-01-27 12:52:48 +08:00
数据量大,xml就别解析了, 太慢。直接正则提取。
invite
2015-01-27 12:53:45 +08:00
很明显,应该用C。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/165760

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX