如何获取一个句子的拼音

2013-08-23 12:03:51 +08:00

YUCOAT

情况是这样的：

这里有一个大小约0.5个G的一个纯文本文件。
该纯文本文件每一行保存的都是一句话，并且该文件中无重复的话。一句话内部只有简体汉字，无标点符号、无空格、无英文、无繁体字等等

现在我需要为这个文件里面每一句话弄一行拼音，并且将拼音存入另外一个文件中，行号一一对应，请问我该怎么做？

拼音是全拼，且无声调，无空格，需要考虑多音字。

比如：zheyihangdiquebuxing（这一行的确不行）

4196 次点击

所在节点

程序员

10 条回复

levon

2013-08-23 12:10:59 +08:00

http://www.microsoft.com/zh-cn/download/details.aspx?id=18970
这有一个，是.net的类库

汉字有很多多音字，要完全准确感觉挺难

qdvictory

2013-08-23 12:19:58 +08:00

通常都是扒一码表，然后跑一下

https://gist.github.com/qdvictory/6315510

qdvictory

2013-08-23 12:21:23 +08:00

汗，我理解错了，sorry－－

qdcanyun

2013-08-23 12:37:06 +08:00

https://github.com/flyerhzm/chinese_pinyin/blob/master/data/Mandarin.dat

leiz

2013-08-23 12:45:29 +08:00

python有中文文字转拼音的库，不过效率不清楚

200

2013-08-23 12:56:06 +08:00

要做准确的话就要分词不然多音字会有问题

felix021

2013-08-23 13:32:53 +08:00

顶@200 。汉字转拼音的数据和代码很多，但是搞不定多音字，前面的那些回答都没啥用。要解决多音字，必须从语义层面入手。分词是一个比较好的方法，但是最终的实现还是需要一个"词语->拼音"的数据库，这个貌似不太好找。

wuxqing

2013-08-23 13:53:50 +08:00

@felix021 对，关键是“词语->拼音”的数据库

kittenll

2013-08-23 14:56:30 +08:00

利用自然语言统计模型处理，可以很好的处理多音字的问题。比如HMM（隐马尔土科夫模型）。如果计算资源足够的话，可以使用n>2，不然使用n=2就可以了。

YUCOAT

2013-08-23 15:25:13 +08:00

@kittenll 你提出的想法是最有用的。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/79974

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.