Python 中拆分中文句子?

2014-09-05 23:05:58 +08:00
 Axurez
比如「这是一首简单的小情歌,唱着人们心肠的曲折。我想我很快乐,当有你的温热,脚边的空气转了。」我想以中文句号拆分这个句子,所以我试了
separate_lines = re.split(ur'(.*?[\u3002])', line)
以及
separate_lines = re.split(ur'(.*?[。])', line)
好像没有用。
而如果不加 ur,更是会出现乱码。。。

如果在 Python 3 下,不加 ur 直接就行了,问题是我要用 jieba,但是 jieba3k 在 PyCharm 里好像不能直接安装。

应该怎么办?Python 2 的编码问题真是让人抓狂
10839 次点击
所在节点    问与答
2 条回复
Daniel65536
2014-09-06 01:55:43 +08:00
为啥用re……直接str.split(u'。')不行么……
Axurez
2014-09-06 02:08:06 +08:00
@Daniel65536 因为实际上还有感叹号问号之类的…没写进题干

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/132004

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX