Python 中字符串转 unicode 再切成列表这两个操作有一个不合逻辑的地方

在 MOOC 上学习 Python，关于中文分词问题，按老师说的正向最大匹配分词的思路，写了一个程序。

这是第一次写的，运行结果和期望的不一样。

( )

仔细看了一下代码，没发现任何问题。
后来我对代码做了一些修改，仅仅是调了一下代码的位置

( )

现在运行结果和期望相符了。

这里我对输入的字符串进行两个处理：
字符串转unicode
字符串根据空格切分成列表

奇怪的是，我将这两个处理提取出来，传入给函数处理好的值，然后运行程序，得到的却不是我期望的结果
而同样的操作，在两个函数中分别进行处理却得到期望的结果。

代码是不变的，我只是调换了处理的先后顺序，而运行结果却出人意料，请问是怎么回事呢？

skyline75489

2015-01-19 12:22:20 +08:00

图片看不清啊同学。。。

hahastudio

2015-01-19 12:37:37 +08:00

sen 没做处理

zeroday

2015-01-19 13:48:21 +08:00

@skyline75489 不好意思，我图截大了，右键打开图片可以放大的。

zeroday

2015-01-19 13:49:57 +08:00

@hahastudio sen 不是在下面处理了呢？

proudzhu

2015-01-19 14:31:14 +08:00

分词我不懂，不过 word_max_len 这个函数的输入参数你搞清楚了吗？
为啥定义输入个 my_dict，结果调用的时候传个 sen ？

hahastudio

2015-01-19 14:45:47 +08:00

@zeroday 第一张图片里 sen 没处理，只转换了 my_dict

Sylv

2015-01-19 17:13:31 +08:00

就是因为图一的 word_max_len 没将输入解码成 unicode，而中文的 str 和 unicode 的 len 是不同的，unicode 的 len 才是中文正确的 len。

zeroday

2015-01-20 09:14:41 +08:00

@proudzhu
@hahastudio
@Sylv
明白了，原来问题在后面的代码中， word_max_len 传错参数。

zeroday

2015-01-20 09:29:11 +08:00

@proudzhu 分词的思路是这样的，按 append 中逆向最大匹配分词的思路来说。

首先需要有一个字典对切分的单词作匹配。比如类似图中的：
你我他爱北京天安门研究研究生命生命的起源

然后传入一个句子进行切分单词，同时定义一个列表来存放匹配成功后的词，比如
研究生命的起源

我们从句子的末尾进行匹配。因为字典词的最大长度为 3，故我们先匹配的词为末尾三个字符，即
的起源

“的起源”不在字典中，故改变词的长度，变为长度2，匹配的词则变为
起源

“起源”在字典中，匹配成功，则存入列表中。

然后句子从“生命的”开始，继续匹配。

如果句子中有列表中不存在的词，则将单个汉字作为词存入列表。

这样，最后匹配的结果为：
研究生命的起源

匹配的结果比图片中正向最大匹配分词更为正确。（正向最大分词的思路和逆向差不多，区别是从头开始匹配）

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/163424

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.