如果只是搜索的话, 这2类字就可以理解为 "how fransic 你有 老了啊?" 中英两种文字放在引擎中去查看.
字对字直接简繁对应的话会出现如 @
bingu 说的那样 (恰好 昨天给孩子用一个台湾的程式讲故事,里面说的 "预备" 就是用 "就定位" 来表达的;
比如 软件在简体字的网页中是关键高频词, 但是
軟件 可能在繁體字的網頁中就真的不怎麼出現了 (就像你在一在簡體網頁中發現了 '正太' 一样 假设 这个词还没有漂过内地)
所以要建立繁体 <->简体的对应关系 (不如只考虑one-one mapping)
但其实只是把字面值换成对应的value的话就会出现 刚刚的问题. 所以只建立字-字的映射可能是不够的,
应该要建立一个 词-词 的映射,更准确的说 可以只建立**搜索中会用到的key words的映射**
附录:
'''
繁体 b'\xe7\xb9\x81\xe4\xbd\x93'
繁體 b'\xe7\xb9\x81\xe9\xab\x94'
软件 b'\xe8\xbd\xaf\xe4\xbb\xb6'
軟體 b'\xe8\xbb\x9f\xe9\xab\x94'
'''