1
orzfly 2013-11-01 16:07:38 +08:00
楼主你必须理解的是,这只是字形转换。而且,字形转换也并非这么简单。汉字简化过程中,有些字符简化后合并成了一个字。
比如: > 比如一般人都很容易认为笔画多的“鬥”就是“斗”的繁体字,因而遇到简体字“斗”就全部转为“鬥”。其实,只有当“斗”读dòu,用于“斗争、斗殴、斗智”等与打斗有关的意义时,才可以转换为繁体字“鬥”。“斗”读dǒu,表示容量单位、升斗类器具或者升斗形状的意义时,古今都写成“斗”而不能写成“鬥”。 > http://mail.ywcbs.com/more.asp?infoid=4430 我以前写过一个 JS 脚本, http://bbs.moe9th.com/source/plugin/moe9th_chinese_variant/script.js http://bbs.moe9th.com/source/plugin/moe9th_chinese_variant/table.js 数据来自于 OpenCC,translateTables 里整个 Hant 和 Hans 表是用来字形转换的,而 TW, HK, CN, SG 四张表才是用来用语转换的。效果可以在那个站首页上看到,事实上这个东西还是问题多多。 另外,看了一下你的西窗烛,我个人觉得,文章部分,应该在数据库里存原文和一份人工参与的简化版本。因为古文的简繁转换相比现代文是更加困难的。 |
2
orzfly 2013-11-01 16:09:57 +08:00 1
另外,推荐一下《中國哲學書電子化計劃》。 http://ctext.org/zh
|
4
avalon 2013-11-01 16:20:31 +08:00
收藏学习了~ 感谢lz
|