做了一个基于规则的中文数据预处理工具,发上来试试水

2018-10-31 19:44:49 +08:00
 huntzhan

UsageInstallRepo

目前支持的功能

3102 次点击
所在节点    分享创造
8 条回复
mingyun
2018-10-31 22:19:04 +08:00
win 安装失败了
Failed building wheel for pyahocorasick
Running setup.py clean for pyahocorasick
Failed to build pyahocorasick
Installing collected packages: pyahocorasick, cnt.rulebase
Running setup.py install for pyahocorasick ... error
Complete output from command d:\python3\python.exe -u -c "import setuptools, tokenize;__file__='C:\\Users\\ADMINI~1\\AppData\\Local\\Temp\\pip-build-wot4whvz\\pyahocorasick\\setup.py';f=getattr(tokenize, 'open', open)(__file__);code=f.read().replace('\r\n', '\n');f.close();exec(compile(code, __file__, 'exec'))" install --record C:\Users\ADMINI~1\AppData\Local\Temp\pip-_6l5x87u-record\install-record.txt --single-version-externally-managed --compile:
running install
running build
running build_ext
building 'ahocorasick' extension
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
huntzhan
2018-10-31 22:22:25 +08:00
@mingyun
这个是依赖项 `pyahocorasick` 报错。

> error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools

装 `Microsoft Visual C++ 14.0` 应该可以解决问题。我的实现应该是可以在 Windows 跑的。
NCZkevin
2018-11-01 00:18:12 +08:00
中文工具竟然没有中文文档。。感觉分词效果很一般
NCZkevin
2018-11-01 00:33:11 +08:00
看了下源码,感觉现在功能还不完善,经常用这方面的库,先 star 关注后续更新
huntzhan
2018-11-01 04:44:50 +08:00
@NCZkevin 没做分词(在做了,目前还没开源),你是指分句效果不行对吧?
如果有见过更好的支持中文分句的库,希望可以推荐一下。核心的问题是,中文分句没有标注数据,我也只能上规则做这个事情了。
dezhou
2018-11-01 12:07:02 +08:00
分句的意思是根据句号分?
huntzhan
2018-11-01 12:11:22 +08:00
huntzhan
2018-11-01 12:13:56 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/503152

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX