re.split(pattern, text)的 pattern 是很长很长的 list,效率会很低吧,有什么好的方法

2018-04-24 15:34:48 +08:00
 forelegance

现在又一个十几万个基因的名字,需要在一段文字中找到这些基因 Gene Symbol,然后从这个 Gene Symbol 两边切一刀,把这段文字切成 list

但是这个 pattern 就会操集长,想到用 re.split 来弄,但是 pattern 太长了,效率低

2111 次点击
所在节点    Python
4 条回复
layorlayor
2018-04-24 16:01:32 +08:00
手写个 AC 自动机?
neosfung
2018-04-24 16:07:58 +08:00
FlashText 了解一下?
bantao
2018-04-24 16:30:05 +08:00
flashtext 中文好用吗,是不是要先分个词
laqow
2018-04-25 02:58:33 +08:00
re 按行操作的话不会很长,python 自己的函数处理文字非常慢,按二进制读文字做匹配速度会快很多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/449456

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX