现在又一个十几万个基因的名字,需要在一段文字中找到这些基因 Gene Symbol,然后从这个 Gene Symbol 两边切一刀,把这段文字切成 list
但是这个 pattern 就会操集长,想到用 re.split 来弄,但是 pattern 太长了,效率低
1
layorlayor 2018-04-24 16:01:32 +08:00
手写个 AC 自动机?
|
2
neosfung 2018-04-24 16:07:58 +08:00 via iPhone
FlashText 了解一下?
|
3
bantao 2018-04-24 16:30:05 +08:00
flashtext 中文好用吗,是不是要先分个词
|
4
laqow 2018-04-25 02:58:33 +08:00 via Android
re 按行操作的话不会很长,python 自己的函数处理文字非常慢,按二进制读文字做匹配速度会快很多
|