现在又一个十几万个基因的名字,需要在一段文字中找到这些基因 Gene Symbol,然后从这个 Gene Symbol 两边切一刀,把这段文字切成 list
但是这个 pattern 就会操集长,想到用 re.split 来弄,但是 pattern 太长了,效率低
1
layorlayor Apr 24, 2018
手写个 AC 自动机?
|
2
neosfung Apr 24, 2018 via iPhone
FlashText 了解一下?
|
3
bantao Apr 24, 2018
flashtext 中文好用吗,是不是要先分个词
|
4
laqow Apr 25, 2018 via Android
re 按行操作的话不会很长,python 自己的函数处理文字非常慢,按二进制读文字做匹配速度会快很多
|