需求是从句子中提取指定关键词或者关键词近似的词语;目前用 jieba 提取效果不是很理想.可能我用法不对;有人做过类似的关键词提取吗
1
miaoblyat OP # 提取句子中的关键词及其近似词
def extract_keywords_and_similars(sentence, custom_keywords, similarity_threshold=0.5): words = jieba.lcut(sentence) result = {} for keyword in custom_keywords: extracted_words = [word for word in words if is_similar(keyword, word, similarity_threshold) or keyword == word] if extracted_words: result[keyword] = extracted_words return result |
2
MelodYi 202 天前
先用大模型试试?
|
3
murmur 202 天前
少量的句子连人都看不懂怎么提取关键字
|
4
BiChengfei 202 天前
前提:你要有一个关键字字典
指定关键词:使用上面的字典,构建字典树,进行语句提取,或者循环比较 相似关键字:循环字典,求相似度 |
5
miaoblyat OP 现在用了 Chinese-word- vector 作关键词字典
|
6
miaoblyat OP @BiChengfei sentence: 这里发生车辆碰撞,有人受伤
keyword: {'车祸': ['受伤']}--0.5 sentence: 这里有条狗被撞了,无人受伤 keyword: {'车祸': ['撞', '受伤']}--0.5 sentence: 高速上塞车了,不知道什么原因 keyword: {}--0.5 |
8
BiChengfei 202 天前
{'车祸': ['受伤']}--0.5
{'车祸': ['撞', '受伤']}--0.5 你这不能使用相似度算法了,需要根据语义,进行文本分类吧(这个我不懂,等有缘人解惑吧) |
9
BiChengfei 202 天前
|
10
miaoblyat OP 好的感谢🙏
|
11
meshell 202 天前
@miaoblyat Op 要不试下我这个 https://github.com/TianLiangZhou/ffi-lac
|
12
czfy 202 天前 1
你应该把最原始的需求/最终的目的说出来,而不是这个经过解读后的需求
中文 NLP 过去绝大部分的做法,在大语言模型出来之后基本上都失去了意义,还用老套路来做只是缘木求鱼 |
13
rabbbit 202 天前
同有这个需求,也许可以解决模型知识库命中率低的问题。
|
14
macaodoll 201 天前 via Android
我们也有文本提取的需求,之前 NLP 错的太多了,这些文本提取类的交给大模型很舒服的
|