V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
dtgxx
V2EX  ›  问与答

老铁们,有在 sparksql/spark 计算过字符串的相似度吗?

  •  
  •   dtgxx · 2021-08-25 18:01:57 +08:00 · 983 次点击
    这是一个创建于 1190 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在 sparksql 编程,想使用 sql 或者简单的 udf 解决问题。需求是两个字段的值,如果具备相似性,则关联出来。
    类似 left outer join on a.txt=b.txt

    a.txt='请在标题中描述内容要点'
    b.txt='请你描述内容要点哦'
    这俩我就认为相似度比较高,文本不会很大,都是这样的小文本字符串的相似度。

    5 条回复    2021-08-25 21:37:03 +08:00
    TimePPT
        1
    TimePPT  
       2021-08-25 19:33:20 +08:00
    语义相似性还是字符相似性?
    这俩差别很大
    dtgxx
        2
    dtgxx  
    OP
       2021-08-25 19:51:06 +08:00
    @TimePPT #1 正在写字符相似性。。语义的。。。貌似比较麻烦
    francisdu
        3
    francisdu  
       2021-08-25 20:59:31 +08:00 via Android
    词向量聚类?
    des
        4
    des  
       2021-08-25 21:00:46 +08:00 via iPhone
    你提的问题是字符相似,举的例子是语义相似
    leonme
        5
    leonme  
       2021-08-25 21:37:03 +08:00 via iPhone
    直接的 sql 应该实现不了吧,可以自行封装个函数,计算结果保存在中间表,然后 spark 再扫表关联
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1232 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 18:10 · PVG 02:10 · LAX 10:10 · JFK 13:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.