一个简单算法问题，关于字符匹配

2017-07-05 16:02:14 +08:00

v3exad

假设我有两个文本文件

## A 文本 ##

a1,b1,c1
a2,b2,c2
a3,b3,c3
...

## B 文本 ##

 b2,d2
 b1,d1
 b5,d5
 ...

如果要写一个简单程序把两个文本内容合并成

 a1,b1,c1,d1
 a2,b2,c2,d2
 a3,b3,c3,d3
 ...

本人算法不好，就只会用最简单的方法，就是取一行，然后遍历另一个文本去做匹配。。
不知各位 v2er，有啥高效的方法，不吝赐教

2078 次点击

所在节点

问与答

18 条回复

neosfung

2017-07-05 16:21:14 +08:00

恕我直言
看不懂最后合并的文本和前面两个文本有啥关系哦

pipapa

2017-07-05 16:33:13 +08:00

对第二个文档预处理下顺序？

v3exad

2017-07-05 16:34:02 +08:00

@neosfung 额，就是把内容合并了，a1,b1,c1,d1 都是对应的。。不能 a1,b2,c3,d4 这样子

v3exad

2017-07-05 16:35:15 +08:00

@pipapa 但是 a 文本的内容并不是排好序的。a1,a2 是为了方便展示一下内容而已

geelaw

2017-07-05 16:39:26 +08:00

如果 b 这列是 UNIQUE，那么这个操作其实是 JOIN ON 1.b = 2.b。

如果我们又假设有 CSV 表头（ A 的名是 a,b,c，B 的列名是 b,d ），用 PowerShell 可以这样：

$dict=@{};
get-content a.txt | convertfrom-csv | write | foreach {
$dict[$_.b]=$_;
};
get-content b.txt | convertfrom-csv | write | foreach {
if ($dict[$_.b] -ne $null)
{
add-member -inputobject $dict[$_.b] -membertype noteproperty -name 'd' -value $_.d;
}
};
$dict.Values | write;

Chingim

2017-07-05 17:22:48 +08:00

abcd 就是单纯的字母? 还是任意长的字符串?
1,2,3,4 最大有多大?

FlowerChen

2017-07-05 17:32:24 +08:00

把每个字符拆开，放在一个对象，或者数组里，假设这些数据都放在数组里命名为 Arr，比如 a1 拆分后 --> {'value':'a1','letter':'a','num':1},然后两个 for 循环，for(i = 0; i < Arr.length; i ++)先按 Arr[i].num 排序，再按 Arr[i].letter 排序，

binux

2017-07-05 17:39:53 +08:00

对两个文件排序，merge

vingz

2017-07-05 17:48:10 +08:00

假设，a,b,c,d 是字符串前缀，1，2，3，4 是字符串后缀，
合并规则:
1. 同行根据前缀排序，（直接字符串排序）
2. 同列根据后缀排序，（直接字符串排序）
看内存大小和文件大小，《编程珠玑》第一章节就有类似对文件内容排序的算法。

算法 1：内存如果受限的话，先分别读入文本 1 和文本 2 中全部的 a&b，分别对 a 和 b 排序，然后层层输出到一个中间文件 3,(a1&b1 是第一层，a2&b2 是第二层）；同理处理 c&d 后输出到中间文件 4 ；最后合并文件 3 和 4 的每一层，输出为最终文件。（异常 case，比如缺少 b1，但有 b2，等情况需要考虑）
算法 2：如算法 1 处理 a/b/c/d 的 1&2 到中间文件 3，处理 a/b/c/d 的 3&4 到中间文件 4，最后拼接文件 3 和 4 输出最终文件。
因为楼主对问题背景和问题定义描述不清晰，我就参考编程珠玑的解法给了思路。

miaoever

2017-07-05 18:05:18 +08:00

就像 #5 说的，这个就是个 Join 操作，最简单快速的方法就是把 A 文件根据 join key 建 hash table, 然后对 B 文件每行根据 key 来查询并 join.

v3exad

2017-07-05 18:37:47 +08:00

@Chingim 就是单纯文本内容而已，就是类似数据库的一个字段内容。。。和一个 csv 差不多

v3exad

2017-07-05 18:49:56 +08:00

@binux 恩，这个也可以

v3exad

2017-07-05 18:51:03 +08:00

@miaoever 谢谢，我研究一下看看

shoumu

2017-07-05 19:29:02 +08:00

文本大小多大，key 应该是 b 吧，把小的那个文本放到字典里面，遍历大的那个间文件就可以了

v3exad

2017-07-05 19:32:03 +08:00

@shoumu 这种文本几十行还行，我试过两个都 1w+行的时候，挺慢的

shoumu

2017-07-05 19:37:42 +08:00

@v3exad
1w+还好吧，除非你对时效性要求特别高，前几天搞过一个类似的工作，数据量大概是亿*千万级别的，跑一次下来几十分钟。。。。

ryd994

2017-07-06 08:11:24 +08:00

你这样还不如进数据库

v3exad

2017-07-06 10:47:16 +08:00

@ryd994 这也可以啊，只不过是想了解一下有没有高效的算法而已

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/373243

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.