编辑距离 - 科普 & 记录

论坛 期权论坛 脚本     
匿名技术用户   2021-1-2 11:48   19   0

这个概念好神奇啊,具体的还是看百度百科的介绍吧。

定义:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。


算法:

自然语言表达

比如要计算cafe和coffee的编辑距离。cafe→caffe→coffe→coffee
先创建一个6×8的表(cafe长度为4,coffee长度为6,各加2)
(1):
c o f f e e
c
a
f
e 1
接着,在如下位置填入数字(表2):
c o f f e e
0 1 2 3 4 5 6
c 1
a 2
f 3
e 4 2
从3,3格开始,开始计算。取以下三个值的最小值:
  • 如果最上方的字符等于最左方的字符,则为左上方的数字。否则为左上方的数字+1。(对于3,3来说为0)
  • 左方数字+1(对于3,3格来说为2)
  • 上方数字+1(对于3,3格来说为2)
因此为格3,3为0(表3)
c o f f e e
0 1 2 3 4 5 6
c 1
  0
a 2
f 3
e 4 3
循环操作,推出下表
c o f f e e
0 1 2 3 4 5 6
c 1 0 1 2 3 4 5
a 2 1 1 2 3 4 5
f 3 2 2 1 2 3 4
e 4 3 3 2 2 2 3
取右下角,得编辑距离为3

ok,看懂了算法后我们看代码,用dp的思想去写:

#include <stdio.h>
#include <cstring>
#include <algorithm>
using namespace std;
#define CLR(a,b) memset(a,b,sizeof(a))
#define INF 0x3f3f3f3f
#define LL long long
char s1[1011];
char s2[1011];
int ans[1011][1011];  //结果矩阵 
int main()
{
 scanf ("%s%s",s1+1,s2+1);
 int l1,l2;
 s1[0] = s2[0] = '@';
 l1 = strlen(s1) - 1;
 l2 = strlen(s2) - 1;
 for (int i = 0 ; i <= max(l1,l2) ; i++)  //初始化矩阵 
  ans[0][i] = ans[i][0] = i;
 for (int i = 1 ; i <= l1 ; i++)
 {
  for (int j = 1 ; j <= l2 ; j++)
  {
   //下面三者取最小值 
   if (s1[i] != s2[j])  //如果这个点对应两字符相等,那么取左上方数字,否则取左上方数字加一 
    ans[i][j] = ans[i-1][j-1] + 1;
   else
    ans[i][j] = ans[i-1][j-1];
   ans[i][j] = min(ans[i][j] , min(ans[i-1][j] + 1 , ans[i][j-1] + 1));  //然后再与左方数字+1、上方数字+1取最小值 
  }
 }
 printf ("%d\n",ans[l1][l2]);  //右下角的数字即为结果(编辑距离) 
 return 0;
}


分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:7942463
帖子:1588486
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP