Hamming distance 是一种用于度量两个等长字符串之间的差异性的度量方式。它通常用于比较两个二进制字符串或等长的编码向量。
举个🌰,假设有两个二进制字符串:
String a:101010
String b:111000
要计算它们之间的 Hamming 距离,只需要逐个比较对应位置上的元素,计算不同位的个数。
String a:1 0 1 0 1 0
String b:1 1 1 0 0 0
------------↑-----↑--------
可以看到,在第 2 位和第 5 位上,两个字符串的元素不同。因此,它们的 Hamming 距离为 2。
为了计算两个二进制字符串不同位的个数,自然可以想到用异或运算 XOR(相同为0,不同为1),因此 Hamming 距离可以计算为a XOR b。
P.S.在有些工作中,习惯对 Hamming 距离进行归一化。比如有两个 100 维的二进制字符串 x,y,那么 x 和 y 的最大 Hamming 距离就是 100,再相对于维度进行归一化,即 100/100 = 1,即距离为 1;若 x 和 y 仅有 50 位不同,则它们的距离为 50/100 = 0.5。
Hamming 距离的计算方式非常简单,它只关注两个字符串中不同的位置,并计算它们的个数。在信息论、编码理论和计算机科学中,Hamming 距离经常被用作误码检测和纠错码设计等方面的基础概念。