在计算机中,图像是以矩阵的形式保存的,先行后列。所以,一张宽×高×颜色通道=480×256×3的图片会保存在一个256×480×3的三维张量中。图像处理时也是按照这种思想进行计算的(其中就包括 OpenCV 下的图像处理),即 高×宽×颜色通道。
对于一幅的数字图像,我们看到的是 肉眼可见的一幅真正的图片,但是计算机看来,这副图像只是一堆亮度各异的点。一副尺寸为 M × N 的图像可以用一个 M × N 的矩阵来表示,矩阵元素的值表示这个位置上的像素的亮度,一般来说像素值越大表示该点越亮。
一般来说,灰度图用 2 维矩阵表示,彩色(多通道)图像用 3 维矩阵(M× N × 3)表示。
描述一个像素点,如果是灰度,那么只需要一个数值来描述它,就是单通道。如果一个像素点,有RGB三种颜色来描述它,就是三通道。而四通道图像,就是R、G、B加上一个A通道,表示透明度。一般叫做alpha通道,表示透明度。
Setting Region of Interest (ROI),翻译成白话为,设置感兴趣的区域。mask是做图像掩膜处理,相当于把我们不关心的部位覆盖住,留下ROI部分。上面说的alpha就可以作为mask。
矩阵索引、切片等,这里我自己掌握的也不好,就不多说了,小伙伴儿们可以自行学习。
有了基础知识后,我们来简单看下代码。
首先安装需要要用到的 OpenCV 和 dlib 库,使用pip分别安装之
pip install python-opencv
pip install dlib
然后手工在网上下载数据模型文件 shape_predictor_5_face_landmarks.dat,地址如下:http://dlib.net/files/,下载后放到项目目录下。
有兴趣的同学可以玩玩那个 shape_predictor_68_face_landmarks.dat,识别出的人脸关键点有68个之多呢。
我们首先要做的就是处理帽子,我们使用的图片如下
先提取帽子图片的rgb和alpha值
# 帽子图片
hat_img3 = cv2.imread("hat.png", -1)
r, g, b, a = cv2.split(hat_img3)
rgb_hat = cv2.merge((r, g, b))
cv2.imwrite("rgb_hat.jpg", rgb_hat)
cv2.imwrite("alpha.jpg", a)
print(a)
print(hat_img3.shape)
print(rgb_hat.shape)
我们得到的效果如下
rgb图
alpha图
对于的打印出的a数值如下:
[[0 0 0 ... 0 0 0] [0 0 0 ... 0 0 0] [0 0 0 ... 0 0 0] ... [0 0 0 ... 0 0 0] [0 0 0 ... 0 0 0] [0 0 0 ... 0 0 0]]
下面进行人脸检测,使用dlib处理。
# 人脸检测
dets = self.detector(img, 1)
x, y, w, h = dets[0].left(), dets[0].top(), dets[0].right() - dets[0].left(), dets[0].bottom() - dets[0].top()
# 关键点检测
shape = self.predictor(img, dets[0])
point1 = shape.parts()[0]
point2 = shape.parts(2)
# 求两点中心
eyes_center = ((point1.x + point2.x) // 2, (point1.y + point2.y) // 2)
接下来是按照比例缩小帽子的图片
# 帽子和人脸转换比例
hat_w = int(round(dets[0].right()/1.5))
hat_h = int(round(dets[0].bottom() / 2))
if hat_h > y:
hat_h = y - 1
hat_newsize = cv2.resize(rgb_hat, (hat_w, hat_h))
mask = cv2.resize(a, (hat_w, hat_h))
mask_inv = cv2.bitwise_not(mask)
dh = 0
dw = 0
bg_roi = img[y+dh-hat_h:y+dh,(eyes_center[0]-hat_w//3):(eyes_center[0]+hat_w//3*2)]
进行 ROI 提取
# 用alpha通道作为mask
mask = cv2.resize(a, (resized_hat_w, resized_hat_h))
mask_inv = cv2.bitwise_not(mask)
mask 变量,取出了帽子的区域
mask_inv 变量,用来取出人脸图片中安装帽子的区域
接下来在人脸图片中取出安装帽子的区域(ROI)
# 原图ROI
# bg_roi = img[y+dh-resized_hat_h:y+dh, x+dw:x+dw+resized_hat_w]
bg_roi = img[y + dh - resized_hat_h:y + dh,
(eyes_center[0] - resized_hat_w // 3):(eyes_center[0] + resized_hat_w // 3 * 2)]
再接下来在人脸图片中取出帽子形状区域
# 原图ROI中提取放帽子的区域
bg_roi = bg_roi.astype(float)
mask_inv = cv2.merge((mask_inv, mask_inv, mask_inv))
alpha = mask_inv.astype(float) / 255
# 相乘之前保证两者大小一致(可能会由于四舍五入原因不一致)
alpha = cv2.resize(alpha, (bg_roi.shape[1], bg_roi.shape[0]))
# print("alpha size: ",alpha.shape)
# print("bg_roi size: ",bg_roi.shape)
bg = cv2.multiply(alpha, bg_roi)
bg = bg.astype('uint8')
这里是把图片默认的uint8类型转换成了float类型进行运算,最后又转换回来。
合成的图片
黑黑的部分就是我们要放置帽子的地方
在帽子图片中提取帽子部分
# 提取帽子区域 hat = cv2.bitwise_and(resized_hat, resized_hat, mask=mask)
使用刚刚调整大小的帽子图片来提取
可以看到,除了帽子部分,其他区域已经掩模处理了。
以上就是提取ROI的过程,比较难懂,需要好好琢磨,尤其是矩阵的切片、mask处理部分。
最后一步就是把人脸图片与帽子合成到一起了,也就是把人脸空余帽子部分的图片区域和帽子只展示帽子区域的图片区域(有点拗口)合并在一起
# 相加之前保证两者大小一致(可能会由于四舍五入原因不一致)
hat = cv2.resize(hat, (bg_roi.shape[1], bg_roi.shape[0]))
# 两个ROI区域相加
add_hat = cv2.add(bg, hat)
效果如下:
刚刚好,完美叠加图片。
最后把这个片段放回人脸原图中,展示图片
img[y+dh-hat_h:y+dh, (eyes_center[0]-hat_w//3):(eyes_center[0]+hat_w//3*2)] = add_hat
美美的图片就出来啦!
我们再尝试几张不同的图片
整体效果还不错哦,需要注意的是,在测试的时候,我们尽量选择人脸占比比较大的图片来合成,效果要好很多哦~
这就是今天的全部内容,喜欢就点个赞吧~