您当前的位置:首页 > 计算机 > 编程开发 > Python

python --html转图片;centos装浏览器

时间:08-15来源:作者:点击数:

文章讲述了如何利用Python的selenium库将HTML网页转换为图片,并通过滚动截取整个页面。过程中详细讲解了如何配置Chrome浏览器驱动,处理中文乱码问题,以及实现图片的拼接。同时,提供了在云服务器上安装谷歌浏览器和设置字体的步骤。

demo

import os
import time

from PIL import Image
from loguru import logger
from selenium import webdriver
from selenium.webdriver.common.by import By


class HtmlToImg(object):
    '''
    html转图片
    '''

    def __init__(self, url: str):
        '''
        @params url -> 图片网络地址;
        '''
        self._url = url
        self._js_to = "window.scroll({top:%d,left:0,behavior:'auto'});"  # 滚动到
        self._js_end = "window.scroll({top:document.body.clientHeight,left:0,behavior:'auto'});"  # 滚动到尾巴

        if 'Windows' == platform.system():
            self._driver_path = 'chromedriver.exe'  # windows驱动路径

        elif 'Linux' == platform.system():
            self._driver_path = '/root/project/code/vehicle_information/backstage/chromedriver'  # linux驱动路径

    @staticmethod
    def join_images(png1, png2, size=0, output='result.png'):
        """
        图片拼接
        @param png1: 图片1
        @param png2: 图片2
        @param size: 两个图片重叠的距离
        @param output: 输出的图片文件
        @return None
        """
        img1, img2 = Image.open(png1), Image.open(png2)
        size1, size2 = img1.size, img2.size  # 获取两张图片的大小
        joint = Image.new('RGB', (size1[0], size1[1] + size2[1] - size))  # 创建一个空白图片
        loc1, loc2 = (0, 0), (0, size1[1] - size)  # 设置两张图片要放置的初始位置

        joint.paste(img1, loc1)  # 分别放置图片
        joint.paste(img2, loc2)

        joint.save(output)  # 保存结果
        os.remove(png2)

    def start(self, width: int = 500, height: int = 800):
        '''开始截取图'''
        option = webdriver.ChromeOptions()
        option.add_argument('--headless')
        option.add_argument('--no-sandbox')
        option.add_argument('--disable-gpu')
        option.add_argument('--disable-dev-shm-usage')
        driver = webdriver.Chrome(executable_path=self._driver_path, options=option)
        driver.set_window_size(width, height)

        driver.get(self._url)
        time.sleep(3)
        driver.save_screenshot('result.png')

        # 获取body大小
        body_h = int(driver.find_element(By.XPATH, '//body').size.get('height'))
        logger.debug(f'页面总高:{body_h}')

        # 计算当前页面截图的高度
        # (使用driver.get_window_size()也可以获取高度,但有误差,推荐使用图片高度计算)
        current_h = Image.open('result.png').size[1]
        logger.success(f'图片高:{current_h}')
        logger.warning(f'循环结束:{body_h / current_h}')

        for i in range(1, int(body_h / current_h)):
            logger.debug(f'当前循环高度:{current_h * i}')  # 1. 滚动到指定锚点
            driver.execute_script(self._js_to % (current_h * i))

            driver.save_screenshot(f'test_{i}.png')  # 2. 截图
            self.join_images('result.png', f'test_{i}.png')

        logger.success(f'开始处理最后一张')
        driver.execute_script(self._js_end)  # 处理最后一张图
        driver.save_screenshot('test_end.png')
        self.join_images('result.png', 'test_end.png', size=current_h - int(body_h % current_h))  # 拼接图片

云服务器安装谷歌浏览器

  • cd /etc/yum.repos.d
  • vim google-chrome.repo
    内容:
[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

然后使用yum install的命令在线安装谷歌浏览器:

yum -y install google-chrome-stable --nogpgcheck

安装完成之后的话,使用 google-chrome --version 命令查看安装的谷歌浏览器的版本,然后从网上去下载浏览器对应版本的驱动文件。

驱动下载地址:

https://sites.google.com/a/chromium.org/chromedriver/downloads

http://chromedriver.storage.googleapis.com/index.html

下载完解压后,记得检查驱动文件是否为可执行状态,不然到时候是无法启动浏览器执行用例的。

解决中文乱码问题

# 创建中文字体目录
mkdir -p /usr/share/fonts/chinese/

# 将字体文件拷贝到中文字体目录中
cp songti.ttf /usr/share/fonts/chinese/

cd /usr/share/fonts/chinese/

# 为刚加入的字体设置缓存使之有效
fc-cache -fv

# 查看系统中的字体
fc-list
安装好中文字体之后,再次执行Selenium截图时中文就不会显示为方块了。
方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门
本栏推荐