1.1人工智能概述
1.1.1人工智能发展必备三要素
(1)数据
(2)算法
(3)计算力(CPU 、GPU、 TPU)
计算力之CPU、GPU对比:
- CPU主要适合I\O密集型的任务
- GPU主要适合计算密集型任务
人工智能和机器学习,深度学习的关系
机器学习是人工智能的一个实现途径
深度学习是机器学习的一个方法发展过来的
1.2人工智能发展历程
1.2.1人工智能的起源
- 图灵测试
- 达特茅斯会议
1.2.3人工智能的发展经历了六个阶段
- 起步发展期
- 反思发展期
- 应用发展期
- 低迷发展期
- 稳步发展期
- 蓬勃发展期
1.3人工智能主要分支
- 计算机视觉
- 语音识别
- 文本挖掘/分类
- 机器翻译
- 机器人
1.4 机器学习工作流程
1.4.1什么是机器学习?
机器学习就是从数据中自动分析出模型,通过模型对未知数据进行预测
1.4.2机器学习的工作流程
1.获取数据
2.对数据进行处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
1.4.3获取到的数据集介绍
在数据集中一般:
- 一行数据称为一个样本,
- 一列数据我们称之为一个特征
- 有些数据有目标值(标签值),有些数据没有目标值
数据类型结构
- 数据类型1:特征值+目标值(目标值是连续的和离散的)
- 数据类型2:只有特征,没有目标值
数据分割
机器学习一般讲述集划分为两个部分:
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
划分比例
- 训练数据:70%-80%
- 测试数据:20%-30%
1.4.4数据基本处理
即对数据进行缺失值,去除异常值等处理
1.4.5特征工程
什么是特征工程?
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程
为什么需要特征工程?
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程包含的内容:
- 特征提取 (将任意数据(如文本或图像)转换为可用于机器学习的数字特征)
- 特征预处理(通过一些转换函数将特征数据转换成更加适合算法的模型的特征数据过程)
- 特征降维(指在某些限定条件,降低随机变量(特征)个数,得到一个组“不相关”主变量的过程)
1.5机器学习算法分类
根据数据集组成不同,可以把机器学习算法分为:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
1.5.1监督学习
定义:输入数据是由输入特征值和目标值所组成。
- 函数的输出可以使一个连续的的值(称为回归)
- 或是输出的是限个分离(成为分类)
1.5.2无监督学习
定义:输入数据是由输入的特征值组成,没有目标值
- 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
- 需要根据样本间的相似性对样本集进行类别划分。
1.5.3半监督学习
定义:训练集同时包含有标记样本数据和未标记样本数据。
1.5.3强化学习
定义:实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
动态过程,上一步数据的输出是下一步数据的输入
四要素:
agent 、action、 environment、Reward
1.6 模型评估
1.6.1分类模型评估
- 准确率
- 精确率
- 召回率
- F1-score
- ACU指标
1.6.2回归模型评估
- 均方根误差
- 相对平方误差
- 平均绝对误差
- 相对绝对误差
- 决定系数
1.5.3拟合
欠拟合
过拟合