2025年4月17日星期四乙巳(蛇)年正月十八设为首页加入收藏

进入网站首页面

掌上城东书院
定制您的专属资源库
m.cdsy.xyz

掌上城东书院
随时随地，想看就看

关注我们

首页

您当前的位置：首页 > 计算机 > 编程开发 > 人工智能

循环神经网络基础

时间：05-18来源：作者：点击数：68

循环神经网络

下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量 H ，用 Ht 表示 H 在时间步 t 的值。 Ht 的计算基于 Xt 和 Ht−1 ，可以认为 Ht 记录了到当前字符为止的序列信息，利用 Ht 对序列的下一个字符进行预测。

在这里插入图片描述

模型参数

W_xh: 状态-输入权重
W_hh: 状态-状态权重
W_hq: 状态-输出权重
b_h: 隐藏层的偏置
b_q: 输出层的偏置

循环神经网络的参数就是上述的三个权重和两个偏置，并且在沿着时间训练（参数的更新），参数的数量没有发生变化，仅仅是上述的参数的值在更新。循环神经网络可以看作是沿着时间维度上的权值共享

在卷积神经网络中，一个卷积核通过在特征图上滑动进行卷积，是空间维度的权值共享。在卷积神经网络中通过控制特征图的数量来控制每一层模型的复杂度，而循环神经网络是通过控制W_xh和W_hh中h的维度来控制模型的复杂度。

一个batch的数据的表示

如何将一个batch的数据转换成时间步数个（批量大小，词典大小）的矩阵？

每个字符都是一个词典大小的向量，每个样本是时间步数个序列，每个batch是批量大小个样本

第一个(批量大小，词典大小)的矩阵：取出一个批量样本中每个序列的第一个字符，并将每个字符展开成词典大小的向量，就形成了第一个时间步所表示的矩阵

第二个(批量大小，词典大小)的矩阵：取出一个批量样本中每个序列的第二个字符，并将每个字符展开成词典大小的向量，就形成了第二个时间步所表示的矩阵

最后就形成了时间步个(批量大小，词典大小)的矩阵，这也就是每个batch最后的形式

隐藏状态的初始化

随机采样时：每次迭代都需要重新初始化隐藏状态（每个epoch有很多词迭代，每次迭代都需要进行初始化，因为对于随机采样的样本中只有一个批量内的数据是连续的）

相邻采样时：如果是相邻采样，则说明前后两个batch的数据是连续的，所以在训练每个batch的时候只需要更新一次（也就是说模型在一个epoch中的迭代不需要重新初始化隐藏状态）

困惑度

我们通常使用困惑度（perplexity）来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，

最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；
最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正无穷；
基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数。

显然，任何一个有效模型的困惑度必须小于类别个数。在本例中，困惑度必须小于词典大小vocab_size。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号

城东书院微信服务号

城东书院微信订阅号

4

上一篇:人工智能之数学基础下一篇:tesserocr2.4.0安装(windows)

推荐内容

高考生入学注意：这些大	【健康】纯净水、天然
14种竞赛生升学路径盘	excel后缀xls和xlsx有

相关内容

栏目更新

栏目热门

关于我们 | 联系我们 | 用户协议 | 广告服务 | 申请链接 | 网站地图 | 版权声明 | 用户留言 | 招聘信息 | 帮助中心 | 社区讨论 | 下载服务

中国文明网传播文明

Copyright ©2019-2024 CDSY Corporation, All Rights Reserved

城东书院^® CDSY.XYZ 版权所有湘ICP备19021508号-1 公安网备案

公安网备案

湘公网安备 43102202000103号

※学习、工作、生活信息平台※

万丈寒潭澈底清，锦鳞夜静向光行。和竿一掣随钩上，水面茫茫散月明。

本网大部分资源来源于会员上传，除本网组织的资源外，版权归原作者所有，如有侵犯版权，请立刻和本网联系并提供证据，本网将在三个工作日内改正。