GFS、MapReduce和BigTable：Google的三种大数据处理系统

时间：12-08来源：作者：点击数：131

Google 在搜索引擎上所获得的巨大成功，很大程度上是由于采用了先进的大数据管理和处理技术。Google 的搜索引擎是针对搜索引擎所面临的日益膨胀的海量数据存储问题，以及在此之上的海量数据处理问题而设计的。

众所周知，Google 存储着世界上最庞大的信息量（数千亿个网页、数百亿张图片）。但是，Google 并未拥有任何超级计算机来处理各种数据和搜索，也未使用 EMC 磁盘阵列等高端存储设备来保存大量的数据。

2006 年，Google 大约有 45 万台服务器，到 2010 年增加到了 100 万台，截至 2018 年，据说已经达到上千万台，并且还在不断增长中。不过这些数量巨大的服务器都不是什么昂贵的高端专业服务器，而是非常普通的 PC 级服务器，并且采用的是 PC 级主板而非昂贵的服务器专用主板。

Google 提出了一整套基于分布式并行集群方式的基础架构技术，该技术利用软件的能力来处理集群中经常发生的结点失效问题。

Google 使用的大数据平台主要包括 3 个相互独立又紧密结合在一起的系统：Google 文件系统（Google File System，GFS），针对 Google 应用程序的特点提出的 MapReduce 编程模式，以及大规模分布式数据库 BigTable。

GFS

一般的数据检索都是用数据库系统，但是 Google 拥有全球上百亿个 Web 文档，如果用常规数据库系统检索，数据量达到 TB 量级后速度就非常慢了。正是为了解决这个问题，Google 构建出了 GFS。

GFS 是一个大型的分布式文件系统，为 Google 大数据处理系统提供海量存储，并且与 MapReduce 和 BigTable 等技术结合得十分紧密，处于系统的底层。它的设计受到 Google 特殊的应用负载和技术环境的影响。相对于传统的分布式文件系统，为了达到成本、可靠性和性能的最佳平衡，GFS 从多个方面进行了简化。

GFS 使用廉价的商用机器构建分布式文件系统，将容错的任务交由文件系统来完成，利用软件的方法解决系统可靠性问题，这样可以使得存储的成本成倍下降。

由于 GFS 中服务器数目众多，在 GFS 中，服务器死机现象经常发生，甚至都不应当将其视为异常现象。所以，如何在频繁的故障中确保数据存储的安全，保证提供不间断的数据存储服务是 GFS 最核心的问题。

GFS 的独特之处在于它采用了多种方法，从多个角度，使用不同的容错措施来确保整个系统的可靠性。

GFS 的系统架构如图 1 所示，主要由一个 Master Server（主服务器）和多个 Chunk Server（数据块服务器）组成。

Master Server 主要负责维护系统中的名字空间，访问控制信息，从文件到块的映射及块的当前位置等元数据，并与 Chunk Server 通信。

Chunk Server 负责具体的存储工作。数据以文件的形式存储在 Chunk Server 上。Client 是应用程序访问 GFS 的接口。

CFS的系统架构
图 1 CFS 的系统架构

Master Server 的所有信息都存储在内存里，启动时信息从 Chunk Server 中获取。这样不但提高了 Master Server 的性能和吞吐量，也有利于 Master Server 宕机后把后备服务器切换成 Master Server。

GFS 的系统架构设计有两大优势。

Client 和 Master Server 之间只有控制流，没有数据流，因此降低了 Master Server 的负载。
由于 Client 与 Chunk Server 之间直接传输数据流，并且文件被分成多个 Chunk 进行分布式存储，因此 Client 可以同时并行访问多个 Chunk Server，从而让系统的 I/O 并行度提高。

Google 通过减少 Client 与 Master Server 的交互来解决 Master Server 的性能瓶颈冋题。Client 直接与 Chunk Server 进行通信，Master Server 仅提供查询数据块所在的 Chunk Server 的详细位置的功能。

数据块设计成 64MB，也是为了让客户端和 Master Server 的交互减少，让主要数据流量在客户端程序和 Chunk Server 之间直接交互。总之，GFS 具有以下特点。

1）采用中心服务器模式，带来以下优势。

可以方便地增加 Chunk Server。
Master Server可以掌握系统内所有 Chunk Server 的情况，方便进行负载均衡。
不存在元数据的一致性问题。

2）不缓存数据，具有以下优势。

文件操作大部分是流式读/写，不存在大量重复的读/写，因此即使使用缓存对系统性能的提高也不大。
Chunk Server 上的数据存储在本地文件系统上，即使真的出现频繁存取的情况，本地文件系统的缓存也可以支持。
若建立系统缓存，那么缓存中的数据与 Chunk Server 中的数据的一致性很难保证。

Chunk Server 在硬盘上存储实际数据。Google 把每个 chunk 数据块的大小设计成 64MB，每个 chunk 被复制成 3 个副本放到不同的 Chunk Server 中，以创建冗余来避免服务器崩溃。如果某个 Chunk Server 发生故障，Master Server 便把数据备份到一个新的地方。