一种分布式时序数据库的制作方法-深圳个人数据管理服务有限公司

缓存系统中的主要使用的数据结构是什么
Bigtable---分布式的结构化数据存储系统
数据结构Lnode *是代表什么！？？大侠谢谢！！

一、缓存系统中的主要使用的数据结构是什么

缓存系统中的主要使用的数据结构是memcached。

memcached是一套分布式的高速缓存系统，由livejournal的brad fitzpatrick开发，但被许多网站使用。这是一套开放源代码软件，以bsd license授权发布。

memcached的api使用三十二比特的循环冗余校验（crc-32）计算键值后，将数据分散在不同的机器上。当表格满了以后，接下来新增的数据会以lru机制替换掉。

由于memcached通常只是当作缓存系统使用，所以使用memcached的应用程序在写回较慢的系统时（像是后端的数据库）需要额外的代码更新memcached内的数据。

扩展资料：

一、存储方式

为了提高性能，memcached中保存的数据都存储在memcached内置的内存存储空间中。由于数据仅存在于内存中，因此重启memcached、重启操作系统会导致全部数据消失。

另外，内容容量达到指定值之后，就基于lru(least recently used)算法自动删除不使用的缓存。memcached本身是为缓存而设计的服务器，因此并没有过多考虑数据的永久性问题。

二、通信分布式

memcached尽管是“分布式”缓存服务器，但服务器端并没有分布式功能。各个memcached不会互相通信以共享信息。那么，怎样进行分布式呢？这完全取决于客户端的实现。本文也将介绍memcached的分布式。

二、Bigtable---分布式的结构化数据存储系统

sina

bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的pb 级的数据。google 的很多项目使用bigtable 存储数据，包括web 索引、googleearth、google finance。这些应用对bigtable 提出的要求差异非常大，无论是在数据量上（从url到网页到卫星图像）还是在响应速度上（从后端的批量处理到实时数据服务）。

bigtable 已经实现了下面的几个目标：适用性广泛、可扩展、高性能和高可用性,bigtable 是一个稀疏的、分布式的、持久化存储的多维度排序map。

图一：一个存储web 网页的例子的表的片断。行名是一个反向url。contents 列族存放的是网页的内容，anchor 列族存放引用该网页的锚链接文本（alex 注：如果不知道html 的anchor，请google一把）。cnn 的主页被sports illustrater和my-look 的主页引用，因此该行包含了名为“anchor:cnnsi.com”和“anchhor:my.look.ca”的列。每个锚链接只有一个版本（alex 注：注意时间戳标识了列的版本，t9 和t8 分别标识了两个锚链接的版本）；而contents 列则有三个版本，分别由时间戳t3，t5，和t6 标识。

行

bigtable 通过行关键字的字典顺序来组织数据。表中的每个行都可以动态分区。每个分区叫做一个”tablet”，tablet 是数据分布和负载均衡调整的最小单位。

列族

webtable 有个列族language，language 列族用来存放撰写网页的语言。

我们在language 列族中只使用一个列关键字，用来存放每个网页的语言标识id。webtable 中另一个有用的列族是anchor；这个列族的每一个列关键字代表一个锚链接，如图一所示。anchor 列族的限定词是引用该网页的站点名；anchor 列族每列的数据项存放的是链接文本。访问控制、磁盘和内存的使用统计都是在列族层面进行的。

时间戳

不同版本的数据通过时间戳来索引。bigtable 时间戳的类型是64 位整型。

bigtable 可以给时间戳赋值，用来表示精确到毫秒的“实时”时间；用户程序也可以给时间戳赋值。如果应用程序需要避免数据版本冲突，那么它必须自己生成具有唯一性的时间戳。数据项中，不同版本的数据按照时间戳倒序排序，即最新的数据排在最前面。为了减轻多个版本数据的管理负担，我们对每一个列族配有两个设置参数， bigtable 通过这两个参数可以对废弃版本的数据自动进行垃圾收集。用户可以指定只保存最后n 个版本的数据，或者只保存“足够新”的版本的数据（比如，只保存最近7 天的内容写入的数据）。

bigtable支持的其他特性

1、bigtable 支持单行上的事务处理，利用这个功能，用户可以对存储在一个行关键字下的数据进行原子性的读-更新-写操作。

2、bigtable 允许把数据项用做整数计数器。

3、bigtable 允许用户在服务器的地址空间内执行脚本程序

4、bigtable 可以和mapreduce一起使用，mapreduce 是google 开发的大规模并行计算框架。我们已经开发了一些wrapper 类，通过使用这些wrapper 类，bigtable 可以作为mapreduce 框架的输入和输出。

bigtable依赖于google的几项技术。用gfs来存储日志和数据文件；按sstable文件格式存储数据；用chubby管理元数据：

bigtable是建立在其它的几个google基础构件上的。bigtable 使用google 的分布式文件系统(gfs)存储日志文件和数据文件。bigtable 集群通常运行在一个共享的机器池中，池中的机器还会运行其它的各种各样的分布式应用程序，bigtable 的进程经常要和其它应用的进程共享机器。bigtable 依赖集群管理系统来调度任务、管理共享的机器上的资源、处理机器的故障、以及监视机器的状态。

bigtable 内部存储数据的文件是google sstable 格式的。sstable 是一个持久化的、排序的、不可更改的map 结构，而map 是一个key-value 映射的数据结构，key 和value 的值都是任意的byte串，从内部看，sstable 是一系列的数据块（通常每个块的大小是64kb，这个大小是可以配置的）。。sstable 使用块索引（通常存储在sstable 的最后）来定位数据块；在打开sstable的时候，索引被加载到内存。每次查找都可以通过一次磁盘搜索完成：首先使用二分查找法在内存中的索引里找到数据块的位置，然后再从硬盘读取相应的数据块。也可以选择把整个sstable 都放在内存中，这样就不必访问硬盘了。

bigtable 还依赖一个高可用的、序列化的分布式锁服务组件，叫做chubby。chubby有五个活跃副本，同时只有一个主副本提供服务，副本之间用paxos算法维持一致性，chubby提供了一个命名空间（包括一些目录和文件），每个目录和文件就是一个锁，chubby的客户端必须和chubby保持会话，客户端的会话若过期则会丢失所有的锁。

bigtable 包括了三个主要的组件：链接到客户程序中的库、一个master主服务器和多个tablet片服务器。

bigtable会将表（table）进行分片，片（tablet）的大小维持在100-200mb范围，一旦超出范围就将分裂成更小的片，或者合并成更大的片。每个片服务器负责一定量的片，处理对其片的读写请求，以及片的分裂或合并。片服务器可以根据负载随时添加和删除。这里片服务器并不真实存储数据，而相当于一个连接bigtable和gfs的代理，客户端的一些数据操作都通过片服务器代理间接访问gfs。主服务器负责将片分配给片服务器，监控片服务器的添加和删除，平衡片服务器的负载，处理表和列族的创建等。注意，主服务器不存储任何片，不提供任何数据服务，也不提供片的定位信息。

客户端需要读写数据时，直接与片服务器联系。因为客户端并不需要从主服务器获取片的位置信息，所以大多数客户端从来不需要访问主服务器，主服务器的负载一般很轻。

master 服务器主要负责以下工作：为tablet 服务器分配tablets、检测新加入的或者过期失效的table 服务器、对tablet 服务器进行负载均衡、以及对保存在gfs 上的文件进行垃圾收集。除此之外，它还处理对模式的相关修改操作，例如建立表和列族。

我们使用一个三层的、类似b+树的结构存储tablet 的位置信息。

第一层是一个存储在chubby 中的文件，它包含了root tablet 的位置信息。这个chubby文件属于chubby服务的一部分，一旦chubby不可用，就意味着丢失了root tablet的位置，整个bigtable也就不可用了。

第二层是root tablet。root tablet其实是元数据表（metadata table）的第一个分片，它保存着元数据表其它片的位置。root tablet很特别，为了保证树的深度不变，root tablet从不分裂。

第三层是其它的元数据片，它们和root tablet一起组成完整的元数据表。每个元数据片都包含了许多用户片的位置信息。

片的数据最终还是写到gfs里的，片在gfs里的物理形态就是若干个sstable文件。下图展示了读写操作基本情况。

bigtable和gfs的关系

集群包括主服务器和片服务器，主服务器负责将片分配给片服务器，而具体的数据服务则全权由片服务器负责。但是不要误以为片服务器真的存储了数据（除了内存中memtable的数据），数据的真实位置只有gfs才知道，主服务器将片分配给片服务器的意思应该是，片服务器获取了片的所有sstable文件名，片服务器通过一些索引机制可以知道所需要的数据在哪个sstable文件，然后从gfs中读取sstable文件的数据，这个sstable文件可能分布在好几台chunkserver上。

一个简化的bigtable结构图：

结构图以webtable表为例，表中存储了网易、百度和豆瓣的几个网页。当我们想查找百度贴吧昨天的网页内容，可以向bigtable发出查询webtable表的(com.baidu.tieba, contents:, yesterday)。

假设客户端没有该缓存，那么bigtable访问root tablet的片服务器，希望得到该网页所属的片的位置信息在哪个元数据片中。使用 metadata.webtable.com.baidu.tieba 为行键在root tablet中查找，定位到最后一个比它大的是 metadata.webtable.com.baidu.www ，于是确定需要的就是元数据表的片a。访问片a的片服务器，继续查找 webtable.com.baidu.tieba ，定位到 webtable.com.baidu.www 是比它大的，确定需要的是webtable表的片b。访问片b的片服务器，获得数据。

这里需要注意的是，每个片实际都由若干sstable文件和memtable组成，而且这些sstable和memtable都是已排序的。这就导致查找片b时，可能需要将所有sstable和memtable都查找一遍；另外客户端应该不会直接从元数据表获得sstable的文件名，而只是获得片属于片服务器的信息，通过片服务器为代理访问sstable。