HBase Go客户端Row构造注意事项

cobbliu · 2015-02-10 03:00:01 · 8389 次点击 · 预计阅读时间 2 分钟 · 大约8小时之前开始浏览

这是一个创建于 2015-02-10 03:00:01 的文章，其中的信息可能已经有所发展或是发生改变。

1. Hbase 的Go客户端语言使用方法
2. Hbase的Row使用注意事项
- 2.1. Row的前几个字段尽量散列
- 2.2. Row的排序是把所有Row中的字符做字典排序

我们最近在一个项目中使用Hbase做日志数据的存储，在其之上做一些数据分析工作，相对java来说，团队成员对Go的使用更熟练，所以自然使用Go作为Client的开发语言，以前从来没有跟Hbase打过交道，本来一个比较简单的任务，愣是磕磕绊绊做了好久。。。

本文只说说Hbase的Row构造时的注意事项

1 Hbase 的Go客户端语言使用方法

Hbase官方没有Go的客户端，但是它提供了thrift服务，我们可以用Go语言开发一个thrift 的client，通过向hbase的thrift server发送RPC请求，从而对Hbase做操作。一个简单的请求流程如下：

Go Client –—> Hbase Thrift server –—> Hbase

其中的 Hbase Thrift Server是Hbase官方提供的，同时他们也提供Thrift服务描述文件，至于如何用Thrift服务描述文件声称Go Client的代码，github.com上有很多工具， thrift官方也有工具。

2 Hbase的Row使用注意事项

2.1 Row的前几个字段尽量散列

Hbase是一个集群服务，它会根据Row将数据分散到各后端存储机器上，如果您的Raw key有明显的聚集性，该Row对应的数据也会被集中在某几台后端机器上，这样在数据量特别大的时候，读写的压力都集中在这几台机器上，会影响您的使用性能，所以第一个建议就是： 对raw key做散列，使有明显聚集性的raw key均匀（或近似均匀）地被分派到不同的后端存储机器上 最常用的使md5sum

2.2 Row的排序是把所有Row中的字符做字典排序

这一点很重要，下午掉进这个坑里半天才爬出来。为了说明这个问题，把我们的应用场景简化以下举例说明我们的应用场景是：写Hbase是插入一堆带时间戳的data，读Hbase是读取data在时间段start和end之间的所有数据我们的Row有两个关键字：一个字符串data和一个时间戳timestamp，基于这两个关键字我们构造Row的方法是： substring(md5sum(data), 0, 8) + data + timestamp Row中的前部分好说，都是字符串，关键是这个timestamp怎么构造？最初我是用下面的方法：

buf := make([]byte, 24 + len(data)
ip := []byte(pack.data)

tmp := md5.Sum(data)
copy(buf[0:8], tmp[0:8])
copy(buf[8:8 + len(data)], data)
binary.PutVarint(buf[8+len(data):], timestamp)

　　在这样写入到Hbase中之后（例如我写入了 data=aabbcc, timestamp=123456的数据），读取数据时有时候在start=0, end=234567时能读到数据，在start=1, end=234567时却读不到数据，百思不得其解。后来发现原来是写入timestamp时的错误，请看下面的例子：

buf := make([]byte, 8)

binary.PutVarint(buf, int64(1423484126))
fmt.Println(buf)

binary.PutVarint(buf, int64(2))
fmt.Println(buf)

　　它的输出是：

[188 147 197 205 10 0 0 0]
[4 147 197 205 10 0 0 0]

　　这样虽然timestamp 1423484126比2大，但是构造Row后，如果data相同，那么2的字典序竟然排在1423484126比的后面。这样就会产生上面提到的奇怪的现象。所幸，Go没有辜负我们，它提供了一个方便的方法，能完成我们想要做的事情，请看下面的例子：

buf := make([]byte, 8)

binary.BigEndian.PutUint64(buf, uint64(1423484126))
fmt.Println(buf)

binary.BigEndian.PutUint64(buf, uint64(2))
fmt.Println(buf)

　　它的输出是：

[0 0 0 0 84 216 164 222]
[0 0 0 0 0 0 0 2]

　　OK，问题解决。以后接触陌生的知识，还是要先弄清楚基本原理，虽然这样投入的时间会多一些，但是从整体的收益来看，却是一种较好的方法。

Author: Cobbliu

Created: 2015-02-10 Tue 01:03

Emacs 24.4.1 (Org mode 8.2.10)

有疑问加站长微信联系（非本文作者）

本文来自：博客园

感谢作者：cobbliu

查看原文：HBase Go客户端Row构造注意事项

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

8389 次点击

加入收藏微博

收入我的专栏

上一篇：『Golang』跨平台TUI（基于文字的用户界面）库Terbox-Go文档翻译

下一篇：ubuntu搭建go环境

注意事项

字段

爬出来

github

1 回复 | 直到 2000-01-01 00:00:00

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

HBase Go客户端Row构造注意事项

1 Hbase 的Go客户端语言使用方法

2 Hbase的Row使用注意事项

2.1 Row的前几个字段尽量散列

2.2 Row的排序是把所有Row中的字符做字典排序

用户登录

今日阅读排行

一周阅读排行

关注我

1 Hbase 的Go客户端语言使用方法

2 Hbase的Row使用注意事项

2.1 Row的前几个字段尽量散列

2.2 Row的排序是把所有Row中的字符做字典排序

HBase Go客户端Row构造注意事项

1 Hbase 的Go客户端语言使用方法

2 Hbase的Row使用注意事项

2.1 Row的前几个字段尽量散列

2.2 Row的排序是把所有Row中的字符做字典排序

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

1 Hbase 的Go客户端语言使用方法

2 Hbase的Row使用注意事项

2.1 Row的前几个字段尽量散列

2.2 Row的排序是把所有Row中的字符做字典排序

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏