时序数据库 InfluxDB(三)

rife · · 915 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

相关文章:
时序数据库 InfluxDB(一)
时序数据库 InfluxDB(二)
时序数据库 InfluxDB(三)
时序数据库 InfluxDB(四)
时序数据库 InfluxDB(五)
时序数据库 InfluxDB(六)


数据类型


InfluxDB 是一个无结构模式,这也就是说你无需事先定义好表以及表的数据结构。

InfluxDB 支持的数据类型非常简单:

  • measurement : string
  • tag key : string
  • tag value : string
  • field key : string
  • field value : string , float , interger , boolean

你可以看到除了 field value 支持的数据类型多一点之外,其余全是字符串类型。

当然还有最重要的 timestamp ,InfluxDB 中的时间都是 UTC 时间,而且时间精度非常高,默认为纳秒。


数据结构设计


在实际使用中,数据都是存储在 tag 或者 field 中,这两者最重要的区别就是,tag 会构建索引(也就是说查询时,where 条件里的是 tag ,则查询性能更高),field 则不会被索引。

存储数据到底是使用 tag 还是 field ,参考以下原则:

  • 常用于查询条件的数据存储为 tag 。
  • 计划使用 GROUP BY() 的数据存储为 tag 。
  • 计划使用 InfluxQL function 的数据存储为 field 。
  • 数据不只是 string 类型的存储为 field 。

对于标识性的名称,如 database、RP、user、measurement、tag key、field key 这些应该避免使用 InfluxQL 中的关键字。

其它需要注意的原则:

  • 不要有过于庞大的 series 。若在 tag 中使用 UUID、hash、随机字符串等将会导致数量庞大的 series ,这将会导致更高的内存使用率,尤其是系统内存有限的情况下需要额外注意。
  • measurement 名称不应该包含具体的数据(表名就是一个单纯的表名),你应该使用不同的 tag 去区分数据,而不是 measurement 名称。
  • 一个 tag 中不要放置多条信息,复杂的信息合理拆分为多个 tag 有助于简化查询并减少使用正则。

索引


InfluxDB 通过构建索引可以提高查询性能。InfluxDB 中的索引有两种:In-memory 和 TSI 。这两种索引只能选择一种,且无法动态更改,一旦更改必须重启 InfluxDB 。

In-memory :索引被存储在内存中,这也是默认使用的方式,性能更高。

TSI( Time Series Index ):In-memory 索引可以支持千万级别的 series ,然而内存资源终归是有限的,为了支持亿级和十亿级别的 series 数据,TSI 应运而生,其会将索引映射到磁盘文件上。

索引相关配置项(默认的配置文件为 influxdb.conf ):

  • 索引方式,inmem 或者 tsi1 :
index-version = "inmem"
  • in-memory 相关设置:
max-series-per-database = 1000000
max-values-per-tag = 100000

max-series-per-database :每个数据库允许的最大 series 数量,默认一百万,一旦达到上限,再写入新的 series 则会得到一个 500 错误,向已经存在的 series 写入数据不受影响。设置为 0 则意味着没有限制。

max-values-per-tag :每个 tag key 允许的最大 tag values 数量,默认十万,类似的,一旦达到上限,无法写入新的 tag value ,而向已经存在的 tag value 写入数据不受影响。设置为 0 则意味着没有限制。

  • TSI( tsi1 )相关设置:
max-index-log-file-size = "1m"
series-id-set-cache-size = 100

max-index-log-file-size :预写日志的文件大小达到多大的阈值之后,将其压缩为索引文件,阈值越低,压缩越快,堆内存使用率越低,但会降低写入的吞吐量。

series-id-set-cache-size :使用内存缓存的 series 集的大小,由于 TSI 索引存储在了磁盘文件中,因此使用时需要额外的计算工作,但如果将索引结果缓存起来的话就可以避免重复的计算,提高查询性能。默认缓存 100 个 series ,这个值越大则使用的堆内存越大,设置为 0 则不缓存。

个人公众号持续输出原创文章,有兴趣的可以关注下。
qrcode_for_gh_9ccbe5e0dfb3_258.jpg


有疑问加站长微信联系(非本文作者)

本文来自:Segmentfault

感谢作者:rife

查看原文:时序数据库 InfluxDB(三)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

915 次点击  
加入收藏 微博
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传