数据结构与算法系列之跳表（GO）

书旅 · · 993 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

详细了解跳表

前边的一篇文章中分享了二分查找算法，里边有说到二分查找算法依赖数组的随机访问特性，只能用数组来实现。如果数据存储在链表中就没法用二分查找算法了

本篇文章分享的「跳表」，可以实现类似二分的查找算法，时间复杂度也是「O(logn)」

假设有一个有序的单链表，如果想从该链表中查找某一个数据，只能从头到尾的遍历查找，它的时间复杂度是O(n)。如何提高查找的效率？

假设我像下图这样，在原来的单链表上增加一级索引，每两个节点取一个结点到「索引层」。其中down为指向下一级节点的指针

假设现在需要查找【16】这个节点。可以先遍历索引层节点，当遍历到【13】这个节点时，发现下一个节点为【17】，那么我们要找的节点【16】肯定就在它们中间。此时，通过索引节点【13】的down指针，下降到原始链表层中继续遍历，此时只需要再遍历两个节点就找到了我们要查找的【16】。如果直接在原始链表中查找【16】，需要遍历10个结点，现在只需要遍历7个结点

从上边可以发现，加了一层索引之后，查找一个节点需要遍历的节点数减少了，也就意味着查找的效率提高了，如果我们增加更多的索引层，效率会不会提高更多？

假设现在在原来的一级索引上边按同样的方法，再增加一层索引，如果再查【16】这个节点，只需要遍历6个结点了。查找一个节点需要遍历的节点又减少了

上边的例子中，原始链表的节点数量并不多，每增加一层索引，查询效率提高的并不明显，下边假设原始链表中有64个节点，建立5级索引

从图中可以看出，原来没有索引的时候，查找【62】这个节点需要遍历62个节点，现在只需要遍历11个节点，速度提高了很多。当链表的长度n比较大时，比如1000、10000的时候，在构建索引之后，查找效率的提升就会非常明显。「这种链表加多级索引的结构，就是跳表」

跳表的时间复杂度

如果链表里有n个结点，可以有多少级索引？

按照上边例子中的那种方式，每两个结点会抽出一个结点作为上一级索引的结点，那第一级索引的结点个数大约就是n/2，第二级索引的结点个数大约就是n/4，第三级索引的结点个数大约就是n/8，依次类推，也就是说，第k级索引的结点个数是第k-1级索引的结点个数的1/2，那第k级索引结点的个数就是 n/(2^k)

假设索引有h级，最高级的索引有2个结点。通过上面的公式，可以得到n/(2^h)=2，从而求得 h=log2n-1(2为底)。如果包含原始链表这一层，整个跳表的高度就是log2n(2为底)。「在跳表中查询某个数据的时候，如果每一层都要遍历m个结点，那在跳表中查询一个数据的时间复杂度就是O(m*logn)」

这个m的值是多少？按照上边的例子中这种索引结构，我们每一级索引都最多只需要遍历3个结点，也就是说m=3，解释一下为啥是3

假设要查找的数据是x，在第k级索引中，我们遍历到y结点之后，发现x大于y，小于后面的结点z，所以我们通过y的 down 指针，从第k级索引下降到第k-1 级索引。在第k-1级索引中，y和 z之间只有3个结点（包含 y 和 z），所以，我们在k-1级索引中最多只需要遍历3个结点，依次类推，每一级索引都最多只需要遍历3个结点

通过上面的分析，得到m=3，所以「在跳表中查询任意数据的时间复杂度就是O(logn)」。这个查找的时间复杂度跟二分查找是一样的。换句话说，其实是基于单链表实现了二分查找。不过，天下没有免费的午餐，这种查询效率的提升，前提是建立了很多级索引，是一种空间换时间的思路

跳表的空间复杂度分析

假设原始链表大小为n，那第一级索引大约有n/2个结点，第二级索引大约有n/4个结点，以此类推，每上升一级就减少一半，直到剩下2个结点。如果我们把每层索引的结点数写出来，就是一个等比数列

`n/2, n/4, n/8,...,8, 4, 2
`

这几级索引的结点总和就是n/2+n/4+n/8…+8+4+2=n-2。所以，「跳表的空间复杂度是 O(n)」。也就是说，如果将包含n个结点的单链表构造成跳表，我们需要额外再用接近n个结点的存储空间

有没有办法降低索引占用的内存空间呢？

降低跳表空间复杂度的方法

前面都是每两个结点抽一个结点到上级索引，如果我们每三个结点或五个结点，抽一个结点到上级索引，就不用那么多索引结点了

从图中可以看出，第一级索引需要大约n/3个结点，第二级索引需要大约n/9个结点。每往上一级，索引结点个数都除以3。为了方便计算，假设最高一级的索引结点个数是1。我们把每级索引的结点个数都写下来，也是一个等比数列

`n/3, n/9, n/27, ... , 9, 3, 1
`

通过等比数列求和公式，总的索引结点大约就是n/3+n/9+n/27+…+9+3+1=n/2。尽管空间复杂度还是 O(n)，但比上面的每两个结点抽一个结点的索引构建方法，要减少了一半的索引节点存储空间

实际上，在平时开发中，不必太在意索引占用的额外空间。在数据结构和算法中，习惯性地把要处理的数据看成「整数」，但是在实际的开发中，原始链表中存储的有可能是「很大的对象」，而索引结点只需要「存储关键值」和几个指针，并不需要存储对象，「所以当对象比索引结点大很多时，那索引占用的额外空间就可以忽略了」

跳表操作

跳表是个「动态数据结构」，不仅支持查找操作，还支持动态的插入、删除操作，而且插入、删除操作的时间复杂度也是「O(logn)」

插入

在单链表中，一旦定位好要插入的位置，插入结点的时间复杂度是很低的，就是 O(1)。但是，为了保证原始链表中数据的有序性，需要先找到要插入的位置，这个查找操作就会比较耗时

对于纯粹的单链表，需要遍历每个结点，来找到插入的位置。但是，对于跳表来说，查找某个节点的时间复杂度是 O(logn)，所以这里查找某个数据应该插入的位置，方法也是类似的，时间复杂度也是O(logn)

删除

「如果要删除的结点在索引中有出现，除了要删除原始链表中的结点，还要删除索引中的」。因为单链表中的删除操作需要拿到要删除结点的前驱结点，然后通过指针操作完成删除。所以在查找要删除的结点的时候，一定要获取前驱结点。当然，如果用的是双向链表，就不需要考虑这个问题了

索引动态更新

当不停地往跳表中插入数据时，如果不更新索引，就有可能出现某2个索引结点之间数据非常多的情况。极端情况下，跳表还会退化成单链表

作为一种动态数据结构，它需要某种手段来维护索引与原始链表大小之间的平衡，也就是说，如果链表中结点多了，索引结点就相应地增加一些，避免复杂度退化，以及查找、插入、删除操作性能下降

「后边会分享到的红黑树、AVL树这样的平衡二叉树，它们是通过左右旋的方式保持左右子树的大小平衡」，而跳表是通过「随机函数」来维护前面提到的“平衡性”

当我们往跳表中插入数据的时候，可以选择同时将这个数据插入到部分索引层中。如何选择加入哪些索引层，就是随机函数要干的事情

通过一个随机函数，来决定将这个结点插入到哪几级索引中，比如随机函数生成了值K，那就将这个结点添加到「第一级到第K级」这K级索引中

随机函数的选择很有讲究，从概率上来讲，能够保证跳表的索引大小和数据大小平衡性，不至于性能过度退化

跳表的应用

「为什么Redis要用跳表来实现有序集合，而不是红黑树？」

Redis中的有序集合是通过跳表来实现的，严格点讲，其实还用到了「散列表」。后边的文章会分享到散列表，所以现在暂且忽略这部分。如果你了解Redis中的有序集合，它支持的核心操作主要有下面这几个

插入一个数据；
删除一个数据；
查找一个数据；
按照区间查找数据（比如查找值在 [100, 356] 之间的数据）；
迭代输出有序序列

其中，插入、删除、查找以及迭代输出有序序列这几个操作，红黑树也可以完成，时间复杂度跟跳表是一样的。但是，「按照区间来查找数据这个操作，红黑树的效率没有跳表高」

对于按照区间查找数据这个操作，跳表可以做到O(logn)的时间复杂度定位区间的起点，然后在原始链表中顺序往后遍历就可以了。这样做非常高效

Redis之所以用跳表来实现有序集合，还有其他原因，比如，跳表更容易代码实现。虽然跳表的实现也不简单，但比起红黑树来说还是好懂、好写多了，而简单就意味着可读性好，不容易出错。还有，跳表更加灵活，它可以通过改变索引构建策略，有效平衡执行效率和内存消耗

不过，跳表也不能完全替代红黑树。因为红黑树比跳表的出现要早一些，很多编程语言中的Map类型都是通过红黑树来实现的。做业务开发的时候，直接拿来用就可以了，不用费劲自己去实现一个红黑树，但是跳表并没有一个现成的实现，所以在开发中，如果你想使用跳表，必须要自己实现

有疑问加站长微信联系（非本文作者）

本文来自：Segmentfault

感谢作者：书旅

查看原文：数据结构与算法系列之跳表（GO）

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

993 次点击

加入收藏微博

收入我的专栏

上一篇：time的常用方法说明

下一篇：一日一技：在 Golang 中如何快速判断字符串是否在一个数组中

跳表

链表

复杂度

函数

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

数据结构与算法系列之跳表（GO）

详细了解跳表

跳表的时间复杂度

跳表的空间复杂度分析

降低跳表空间复杂度的方法

跳表操作

插入

删除

索引动态更新

跳表的应用

用户登录

今日阅读排行

一周阅读排行

关注我

详细了解跳表

跳表的时间复杂度

跳表的空间复杂度分析

降低跳表空间复杂度的方法

跳表操作

插入

删除

索引动态更新

跳表的应用

数据结构与算法系列之跳表（GO）

详细了解跳表

跳表的时间复杂度

跳表的空间复杂度分析

降低跳表空间复杂度的方法

跳表操作

插入

删除

索引动态更新

跳表的应用

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

详细了解跳表

跳表的时间复杂度

跳表的空间复杂度分析

降低跳表空间复杂度的方法

跳表操作

插入

删除

索引动态更新

跳表的应用

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏