Go字符串初探

周小路 · · 702 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

这篇博文的知识，主要是阅读了Go的官方博客在2013年发表的一篇，名为《Strings, bytes, runes and characters in Go》的文章，里面解释了Go语言中的string、byte以及rune类型以及Go中的编码方式等内容。

字符串是字节的切片

我们都知道，在Go当中，字符串是字节的切片。跟JavaScipt有非常大的不同，主要体现在下面这个例子当中：

func test() {
  s := "Hello,世界"
  fmt.Println(len(s))
}
复制代码

这个函数的输出是12，按照直觉来讲，输出应该是8才对。但是，正因为字符串是字节的切片，故取字符串Hello,世界，实际上是在取其对应的字节切片的长度。而在Go中是采用utf-8编码，一个汉字对应着3个字节，因此才得到了12这个数字。

为了验证这个说法，我们取其对应字节的输出：

func test() {
  s := "Hello,世界"
  for i := 0; i < len(s); i++ {
    fmt.Printf("% x", s[i])
  }
}
复制代码

输出为，12个字节：

48 65 6c 6c 6f 2c e4 b8 96 e7 95 8c
复制代码

`Unicode`与`utf-8`

我们知道，Go中，都是采用utf-8来对Unicode进行编码的，这种编码方式有着动态大小的特点，借用Go语言圣经中的一张图来解释：

https://user-gold-cdn.xitu.io/2020/4/30/171cbcbc0e0a0705?w=1290&h=220&f=jpeg&s=46730

表示不同范围Unicode值，编码采用了不同个数的字节，我们常用的汉字，就一般是使用3个字节去表示的。

https://user-gold-cdn.xitu.io/2020/4/30/171cbcbc0e5f5eb6?w=642&h=1038&f=jpeg&s=29540

上面这个例子展示了字符你，是如何编码和解码的。其用Unicode表示，为2个字节，编码为utf-8则为3个字节。

`rune`类型

如果我们始终用若干字节去表示一个字符，那未免也太过繁琐。同时，我们上面知道取一个字符串长度，取得的是这个字符串对应字节的长度，那么我们用传统的for循环，取去的字符串中的每个字符，其结果是绝对不符合我们的期望的。

Go就专门为字符定义了字符类型rune。它是int32类型的别名，主要就是用来处理Unicode字符的。之所以，其对应的是int32类型，这主要是因为utf-8编码，最大会产生4个字节的大小的值，故对应了int32类型。

在Go中想要按照正常的方式，遍历一个字符串，可以采用使用for range的形式，来对一字符串遍历：

func test() {
  s := "Hello,世界"
  for _, val := range s {
    fmt.Printf("%#U\n", val)
  }
}
复制代码

使用for range循环，实际上就是在字符串中对字符rune进行遍历。输出为：

U+0048 'H'
U+0065 'e'
U+006C 'l'
U+006C 'l'
U+006F 'o'
U+002C ','
U+4E16 '世'
U+754C '界'
复制代码

其次，也可以使用标准库对字符串进行处理，如使用unicode/utf8库中的DecodeRuneInString方法，输入一个字节切片，返回一个rune值和其使用utf-8编码的字节宽度。

为什么要编码

实际上，现在Unicode已经收录了，超过12万个字符，我们如果直接使用一个int32的序列来存储所有的字符就已经足够使用，为什么还要采用utf-8这种编码模式？

主要是因为，如果统一使用固定长度bit来存储所有的字符，会导致存储空间的极大浪费。我们在日常的使用中，大部分时候，都是使用到了ASCII可以表示的一些字符，只有少数情况下，使用的字符会超出ASCII的表示范围。因此，我们需要使用utf-8这种变长的编码工具，来为我们节约空间。

参考

有疑问加站长微信联系（非本文作者）

本文来自：掘金

感谢作者：周小路

查看原文：Go字符串初探

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

702 次点击

加入收藏微博

收入我的专栏

上一篇：知识更新越来越快，但是学习起来越来越困

下一篇：Go语言之数组与切片

切片

代码

编码方式

二进制位

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

关注我

扫码关注领全套学习资料
加入 QQ 群：
- 192706294（已满）
- 731990104（已满）
- 798786647（已满）
- 729884609（已满）
- 977810755（已满）
- 815126783（已满）
- 812540095（已满）
- 1006366459（已满）
- 692541889
加入微信群：liuxiaoyan-s，备注入群
也欢迎加入知识星球 Go粉丝们（免费）

Go字符串初探

相关概念的辨析

字符串是字节的切片

`Unicode`与`utf-8`

`rune`类型

为什么要编码

参考

用户登录

今日阅读排行

一周阅读排行

关注我

相关概念的辨析

字符串是字节的切片

`Unicode`与`utf-8`

`rune`类型

为什么要编码

参考

Go字符串初探

相关概念的辨析

字符串是字节的切片

Unicode与utf-8

rune类型

为什么要编码

参考

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

相关概念的辨析

字符串是字节的切片

Unicode与utf-8

rune类型

为什么要编码

参考

`Unicode`与`utf-8`

`rune`类型

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏

`Unicode`与`utf-8`

`rune`类型