Python和Go的字符串拼接操作

lwhile · · 2267 次点击 · · 开始浏览    
这是一个创建于 的文章,其中的信息可能已经有所发展或是发生改变。

某个午后逛Golang中国社区,看到一个问题
一个简单的字符串性能测试

凭着对一些语言的浅薄了解,稍微回答了下:

"在Java中也得到相同的结果.
Go/Java/C#这类静态语言中,String类型的value是不可变的.每次对字符串的”+”操作,都需要重新复制一遍原字符串.
所以这些语言涉及到对长字符串的操作,都不推荐使用”+”,而是类似Join或者切片之类的东西."

但是后来才想起,Python中的String类似也是不可变的.这么一来为什么我的回答就错了.
既然String类型不可变,在Python中势必会生成新的对象.可是为什么速度那么快 ?

在Google搜了一圈找不到可用的信息,去看源码又不知道入口在哪.于是只能上StackOverflow提问了.
What is the different from string's “+” operation between Golang and Python?

目前为止StackOverflow还没有一个回答,但热心网友对该问题的评论已经给出了很多重要的信息.

顺着他们给出的信息,加上我自己的探索,做出如下的总结:

  1. 在Python中,对字符串的'+='操作,是被优化过的

    在Python中String显然是不可变类型,但解释器(指CPython,下同)遇到形如 str_x += str_y 或者 str_x = str_x + str_y的表达式,还是会取巧得改变String的值,但要求很严格:左值没有被其他表达式引用,且满足二元操作.

    s = ''
    for i in range(100000):
        s += 'test' # or s = s + 'test'
    
    #Out: 0:00:00.019121
    

    但是,若不满足二元操作或被其他表达式引用,即像这样:

    str_x = str_x + str_y + str_z
    

    str_x += str_x + str_y + str_z
    

    str_x = str_x + str_y
    str_a += str_x
    #(↑循环10w次飙完了我的内存)
    

    解释器就不会进行优化.

  2. 还是建议不要使用'+='操作,应该使用join函数.

    尽管这样写有可能让代码看起来更简洁,但一留神就容易出错.当数据量非常大时,就等着哭吧,而且有可能因为不断进行新对象的创建,又被其他表达式引用导致无法被GC清除掉,一下子彪完你的内存,上面就是一个例子.

  3. Go的优化方法

    Go或Java这类语言中String类型是严格不变的,不会有类似Python的取巧优化.下面给出两个来自StackOverflow的Go字符串拼接的正确姿势:

    1. 使用bytes.Buffer类型:
      var buffer bytes.Buffer
      for n := 0; n < 100000; n++ {
          buffer.WriteString("test")
      }
      
    2. 使用copy函数
    bs := make([]byte, 100000)
    bl := 0
    for n := 0; n < 100000; n++ {
        bl += copy(bs[bl:], "test")
    }
    

    方法二是效率是方法一的15倍左右,而方法一是"+="操作的10w倍.


有疑问加站长微信联系(非本文作者)

本文来自:简书

感谢作者:lwhile

查看原文:Python和Go的字符串拼接操作

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

2267 次点击  
加入收藏 微博
暂无回复
添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传