请问怎么读取未知编码的文本呢?

ZeronoFreya · 2022-11-06 16:16:26 · 2033 次点击 · 大约8小时之前 开始浏览    置顶
这是一个创建于 2022-11-06 16:16:26 的主题,其中的信息可能已经有所发展或是发生改变。

目前电脑上有一些网上下载的txt文件,有不少读出来都是乱码,看了下格式有uft-16,utf-8(Bom有的带,有的不带)gb2312,还有一些是其他国家的语言编码,比如日语的,很乱。

转格式的库都需要提前知道编码格式,这种大家是怎么处理的呢?

感谢回答,我目前只找到一个库 "github.com/saintfish/chardet",有十年的历史了,哈哈。

package main

import (
    "bytes"
    "fmt"
    "io"
    "io/ioutil"
    "log"
    "os"

    "github.com/paulrosania/go-charset/charset"
    _ "github.com/paulrosania/go-charset/data"
    "github.com/saintfish/chardet"
)

func main() {
    filePath := "e:\\demo.txt"
    FileHandle, err := os.Open(filePath)
    if err != nil {
        log.Fatal(err)
    }
    defer FileHandle.Close()
    buffer := make([]byte, 1024)
    n, err := FileHandle.Read(buffer)
    // 控制条件,根据实际调整
    if err != nil && err != io.EOF {
        log.Println(err)
    }
    // 如下代码打印出每次读取的文件块(字节数)
    //fmt.Println(string(buffer[:n]))
    text := buffer[:n]
    detector := chardet.NewTextDetector()
    result, err := detector.DetectBest(text)
    if err == nil {
        fmt.Printf(
            "Detected charset is %s, language is %s",
            result.Charset,
            result.Language)
        r, err := charset.NewReader(result.Charset, bytes.NewReader(text))
        if err != nil {
            log.Fatal(err)
        }
        result, err := ioutil.ReadAll(r)
        if err != nil {
            log.Fatal(err)
        }
        fmt.Printf("%s\n", result)
    }
}

效果还行


有疑问加站长微信联系(非本文作者)

入群交流(和以上内容无关):加入Go大咖交流群,或添加微信:liuxiaoyan-s 备注:入群;或加QQ群:692541889

2033 次点击  
加入收藏 微博
3 回复  |  直到 2022-11-17 09:15:49
jan-bar
jan-bar · #1 · 2年之前

这个本身就不好判断,是不是可以考虑用file xxx.xx这个系统命令先判断一下类型呢?要是无BOM的文本文件,那是没有啥文件类型的。

lysShub
lysShub · #2 · 2年之前

这个不复杂但很麻烦,可以参考下这个

https://go.dev/play/p/OHjd-H38alm

yupor5
yupor5 · #3 · 2年之前

其实编码文件已经告诉你了,只是没找到,学会用 16进制 和10进制看

添加一条新回复 (您需要 登录 后才能回复 没有账号 ?)
  • 请尽量让自己的回复能够对别人有帮助
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
  • 支持 @ 本站用户;支持表情(输入 : 提示),见 Emoji cheat sheet
  • 图片支持拖拽、截图粘贴等方式上传