Part 01 目标
对日志文件进行过滤,拆分;
Part 02 了解与思路
这是实习公司派给我的任务,在我快要淡出鸟的时候。有几份日志文件,很大的,以G为单位的。里面很多不必要的信息,需要过滤掉。另外,日志是记录在一起的,分析起来的时候,没有条理性,所以,要求根据日期,进行拆分,同一天的日志为一个文件,以日期命名,文件。
编程的重点是正则表达式的使用和文件操作。
Part 03 来几行瞧瞧
因为需要构造正则,所以得知道文件的格式。直接打开文件是个不明智的选择,对我而言,准确点,对我的电脑来说,打开大文件,我的小本本承受不了这样的负担。在Linux环境中,其实一条命令就可以了:
head -n 100 # 显示前面100行;
tail -n 100 # 显示最后100行;
sed -n '5,10p' filename # 这样可以只查看文件的第5行到第10行;
是不是很方便。但是,我想练习一下golang,所以花了点时间,写了个小程序:
// Auth:Reluxer
// Time:2015-07-23
// Name:preview.go
// Description:闲得慌,写了两个函数
package main
import (
"bufio"
"fmt"
"io"
"os"
)
const (
ViewLineNum = 40
)
func ReadFileByLine002(filename string) error {
f, err := os.OpenFile(filename, os.O_RDONLY, 0660)
if err != nil {
return err
}
defer f.Close()
sc := bufio.NewScanner(f)
for i := 0; i < ViewLineNum; i++ {
sc.Scan()
fmt.Println(sc.Text())
}
return sc.Err()
}
func ReadFileByLine001(filename string) error {
f, err := os.Open(filename)
if err != nil {
return err
}
defer f.Close()
buf := bufio.NewReader(f)
for i := 0; i < ViewLineNum; i++ {
line, err := buf.ReadString('\n')
if err != nil {
if err == io.EOF {
fmt.Println("EOF")
break
}
return err
}
fmt.Print(line)
}
return nil
}
func main() {
filename := os.Args[1]
err := ReadFileByLine002(filename)
if err != nil {
fmt.Println(err)
}
}
这样之后,我看到了文件的格式是这样的:
10.88.111.101 - - [18/Jul/2015:00:00:02 +0800] "GET /topics/2014-11-18/2269791.html HTTP/1.1" 200 15571
10.88.111.101 - - [18/Jul/2015:00:00:02 +0800] "GET /topics/2014-12-26/2419017.html HTTP/1.1" 200 15176
10.88.111.101 - - [18/Jul/2015:00:00:03 +0800] "GET /topics/2012-10-18/3535945.html HTTP/1.1" 200 15250
10.88.111.101 - - [18/Jul/2015:00:00:03 +0800] "GET /topics/2014-11-10/2245185.html HTTP/1.1" 200 15250
Part 04 过滤吧
知道了文件格式,接下来就是过滤掉冗杂的日志,主要是.css,.js,.jpg,.png,.gif。这部分的代码如下:
package main
import (
"bufio"
"fmt"
"io"
"os"
"regexp"
)
const (
RegRuler = `(\.js HTTP)|(\.jpg HTTP)|(\.png HTTP)|(\.css HTTP)|(\.gif HTTP)`
)
func Process(filesrc, fielestore string) error {
var fsrc, fdes *os.File
var err error
fsrc, err = os.OpenFile(filesrc, os.O_RDONLY, 0660)
if err != nil {
return err
}
defer fsrc.Close()
if fdes, err = os.OpenFile(fielestore, os.O_WRONLY|os.O_CREATE|os.O_TRUNC, 0666); err != nil {
return err
}
defer fdes.Close()
sc := bufio.NewScanner(fsrc)
reg := regexp.MustCompile(RegRuler)
for sc.Scan() {
line := sc.Text()
match := reg.FindString(line)
if match == "" {
if _, err = io.WriteString(fdes, line+"\n"); err != nil {
return err
}
}
}
return sc.Err()
return nil
}
func main() {
filename := os.Args[1]
filestorename := "no-css-jpg-png-gif-js_log"
if err := Process(filename, filestorename); err != nil {
fmt.Println(err)
return
}
fmt.Println("ok")
}
让我没想到的是,程序的运行时间超级长,长的我看了一集花千骨,它还没结束。
另外,这一步在Linux底下,也是敲一敲命令就完工的事情。Linux真是强大到没边了。
Part 05 拆分,时间是标准
光是这样,文件还是太大,而且没有条理,所以啊,要按照时间来拆分文件。那好吧,你说拆分就拆分喽,我没意见。
代码如下:
package main
import (
"bufio"
"fmt"
"io"
"os"
// "path"
"regexp"
)
const (
RegRuler = `\[(?P<day>\d{2})/(?P<month>[A-Za-z]{3})/(?P<year>\d{4}):\d{2}:\d{2}:\d{2}\s\+\d{4}\]`
)
func Process(filesrc string) error {
var fsrc, fdes *os.File
var err error
premonth := ""
preday := ""
preyear := ""
curmonth := ""
curday := ""
curyear := ""
filedes := ""
fsrc, err = os.OpenFile(filesrc, os.O_RDONLY, 0660)
if err != nil {
return err
}
defer fsrc.Close()
sc := bufio.NewScanner(fsrc)
reg := regexp.MustCompile(RegRuler)
for sc.Scan() {
line := sc.Text()
// fmt.Println(line)
match := reg.FindStringSubmatch(line)
// fmt.Println(match)
// if match == nil {
// if curday == "" && curmonth == "" && curyear == "" {
// if fdes, err = os.OpenFile("unkonow.txt", os.O_WRONLY|os.O_CREATE|os.O_APPEND, 0666); err != nil {
// return err
// }
// }
// fmt.Println("here")
// } else {
if match != nil {
for i, name := range reg.SubexpNames() {
//Ignore the whole regexp match and unnamed groups
if i == 0 || name == "" {
continue
}
switch name {
case "month":
curmonth = match[i]
case "day":
curday = match[i]
case "year":
curyear = match[i]
}
}
// fmt.Println(filedes)
if curday != preday || curmonth != premonth || curyear != preyear {
fdes.Close()
filedes = curyear + "-" + curmonth + "-" + curday
if fdes, err = os.OpenFile(filedes, os.O_WRONLY|os.O_CREATE|os.O_APPEND, 0666); err != nil {
return err
}
}
}
_, err = io.WriteString(fdes, line+"\n")
if err != nil {
// fmt.Println("here")
fdes.Close()
return err
}
preyear = curyear
preday = curday
premonth = curmonth
// match :=
//fmt.Fprintf(os.Stdout,"%s\n",scanner.Text())
}
fdes.Close()
return sc.Err()
return nil
}
func main() {
filename := os.Args[1]
// fmt.Println(filename)
// err := ReadFileByLine001(filename)
err := Process(filename)
if err != nil {
fmt.Println(err)
}
fmt.Println("ok")
}
Part 06 结束吧
到这儿呢,基本就差不多了。该结束了。说一下,感慨。
- 之前的代码少些了几行,然后,我的小本本就承受不住,主板过热,自动关机了,真的是吓死爹了。
- 编程的过程都是一边百度,一边码代码,也算是小有收获。
- 学语言就得实践,在实践中学习。
有疑问加站长微信联系(非本文作者)