求一个HTML正则公式，谢谢

admin87 · · 1349 次点击

现想用正则清洗HTML .但发现有一种代码用正则会出问题，不会写了，求大神指导。 HTMLCODE <meta name="author" content="polaris <polaris@studygolang.com>"> 我匹配标签的方法是re,_ = regexp.Compile("\\<[\\S\\s]+?\\>") 但现在有一个问题，第一行代码内包含“>” 结果造成只匹配到<meta name="author" content="polaris <polaris@studygolang.com> 这明显是错的，求方法，谢谢。

阅读全文

查看全部 13 个评论

Carseason

不是很清楚,用""来匹配的话需要转移，比如\w,你要写成regexp.MustCopile("\\w")来转义，如果里面有带多个"双引号的话你就得用\"来转移匹配的内容了。空白字符的话你直接用(""|XXX其它内容)试一试，具体看例子

评论于 2017-12-04 13:39:07

#11

更多评论

channel

你用了懒惰模式，改为： ```go re,_ = regexp.Compile("\<[\S\s]+\>") ```

评论于 2017-12-03 01:55:44

#1

admin87

如果<meta name="author" content="polaris <polaris@studygolang.com>"> 后边还有HTML标签呢？

评论于 2017-12-03 10:06:13

#2

X

登录和大家一起探讨吧