现想用正则清洗HTML .但发现有一种代码用正则会出问题,不会写了,求大神指导。
HTMLCODE
<meta name="author" content="polaris <polaris@studygolang.com>">
我匹配标签的方法 是re,_ = regexp.Compile("\\<[\\S\\s]+?\\>") 但现在有一个问题,第一行代码内包含“>”
结果造成只匹配到<meta name="author" content="polaris <polaris@studygolang.com> 这明显是错的,
求方法 ,谢谢。
不是很清楚,用""来匹配的话需要转移,比如\w,你要写成regexp.MustCopile("\\w")来转义,如果里面有带多个"双引号的话你就得用\"来转移匹配的内容了。
空白字符的话你直接用(""|XXX其它内容)试一试,具体看例子
#11
更多评论
如果<meta name="author" content="polaris <polaris@studygolang.com>"> 后边还有HTML标签呢?
#2