现在想清洗HTML。但不知道用哪个库,求执导。。
我现在想到的办法是一个结点一个结点的过滤。比如
《body》
《div》
haha
《div>aa</div》
《/div》
《/body》
有没有一种库可以一个结点一个结点的过滤 。。
如上代码,比如第一个结点<body> 第二个<div> 第三个HAHA 第4个 《div》第5个aa 一次类推。然后在根据不同的标签,结点类型做内部清理。。
有疑问加站长微信联系(非本文作者)