正则表达式之去除font和span标签

JerryXia 发表于 , 阅读 (4,764)

在程序爬行网页时有个很头疼的问题,就是网页中有很多无用的修饰性的标签。一个一个删的话工程量太大,幸好平时接触过一些正则表达式,先看看以下内容:

<p><font style="font-size:16px;font-family:宋体"><span lang="zh-cn">如何使用</span></font>sed<font color="#0df2a3"><span lang="zh-cn">,一个强大的、自动化的文本编辑器。如果要对大量文本进行更改
,</span></font>sed<FONT FACE="宋体"><span lang="zh-cn">是最好的选择。</span>
</font></p>

看到了吧,就是删除font、span 等html标签可以使用以下正则:

<\/?(?:font|span)[^>]*>

得到如下内容:

<P>如何使用sed,一个强大的、自动化的文本编辑器。如果要对大量文本进行更改,sed是最好的选择
。</P>

添加新评论