正则表达式之去除font和span标签
在程序爬行网页时有个很头疼的问题,就是网页中有很多无用的修饰性的标签。一个一个删的话工程量太大,幸好平时接触过一些正则表达式,先看看以下内容:
<p><font style="font-size:16px;font-family:宋体"><span lang="zh-cn">如何使用</span></font>sed<font color="#0df2a3"><span lang="zh-cn">,一个强大的、自动化的文本编辑器。如果要对大量文本进行更改
,</span></font>sed<FONT FACE="宋体"><span lang="zh-cn">是最好的选择。</span>
</font></p>
看到了吧,就是删除font、span 等html标签可以使用以下正则:
<\/?(?:font|span)[^>]*>
得到如下内容:
<P>如何使用sed,一个强大的、自动化的文本编辑器。如果要对大量文本进行更改,sed是最好的选择
。</P>