这篇文章主要介绍了python通过正则表达式获取、过滤或者替换html标签的方法,感兴趣的小伙伴们可以参考一下
本文实例介绍了python通过正则表达式获取,去除(过滤)或者替换html标签的几种方法,具体内容如下
python正则表达式关键内容:
python正则表达式转义符:
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
\w 匹配任意不是字母,数字,下划线,汉字的字符
\s 匹配任意不是空白符的字符
\d 匹配任意非数字的字符
\b 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
常用的python正则表达式限定符代码/语法说明:
*重复零次或更多次
+重复一次或更多次
?重复零次或一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n到m次
关于python正则表达式命名组:
命名组:(?p…..)
这篇文章里面还提到了界定( 问号开头,前向则有个’]+>’)
print p.sub(“”, html)
python通过正则表达式取html中温度信息代码示例:
#!/usr/bin/env python
#-*- coding: utf8 -*-
import re
html = “””
14℃
“””
if name == ‘main’:
p = re.compile(‘]+>’)
print p.sub(“”, html)
2、python通过正则表达式去除(过滤)html标签示例代码:
# -*- coding: utf-8-*-
import re
##过滤html中的标签
#将html中标签等信息去掉
#@param htmlstr html字符串.
def filter_tags(htmlstr):
#先过滤cdata
re_cdata=re.compile(‘//]*//\]\]>’,re.i) #匹配cdata
re_script=re.compile(‘]*>[^
key=sz.group(‘name’)#去除&;后entity,如>为gt
try:
htmlstr=re_charentity.sub(char_entities[key],htmlstr,1)
sz=re_charentity.search(htmlstr)
except keyerror:
#以空串代替
htmlstr=re_charentity.sub(”,htmlstr,1)
sz=re_charentity.search(htmlstr)
return htmlstr
def repalce(s,re_exp,repl_string):
return re_exp.sub(repl_string,s)
if name==’main’:
s=file(‘169it.com_index.htm’).read()
news=filter_tags(s)
print news
以上就是本文的全部内容,希望对大家的学习有所帮助。
以上就是python正则获取和过滤或者替换html标签的方法说明的详细内容,更多请关注 第一php社区 其它相关文章!