第一句子网 > python贪婪与非贪婪_python 贪婪非贪婪匹配

python贪婪与非贪婪_python 贪婪非贪婪匹配

时间：2020-04-17 09:27:30

python re模块还是需要重新学习。

python readline 和 readlines(), readline() , read() 3者之间的区分，之前1直都不清楚，现在弄清楚是怎样回事了。

readlines() 可以1起显示出全部文件，这个也是迭代显示的，需要追行显示，迭代器的指针会被消耗的。

python 中的正则是匹配换行之外的所有的字符。.* 是匹配不了所有的字符的。在某些情况下，我的结论是正确的，但是在某些情况下，我的结论又是毛病的。刚才遇到的问题，现在终究知道是怎样回事了，原来是贪婪匹配和非贪婪匹配的问题，对这类情况，我也是相对迟钝了。

save.html 是我随意抓来的1个html，我要从这个html中抓出所有的 javascript代码段。

def getcss():

fh = open('save.html')

html =fh.read()

#js_pattern = pile(r'

ans = re.findall(r'',html,re.S)

src_pattern = pile(r'^"http.*"');

for i in ans:

#ret = re.findall(src_pattern,i)

print i

通过上面的程序，我得到了下面的结果。源文件是1个html，格式1般，这些代码段是分行的，我的目的是找出所有的代码段。下面做1个简单的解释。在尝试的进程中，我试了好几种正则表达式，下面讲1下我遇到的问题。

实现是跨行匹配的问题，.*是没法匹配

的，所以如果标签散布在不同的行，那末如何匹配中间的内容呢。为了解决跨行匹配的问题，找到了这个解决方案,可以用([dD]*)或([wW]*) 或([sS]*) 来代替。

然后又遇到了问题，我的正则总是会匹配太多的内容，最后发现，我的匹配模式是依照最多内容匹配的。默许的匹配模式是贪婪匹配，所以如果用了.*的话，总会匹配更多的内容。所以找到了这个参考。python贪婪匹配看到了贪婪匹配和非贪婪匹配的核心在1个?上，re.S标记是多行匹配的关键，类似的标记还有re.M标记，这个是1行的标记。re.M：^$标志将会匹配每行，默许^和$只会匹配第1行,文章里有几个例子还是很不错的，值得仔细研究1下,建议自己履行1下这些代码，看下结果，如果这些都很清楚，那末正则掌握的还算不错。

re.findall(r"a(d+?)", "a23b")

re.findall(r"a(d+)", "a23b")

re.findall(r"a(d+)b.+a(d+)b", "a23b

a34b")

re.findall(r"a(d+)b.+a(d+)b", "a23b

a34b", re.S)

最后，实现了上面我提出的需求，主要利用了跨行匹配和非贪婪匹配。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。