俄罗斯贵宾会-俄罗斯贵宾会官网
做最好的网站

re模块和正则表达式【俄罗斯贵宾会】

正则表达式平时不常用,经常都是用的时候,临时抱佛脚,查文档,然后就是被各种坑之后,才会逐渐熟练。

re模块

在线正则表达式测试:http://tool.oschina.net/regex/

讲正题之前我们先来看一个例子:https://reg.jd.com/reg/person?ReturnUrl=https%3A//www.jd.com/

在线JSON格式化:https://www.bejson.com/

这是京东的注册页面,打开页面我们就看到这些要求输入个人信息的提示。
假如我们随意的在手机号码这一栏输入一个11111111111,它会提示我们格式有误。
这个功能是怎么实现的呢?
假如现在你用python写一段代码,类似:

正则表达式手册:http://tool.oschina.net/uploads/apidocs/jquery/regexp.html

phone_number = input('please input your phone number : ')

先来看下代码和运行效果吧

你怎么判断这个phone_number是合法的呢?

 string msg, rex;
            Match m;
            msg = "昨日总能耗0度。 (长沙市口腔医院)星期一【紫衡技术】";
            rex = @".*(昨日总?能耗)([0-9]{1,}[.]?[0-9]*)*度。 ((.*))(.{3}).*";
            m = Regex.Match(msg, rex);
            Console.WriteLine("0:" + m.Success);
            WriteGroupInfo(m);

            //1
            msg = @"上周总能耗28401.4度。 (沙井街道办)星期一【紫衡技术】";
             rex = @".*(上周总?能耗)([0-9]{1,}[.][0-9]*)*度。 ((.*))(.{3}).*";
            //昨日总能耗2582.1度。【长沙市天心区人民法院】2018 - 07 - 08【紫衡技术】
             m = Regex.Match(msg, rex);
            var r = m.Success;
            Console.WriteLine("1:"+r);
            WriteGroupInfo(m);

            //2
            rex = @".*(昨日总?能耗)([0-9]{1,}[.]?[0-9]*)*度。【(.*)】(d{4}-d{2}-d{2}).*";
            msg= "昨日总能耗209.9度。【长沙市天心区人民检察院】2018-07-08【紫衡技术】";
            Match m1 = Regex.Match(msg, rex);
            Console.WriteLine("2:"+m1.Success);
            WriteGroupInfo(m1);

            //3
            rex = @".*(上周总?能耗)([0-9]{1,}[.]?[0-9]*)*度。 ((.*))(.{3}).*";
            msg = "上周总能耗10922.4度。 (深圳市地方税务局第二稽查局)星期一【紫衡技术】";
            m1 = Regex.Match(msg, rex);
            Console.WriteLine("3:"+m1.Success);
            WriteGroupInfo(m1);

            //4
            rex = @".*(上月总?能耗)([0-9]{1,}[.]?[0-9]*)*度。 ((.*))(.{8}).*";
            msg = "上月总能耗49276.9度。 (深圳市地方税务局第二稽查局)2018年06月【紫衡技术】";
            m1 = Regex.Match(msg, rex);
            Console.WriteLine("4:"+m1.Success);
            WriteGroupInfo(m1);

            //5
            rex = @".*(建筑名称):(.*),在(d{4}-d{2}-d{2}).{3}([0-9]{1,}[.][0-9]*)*度。";
            msg = "建筑名称:长沙市天心区人民法院,在2018-07-08日用电2582.1度。";
            m1 = Regex.Match(msg, rex);
            Console.WriteLine("5:"+m1.Success);
            WriteGroupInfo(m1);

            //6
            rex = @"(今日能耗):([0-9]{1,}[.]?[0-9]*)";
            msg = "今日能耗:300【紫衡技术】";
            m1 = Regex.Match(msg, rex);
            Console.WriteLine("6:" + m1.Success);
            WriteGroupInfo(m1);

            //^【([^】]+)】异常(.+?)服务(【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)
            //*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*.+
            rex = @"^【([^】]+)】异常(.+?)服务(【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*
                 (服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*.+";
            msg = "【公司WNC服务监控台】异常 - 服务【Secom.Emx.SmsServer.Service】未找到或者未安装!【紫衡技术】";
            m1 = Regex.Match(msg, rex);
            Console.WriteLine("7:" + m1.Success);
            WriteGroupInfo(m1);
            Console.ReadKey();
        }

        private static void WriteGroupInfo(Match m)
        {
            var g = m.Groups;
            if (g.Count > 0)
            {
                for (var i = 0; i < g.Count; i++)
                {
                    Console.WriteLine(i+":"+g[i].Value);
                }
            }
        }
根据手机号码一共11位并且是只以13、14、15、18开头的数字这些特点,我们用python写了如下代码: 

运行结果:

俄罗斯贵宾会 1俄罗斯贵宾会 2

俄罗斯贵宾会 3

while True:
    phone_number = input('please input your phone number : ')
    if len(phone_number) == 11 
            and phone_number.isdigit()
            and (phone_number.startswith('13') 
            or phone_number.startswith('14') 
            or phone_number.startswith('15') 
            or phone_number.startswith('18')):
        print('是合法的手机号码')
    else:
        print('不是合法的手机号码')

需要注意的地方,待匹配文字中的空格以及全角和半角字符要注意区分。

判断手机号码是否合法1

存储正则表达式字符串,不能存储到Json文件中,特殊字符会出现转义,存XML中没有这个问题。通过构造sql语句存储到mysql中的时候,反斜杠将会被直接吃掉,所以插入之前要先进行转义。

这是你的写法,现在我要展示一下我的写法:
 var _TemplateReg = v.Value.TemplateReg.Replace("\", "\\");

俄罗斯贵宾会 4俄罗斯贵宾会 5

在C#中\表示,\\就表示\。

import re
phone_number = input('please input your phone number : ')
if re.match('^(13|14|15|18)[0-9]{9}$',phone_number):
        print('是合法的手机号码')
else:
        print('不是合法的手机号码')

之前在一个全局变量中存储了许多数据,现在我需要将其存储到数据库中。原来的代码如下:

俄罗斯贵宾会,判断手机号码是否合法2

俄罗斯贵宾会 6俄罗斯贵宾会 7

对比上面的两种写法,此时此刻,我要问你你喜欢哪种方法呀?你肯定还是会说第一种,为什么呢?因为第一种不用学呀!
但是如果现在有一个文件,我让你从整个文件里匹配出所有的手机号码。你用python给我写个试试?
但是学了今天的技能之后,分分钟帮你搞定!

        /// <summary>
        /// 短信模板
        /// </summary>
        #region old code
        Dictionary<string, SmsTemplate> templates = new Dictionary<string, SmsTemplate> {
            // 能耗日报模板  
            {
                "能耗提醒",
                new SmsTemplate {
                    TemplateCode = "SMS_139242133",
                    TemplateReg = @"测试短信通知",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "紫衡技术"
                }
            },
            {
                "测试",
                new SmsTemplate {
                    TemplateCode = "SMS_119091381",
                    TemplateReg = @"测试短信通知",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "紫衡技术"
                }
            },
            {
                "能耗",
                new SmsTemplate {
                    TemplateCode = "SMS_119076277",
                    TemplateReg = @"^[^(上周)|(上月)]*(能耗)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*$",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "能耗Extend",
                new SmsTemplate
                {
                    TemplateCode = "SMS_128880488",
                    TemplateReg = @"^[^(上周)|(上月)]*(能耗)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*$",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty, extend=string.Empty},
                    SignName = "能耗报告"
                }
            },
            {
                "昨日能耗",
                new SmsTemplate {
                    TemplateCode = "SMS_139242142",
                    TemplateReg = @".*(昨日总?能耗)([0-9]{1,}[.]?[0-9]*)*度。 ((.*))(.{3}).*",//昨日总能耗16677.6度。 (天心区鑫远白天鹅酒店)星期一【紫衡技术】
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
             {
                "昨日能耗1",
                new SmsTemplate {
                    TemplateCode = "SMS_139242142",
                    TemplateReg = @".*(昨日总?能耗)([0-9]{1,}[.]?[0-9]*)*度。【(.*)】(d{4}-d{2}-d{2}).*",//昨日总能耗209.9度。【长沙市天心区人民检察院】2018-07-08【紫衡技术】
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "上周能耗",
                new SmsTemplate {
                    TemplateCode = "SMS_119081757",
                    TemplateReg = @".*(上周总?能耗)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "上月能耗",
                new SmsTemplate {
                    TemplateCode = "SMS_119086386",
                    TemplateReg = @".*(上月总?能耗)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "定额",
                new SmsTemplate {
                    TemplateCode = "SMS_119076277",
                    TemplateReg = @".*(定额)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "基准",
                new SmsTemplate {
                    TemplateCode = "SMS_119076277",
                    TemplateReg = @".*(基准)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "节能量",
                new SmsTemplate {
                    TemplateCode = "SMS_119076277",
                    TemplateReg = @".*(节能量)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            {
                "优化",
                new SmsTemplate {
                    TemplateCode = "SMS_119076277",
                    TemplateReg = @".*(优化)值*[::]*([d.]+).*(([^)]+))(d{4}-d{2}-d{2}).*",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, energy=string.Empty },
                    SignName = "能耗报告"
                }
            },
            // 报警日报模板
            {
                "报警",
                new SmsTemplate {
                    TemplateCode = "SMS_119076278",
                    TemplateReg = @"(建筑[)*(.+?)([],,])*产生以下报警:(.+)(【紫衡技术】)",
                    TemplateParam =  new { name=string.Empty, date=string.Empty, alarm=string.Empty },
                    SignName = "能管系统报警"
                }
            },
            // 运维工单模板
            {
                "运维通知",
                new SmsTemplate {
                    TemplateCode = "SMS_119091206",
                    TemplateReg = "您有一条新的(.+)工单需处理【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "运维抢单",
                new SmsTemplate {
                    TemplateCode = "SMS_119076276",
                    TemplateReg = "您有一条新的(.+)工单(提示)*【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "运维派单",
                new SmsTemplate {
                    TemplateCode = "SMS_119076273",
                    TemplateReg =  "您有新的(.+)工单无人[抢|接]单【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "库存不足",
                new SmsTemplate {
                    TemplateCode = "SMS_119091203",
                    TemplateReg =  ".+【([^】]+)】.+库存已不足.+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "维修签到",
                new SmsTemplate {
                    TemplateCode = "SMS_119076712",
                    TemplateReg =  ".*您有(.*)未签到【工单号:([^】]+)】.+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            }

            ,
            {
                "报警抢单",
                new SmsTemplate {
                    TemplateCode = "SMS_119091869",
                    TemplateReg =  "您有(.*)报警.*无人[抢|接]单【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            }
            ,
            {
                "广医派工",
                new SmsTemplate {
                    TemplateCode = "SMS_135795374",
                    TemplateReg =  "您有新的(.+)工单(.+)需处理,详情请打开“智慧机电运维系统APP”查看。",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            }
            ,
            {
                "报警签到",
                new SmsTemplate {
                    TemplateCode = "SMS_119081998",
                    TemplateReg =  "您有(.*)报警事件未现场签到【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "未处理完崔单",
                new SmsTemplate {
                    TemplateCode = "SMS_119076997",
                    TemplateReg =  "您有(.*)处理尚未完成【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "运维崔单",
                new SmsTemplate {
                    TemplateCode = "SMS_119087014",
                    TemplateReg =  "您有一条(.+)催单提示【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "运维工单事件",
                new SmsTemplate {
                    TemplateCode = "SMS_119091936",
                    TemplateReg =  "您有新的工单事件【工单号[::]([^】]+).+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "运维系统"
                }
            },
            {
                "MAN服务未找到异常",
                new SmsTemplate {
                    TemplateCode = "SMS_120120306",
                    TemplateReg =  "^【([^】]+)】异常(.+?)服务(【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*(服务【([^】]+)】未找到或者未安装!)*.+",
                    TemplateParam =  new { type=string.Empty, code=string.Empty },
                    SignName = "能管365"
                }
            }

        };
        #endregion

今天我们要学习python里的re模块和正则表达式,学会了这个就可以帮我们解决刚刚的疑问。正则表达式不仅在python领域,在整个编程届都占有举足轻重的地位。

View Code

俄罗斯贵宾会 8俄罗斯贵宾会 9

我想直接通过代码来自动将其迁移到mysql数据库中去。

不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。
但是你要知道,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系
你没有学习python之前,也不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半(这个时间可好,一般这会儿就该下课了)。
时间有自己的格式,年月日时分秒,12个月,365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已
        /// <summary>
        /// 初始化数据,将原来代码中的模板配置生成并加载到数据库中
        /// </summary>
        /// <param name="templates"></param>
        /// <returns></returns>
        public int InitData(Dictionary<string, SmsTemplate> templates)
        {
            StringBuilder sb = new StringBuilder();
            sb.Append("INSERT INTO smstemplate VALUES");
            foreach(var v in templates)
            {
                var _TemplateReg = v.Value.TemplateReg.Replace("\", "\\");
                sb.AppendFormat(@"('{0}','{1}','{2}','{3}','{4}'),",v.Key,v.Value.TemplateCode, _TemplateReg, JsonConvert.SerializeObject(v.Value.TemplateParam),v.Value.SignName);
            }
            string sql= sb.ToString().TrimEnd(',');
            var cmd = db.GetSqlStringCommand(sql);
            return db.ExecuteNonQuery(cmd);
        }
        /// <summary>
        /// 从数据库中加载模板配置列表
        /// </summary>
        /// <returns>模板配置列表</returns>
        public Dictionary<string, SmsTemplate> GetSmsTemplate()
        {
            Dictionary<string, SmsTemplate> dic = new Dictionary<string, SmsTemplate>();
            var sql = "SELECT `Key`,`TemplateCode`,`TemplateReg`,`TemplateParam`,`SignName` FROM smstemplate";
            try
            {
                var cmd = db.GetSqlStringCommand(sql);
                SmsTemplate item;
                string key;
                using (var reader = db.ExecuteReader(cmd))
                {
                    while (reader.Read())
                    {
                        key = reader.GetString(0);
                        item = new SmsTemplate();
                        item.TemplateCode = reader.GetString(1);
                        item.TemplateReg = reader.GetString(2);
                        item.TemplateParam = (JObject)JsonConvert.DeserializeObject(reader.GetString(3));
                        item.SignName = reader.GetString(4);
                        dic.Add(key, item);
                    }
                }
            }
            catch(Exception ex)
            {
                throw new Exception(ex.Message);
            }

            return dic;
        }

构造完成后的sql脚本:

正则表达式和re模块

俄罗斯贵宾会 10俄罗斯贵宾会 11

正则表达式

一说规则我已经知道你很晕了,现在就让我们先来看一些实际的应用。在线测试工具 http://tool.chinaz.com/regex/

首先你要知道的是,谈到正则,就只和字符串相关了。在我给你提供的工具中,你输入的每一个字都是一个字符串。
其次,如果在一个位置的一个值,不会出现什么变化,那么是不需要规则的。
  比如你要用"1"去匹配"1",或者用"2"去匹配"2",直接就可以匹配上。这连python的字符串操作都可以轻松做到。
那么在之后我们更多要考虑的是在同一个位置上可以出现的字符的范围。

字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。
正则
待匹配字符
匹配
结果
说明
[0123456789]
8
True
在一个字符组里枚举合法的所有字符,字符组里的任意一个字符
和"待匹配字符"相同都视为可以匹配
[0123456789]
a
False
由于字符组中没有"a"字符,所以不能匹配
 
[0-9]
 
7
True
也可以用-表示范围,[0-9]就和[0123456789]是一个意思
 
[a-z]
 
s
 
True
 
同样的如果要匹配所有的小写字母,直接用[a-z]就可以表示
 
[A-Z]
 
B
 
True
 
[A-Z]就表示所有的大写字母
 
[0-9][a-f][A-F]
 
e
 
True
 
可以匹配数字,大小写形式的a~f,用来验证十六进制字符
 

本文由俄罗斯贵宾会发布于编程,转载请注明出处:re模块和正则表达式【俄罗斯贵宾会】

您可能还会对下面的文章感兴趣: