一种基于结构划分及字符串重组的口令攻击方法cjc.ict.ac.cn/online/onlinepaper/zml-201941793554.pdf ·...

书书书

第４２卷　第４期２０１９年４月

计　　算　　机　　学　　报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ

Ｖｏｌ．４２Ｎｏ．４Ａｐｒ．２０１９

　

收稿日期：２０１８０２２２；在线出版日期：２０１８１１０６．本课题得到国家自然科学基金（６１５０２５２７，６１７０２５４９，６１８６２０１１，６１８７２４４９）、广西自然基金（２０１８ＧＸＮＳＦＡＡ１３８１１６）和广西密码学与信息安全重点实验室研究课题（ＧＣＩＳ２０１７０４）资助．章梦礼，男，１９９３年生，硕士研究生，主要研究方向为口令安全、大数据安全．Ｅｍａｉｌ：ｚｍｌ１１２２ｙ＠１６３．ｃｏｍ．张启慧，女，１９８３年生，博士研究生，讲师，主要研究方向为大数据安全．刘文芬（通信作者），女，１９６５年生，博士，教授，博士生导师，主要研究领域为密码学、信息安全．Ｅｍａｉｌ：ｌｉｕｗｅｎｆｅｎ＠ｇｕｅｔ．ｅｄｕ．ｃｎ．胡学先，男，１９８２年生，博士，硕士生导师，中国计算机学会（ＣＣＦ）会员，主要研究领域为安全协议、大数据安全．魏江宏，男，１９８７年生，博士，讲师，主要研究方向为认证协议、大数据安全及隐私保护．

一种基于结构划分及字符串重组的口令攻击方法章梦礼１）　张启慧１）　刘文芬２）　胡学先１）　魏江宏１）

１）（中国人民解放军战略支援部队信息工程大学　郑州　４５００００）２）（桂林电子科技大学计算机与信息安全学院　广西桂林　５４１０００）

摘　要　身份认证是网络安全的一道重要防线，口令长期以来一直是身份认证的主流方式，口令攻击是口令安全研究的重要手段．基于概率上下文无关文法（ＰｒｏｂａｂｉｌｉｓｔｉｃＣｏｎｔｅｘｔＦｒｅｅＧｒａｍｍａｒ，ＰＣＦＧ）和基于Ｍａｒｋｏｖ链的模型是目前效果最为显著的两类口令攻击方法，它们分别从子结构组成层面和字符前后依赖层面对口令进行有效地建模刻画．该文中，作者在综合上述两类模型优点的基础上提出了一种基于结构划分及字符串重组的口令攻击方法，记为ＳＰＳＲ模型：首先将口令划分成抽象的子结构，然后利用改进的Ｍａｒｋｏｖ链模型生成子结构中字符、数字和符号等构成的子串，以同时兼顾模型的准确性和泛化能力．此外，作者在结构划分阶段还额外引入了常用字符段，并加入了索引位对特殊字符在口令中的位置进行了明确地刻画；在字符串重组阶段，通过递归的思想减少子串概率计算中的重复计算，给出了一个改进的ＯＭＥＮ算法———ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法．为了验证ＳＰＳＲ模型的有效性，分别在６个真实的中英文口令集上进行了实验测试．结果表明，按概率递减顺序生成相同规模的猜测口令集时，新提出的ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法比ＯＭＥＮ算法用时缩短了１０倍左右；在相同的猜测次数下考察攻击效果时，ＳＰＳＲ模型比基于Ｍａｒｋｏｖ链的模型能多破解出４０％～５０％的口令，比基于ＰＣＦＧ的模型能多破解出２０％左右的口令．

关键词　口令攻击；概率上下文无关文法；ＯＭＥＮ算法；马尔可夫链；口令结构；字符串重组；常用字符集中图法分类号ＴＰ３０９　　　犇犗犐号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１９．００９１３

犃犕犲狋犺狅犱狅犳犘犪狊狊狑狅狉犱犃狋狋犪犮犽犅犪狊犲犱狅狀犛狋狉狌犮狋狌狉犲犘犪狉狋犻狋犻狅狀犪狀犱犛狋狉犻狀犵犚犲狅狉犵犪狀犻狕犪狋犻狅狀

ＺＨＡＮＧＭｅｎｇＬｉ１）　ＺＨＡＮＧＱｉＨｕｉ１）　ＬＩＵＷｅｎＦｅｎ２）　ＨＵＸｕｅＸｉａｎ１）　ＷＥＩＪｉａｎｇＨｏｎｇ１）１）（犘犔犃犛狋狉犪狋犲犵犻犮犛狌狆狆狅狉狋犉狅狉犮犲犐狀犳狅狉犿犪狋犻狅狀犈狀犵犻狀犲犲狉犻狀犵犝狀犻狏犲狉狊犻狋狔，犣犺犲狀犵狕犺狅狌　４５００００）

２）（犇犲狆犪狉狋犿犲狀狋狅犳犆狅犿狆狌狋犲狉犛犮犻犲狀犮犲犪狀犱犐狀犳狅狉犿犪狋犻狅狀犛犲犮狌狉犻狋狔，犌狌犻犾犻狀犝狀犻狏犲狉狊犻狋狔狅犳犈犾犲犮狋狉狅狀犻犮犜犲犮犺狀狅犾狅犵狔，犌狌犻犾犻狀，犌狌犪狀犵狓犻　５４１０００）

犃犫狊狋狉犪犮狋　Ｉｄｅｎｔｉｔｙａｕｔｈｅｎｔｉｃａｔｉｏｎｉｓａｋｅｙｌｉｎｅｏｆｄｅｆｅｎｓｅｆｏｒｎｅｔｗｏｒｋｓｅｃｕｒｉｔｙ，ａｎｄｉｔｉｓａｌｓｏｔｈｅｌａｓｔｌｉｎｅｏｆｄｅｆｅｎｓｅｔｏｐｒｏｔｅｃｔｕｓｅｒ’ｓｐｒｉｖａｃｙ．Ｐａｓｓｗｏｒｄｓａｒｅｔｈｅｍａｉｎｓｔｒｅａｍｏｆｉｄｅｎｔｉｔｙａｕｔｈｅｎｔｉｃａｔｉｏｎ．Ｄｅｓｐｉｔｅｔｈｅｒｅａｒｅａｇｒｅａｔｍａｓｓｏｆｉｓｓｕｅｓｉｎｐａｓｓｗｏｒｄｓｒｅｇａｒｄｉｎｇｓｅｃｕｒｉｔｙａｎｄｕｓａｂｉｌｉｔｙ，ａｎｄａｌａｒｇｅｎｕｍｂｅｒｏｆｎｅｗａｕｔｈｅｎｔｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｉｅｓｈａｖｅａｌｓｏｂｅｅｎｐｒｏｐｏｓｅｄｉｎｓｕｃｃｅｓｓｉｏｎ，ｐａｓｓｗｏｒｄｂａｓｅｄａｕｔｈｅｎｔｉｃａｔｉｏｎｍｅｔｈｏｄｗｉｌｌｓｔｉｌｌｂｅｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔａｕｔｈｅｎｔｉｃａｔｉｏｎｍｅｔｈｏｄｆｏｒａｌｏｎｇｔｉｍｅｄｕｅｔｏｉｔｓｓｉｍｐｌｉｃｉｔｙ，ｌｏｗｃｏｓｔ，ａｎｄｅａｓｉｎｅｓｓｔｏｄｅｐｌｏｙ．Ｔｈｅｒｅｆｏｒｅ，ｐａｓｓｗｏｒｄｓｈａｖｅａｔｔｒａｃｔｅｄｗｉｄｅｓｐｒｅａｄａｔｔｅｎｔｉｏｎｆｒｏｍｓｃｈｏｌａｒｓａｒｏｕｎｄｔｈｅｗｏｒｌｄｉｎｒｅｃｅｎｔｙｅａｒｓ，ａｎｄａｌａｒｇｅｎｕｍｂｅｒｏｆｓｉｇｎｉｆｉｃａｎｔｒｅｓｅａｒｃｈｅｓｈａｖｅｅｍｅｒｇｅｄ．Ｗｉｔｈｔｈｅｐｏｐｕｌａｒｉｔｙｏｆｐａｓｓｗｏｒｄａｕｔｈｅｎｔｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ，ｐａｓｓｗｏｒｄｓａｒｅｕｓｅｄｍｏｒｅａｎｄｍｏｒｅｆｒｅｑｕｅｎｔｌｙｉｎｐｅｏｐｌｅ’ｓｄａｉｌｙｌｉｖｅｓ，ａｎｄｐａｓｓｗｏｒｄｓｈａｖｅｂｅｅｎｃｌｏｓｅｌｙｒｅｌａｔｅｄｔｏｐｅｒｓｏｎａｌｉｎｆｏｒｍａｔｉｏｎａｎｄｐｒｏｐｅｒｔｙｓｅｃｕｒｉｔｙ．Ｔｈｅｒｅｆｏｒｅ，ｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙｒｅｓｅａｒｃｈｈａｓｉｍｐｏｒｔａｎｔｐｒａｃｔｉｃａｌｓｉｇｎｉｆｉｃａｎｃｅ．Ｐａｓｓｗｏｒｄａｔｔａｃｋｉｓａｎｉｍｐｏｒｔａｎｔｍｅａｎｓｏｆｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙｒｅｓｅａｒｃｈ．Ｐｒｏｂａｂｉｌｉｓｔｉｃ

《计

算机

学报

》

ｃｏｎｔｅｘｔｆｒｅｅｇｒａｍｍａｒ（ＰＣＦＧ）ａｎｄＭａｒｋｏｖｃｈａｉｎｂａｓｅｄｍｏｄｅｌｓａｒｅｔｈｅｍｏｓｔｅｆｆｅｃｔｉｖｅｍｅｔｈｏｄｓｏｆｐａｓｓｗｏｒｄａｔｔａｃｋａｍｏｎｇｎｕｍｅｒｏｕｓａｌｇｏｒｉｔｈｍｓａｔｐｒｅｓｅｎｔ．Ｔｈｅｙｅｆｆｅｃｔｉｖｅｌｙｃｈａｒａｃｔｅｒｉｚｅｔｈｅｐａｓｓｗｏｒｄｓｆｒｏｍｔｈｅｓｕｂｓｔｒｕｃｔｕｒｅｌｅｖｅｌａｎｄｔｈｅｃｈａｒａｃｔｅｒｄｅｐｅｎｄｅｎｔｌｅｖｅｌｒｅｓｐｅｃｔｉｖｅｌｙ．ＴｈｅＰＣＦＧａｌｇｏｒｉｔｈｍｓｙｓｔｅｍａｔｉｃａｌｌｙｓｔｕｄｉｅｓｔｈｅｓｔｒｕｃｔｕｒｅｏｆｐａｓｓｗｏｒｄｓａｎｄｃａｎｅｆｆｅｃｔｉｖｅｌｙａｂｓｔｒａｃｔｔｈｅｓｔｒｕｃｔｕｒａｌｆｅａｔｕｒｅｓｏｆｐａｓｓｗｏｒｄｓ．ＴｈｅＭａｒｋｏｖｃｈａｉｎｂａｓｅｄａｌｇｏｒｉｔｈｍｐｒｏｆｏｕｎｄｌｙｅｘｐｌｏｒｅｓｔｈｅｃｏｍｐｏｓｉｔｉｏｎｏｆｃｈａｒａｃｔｅｒｓ，ａｎｄｃａｎｄｉｇｏｕｔｔｈｅｕｓｅｒ’ｓｃｈａｒａｃｔｅｒｕｓａｇｅｈａｂｉｔｓｗｈｅｎｃｏｎｓｔｒｕｃｔｉｎｇｐａｓｓｗｏｒｄｓ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｃｏｌｌｅｃｔ３Ｃｈｉｎｅｓｅｄａｔａｓｅｔｓａｎｄ３Ｅｎｇｌｉｓｈｄａｔａｓｅｔｓ：Ｄｏｄｏｎｅｗ，ＣＳＤＮ，ＪｉｎｇＤｏｎｇ，Ｙａｈｏｏ，ＰｈｐＢＢ，ＲｏｃｋＹｏｕ．Ｗｅｆｕｒｔｈｅｒｓｔｕｄｙｔｈｅｓｔｒｕｃｔｕｒｅａｎｄｃｈａｒａｃｔｅｒｃｏｍｐｏｓｉｔｉｏｎｏｆｐａｓｓｗｏｒｄｓａｎｄｆｉｎｄｔｈａｔｓｏｍｅｓｔｒｉｎｇｉｎｔｈｅｄａｔａｓｅｔｗｉｌｌａｐｐｅａｒｆｒｅｑｕｅｎｔｌｙ，ａｎｄｓｐｅｃｉａｌｃｈａｒａｃｔｅｒｓａｌｗａｙｓａｐｐｅａｒｉｎｓｐｅｃｉｆｉｃｌｏｃａｔｉｏｎｓｏｆｔｈｅｐａｓｓｗｏｒｄ．Ｔｈｕｓ，ｂａｓｅｄｏｎｔｈｅｍｅｒｉｔｓｏｆｔｈｅＰＣＦＧａｎｄＭａｒｋｏｖｃｈａｉｎｂａｓｅｄｍｏｄｅｌｓ，ｗｅｐｒｏｐｏｓｅａｐａｓｓｗｏｒｄａｔｔａｃｋｍｅｔｈｏｄｂａｓｅｄｏｎｓｔｒｕｃｔｕｒｅｐａｒｔｉｔｉｏｎａｎｄｓｔｒｉｎｇｒｅｏｒｇａｎｉｚａｔｉｏｎ，ｗｈｉｃｈｉｓｄｅｎｏｔｅｄａｓＳＰＳＲｍｏｄｅｌ．Ｆｉｒｓｔｌｙ，ｔｈｅｐａｓｓｗｏｒｄｓａｒｅｄｉｖｉｄｅｄｉｎｔｏａｂｓｔｒａｃｔｓｕｂｓｔｒｕｃｔｕｒｅｓ，ａｎｄｔｈｅｎｓｕｂｓｔｒｉｎｇｓｏｆｃｈａｒａｃｔｅｒｓ，ｎｕｍｂｅｒｓａｎｄｓｙｍｂｏｌｓｉｎｓｕｂｓｔｒｕｃｔｕｒｅｓａｒｅｇｅｎｅｒａｔｅｄｂｙｕｓｉｎｇａｎｉｍｐｒｏｖｅｄＭａｒｋｏｖｃｈａｉｎｍｏｄｅｌｔｏｔａｋｅａｃｃｏｕｎｔｏｆｔｈｅａｃｃｕｒａｃｙａｎｄｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙｏｆｔｈｅｍｏｄｅｌ．Ｉｎａｄｄｉｔｉｏｎ，ｗｅａｌｓｏｉｎｔｒｏｄｕｃｅｃｏｍｍｏｎｃｈａｒａｃｔｅｒｓｅｇｍｅｎｔｉｎｔｈｅｓｔｒｕｃｔｕｒｅｄｉｖｉｓｉｏｎｓｔａｇｅ，ａｎｄａｄｄｔｈｅｉｎｄｅｘｂｉｔｔｏｅｘｐｌｉｃｉｔｌｙｄｅｐｉｃｔｔｈｅｐｏｓｉｔｉｏｎｏｆｔｈｅｓｐｅｃｉａｌｃｈａｒａｃｔｅｒｓｉｎｔｈｅｐａｓｓｗｏｒｄｓ．Ｄｕｒｉｎｇｔｈｅｓｔｒｉｎｇｒｅｏｒｇａｎｉｚａｔｉｏｎｐｈａｓｅ，ｗｅｒｅｄｕｃｅｒｅｐｅａｔｅｄｃａｌｃｕｌａｔｉｏｎｉｎｔｈｅｇｅｎｅｒａｔｉｏｎｏｆｓｕｂｓｔｒｉｎｇ’ｓｐｒｏｂａｂｉｌｉｔｙ，ｖｉａｐｒｏｐｏｓｉｎｇａｎｉｍｐｒｏｖｅｄＯＭＥＮａｌｇｏｒｉｔｈｍｃａｌｌｅｄＲｅｃｕｒｓｉｖｅＯＭＥＮ．ＴｈｅＳＰＳＲｍｏｄｅｌｆｕｌｌｙｅｘｐｌｏｉｔｓｔｈｅｐａｓｓｗｏｒｄｓｔｒｕｃｔｕｒｅｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｃｈａｒａｃｔｅｒｃｏｍｐｏｓｉｔｉｏｎ，ａｎｄｅｘｐｌｏｒｅｓｔｈｅｄｅｅｐｅｒｕｓｅｒｈａｂｉｔｏｆｃｏｎｓｔｒｕｃｔｉｎｇｐａｓｓｗｏｒｄｓ．Ｉｔｉｓａｓｙｓｔｅｍａｔｉｃａｎｄｃｏｍｐｒｅｈｅｎｓｉｖｅｔｒａｗｌｉｎｇｐａｓｓｗｏｒｄａｔｔａｃｋｉｎｇｍｏｄｅｌ．Ｆｉｎａｌｌｙ，ｔｈｅｍｅｔｈｏｄｉｓｖｅｒｉｆｉｅｄｂｙｅｘｐｅｒｉｍｅｎｔｏｎｓｉｘｒｅａｌＣｈｉｎｅｓｅａｎｄＥｎｇｌｉｓｈｐａｓｓｗｏｒｄｄａｔａｓｅｔｓ．ＴｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔＲｅｃｕｒｓｉｖｅＯＭＥＮｉｓａｂｏｕｔ１０ｔｉｍｅｓｆａｓｔｅｒｔｈａｎＯＭＥＮｗｈｅｎｇｅｎｅｒａｔｉｎｇｔｈｅｓａｍｅｎｕｍｂｅｒｏｆｓｔｒｉｎｇｓ．Ｏｎｔｈｅｃｏｎｔｅｘｔｏｆｆｉｘｅｄｎｕｍｂｅｒｏｆｇｕｅｓｓｔｒｉａｌｓ，ｔｈｅＳＰＳＲｍｏｄｅｌｂｒｅａｋｓ４０％－５０％ｏｆｔｈｅｐａｓｓｗｏｒｄｍｏｒｅｔｈａｎＮａｒａｙａｎａｎ’ｓｍｅｔｈｏｄ，ａｂｏｕｔ２０％ｔｈａｎＷｅｉｒｅｔａｌ．’ｓｍｅｔｈｏｄｐａｓｓｗｏｒｄｂｅｔｗｅｅｎｔｈｅｃｒｏｓｓｄａｔａｓｅｔｓ．

犓犲狔狑狅狉犱狊　ｐａｓｓｗｏｒｄａｔｔａｃｋ；ｐｒｏｂａｂｉｌｉｓｔｉｃｃｏｎｔｅｘｔｆｒｅｅｇｒａｍｍａｒ；ＯＭＥＮａｌｇｏｒｉｔｈｍ；Ｍａｒｋｏｖｃｈａｉｎ；ｐａｓｓｗｏｒｄｓｔｒｕｃｔｕｒｅ；ｓｔｒｉｎｇｒｅｏｒｇａｎｉｚａｔｉｏｎ；ｃｏｍｍｏｎｃｈａｒａｃｔｅｒ

１　引　言口令以其简单、灵活、易用等特点，已经成为身

份认证领域应用最广泛的技术之一［１］．虽然电子商务、网上银行等服务不断提出图形认证［２］、生物认证［３］、多因子认证［４］等认证技术，且这些替代型认证技术在某些方面比口令更安全或者可用性更强，但是研究表明口令简单、易部署的特性是无法被替代的［５］．因此，在未来很长一段时间内，口令都将作为最主要的身份认证技术而存在［６８］．随着口令认证技术的普及，口令在人们的日常生活中使用越来越频繁，口令已经与个人信息和财产安全息息相关［９］．因此，针对各类口令攻击的口令安全研究具有重要的现实意义．

早期的口令攻击，多根据攻击者的经验以及

一定的变形规则来穷举可能的候选口令，不仅攻击命中率低，而且非常耗费计算资源［１０１１］．２００５年，Ｎａｒａｙａｎａｎ和Ｓｈｍａｔｉｋｏｖ［１２］首次将Ｍａｒｋｏｖ链技术从自然语言处理迁移到口令攻击中来，提出了基于狀ｇｒａｍ的Ｍａｒｋｏｖ口令攻击模型，并证明Ｍａｒｋｏｖ模型在口令攻击中的表现大大优于Ｏｅｃｈｓｌｉｎ的彩虹表攻击［１０］．虽然他们提出的攻击方法还存在一定的局限性（口令仅限某个概率阈值之上的，以及仅适用一阶和二阶Ｍａｒｋｏｖ链），但首次摆脱了启发式的思想，建立了口令概率模型，为后来的研究提供了新的思路．２００９年Ｗｅｉｒ等人［１３］提出了基于结构的口令攻击模型———概率上下文无关文法（ＰｒｏｂａｂｉｌｉｓｔｉｃＣｏｎｔｅｘｔＦｒｅｅＧｒａｍｍａｒ，ＰＣＦＧ）．基于ＰＣＦＧ的模型从训练集中学习口令的结构分布，并以概率的形式来刻画这种分布规律，最终生成的猜测字典中口令的概率之和为１．虽然这种方法在训练集过大时会存

４１９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

在过拟合现象，但是，它能很好的刻画口令的结构规律，在小猜测次数下的攻击效率优于Ｍａｒｋｏｖ模型．

随后，研究者们针对基于Ｍａｒｋｏｖ链和基于ＰＣＦＧ的口令攻击模型，分别提出了一系列相应的改进方案．２０１４年，Ｍａ等人［１４］利用平滑和正规化等自然语言处理技术提高了Ｍａｒｋｏｖ模型的性能，并得出猜测次数较大时Ｍａｒｋｏｖ模型比Ｗｅｉｒ等人提出的ＰＣＦＧ模型［１３］更适合估计口令概率的结论．２０１５年Ｄüｒｍｕｔｈ等人［１５］提出了ＯｒｄｅｒｅｄＭａｒｋｏｖＥｎｕｍｅｒａｔｏｒ（ＯＭＥＮ）算法，按概率递减的顺序枚举口令，而不是仅枚举超过一定阈值概率的口令，很大程度的提高了破解性能．２０１５年，Ｓｈｉｖａ等人［１６］在ＰＣＦＧ算法的基础上，进一步在口令结构中加入了键盘词模式，将用户常用的依据键位顺序输入的字符串（例如，“ｑｗｅｒｔｙｕｉ”）定义为键盘词Ｋ，他们的算法比原始的基于ＰＣＦＧ的模型攻击效率提高了２０％左右．２０１６年，Ｗａｎｇ等人［１７］将用户的私人信息（例如，邮箱、姓名、生日、账号等）经过规范化处理后加入到ＰＣＦＧ算法中作为新的结构模式，在相同的猜测次数下攻击效率比原始的基于ＰＣＦＧ的模型提高了１４０％左右．

这些口令攻击算法，分别从字符和结构两个层面对现实中口令分布不均匀的事实予以了利用，从不同侧面构造了尽可能接近真实口令概率的口令候选集合，在攻击时按照概率“降序”逐个进行尝试，提高了口令攻击的成功率．并且，基于Ｍａｒｋｏｖ链和基于ＰＣＦＧ的口令攻击算法各自有着不同的优势：基于Ｍａｒｋｏｖ链的模型能够通过调节阶数调整泛化能力，基于ＰＣＦＧ的模型能够准确的抽象可能的基础口令结构．２０１６年，Ｗａｎｇ等人［１８］首次在大规模数据集上证实了口令分布服从Ｚｉｐｆ定律，并发现ＰＣＦＧ模型和基于Ｍａｒｋｏｖ的模型都遵循这一定律［１９］，为基于概率的口令攻击模型的有效性提供了统一的解释．

本文基于“口令服从Ｚｉｐｆ分布”［１８１９］这一事实，在综合ＰＣＦＧ和Ｍａｒｋｏｖ两类模型优点的基础上，提出了一种基于结构划分及字符串重组的口令攻击方法，记为ＳＰＳＲ模型：利用ＰＣＦＧ算法对口令的基础结构进行抽象分成不同的段结构，同时利用Ｍａｒｋｏｖ模型对各个段结构内的字符串进行建模，生成新的字符串，达到同时兼顾模型的准确性和泛化能力的效果．其中，在利用ＰＣＦＧ算法对口令结构进行划分时，我们通过对口令中常用字符串进行统

计，在口令基本结构中定义了常用字符段模式，并对特殊字符在口令中的位置进行了区分．此外，我们对ＯＭＥＮ算法进行了改进，提出了一个新的基于Ｍａｒｋｏｖ链的字符串生成模型———ＲｅｃｕｒｓｉｖｅＯＭＥＮ．实验表明，本文的方法在满足Ｚｉｐｆ分布的真实口令数据集上的攻击效果优于单一的ＰＣＦＧ和Ｍａｒｋｏｖ算法．

本文第２节讨论口令攻击研究中的相关进展和关键技术；第３节对６个中英文口令集中的口令分布和结构进行统计分析；第４节构建ＰＣＦＧ和Ｍａｒｋｏｖ的混合口令攻击模型———ＳＰＳＲ，并对ＯＭＥＮ算法进行改进，提出ＲｅｃｕｒｓｉｖｅＯＭＥＮ字符串生成模型；第５节给出实验结果，并将我们的模型与其它模型进行横向比较；第６节对本文工作进行总结和展望，提出了几点潜在的优化方案．

２　背景和相关工作口令安全性的分析评价可以采用攻击算法进行

实际攻击，然后根据攻击结果来衡量，而当前广泛采用的衡量指标是成功攻击口令所需要的猜测次数．目前口令攻击算法主要基于暴力破解技术和字典攻击技术［１］．２１　暴力破解

暴力破解，即利用穷举的方法尝试所有可能的字符组合，直到和真正的口令匹配．显而易见，口令的长度和字符种类的复杂性对暴力破解方法的性能有着决定性影响．即使任何口令理论上都能被暴力破解，但因为时间性能开销随着口令长度和口令空间的增大而呈指数级增长．这就造成暴力破解耗时长，效率低，只能适用于规模较小的口令集［１０１１］．２２　字典攻击

字典攻击是对暴力破解的一种改进．其思想是根据特定的字典文件［２０］，与真实口令进行匹配．字典文件包含了可能出现在用户口令中的一些单词，这些单词可以来源于对己泄漏真实口令集的分析，或者来源于特定的字符集．根据对用户创建口令的习惯和口令组成结构的分析，构建猜测字典集合．早期的字典攻击采用的基本是依靠奇思妙想的启发式方法，没有严密的理论体系做基础［１］．比如，构造独特字典［２０］或特殊猜测顺序［２１］实施字典攻击．这些启发式算法不仅效率低（攻破率在３０％以下，猜测字典大小为２１２～２２０），而且难以重现和相互比较［２２］．

近年来，口令攻击算法逐渐摆脱了启发式的方

５１９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

法，进入了依赖可靠的数学概率模型的科学化阶段［１］．其中，基于Ｍａｒｋｏｖ链和ＰＣＦＧ的算法是当前主流的２个字典攻击算法，也是后来很多改进算法的基础．２．２．１　Ｍａｒｋｏｖ链

２００５年，Ｎａｒａｙａｎａｎ和Ｓｈｍａｔｉｋｏｖ［１２］首次提出了一种基于Ｍａｒｋｏｖ模型的口令猜测方法，将口令字符串模型化为Ｍａｒｋｏｖ链，通过训练集训练得到转移概率后，依据口令字符串的概率有针对性地生成猜测字典，实现了口令的有效破解．至此，口令攻击算法由启发式阶段进入了依赖严密的数学概率模型的科学化阶段．

基于Ｍａｒｋｏｖ链的口令攻击模型的基本假设是：人类在构造口令时，相邻字符的选择不是独立的，而是遵循一定的规则（比如字符串ｐａｓｓｗｏｒ后面跟犱的可能比ｆ的可能更大）．在狀阶Ｍａｒｋｏｖ链模型中，下一个字符出现的概率是基于它前面狀－１长的字符串．因此，对于给定字符串犮１，…，犮犿，狀元Ｍａｒｋｏｖ模型按照如下方式计算其概率：

犘（犮１，…，犮犿）＝犘（犮１，…，犮狀）·∏犿－１

犻＝狀犘（犮犻＋１｜犮犻－狀＋１，…，犮犻）

（１）其中，初始概率犘（犮１，…，犮狀）和转移概率犘（犮犻＋１｜犮犻－狀＋１，…，犮犻）是在训练阶段统计得到，以一阶Ｍａｒｋｏｖ链模型为例：犘（犮１，…，犮犿）＝犘（犮１）犘（犮２｜犮１）犘（犮３｜犮２）…犘（犮犿｜犮犿－１），并且

犘（犮犻｜犮犻－１）＝犮狅狌狀狋（犮犻－１犮犻）犮狅狌狀狋（犮犻－１·）（２）其中，犮狅狌狀狋（犮犻－１·）是训练集中字符犮犻－１后面接任意字符的个数，犮狅狌狀狋（犮犻－１·）＝∑犮犻∈Σ犮狅狌狀狋（犮犻－１犮犻）．当Ｍａｒｋｏｖ链口令模型的阶数狀＞１时，训练之前，在每个口令前面插入狀个起始字符犮０．在猜测集生成阶段，迭代式（１）得到各个口令字符串的概率，按概率递减顺序排序生成猜测字典．２０１５年，Ｄüｒｍｕｔｈ等人［１５］提出了一个新的基

于Ｍａｒｋｏｖ模型的口令攻击算法———ＯＭＥＮ．该算法能够按概率递减顺序枚举候选口令，提高了字典攻击的效率．ＯＭＥＮ算法通过对训练集中的概率使用公式：犾犲狏犲犾犻＝狉狅狌狀犱（ｌｏｇ（犮１·狆狉狅犫犻＋犮２））和精心调整的参数犮１，犮２，将Ｍａｒｋｏｖ链中的概率离散化为固定范围内的整数，使得生成口令的概率可以表示为初始概率段和转移概率段（离散化后）之和η，

η＝犾犲狏犲犾０＋犾犲狏犲犾１＋…＋犾犲狏犲犾狀，对应的向量为犪＝（犪０，…，犪狀）．其中，犪犻是口令中字符串的概率离散化后的值．然后，通过改变犾犲狏犲犾犻的大小来控制η值，从而按概率递减顺序生成候选口令．ＯＭＥＮ算法步骤如算法１所示．

算法１．　ＯＭＥＮ算法．输入：训练口令集（犜狉犪犻狀犛犲狋），Ｍａｒｋｏｖ链阶数为狀，口

令长度：３２０输出：猜测口令集犘犪狊狊狑狅狉犱犛犲狋１．犱犲犳犲狀狌犿犘狑犱（η，）：２．ＦＯＲｅａｃｈ狏犲犮狋狅狉（犪犻）２犻ｗｉｔｈ∑犻犪犻＝η３．ｆｏｒｅａｃｈ狓１…狓２∈Σ狀ｗｉｔｈ犔（狓１…狓狀）＝犪２４．ｆｏｒｅａｃｈ狓狀＋１∈Σｗｉｔｈ犔（狓狀＋１｜狓１…狓狀）＝犪３５．如此反复迭代，直到达到指定长度为止．６．ＲＥＴＵＲＮ（狊狆，犾犲狏犲犾，犾犲狀犵狋犺，狓１狓２…狓）７．ＦＯＲＩＮ狉犪狀犵犲（３，２０）：８．运行犲狀狌犿犘狑犱（０，）９．返回（狊狆，犾犲狏犲犾，犾犲狀犵狋犺，狆犪狊狊狑狅狉犱）１０．犙．狆狌狊犺（狊狆，犾犲狏犲犾，犾犲狀犵狋犺，狆犪狊狊狑狅狉犱），犙是按概率

递减顺序排序的优先队列１１．ＥＮＤＦＯＲ１２．犐犽＝犙．狆狅狆（）犐犽＝（狊狆犽，犾犲狏犲犾犽，犾犲狀犵狋犺犽，狆犪狊狊狑狅狉犱犽）１３．将犐犽对应的口令狆犪狊狊狑狅狉犱犽添加到犘犪狊狊狑狅狉犱犛犲狋中１４．犘犪狊狊狑狅狉犱犛犲狋．犪狆狆犲狀犱（狆犪狊狊狑狅狉犱犽）１５．运行犲狀狌犿犘狑犱（犾犲狏犲犾犽－１，犾犲狀犵狋犺犽）１６．犙．狆狌狊犺（狊狆，犾犲狏犲犾犽－１，犾犲狀犵狋犺犽）１７．依次迭代，直到犙为空或者犘犪狊狊狑狅狉犱犛犲狋足够大为止ＯＭＥＮ算法生成候选口令的示例如图１所示：

考虑长为３的口令，字母表由Σ＝｛犪，犫｝组成，Ｍａｒｋｏｖ链的阶数为２．

图１　ＯＭＥＮ生成猜测口令

ＯＭＥＮ算法通过迭代搜索每个η值对应的向量犪来生成候选口令，解决了Ｍａｒｋｏｖ模型的概率

６１９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

排序问题．但是，随着组成口令的向量中元素个数的增加（犾犲狏犲犾个数的增加，也就是口令长度的增加），搜索的次数也会指数倍增长．另外，我们发现在对多个犾犲狏犲犾组成的口令进行搜索时，实际上对较小的犾犲狏犲犾的组合进行了重复的搜索，因此我们考虑将多个犾犲狏犲犾拆分成几组进行迭代，利用已经搜索完成的短字符串来生成长字符串，减少重复迭代的步数，从而提高生成候选口令的速率．具体方案将在４．３节中详细阐述．２．２．２　概率上下文无关文法

２００９年，Ｗｅｉｒ等人［１３］提出了基于口令结构的概率上下文无关文法（ＰＣＦＧ），利用概率模型对口令结构进行建模，从大规模的训练集合中去探寻口令的结构规律，提高了口令攻击的效率．

概率上下文无关文法在训练阶段按字符类型将口令切分成字母段（Ｌ），数字段（Ｄ），特殊字符段（Ｓ），并假设不同类型的段之间是彼此独立的．比如，在训练阶段“ｚｈａｎｇ１２３＃”将被划分为犔５犇３犛１，犔５犇３犛１被定义为口令的基本结构，并将相同类型相同长度的字符串整合到一起，如犔５：Ｚｈａｎｇ，犇３：１２３，犛１：＃．在口令生成阶段，通过搜索字符串集合来匹配基本结构，从而生成候选口令，将候选口令按概率递减顺序排序得到猜测字典．如口令“ｚｈａｎｇ１２３＃”的概率为犘（ｚｈａｎｇ１２３＃）＝犘（犔５犇３犛１）·犘（犔５→ｚｈａｎｇ）·

犘（犇３→１２３）·犘（犛１→＃），概率上下文无关文法生成猜测字典的步骤如图２所示．

概率上下文无关文法定义了口令的结构模型，将训练集合中的口令按基本结构进行划分从而学习口令的结构特征，相比于ＪｔＲ（一个流行的口令破解工具）Ｗｅｉｒ等人的模型在相同的猜测次数下能多破解出２８％～１２９％的口令［１３］．

基于Ｍａｒｋｏｖ链的模型和基于概率上下文无关文法（ＰＣＦＧ）的模型是目前最为流行的口令安全分析模型［２３］，文献［１２，１４，１５］和文献［１６，２４，２５］分别基于Ｍａｒｋｏｖ链和ＰＣＦＧ提出了相应的口令攻击模型并达到了同时期的最好攻击水平．然而，基于Ｍａｒｋｏｖ链的模型虽然能够通过调整阶数提高泛化能力，但是在估计口令概率方面存在偏差［１４］；基于ＰＣＦＧ的模型虽然能够准确的抽象可能的基础口令结构，但是泛化能力偏弱．是否能够在一种攻击算法中同时融合上述两种模型的优点，尚未见到公开研究成果．

图２　概率上下文无关文法生成猜测字典

３　口令分布和结构分析３１　数据集

我们从公开网站收集到了以下３个英文数据集：ＲｏｃｋＹｏｕ数据集是２００９年从ＲｏｃｋＹｏｕ网站泄露的，有超过３２００万的口令；ＰｈｐＢＢ数据集是２００９年从Ｐｈｐｂｂ．ｃｏｍ网站泄露的，有３０万左右的口令；Ｙａｈｏｏ数据集是２０１２年被黑客组织Ｄ３３ＤＳ泄露出来的，有５０万左右的口令．另外，国内研究人员也整理了一些中文数据集用于研究，本文中我们使用其中的３个：６００万ＣＳＤＮ数据集、１６００万Ｄｏｄｏｎｅｗ数据集、３９万ＪｉｎｇＤｏｎｇ数据集．３２　数据集统计分析

表１统计了字符的分布．在所有口令集中，字母和数字占了９７％以上，因此，口令基本结构中的Ｌ段和Ｄ段隐藏了更多用户构造口令的习惯．有一个有趣的现象是：在英文口令集中，数字占了２７％，而字母占了６９％；在中文口令集中字母占了３０％，数

７１９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

字占了６８％．出现这一现象的原因可能是数字对于中文用户来说更容易记忆，而英文字母并不是中文用户的母语．并且，一些特殊的数字串对于中文用户来说有特定的意义，例如“５２０１３１４”代表“我爱你一生一世”，“８８８８８”代表“发发发发发”．这也为我们对常用字符段的统计提供了思路．

表２统计了口令基本结构的分布．所有口令集中，仅由数字和字母组成的口令占了５２％，由一个字母段和一个数字段组成的口令（ＬＤ和ＤＬ）占了３８％．由此可知，用户倾向于使用不超过２种字符（如Ｌ和Ｄ）来构造口令，且在安全策略允许的情形下，更倾向于用一种字符构造口令．

表１　口令中字符分布ＡｌｌＡｌｌ／％ＲｏｃｋＹｏｕＰｈｐＢＢＹａｈｏｏＡｌｌ／％ＣＳＤＮＤｏｄｏｎｅｗＪｉｎｇＤｏｎｇＤ２７．３１２７．３８２３．１５２４．５６６５．８４６７．４０６５．０１７０．７１Ｌ６９．３６６９．２４７５．２７７４．０８３２．５７３０．４３３３．６２２８．８５Ｓ０．６９０．６９０．３１０．４９０．４１０．６３０．３２０．３３

表２　口令基本结构的分布ＡｌｌＡｌｌ／％ＲｏｃｋＹｏｕＰｈｐＢＢＹａｈｏｏＡｌｌ／％ＣＳＤＮＤｏｄｏｎｅｗＪｉｎｇＤｏｎｇＬ４４．２５４４．３１５３．１２３４．６４１５．０３１２．３５１１．０３９．８４Ｄ１５．７７１５．９３１２．０６５．８９４３．７０４５．０２３０．７７５０．４２ＬＤ３０．０４２９．９６２０．７１４１．４９２８．９８２７．８９４４．８３２８．４７ＬＤＬ１．８６１．８１４．６５４．１３１．６４１．８６１．５４１．７７ＤＬ２．７５２．７１２．２９２．３０５．６２６．３１７．７６６．０２ＬＤＬＤ０．４７０．４６１．２９１．２３０．４００．５００．２９０．４３ＬＤＬＤＬ０．１８０．１６１．０４０．８７０．１７０．１８０．１３０．１６ＤＬＤ０．４６０．４４０．８７１．０２０．４４０．５３０．３９０．５７ＤＬＤＬ０．１２０．１１０．５７０．４５０．１３０．１４０．１１０．１５ＬＳＤ０．５５０．５６０．２１０．４９０．４２０．７００．３６０．２７

３３　常用字符段的引入本文在Ｗｅｉｒ等人［１３］的基础上，对口令基本结

构进行了进一步扩充，加入了常用字符段（Ｕ）．首先，对口令集合中排名前２０的口令进行了统计，如表３所示，发现用户对某些口令有特殊偏好，比如“１２３４５”，“５２０１３１４”，“ａ１２３４５６”等口令几乎都在前２０的位置，而且不同网站的口令集合中排名前

２０的口令存在交叉．进一步，通过对口令中部分字符串进行统计，发现那些排名前２０的口令频繁出现在了更长的口令中，比如“ｚｈａｎｇ５２０１３１４”．因此，对排名前２０的口令进行了二次划分：将不同口令中频繁出现的数字段、字母段，相同口令中重复出现的字符串，符合键盘词模式的字符串提取出来．得到一个常用字符段集合，如表４所示．

表３　排名前２０的口令分布ＲｏｃｋＹｏｕＰｈｐＢＢＹａｈｏｏＣＳＤＮＤｏｄｏｎｅｗＪｉｎｇＤｏｎｇ

１１２３４５６１２３４５６１２３４５６１２３４５６７８９１２３４５６５２０１３１４２１２３４５ｐａｓｓｗｏｒｄｐａｓｓｗｏｒｄ１２３４５６７８ａ１２３４５６７７５８５２１３１２３４５６７８９Ｐｈｐｂｂｗｅｌｃｏｍｅ１１１１１１１１１２３４５６７８９１２３３２１４ｐａｓｓｗｏｒｄｑｗｅｒｔｙｎｉｎｊａｄｅａｒｗｏｒｋ１１１１１１１００２００５ｉｌｏｖｅｙｏｕ１２３４５ａｂｃ１２３００００００００５２０１３１４１３１４５２０６ｐｒｉｎｃｅｓｓ１２３４５６７８１２３４５６７８９１２３１２３１２３１２３１２３ａ１２３４５６７１２３４５６７ｌｅｔｍｅｉｎ１２３４５６７８１２３４５６７８９０ａ３２１６５４１ｑａｚ２ｗｓｘ８ｒｏｃｋｙｏｕ１１１１１１ｓｕｎｓｈｉｎｅ８８８８８８８８１２３４５５２１１３１４９１２３４５６７８１２３４ｐｒｉｎｃｅｓｓ１１１１１１１１１００００００ｗｏａｉｎｉ１０ａｂｃ１２３１２３４５６７８９ｑｗｅｒｔｙ１４７２５８３６９１２３４５６ａ８８８８８８１１ｎｉｃｏｌｅａｂｃ１２３ｗｒｉｔｅｒ９８７６５４３２１０３１４１５９２６１２ｄａｎｉｅｌｔｅｓｔｍｏｎｋｅｙａａａａａａａａ１２３１１０１１０１３ｂａｂｙｇｉｒｌ１２３１２３ｆｒｅｅｄｏｍ１１１１１１１１１１１２３４５６７８１２３６５４１４ｍｏｎｋｅｙ１２３ｍｉｃｈａｅｌ６６６６６６６６Ａａａａａａ５２０５２０１５ｌｏｖｅｌｙｍｏｎｋｅｙ１１１１１１ａ１２３４５６７８９１３１４５２０１２３４５６１６ｊｅｓｓｉｃａｄｒａｇｏｎｉｌｏｖｅｙｏｕ１１２２３３４４ｑ１２３４５６１ｑ２ｗ３ｅ４ｒ１７ｍｉｃｈａｅｌＴｒｕｓｔｎｏｌＰａｓｓｗｏｒｄ１１ｑａｚ２ｗｓｘ７７５８５２１１２３４５６７８９０１８ｑｗｅｒｔｙｍａｓｔｅｒｓｈａｄｏｗ７８９４５６１２３ｗｏａｉｎｉ１３１４１２３４５６ａ１９１１１１１１ｈｅｌｌｏｂａｓｅｂａｌｌｐａｓｓｗｏｒｄ１２３３２１９９９９９９２０ｉｌｏｖｅｕ１２３４５６７ｔｉｇｇｅｒ８７６５４３２１ａ１２３４５６７８９ｗｉｎｄｏｗｓ

８１９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

表４　常用字符段的划分长度数字字母数字和字母３１１１，６６６，８８８，９９９，１２３，３２１，１１０，５２０，０００ａｂｃ，ａａａ，ｑｗｅ，ａｓｄ＼４１１１１，６６６６，８８８８，００００，１３１４ｌｏｖｅ，ａａａａａ１２３，ａ３２１，ａｂｃ１，１ｑａｚ，２ｗｓｘ５１２３４５，５４３２１ｌｏｖｅｕ，ａａａａａ，ｉｌｏｖｅ＼６６６６６６６，８８８８８８，９９９９９９，００００００，１２３１２３，１１１１１１

１２３３２１，１２３４５６，６５４３２１，１１０１１０ａａａａａａ，ｗｏａｉｎｉ，ｍｏｎｋｅｙ

ｑｗｅｒｔｙ，ｉｌｏｖｅｕａ１２３４５，ａ５４３２１，ａｂｃ１２３７１２３４５６７，５２０１３１４ｌｏｖｅｙｏｕ，ｗｉｎｄｏｗｓａ１２３４５６，１２３４５６ａ８１２３４５６７８，６６６６６６６６，８８８８８８８８，９９９９９９９９，１１１１１１１１，８７６５４３２１ｐａｓｓｗｏｒｄ，ｉｌｏｖｅｙｏｕ１ｑａｚ２ｗｓｘ９１２３４５６７８９，９８７６５４３２１，１２３１２３１２３＼ａ１２３４５６７８９

常用字符段作为一种口令的结构模式独立存在，并且优先级高于其他常规结构模式（例如Ｌ，Ｄ，Ｓ）．在训练之前，首先建立预设的常用字符段的表，在训练阶段对口令结构进行划分时优先搜索常用字符段集合对应的表，并且按照长度原则优先匹配更长的字符段，若匹配成功则判定为对应的Ｕ，若不匹配则按照常规模式划分．例如，口令“ｚｈａｎｇ５２０１２３４５６”，若不加入常用词则被划分为Ｌ５Ｄ９，加入常用词之后划分成Ｌ５Ｕ３Ｕ６．表５中，我们列出了针对Ｙａｈｏｏ数据

集加入常用字符段和不加常用字符段，利用ＰＣＦＧ算法生成三个常见口令的概率和其在生成字典中的排名．从表中可知，加入常用字符段后，在字典中常见口令的概率和排名都明显增加．

进一步，对数据集中包含有常用字符的口令进行统计，如表６所示．从表中可知２７％的中文口令和１５％的英文口令中包含有常用字符集．因此，在口令概率模型中加入常用字符集能更好的刻画口令的结构特征．

表５　加入常用字符前后生成口令的概率口令不加常用字符

概率字典中的排名加入常用字符

概率字典中的排名ｉｌｏｖｅｕ９．６８×１０－６３０４１１．１３×１０－４１１４１２３４５６ａ５．４１３×１０－６６０５８５．９７７×１０－５３４０ｑｗｅａｓｄ２．６３２×１０－６４１５０２．８２×１０－５９５４

表６　常用字符段的分布Ａｌｌ／％ＲｏｃｋＹｏｕＰｈｐＢＢＹａｈｏｏＡｌｌ／％ＣＳＤＮＤｏｄｏｎｅｗＪｉｎｇＤｏｎｇ

Ｕ１５．０２１５．３１１３．０５１４．７３２７．０３２９．１１２６．８８２４．６８

３４　特殊字符的分布特征在口令中加入特殊字符是人们常用的一种增加

口令强度的方式，基于ＰＣＦＧ的模型在对特殊字符进行划分时，默认的假设是：特殊字符在口令中的位置分布是均匀的，因此对特殊字符在口令中的位置

没有进行区分．但是，我们的统计结果发现，特殊字符的分布与其在口令字符串中所处的位置有着密切的关联．

表７统计了我们数据集中常用特殊字符的位置分布，其中：０表示出现在口令起始位置；１表示出现

表７　特殊字符的位置分布字符位置Ａｌｌ／％ＲｏｃｋＹｏｕＰｈｐＢＢＹａｈｏｏＡｌｌ／％ＣＳＤＮＤｏｄｏｎｅｗＪｉｎｇＤｏｎｇ

００．０８０．０８０．０４０．０９０．０８０．１２０．０７０．１４！１０．１３０．１３０．１２０．１００．４００．４４０．３９０．３６

２０．７９０．７９０．８４０．８１０．５２０．４４０．５４０．５０　＠　

０１２

０．１３０．７００．１７

０．１２０．７００．１８

０．１７０．７１０．１２

０．１９０．６７０．１４

０．１００．７２０．１８

０．０８０．６８０．２４

０．１１０．７２０．１７

０．０３０．８８０．０９

　＄　

０１２

０．２３０．３６０．４１

０．２４０．３５０．４１

０．２１０．３７０．４２

０．１６０．３９０．４５

０．１３０．４９０．３８

０．１４０．５２０．３４

０．１２０．４８０．４０

０．１７０．５６０．２７

００．０４０．０４０．０２０．０２０．０４０．０２０．０４０．０８＿１０．９００．８９０．９００．９３０．８９０．９３０．８９０．９０

２０．０６０．０７０．０８０．０５０．０７０．０５０．０７０．０２００．２８０．３００．１５０．２７０．１５０．１８０．１５０．１７

１０．２２０．２１０．２６０．２５０．３００．３５０．２８０．３３２０．５００．４９０．５９０．４９０．５５０．４７０．５７０．５０

９１９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

（续　表）字符位置Ａｌｌ／％ＲｏｃｋＹｏｕＰｈｐＢＢＹａｈｏｏＡｌｌ／％ＣＳＤＮＤｏｄｏｎｅｗＪｉｎｇＤｏｎｇ

００．１８０．１８０．１５０．１６０．０４０．０８０．０２０．０３＃１０．７００．６８０．７４０．８００．４１０．４９０．３５０．４６

２０．１２０．１４０．１１０．０４０．５５０．４３０．６３０．５１００．０７０．０６０．１２０．０４０．０５０．０４０．０７０．０８

．１０．５４０．５４０．５８０．５６０．４５０．４６０．４５０．４３２０．３９０．４００．３００．４００．５００．５００．４８０．４９００．０９０．０９０．０６０．１２０．０４０．０８０．０３０．０２

％１０．５８０．５６０．５９０．６１０．７３０．６２０．７５０．７９２０．３３０．３５０．３５０．２７０．２３０．３００．２２０．１９００．１２０．１２０．１４０．０９０．０５０．０８０．０４０．０３

＋１０．５３０．５３０．５５０．５２０．５５０．４６０．５７０．６１２０．３４０．３４０．３１０．３９０．４００．４６０．３９０．３６

!

０１２

０．１６０．５００．３４

０．１４０．４９０．３７

０．１８０．５２０．３０

０．２００．５６０．２４

０．０３０．６６０．３１

０．０５０．６４０．３１

０．０２０．６９０．２９

０．０６０．６５０．２９

＝０１２

０．１００．７４０．１６

０．０９０．７２０．１９

０．１１０．８００．０９

０．１３０．７８０．０９

０．０５０．６７０．２８

０．０７０．６３０．３０

０．０４０．７００．２６

０．０２０．８００．１８

？０１２

０．１００．２２０．６８

０．１００．２１０．６９

０．０７０．２５６８

０．１３０．２７０．６０

０．４００．５６０．０４

０．３１０．６００．０９

０．４４０．５４０．０８

０．４６０．４３０．１１

００．３８０．３８０．３６０．３９０．１５０．１７０．１４０．１９～１０．２２０．２２０．２１０．２５０．４４０．４３０．４５０．４２

２０．４００．４００．４３０．３６０．４１０．４００．４１０．３９

在口令中间位置；２表示出现在口令末尾．从表中我们可以看到，特殊字符的位置分布是极其不均匀的，特殊字符在口令起始位置的分布较少，部分字符较频繁出现在口令结尾（比如

!

），还有部分字符较频繁出现在口令中间（比如＠）．

４　基于结构划分及字符串重组的口令生成模型

４１　整体框架本文提出的基于结构划分及Ｍａｒｋｏｖ的口令生

成模型主要由两个基本模块组成：结构划分模块、字符串重组模块．结构划分模块主要功能是通过对训

练集中口令进行结构划分，从而学习用户构造口令的习惯，并得到基本结构和字符串字典按概率排序的集合．字符串重组模块将结构划分模块生成的字符串字典作为ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法的训练集．从表１和表２的统计中我们能够看出用户倾向于使用同一种字符去构造口令，其中字母和数字占了大部分，因此分别在Ｌ段和Ｄ段运用ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法能够充分利用训练集中的数据来提取用户构造口令的行为特征．在字符串重组模块中，运用ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法时，对于长度小于等于６的字符串采用２阶Ｍａｒｋｏｖ链，对于长度在７～９的字符串采用３阶Ｍａｒｋｏｖ链，对于长度大于９的，采用４阶Ｍａｒｋｏｖ链．模型如图３所示．

图３　基于结构划分及字符串重组的口令生成模型

０２９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

本文的模型有训练和猜测集生成２个阶段．（１）训练阶段．①在基本结构的划分中预定义

字母段（Ｌ）、数字段（Ｄ）、特殊字符段（Ｓ）和常用字符段（Ｕ），根据ＰＣＦＧ结构划分算法建立概率模型，得到口令的基本结构集合犅犪狊犲犛狋狉狌犮狋犛犲狋，统计每种基本结构出现的概率，并将它们对应的具体口令中每个子字符串添加到字符串集合犛狋狉犻狀犵犛犲狋中；②对犛狋狉犻狀犵犛犲狋集合中长度大于等于４的Ｌ段和Ｄ段的相同长度的子字符串集合犛狌犫犛狋狉犻狀犵犛犲狋利用ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法进行字符串重组，按概率递减顺序生成与训练集中字符串长度相同的字符串，再用犛狌犫犛狋狉犻狀犵犛犲狋去替换犛狋狉犻狀犵犛犲狋中具有相同结构的字符串，生成新的字符串集合犕犛狋狉犻狀犵犛犲狋．

（２）猜测集生成阶段．得到口令的基本结构集合犅犪狊犲犛狋狉狌犮狋犛犲狋和各个结构段对应的字符串集合犕犛狋狉犻狀犵犛犲狋后，利用文献［１３］中的“ＮＥＸＴ”算法按概率递减顺序生成候选口令．

训练过程中，可能某一长度的常用字符，并没有出现在训练集中，但是，这并不意味着用户不会使用它们来构造口令，为了更好的模拟用户构造口令的习惯，防止出现过拟合，我们在处理常用字符时，引入了Ｌａｐｌａｃｅ平滑技术［１４］．具体算法流程如算法２所示．

算法２．　基于结构划分和字符串重组的口令生成算法．

输入：训练口令集（犜狉犪犻狀犛犲狋），ＰＣＦＧ结构划分方法，Ｍａｒｋｏｖ字符串生成器，字典大小（狀）

输出：猜测口令集预定义口令基本结构模式（犔，犇，犛，犝）１．犅犪狊犲犛狋狉狌犮狋犛犲狋，犛狋狉犻狀犵犛犲狋←结构划分（犜狉犪犻狀犛犲狋）２．ＦＯＲｅａｃｈ犜狔狆犲犛狋狉犻狀犵ＩＮ犛狋狉犻狀犵犛犲狋３．ＩＦ犜狔狆犲犛狋狉犻狀犵＝＝ＬＯＲＤａｎｄ犾犲狀（犜狔狆犲犛狋狉犻狀犵）＞４４．犖犲狑犜狔狆犲犛狋狉犻狀犵←ＲｅｃｕｒｓｉｖｅＯＭＥＮ（犜狔狆犲犛狋狉犻狀犵）５．犕犛狋狉犻狀狋犛犲狋．狆狌狊犺（犖犲狑犜狔狆犲犛狋狉犻狀犵）６．ＥＬＳＥ７．犕犛狋狉犻狀狋犛犲狋．狆狌狊犺（犜狔狆犲犛狋狉犻狀犵）８．ＥＮＤＩＦ９．ＥＮＤＦＯＲ１０．ＩＦ犾犲狀（犘犪狊狊狑狅狉犱犛犲狋）＜狀ＯＲ犅犪狊犲犛狋狉狌犮狋犛犲狋ｉｓｎｏｔＮｕｌｌ１１．犘犪狊狊狑狅狉犱犛犲狋←猜测集生成在预定义完口令的基本结构后，利用算法２对

训练口令集合进行训练学习，并自动按概率递减顺序生成猜测字典，直至字典大小达到预置的个数，或者基本结构用完．在算法２中，口令基本结构的类型

是可以增加和更改的，并且不会影响算法的整体运行．后期如果挖掘出更丰富的口令结构特征，就能够很容易的添加到算法中来进行验证．４２　特殊字符的处理

结构划分子模块中，我们基于ＰＣＦＧ算法对口令结构进行划分，但是原始基于ＰＣＦＧ的模型没有对特殊字符的位置进行区分，而实际上特殊字符的分布和其在口令字符串中所处的位置有着密切的关联．

由表７我们可知，同一个字符出现在口令开头、中间和结尾的概率相差很大，不是均匀分布的．特殊字符大部分都出现在口令的中间位置，很少一部分出现在口令开头和结尾位置．在训练阶段统计的特殊字符串的概率是所有位置的概率之和（假设是均匀分布的），在口令生成阶段应用这个概率显然是不准确的．因此，在对特殊字符进行概率统计的时候，我们增加了一个索引位来区分他们的位置信息：０表示出现在口令起始位置；１表示出现在口令中间位置；２表示出现在口令末尾．

训练阶段，在对特殊字符进行统计时，相同长度不同位置的特殊字符将被分别计数，视为不同的基本结构段，用三元组“（段类型，位置，个数）”来表示．例如，训练集中口令“Ｈｕ１２３＃＃”和“ｌｉ＃＃５２０”都包含字符“＃＃”，但是由于所处位置不同，所以不能笼统的用犛２表示，而是分别产生两个三元组（犛２，２，１）和（犛２，１，１）．字符串生成阶段，根据特殊字符在不同的基本结构中的位置，选择相应的三元组来计算生成口令的概率．索引位的引入对特殊字符进行了更加精细的划分，能够更充分地学习用户构造口令的习惯．特殊字符的处理步骤如图４所示．其中，犛２类型的字符串有“＃＃”和“！！”两种，出现次数分别为２和１，但是由于“＃＃”在口令的中间和结尾出现的次数都为１，所以在计算概率时不是狆（＃＃）＝２／３，狆（！！）＝１／３，而是按照狆（＃＃，１）＝１／３，狆（＃＃，２）＝１／３，狆（！！，１）＝１／３来计算．以生成口令“ｌｉ１２３＃＃”为例，不对特殊字符位置进行区分时，其概率为狆（ｌｉ１２３＃＃）＝狆（犛→犔２犇３犛２）·狆（犔２→ｌｉ）·

　狆（犇３→１２３）·狆（犛２→＃＃）＝１５·

１３·

１３·

２３＝

２１３５．

增加索引位后，概率为

１２９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

狆（ｌｉ１２３＃＃）＝狆（Ｓ→犔２犇３犛２）·狆（犔２→ｌｉ）·　狆（犇３→１２３）·狆（犛２→（＃＃，２））＝１５·

１３·

１３·

１３＝

１１３５．

由于利用ＰＣＦＧ算法生成候选口令，是精确按照各个段搜索字符串的，在特殊字符中增加索引位，对于算法的时间复杂度的影响可以忽略．另外，引入索引位后增加了表格的存储空间，但是特殊字符在口令中存在的比例很小，所以增加的存储空间不会影响算法的运行效率．

图４　特殊字符的处理

４３　改进的犗犕犈犖算法字符串重组子模块中，我们利用Ｍａｒｋｏｖ模型

对基本结构对应的字符串进行建模．原始的基于Ｍａｒｋｏｖ模型的ＯＭＥＮ算法能够按概率递减顺序枚举候选口令，但是由于在生成不同的口令时对相同的字符串进行了重复计算，增加了该算法的运行时间．因此，我们对ＯＭＥＮ算法进行了改进，提出了一个折中迭代的字符串生成算法———ＲｅｃｕｒｓｉｖｅＯＭＥＮ．４．３．１　ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法思想

ＯＭＥＮ算法在计算不同长度字符串概率时，对相同子字符串进行了重复计算．一方面，不同的口令中可能包含相同的字符串；另一方面，随着口令长度的增加犾犲狏犲犾个数也会增多，对应着向量犪＝（犪１，…，犪犽）中的元素个数增多．在迭代生成口令时，向量犪的前一部分元素的取值被重新规划，从而导致重复生成了相同的字符串，浪费了计算资源．我们考虑通过递归的方式去生成长口令，减少重复计算，从而提高效率．

在ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法中，对向量犪进行了折

中处理：将向量犪拆分成前后两个或者三个向量．如果犪中的元素个数为偶数，则拆分成前后三个向量：犪１＝（犪１，…，犪犽／２），犪２＝（犪（犽＋２）／２，…，犪犽－１），犪３＝（犪犽），三个向量的长度分别为犽／２，（犽－２）／２，１；如果为奇数则拆分成前后两个向量：犪１＝（犪１，…，犪犽／２），犪２＝（犪（犽＋３）／２，…，犪犽），长度分别为（犽＋１）／２，（犽－１）／２．下面我们分别讨论当犽为奇数和偶数时（Ｍａｒｋｏｖ链的阶数为狀）ＲｅｃｕｒｓｉｖｅＯＭＥＮ的运行机制．犽为奇数时（以犽＝５为例）：η＝犾犲狏犲犾１＋犾犲狏犲犾２＋犾犲狏犲犾３＋犾犲狏犲犾４＋犾犲狏犲犾５，向

量犪＝（犪１，犪２，犪３，犪４，犪５），其中犪１是起始字符串（狀－１）ｇｒａｍ的犾犲狏犲犾，犪２，犪３，犪４，犪５分别对应各个狀ｇｒａｍ的犾犲狏犲犾．将犪拆分成犪１＝（犪１，犪２，犪３），犪２＝（犪４，犪５）两部分，则η＝η１＋η２，犪＝（犪１，犪２）．首先，针对向量犪１，搜索满足条件的犪１，犪２，犪３生成犪１对应的字符串和它们的η值．并且，由于向量犪１和犪２对应的字符串的搜索空间是一样的，不同的是犪２对应的字符串搜索空间中的η值比犪１少一个犾犲狏犲犾０，因此在搜索犪１的同时我们也得到了相应的犪２．下一步，只需对η１和η２的值进行迭代即可，只要满足犪１对应的字符串后狀位的字符和犪２对应的字符串前狀位的字符相同则有效（能够组成口令）．犽为偶数时（以犽＝６为例）：η＝犾犲狏犲犾１＋犾犲狏犲犾２＋犾犲狏犲犾３＋犾犲狏犲犾４＋犾犲狏犲犾５＋

犾犲狏犲犾６对应的向量犪＝（犪１，犪２，犪３，犪４，犪５，犪６）．将犪拆分成犪１＝（犪１，犪２，犪３），犪２＝（犪４，犪５），犪３＝（犪６）三部分，则η＝η１＋η２＋η３，犪＝（犪１，犪２，犪３）．针对向量犪１，犪２我们按照犽为奇数时的方法进行迭代后，向量犪可表示成犪＝（（犪１＋犪２＋犪３＋犪４＋犪５），犪６），对应的η＝（η１＋η２）＋η３，犪中的犾犲狏犲犾个数为２，其中犪１可以通过迭代狀＝５得到，犪２是原始的狀ｇｒａｍ对应的犾犲狏犲犾．最后，搜索所有满足条件的犪１和犪２生成口令．

ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法迭代生成固定长度字符串的过程如图５所示，字母表由Σ＝｛犪，犫｝组成，Ｍａｒｋｏｖ链的阶数为２．首先，迭代３长的向量犪１＝（犪１，犪２，犪３），生成４长的字符串的同时，通过将每个犪１对应的η值减去起始字符的犾犲狏犲犾值，得到向量犪２＝（犪４，犪５）．然后通过组合犪１，犪２得到５长的向量犪＝（犪１，犪２，犪３，犪４，犪５），将犪与转移概率对应的犾犲狏犲犾组合起来，生成６长的向量犪＝（（犪１＋犪２＋犪３＋犪４＋

２２９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

犪５），犪６）＝（犪１，犪２）以及它们对应的字符串，这样就由３长的向量得到了５长和６长的向量．依次迭代，我们能利用更短长度的向量犪得到更长的向量，即短口令生成长口令．

图５　ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法生成固定长度字符串

４．３．２　ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法描述在给定初始字符串和转移字符串，以及它们的

犾犲狏犲犾的情况下，生成固定长度，固定η值的字符串的算法如算法３所示．其中，对于每一个向量，犪＝（犪０，犪１，犪２，…，犪犽），选择所有犾犲狏犲犾为犪０的２ｇｒａｍ狓１狓２，然后迭代所有的狓３使得３ｇｒａｍ狓１狓２狓３的犾犲狏犲犾为犪１．下一步，迭代所有的狓４使得３ｇｒａｍ狓２狓３狓４的犾犲狏犲犾为犪２，如此反复，直到达到固定长度为止．最后，输出长为，“强度”犾犲狏犲犾为η的候选字符串集合．

算法３．　字符串迭代算法（犛狋狉犻狀犵犖狌犿（））（其中Ｍａｒｋｏｖ链阶数取２，字符空间为Σ）．

输入：初始字符串的表犜犪犫犾犲０，３ｇｒａｍ的表犜犪犫犾犲１输出：长为字符串的集合犛狋狉犻狀犵犛犲狋＿１．搜索所有长为－１的向量犪＝（犪０，犪１，…，犪－２），满

足∑－２

犻＝０犪犻＝η

２．ＦＯＲ狓１狓２ＩＮΣ２：３．ＩＦ犾犲狏犲犾（狓１狓２）＝犪０：４．ＦＯＲ狓３ＩＮΣ：５．ＩＦ犾犲狏犲犾（狓３｜狓１狓２）＝犪１：

６．ＦＯＲ狓４ＩＮΣ７．ＩＦ犾犲狏犲犾（狓４｜狓２狓３）＝犪２：８．如此反复迭代，直到达到指定长度为止．犛狋狉犻狀犵犛犲狋＿．狆狌狊犺（狆狉狅犫，狓１狓２…狓，犾犲狏犲犾）

９．ＥＮＤＦＯＲ１０．ｏｕｔｐｕｔ犛狋狉犻狀犵犛犲狋＿ＲｅｃｕｒｓｉｖｅＯＭＥＮ快速迭代算法流程如图６所

示．通过训练，生成起始字符串和狀ｇｒａｍ字符串，以及它们对应的犾犲狏犲犾，并建立表犜犪犫犾犲０和犜犪犫犾犲１．表犜犪犫犾犲０中的项由三元组（狆狉狅犫０，狓１狓２…狓狀－１，犾犲狏犲犾０）组成，包含起始字符串以及它的概率犾犲狏犲犾０，表犜犪犫犾犲１中的项由（狆狉狅犫１，狓１狓２…狓狀，犾犲狏犲犾１）组成，包含狀ｇｒａｍ字符串以及对应的转移概率犾犲狏犲犾１．首先对犜犪犫犾犲０，犜犪犫犾犲１运用犛狋狉犻狀犵犖狌犿（）算法，构造新的三元组（狆狉狅犫２，狔１狔２…狔狀，犾犲狏犲犾２）并插入到表犜犪犫犾犲２中，其中狆狉狅犫２＝狆狉狅犫０·狆狉狅犫１，犾犲狏犲犾２＝犾犲狏犲犾０＋犾犲狏犲犾１，狔１狔２…狔狀是生成的字符串．然后对犜犪犫犾犲２，犜犪犫犾犲１使用犛狋狉犻狀犵犖狌犿（）算法，生成表犜犪犫犾犲３，将表犜犪犫犾犲３中三元组（狆狉狅犫３，狔１狔２…狔狀狔狀＋１，犾犲狏犲犾３）的概率狆狉狅犫３和犾犲狏犲犾３分别除去字符串狔１狔２…狔狀狔狀＋１中起始字符对应的狆狉狅犫０和犾犲狏犲犾０，建立表犜犪犫犾犲３．并对犜犪犫犾犲３，犜犪犫犾犲３和犜犪犫犾犲３，犜犪犫犾犲１运用犛狋狉犻狀犵犖狌犿（）算法，同理得到表犜犪犫犾犲４，犜犪犫犾犲４和犜犪犫犾犲５，犜犪犫犾犲５，依次迭代，生成各个长度的表犜犪犫犾犲，即得到了不同长度的字符串．

图６　ＲｅｃｕｒｓｉｖｅＯＭＥＮ快速迭代算法流程图

３２９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

算法４．　ＲｅｃｕｒｓｉｖｅＯＭＥＮ快速迭代算法．输入：预生成口令的犾犲狏犲犾的个数犓（犓２），离散概率

值为η，初始字符串概率离散化后的表犜犪犫犾犲０，狀ｇｒａｍ概率离散化后的表犜犪犫犾犲１

输出：长为口令的集合犛狋狉犻狀犵犛犲狋＿１．由犜犪犫犾犲０和犜犪犫犾犲１构造２长向量对应的表犜犪犫犾犲２２．犜犪犫犾犲２←犛狋狉犻狀犵犖狌犿（犜犪犫犾犲０，犜犪犫犾犲１）３．ＩＦ犓３４．判断犓的奇偶性５．ＩＦ犓ｍｏｄ２＝＝１６．令犓１＝犽＋１２７．搜索表犜犪犫犾犲犽１，犜犪犫犾犲犽１是否在缓存中８．ＩＦ犜犪犫犾犲犽１，犜犪犫犾犲犽１ＩＮＣａｃｈｅＴＨＥＮ９．犜犪犫犾犲犓←犛狋狉犻狀犵犖狌犿（犜犪犫犾犲犓１，犜犪犫犾犲犽１）１０．ＥＬＳＥ１１．令犓＝犓１，重复步骤３１２．利用中间犜犪犫犾犲生成最终的字符串１３．犜犪犫犾犲犓←犛狋狉犻狀犵犖狌犿（（犛狋狉犻狀犵犖狌犿（…），…））１４．ＥＬＳＥ１５．令犓１＝犓－１１６．搜索表犜犪犫犾犲犽１是否在缓存中１７．ＩＦ犜犪犫犾犲犽１ＩＮＣａｃｈｅＴＨＥＮ１８．犜犪犫犾犲犓←犛狋狉犻狀犵犖狌犿（犜犪犫犾犲犓１，犜犪犫犾犲１）１９．ＥＬＳＥ２０．令犓＝犽－１２，重复步骤３２１．利用中间犜犪犫犾犲生成最终的字符串２２．犜犪犫犾犲犓←犛狋狉犻狀犵犖狌犿（犛狋狉犻狀犵犖狌犿（…），…）２３．ＥＬＳＥ２４．犜犪犫犾犲犓←犛狋狉犻狀犵犖狌犿（犜犪犫犾犲０，犜犪犫犾犲１）

５　实验结果分析本文中实验的软硬件运行环境如下：Ｉｎｔｅｌ

Ｃｏｒｅｉ７４７９０ＣＰＵ、１６ＧＢＲＡＭ、ＧＴＸ１０７０ＧＰＵ、Ｗｉｎｄｏｗｓ６４位旗舰版、Ｐｙｔｈｏｎ２．９、Ｍａｔｌａｂ２０１５ａ．５１　场景设置

针对ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法，在ＰｈｐＢＢ，Ｙａｈｏｏ，ＣＳＤＮ，ＲｏｃｋＹｏｕ四个数据集上进行了测试，来验证该算法生成固定长度字符串的效率．

Ｗａｎｇ等人［２６］指出，当训练集和测试集来自于同一数据集时，由于口令集合符合Ｚｉｐｆ分布，所以攻击者能够了解目标系统口令分配的大部分情况，但是不能够全部掌握，这满足机器学习中“训练集和

测试集不同”的要求．当训练集和测试集来自于不同口令集合时，则能够很好的模拟漫无目的的攻击者的行为．所以，针对本文的攻击模型，设置了８个攻击场景，如表８所示．场景１，从１６００万Ｄｏｄｏｎｅｗ中文数据集中随机抽取１４００万作为训练集，剩下２００万作为测试集；场景２，从３２００万ＲｏｃｋＹｏｕ英文数据集中随机抽取２５００万作为训练集，剩下７００万作为测试集；场景３，用ＲｏｃｋＹｏｕ数据集作为训练集，Ｄｏｄｏｎｅｗ数据集作为测试集；场景４，用Ｄｏｄｏｎｅｗ数据集作为训练集，ＲｏｃｋＹｏｕ数据集作为测试集；场景５，用Ｄｏｄｏｎｅｗ数据集作为训练集，剩下两个中文数据集：ＣＳＤＮ，ＪｉｎｇＤｏｎｇ作为测试集；场景６，用ＲｏｃｋＹｏｕ数据集作为训练集，剩下两个英文数据集：ＰｈｐＢＢ，Ｙａｈｏｏ作为测试集；场景７，用Ｄｏｄｏｎｅｗ数据集作为训练集，两个英文数据集：ＰｈｐＢＢ、Ｙａｈｏｏ作为测试集；场景８，用ＲｏｃｋＹｏｕ数据集作为训练集，两个中文数据集：ＪｉｎｇＤｏｎｇ、ＣＳＤＮ作为测试集．

表８　攻击场景＃ｎａｍｅ１Ｄｏｄｏｎｅｗ→Ｄｏｄｏｎｅｗ２ＲｏｃｋＹｏｕ→ＲｏｃｋＹｏｕ３ＲｏｃｋＹｏｕ→Ｄｏｄｏｎｅｗ４Ｄｏｄｏｎｅｗ→ＲｏｃｋＹｏｕ５Ｄｏｄｏｎｅｗ→ＣＳＤＮ＋ＪｉｎｇＤｏｎｇ６ＲｏｃｋＹｏｕ→ＰｈｐＢＢ＋Ｙａｈｏｏ７Ｄｏｄｏｎｅｗ→ＰｈｐＢＢ＋Ｙａｈｏｏ８ＲｏｃｋＹｏｕ→ＣＳＤＮ＋ＪｉｎｇＤｏｎｇ

５２　结果分析５．２．１　ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法运行时间对比

在验证实验中，设置犾犲狏犲犾个数分别为：２，３，４，５，６，７，８，９，对ＯＭＥＮ算法选择４阶Ｍａｒｋｏｖ链，为了使比较结果更精确，我们控制生成字符串的个数为一千万以便在相同条件下进行比较，将ＯＭＥＮ算法的运行时间取自然对数以便在坐标轴上刻画．实验结果如图７所示，从图中可以看出，生成相同长度的字符串ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法比原始的ＯＭＥＮ算法用时更短，并且随着字符串长度的增加，ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法的用时没有急剧上升．５．２．２　ＳＰＳＲ算法攻击效率对比

本文在每个场景中，设置猜测次数分别为：１０２，１０３，１０４，１０５，１０６，１０７，Ｎａｒａｙａｎａｎ的算法Ｍａｒｋｏｖ链的阶数设置为４．并计算了每个猜测次数下破解的

４２９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

图７　ＲｅｃｕｒｓｉｖｅＯＭＥＮ算法在４个数据集上的运行时间成功率．实验中，对比了Ｎａｒａｙａｎａｎ的方法，Ｗｅｉｒ的方法以及我们的算法的攻击效率（ＳＰＳＲ）．

观察图８中的（ａ）和（ｂ），可知，当训练集与测试集来自于同一个口令集合时，在猜测次数低于１０４次的情况下，本文的算法攻击效率略低于ＰＣＦＧ；在猜测次数高于１０４次后，攻击效率接近并略高于ＰＣＦＧ；在猜测次数低于１０６时，本文的算法的攻击效率比Ｍａｒｋｏｖ高了５０％左右，当攻击次数达到１０７后，也比Ｍａｒｋｏｖ高了１５％左右．

观察图８中的（ｃ）和（ｄ），可知，当训练集和测试集来自于不同语言的不同口令集合时，本文的算法的攻击效率比ＰＣＦＧ高了约２０％左右；在猜测次数低于１０６次的情况下，攻击效率比Ｍａｒｋｏｖ高了５０％左右，当猜测次数增加到１０７以后，本文的算法的攻击效率仍比Ｍａｒｋｏｖ高２０％左右．并且，场景３和场景４形成交叉验证，排除了偶然性因素的影响，结果更有说服力．

观察图８中的（ｅ）和（ｆ），可知，当训练集和测试集来自于相同语言的不同口令集合时，本文的算法的攻击效率比ＰＣＦＧ高了约２０％左右；在猜测次数

低于１０５次的情况下，攻击效率比Ｍａｒｋｏｖ高了４０％左右，当猜测次数增加到１０６以后，本文的算法的攻击效率仍比Ｍａｒｋｏｖ高２０％左右．

观察图８中的（ｇ）和（ｈ），可知，当训练集和测试集来自于不同语言的不同口令集合时，在猜测次数低于１０４次的情况下，本文的算法与ＰＣＦＧ的攻击效率接近，当猜测次数超过１０４次后，开始优于ＰＣＦＧ，攻击效率提高了１０％左右；在猜测次数低于１０５的情况下本文的算法比Ｍａｒｋｏｖ高了４０％左右，当猜测次数超过１０５后，仍然比Ｍａｒｋｏｖ高２０％左右．

综上，当猜测次数低于１０６时，本文算法的攻击效率比Ｍａｒｋｏｖ高了４０％～５０％，当猜测次数高于１０７后，攻击效率比Ｍａｒｋｏｖ高了２０％左右；当训练集和测试集来自相同口令集合时，本文的算法取得了不弱于ＰＣＦＧ的攻击效率，并且当训练集和测试集来自不同的口令集合时，攻击效率比ＰＣＦＧ提高了２０％左右．真实攻击场景中，训练集和待猜测数据集来自同一群体的情况是较少发生的，攻击者采用其它来源的训练集来攻击目标口令集是更为普遍的情况．

５２９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

图８　八个场景的攻击结果对比

６２９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

６　总结和展望本文在“口令相同类型的字符间存在强关联，而

不同类型的字符间相互独立”的假设下，提出了一个ＰＣＦＧ和Ｍａｒｋｏｖ的混合口令攻击模型———ＳＰＳＲ．训练阶段，在原始ＰＣＦＧ结构模式中加入了常用字符段，并对特殊字符的位置进行了区分加入了索引位．字符串生成阶段，我们对ＯＭＥＮ算法进行了改进，提出了一个折中迭代的字符串算法———ＲｅｃｕｒｓｉｖｅＯＭＥＮ，将基本结构中字母段和数字段对应的字符串作为Ｍａｒｋｏｖ生成器的训练集，用生成的字符串更新了字母段和数字段，最后按概率递减顺序生成口令字典．从对比实验中，可以看出，我们的算法相比原始的基于Ｍａｒｋｏｖ的算法的攻击效率更好，运行时间更短，并且在交叉数据集上的表现也优于原始的基于ＰＣＦＧ的模型．

在接下来的工作中，我们会继续优化我们的算法，同时也会挖掘更深层次的口令结构特征，并探寻更优的结构划分方法．比如在个人信息唾手可得的大数据时代，Ｗａｎｇ等人［１７］已经证明利用个人信息ＰＩＩ来破解口令成功率将更高．本文中的ＳＰＳＲ算法，在结构划分模块，可以利用他们提出的Ｔａｇｂａｓｅｄ标签技术将个人信息ＰＩＩ融入到口令结构中，进一步提高算法的效率．

致　谢　向本文编辑和对本文提出宝贵意见的各位审稿专家表示衷心的感谢！

参考文献

［１］ＷａｎｇＰｉｎｇ，ＷａｎｇＤｉｎｇ，ＨｕａｎｇＸｉｎＹｉ．Ａｄｖａｎｃｅｓｉｎｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙ．ＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１６，５３（１０）：２１７３２１８８（ｉｎＣｈｉｎｅｓｅ）（王平，汪定，黄欣沂．口令安全研究进展．计算机研究与发展，２０１６，５３（１０）：２１７３２１８８）

［２］ＢｉｄｄｌｅＲ，ＣｈｉａｓｓｏｎＳ，ＯｏｒｓｃｈｏｔＰＣＶ．Ｇｒａｐｈｉｃａｌｐａｓｓｗｏｒｄｓ：Ｌｅａｒｎｉｎｇｆｒｏｍｔｈｅｆｉｒｓｔｔｗｅｌｖｅｙｅａｒｓ．ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ，２０１２，４４（４）：１４１

［３］ＪａｉｎＡＫ，ＲｏｓｓＡ，ＰａｎｋａｎｔｉＳ．Ｂｉｏｍｅｔｒｉｃｓ：Ａｔｏｏｌｆｏｒｉｎｆｏｒｍａｔｉｏｎｓｅｃｕｒｉｔｙ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＦｏｒｅｎｓｉｃｓ＆Ｓｅｃｕｒｉｔｙ，２００６，１（２）：１２５１４３

［４］ＨｕａｎｇＸＹ，ＹａｎｇＸ，ＣｈｏｎｋａＡ，ｅｔａｌ．Ａｇｅｎｅｒｉｃｆｒａｍｅｗｏｒｋｆｏｒｔｈｒｅｅｆａｃｔｏｒａｕｔｈｅｎｔｉｃａｔｉｏｎ：Ｐｒｅｓｅｒｖｉｎｇｓｅｃｕｒｉｔｙａｎｄｐｒｉｖａｃｙｉｎｄｉｓｔｒｉｂｕｔｅｄｓｙｓｔｅｍｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｒａｌｌｅｌ＆ＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍｓ，２０１０，２２（８）：１３９０１３９７

［５］ＳｔａｊａｎｏＦ，ＯｏｒｓｃｈｏｔＰＣＶ，ＨｅｒｌｅｙＣ，ｅｔａｌ．Ｔｈｅｑｕｅｓｔｔｏｒｅｐｌａｃｅｐａｓｓｗｏｒｄｓ：Ａｆｒａｍｅｗｏｒｋｆｏｒｃｏｍｐａｒａｔｉｖｅｅｖａｌｕａｔｉｏｎｏｆｗｅｂａｕｔｈｅｎｔｉｃａｔｉｏｎｓｃｈｅｍｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄ

ＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ．ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ，２０１２：５５３５６７

［６］ＢｏｎｎｅａｕＪ，ＨｅｒｌｅｙＣ，ＯｏｒｓｃｈｏｔＰＣＶ，ｅｔａｌ．Ｐａｓｓｗｏｒｄｓａｎｄｔｈｅｅｖｏｌｕｔｉｏｎｏｆｉｍｐｅｒｆｅｃｔａｕｔｈｅｎｔｉｃａｔｉｏｎ．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ，２０１５，５８（７）：７８８７

［７］ＨｅｒｌｅｙＣ，ＯｏｒｓｃｈｏｔＰＶ．Ａｒｅｓｅａｒｃｈａｇｅｎｄａａｃｋｎｏｗｌｅｄｇｉｎｇｔｈｅｐｅｒｓｉｓｔｅｎｃｅｏｆｐａｓｓｗｏｒｄｓ．ＩＥＥＥＳｅｃｕｒｉｔｙ＆Ｐｒｉｖａｃｙ，２０１２，１０（１）：２８３６

［８］ＦｒｅｅｍａｎＤ，ＤüｒｍｕｔｈＭ，ＢｉｇｇｉｏＢ．Ｗｈｏａｒｅｙｏｕ？ａｓｔａｔｉｓｔｉｃａｌａｐｐｒｏａｃｈｔｏｍｅａｓｕｒｉｎｇｕｓｅｒａｕｔｈｅｎｔｉｃｉｔｙ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮｅｔｗｏｒｋ＆ＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍＳｅｃｕｒｉｔｙＳｙｍｐｏｓｉｕｍ．ＳａｎＤｉｅｇｏ，ＵＳＡ，２０１６：１１５

［９］ＳｈｅｎＹｉｎｇ，ＬｉａｏＬｉｕＣｈｅｎｇ，ＤｏｎｇＴｉａｎＹａｎｇ．Ｐａｓｓｗｏｒｄｓｔｒｅｎｇｔｈｍｅｔｒｉｃｂａｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏａｃｔｉｖｅｍｏｄｅｌ．ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１５，４２（１１）：２２２２２７（ｉｎＣｈｉｎｅｓｅ）（沈瑛，廖刘承，董天阳．口令强度评估的分级先验模型研究．计算机科学，２０１５，４２（１１）：２２２２２７）

［１０］ＯｅｃｈｓｌｉｎＰ．Ｍａｋｉｎｇａｆａｓｔｅｒｃｒｙｐｔａｎａｌｙｔｉｃｔｉｍｅｍｅｍｏｒｙｔｒａｄｅｏｆｆ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００３，２７２９（４）：６１７６３０

［１１］ＷａｎｇＤｉｎｇ．ＲｅｓｅａｒｃｈｏｎＫｅｙＩｓｓｕｅｓｉｎＰａｓｓｗｏｒｄＳｅｃｕｒｉｔｙ［Ｐｈ．Ｄ．ｄｉｓｓｅｒｔａｔｉｏｎ］．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＰｅｋｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ，２０１７（ｉｎＣｈｉｎｅｓｅ）（汪定．口令安全关键技术研究［博士学位论文］．北京大学信息科学技术学院，北京，２０１７）

［１２］ＮａｒａｙａｎａｎＡ，ＳｈｍａｔｉｋｏｖＶ．Ｆａｓｔｄｉｃｔｉｏｎａｒｙａｔｔａｃｋｓｏｎｐａｓｓｗｏｒｄｓｕｓｉｎｇｔｉｍｅｓｐａｃｅｔｒａｄｅｏｆｆ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＡＣＭＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｅｃｕｒｉｔｙ．Ａｌｅｘａｎｄｅｒ，ＵＳＡ，２００５：３６４３７２

［１３］ＷｅｉｒＭ，ＡｇｇａｒｗａｌＳ，ＭｅｄｅｉｒｏｓＢＤ，ｅｔａｌ．Ｐａｓｓｗｏｒｄｃｒａｃｋｉｎｇｕｓｉｎｇｐｒｏｂａｂｉｌｉｓｔｉｃｃｏｎｔｅｘｔｆｒｅｅｇｒａｍｍａｒｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０ｔｈＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ．Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ，２００９：３９１４０５

［１４］ＭａＪ，ＹａｎｇＷＮ，ＬｕｏＭ，ｅｔａｌ．Ａｓｔｕｄｙｏｆｐｒｏｂａｂｉｌｉｓｔｉｃｐａｓｓｗｏｒｄｍｏｄｅｌｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３５ｔｈＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ２０１４．ＳａｎＪｏｓｅ，ＵＳＡ，２０１４：６８９７０４

［１５］ＤüｒｍｕｔｈＭ，ＡｎｇｅｌｓｔｏｒｆＦ，ＣａｓｔｅｌｌｕｃｃｉａＣ，ｅｔａｌ．ＯＭＥＮ：ＦａｓｔｅｒｐａｓｓｗｏｒｄｇｕｅｓｓｉｎｇｕｓｉｎｇａｎｏｒｄｅｒｅｄＭａｒｋｏｖｅｎｕｍｅｒａｔｏｒ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＥｎｇｉｎｅｅｒｉｎｇＳｅｃｕｒｅＳｏｆｔｗａｒｅａｎｄＳｙｓｔｅｍｓ．Ｍｉｌａｎ，Ｉｔａｌｙ，２０１５：１１９１３２

［１６］ＨｏｕｓｈｍａｎｄＳ，ＡｇｇａｒｗａｌＳ，ＦｌｏｏｄＲ．ＮｅｘｔｇｅｎＰＣＦＧｐａｓｓｗｏｒｄｃｒａｃｋｉｎｇ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＦｏｒｅｎｓｉｃｓ＆Ｓｅｃｕｒｉｔｙ，２０１７，１０（８）：１７７６１７９１

［１７］ＷａｎｇＤ，ＺｈａｎｇＺＪ，ＷａｎｇＰ，ｅｔａｌ．Ｔａｒｇｅｔｅｄｏｎｌｉｎｅｐａｓｓｗｏｒｄｇｕｅｓｓｉｎｇ：ａｎｕｎｄｅｒｅｓｔｉｍａｔｅｄｔｈｒｅａｔ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１６ＡＣＭＳＩＧＳＡＣＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｅｃｕｒｉｔｙ．Ｖｉｅｎｎａ，Ａｕｓｔｒｉａ，２０１６：１２４２１２５４

［１８］ＷａｎｇＤ，ＷａｎｇＰ．ＯｎｔｈｅｉｍｐｌｉｃａｔｉｏｎｓｏｆＺｉｐｆ’ｓｌａｗｉｎｐａｓｓｗｏｒｄｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＥｕｒｏｐｅａｎＳｙｍｐｏｓｉｕｍｏｎＲｅｓｅａｒｃｈｉｎＣｏｍｐｕｔｅｒＳｅｃｕｒｉｔｙ．Ｈｅｒａｋｌｉｏｎ，Ｇｒｅｅｃｅ，２０１６：１１１１３１

［１９］ＷａｎｇＤ，ＣｈｅｎｇＨＢ，ＷａｎｇＰ，ｅｔａｌ．Ｚｉｐｆ’ｓｌａｗｉｎｐａｓｓｗｏｒｄ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＦｏｒｅｎｓｉｃｓａｎｄＳｅｃｕｒｉｔｙ，２０１７，１２（１１）：２７７６２７９１

７２９４期章梦礼等：一种基于结构划分及字符串重组的口令攻击方法

《计

算机

学报

》

［２０］ＰａａｒＣ，ＰｅｌｚｌＪ．ＵｎｄｅｒｓｔａｎｄｉｎｇＣｒｙｐｔｏｇｒａｐｈｙ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１０：５１９５５１

［２１］ＫｌｅｉｎＤＶ．Ａｓｕｒｖｅｙｏｆ，ａｎｄｉｍｐｒｏｖｅｍｅｎｔｓｔｏ，ｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙ．Ｐｒｏｇｒａｍｍｉｎｇ＆ＣｏｍｐｕｔｅｒＳｏｆｔｗａｒｅ，２００１，１７（３）：５１４

［２２］ＢｏｎｎｅａｕＪ．Ｔｈｅｓｃｉｅｎｃｅｏｆｇｕｅｓｓｉｎｇ：Ａｎａｌｙｚｉｎｇａｎａｎｏｎｙｍｉｚｅｄｃｏｒｐｕｓｏｆ７０ｍｉｌｌｉｏｎｐａｓｓｗｏｒｄｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ．ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ，２０１２：５３８５５２

［２３］ＬｏｐｅｚＪ，ＣｒａｎｏｒＬＦ，ＣｈｒｉｓｔｉｎＮ，ｅｔａｌ．Ｇｕｅｓｓａｇａｉｎ（ａｎｄＡｇａｉｎａｎｄＡｇａｉｎ）：Ｍｅａｓｕｒｉｎｇｐａｓｓｗｏｒｄｓｔｒｅｎｇｔｈｂｙｓｉｍｕｌａｔｉｎｇｐａｓｓｗｏｒｄｃｒａｃｋｉｎｇａｌｇｏｒｉｔｈｍｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ．ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ，２０１２：５２３５３７

［２４］ＺｏｕＪｉｎｇ，ＬｉｎＤｏｎｇＤａｉ，ＨａｏＣｈｕｎＨｕｉ．Ａｐａｓｓｗｏｒｄｃｒａｃｋｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｓｔｒｕｃｔｕｒｅｄｉｖｉｓｉｏｎｐｒｏｂａｂｉｌｉｔｙ．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２０１４，３７（５）：１２０６１２１５（ｉｎＣｈｉｎｅｓｅ）（邹静，林东岱，郝春辉．一种基于结构划分概率的口令攻击方法．计算机学报，２０１４，３７（５）：１２０６１２１５）

［２５］ＨａｎＷｅｉＬｉ，ＹｕａｎＬａｎｇ，ＬｉＳｉＳｉ，ｅｔａｌ．Ａｎｅｆｆｉｃｉｅｎｔａｌｇｏｒｉｔｈｍｔｏｇｅｎｅｒａｔｅｐａｓｓｗｏｒｄｓｅｔｓｂａｓｅｄｏｎｓａｍｐｌｅｓ．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２０１７，４０（５）：１１５１１１６７（ｉｎＣｈｉｎｅｓｅ）（韩伟力，袁琅，李思斯等．一种基于样本的模拟口令集生成算法．计算机学报，２０１７，４０（５）：１１５１１１６７）

［２６］ＷａｎｇＤ，ＣｈｅｎｇＨＢ，ＷａｎｇＰ，ｅｔａｌ．Ａｓｅｃｕｒｉｔｙａｎａｌｙｓｉｓｏｆｈｏｎｅｙｗｏｒｄｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩＳＯＣＮｅｔｗｏｒｋａｎｄＤｉｓｔｒｉｂｕｔｅｄＳｙｓｔｅｍＳｅｃｕｒｉｔｙＳｙｍｐｏｓｉｕｍ．ＳａｎＤｉｅｇｏ，ＵＳＡ，２０１８：１１６

犣犎犃犖犌犕犲狀犵犔犻，ｂｏｒｎｉｎ１９９３，Ｍ．Ｓ．ｃａｎｄｉｄａｔｅ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙａｎｄｂｉｇｄａｔａｓｅｃｕｒｉｔｙ．

犣犎犃犖犌犙犻犎狌犻，ｂｏｒｎｉｎ１９８３，Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ，ｌｅｃｔｕｒｅｒ．Ｈｅｒｍａｉｎｒｅｓｅａｒｃｈｆｏｃｕｓｅｓｏｎｂｉｇｄａｔａｓｅｃｕｒｉｔｙ．

犔犐犝犠犲狀犉犲狀，ｂｏｒｎｉｎ１９６５，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ，Ｐｈ．Ｄ．ｓｕｐｅｒｖｉｓｏｒ．Ｈｅｒｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｃｒｙｐｔｏｇｒａｐｈｙａｎｄｉｎｆｏｒｍａｔｉｏｎｓｅｃｕｒｉｔｙ．

犎犝犡狌犲犡犻犪狀，ｂｏｒｎｉｎ１９８２，Ｐｈ．Ｄ．，ｌｅｃｔｕｒｅｒ．Ｈｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｓｅｃｕｒｉｔｙｐｒｏｔｏｃｏｌａｎｄｂｉｇｄａｔａｓｅｃｕｒｉｔｙ．

犠犈犐犑犻犪狀犵犎狅狀犵，ｂｏｒｎｉｎ１９８７，Ｐｈ．Ｄ．，ｌｅｃｔｕｒｅｒ．Ｈｉｓｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅａｕｔｈｅｎｔｉｃａｔｉｏｎｐｒｏｔｏｃｏｌ，ｂｉｇｄａｔａｓｅｃｕｒｉｔｙａｎｄｐｒｉｖａｃｙｐｒｏｔｅｃｔｉｏｎ

犅犪犮犽犵狉狅狌狀犱Ｉｄｅｎｔｉｔｙａｕｔｈｅｎｔｉｃａｔｉｏｎｉｓａｋｅｙｌｉｎｅｏｆｄｅｆｅｎｓｅｆｏｒｎｅｔｗｏｒｋ

ｓｅｃｕｒｉｔｙ，ａｎｄｐａｓｓｗｏｒｄｓｈａｖｅｌｏｎｇｂｅｅｎｔｈｅｍａｉｎｓｔｒｅａｍｏｆｉｄｅｎｔｉｔｙａｕｔｈｅｎｔｉｃａｔｉｏｎ．Ｔｈｅａｎａｌｙｓｉｓａｎｄｅｖａｌｕａｔｉｏｎｏｆｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙｃａｎｂｅｃｏｎｄｕｃｔｅｄｂｙｕｓｉｎｇａｔｔａｃｋａｌｇｏｒｉｔｈｍｔｏｍａｋｅａｃｔｕａｌａｔｔａｃｋａｎｄｔｈｅｎｍｅａｓｕｒｅｉｔａｃｃｏｒｄｉｎｇｔｏａｔｔａｃｋｒｅｓｕｌｔ．Ｃｕｒｒｅｎｔｌｙ，ｔｈｅｗｉｄｅｌｙｕｓｅｄｍｅａｓｕｒｅｉｓｔｈｅｎｕｍｂｅｒｏｆｇｕｅｓｓｅｓｎｅｅｄｅｄｔｏｓｕｃｃｅｓｓｆｕｌｌｙａｔｔａｃｋｔｈｅｐａｓｓｗｏｒｄ．Ｐａｓｓｗｏｒｄａｔｔａｃｋｉｓａｎｉｍｐｏｒｔａｎｔｍｅａｎｓｏｆｐａｓｓｗｏｒｄｓｅｃｕｒｉｔｙｒｅｓｅａｒｃｈ．

Ｐｒｏｂａｂｉｌｉｔｙｍｏｄｅｌｉｓｔｈｅｍｏｓｔｅｆｆｉｃｉｅｎｔｐａｓｓｗｏｒｄａｔｔａｃｋｍｏｄｅｌ，ａｍｏｎｇｔｈｅｍ，ｐｒｏｂａｂｉｌｉｓｔｉｃｃｏｎｔｅｘｔｆｒｅｅｇｒａｍｍａｒ（ＰＣＦＧ）ａｎｄＭａｒｋｏｖｃｈａｉｎｂａｓｅｄｍｏｄｅｌｓａｒｅｔｈｅｍｏｓｔｅｆｆｅｃｔｉｖｅｍｅｔｈｏｄｓｏｆｐａｓｓｗｏｒｄａｔｔａｃｋａｔｐｒｅｓｅｎｔ．Ｔｈｅｙｅｆｆｅｃｔｉｖｅｌｙｃｈａｒａｃｔｅｒｉｚｅｔｈｅｐａｓｓｗｏｒｄｓｆｒｏｍｔｈｅｓｕｂｓｔｒｕｃｔｕｒｅｌｅｖｅｌａｎｄｔｈｅｃｈａｒａｃｔｅｒｄｅｐｅｎｄｅｎｔｌｅｖｅｌｒｅｓｐｅｃｔｉｖｅｌｙ．ＴｈｅｒｅｓｅａｒｃｈｅｒｓｐｒｏｐｏｓｅｄｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｐａｓｓｗｏｒｄａｔｔａｃｋｍｏｄｅｌｂａｓｅｄｏｎＰＣＦＧａｎｄＭａｒｋｏｖｃｈａｉｎｔｏｒｅａｃｈｔｈｅｂｅｓｔａｔｔａｃｋｌｅｖｅｌｉｎｔｈｅｓａｍｅｐｅｒｉｏｄ．Ｈｏｗｅｖｅｒ，ｔｈｅＰＣＦＧｂａｓｅｄｍｏｄｅｌｃａｎａｂｓｔｒａｃｔｔｈｅｐｏｓｓｉｂｌｅｂａｓｉｃｐａｓｓｗｏｒｄｓｔｒｕｃｔｕｒｅａｃｃｕｒａｔｅｌｙ，ｂｕｔｉｔｓｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙｉｓｗｅａｋ．ＡｌｔｈｏｕｇｈｔｈｅＭａｒｋｏｖｃｈａｉｎｂａｓｅｄｍｏｄｅｌｃａｎｉｍｐｒｏｖｅｔｈｅｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙｂｙａｄｊｕｓｔｉｎｇｔｈｅｏｒｄｅｒ，ｔｈｅｒｅｉｓａｂｉａｓｉｎｅｓｔｉｍａｔｉｎｇｔｈｅｐａｓｓｗｏｒｄｐｒｏｂａｂｉｌｉｔｙ．

Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅａｐａｓｓｗｏｒｄａｔｔａｃｋｍｅｔｈｏｄｂａｓｅｄｏｎｓｔｒｕｃｔｕｒｅｐａｒｔｉｔｉｏｎａｎｄｓｔｒｉｎｇｒｅｏｒｇａｎｉｚａｔｉｏｎ，ｗｈｉｃｈｉｓｄｅｎｏｔｅｄａｓＳＰＳＲｍｏｄｅｌ．Ｆｉｒｓｔｌｙ，ｔｈｅｐａｓｓｗｏｒｄｓａｒｅｄｉｖｉｄｅｄｉｎｔｏａｂｓｔｒａｃｔｓｕｂｓｔｒｕｃｔｕｒｅｓ，ａｎｄｔｈｅｎｓｕｂｓｔｒｉｎｇｓｏｆｃｈａｒａｃｔｅｒｓ，ｎｕｍｂｅｒｓａｎｄｓｙｍｂｏｌｓｉｎｓｕｂｓｔｒｕｃｔｕｒｅｓａｒｅｇｅｎｅｒａｔｅｄｂｙｕｓｉｎｇａｎｉｍｐｒｏｖｅｄＭａｒｋｏｖｃｈａｉｎｍｏｄｅｌｔｏｔａｋｅａｃｃｏｕｎｔｏｆｔｈｅａｃｃｕｒａｃｙａｎｄｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙｏｆｔｈｅｍｏｄｅｌ．Ｉｎａｄｄｉｔｉｏｎ，ｗｅａｌｓｏｉｎｔｒｏｄｕｃｅｃｏｍｍｏｎｃｈａｒａｃｔｅｒｓｅｇｍｅｎｔｉｎｔｈｅｓｔｒｕｃｔｕｒｅｄｉｖｉｓｉｏｎｓｔａｇｅ，ａｎｄａｄｄｔｈｅｉｎｄｅｘｂｉｔｔｏｅｘｐｌｉｃｉｔｌｙｄｅｐｉｃｔｔｈｅｐｏｓｉｔｉｏｎｏｆｔｈｅｓｐｅｃｉａｌｃｈａｒａｃｔｅｒｓｉｎｔｈｅｐａｓｓｗｏｒｄｓ．Ｄｕｒｉｎｇｔｈｅｓｔｒｉｎｇｒｅｏｒｇａｎｉｚａｔｉｏｎｐｈａｓｅ，ｗｅｒｅｄｕｃｅｒｅｐｅａｔｅｄｃａｌｃｕｌａｔｉｏｎｉｎｔｈｅｇｅｎｅｒａｔｉｏｎｏｆｓｕｂｓｔｒｉｎｇ’ｓｐｒｏｂａｂｉｌｉｔｙ，ｖｉａｐｒｏｐｏｓｉｎｇａｎｉｍｐｒｏｖｅｄＯＭＥＮａｌｇｏｒｉｔｈｍｃａｌｌｅｄＲｅｃｕｒｓｉｖｅＯＭＥＮ．ＡｓｅｒｉｅｓｏｆｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈｅａｄｖａｎｔａｇｅｓｏｆｔｈｅｎｅｗｍｏｄｅｌｓａｎｄａｌｇｏｒｉｔｈｍｃｏｍｐａｒｅｄｗｉｔｈＰＣＦＧａｎｄＭａｒｋｏｖｃｈａｉｎｂａｓｅｄｍｏｄｅｌｓ．

ＴｈｉｓｐａｐｅｒｉｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（ＧｒａｎｔＮｏｓ．６１５０２５２７，６１７０２５４９，６１８６２０１１，６１８７２４４９），ｔｈｅＧｕａｎｇｘｉＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎ（ＧｒａｎｔＮｏ．２０１８ＧＸＮＳＦＡＡ１３８１１６）ａｎｄｔｈｅＧｕａｎｇｘｉＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｒｙｐｔｏｇｒａｐｈｙａｎｄＩｎｆｏｒｍａｔｉｏｎＳｅｃｕｒｉｔｙ（Ｎｏ．ＧＣＩＳ２０１７０４）．

８２９计　　算　　机　　学　　报２０１９年

《计

算机

学报

》

一种基于结构划分及字符串重组的口令攻击方法cjc.ict.ac.cn/online/onlinepaper/zml-201941793554.pdf ·...

Documents

Transcript of 一种基于结构划分及字符串重组的口令攻击方法cjc.ict.ac.cn/online/onlinepaper/zml-201941793554.pdf ·...