PDF文库 - 千万精品文档,你想要的都能搜到,下载即用。

韩伟力 中文主页--代表性论文.pdf

simple love[简单爱]17 页 3.239 MB下载文档
韩伟力 中文主页--代表性论文.pdf韩伟力 中文主页--代表性论文.pdf韩伟力 中文主页--代表性论文.pdf韩伟力 中文主页--代表性论文.pdf韩伟力 中文主页--代表性论文.pdf韩伟力 中文主页--代表性论文.pdf
当前文档共17页 2.88
下载后继续阅读

韩伟力 中文主页--代表性论文.pdf

计 算 机 学 报 CHINESEJOURNAL OFCOMPUTERS 第 40 卷 第 5 期 2017 年 5 月 Vo l.40 No.5 May2017 一种基于样本的模拟口令集生成算法 韩伟力 袁 琅 (复旦大学软件学院 李思斯 上海 201203) (上海市数据科学重点实验室 摘 要 王晓阳 上海 201203) 大规模的用户口令集因可用于评估口令猜 测 算 法 的 效 率、检 测 现 有 用 户 口 令 保 护 机 制 的 缺 陷 等,而 广 受 系统安全研究领域的重视 .然而,尽管可以通过一些 渠 道,譬 如 网 站 口 令 泄 露、用 户 自 愿 征 集 或 者 个 别 网 站 出 于 研 究目的的共享等,获取真实的大规模用户明文口令对当前研究人员来说仍然非 常 困 难 .为 应 对 上 述 问 题,该 文 提 出 了一种基于样本的模拟口令集生成算法( Samp l ePe r t u r ba t i onBa s edPa s swo r dGene r a t i on, SPPG).该算法利用较容 易获得的小规模真实口令样本,通过学习生成概率 模 型,并 产 生 大 规 模 用 户 口 令 集 合 .为 评 估 这 一 算 法 的 效 能,该 文提出了 一 组 模 拟 口 令 集 质 量 的 检 测 指 标,包 括 真 实 口 令 覆 盖 率、 Z i f分 布 拟 合 度 等 .最 后,论 文 对 比 了 SPPG 算 p 法与当前常见的用户口令猜测概率模型,包括概率上 下 文 无 关 文 法 和 多 种 马 尔 科 夫 模 型,在 生 成 用 户 口 令 集 上 的 效能差异 .结果显示, SPPG 算法产生的模拟口令集在各指 标 下 都 有 更 好 的 表 现 .平 均 地,在 真 实 口 令 覆 盖 率 上,相 对上下文无关文法和四阶马尔科夫模型分别提高了 9 .58% 和 72 .79% ,相对 三 阶 和 一 阶 马 尔 科 夫 模 型 分 别 提 高 了 10 .34 倍和 13 .41 倍,并且 Z i f分 布 的 拟 合 度 保 持 在 0 .9 及 以 上 的 水 平 .同 时,其 口 令 结 构 分 布 和 特 殊 模 式 的 使 用 p 也更符合真实用户生成口令的情况 . 关键词 口令安全;口令集生成;样本;概率上下文无关文法;马尔科夫模型 中图法分类号 TP391 犇犗犐号 10. 11897/SP. J. 1016. 2017. 01151 犃狀犈犳 犳 犻 犮 犻 犲狀 狋犃犾 狉 犻 狋 犺犿狋 狅犌犲狀犲 狉 犪 狋 犲犘犪 狊 狊狑狅 狉 犱犛 犲 狋 狊犅犪 狊 犲 犱狅狀犛犪犿狆 犾 犲 狊 犵狅 HAN We i L i YUAN Lang LIS i S i WANG Xi ao Yang ( 犛狅犳狋狑犪狉 犲犛犮犺狅狅 犾,犉狌犱犪狀犝狀 犻 狏犲 狉 狊 犻 狋 犻 201203) 狔,犛犺犪狀犵犺犪 ( 犛犺犪狀犵犺犪 犻犓犲狔犔犪犫 狅 狉犪 狋 狅 狉狔狅犳 犇犪 狋 犪犛犮 犻 犲狀犮 犲,犛犺犪狀犵犺犪 犻 201203) 犃犫 狊 狋 狉 犪 犮 狋 La r s c a l er e a lus e rpa s swo rds e t sa r ewe l lr ega r dedimpo r t an ti nt hef i e l do fsys t em ge s e cu r i t e s e a r ch,duet ot he i rus age si neva l ua t i ngt hee f f i c a cy o ft hea l r i t hmst ha tgue s s yr go t e c t i ngde f e c t so fex i s t i ngpa s swo rdp r o t e c t i on me chan i sms,e t c.Atpr e s en t, s swo r ds,andde pa s ome ways o fc ap t u r i ng r e a l pa s swo rdsa r eava i l ab l ef o rr e s e a r che r s,such a sa c c i den t a lo r ma l i c i ouspa s swo r dsd i s c l osur e,vo l un t a r e rcon t r i bu t i ons,o rsha r i ngbyvo l un t a r i t e s yus y webs f o rr e s e a r chpu r s e s.Howeve r,t he r ea r esomes e r i ousl imi t a t i onsi nvo l vedi nco l l e c t i ng us e r po s swo r ds e t si nt heaboveways.Fo rexamp l e,pa s swo rds e t st ha ta r ec ap t u r edf r om pa s swo r ds pa he r e f o r et he i rqua l i t anno tbegua r an t e ed.Wha t’ s d i s c l osu r emayhavebe ent ampe r ed,andt yc so ft he s epa s swo r ds e t sa r el imi t ed.Asar e su l t,i ti ss t i l ld i f f i cu l tf o rr e s e a r che st o mo r e,t ype havea c c e s st ot hel a r s c a l ec l e a r  t ex tus e rpa s swo rdsi nas t ema t i c manne r.Mo t i va t edt o ge ys , r e s o l vet heabovei s sue t h i spape rp r e s en t sas amp l epe r t urba t i onba s ed pa s swo rd gene r a t i on a l r i t hm( SPPGf o rsho r t).Thea l r i t hmi st ous eag i vensma l l  s c a l er e a lus e rpa s swo rds amp l e go go a sat r a i n i ngs e tt ogene r a t eap r obab i l i t lt ha tc ant henbeus edt op r ov i del a r s c a l epa s swo rd ymode ge 收稿日期: 2016  10  31;在线出 版 日 期: 2017  03  01.本 课 题 得 到 上 海 市 科 委 “创 新 行 动 计 划 项 目 ”( 16DZ1100200)、国 家 自 然 科 学 基 金 ( 61572136, 61370080)资助 .韩伟力,男, 1975 年生,博士,教授,中国计算机学会( CCF)高级会员,主要 研 究 方 向 为 访 问 控 制、网 络 身 份 安 全、大数据 . Ema i l:wl han@f udan. edu. cn.袁 琅,女, 1993 年生,硕士研究生,主要研究方向为信息安全 .李思斯,女, 1995 年 生,硕 士 研 究生,主要研究方向为信息安全 .王晓阳,男, 1955 年生,博士,教授,中国计算机学会( CCF)高级会员,主要研究领域为数据分析与安全 . 计 1152 算 机 学 报 2017 年 s e t s.Thesma l l  s c a l es amp l ei sr e l a t i ve l a s i e rt oob t a i n.Wi t ht hepu rpos eo fimp r ov i ngt he ye , au t hen t i c i t ft hes imu l a t i onpa s swo rds e t st heSPPGa l r i t hmi sde s i s edont hei de ao f yo go gnedba s amp l e pe r t u rba t i on.On t he one hand,t he a l r i t hm t ake s advan t age o ft he Pr obab i l i s t i c go Con t ex t Fr e eGr amma rt opa r s et hes amp l e,andt hengene r a t e spa s swo rdst ha thavet hes ame s t ruc t ur e swi t h pa s swo r dsi nt hes amp l e.Ont heo t he rhand,i ta l so u t i l i z e sru l e st ha ta r e , f r e t l edf o ru s e r st od e f o rmt he i rpa s swo r d s andt hengene r a t e spa s swo r d st ha ta r es imi l a rt o quen yus s swo r dsi nt hes amp l e.Toeva l ua t et hee f f i c a c ft heSPPGa l r i t hm,t h i spape rp r e s en t sa pa yo go s e to fc r i t e r i at oeva l ua t et hequa l i t ft hes imu l a t i onpa s swo rds e t s.The s ec r i t e r i ai nc l udet he yo c ove r ager a t eo ft her e a lpa s swo rds,t hegoodne s so ff i tt ot heZ i fd i s t r i bu t i on,t hes imi l a r i t f p yo s swo r ds t ruc t u r ed i s t r i bu t i onsandt hepr opo r t i ono fspe c i a lpa t t e rns.I nt heend,t h i spape r pa compa r e st hee f f i c a c ft heSPPG a l r i t hm wi t ht hepopu l a rpr obab i l i t l so fpa s swo rd yo go y mode s s i ng,i nc l ud i ngt hePr obab i l i s t i cCon t ex t Fr e eGr amma rands eve r a lva r i an t so ft he Ma rkov gue mode l s.I nt heexpe r imen t,sma l l  s c a l es amp l e sa r er andoml e l e c t edf r omr e a lus e rpa s swo rd ys , s e t s andt hena r eu s e dbyd i f f e r en tmode l st ogene r a t et hes imu l a t i onpa s swo r ds e t s.Theexpe r imen t r e su l t sshowt ha tt heSPPGa l r i t hmha sbe t t e rpe r f o rmanc e s.Onave r age,t hecove r ageo ft he go r e a lpa s swo r dsi simp r ovedby9 .58% and72 .79% r e spe c t i ve l r ed wi t ht hePr obab i l i s t i c ycompa Con t ex t Fr e eGr amma randt he4  o r de rMa rkovmode l.Andt hecove r ageo ft her e a lpa s swo rdsi s 10 .34t ime smo r et hant he3  o rde rMa rkovmode land13 .41t ime smo r et hant he1  o r de rMa rkov hegoodne s so ff i tt ot heZ i fd i s t r i bu t i onr ema i nsa tah i eve lt ha ti snol e s s mode l.Be s i de s,t p ghl t han0 .9.Asf o rt he pa s swo rds t ruc t ur ed i s t r i bu t i onandt he p r opo r t i on o fspe c i a lpa t t e rns, s imu l a t i onpa s swo r ds e t sgene r a t edbyt heSPPGa l r i t hma r ea l s oshownt obemo r es imi l a rt o go t her e a lpa s swo rds e t scompa r edwi t hs imu l a t i onpa s swo rds e t sgene r a t edbyt heo t he rmode l s. 犓犲 狉 犱 狊 pa s swo r ds e c u r i t s swo r ds e tgene r a t i on;s amp l e;pa s swo rdc on t ex t  f r e eg r amma r; y;pa 狔狑狅 Ma rkovmode l 由于数据污染而包 含 大 量 的 相 同 条 目,这 样 的 口 令 1 引 言 集会给口令研究的结果带来偏差 .甚至,迄今为止尚 不能判断这些数据集是否还存在其他的污染 . 文本口令是目前最常用的网站用户认证方式之 ( 2)当 前 泄 露 的 用 户 真 实 口 令 种 类 有 限 .当 前 一 .它在为用户和网 站 管 理 者 提 供 使 用 便 利 的 同 时 泄露的大规模 用 户 口 令 集 通 常 都 是 基 于 Web 的 论 也伴随着严重的安全威胁 .在系统安全研究领域,大 坛型网站口令集,缺少包括网上银行、企业信息系统 规模的用户口令集因可用于评估口令猜测算法的效 等更为敏感的信息 系 统 口 令 集 .这 使 得 研 究 人 员 得 率、检测现有用户口令保护机制的缺陷等,而成为十 到的研究结果不能直接影响到这些高度敏感系统的 分关键的研究材料 .当前,真实的用户口令集可通过 安全防护 . 一些渠道收集,如:部分口令安全研究直接利用公开 ( 3)当 前 泄 露 的 口 令 集 存 在 时 效 性 问 题 .随 着 可获得的 大 规 模 泄 露 口 令 作 为 用 户 口 令 集 进 行 研 时间的推移,很多系 统 采 取 单 向 加 密 机 制 保 护 存 储 究 [ 1  3] ;也有研究者通过用户自愿征集的方式来收集 的用户口令,使得研 究 人 员 通 过 口 令 泄 露 获 取 用 户 口令;另外,个别网站还会出于研究目的而共享用户 明文口令变得越来 越 困 难 .这 导 致 当 前 的 口 令 安 全 口令 [ 4] .然而,后两 种 渠 道 获 取 的 口 令 规 模 有 限,而 研究很多采用的是 2012 年左右泄露的用户口令 . 网上泄露的用户口令又有着其他严重的局限,例如: 综 上,有 针 对 性 地 获 取 大 规 模 的 用 户 口 令 集 对 ( 1)当 前 泄 露 的 用 户 真 实 口 令,其 数 据 质 量 不 能保证,导致研究结 果 会 随 着 数 据 质 量 的 差 异 而 不 一致 .例如文献[ 5]指出 Ti anya① 和 7k7k② 口令 集, //he /h Ti anya.h t t l i anya.cn/abou t i s t o r p: p.t y/2011/06/ 02/166666. sh tm //www. /abou 7k.h t t 7k7k. c om/h tml t. h tm ② 7k p: ① 5期 韩伟力等:一种基于样本的模拟口令集生成算法 1153 于研究人员来说仍 然 十 分 困 难 .然 而 无 论 是 真 实 用 的真实性 .本文认为,口令概率模型生成的口令集真 户口令集还是高质 量 的 模 拟 用 户 口 令 集,对 于 评 估 实性可以通过模拟口令是否符合真实用户设置口令 用户口令猜测算法 的 效 率、评 估 用 户 口 令 强 度 度 量 的习惯来判断 .这 涉 及 两 个 层 次 的 条 件:首 先,模 拟 方法的有效性、构建口令字典等都同样十分重要 . 口令集需要符合人类口令集普遍的分布规 律 .Wang 为 了 解 决 这 一 问 题,本 文 利 用 机 器 学 习 领 域 虚 等人对网 站 用 户 口 令 集 的 整 体 频 率 分 布 进 行 了 研 拟样本生成的思想,提 出 了 一 种 利 用 现 有 的 口 令 作 究 ② ,他们指出 用 户 口 令 集 的 口 令 出 现 频 次 与 频 次 为小样本来生成能反映目标网站真实用户口令选择 的排序 之 间 存 在 Z i f 分 布 的 特 点 .因 此,利 用 Z i f p p 的模拟口令集的方法 .通过这一方法生成的口令集, 分布的拟合程度来评估模拟口令集应是个良好的指 由于用户口令的小 样 本 相 对 可 控,因 此 无 论 是 大 规 标;其次,模拟口令集需要描述样本对应的网站中用 模模拟数据集的质量、用户口令的种类,还是用户口 户口令设置习惯,例 如 该 网 站 中 所 有 口 令 的 长 度 分 令的时效性都可以得到有效保障 . 布、字符类型分布 等 .本 文 综 合 考 虑 了 这 两 个 条 件, 在 机 器 学 习 领 域,虚 拟 样 本 是 指 在 未 知 样 本 概 率分布函数的情况 下,利 用 研 究 领 域 先 验 知 识 并 结 并提出从真实口令覆盖率、 Z i f分布拟合度、口令 结 p 构分布以及特殊模式的使用这 4 个方面对口令集真 合已有的训练样本,产 生 待 研 究 问 题 的 样 本 空 间 中 实性进行全面的统计分析 .结果显示,由 SPPG 算法 [ 6] .在模拟口令集生成的问题中,先 验知识表现为现有的口令研究中发现的一些用户口 Ma rkov 模型具有更高的真实性 . 令设置规律,已有的 样 本 即 研 究 者 能 够 获 取 的 小 规 本文的主要贡献包括: 模口令数据 .模拟口 令 集 的 目 标 是 尽 可 能 生 成 属 于 ( 1)提出了一种 高 效 的 基 于 样 本 的 模 拟 口 令 集 真实用户口令分布 空 间 中 的 合 理 样 本,即 生 成 大 规 生成算法 SPPG.该 算 法 利 用 小 规 模 用 户 真 实 口 令 模真实的网站用户 口 令 .用 户 口 令 的 生 成 方 法 总 体 样本,采用基于扰动 的 方 式 生 成 大 规 模 模 拟 口 令 数 可以归纳为 3 类:( 1)基于特定场景的 规 则(如 长 度 据. SPPG 算法借 助 了 上 下 文 无 关 文 法 学 习 生 成 概 限制或字符种类限制等)产生具有一定特征的口令; 率模型,但进一步对 该 模 型 空 间 进 行 了 裁 剪 并 添 加 ( 2)基于字典,再结合一些变形产生口令 .当前流行的 口令攻击工具J ohnt heRi r① 产生候选口令的字 ppe 了与样本具有更高 相 关 性 的 口 令,增 加 了 模 拟 口 令 的部分合理样本 典模式就属于这种情况;( 3)建立 口 令 概 率 模 型,训 练口令数据,并生成概率模型空间中的其他口令 .常 [] 用的用户口令模 型 包 括 Na r ayanan 和 Shma t i kov7 在 2005 年提 出 的 基 于 马 尔 科 夫 模 型 (以 下 简 写 为 [] “Ma rkov”模 型)的 口 令 生 成 方 法 和 We i r等 人 8 在 2009 年提出的基于概率上下文无关文法( Pr obab i l i s t i c Con t ex t Fr e eGr amma r,以 下 简 写 为 “ PCFG”)的 口 令生成方法 .在用户口令研究中,口令生成主要用于 网站口令猜测攻击 .基于概率模型的方法由于相对其 他方法具有更好的 适 应 性 和 扩 展 性,因 此 是 目 前 最 有效的口令攻击方法之一 .然而,这些以攻击为目的 而生成的口令在恢 复 网 站 原 始 口 令 的 同 时,也 包 含 许多不属于真实用 户 设 置 的 口 令 .本 文 提 出 的 基 于 样本的 模 拟 口 令 集 生 成 算 法 ( Samp l ePe r t urba t i on SPPG”) Ba s edPa s swo r dGene r a t i on,以 下 简 写 为 “ 充分考虑到现有口 令 生 成 模 型 的 不 足,并 在 它 们 的 基础上实现了更优的模拟口令生成效能 . 本文也提出了一组指标来评估口令集生成算法 的有效性 .评估的标 准 主 要 是 所 生 成 的 模 拟 口 令 集 生成的模 拟 口 令 集 相 比 PCFG 模 型 和 一 阶 或 多 阶 集的真实性 .另外, SPPG 算法 不 必 对 整 个 口 令 空 间 进行概率排序,这明显提高了模拟口令集生成速度 . 平均地, PCFG 模 拟 口 令 集 的 生 成 时 间 约 为 SPPG 的2 .43 倍;而单机的一阶 Ma rkov 模 拟口 令 集 生 成 时间约为 SPPG 的 33 .64 倍 . ( 2)提出利用多 个 指 标 从 不 同 角 度 对 模 拟 口 令 集的质量进行综合 评 估 的 方 法 .以 中 英 文 网 站 泄 露 的大量真实口令 数 据 为 实 验 材 料,对 比 了 SPPG 算 法与现有两种主要口令模型分别生成的模拟口令集 的真实性 .评估 结 果 显 示 SPPG 的 模 拟 口 令 集 的 真 实口令覆盖率相对 PCFG 提 高了 9 .58% ,相 对一 阶 Ma rkov 提高了 13 .41 倍;在 不 同 样 本 和 模 拟 规 模 下Z i f拟合度始终保持 在 0 .9 以 上,能 较 好 地 符 合 p Z i f分 布;口 令 结 构 分 布 和 包 含 特 殊 模 式 的 口 令 比 p 例都比 PCFG 和 Ma rkov 模型更接近真实 用 户 生成 口令的情况 . //www. J ohnt heRi rpa s swo r dc r a cke r.h t t openwa l l. ppe p: c om/ ohn/ j //ep i f’ sLawi nPa s swo r ds.h t t r i n t. i a c r. o r ② Z p ps: g/2014/ 631. f2014 pd ① 计 1154 算 机 学 报 2017 年 本文第 1 节 描 述 背 景 和 主 要 的 研 究 内 容;第 2 方法 .一个 狀 阶 马 尔 科 夫 链 的 计 算 公 式 可 表 示 为 节介绍相关工作,包括两种口令概率模型、虚拟样本 生成方法和现有的 口 令 特 征 研 究;第 3 节 提 出 基 于 犘( 狓犻|狓犻-1 , 狓犻-2 ,…, 狓1 )=犘 ( 狓犻|狓犻-1 ,…, 狓犻-狀 ).对 口令“ 犮1犮2犮3 …犮犻”,按 一 阶 马 尔 科 夫 模 型 计 算 其 概 率 小样本的模拟口令 集 生 成 算 法;第 4 节 利 用 多 个 评 为 犘(“ 犮1犮2犮3 …犮犻”)=犘( 犮1| 犮0 ) 犘( 犮2| 犮1 ) 犘( 犮3| 犮2 )… 估指 标 对 比 几 种 模 型 产 生 的 模 拟 口 令 集 质 量;第 5 节是实验要点和其他问题的讨论;最后,第 6 节对本 犘( 犮犻| 犮犻-1 ),其 中犮0 表 示 开 始 字 符,而 犘( 犮犻| 犮犻-1 )的 值从训练集中统计而来 .概率模型建立之后,口令生 文进行总结和展望 . 成过程根据由马尔科夫链形成的树形结构而从根部 开始搜索可能的所有口令 . 2 相关工作 一些研究试图对 PCFG 和 Ma rkov 模型 进行 改 [ ] 进 .例如, Zou 等 人 13 指 出 PCFG 模 型 中 基 本 的 高 2 1 口令概率模型 利用口令概率模型生成口令的过程大致包括训 概率口令结构能产 生 的 口 令 数 目 较 少,因 此 将 这 些 练口令样本,建立概率模型,再输出概率空间中包含 的所有可 能 口 令 .Ma 等 人 [9]对 口 令 概 率 模 型 设 计 Ve r a s等人 14 提出 基 于 自 然 语 言 处 理 的 方 法 .其 核 心思想是在 PCFG 算 法 的 基 础 上,通 过 分 词 和 词 性 空间做了详细的总 结,他 们 将 口 令 模 型 分 为 基 于 整 标注进一步挖掘字 母 片 段 中 包 含 的 语 义 信 息 .自 然 个字符串的模型和 基 于 模 板 的 模 型 .基 于 模 板 的 模 语言处理方法目前的口令猜测攻 击效 果 介于 PCFG 型将一个用户口令 分 解 为 几 个 片 段,然 后 分 别 为 每 [ ] [, ] 和 Ma rkov 之间 15 .一 些 研 究 9 16 也 用 实 验 对 比 了 个片 段 计 算 概 率 .典 型 的 代 表 为 PCFG 模 型 [8].而 基于整个字符串的 模 型 则 没 有 分 段 的 概 念 .典 型 代 PCFG 和 Ma rkov 模 型 口 令 猜 测 的 表 现 .通 常, PCFG 模型在猜测初期即尝试次 数较 少 的时 候 猜 测 [ ] 表为 Ca s t e l l uc c i a等人 10 提出的基 于 整 个 字 符 串 的 效率 比 Ma rkov 模 型 更 高;但 PCFG 模 型 最 终 的 覆 Ma rkov 模型,另外 还 有 Me l i che r等 人 于人工神经网络的模型等 . [ 11] 提出的基 2 .1 .1 基于上下文无关文法的口令生成 PCFG 是一种 基 于 模 板 的 口 令 模 型 .该 方 法 将 高概率 口 令 结 构 按 用 户 划 分 习 惯 进 行 再 次 划 分 . [ ] 盖率比较有 限,而 Ma rkov 模 型 在 猜 测 后 期 表 现 更 [ ] 好. Ur等人 17 指出,由于不 同 的 概 率 模 型 在 口 令 猜 测的有效性上存在 系 统 性 的 差 别,依 赖 任 何 一 种 单 一的模型都难以取得理想的结果 .各模型在使用时, 口令用数字( D)、字 母 ( L)和 特 殊 字 符 ( S)这 3 种 形 式表示,且连续相同类型的字符划归到同一片段 .例 需要仔细地配置并与其他方法进行结合 . 如口令“ s swo r d123”表 示 为 L8D3 ,称 为 半 终 端 结 pa 构 .口令概率的计算 分 为 半 终 端 结 构 的 计 算 和 半 终 的算 法 .后 文 中 讨 论 的 PCFG 和 Ma rkov 模 型 生 成 口令集是一种通用 的 模 拟 口 令 集 生 成 途 径 .本 文 用 端 结 构 实 例 化 为 具 体 字 符 串 的 计 算 .例 如,口 令 它们的对比实验来展示本文提出算法的效率 . “ s swo r d123”的概率计算为 pa s swo r d123”)=犘( s swo rd” 犘(“ L8D3) 犘(“ |L8) pa pa 2 2 使用样本生成模拟数据集 在 机 器 学 习 领 域,虚 拟 样 本 生 成 技 术 已 经 得 到 犘(“ 123” |D3). 概率模型建立好之 后,口 令 生 成 过 程 通 过 优 先 队 列 了许多研究 .这些研 究 按 照 生 成 思 想 大 致 可 以 分 为 实现概率从高到低的输出 . 2 .1 .2 基于马尔科夫模型的口令生成 马 尔 科 夫 模 型 本 身 是 自 然 语 言 处 理 中 的 方 法, [ 7] 本文首次提出了专门用于生成模拟用户口令集 [ ] 3 类 18 :( 1)基 于 研 究 领 域 具 体 的 先 验 知 识 构 造 虚 拟样本;( 2)基于 扰 动 的 思 想 构 造 虚 拟 样 本;( 3)基 于研究领域的分布 函 数 构 造 虚 拟 样 本 .在 口 令 生 成 的方法中,基于规则 限 制 和 基 于 字 典 的 方 法 类 似 于 首次用来描述口令的字符序 基于先验知识的构 造 方 法;用 概 率 模 型 生 成 候 选 口 列 分 布 ,从 而 帮 助 约 减 口 令 猜 测 空 间 ,并 实 现 快 速 令的方法类似于基 于 分 布 构 造 函 数 的 构 造 方 法 .在 的 字 典 攻 击 .文 献 [ 10]基 于 这 一 模 型 计 算 口 令 概 生成模拟口令集的 场 景 中,简 单 的 基 于 规 则 的 生 成 率 ,实 现 了 具 有 适 应 性 的 口 令 强 度 评 估 标 准 .后 来 方法要求目标集合 具 有 明 显 的 规 则 特 征;基 于 字 典 其 他 研 究 者 [12]也 使 用 Ma rkov 模 型 进 行 猜 测 攻 击 的口令生成方法适 应 性 和 口 令 空 间 的 覆 盖 率 有 限; 实验并验证了该模型的有效性 .文献[ 9]还对马尔科 基于概率模型的方法由于并不能完整地描述小样本 夫链的 多 种 变 形 做 了 详 细 讨 论,包 括 马 尔 科 夫 链 中包含的口令分布信息,所以合 理 性有 限 .以 PCFG 不同阶数的 选 择 以 及 一 些 标 准 化 处 理 和 平 滑 处 理 和 Ma rkov 模型 为 例, PCFG 模 型 重 点 描 述 了 半 终 由 Na r ayanan 等 人 5期 韩伟力等:一种基于样本的模拟口令集生成算法 1155 端结构的计 算 和 半 终 端 结 构 实 例 化,而 Ma rkov 模 指出 用 户 口 令 特 征 会 以 某 些 方 式 随 着 时 间 不 断 型则更关注相邻字 符 之 间 的 链 式 概 率 关 系 .它 们 都 改变 . 在一定程度上对 训 练 口 令 进 行 了 解 析 和 概 率 统 计, 但都不够完整 .事实上,在先验知识有限且分布构造 2 .3 .3 口令中的语义信息 研 究 发 现 语 言、地 区 文 化 等 因 素 也 会 影 响 口 令 函数难以确认的情 况 下,生 成 基 于 样 本 的 模 拟 口 令 的设置 .文献[ 21]调 研 了 4 个 公 司 的 口 令 构 造 异 同 集最适宜采用基于扰动的思想 . 并展示了中国文化 对 口 令 设 置 的 影 响 .例 如 中 文 用 文献[ 19]以 建 立 优 良 的 口 令 强 度 标 准 为 目 的, 对 PCFG 和 Ma rkov 模 型 的 局 限 性 作 了 初 步 的 分 户的 口 令 中 会 包 含 一 些 与 普 通 话 有 谐 音 的 数 字 析 .他们指出用户设 置 口 令 时 倾 向 于 直 接 对 现 有 的 (“ 5201314”、“ 7758520”等).文献[ 22]利用可视化方 法调研了口令中的 语 义 信 息,并 且 发 现 口 令 中 包 含 口令进行一些混合 规 则 的 变 化,而 不 是 产 生 一 个 全 明显的日期格式 .文献[ 5]对中英文用户口令中的特 新的无关的口令 .因 此 这 两 种 模 型 刻 画 的 概 率 空 间 殊模式作了更详细 的 调 研,最 后 发 现 口 令 中 各 种 语 和实际情况有一定 差 距 .这 些 讨 论 也 印 证 了 本 文 采 义信息,包 括 汉 语 拼 音、英 文 单 词、诗 词、行 政 区 等 . 用基于扰动的思想生成模拟口令集的合理性 . L i等人 25 针对大 规 模 中 英 文 口 令 集 进 行 了 系 统 性 分析,发现中文用户口令特 有 的 性 质 .Han 等 人 ① 分 2 3 用户口令特征分析 研究者利用大规模泄露的口令或通过调研收 集的真 实 用 户 口 令,进 行 了 详 细 的 口 令 特 征 分 [ ] 析了口令重用情况,并 指 出 了 口 令 重 用 带 来 的 严 重 [ ] 安全威胁 . L i u 等人 26 分析了 2011 年中国部分 网 站 析 [9,2022]① .这些研究使得我们 对 用 户 口 令 设 置 习 惯 泄露的大量真实口 令 中 的 结 构 和 语 义 规 律,并 进 一 有了比较全面的了解 . 步发现这些口令与 口 令 之 间、口 令 与 用 户 其 他 信 息 2 .3 .1 口令频次分布 哈佛大学语 言 学 专 家 Z i f在 语 料 库 中 发 现 一 p 条统计 型 经 验 规 律,称 为 Z i f分 布 . Z i f分 布 的 表 p p 之间一些明显的站内和跨站关联规则 . 3 口令集生成算法设计 述为:将单词在语料库中出现的次数由大到小排列, 单词频数与单词 排 序 数 的 常 数 次 幂 存 在 反 比 关 系 . 2012 年,文献[ 23]调研了能否使用 Z i f分布来描述 p 用户口令集中的口 令 频 率 .实 验 表 明 用 户 口 令 集 中 频次 与 其 排 序 基 本 符 合 Z i f分 布. 2014 年,Wang p 等人再次分 析 了 口 令 集 中 的 这 一 特 性 ② ,研 究 表 明 Z i f分布完美地存在于用户生成的口令集中 .同 时, p 论文给出了 Z i f公式: 犻狊,其中 犆 和狊 为具体 p 犳犻=犆/ 数据集决定的常量, 犳犻为口令在集合中出 现的频次, 犻 为口令频次由高到低排序的序号 . 2 .3 .2 口令结构特点 许多研究对用户口令集的结构特征进行了经 验分 析,分 析 内 容 主 要 包 括 口 令 长 度 分 布、口 令 中 95 个可打印 字 符 的 分 布、口 令 中 “数 字/字 母/特 殊 字符”的字符类型分 布 等 .例 如,文 献 [ 20]以 部 分 英 文用户和西班牙用 户 的 口 令 为 研 究 对 象,分 析 了 两 类用户口令在口令长度、字符类型、首尾字母的频率 分布等方面存在的差别 .文献[ 9]对中英文网站用户 3 1 算法概述 为了在生成大规模口令的同时保持口令集的真 实性,本算法采用基 于 扰 动 的 样 本 生 成 思 想 并 结 合 PCFG 模型来构 造 模 拟 口 令 集 .这 意 味 着 口 令 集 主 要围绕已有的样本 进 行 扩 展,即 基 于 已 有 的 元 素 对 口令空间进行填充 .填 充 的 方 法 主 要 是 按 照 用 户 设 置密码通常采用对已有密码进行变形而不是重新创 建完全无关的密码 的 思 想,基 于 训 练 集 里 的 口 令 进 行一些变形,从而生 成 更 可 能 符 合 用 户 实 际 使 用 的 口令 .最终,模拟口令集中的口令就由与样本完全相 同的口令以及基于样本的相似口令组成 . 基于扰动的口令生成不仅可以提高模拟口令的 真实 性,还 可 以 实 现 比 单 纯 的 PCFG 和 Ma rkov 等 概率模型更快速 的 模 拟 口 令 生 成 .算 法 中 PCFG 模 型的使用,一方面是 利 用 它 来 控 制 模 拟 口 令 集 口 令 结构分布的合理性,另 一 方 面 也 扩 大 了 模 拟 口 令 集 的生成空间 .尽 管 Ma rkov 模 型 在 口 令 猜 测 方 面 也 有很好的表现,并 且 相 对 PCFG 模 型 可 以 产 生 更 大 的口令长度分布、字符类型分布等特征进行挖掘 .统 计结果显示不同网站的用户口令集在结构特征上有 [ ] 一定的差异 . Shen 等人 24 也 从 口 令 长 度、组 成 和 大 小写选择等方面对 大 规 模 口 令 集 进 行 了 分 析 .他 们 将统计结果与往年 的 口 令 特 征 研 究 进 行 了 对 比,并 Han We i L i,L iZh i Gong,Ni Mi n Yue,e ta l.Shadow a t t a c k sb a s e d on p a s swo r dr e u s e s: A qu a n t i t a t i v eemp i r i c a l v i ew.IEEE Tr ans a c t i onson Dependab l eandSe cur eCom t i ng,2016,DOI:10 .1109/TDSC. 2016 .2568187 pu //ep i f’ sLawi nPa s swo r ds.h t t r i n t. i a c r. o r ② Z p ps: g/2014/ 631. f2014 pd ① 1156 计 算 的猜测空间,但通 常 PCFG 模 型 能 更 好 地 描 述 原 始 口令集的 特 征 .因 此,本 算 法 主 要 借 助 PCFG 模 型 机 学 报 2017 年 过口令变形的方式生成 . 考虑 到 步 骤 2~18 生 成 的 是 样 本 集 合 整 数 倍 对口令结构进行划分 . 的模拟口令,不 一 定 等 于 模 拟 口 令 集 目 标 总 数 犖 . 3 2 算法详细描述 如算 法 1 所 示,本 文 提 出 的 基 于 样 本 的 模 拟 口 因此剩 余 小 部 分 的 模 拟 口 令 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋2 需 要 令集生成算法主要包括两步: 中,作为基准的样本口令 犛犪犿狆犾 犲犛犲 狋2 从 犛犪犿狆犾 犲犛犲 狋 再通过 犵犲 狋犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋(即步骤 2~18)来生成 .其 ( 1)样本的训练 . 步骤1 表示根据 PCFG 的方法对样本建立概率 中随 机 采 样, 犛犪犿狆犾 犲犛犲 狋2 的 总 数 犕2 = 犖2/犡.步 模型 .首先将口令转化为以数字( D)、小写 字母( L)、 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋 中 .最 终,算 法 返 回 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋 (步骤 25). 大写字母( U)和 特 殊 字 符( S)的 形 式 表 示 的 字 符 类 型,再统计每一种子 模 板 中 不 同 长 度 的 结 构 片 段 对 应的具体口令子字符串概率 . 骤 22~24 将 最 后 一 部 分 模 拟 口 令 加 入 模 拟 口 令 集 算法 1. 基于样本的模拟口令生成算法 . 输入:已知的样本集合 犛犪犿狆犾 犲犛犲 狋 一种口令结构划分方法 PCFG ( 2)模拟口令的生成 . 步骤 2~18 表 示 算 法 会 循 环 地 为 犛犪犿狆犾 犲犛犲 狋 中每个 口 令 生 成 犡 个 相 关 的 模 拟 口 令 .其 中, 犡= 犖/犕 , 犖 为 模 拟 口 令 集 的 目 标 口 令 数, 犕 为样本集 的口令总 数, 犡 是 向 下 取 整 的 结 果 .步 骤 3~17 具 体地根据样本口令来生成模拟口令 .在文献[ 3]的用 户口令设置习惯调研中,用户在设置新口令时按照与 已 有 口 令 的 相 似 程 度 可 以 分 为 三 种 情 况 :使 用 已 模拟口令集目标口令数 犖 中 间 结 果 :不 同 类 型 和 长 度 的 口 令 片 段 及 其 比 例 犛犲犵犘狉 狅 犫 狊 输出:模拟口令集 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋 1.犛犲犵犘狉 狅 犫 狊←PCFG( 犛犪犿狆犾 犲犛犲 狋) 2.FORe a ch狆 i n犛犪犿狆犾 犲犛犲 狋 DO 3. 犡1 ← 犡/10>1?犡/10: 1 4.FOR犻=0;犻<犡1 ;犻++ DO 有 口 令 、设 置 相 似 的 口 令 和 设 置 全 新 的 口 令 .本 算 5. 法也利用这一规律生成三类与样本口令具有不同相 6. ENDFOR 似程度的模拟口令,它 们 分 别 是 与 样 本 口 令 完 全 相 7. 犡2 =犡-犡1 同的口令、与样本口 令 相 似 的 口 令 以 及 与 样 本 口 令 8. FOR犻=0;犻<犡2 ;犻++ DO 具有相同结构的任意 口 令 .首 先,在 步 骤 3~6 中 生 9. ′←犛犪犿犲犛狋 狉狌犮 狋( 犛犲犵犘狉 狅 犫 狊,狆) 狆 成与 狆 完全相同的模拟口令狆 ′,并加入模拟口令 集 10. IFPCFG( ′)<1/犖 THEN 狆 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋.相同口令的 比 例 为 模 拟 口 令 总 数 的 1/10;剩 余 部 分 的 模 拟 口 令 由 步 骤 7~17 来 生 成 . 11. ′←犛犪犿犲犛狋 狉狌犮 狋( 犛犲犵犘狉 狅 犫 狊, 狆 狆) 12. ′)<1/犖 THEN IFPCFG( 狆 步骤 9 随机 生 成 和 口 令 狆 在 PCFG 模 型 空 间 中 具 13. ′← 犜狉犪狀 狊犳狅 狉犿犪 狋 犻 狅狀( 狆 狆) 有相同结构的新口令 狆 ′.为 了 提 高 生 成 真 实 口 令 的 14. 可能性,在步骤 10 判 断 口 令 狆 ′ 在 PCFG 模 型 中 的 概率值是否小于 1/犖 .若小 于 1/犖 说 明 按 照 PCFG 模型的估算, ′ 在 模 拟 口 令 集 中 出 现 频 率 小 于 1, 狆 算法在步骤 11 对 狆 ′ 进 行 重 新 生 成 .如 果 二 次 生 成 的口令 狆 ′ 概 率 仍 然 小 于 1/犖 ,则 在 步 骤 13 中 用 犜狉犪狀 狊犳狅 狉犿犪 狋 犻 狅狀 方 法 将 狆 ′ 取 为 与 狆 相 似 的 口 令, 犜狉犪狀 狊犳狅 狉犿犪 狋 犻 狅狀 方法在后文 有 详 细 的 介 绍 .在 以 上 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋. add( ′) 狆 ENDIF 15. ENDIF 16. 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋. 犪犱犱( ′) 狆 17. ENDFOR ENDFOR 18. 19.犖2 ← 犖 -犕 犡 20. 犛犪犿狆犾 犲犛犲 狋 2←犘犪 狊 狊狑狅 狉犱犛犪犿狆犾 犻 狀犵( 犛犪犿狆犾 犲犛犲 狋, 犖2) 21. 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋 2←犵 犲 狋 犛 犻犿狌 犾 犪 狋 犻 狅 狀犛犲 狋( 犛犪犿狆 犾 犲犛犲 狋 2, 犖2) 22. FORe a ch狆 i n犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋 2 DO 的步 骤 中,随 机 产 生 与 口 令 狆 结 构 相 同 的 口 令,是 23. 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋. add( 狆) 利用 PCFG 这 种 比 较 符 合 常 规 的 口 令 结 构 划 分 方 24. ENDFOR 式对口令结构分 布 进 行 控 制 .若 直 接 利 用 PCFG 空 25.RETURN 犛犻犿狌 犾 犪 狋 犻 狅狀犛犲 狋 间随机生成新口令,只能提高模拟口令生成速度,而 算法 2 展 示 了 基 于 变 形 的 相 似 口 令 生 成 方 法 无法提 高 PCFG 模 型 的 模 拟 口 令 真 实 性 .因 此 步 骤 10~15 通过重新生成的方式使得新口令 狆 ′ 集中 犜狉犪狀 狊犳狅 狉犿犪 狋 犻 狅狀 的具体内容 .与 样 本 口 令 相 似 的 口 令是通过对样本口 令 进 行 常 见 的 规 则 变 换 而 得 到 . 于 PCFG 概率空间中 的 高 概 率 部 分,另 一 部 分 则 通 一些研究 [3,19]调查了广受用户欢 迎的 一些 针 对已 有 5期 韩伟力等:一种基于样本的模拟口令集生成算法 口令的变换规则 .不同的研究因为调研的规模大小、 1157 大写有的小写,则转为全大写或全小写形式). 目标人群的差异等原因可能会对这些规则的具体使 步骤 8~9 对应 Le e t① 变换 .主要对常见的几种 用情况给出不一致 的 结 论 .但 总 体 而 言 这 些 变 换 规 形似的字符做替 换,包括 a 与 @ 的互 换、 s与 $ 的 互 则被使用的频率基 本 类 似 .在 实 际 的 用 户 口 令 设 置 换、 o 与 0 的 互 换、 i与 1 的 互 换、 e与 3 的 互 换 和t 中,可能用到的相似口令变换规则不胜枚举 .本算法 与 7 的 互 换 .例 如 将 从 样 本 口 令“ s swo r d”变 换 到 pa 选取了在文献[ 3, 19]的 调 研 中,用 户 使 用 比 例 最 高 “ r d”;步 骤 10~11 对 应 子 字 符 串 位 置 的 p@$$wo 的十条变换规则的交集部分 .注意,“反转”(例如,将 变换 .算法以特 殊 符 号 作 为 分 隔 符,将 子 字 符 串 按 口令“ abc 123”变为“ 321cba”)和“插入 网站特 定的信 照 字 符 类 型 分 类 .若 除 去 特 殊 符 号 后 口 令 不 是 单 息”(例如,向口令中插入网站的名字)虽然也属于上 一 的 字 符 类 型 ,则 将 首 尾 的 子 字 符 串 进 行 位 置 交 述交集部分,但 在 本 文 的 算 法 中 暂 不 考 虑 .这 是 由 换 .例 如 从 “ 0204gzwz”;步 骤 12~13 0204”到 “ gzwz 于,为了便于记忆,用户选择反转的口令通常带有一 对应连续字符的变 换 .口 令 中 字 符 的 连 续 可 能 有 两 定的特征,这些特征 的 多 样 性 使 得 算 法 难 以 迅 速 且 种形式 .一 种 是 字 符 串 的 ASCI I 值 连 续,一 种 是 字 准确地过滤出这类口令;而插入网站特定的信息时, 符串在标准键盘中 同 一 行 位 置 里 的 连 续 .连 续 字 符 可用于插入的信息也是形式多样 .因此,为了保证算 的变换是将字符串按照相同的规律添加一个字符或 法生成的扩展口令的真实性以及算法生成模拟口令 删除一个字符或整个口令字符串替换为另一个同类 的时间效率,我们最 终 针 对 交 集 部 分 里 的 六 条 规 则 型的字 符 串 .例 如 从 样 本 口 令 “ 12345678”变 换 到 进行相应的变换 .算法 2 首 先 在 步 骤 3 中 随 机 选 定 一条当前口令变换 要 使 用 的 规 则,然 后 相 应 地 在 步 “ 123456789”、“ 1234567”或“ abcde f gh”;步骤 14~15 表示若口令本身具 有 回 文 或 重 复 的 特 征,则 取 口 令 骤 5、 7、 9、 11、 13 或 15 中实现变换 .以下是这几种变 的一半作为 相 似 口 令,例 如 从 样 本 口 令 “ s swo r d  pa 换的实现细节 . 步骤 4~5 对 应 删 除 变 换 .如 果 口 令 由 两 种 及 s swo r d”. s swo r d”到相似口令“ pa pa 最后,算法 2 里最外层的循 环(步 骤 1~2)表 示 以上 的 字 符 类 型 组 成,算 法 会 对 口 令 中 出 现 个 数 如果当前的口令无法按照随机选中的某变换规则进 最少的那类字符 C 进行删除 .为 了 增 加 相 似 口 令 的 行扩 展,例 如 口 令 “ vx f d5w5x”因 为 不 包 含 Le e t变 多 样 性 ,被 删 除 的 字 符 可 以 是 口 令 中 包 含 的 所 有 换相关的字符,无 法 进 行 Le e t 变 换,则 重 新 选 择 其 的 C 类 字 符 ,也 可 以 是 由 别 的 字 符 类 型 分 隔 开 的 他规则 . 一 段 C 类 字 符 .另 外 ,一 些 用 户 习 惯 设 置 新 口 令 时 在 现 有 口 令 基 础 上 添 加 一 个 字 符 .因 此 ,删 除 变 换 算法 2. 基于规则的相似口令生成 犜狉犪狀 狊犳狅 狉  犿犪 狋 犻 狅狀. 也 可 以 是 删 除 口 令 中 的 一 个 字 符 .例 如 ,样 本 口 令 输入:口令 狆 “ 123pa s swo r d123”通过删除变换可以得到相似口令 输出: ′ 狆 经过变形后的相似口令狆 “ s swo r d123”、“ s swo r d”或“ 123pa s swo rd12”.考 pa pa 虑到许多用户设置新口令时会选择对现有口令进行 添加部分字符的变换 .同时,进入算法 2 的口令为在 1.犿犪 狋 犮犺犚狌 犾 犲←FALSE 犿犪 狋 犮犺犚狌 犾 犲 2. WHILE ! 3. 狉狌 犾 犲犜狔狆犲←犚狌 犾 犲犜狔狆犲犛犪犿狆犾 犻 狀犵() 4. IF狉狌 犾 犲犜狔狆犲=1THEN PCFG 模型中概 率 较 小 的 口 令 .这 类 口 令 往 往 具 有 5. 长度较长或结构较 为 复 杂 的 特 征 .因 此 进 行 删 除 部 6. ELSEIF狉狌 犾 犲犜狔狆犲=2THEN 分字符的处理很可能得到与样本口令相似且符合用 7. 狊 犲犆狅狀狏 犲 狉 狊 犻 狅狀( ′←犆犪 狆 狆) 户口令设置习惯的新口令 .注意,如果当前场景中明 8. ELSEIF狉狌 犾 犲犜狔狆犲=3THEN 确规定了最短口令 长 度,那 么 当 删 除 变 换 执 行 后 的 9. 口令长度小于最小口令长度,则删除不成功 . 10. ELSEIF狉狌 犾 犲犜狔狆犲=4THEN 步骤 6~7 对应字母大小写变换 .这也是最常见 的用户口令变换之 一 .大 小 写 变 换 一 般 为 口 令 的 首 字母变换,同时也可 能 有 整 个 字 母 片 段 的 大 小 写 变 11. 犾 犲 狋 犲( ′← 犇犲 狆 狆) ′←犔犲 犲 狋( 狆 狆) ′←犛狌犫 狊 狋 狉 犻 狀犵犕狅狏 犲犿犲狀 狋( 狆 狆) 12. ELSEIF狉狌 犾 犲犜狔狆犲=5THEN 13. ′←犛犲 犲犜狉犪狀 狊犳狅 狉犿犪 狋 犻 狅狀 ( 狆 狇狌犲狀犮 狆) 14. ELSEIF狉狌 犾 犲犜狔狆犲=6THEN 换(若字母片段为全小写则将它转为全大写形式;若 字母片段为全大写,则将其转为全小写形式;若有的 ① //s /Le Le e t.h t t imp l e. wi k i i a. o r k i e t ps: ped g/wi 计 1158 算 ′← 犎犪 犾犳( 狆 狆) 机 学 报 2017 年 16. ENDIF ( 4)特殊模式 的 使 用 .为 了 便 于 记 忆,用 户 设 置 口令时倾向于遵循 一 定 的 结 构 或 语 义 模 式 .模 拟 口 17. IF狆 ′!=NULL 令集也应该体现这 一 规 则,即 包 含 特 殊 模 式 的 口 令 15. 18. 犿犪 狋 犮犺犚狌 犾 犲←TRUE 在口令集中也应该 占 据 一 定 比 例 .口 令 中 可 能 包 含 19. ENDIF 各种形式的特殊模 式,我 们 选 取 常 见 的 一 些 结 构 模 20. END WHILE 式和语义模 式 进 行 统 计 .其 中,结 构 模 式 包 括 单 一 ′ 21.RETURN 狆 字符(口令中只包含一种单一字符,例如“ 111111”)、 4 评 估 两种单一字符拼接(例如“!!!!!@@@@@ ”)、顺序 字符(口令为 ASCI I值连 续 上 升 或 下 降 的 一 串 字 符 序列,例 如 “ abcde f 123456”)、顺 序 字 符 叠 加 gh”、“ 4 1 评估指标 通过样本生成的具有较高真实性的模拟口令 (即 由 叠 加 的 顺 序 字 符 组 成,例 如 “ a abbc cdd”)和 集,一方面应当符合 一 般 用 户 口 令 集 的 口 令 频 率 分 键盘模式(符 合 标 准 键 盘 上 的 位 置 分 布 规 律,例 如 布规律,另一方面应 当 能 反 应 该 样 本 对 应 的 真 实 用 属于键 盘 中 的 同 一 行 字 符 “ a sd f z字形分布 gh”、 户口令设置特点 .本 文 使 用 以 下 4 个 方 面 的 指 标 对 “ zxc f qawsxd”、蛇形分 布 “ gh”等);语 义 模 式 包 括 常 见中英文单词(例 如 “ i l oveyou”)和 日 期 格 式 .其 中, 生成的模拟口令集质量进行分析: ( 1)口 令 覆 盖 率 .即 模 拟 口 令 集 里 的 口 令 属 于 网站真实口令的比 例 .这 一 指 标 直 接 反 映 了 口 令 模 节日,主要有六位短日期和八位长日期两类 .一般年 型还原原始口令库的能力 . 月日之间可以无间隔,也可以有“ /”这 3 种 ”、“.”、“ ( 2) Z i f分 布 拟 合 优 度 .假 设 一 个 口 令 集 包 含 p 了 狀 个不同的 口 令,其 Z i f 分 布 由 以 10 为 底 的 双 p 分隔 符 .例 如 用 Y 表 示 年,M 表 示 月,D 表 示 日, 对数关系表示,有回归 方 程: l og犳犻 =l og犆-狊l og 犻. 其中, 犻 为各 口 令 按 照 出 现 的 频 次 从 高 到 低 排 序 的 序号, 犳犻 为 第犻 个 口 令 出 现 的 频 次 .统 计 学 中,回 归 直线与各观测点的接近程度称为回归直线对数据的 拟合优度 .拟 合 程 度 由 决 定 系 数 犚2① 来 度 量 . 犚2 表 征了因变量的变异中有多少百分比可由自变量来解 释,其计算公式为 YYYYMMDD 的八 位 长 日 期 也 可 能 有 YYYYMM DD、 YYYY.MM. DD 或 YYYY/MM/DD 的形式 . 4 2 评估中使用的数据集 本文使用CSDN②、嘟嘟牛 ③、 Ro ckyou④ 和Yahoo⑤ 这4个 网 站 泄 露 的 大 量 真 实 口 令 作 为 实 验 数 据. CSDN 是 中 国 最 大 的 IT 社 区 和 服 务 平 台,在 2011 年底被黑客曝光了 六 百 多 万 个 账 号 及 明 文 口 令 .嘟 嘟牛(以 下 用 Dudun i u 表 示 )是 中 国 一 家 主 要 为 网 犛犛res 犚 =1- 犛犛tot 2 吧提供管理软件平台的商业网站,同样在 2011 年泄 露约一千五百 万 个 用 户 口 令 . Rockyou 是 一 家 美 国 狀 ^) ∑ (狔 -狔 2 犻 =1- 日期格 式 通 常 代 表 着 用 户 的 生 日、纪 念 日 或 重 要 游戏社交网 站, 2009 年 遭 受 了 泄 露 事 故,导 致 约 三 犻 犻=1 狀 . - 2 ∑ (狔犻-狔) 千两百万纯文本口令泄露 . Yahoo 是在 2012 年被黑 犻=1 客组织 DD3DsCompany 利 用 SQL 注 入 攻 击 获 取 其中, 犛犛res称 为 残 差 平 方 和, 犛犛tot为 总 平 方 和; 狔犻 为 了约四十四万的用 户 账 户 登 录 详 情 .这 些 泄 露 的 口 ^犻 因变量 观 察 值,在 Z i f分 布 中 即 l og犳犻 的 观 察 值; p 狔 令库可以从网上公开获取,我们去除用户个人信息, - 为回归 公 式 拟 合 的 值, 犚2 的 狔 为 观 察 值 的 平 均 数. 只收集其中的用户口令进行研究 .另外,我们对这些 值域为[ 0, 1], 犚 越接近1表示自变量对因变量的 解释程度越高,相关方程式参考价值越高 . 口令做了基本的清 理,去 除 可 能 包 含 干 扰 信 息 的 口 ( 3)口令结构分 布 .将 口 令 字 符 串 进 行 分 解,可 以发现不同口令集合中口令包含的结构也呈现一定 口令,且长度范围限 定 在 4 到 40 之 间 .数 据 集 详 细 2 的统计特 征 令,最 终 只 保 留 由 95 个 可 打 印 ASCI I字 符 组 成 的 信息见表 1. [ 5, 20 21] .本 文 选 择 两 个 基 本 的 口 令 结 构 特征进行分析:口令长度分布和字符类型分布 .字符 类型是指将 95 个可打印字符分为数字( 0~9)、小写 字母( a~z)、大 写 字 母 (A~Z)和 特 殊 字 符 4 类 .这 4 种基本字符类型可形成 15 种不同的组合方式 . ① ② ③ ④ ⑤ 决 定 系 数 Co //e e f f i c i e n to fd e t e rmi n a t i on.h t t s: n. w i k i e d i a. p p /wi /Coe o r k i f f i c i en t_ o f_ de t e rmi na t i on g //www. / CSDN.h t t c s dn. ne t p: 嘟嘟牛 .h //www. t t dudun i u. cn/ ps: //r Ro ckyou.h t t o ckyou. c om/ p: //www. Yahoo.h t t c om/ p: yahoo. 5期 韩伟力等:一种基于样本的模拟口令集生成算法 1159 口令比 例 .可 以 看 到,对 CSDN、Dudun i u、Rockyou 表 1 数据集的基本情况(数量( 犝)表示口令集里 不相同的口令的数量) 和 Yahoo,五 个 模 型 的 覆 盖 率 呈 现 一 致 的 规 律 .以 网站 原始数量 清理后的数量 数量( 犝) 语言 CSDN 6428629 6420426 4030918 中文 Dudun i u 15131833 15049451 9491329 中文 Ro ckyou 32603048 32575770 14325709 英文 Yahoo 442774 442287 342205 英文 4 3 模拟口令集的评估 本节通过 实 验 对 比 本 文 提 出 的 SPPG 算 法 与 PCFG 及马尔科 夫 模 型 生 成 的 模 拟 口 令 集 质 量 .为 了更加准确地刻画 用 户 口 令 使 用 情 况,我 们 采 用 了 文献[ 9]和 文 献 [ 16]中 对 PCFG 的 改 进 实 验 方 案 . 一方面,将 PCFG 方法 中 半 终 端 结 构 的 字 母 类 型 进 一步划分为大写字母类型( U)和小写字母类型( L); 另 一 方 面 ,对 大 写 或 小 写 字 母 类 型 的 半 终 端 到 具 CSDN 数 据 集 为 例,覆 盖 率 最 低 的 是 一 阶 Ma rkov 模 型 产 生 的 模 拟 口 令 集,其 值 为 0 .02;尽 管 随 着 Ma rkov 阶数的增加覆 盖 率 有 所 增 加 (四 阶 Ma rkov 的覆 盖 率 为 0 .15),但 是 仍 然 明 显 低 于 PCFG 和 SPPG 模拟口令 集 .对 比 PCFG 和 SPPG 模 拟 口 令 集, SPPG 模拟口 令 集 相 对 原 始 口 令 库 的 口 令 覆 盖 率( 0 .33)略高于 PCFG 模 拟 口 令 集( 0 .30).根 据 四 个网站数据 集 的 平 均 结 果, SPPG 模 拟 口 令 集 相 对 PCFG 模拟口令集提高了 9 .58% ;相对四阶 Ma rkov 提高 了 72 .79% ;相 对 三 阶 Ma rkov 提 高 了 10 .34 倍;相对 一 阶 Ma rkov 提 高 了 13 .41 倍 .总 体 而 言, SPPG 模拟口令集具有最高的覆盖率 . 体 口 令 片 段 的 频 率 计 算 ,不 再 使 用 外 部 字 典 ,改 为 利 用 训 练 集 来 生 成 相 应 的 字 典 .由 于 马 尔 科 夫 模 型中马 尔 科 夫 链 的 阶 可以有一阶或任意多阶的形 式,我们选择了其中 最 基 本 的 一 阶 马 尔 科 夫 模 型 以 及通常在口令猜测中表现较好的三阶和四阶马尔科 夫模型 . 实验的主要流程包括:获取原始口令库样本、用 SPPG 算法和两种概率模型分别训 练 口 令 样 本 并 生 成指定数目的模 拟 口 令 集,最 后 按 照 4 .1 节 中 的 指 标评估各模拟口令 集 的 质 量 .这 些 模 拟 口 令 集 在 后 文中分 别 表 示 为 SPPG 模 拟 口 令 集、 PCFG 模 拟 口 令集、一阶 Ma rkov 模 拟 口 令 集、三 阶 Ma rkov 模 拟 口令集和四阶 Ma rkov 模拟口令集 . 实验中,样本从原始口令库中随机抽取,样本规 模为原始口令库的十分之一 .三种方法训练样本后, 图 1 模拟口 令 集 覆 盖 率 (覆 盖 率 等 于 模 拟 口 令 集 里 包 含原始口令库 中 口 令 的 数 目,再 除 以 原 始 口 令 库 的口令总数 .图 中 每 组 数 据 集 从 左 到 右 依 次 对 应 SPPG、一 阶 Ma r kov、三 阶 Ma r kov、四 阶 Ma r kov 和 PCFG 生成的模拟口令集) 分别生成口令数 目 等 于 样 本 中 口 令 数 目 10 倍、 100 4 .3 .2 Z i f分布拟合度 p 根据 4 .1 节中的公式计算五个模型生成的不同 倍、 1000 倍 (即 原 始 口 令 库 规 模 的 1 倍、 10 倍、 100 规模的模拟口令集 Z i f拟 合 度,得 到 如 图 2 所 示 的 p 倍)的模 拟 口 令 集 .注 意,Ma rkov 模 型 在 一 些 研 究 中 [9,17]被证明在口令猜测到约十亿级的次数以上时 Z i f决定系数 .由图 2 可以看到,大部分模拟口 令集 p 的Z i f决 定 系 数 都 大 于 0 .9,说 明 这 些 模 拟 口 令 集 p 往往比其他模型具 有 更 高 的 猜 测 命 中 率 .然 而 在 进 都比较符合 Z i f分布 .其中,各阶 Ma rkov 模型生成 p 行口令集的模拟时,一 方 面 对 原 始 口 令 库 命 中 率 的 的模拟口令集无论样本的网站来源以及口令集规模 提高并不能代表整 个 模 拟 口 令 集 真 实 性 的 提 高,另 一方面 Ro ckyou 数 据 集 的 100 倍 已 经 达 到 十 亿 的 的大小如何, Z i f决 定 系 数 都 维 持 在 0 .95 以 上,表 p 示非常符 合 Z i f分 布 . SPPG 的模 拟 口令 集 Z i f决 p p 规模,且在现实中几 乎 不 可 能 有 用 户 口 令 数 据 集 会 定系数略小于 Ma rkov 模型,但 仍 然 比较 稳 定,维 持 超过这个规模 .因此 本 实 验 的 模 拟 口 令 集 实 验 数 据 在0 .9 左右 .而 PCFG 模拟口令集符合 Z i f分布 的 p 规模设计到 100 倍较为合适 . 能力最差,每项 Z i f决定系 数 都 略 低 于 另 外 4 个 模 p 4 .3 .1 口令覆盖率 图 1 显示了五个模型分别生成和原始口令库相 型生成的模拟口令集 .其中, PCFG 模拟 口 令集 生成 的 CSDN 原 始 口 令 库 1 倍 大 小 的 模 拟 口 令 集 决 定 同大小 的 模 拟 口 令 集 时,成 功 落 入 原 始 口 令 库 的 系数等于 0 .64,偏离 Z i f分布的程度最大 . p 1160 计 算 机 学 报 2017 年 图 2 各模拟口令集 Z i f决定系数( 1 表示完全符合 Z i f分布, 0 表示完全不符合 Z i f分布 .图例中, PCFG1x 表示用 PCFG p p p 方法生成的规模为原始口令库 1 倍的模拟口令集;模拟口令集 1 倍到 100 倍对应的柱形填充样式依次从稀疏到密集) 4 .3 .3 口令结构分布 分布情况 .观察各模 拟 口 令 集 与 原 始 口 令 库 口 令 长 我们分别对 CSDN、 Dudun i u、 Ro c kyou 和 Yahoo 度的相 似 度, SPPG 模 拟 口 令 集 和 PCFG 模 拟 口 令 原始口令库以及基于它们的样本生成的模拟口令集 集的分布与原始口 令 集 的 分 布 非 常 相 似,在 图 形 中 里口令长度和字符 类 型 的 分 布 做 了 统 计 .统 计 结 果 线条几乎重 合;而 Ma rkov 模 拟 口 令 集 的 分 布 偏 差 表明,不同网站的口令结构分布有所差异,这可能受 较为明显 .从四 阶 Ma rkov 到 一 阶 Ma rkov 模 型,马 网站口令创建规则、网 站 账 户 密 码 重 要 性 和 用 户 群 尔科夫链的阶数越 小,生 成 的 模 拟 口 令 集 口 令 长 度 体差异等各方面因素的影响 . 分布与原 始 口 令 库 偏 差 越 大 .Ma rkov 模 拟 口 令 集 图 3~ 图 6 分 别 是 CSDN、Dudun i u、Rockyou 和 Yahoo 原始口 令 库 与 模 拟 口 令 集 里 口 令 长 度 的 长度分布偏差主要 表 现 为,模 拟 口 令 长 度 向 更 短 的 区间集中,而长度大于 10 的口令比例明显偏小 . 图 3 CSDN 原始口令库以及各模拟口令集里口令长度分布(百分比表示口令数据集中指定长度的口令占整个数据集口令总 数的比例 .方形标记点加实线线条代表原始口令库;圆形标记点代表 SPPG 模 拟 口 令 集,上 三 角、下 三 角 和 菱 形 标 记 点 分别代表一阶 Ma r kov、三阶 Ma r kov 和四阶 Ma r kov 模拟口 令 集,五 角 星 标 记 点 代 表 PCFG 模 拟 口 令 集;短 点 线、虚 线 和实线分别代表模拟口令集为原始口令集 1 倍、 10 倍和 100 倍的规模大小 .后面类似的图形采用一样的标记规则) 图 4 Dudun i u 原始口令库以及各模拟口令集里口令长度分布( SPPG 模拟口令集和 PCFG 模拟口令集的分布与 原始口令集的分布非常接近;而 Ma r kov 模拟口令集的分布偏差较为明显,长度集中于更短的区间) 5期 韩伟力等:一种基于样本的模拟口令集生成算法 1161 图 5 Ro ckyou 原始口令库以及各模拟口令集里口令长度分布( SPPG 模拟口令集和 PCFG 模拟口令集的分布与 原始口令集的分布非常接近;而 Ma r kov 模拟口令集的分布偏差较为明显,长度集中在小于等于 10 的区间) 图 6 Yahoo 原始口令库以及各模拟口令集里口令长度分布( SPPG 模拟口令集和 PCFG 模拟口令集的分布与 原始口令集的分布非常接近;而 Ma r kov 模拟口令集的分布偏差较为明显,长度集中于更短的区间) 以图 3 中模拟口令集规模为原始口令集 1 倍的 里占比 最 多 的 这 几 种 字 符 类 型 的 具 体 比 例 .观 察 数据为例进行 具 体 观 察: CSDN 原 始 口 令 库 中 长 度 表 2,仍然可以 发 现 SPPG 模 拟 口 令 集 的 字 符 类 型 为 8 的 口 令 最 多,比 例 为 36 .40% ; SPPG 和 PCFG 比例与原始口令库的比例最为接近 . 模拟口令集里也是 长 度 为 8 的 口 令 最 多,比 例 分 别 事 实 上,口 令 的 字 符 类 型 和 口 令 长 度 可 能 存 在 为 36 .48% 和 42 .59% ;一 阶 Ma rkov、三 阶 Ma rkov 一定关联,不同长度 口 令 的 字 符 类 型 往 往 有 显 著 区 和四阶 Ma rkov 模拟口令集里则 是 长度为 6 的 口 令 别 .口令 概 率 模 型 可 能 改 变 特 定 长 度 口 令 的 字 符 最多 (比 例 分 别 为 24 .58% 、 24 .80% 和 20 .29% ), 类型组 合 情 况 .因 此,我 们 进 一 步 将 口 令 长 度 按 照 而对应的 长 度 为 8 的 口 令 比 例 仅 11 .65% 、 12 .64% [ 4, 7]、[ 8, 10]、[ 11, 40]三 个 区 间 进 行 分 类,并 统 计 在指定长度区间内口令的字符类型分布 .注意,由于 和 17 .46%.对 于 长 度 大 于 10 的 口 令,原 始 口 令 库、 SPPG 模拟口 令 集 和 PCFG 模 拟 口 令 集 里 的 比 例 分 别为 22 .75% 、 22 .59% 和 16 .03% ;而在三阶 Ma rkov 这几个口令集里字符类型 90% 以上 都 集 中 在“纯 数 和四阶 Ma rkov 模拟口令集里的比例分别为 6 .31% 类型 .包含大写字母和特殊字符的口令比例太小,在 和7 .86% ,在 一 阶 Ma rkov 模 拟 口 令 集 里 比 例 不 足 图表中难以观察 .因此,这里将大写和小写统一归为 0 .01%. 对 比 长 度 分 布,五 个 模 型 的 模 拟 口 令 集 在 字 符 字母类型,同时只显示“纯数字”、“纯字母”和“数字 + 字母”的分布情况 .最后得到图 7 至 图 10 的 结 果,由 类型分布方面相对 原 始 口 令 库 的 偏 差 并 不 明 显 .对 此可以看到: CSDN 和 Dudun i u 相关 数 据 集,模 拟 口 令 集 都 是 以 “纯数字”或“数字 + 小 写”类 型 为 主,“纯 小 写”类 型 ( 1)对原始口令集 . 3 种长度区间的口令集相对 整个口令库的字符类型分布略有变化 .其中,长度为 的比例 次 之;对 Ro ckyou 和 Yahoo 相 关 数 据 集,模 拟口令集都 是 以 “纯 小 写 ”或 “数 字 + 小 写 ”类 型 为 4~7 的短口令集里,由单一类 型 字符 组 成 的 口 令 比 例明显增多(中文网 站 中 比 例 最 高 的 为 “纯 数 字”类 主,“纯数字”类型的比例次之 .表 2 显示了各数据集 型,英文网站中比例 最 高 的 为 “纯 小 写”类 型);长 度 原始口令以及规模为原始口令集 1 倍的模拟口令集 为 8~10 的 口 令 集 里 ,字 符 类 型 分 布 与 整 体 分 布 最 字”、“纯小写”、“数字 + 小写”、“数字 + 大写”等几种 计 1162 算 机 学 报 2017 年 表 2 犆犛犇犖、 犇狌犱狌狀 犻 狌、 犚狅 犮犽狔 狅狌 和 犢犪犺狅 狅原始口令库以及规模为原始口令库 1 倍的 模拟口令集里,口令字符组合类型的分布情况 网站 CSDN Dudun i u Ro ckyou Yahoo (单位:% ) 字符组合类型 原始口令库 犛犘犘犌1狓 一阶 Ma rkov  1x 三阶 Ma rkov  1x 四阶 Ma rkov  1x PCFG1x 纯数字 45 08 45 21 51 .75 49 .83 48 .64 43 .67 数字 + 小写 35 62 31 75 25 .31 26 .37 28 .62 41 .98 纯小写 11 67 11 72 18 .15 16 .42 15 .31 11 .42 其他类型 7 .63 11 .32 4 .80 7 .38 7 .43 2 .92 数字 + 小写 51 20 49 00 42 .57 45 .98 45 .51 57 .00 纯数字 32 75 32 93 37 .02 34 .45 35 .16 30 .58 纯小写 11 01 11 02 16 .54 14 .11 14 .08 10 .37 其他类型 5 .04 7 .05 3 .87 5 .47 5 .25 2 .06 纯小写 41 70 41 71 43 .21 43 .63 43 .97 40 .74 数字 + 小写 33 20 32 59 34 .11 31 .23 30 .22 38 .17 纯数字 15 94 15 96 14 .32 15 .53 16 .14 15 .53 其他类型 9 .17 9 .74 8 .37 9 .60 9 .67 5 .56 数字 + 小写 50 66 45 53 43 .92 43 .23 47 .40 61 .63 纯小写 33 05 33 13 41 .67 37 .02 34 .08 31 .45 纯数字 5 86 5 77 9 .93 7 .88 7 .43 5 .69 其他类型 10 .43 15 .57 4 .48 11 .88 11 .09 1 .23 注:表中“纯数字”表示口令仅由数字组成, “纯小写”表示口令仅由小写字母组成, “数字 + 小写”表示口令为数字和小写字母的混合 .“其他类型” 表示以下类型的总和,包括“纯大写”、 “纯符号”、 “数字 + 大写”等两种字符的组合、 “数字 + 小写 + 大写”等 3 种字符的组合以及“数字 + 小写 + 大写 + 符号”. 总体而言,各模拟口令集字符组合类型的分布与原始口令库差别不大,但 SPPG 模拟口令集的分布与原始口令库最为相似 . 图 7 CSDN 原始口令数据集和模拟口令集按照口令长度分类后,每个区间里的 3 种主要口令字符类型分布(例如,“纯数字 ( 4~7)”表示在原始口令集或模拟口令集里长度 范 围 属 于 4 到 7 的 所 有 口 令 中,由 纯 数 字 组 成 的 口 令 比 例。 横 坐 标 每组数据对应的柱形从左到右分别为 CSDN 原始口令 集、 SPPG1 倍 到 100 倍 大 小 的 模 拟 口 令 集、一 阶 Ma r kov1 倍 到 100 倍大小的模拟口令集、三阶 Ma 倍到 倍大小的模拟口令集、 四阶 倍到 倍大小的模拟口 r kov1 100 Ma r kov1 100 令集以及 PCFG1 倍到 100 倍大小的模拟口令集) 图 8 Dudun i u 原始口令数据集和模拟口令集按照口令长度分类后,每个区间里的 3 种主要口令字符类型分布 5期 韩伟力等:一种基于样本的模拟口令集生成算法 1163 图 9 Ro ckyou 原始口令数据集和模拟口令集按照口令长度分类后,每个区间里的 3 种主要口令字符类型分布 图 10 Yahoo 原始口令数据集和模拟口令集按照口令长度分类后,每个区间里的 3 种主要口令字符类型分布 相似;长度为 11 及 以 上 的 口 令 集 里,混 合 字 符 类 型 “数字 + 字母”的口令比例增多 . ( 2)模拟口令集 在 特 定 长 度 区 间 内 的 字 符 组 合 类型分布出现了比较明显 的 差 异 .其 中, SPPG 模 拟 口令集在任何数据集和口令规模下都和原始口令集 的字符类型分布几 乎 保 持 一 致,说 明 在 划 分 长 度 区 间的情况下, SPPG 模 拟 口 令 集 也 能 很 好 地 模 拟 出 原始口令库的 字 符 类 型 分 布; PCFG 模 拟 口 令 集 在 特定口令长度区间内的字符类型分布也和原始口令 集的比较接 近,但 是 略 有 差 异 .以 图 7 中 的 数 据 为 例, 1 倍 大 小 的 PCFG 模 拟 口 令 集 在 长 度 为 4 到 7 的范围内的口令相 对 原 始 口 令 集 而 言,纯 字 母 类 型 偏多而纯数字类型 偏 少 .随 着 模 拟 口 令 集 的 规 模 的 集里, CSDN 原始口令集的纯数字比例高达 84 .46% , 而在一阶 Ma rkov 中 对 应的 值 只 有 44 .36% ;长 度 为 8~10 的 口 令 集 里,原 始 口 令 集 的 纯 数 字 比 例 为 48 .59% ,而 在 一 阶 Ma rkov 中 对 应 的 值 增 长 到 95 .54%.另 外,一 阶 和 多 阶 Ma rkov 模 型 随 着 模 拟 口令集 1 倍、 10 倍 到 100 倍 的 规 模 变 化,其 字 符 类 型分 布 也 明 显 变 化,不 及 SPPG 模 拟 口 令 集 和 PCFG 模型口令集的字符类型分布稳定 . 综上,在模拟原始口令集的口令结构方面, SPPG 模拟口令集、 PCFG 模 拟 口 令 集、四 阶 Ma rkov 模 拟 口令 集、三 阶 Ma rkov 模 拟 口 令 集 和 一 阶 Ma rkov 模拟口令集的有效性依次降低 . 4 .3 .4 特殊模式的使用 增大,这种偏差越来越小, 100 倍的 PCFG 模拟口令 集和原始 口 令 集 的 字 符 类 型 分 布 类 似;Ma rkov 模 用 户 设 置 的 口 令 中 可 能 包 含 多 种 特 殊 模 式 .本 文对结构模式中常 见 的 单 一 字 符、两 种 单 一 字 符 拼 拟口令集分口令长 度 观 察 时,与 原 始 口 令 库 的 字 符 接、顺序字符、顺序字符叠加和键盘模式以及语义模 类型分布 差 别 明 显,其 中 一 阶 Ma rkov 模 拟 口 令 集 式中的 中 英 文 和 日 期 的 包 含 情 况 进 行 统 计 分 析 . 的偏差最为明显 .例如在图 7 中长度为 4~7 的口令 图 11 显示了原始 口 令 库 以 及 模 拟 口 令 集 使 用 特 殊 计 1164 算 机 学 报 2017 年 模式的口令比例 .以 CSDN 规模为 原始口令集 1 倍 评估 .在 口 令 覆 盖 率 方 面, SPPG 模 拟 口 令 集 优 于 的相关数据为 例: CSDN 原 始 口 令 库 中 使 用 特 殊 模 PCFG 模 拟 口 令 集 和 Ma rkov 模 拟 口 令 集 .Ma rkov 模型阶数越 低,口 令 覆 盖 率 越 低;在 Z i f分 布 拟 合 p 式的 口 令 比 例 为 46 .53% ; SPPG 和 PCFG 模 拟 口 令集里对应的比例分别为 46 .84% 和 46 .06% ;一阶 Ma rkov、三 阶 Ma rkov 和 四 阶 Ma rkov 模 拟 口 令 集 里对应的比例分别为 12 .38% 、 27 .28% 和 36 .02%. 程度上,Ma rkov 模 拟 口 令 集 表 现 最 优, SPPG 的 决 定系数略 低 于 Ma rkov 模 拟 口 令 集,但 高 于 PCFG 模拟口令 集 的 决 定 系 数 .特 别 地,当 PCFG 模 型 生 从图 11 可以看出,与原始口令库中特殊模式的使用 成的 CSDN 数据 库 模 拟 口 令 集 Z i f决 定 系 数 明 显 p 比例最接 近 的 是 PCFG 模 拟 口 令 集 和 SPPG 模 拟 偏低时 ( 0 .64), SPPG 模 拟 口 令 集 仍 然 保 持 在 0 .9 口令集,且包含特殊 模 式 的 口 令 比 例 随 着 模 拟 口 令 的水平;在口令结构分布方 面, SPPG 模 拟 口 令 集 相 集规模的增 大 基 本 保 持 不 变 .而 三 种 Ma rkov 模 拟 对其他模拟口令集 表 现 最 好;在 口 令 特 殊 模 式 的 使 口令集里符合特殊结构模式或特殊语义模式的口令 比例明显偏低,并且随着 Ma rkov 模型阶数 的 降 低, 用上, SPPG 和 PCFG 模 型 和 原 始 口 令 集 中 的 比 例 基本相等,而 Ma rkov 模 拟 口 令 集 里 这 类 口 令 的 比 口令中包含特殊模式的比例越来越低 . 例明显减少 .综上所述, SPPG 模 拟 口 令 集 在 这 四 个 本节从四个方面对模拟口令集的真实性进行了 指标上具有最好的综合表现 . 图 11 各原始口令库以及模拟口令集里使用特殊模式的口令比例 而表 4 中 PCFG 模 拟 口 令 集 的 生 成 速 度 明 显 大 于 5 讨 论 Ma rkov 模拟口令集的 生 成 .这 主 要 是 由 于,在 本 文 的实验中, PCFG 和 Ma rkov 模 型 采 用 了 不 同 的 实 5 1 实验环境配置 本文使用 J ava 语 言 实 现 模 拟 口 令 集 的 质 量 分 现方式 .考虑 到 Ma rkov 模 型 在 生 成 大 规 模 口 令 时 需要消耗大量的内存并可能造成程序内存不足的情 况,Ma rkov 模型 按 照 文 献 [ 9]的 思 路,通 过 阈 值 试 探的方式来生成 指 定 数 目 的 口 令;而 PCFG 模 型 仍 析,实验环境数据如表 3 所示 . 表 3 实验环境 属性 内容 CPU 内存 操作系统 开发语言 I n t e lCo r ei 5  2400 14GB Wi ndows7 旗舰版 J ava 然直接在内存中使用优先队列从高概率到低概率输 出候选口令的方式 [8].作为对比,本文提出的算 法使 用了一些随机方法,减 少 了 在 整 个 口 令 空 间 搜 索 和 排序的过程 .因而在 内 存 消 耗 和 口 令 生 成 速 度 方 面 有明显的 优 势 .尽 管 也 有 研 究 对 PCFG 和 Ma rkov 5 2 模拟口令生成速度 各阶 Ma rkov 模 型、 PCFG 模 型 和 本 文 提 出 的 模型的实现进行 速 度 优 化 .例 如 研 究 者 [27]将 PCFG SPPG 算法生成模拟口令集的速度有较大差异 .表 4 是 5 种模型生成不同规模口令集的耗时对比 .通常, 少比较过程 .这些优 化 实 现 相 对 本 文 算 法 仍 然 比 较 PCFG 模型的 口 令 生 成 速 度 略 大 于 Ma rkov 模 型 . 度随着模拟口令集 的 规 模 不 断 降 低 时,本 文 的 算 法 猜测过程中具有相 同 概 率 的 口 令 片 段 合 并 处 理,减 耗时 .另外,当 PCFG 和 Ma rkov 模型的口令 生 成 速 5期 韩伟力等:一种基于样本的模拟口令集生成算法 成算法 SPPG.该 算 法 利 用 较 容 易 获 得 的 小 规 模 用 可以持续保持常量的速度进行 . 户真实口令样本,产生大规模用户口令集合 .本文进 表 4 各模型生成模拟口令集的耗时对比 算法 SPPG 一阶 Ma rkov 三阶 Ma rkov 四阶 Ma rkov PCFG 倍数 CSDN Dudun i u Ro ckyou Yahoo 1 10s198ms 21s14ms 36s 630ms 889ms 10 53s72ms 1mi n55s 100 5mi n53s 14mi n20s 28mi n47s 22s573ms 1 2mi n41s 3mi n41s 3s448ms 4mi n31s 14mi n51s 9s552ms 10 24mi n34s 1h17mi n 2h35mi n 100 1165 1mi n44s 4h34mi n 13h34mi n 23h16mi n 18mi n1s 一步选取 4 个指标综合评估了 SPPG 算法以及现有 的口令模型生成模 拟 口 令 集 的 质 量 .评 估 结 果 表 明 SPPG 的模拟口令集可以达到比 其 他 模 型 生 成 的 模 拟口令集更高的真实口令 覆 盖 率 .平 均 地, SPPG 相 对 PCFG 模拟口令 集 口 令 覆 盖 率 提 高 了 9 .58% ;相 1 1mi n21s 6mi n45s 2s828ms 对四阶 Ma r kov提高了 72 .79% ;相对于三阶 Ma rkov 10 17mi n4s 29mi n39s 1h14mi n 43s187ms 提 高了 10 .34 倍;相对于一阶 Ma rkov 提高了 13 .41 100 3h23mi n 9h53mi n 19h9mi n 倍;在 不 同 样 本 和 模 拟 规 模 下 Z i f始 终 保 持 在 0 .9 p 4mi n39s 2mi n43s 7mi n30s 1 1mi n16s 4mi n55s 2s188ms 10 11mi n4s 21mi n36s 47mi n51s 14s687ms 以上,能较好 地 符 合 Z i f 分 布;口 令 结 构 分 布 和 包 p 100 2h41mi n 4h48mi n 7h14mi n 含特殊模式的口令比例都非常接近真实用户口令集 1mi n50s 1 16s319ms 44s 178ms 1mi n5s 10 8mi n30s 15s741ms 2mi n38s 4mi n26s 100 14mi n57s 32mi n28s 53mi n2s 1s507ms 1mi n11s 注:表 中 倍 数 1、 10 和 100 分 别 表 示 生 成 口 令 数 目 等 于 CSDN、 、 Dudun i u Ro ckyou 和 Yahoo 原始数据集中口令 数 目 1 倍、 10 倍 、 一 阶 、 三 阶 和 100 倍的模拟口 令 集 . SPPG Ma rkov Ma rkov、四 阶 Ma 和 分 别 表 示 使 用 算 法、 一 到 四阶的 rkov PCFG SPPG 模型以及 模型生成 模 拟 集 表 格 中 表 示 小 时, Ma rkov PCFG . h mi n 表示分, s表示秒, ms表示毫秒 . 5 3 小规模真实口令样本的获取 有针对性地获取大规模真实用户口令非常困 中的各种分布和比例 .综上,本文 SPPG 算法生成的 模拟口令集具有更高的真实性 . 在 接 下 来 的 工 作 中,我 们 将 进 一 步 通 过 模 式 识 别等方法对口令数据的特征属性进行更加深入的挖 掘,寻找更精准的用户相似口令特征 .例如在进行相 似口令变换 时 考 虑 按 照 口 令 语 义 或 词 性 分 类 [14]进 行单词的替换 .此外,我们还将研究调整参数优化模 拟口令集生成算法 . 难,但获取小规模 真 实 用 户 口 令 相 对 容 易 .例 如,可 参 通过以下几种方式实现: 考 文 献 ( 1)收集 网 上 泄 露 的 口 令 .随 着 许 多 著 名 网 站 明文口令泄露事件 的 发 生,目 前 可 以 从 网 上 收 集 到 [ 1] Bonne auJ,Pr e i bus chS,Ande r s on R.A b i r t hdayp r e s en t 一些国内外的真实 用 户 口 令 集 .这 些 口 令 集 的 规 模 //Pr i ns o c e ed i ngso ft he16 t hI n t e r na t i ona lCon f e r enc eon p 从几万、几十万至几千万大小不等,研究者可根据具 F i nanc i a l Cr t og r aphy and Da t a Se cur i t a l end i k, yp y. Kr j 体的实验需求,用其中的某些口令集作为样本,生成 Bona i r e,2012:25  40 更大规模的模拟口令集 . e v e r l e v enwa l l e t s?t hes e c u r i t fc us t ome r  cho s enbank i ng ye yo [ 2] Ma zur ek M L,Komandur iS,Vi da s T,e ta l.Me a sur i ng s swo r dgue s s ab i l i t o ranen t i r eun i ve r s i t o c e ed i ngs pa yf y//Pr ( 2)进行 用 户 口 令 调 研 .网 上 泄 露 的 口 令 种 类 有限,研究者也可以 通 过 调 研 来 获 取 特 定 类 别 的 用 o ft he 2013 ACM S IGSAC Con f e r enc e on Compu t e r and 户口令 .例如,希望收集全中国普通高等学校两千多 [ 3] Da sA,Bonne auJ,Ca e s a r M,e ta l.Thet ang l ed webo f 万在校学生的常用 口 令,获 取 每 位 学 生 的 口 令 信 息 //Pr o c e ed i ngs o ft he 21s t Ne two rk and s swo r dr eus e pa 并不现实 .研究者可 以 选 取 其 中 具 有 代 表 性 的 几 十 个学校,并从这些学 校 中 分 别 随 机 调 研 数 千 名 学 生 Commun i c a t i onsSe cur i t rk,USA,2013:173  186 y.New Yo Di s t r i bu t edSys t em Se cur i t s i um.San Di ego,USA, ySympo 2014:1  15 [ 4] Bonne auJ.Thes c i enc eo fgue s s i ng:Ana l z i ngananonymi z e d y 的常用口令,最后形成数十万的口令数据作为样本 . //Pr c o r f 70 mi l l i on pa s swo r d s o c e e d i ng so ft he IEEE puso ( 3)网站 管 理 员 收 集 本 网 站 的 用 户 口 令 .为 了 掌握本网站用户口 令 使 用 情 况,以 便 在 未 来 制 定 更 Sympo s i umonSe cur i t i va c anc i s c o,USA, yandPr y.San Fr 有效的口令强度评 估 策 略,管 理 员 可 主 动 收 集 本 网 2012:538  552 [ 5] Han We i L i, L i Zh i Gong, Yuan Lang, Xu Wen Yuan. Reg i ona lpa t t e r nsandvu l ne r ab i l i t l i so fCh i ne s e web yana ys 站一段时间内注册 的 用 户 口 令 .这 些 口 令 构 成 了 小 s swo r ds.IEEE Tr ans a c t i onsonI n f o rma t i onFo r ens i c sand pa 规模的真实口令样本 . 2):258  272 Se cur i t y,2016,11( [ 6] Pogg i oT,Ve t t e rT.Re c ogn i t i onands t r uc t ur ef r omone2D 6 结论与展望 mode lv i ew:Obs e r va t i ononp r o t o t s,ob e c tc l a s s e s,and ype j s t r i e s.Ar t i f i c i a lI n t e l l i eLabo r a t o r s s a chus e t t s ymme genc y,Ma I ns t i t u t eo f Te chno l ogy,Bo s t on, USA:Te chn i c a l Repo r t 本文首次提出了一种基于样本的模拟口令集生 Ar t i f i c i a lI n t e l l i eMemo:1347,1992 genc 计 1166 算 [ 7] Na r ayanan A, Shma t i kov V.Fa s td i c t i ona r t t a cks on ya //Pr spa c et r adeo f f o c e ed i ngso ft he12 t h s swo r d sus i ngt ime pa ACM Con f e r enc eonCompu t e randCommun i c a t i onsSe c u r i t y. Al exand r i a,USA,2005:364  372 [ 8] We i rM,Agga rwa lS,Mede i r o sB D,Gl odekB.Pa s swo r d //Pr c r a ck i ngus i ngp r obab i l i s t i cc on t e x t  f r e eg r amma r s o c e e d i ng s o ft heIEEESympo s i um onSe cur i t i va c l and, yandPr y.Oak USA,2009:391  405 机 学 报 2017 年 Pr o c e ed i ngs o ft he 24 t h USENIX Se cur i t s i um. y Sympo  481 Wa sh i ng t on,USA,2015:463 [ 18] Yu Xu, Yang J i ng, Xi e Zh i Qi ang.Re s e a r ch on v i r t ua l s amp l egene r a t i ont e chno l ogy. Compu t e rSc i enc e, 2011,38( 3): 16  19( i nCh i ne s e) (于 旭,杨 静,谢 志 强 .虚 拟 样 本 生 成 技 术 研 究 .计 算 机 科 学,2011,38( 3):16  19) [ 19] Wang Di ng, He De B i ao, Cheng Ha i Bo, Wang P i ng. [ 9] MaJ,Yang W N,Luo M,L iN H.As t udyo fp r obab i l i s t i c s swo r ds t r eng t h me t hod us i ngf uz z Fuz z y yPSM:A new pa //Pr s swo r d mode l s o c e ed i ngso ft heIEEE Sympo s i um on pa //Pr r obab i l i s t i cc on t ex t  f r e eg r amma r o c e ed i ngso ft he46 t h p Se cur i t i va c l and,USA,2014:689  704 yandPr y.Oak [ 10] Ca s t e l l uc c i aC,Dürmu t h M,Pe r i t o D.Adap t i vepa s swo r d  Annua lIEEE/ IFIPI n t e r na t i ona lCon f e r enc eon Dependab l e anc e,2016:1  12 Sys t emsandNe two rks.Tou l ous e,Fr //Pr s t r eng t h me t e r sf r om ma rkov mode l s o c e ed i ngs o ft he [ 20] Abbo t tJ, Ga r c i a V M.Pa s swo r dd i f f e r enc e s ba s ed on 19 t hNe two rkandDi s t r i bu t edSys t em Se cur i t s i um. ySympo l anguageandt e s t i ngo fmemo r e c a l l.I n t e r na t i ona lJ our na l s yr SanDi ego,USA,2012:1  14 [ 11] Me l i che rW,UrB, Se r e t iSM, e ta l. Fa s t, l e an, anda c cur a t e: g o fN&N Gl oba lTe chno l ogyonI n f o rma t i onSe cur i t y,2015, 2:1  6 // Mode l i ng pa s swo r d gue s s ab i l i t i ng neur a l ne two rks y us [ 21] Yang Cheng, HungJu i Long,L i n Zhang Xi.An ana l i s ys Pr o c e e d i ng so ft he25t hUSENIXS e c u r i t s i um.Au s t i n, ySympo v i ewonpa s swo r dpa t t e r nso fCh i ne s ei n t e r ne tus e r s.Nanka i USA,2016:175  191 [ 12] De l l’ Ami c oM,Mi ch i a r d iP,Roud i e rY.Pa s swo r ds t r eng t h: Bus i ne s sRev i ewI n t e r na t i ona l,2013,4( 1):66  77 [ 22] Ve r a s R, Tho r l l i ns C. Vi sua l i z i ng s eman t i c si n pe J, Co //Pr Anemp i r i c a lana l i s o c e ed i ngso ft he29 t h Con f e r enc e ys //Pr o l eo fda t e s o c e ed i ngso ft he9 t hI n t e r  s swo r ds:Ther pa onI n f o rma t i on Commun i c a t i on.San Di ego, USA,2010: na t i ona lSympo s i um on Vi sua l i z a t i on f o r Cybe r Se cur i t y. New Yo rk,USA,2012:88  95 983  991 [ 13] ZouJ i ng,L i nDong Da i,HaoChun Hu i.Apa s swo r dc r a ck i ng [ 23] Ma l oneD,Mahe rK. I nv e s t i t i ngt hed i s t r i bu t i ono fpa s swo r d ga me t hodba s e dons t r uc t u r ed i v i s i onp r obab i l i t i ne s eJ ou r na l y.Ch //Pr cho i c e s o c e ed i ngso ft he21s tI n t e r na t i ona lCon f e r enc eon o fCompu t e r s,2014,37( 5):1206  1215 ( i nCh i ne s e) Wo r l d Wi de Web.New Yo rk,USA,2012:301  310 (邹静,林东岱,郝春辉 .一种基于结构划分概率的口令攻击 方法 .计算机学报,2014,37( 5):1206  1215) [ 14] Ve r a sR,Co l l i nsC,Tho r hes eman t i cpa t t e r nso f peJ.Ont //Pr s swo r dsandt he i rs e cur i t c t o c e ed i ngso ft he21s t pa yimpa [ 24] ShenChao,YuTi an Wen,XuHao D i,e ta l.Us e rp r a c t i c ei n s swo r ds e cur i t i r i c a ls t udyo fr e a l  l i f epa s swo r ds pa y:Anemp  141 i nt hewi l d.Compu t e r sandSe cur i t y.2016,61:130 [ 25] L iZh i Gong, Han We i L i,Xu Wen Yuan.A l a r s c a l e ge Ne two rkand Di s t r i bu t edSys t em Se cur i t s i um.San ySympo //Pr o c e ed i ngso f emp i r i c a lana l i so fCh i ne s ewebpa s swo r ds ys Di ego,USA,2014:1  16 t he 23r d Us en i x Se cur i t s i um.San Di ego, USA, y Sympo [ 15] WangP i ng,WangD i ng,HuangXi n Yi.Adv anc e si npa s swo r d s e cur i t our na lo fCompu t e r Re s e a r chand Deve l opmen t, y.J 2014:559  574 [ 26] L i u Gong Shen,Qi u We i Dong, Meng Ku i,L iJ i an Hua. 2016,53( 10):2173  2188( i nCh i ne s e) Pa s swo r dvu l ne r ab i l i t s s e s smen tandr e c ove r s edr u l e s ya yba (王平,汪定,黄欣沂 .口令安全研究进展 .计算机研究 与 发 s c a l er e a lda t a. Ch i n e s eJ ou r n a lo fCompu t e r s, mi ne df r oml a r ge 展,2016,53( 10):2173  2188) 2016,39( 3):454  467( i nCh i ne s e) [ 16] De l l’Ami c o M,F i l t ec a r l os t r eng t he v a l ua t i on: pponeM.Mon Fa s tandr e l i ab l epa s swo r dche ck i ng//Pr o c e e d i ng so ft he22nd ACM S IGSAC Con f e r enc eon Compu t e randCommun i c a t i ons  169 Se cur i t r,USA,2015:158 y.Denve [ 17] UrB,Seg r e t iS M,Baue rL,e ta l.Me a sur i ngr e a l wo r l d a c cur a c i e sand b i a s e si n mode l i ng pa s swo r d gue s s ab i l i t y// , 犎犃犖 犠犲 犻 犔 犻,bo r ni n1975,Ph. D. (刘功申,邱卫东,孟魁,李建华 .基于真实数据挖掘的 口 令 脆弱性评估及恢复 .计算机学报,2016,39( 3):454  467) [ 27] Komandur iS.Mode l i ngt heAdve r s a r oEva l ua t ePa s swo r d yt Ph. D.d i s s e r t a t i on].I ns t i t u t e S t r eng t hwi t hL imi t e dSamp l e s[ f o rSo f twa r eRe s e a r ch,Schoo lo fCompu t e rSc i enc e,Ca r ne i e g Me l l onUn i ve r s i t i t t sbur y,P gh,USA,2016 犢犝犃犖犔犪狀犵,bo r ni n1993,M. S.c and i da t e.He rma i n r o f e s s o r.Hi sr e s e a r c hi n t e r e s t si n c l ud e p , , a c c e s sc on t r o l d i i t a li den t i t n t e r ne t g y i r e s e a r chf o cus e soni n f o rma t i ons e cu r i t y. i den t i t e cu r i t i t a. ys y,b gda r e s e a r chf o cus e soni n f o rma t i ons e cu r i t y. 犔犐犛 犻  犛 犻,bo r ni n 1995, M. S.c and i da t e. He r ma i n r o f e s s o r. 犠犃犖犌 犡犻 犪 狅 犢犪狀犵,bo r ni n1955,Ph.D.,p Hi sr e s e a r chi n t e r e s t si nc l udeda t aana l s i sands e cu r i t y y. 5期 韩伟力等:一种基于样本的模拟口令集生成算法 1167 犅犪 犮犽犵 狉 狅狌狀犱 Thes e cu r i t ft ex t ua lpa s swo r dsi sanimpo r t an tt op i c yo Th i s pape ri s suppo r t ed by t he Shangha iI nnova t i on i nt hef i e l do fsy s t em s e cu r i t e s e a r ch.Manye f f o r t shave yr Da t a Tr ade Ac t i onPr o e c tunde r Gr an t No. 16DZ1100200 ( j be en de vo t ed t o pa s swo r dr e l a t ed r e s e a r che s,i nc l ud i ng Suppo r t i ngB i t aTe s t be d:Ke e chno l og i e sandToo l k i t), gDa yt t c. s swo r ds t r eng t h e va l ua t i on, e s swo r d gue s s i ng, pa pa wh i chf o cus e sonc ons t r uc t i ngani n f r a s t r uc t u r ef o rb i t a gda La r s c a l eus e r pa s swo r dss e t sa r eve r e f u lf o rt he s e ge y us o r i en t edc ompu t i ng,andt heNa t i ona lNa t u r a lSc i enc eFoun  ti sno te a syf o rr e s e a r che r st ohave r e s e a r che s.Howe ve r,i Re s e a r chf o rt he da t i ono fCh i naunde rGr an tNo. 61572136 ( s c a l eus e rpa s swo r dsi nasy s t ema t i cmanne r. a c c e s st ol a r ge Me chan i smo fMob i l eSen s i ngSe cu r i t t sOp t imi z a t i on), yandI Th i spape ra imst ou t i l i z eag i vensma l l  s c a l eandt r ues amp l e wh i chs t ud i e st hes e cu r i t s sue sc aus edbys ens i ngab i l i t i e s yi s e tt ha ti sr e l a t i ve l a s i e rt oob t a i nand gene r a t eal a r  ye ge o fmob i l ede v i c e s,andt henp r opo s e sade f ens e me chan i sm. s c a l es imu l a t i onpa s swo r ds e t. Thetwop r o e c t sa r eva l uedf o rt her e s e a r cho fb i t aand j gda I nt hea spe c to f pa s swo r dc r a ck i ng,r e s e a r che r s have mob i l ede v i c es e cu r i t y. i n t r oduc ed s e ve r a lp r a c t i c a l pa s swo r d gue s s i ng a l r i t hms go Ou rt e amha sbe eni nvo l vedi nt her e s e a r cho fpa s swo r d ands o f twa r e,such a s PCFG (Pr obab i l i s t i c Con t ex t Fr e e s e cu r i t o rove rf ou rye a r s.Wepub l i shed ( i nc l ud i ngon l i ne yf Gr amma r),Ma r kovmode l s,J ohnt heRi r,e t c.Howe v e r, ppe t he s e me t hods c ou l d gene r a t e al a r ro fi nva l i d ge numbe l i sh)f ou rr e s e a r ch pape r si n USENIX Se cu r i t pub y 2014, IEEE Tr ans a c t i onson Dependab l eand Se cu r e Compu t i ng, s swo r dst ha tdono tbe l ongt oar e a lus e rpa s swo r ds e t. pa IEEE Tr ans a c t i ons onI n f o rma t i on Fo r ens i c sand Se cu r i t y Th i spape rp r opo s e sanew me t hodt ha tgene r a t e ss imu l a t i on ( r e f.[ 5],page5f 25].Wehaveano t he rpape r oo t no t e① ,[ s swo r dsby pe r t u r b i ng t hes amp l e wi t ht he pu r s eo f pa po i nt h i sf i e l don l i nepub l i sheda tIEEETDSC). mak i ngs imu l a t i on pa s swo r dss e t s mo r es imi l a rt ot her e a l The me t hod p r opo s ed byt h i s pape r wi l lhe l heb i pt g h i s pape rp r e s en t sf ou r us e r pa s swo r ds. Fu r t he rmo r e,t an t No. 16DZ110020)t oc r e a t es imu l a t ed da t at e s t bed (Gr e va l ua t i onc r i t e r i a,i nc l ud i ng t hec ove r ager a t eo ft her e a l da t aba s edonasma l landt r ues amp l e,whenat e s to fb i g s swo r ds,t hegoodne s so ff i to ft heZ i fd i s t r i bu t i on,t he pa p da t ar e i r e s ma s s i ve da t at oe va l ua t et he e f f i c i ency and qu s imi l a r i t fp a s swo r ds t r u c t u r ed i s t r i bu t i on sa ndt h ep r opo r t i on yo /me e f f e c t i vene s so fp r opo s eda l r i t hms t hods,bu tt her e a l go o fspe c i a lpa t t e r nsons t r uc t u r e so rs eman t i c s.A s e r i e so f da t aa r eabs en t.I nadd i t i on,t hegene r a t edda t ac anbeus ed expe r imen t s show t he advan t age so ft he new a l r i t hm go t os t udyt heimp r ovedt e chn i sf o rmob i l ede v i c es e cu r i t que y. c ompa r edwi t hPCFGand Ma r kovmode l s.

相关文章