揭开面纱：1000 万个密码揭示了选择密码的人的哪些信息

已发表: 2022-07-11

很多人都知道密码。大多数都很短，简单，而且很容易破解。但是对于一个人选择特定密码的心理原因知之甚少。大多数专家建议使用强密码以避免数据泄露。但是为什么这么多的互联网用户仍然喜欢弱密码呢？

我们分析了从 CEO 到科学家的 1000 万人的密码选择，以找出他们所揭示的关于我们认为容易记住和难以猜测的事情的信息。

第一个想到的超级英雄是谁？ 1到10之间的数字呢？ 最后，鲜艳的颜色？ 如果您还没有想到这些，请快速想到每一个，然后将所有这三个组合成一个短语。

现在，是我们猜测的时候了。

是超人七红吗？不，不：蝙蝠侠3橙色？如果我们猜对了任何一个个人答案，那是因为人类是可以预测的。这就是密码的问题。诚然，我们为自己提供了一些偷偷摸摸选择的问题的优势，但与专门构建的密码破解软件的工业规模偷偷摸摸相比，这算不了什么。例如，HashCat 每秒可以对您的密码进行 300,000 次猜测（取决于它的哈希方式），因此即使您选择Hawkeye6yellow ，您的密语迟早也不再是秘密的。

1.两个数据集，几个注意事项

2. “我将添加一个号码以使其更安全。”

3.评估密码熵

4.有钱有势的密码

5.参考文献

密码通常很容易猜到，因为我们中的许多人都会想到显而易见的单词和数字，并以简单的方式将它们组合起来。我们想探索这个概念，并在这样做的过程中，看看当一个人将单词、数字和（希望）符号排列成一个（可能不是很）独特的顺序时，我们能找到什么关于他或她的思想是如何工作的。

我们首先选择两个数据集进行分析。

两个数据集，几个注意事项

第一个数据集是 2014 年 9 月首次出现在俄罗斯比特币论坛上的 500 万个凭证的转储。 ¹它们似乎是 Gmail 帐户（以及一些 Yandex.ru），但进一步检查表明，虽然包含的大多数电子邮件都是有效的 Gmail 地址，但大多数纯文本密码要么是旧的 Gmail 密码（即不再有效）或未与关联的 Gmail 地址一起使用的密码。尽管如此，WordPress.com 重置了 100,000 个帐户，并表示还有 600,000 个帐户可能处于危险之中。 ²转储似乎是从不同地方以各种方式收集的价值数年的密码。然而，出于我们的学术目的，这并不重要。密码仍然由 Gmail 帐户持有人选择，即使它们不是为自己的 Gmail 帐户使用的，而且鉴于 98% 已不再使用，我们认为我们可以安全地探索它们。 ³

我们使用此数据集（我们将其称为“Gmail 转储”）来回答人口统计问题（尤其是与密码选择者的性别和年龄相关的问题）。我们通过搜索包含名字和出生年份的 500 万个电子邮件地址来提取这些事实。例如，如果一个地址是 [email protected]，它被编码为 1984 年出生的男性。这种推断方法可能很棘手。我们不会在此介绍太多技术细节，但在编码过程结束时，我们有 500 万个 Gmail 地址中的 485,000 个按性别编码，220,000 个按年龄编码。在这一点上，值得记住一个问题，“在电子邮件地址中包含名字和出生年份的用户会选择与不包含名字和出生年份的用户不同的密码吗？”——因为理论上他们这样做是可能的。我们稍后再讨论。

不过，就目前而言，这是我们编码的用户按出生十年和性别划分的方式。

Gmail 转储，或者至少是其中的那些在其地址中有名字和/或出生年份的人，偏向于男性和 80 年代出生的人。这可能是因为其数据库被破坏以形成转储的站点的人口统计资料。在转储中搜索包含 + 符号的地址（由 Gmail 用户添加以跟踪网站对其电子邮件地址的操作），发现大量凭据来自 File Dropper、eHarmony、成人管网站和 Friendster。

第二个数据集，也是我们用来收集大部分结果的那个数据集，由安全顾问 Mark Burnett 通过他的网站 xato.net 慷慨地发布。 ⁴它由 1000 万个密码组成，这些密码是在几年的时间里从网络的各个角落收集起来的。 Mark 从数千个来源收集了公开倾销、泄露和发布的列表，以构建可能是有史以来最全面的真实密码列表之一。要了解有关此数据集的更多信息，请查看他博客上的常见问题解答。 ⁵

我们不会花太长时间为您提供有关该数据集的真正基本事实（如所有平均值）。以前已经做过很多次了。相反，让我们看看这 1000 万个密码中最常用的 50 个密码。然后我们将进入可能更有趣的领域。

正如您所看到的并且可能已经知道的那样，最常见的密码都是当网站提示他或她创建密码时立即出现在某人脑海中的闪亮示例。它们都非常容易记住，并且由于这个事实，使用字典攻击来猜测是孩子的游戏。当 Mark Burnett 分析 330 万个密码以确定 2014 年最常见的密码时（所有这些都在他更大的 1000 万个密码列表中），他发现 0.6% 是123456 。使用前 10 个密码，黑客平均可以猜出 1000 个密码中的 16 个。

但是，使用上述密码类型的人比往年少。用户越来越意识到是什么让密码变得强大。例如，在文本短语的末尾添加一两个数字。这让它变得更好，对吧？

“我会添加一个号码以使其更安全。”

1000 万个密码中有近 50 万个，即 420,000 个（8.4%）以 0 到 99 之间的数字结尾。添加这些数字的人中超过五分之一的人只是选择了1 。也许他们觉得这是最容易记住的。或者，也许网站提示他们在他们的基本词选择中包含一个数字。其他最常见的选择是2、3、12 （大概被认为是一二，而不是 12）、 7等等。有人注意到，当你让一个人思考 1 到 10 之间的数字时，大多数人会说 7 或 3（因此我们在介绍中进行了猜测），人们似乎对思考素数有偏见。 ^{6, 7}这可能在这里发挥作用，但也有可能选择单个数字作为人们已经使用但想再次使用的密码的替代品，而不会“损害”他们在其他网站上的凭据。

但是，当您考虑到一个体面的密码破解者可以很容易地将一个数字或几千个数字附加到其单词词典或蛮力方法时，这是一个有争议的问题。密码的强度真正归结为熵。

评估密码熵

简单来说，密码的熵越大，它就越强。熵随着密码的长度和组成密码的字符的变化而增加。然而，虽然所用字符的变化确实会影响其熵分数（以及猜测的难度），但密码的长度更为重要。这是因为随着密码变长，可以将其组成部分改组为新组合的方式数量呈指数级增长，因此更难进行疯狂猜测。

Gmail 转储中密码的平均长度为 8 个字符（例如password ），男性密码的平均长度与女性密码的平均长度没有显着差异。

熵呢？与单独的字符长度相比，哪个更准确地反映了密码强度？

Gmail 转储中密码的平均熵为 21.6，这并不是一件特别容易概念化的事情。左边的图表给出了更清晰的画面。同样，男性和女性之间的差异可以忽略不计，但熵接近于零的密码比超过 60 的要多得多。

示例密码随熵范围变化一两个字符。一般来说，熵随长度而变化，通过包括数字、大写字母和符号来增加字符范围也有帮助。

那么我们如何计算 Gmail 转储中所有 500 万个密码的熵呢？

计算密码熵的方法有很多，有些方法比其他方法更基本（也不太现实）。最基本的假设只能通过尝试其字符的每个组合来猜测密码。然而，一种更智能的方法认识到人类——正如我们所看到的——沉迷于模式，因此可以对他们的大部分密码做出某些假设。并且基于这些假设，可以建立尝试猜测其密码的规则，并用于显着加快破解过程（通过将字符组合分块为常用模式）。这一切都非常聪明，我们不能把它归功于它。相反，归功于 Dan Wheeler，他创建了我们使用的熵估计器。它被称为 Zxcvbn，可以在这里查看和阅读详细信息。 ⁸

简而言之，它建立了一种“知识”，即人们如何在不知情的情况下将密码中的模式包含在其对好的密码破解者需要做什么来确定这些模式的估计中。例如，通过简单的估计，密码的熵为 37.6 位。然而，Zxcvbn 将其评分为零（最低和最差的熵评分），因为它说明了密码破解者使用的每个单词列表都包含单词password的事实。它对其他更常见的模式做了类似的事情，比如 leet speak（在单词中添加 numb3rs 以 [email protected] 他们似乎不太 gue55able）。

它还对其他密码进行评分，乍一看，这些密码看起来非常随机，因为熵为零。例如， qaz2wsx （第 30 个最常见的密码）看起来很随机，对吧？事实上，它不过如此。它实际上是一种键盘模式（从键盘上的一个键到下一个键的可轻松重复的“行走”）。 Zxcvbn 本身就是以一种这样的模式命名的。

我们从 1000 万个密码数据集中提取了 20 个最常用的键盘模式。我们选择排除数字模式，例如123456 ，因为它们只是一种键盘走动，而且在最常用密码列表的顶部也有很多，以至于没有空间可以看到其中的一些如果我们将它们包括在内，它们会更有趣。

上面 20 种键盘模式中有 19 种看起来与您预期的一样可预测，除了最后一种： Adgjmptw 。你能猜出为什么它是最常用的模式之一吗？

你可能不需要，因为你几乎肯定已经看过下面了。

尽管我们非常怀疑我们是第一个发现它的人，但我们还没有发现任何其他关于这种键盘模式的参考，它是密码中最常用的。然而，它在上面排名第 20 位。

如果您还没有意识到，它是通过在智能手机的拨号盘上按2到9生成的（每个字母的第一个字母对应于密码中按键图案的每个字母）。

我们最初对这种模式感到困惑，因为大多数人不使用拨号盘输入字母。他们使用 QWERTY 布局。然后我们想起了像黑莓这样的手机，它有一个物理键盘，按键上总是显示数字。

这种模式提出了一个有趣的问题：随着越来越多的人在触摸设备上创建密码选择，使某些字符（如符号和大写字母）比使用常规键盘更难选择，密码选择将如何变化？

当然，键盘模式，尤其是上面的那些，对于任何好的密码破解者来说都不是问题。 Passpat 使用多种键盘布局和一种巧妙的算法来衡量密码是由键盘图案构成的可能性。 ⁹还有其他工具可用于生成数以百万计的键盘模式，将它们编译并用作列表，而不是浪费时间试图通过蛮力破解相同的组合。 ¹⁰

不过，大多数人不使用键盘模式。他们坚持选择随机词的经典且经常不安全的方法。

现在你可以明白为什么我们在本文开头猜到了蝙蝠侠和超人：它们是 1000 万密码数据集中使用最多的超级英雄名字。关于上述列表的重要一点是，当一个人在密码中包含某个单词时，有时很难知道他们在什么意义上使用它。例如，在颜色列表中，黑色有时可能指姓氏Black ；具有双重上下文的其他单词也是如此。为了在计算上述单词的频率时最小化这个问题，我们分别处理了每个列表。例如，仅当密码以颜色名称开头并以数字或符号结尾时，才会计算颜色。这样，我们避免了在Alfred中计算红色和在BluesBrothers中计算蓝色。当然，使用这种保守的方法意味着我们错过了许多合法的颜色名称，但最好知道上面的列表只包含“确定”。

其他列表有不同的规则。我们没有在动物列表中包括猫和狗，因为猫出现在太多其他词中。相反，我们分别计算了猫和狗，发现它们的使用次数几乎相同。然而，cat 与Wild-和Bob- （运动队）一起使用的次数要多于dog在其他短语中的使用。所以我们会说狗可能会赢。

最常见的名词和动词只有出现在日常英语中使用的前 1,000 个名词和前 1,000 个动词中才会被计算在内。否则，列表中将充满诸如password之类的名词和诸如love之类的动词。

并不是说爱不是一个有趣的词。它实际上在密码中使用得非常频繁。我们在 1000 万个密码中发现了 40,000 次，在 500 万个 Gmail 凭据中也发现了很多。

当我们计算从用户名推断其年龄的人的密码中爱的频率时，80 年代和 90 年代出生的人使用它的频率略高于老年人。

在 Gmail 数据中，1.4% 的女性密码包含爱，而男性只有 0.7%。换句话说，至少根据这些数据，女性在密码中使用爱这个词的频率似乎是男性的两倍。这一发现紧随最近对密码中的爱这个词的其他研究的脚步。安大略理工大学的一个研究小组报告说， ilove [男名] 是ilove [女名] 的四倍； iloveyou是iloveme的 10 倍； <3 是第二种最常用的将符号与数字组合的方法。 ¹¹

现在我们已经了解了密码中最常见的单词和数字、最常用的键盘模式、密码熵的概念以及简单的密码混淆方法（如 leet speak）的相对无效性，我们可以进入我们的最终端口的电话。这是最私人的，也可能是最有趣的。

有钱有势的密码

Mark Burnett 在他的网站上指出，密码转储非常频繁，令人担忧。毕竟， ¹²次抓取新鲜转储是他编译 1000 万个密码数据集的方式。似乎越来越频繁地登上头条的其他事件是名人和公司的高调黑客攻击。詹妮弗劳伦斯等人。索尼立即浮现在脑海中。我们很好奇 Gmail 数据如何潜在地用于确定哪些知名人士特别受到了这次转储的影响。换句话说，谁的密码被公布了？我们通过使用 Full Contact 的 Person API 来做到这一点，它获取电子邮件地址列表并通过 Twitter、LinkedIn 和 Google+ 等几个主要社交网站的 API 运行它们。然后它为它找到的任何东西提供新的数据点，比如年龄、性别和职业。 ¹³

我们已经知道一些相当知名的人在 Gmail 垃圾场。例如，Mashable 在名单发布一个月后指出，其中一名记者也被包括在内（为他列出的密码是他的 Gmail 密码，但已有数年历史，不再使用）。 ¹⁴但我们没想到Full Contact 会出现这么多。

在我们找到的 78,000 个匹配项中，有数百个非常引人注目的人。我们在下面选择了大约 40 个最著名的。几个非常重要的点：

1. 我们故意不按姓名识别任何人。

2. 公司徽标代表个人现在工作的组织，不一定代表他们使用为他们列出的密码时。

3. 无法知道密码最初是在哪里使用的。它们可能是个人 Gmail 密码，但更有可能是在 File Dropper 等其他网站上使用过。因此，许多弱密码可能并不代表个人当前在工作中或其他任何地方使用的密码。

4. 谷歌证实，当列表发布时，只有不到 2% (100,000) 的密码可能与他们配对的 Gmail 地址一起使用。所有受影响的帐户持有人都必须重置密码。换句话说，下面的密码——虽然仍然具有教育意义——不再使用。相反，它们已被其他希望更安全的组合所取代。

但是，如果密码没有被重置，情况将更加令人担忧。多项研究表明，我们中的许多人对多项服务使用相同的密码。 ¹⁵鉴于下面的名单包括几位首席执行官、许多记者，以及贾斯汀·比伯和爱莉安娜·格兰德人才管理公司的高层，这次转储可能会造成很多混乱。谢天谢地，它没有，现在不能。

关于上述密码最引人注目的一点是，如果对它们使用离线破解过程，其中有多少很容易猜到。最强的曾经属于 GitHub 开发人员 ( ns8vfpobzmx098bf4coj )，熵为 96，看起来几乎太随机了。它可能是由随机密码生成器或密码管理器创建的。最弱的属于 IBM 的一位高级经理 ( 123456 )，相反，它看起来很基础，肯定被用于某个地方的一次性注册。许多其他人在复杂性和简单性之间取得了足够的平衡，表明他们的所有者关心确保他们的安全并希望保护他们被选中的帐户。

有几个有趣的杰出人物要完成：美国国务院的司长，其密码（但不是名字）是linco1n （林肯）和赫芬顿邮报的作家，他追随 Mulder 的脚步（来自 X 档案）并选择了trustno1 。更一般地说，有趣的是，我们选择的知名人士中有多少人做了我们其他人所做的事情：把我们的名字、出生日期、简单的词和几个数字组合起来，变得很糟糕密码。我们认为这是有道理的。就连奥巴马总统最近也承认他曾经使用过密码1234567 。具有更高熵分数的密码将是PoTuS.1776 。虽然，对于一个聪明的破解者来说，这可能有点明显。

***

那么你自己的密码呢？在阅读这篇文章时，您可能会想到自己并想知道：“有人能猜出我的网上银行、电子邮件或博客的密码吗？” 如果您使用像 Gmail 这样的大型电子邮件提供商之一，则不必太担心您的密码会被暴力破解。 Gmail 几乎会立即切断非法尝试。您的网上银行可能受到类似保护。但是，如果您有博客，情况会更加复杂，因为——简单来说——攻击者有更多潜在的方法可以找到进入的方法，因此必须主动保护每一种方法以将它们拒之门外。关键是永远不要将密码安全视为理所当然，并想出一个简单但仍然很难找出一个系统来提供安全密码。

WP Engine 团队花费大量时间和持续努力来确保我们客户的 WordPress 网站的安全。我们安全的 WordPress 托管平台集成到 WordPress 本身中，并通过智能、反应性软件保护我们客户的网站免受对其密码的暴力攻击，该软件不断学习和适应威胁并采取行动。我们还保护我们的客户免受与密码猜测无关的攻击，例如嗅探登录尝试和 SQL 注入。 WP Engine 提供管理最好的 WordPress 托管平台，助力品牌和企业利用 WordPress 技术接触全球受众。

下载我们的 WordPress 安全白皮书，了解保护 WordPress 部署的 10 个最佳实践，包括如何安全地生成、存储和定期更改密码。

参考

1. http://www.dailydot.com/crime/google-gmail-5-million-passwords-leaked/

2. http://www.eweek.com/blogs/security-watch/wordpress-resets-100000-passwords-after-google-account-leak.html

3. https://xato.net/passwords/ten-million-passwords

4. https://xato.net/passwords/ten-million-passwords-faq/

5. http://groups.csail.mit.edu/uid/deneme/?p=628

6. http://micro.magnet.fsu.edu/creatures/pages/random.html

7. http://www.dailymail.co.uk/news/article-2601281/Why-lucky-7-really-magic-number.html

8. https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-estimation/

9. http://digi.ninja/projects/passpat.php

10. https://github.com/Rich5/Keyboard-Walk-Generators

11. http://www.thestar.com/news/gta/2015/02/13/is-there-love-in-your-online-passwords.html

12. https://xato.net/passwords/understanding-password-dumps

13. https://www.fullcontact.com/developer/person-api/

14. http://mashable.com/2014/09/10/5-million-gmail-passwords-leak/

15. http://www.jbonneau.com/doc/DBCBW14-NDSS-tangled_web.pdf