揭開面紗：1000 萬個密碼揭示了選擇密碼的人的哪些信息

已發表: 2022-07-11

很多人都知道密碼。大多數都很短，簡單，而且很容易破解。但是對於一個人選擇特定密碼的心理原因知之甚少。大多數專家建議使用強密碼以避免數據洩露。但是為什麼這麼多的互聯網用戶仍然喜歡弱密碼呢？

我們分析了從 CEO 到科學家的 1000 萬人的密碼選擇，以找出他們所揭示的關於我們認為容易記住和難以猜測的事情的信息。

第一個想到的超級英雄是誰？ 1到10之間的數字呢？ 最後，鮮豔的顏色？ 如果您還沒有想到這些，請快速想到每一個，然後將所有這三個組合成一個短語。

現在，是我們猜測的時候了。

是超人七紅嗎？不，不：蝙蝠俠3橙色？如果我們猜對了任何一個個人答案，那是因為人類是可以預測的。這就是密碼的問題。誠然，我們為自己提供了一些偷偷摸摸選擇的問題的優勢，但與專門構建的密碼破解軟件的工業規模偷偷摸摸相比，這算不了什麼。例如，HashCat 每秒可以對您的密碼進行 300,000 次猜測（取決於它的哈希方式），因此即使您選擇Hawkeye6yellow ，您的密語遲早也不再是秘密的。

1.兩個數據集，幾個注意事項

2. “我將添加一個號碼以使其更安全。”

3.評估密碼熵

4.有錢有勢的密碼

5.參考文獻

密碼通常很容易猜到，因為我們中的許多人都會想到顯而易見的單詞和數字，並以簡單的方式將它們組合起來。我們想探索這個概念，並在這樣做的過程中，看看當一個人將單詞、數字和（希望）符號排列成一個（可能不是很）獨特的順序時，我們能找到什麼關於他或她的思想是如何工作的。

我們首先選擇兩個數據集進行分析。

兩個數據集，幾個注意事項

第一個數據集是 2014 年 9 月首次出現在俄羅斯比特幣論壇上的 500 萬個憑證的轉儲。 ¹它們似乎是 Gmail 帳戶（以及一些 Yandex.ru），但進一步檢查表明，雖然包含的大多數電子郵件都是有效的 Gmail 地址，但大多數純文本密碼要么是舊的 Gmail 密碼（即不再有效）或未與關聯的 Gmail 地址一起使用的密碼。儘管如此，WordPress.com 重置了 100,000 個帳戶，並表示還有 600,000 個帳戶可能處於危險之中。 ²轉儲似乎是從不同地方以各種方式收集的價值數年的密碼。然而，出於我們的學術目的，這並不重要。密碼仍然由 Gmail 帳戶持有人選擇，即使它們不是為自己的 Gmail 帳戶使用的，而且鑑於 98% 已不再使用，我們認為我們可以安全地探索它們。 ³

我們使用此數據集（我們將其稱為“Gmail 轉儲”）來回答人口統計問題（尤其是與密碼選擇者的性別和年齡相關的問題）。我們通過搜索包含名字和出生年份的 500 萬個電子郵件地址來提取這些事實。例如，如果一個地址是 [email protected]，它被編碼為 1984 年出生的男性。這種推斷方法可能很棘手。我們不會在此介紹太多技術細節，但在編碼過程結束時，我們有 500 萬個 Gmail 地址中的 485,000 個按性別編碼，220,000 個按年齡編碼。在這一點上，值得記住一個問題，“在電子郵件地址中包含名字和出生年份的用戶會選擇與不包含名字和出生年份的用戶不同的密碼嗎？”——因為理論上他們這樣做是可能的。我們稍後再討論。

不過，就目前而言，這是我們編碼的用戶按出生十年和性別劃分的方式。

Gmail 轉儲，或者至少是其中的那些在其地址中有名字和/或出生年份的人，偏向於男性和 80 年代出生的人。這可能是因為其數據庫被破壞以形成轉儲的站點的人口統計資料。在轉儲中搜索包含 + 符號的地址（由 Gmail 用戶添加以跟踪網站對其電子郵件地址的操作），發現大量憑據來自 File Dropper、eHarmony、成人管網站和 Friendster。

第二個數據集，也是我們用來收集大部分結果的那個數據集，由安全顧問 Mark Burnett 通過他的網站 xato.net 慷慨地發布。 ⁴它由 1000 萬個密碼組成，這些密碼是在幾年的時間裡從網絡的各個角落收集起來的。 Mark 從數千個來源收集了公開傾銷、洩露和發布的列表，以構建可能是有史以來最全面的真實密碼列表之一。要了解有關此數據集的更多信息，請查看他博客上的常見問題解答。 ⁵

我們不會花太長時間為您提供有關該數據集的真正基本事實（如所有平均值）。以前已經做過很多次了。相反，讓我們看看這 1000 萬個密碼中最常用的 50 個密碼。然後我們將進入可能更有趣的領域。

正如您所看到的並且可能已經知道的那樣，最常見的密碼都是當網站提示他或她創建密碼時立即出現在某人腦海中的閃亮示例。它們都非常容易記住，並且由於這個事實，使用字典攻擊來猜測是孩子的遊戲。當 Mark Burnett 分析 330 萬個密碼以確定 2014 年最常見的密碼時（所有這些都在他更大的 1000 萬個密碼列表中），他發現 0.6% 是123456 。使用前 10 個密碼，黑客平均可以猜出 1000 個密碼中的 16 個。

但是，使用上述密碼類型的人比往年少。用戶越來越意識到是什麼讓密碼變得強大。例如，在文本短語的末尾添加一兩個數字。這讓它變得更好，對吧？

“我會添加一個號碼以使其更安全。”

1000 萬個密碼中有近 50 萬個，即 420,000 個（8.4%）以 0 到 99 之間的數字結尾。添加這些數字的人中超過五分之一的人只是選擇了1 。也許他們覺得這是最容易記住的。或者，也許網站提示他們在他們的基本詞選擇中包含一個數字。其他最常見的選擇是2、3、12 （大概被認為是一二，而不是 12）、 7等等。有人注意到，當你讓一個人思考 1 到 10 之間的數字時，大多數人會說 7 或 3（因此我們在介紹中進行了猜測），人們似乎對思考素數有偏見。 ^{6, 7}這可能在這裡發揮作用，但也有可能選擇單個數字作為人們已經使用但想再次使用的密碼的替代品，而不會“損害”他們在其他網站上的憑據。

但是，當您考慮到一個體面的密碼破解者可以很容易地將一個數字或幾千個數字附加到其單詞詞典或蠻力方法時，這是一個有爭議的問題。密碼的強度真正歸結為熵。

評估密碼熵

簡單來說，密碼的熵越大，它就越強。熵隨著密碼的長度和組成密碼的字符的變化而增加。然而，雖然所用字符的變化確實會影響其熵分數（以及猜測的難度），但密碼的長度更為重要。這是因為隨著密碼變長，可以將其組成部分改組為新組合的方式數量呈指數級增長，因此更難進行瘋狂猜測。

Gmail 轉儲中密碼的平均長度為 8 個字符（例如password ），男性密碼的平均長度與女性密碼的平均長度沒有顯著差異。

熵呢？與單獨的字符長度相比，哪個更準確地反映了密碼強度？

Gmail 轉儲中密碼的平均熵為 21.6，這並不是一件特別容易概念化的事情。左邊的圖表給出了更清晰的畫面。同樣，男性和女性之間的差異可以忽略不計，但熵接近於零的密碼比超過 60 的要多得多。

示例密碼隨熵範圍變化一兩個字符。一般來說，熵隨長度而變化，通過包括數字、大寫字母和符號來增加字符範圍也有幫助。

那麼我們如何計算 Gmail 轉儲中所有 500 萬個密碼的熵呢？

計算密碼熵的方法有很多，有些方法比其他方法更基本（也不太現實）。最基本的假設只能通過嘗試其字符的每個組合來猜測密碼。然而，一種更智能的方法認識到人類——正如我們所看到的——沉迷於模式，因此可以對他們的大部分密碼做出某些假設。並且基於這些假設，可以建立嘗試猜測其密碼的規則，並用於顯著加快破解過程（通過將字符組合分塊為常用模式）。這一切都非常聰明，我們不能把它歸功於它。相反，歸功於 Dan Wheeler，他創建了我們使用的熵估計器。它被稱為 Zxcvbn，可以在這裡查看和閱讀詳細信息。 ⁸

簡而言之，它建立了一種“知識”，即人們如何在不知情的情況下將密碼中的模式包含在其對好的密碼破解者需要做什麼來確定這些模式的估計中。例如，通過簡單的估計，密碼的熵為 37.6 位。然而，Zxcvbn 將其評分為零（最低和最差的熵評分），因為它說明了密碼破解者使用的每個單詞列表都包含單詞password的事實。它對其他更常見的模式做了類似的事情，比如 leet speak（在單詞中添加 numb3rs 以 [email protected] 他們似乎不太 gue55able）。

它還對其他密碼進行評分，乍一看，這些密碼看起來非常隨機，因為熵為零。例如， qaz2wsx （第 30 個最常見的密碼）看起來很隨機，對吧？事實上，它不過如此。它實際上是一種鍵盤模式（從鍵盤上的一個鍵到下一個鍵的可輕鬆重複的“行走”）。 Zxcvbn 本身就是以一種這樣的模式命名的。

我們從 1000 萬個密碼數據集中提取了 20 個最常用的鍵盤模式。我們選擇排除數字模式，例如123456 ，因為它們只是一種鍵盤走動，而且在最常用密碼列表的頂部也有很多，以至於沒有空間可以看到其中的一些如果我們將它們包括在內，它們會更有趣。

上面 20 種鍵盤模式中有 19 種看起來與您預期的一樣可預測，除了最後一種： Adgjmptw 。你能猜出為什麼它是最常用的模式之一嗎？

你可能不需要，因為你幾乎肯定已經看過下面了。

儘管我們非常懷疑我們是第一個發現它的人，但我們還沒有發現任何其他關於這種鍵盤模式的參考，它是密碼中最常用的。然而，它在上面排名第 20 位。

如果您還沒有意識到，它是通過在智能手機的撥號盤上按2到9生成的（每個字母的第一個字母對應於密碼中按鍵圖案的每個字母）。

我們最初對這種模式感到困惑，因為大多數人不使用撥號盤輸入字母。他們使用 QWERTY 佈局。然後我們想起了像黑莓這樣的手機，它有一個物理鍵盤，按鍵上總是顯示數字。

這種模式提出了一個有趣的問題：隨著越來越多的人在觸摸設備上創建密碼選擇，使某些字符（如符號和大寫字母）比使用常規鍵盤更難選擇，密碼選擇將如何變化？

當然，鍵盤模式，尤其是上面的那些，對於任何好的密碼破解者來說都不是問題。 Passpat 使用多種鍵盤佈局和一種巧妙的算法來衡量密碼是由鍵盤圖案構成的可能性。 ⁹還有其他工具可用於生成數以百萬計的鍵盤模式，將它們編譯並用作列表，而不是浪費時間試圖通過蠻力破解相同的組合。 ¹⁰

不過，大多數人不使用鍵盤模式。他們堅持選擇隨機詞的經典且經常不安全的方法。

現在你可以明白為什麼我們在本文開頭猜到了蝙蝠俠和超人：它們是 1000 萬密碼數據集中使用最多的超級英雄名字。關於上述列表的重要一點是，當一個人在密碼中包含某個單詞時，有時很難知道他們在什麼意義上使用它。例如，在顏色列表中，黑色有時可能指姓氏Black ；具有雙重上下文的其他單詞也是如此。為了在計算上述單詞的頻率時最小化這個問題，我們分別處理了每個列表。例如，僅當密碼以顏色名稱開頭並以數字或符號結尾時，才會計算顏色。這樣，我們避免了在Alfred中計算紅色和在BluesBrothers中計算藍色。當然，使用這種保守的方法意味著我們錯過了許多合法的顏色名稱，但最好知道上面的列表只包含“確定”。

其他列表有不同的規則。我們沒有在動物列表中包括貓和狗，因為貓出現在太多其他詞中。相反，我們分別計算了貓和狗，發現它們的使用次數幾乎相同。然而，cat 與Wild-和Bob- （運動隊）一起使用的次數要多於dog在其他短語中的使用。所以我們會說狗可能會贏。

最常見的名詞和動詞只有出現在日常英語中使用的前 1,000 個名詞和前 1,000 個動詞中才會被計算在內。否則，列表中將充滿諸如password之類的名詞和諸如love之類的動詞。

並不是說愛不是一個有趣的詞。它實際上在密碼中使用得非常頻繁。我們在 1000 萬個密碼中發現了 40,000 次，在 500 萬個 Gmail 憑據中也發現了很多。

當我們計算從用戶名推斷其年齡的人的密碼中愛的頻率時，80 年代和 90 年代出生的人使用它的頻率略高於老年人。

在 Gmail 數據中，1.4% 的女性密碼包含愛，而男性只有 0.7%。換句話說，至少根據這些數據，女性在密碼中使用愛這個詞的頻率似乎是男性的兩倍。這一發現緊隨最近對密碼中的愛這個詞的其他研究的腳步。安大略理工大學的一個研究小組報告說， ilove [男名] 是ilove [女名] 的四倍； iloveyou是iloveme的 10 倍； <3 是第二種最常用的將符號與數字組合的方法。 ¹¹

現在我們已經了解了密碼中最常見的單詞和數字、最常用的鍵盤模式、密碼熵的概念以及簡單的密碼混淆方法（如 leet speak）的相對無效性，我們可以進入我們的最終端口的電話。這是最私人的，也可能是最有趣的。

有錢有勢的密碼

Mark Burnett 在他的網站上指出，密碼轉儲非常頻繁，令人擔憂。畢竟， ¹²次抓取新鮮轉儲是他編譯 1000 萬個密碼數據集的方式。似乎越來越頻繁地登上頭條的其他事件是名人和公司的高調黑客攻擊。詹妮弗勞倫斯等人。索尼立即浮現在腦海中。我們很好奇 Gmail 數據如何潛在地用於確定哪些知名人士特別受到了這次轉儲的影響。換句話說，誰的密碼被公佈了？我們通過使用 Full Contact 的 Person API 來做到這一點，它獲取電子郵件地址列表並通過 Twitter、LinkedIn 和 Google+ 等幾個主要社交網站的 API 運行它們。然後它為它找到的任何東西提供新的數據點，比如年齡、性別和職業。 ¹³

我們已經知道一些相當知名的人在 Gmail 垃圾場。例如，Mashable 在名單發布一個月後指出，其中包括一名記者（為他列出的密碼是他的 Gmail 密碼，但已有數年曆史，不再使用）。 ¹⁴但我們沒想到Full Contact 會出現這麼多。

在我們找到的 78,000 個匹配項中，有數百個非常引人注目的人。我們在下面選擇了大約 40 個最著名的。幾個非常重要的點：

1. 我們故意不按姓名識別任何人。

2. 公司徽標代表個人現在工作的組織，不一定代表他們使用為他們列出的密碼時。

3. 無法知道密碼最初是在哪裡使用的。它們可能是個人 Gmail 密碼，但更有可能是在 File Dropper 等其他網站上使用過。因此，許多弱密碼可能並不代表個人當前在工作中或其他任何地方使用的密碼。

4. 谷歌證實，當列表發佈時，只有不到 2% (100,000) 的密碼可能與他們配對的 Gmail 地址一起使用。所有受影響的帳戶持有人都必須重置密碼。換句話說，下面的密碼——雖然仍然具有教育意義——不再使用。相反，它們已被其他希望更安全的組合所取代。

但是，如果密碼沒有被重置，情況將更加令人擔憂。多項研究表明，我們中的許多人對多項服務使用相同的密碼。 ¹⁵鑑於下面的名單包括幾位首席執行官、許多記者，以及賈斯汀·比伯和愛莉安娜·格蘭德的人才管理公司的高層，這次轉儲可能會造成很多混亂。謝天謝地，它沒有，現在不能。

關於上述密碼最引人注目的一點是，如果對它們使用離線破解過程，其中有多少很容易猜到。最強的曾經屬於 GitHub 開發人員 ( ns8vfpobzmx098bf4coj )，熵為 96，看起來幾乎太隨機了。它可能是由隨機密碼生成器或密碼管理器創建的。最弱的屬於 IBM 的一位高級經理 ( 123456 )，相反，它看起來很基礎，肯定被用於某個地方的一次性註冊。許多其他人在復雜性和簡單性之間取得了足夠的平衡，表明他們的所有者關心確保他們的安全並希望保護他們被選中的帳戶。

有幾個有趣的傑出人物要完成：美國國務院的司長，其密碼（但不是名字）是linco1n （林肯）和赫芬頓郵報的作家，他追隨 Mulder 的腳步（來自 X 檔案）並選擇了trustno1 。更一般地說，有趣的是，我們選擇的知名人士中有多少人做了我們其他人所做的事情：把我們的名字、出生日期、簡單的詞和幾個數字組合起來，變得很糟糕密碼。我們認為這是有道理的。就連奧巴馬總統最近也承認他曾經使用過密碼1234567 。具有更高熵分數的密碼將是PoTuS.1776 。雖然，對於一個聰明的破解者來說，這可能有點明顯。

***

那麼你自己的密碼呢？在閱讀這篇文章時，您可能會想到自己並想知道：“有人能猜出我的網上銀行、電子郵件或博客的密碼嗎？” 如果您使用像 Gmail 這樣的大型電子郵件提供商之一，則不必太擔心您的密碼會被暴力破解。 Gmail 幾乎會立即切斷非法嘗試。您的網上銀行可能受到類似保護。但是，如果您有博客，情況會更加複雜，因為——簡單來說——攻擊者有更多潛在的方法可以進入，因此必須主動保護每一種方法以阻止它們進入。關鍵是永遠不要將密碼安全視為理所當然，並想出一個簡單但仍然很難找出一個系統來提供安全密碼。

WP Engine 團隊花費大量時間和持續努力來確保我們客戶的 WordPress 網站的安全。我們安全的 WordPress 託管平台集成到 WordPress 本身中，並通過智能、反應性軟件保護我們客戶的網站免受對其密碼的暴力攻擊，該軟件不斷學習和適應威脅並採取行動。我們還保護我們的客戶免受與密碼猜測無關的攻擊，例如嗅探登錄嘗試和 SQL 注入。 WP Engine 提供管理最好的 WordPress 託管平台，助力品牌和企業利用 WordPress 技術接觸全球受眾。

下載我們的 WordPress 安全白皮書，了解保護 WordPress 部署的 10 個最佳實踐，包括如何安全地生成、存儲和定期更改密碼。

參考

1. http://www.dailydot.com/crime/google-gmail-5-million-passwords-leaked/

2. http://www.eweek.com/blogs/security-watch/wordpress-resets-100000-passwords-after-google-account-leak.html

3. https://xato.net/passwords/ten-million-passwords

4. https://xato.net/passwords/ten-million-passwords-faq/

5. http://groups.csail.mit.edu/uid/deneme/?p=628

6. http://micro.magnet.fsu.edu/creatures/pages/random.html

7. http://www.dailymail.co.uk/news/article-2601281/Why-lucky-7-really-magic-number.html

8. https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-estimation/

9. http://digi.ninja/projects/passpat.php

10. https://github.com/Rich5/Keyboard-Walk-Generators

11. http://www.thestar.com/news/gta/2015/02/13/is-there-love-in-your-online-passwords.html

12. https://xato.net/passwords/understanding-password-dumps

13. https://www.fullcontact.com/developer/person-api/

14. http://mashable.com/2014/09/10/5-million-gmail-passwords-leak/

15. http://www.jbonneau.com/doc/DBCBW14-NDSS-tangled_web.pdf