マスクされていない:パスワードを選択した人について1,000万のパスワードが明らかにするもの

公開: 2022-07-11

パスワードについては多くのことが知られています。 ほとんどは短く、シンプルで、非常に簡単に解読できます。 しかし、人が特定のパスワードを選択する心理的な理由についてはほとんど知られていません。 ほとんどの専門家は、データ侵害を避けるために強力なパスワードを考え出すことを推奨しています。 しかし、なぜこれほど多くのインターネットユーザーが依然として弱いパスワードを好むのでしょうか。

CEOから科学者までの1,000万人のパスワードの選択を分析し、覚えやすく推測しにくいと思われることについて、彼らが何を明らかにしているかを調べました。

頭に浮かぶ最初のスーパーヒーローは誰ですか? 1から10までの数字はどうですか? そして最後に、鮮やかな色? まだ考えていない場合は、これらのそれぞれについてすばやく考えてから、3つすべてを1つのフレーズにまとめます。

さて、それを推測する時が来ました。

Superman7redですか? いいえ、いいえ: Batman3Orange ? 個々の答えのいずれかを正しく推測した場合、それは人間が予測可能であるためです。 そして、それがパスワードの問題です。 確かに、私たちはいくつかのこっそりと選択された質問の利点を自分たちに与えましたが、それは専用のパスワード解読ソフトウェアの産業規模のこっそりと比較して何もありません。 たとえば、HashCatは、パスワードを1秒間に300,000回推測する可能性があるため(ハッシュ方法によって異なります)、 Hawkeye6yellowを選択した場合でも、遅かれ早かれ、秘密のフレーズは秘密になりません。

目次
1. 2つのデータセット、いくつかの警告
2. 「より安全にするために番号を追加します。」
3.パスワードエントロピーの評価
4.リッチでパワフルなパスワード
5.参考文献

私たちの多くは明白な単語や数字を考え、それらを簡単な方法で組み合わせるため、パスワードは非常に簡単に推測できます。 私たちはこの概念を探求し、そうすることで、人が単語、数字、および(願わくば)記号を(おそらくあまり)一意の順序に並べたときに、人の心がどのように機能するかを知ることができるかどうかを確認したいと思いました。

分析する2つのデータセットを選択することから始めました。

2つのデータセット、いくつかの警告

最初のデータセットは、2014年9月にロシアのビットコインフォーラムに最初に表示された500万の資格情報のダンプです。 1これらはGmailアカウント(および一部のYandex.ru)のように見えましたが、さらに詳しく調べてみると、含まれているメールのほとんどは有効なGmailアドレスでしたが、プレーンテキストのパスワードのほとんどは古いGmailのパスワードでした(つまり、アクティブではなくなっています)。または、関連付けられたGmailアドレスで使用されなかったパスワード。 それにもかかわらず、WordPress.comは100,000のアカウントをリセットし、さらに600,000が潜在的に危険にさらされていると述べました。 2ダンプは、さまざまな場所からさまざまな方法で収集された数年分のパスワードのようです。 しかし、私たちの学術目的では、これは問題ではありませんでした。 パスワードはGmailアカウントの所有者によって選択されたものであり、自分のGmailアカウント用ではなく、98%が使用されなくなったことを考えると、安全に探索できると感じました。 3

このデータセット(「Gmailダンプ」と呼びます)を使用して、人口統計上の質問(特に、パスワード選択者の性別と年齢に関連する質問)に回答しました。 これらの事実を抽出するために、500万の電子メールアドレスで名と生年月日が含まれているものを検索しました。 たとえば、アドレスが[電子メールで保護されている]場合、1984年に生まれた男性としてコード化されました。この推論方法は注意が必要です。 ここではあまり多くの技術的な詳細に飽きることはありませんが、コーディングプロセスの終わりまでに、500万のGmailアドレスのうち485,000が性別でコーディングされ、22万が年齢でコーディングされました。 この時点で、「電子メールアドレスに名と生年月日を含めるユーザーは、そうでないユーザーとは異なるパスワードを選択しますか?」という質問を覚えておく価値があります。理論的には可能だからです。 これについては後で詳しく説明します。

ただし、今のところ、コーディングしたユーザーを10年の出生と性別で割った方法は次のとおりです。

マスクされていない:パスワードを選択した人について1,000万のパスワードが明らかにするもの

Gmailのゴミ捨て場、または少なくとも住所に名や生年月日が含まれている人々は、80年代に生まれた男性や人々に偏っていました。 これはおそらく、データベースが侵害されてダンプを形成したサイトの人口統計プロファイルが原因です。 +記号(Gmailユーザーが自分のメールアドレスでサイトがどのように機能するかを追跡するために追加)を含むダンプ内のアドレスを検索すると、多数の資格情報がFile Dropper、eHarmony、アダルトチューブサイト、およびFriendsterからのものであることがわかりました。

2番目のデータセット、およびほとんどの結果を収集するために使用したデータセットは、セキュリティコンサルタントのMarkBurnettによって彼のサイトxato.netを通じて寛大にリリースされました。 4これは、数年の間にWebの隅々から収集された1,000万個のパスワードで構成されています。 Markは、数千のソースから公開され、リークされ、公開されたリストを収集して、これまでで最も包括的な実際のパスワードのリストを作成しました。 このデータセットの詳細については、彼のブログのFAQを確認してください。 5

このデータセットに関する本当に基本的な事実(すべての平均のように)を提供するのにあまり時間をかけません。 それは以前に何度も行われてきました。 代わりに、1,000万個の中で最も使用されている50個のパスワードを見てみましょう。 次に、潜在的により興味深い領域に足を踏み入れます。

最もよく使用される50個のパスワード

ご覧のとおり、おそらくすでにご存知のとおり、最も一般的なパスワードはすべて、Webサイトがパスワードの作成を求めたときにすぐに頭に浮かぶものの輝かしい例です。 それらはすべて非常に覚えやすく、その事実のおかげで、辞書攻撃を使用して推測する子供の遊び。 マークバーネットが2014年に最も一般的なパスワードを決定するために330万のパスワードを分析したとき(それらはすべて彼のより大きな1000万のリストにあります)、0.6パーセントが123456であることがわかりました。 また、上位10個のパスワードを使用すると、ハッカーは平均して1,000個のパスワードのうち16個を推測できます。

ただし、上記の種類のパスワードを使用している人は、これまでよりも少なくなっています。 ユーザーは、パスワードを強力にする理由を少し意識するようになっています。 たとえば、テキストフレーズの最後に1つまたは2つの数字を追加します。 それはそれをより良くしますね?

「より安全にするために番号を追加します。」

パスワードで最もよく使用される番号

1000万のパスワードのうち50万近く、つまり420,000(8.4パーセント)が0から99までの数字で終わっていました。そして、これらの数字を追加した5人に1人以上が、単に1を選択しました。 おそらく彼らはこれが最も覚えやすいと感じたのでしょう。 あるいは、サイトから、ベースワードの選択肢に数字を含めるように促されたのかもしれません。 他の最も一般的な選択肢は、2、3、12(おそらく、12ではなく1から2と考えられている)、 7などでした。 人に1から10の間の数を考えるように頼むとき、ほとんどは7または3と言います(したがって、序論で私たちの推測です)、そして人々は素数を考えることに偏見を持っているようです。 6、7これはここで機能している可能性がありますが、他のサイトでの資格情報を「損なう」ことなく、人々がすでに使用しているパスワードの代わりに1桁を選択することも可能です。

ただし、まともなパスワードクラッカーは、単語の辞書や強引なアプローチに数、または数千を非常に簡単に追加できることを考えると、これは論点です。 パスワードの強みは、エントロピーです。

パスワードエントロピーの評価

簡単に言うと、パスワードのエントロピーが大きいほど、パスワードは強くなる傾向があります。 エントロピーは、パスワードの長さとパスワードを構成する文字のバリエーションとともに増加します。 ただし、使用される文字のバリエーションはエントロピースコア(および推測の難しさ)に影響しますが、パスワードの長さはより重要です。 これは、パスワードが長くなると、その構成要素を新しい組み合わせにシャッフルできる方法の数が指数関数的に大きくなるため、大げさな推測をするのがはるかに難しくなるためです。

パスワードの長さ

Gmailダンプからのパスワードの平均の長さは8文字(パスワードなど)であり、男性のパスワードの平均の長さと女性のパスワードの平均の長さの間に有意差はありませんでした。

エントロピーはどうですか? 文字の長さだけよりもパスワードの強さをより正確に反映しているのはどれですか?

Gmailダンプからのパスワードの平均エントロピーは21.6でしたが、これは概念化するのが特に簡単なことではありません。 左のグラフは、より明確な図を示しています。 繰り返しになりますが、男性と女性の間にはごくわずかな違いしかありませんでしたが、エントロピーがゼロに近いパスワードは60を超えるものよりもはるかに多かったです。

パスワードの例は、エントロピーの範囲に応じて1文字または2文字異なります。 一般的に、エントロピーは長さに比例し、数字、大文字、記号を含めることで文字の範囲を広げることも役立ちます。

では、Gmailダンプから500万個のパスワードすべてのエントロピーをどのように計算したのでしょうか。

パスワードエントロピーを計算する方法はたくさんあり、いくつかの方法は他の方法よりも基本的です(そして現実的ではありません)。 最も基本的なことは、パスワードはその文字のすべての組み合わせを試すことによってのみ推測できると想定しています。 ただし、よりインテリジェントなアプローチでは、これまで見てきたように、人間はパターンに夢中になっているため、ほとんどのパスワードについて特定の仮定を立てることができます。 そして、これらの仮定に基づいて、パスワードを推測するためのルールを確立して使用し、クラッキングプロセスを大幅に高速化できます(文字の組み合わせを一般的に使用されるパターンにチャンク化することにより)。 それはすべて非常に賢く、私たちはそれを信用することはできません。 代わりに、私たちが使用したエントロピー推定器を作成したDanWheelerにクレジットが与えられます。 これはZxcvbnと呼ばれ、ここで詳細を確認して読むことができます。 8

簡単に言えば、それは、人々が無意識のうちにパスワードにパターンを含める方法の「知識」を、優れたパスワードクラッカーがそれらのパターンを決定するために何をする必要があるかを推定するために構築します。 たとえば、単純な見積もりによると、パスワードのエントロピーは37.6ビットです。 ただし、Zxcvbnは、パスワードクラッカーが使用するすべての単語リストにパスワードという単語が含まれているという事実を考慮しているため、スコアはゼロ(最低および最悪のエントロピースコア)になります。 これは、リートスピーチなどの他のより一般的なパターンでも同様のことを行います([電子メールで保護された]単語にnumb3rsを追加すると、推測しにくいように見えます)。

また、エントロピーがゼロであるため、一見非常にランダムに見える他のパスワードもスコアリングします。 たとえば、 qaz2wsx (30番目に一般的なパスワード)はかなりランダムに見えますよね? 実際、それは何でもありません。 これは実際にはキーボードパターンです(キーボードのあるキーから次のキーへの簡単に繰り返し可能な「ウォーク」)。 Zxcvbn自体は、そのようなパターンの1つにちなんで名付けられています。

1,000万個のパスワードデータセットから、最もよく使用される20個のキーボードパターンを抽出しました。 123456のような数字のパターンは、キーボードウォークのようなものであり、最もよく使用されるパスワードリストの一番上にあるため、いくつかを表示するスペースがなかったため、除外することにしました。それらを含めた場合、より興味深いもの。

最も一般的なキーボードパターン

上記の20個のキーボードパターンのうち19個は、最後の1つであるAdgjmptwを除いて、予想どおりに予測可能に見えます。 それが最も使用されているパターンの中にランク付けされた理由を推測できますか?

ほぼ確実に以下を確認しているので、おそらくその必要はありません。

私たちが最初にそれを見つけたのかどうかは非常に疑わしいですが、パスワードで最も一般的に使用されているこのキーボードパターンへの参照はまだ見つかりません。 それでも、それは20位上にランクされています。

気付いていない方のために説明すると、スマートフォンのダイヤルパッドで2から9を押すと生成されます(それぞれの最初の文字は、パスワードのキーパターンの各文字に対応します)。

ほとんどの人はダイヤルパッドで文字を入力しないため、最初はこのパターンについて混乱していました。 QWERTYレイアウトを使用します。 次に、Blackberryのような電話を思い出しました。これは、キーに常に数字が表示されている物理的なキーボードを備えています。

このパターンは興味深い質問を提起します。通常のキーボードを使用する場合よりも特定の文字(記号や大文字など)の選択を困難にするタッチデバイスでパスワードを作成する人が増えると、パスワードの選択はどのように変化しますか?

もちろん、キーボードのパターン、特に上記のパターンは、優れたパスワードクラッカーにとってはまったく問題ありません。 Passpatは、いくつかのキーボードレイアウトと巧妙なアルゴリズムを使用して、パスワードがキーボードパターンから作成される可能性を測定します。 9そして、何百万ものキーボードパターンを生成し、それらをコンパイルしてリストとして使用するためのツールが他にもあります。力ずくで同じ組み合わせをクラックしようとして時間を無駄にするのではありません。 10

ただし、ほとんどの人はキーボードパターンを使用しません。 彼らはランダムな単語を選択する古典的でしばしば安全でない方法に固執します。

パスワードでの最も一般的な単語の選択

これで、この記事の冒頭でバットマンスーパーマンを推測した理由がわかります。これらは、1,000万のパスワードデータセットで最も使用されているスーパーヒーローの名前です。 上記のリストの重要な点は、パスワードに単語を含めるときに、その単語がどのような意味で使用されているかを理解するのが難しい場合があることです。 たとえば、色のリストで、は名前のを指す場合があります。 同じことが、二重の文脈を持つ他の言葉にも当てはまります。 上記の単語の頻度を数えるときにこの問題を最小限に抑えるために、各リストに個別にアプローチしました。 たとえば、色は、パスワードが色の名前で始まり、数字または記号で終わる場合にのみカウントされました。 このようにして、 AlfredではBluesBrothersではを数えることを避けました。 もちろん、この保守的なアプローチを使用すると、多くの正当な色の名前を見逃したことになりますが、上記のリストには「明確な」ものしか含まれていないことを知っておくとよいでしょう。

他のリストには異なるルールがありました。 猫は他の言葉であまりにも多く登場するため、動物リストには猫と犬を含めませんでした。 代わりに、を別々に数えたところ、ほぼ同じ回数使用されていることがわかりました。 ただし、は、が他のフレーズで使用されるよりも、ワイルドおよびボブ(スポーツチーム)と組み合わせて使用​​されます。 ですから、おそらくが勝つと思います。

最も一般的な名詞と動詞は、日常の英語で使用される上位1,000の名詞と上位1,000の動詞に含まれている場合にのみカウントされました。 そうでなければ、リストはパスワードのような名詞やのような動詞でいっぱいになっていたでしょう。

そのは面白い言葉ではありません。 実際、パスワードで驚くほど頻繁に使用されています。 1,000万のパスワードで40,000回、500万のGmailクレデンシャルでも多くのことがわかりました。

パスワードでの愛の使用

ユーザー名から年齢を推測した人のパスワードでの頻度を数えると、80年代と90年代に生まれた人は年配の人よりもわずかに頻繁に愛を使用していました。

Gmailのデータでは、男性の0.7%に対して、女性のパスワードの1.4%にが含まれていました。 言い換えれば、少なくともこのデータに基づくと、女性はパスワードにという言葉を男性の2倍の頻度で使用しているように見えます。 この発見は、パスワードの愛という言葉に関する他の最近の研究の足跡をたどっています。 オンタリオ工科大学のチームは、 ilove [男性の名前]はilove [女性の名前]よりも4倍一般的であると報告しました。 iloveyouilovemeより10倍一般的でした; <3は、記号と数字を組み合わせる2番目に一般的な方法でした。 11

パスワードで最も一般的な単語と数字、最もよく使用されるキーボードパターン、パスワードエントロピーの概念、およびリートスピーチのような単純なパスワード難読化方法の相対的な無益さについて少し学んだので、最終的なポートに移ることができます。呼び出しの。 それは最も個人的で、潜在的に最も興味深いものです。

リッチでパワフルなパスワード

Mark Burnettは、彼のWebサイトで、パスワードのダンプが心配そうに頻繁に行われていると述べています。 12新鮮なダンプをクロールすることは、結局のところ、彼が1,000万のパスワードデータセットをコンパイルした方法です。 ますます頻繁にヘッドラインにヒットしているように見える他のイベントは、有名人や企業の注目を集めるハッキングです。 ジェニファー・ローレンス他そしてソニーはすぐに頭に浮かぶ。 特にこのダンプの影響を受けた著名人を特定するためにGmailデータをどのように使用できるかについて興味がありました。 言い換えれば、誰のパスワードが公開されたのですか? これは、FullContactのPersonAPIを使用して行いました。このAPIは、メールアドレスのリストを取得し、Twitter、LinkedIn、Google+などのいくつかの主要なソーシャルネットワーキングサイトのAPIを介して実行します。 次に、年齢、性別、職業など、見つかったすべてのデータポイントに新しいデータポイントを提供します。 13

Gmailのダンプにかなり注目を集めている人が何人かいることはすでに知っていました。 たとえば、Mashableは、リストがリリースされてから1か月後に、レポーターの1人が含まれていることを指摘しました(MashableにリストされているパスワードはGmailのパスワードでしたが、数年前で使用されていません)。 14しかし、フルコンタクトがこれほど多くなるとは思いませんでした。

私たちが見つけた78,000の試合の中には、何百人もの非常に知名度の高い人々がいました。 以下で最も注目すべきものを約40個選択しました。 いくつかの非常に重要なポイント:

1.私たちは故意に名前で誰かを特定していません。

2.会社のロゴは、個人が現在働いている組織を表しており、リストされているパスワードを使用していたときは必ずしもそうではありません。

3.パスワードが最初に使用された場所を知る方法はありません。 個人のGmailパスワードであった可能性がありますが、FileDropperなどの他のサイトで使用された可能性が高くなります。 したがって、弱いパスワードの多くは、個人が現在職場で使用しているパスワードや、その他の場所で使用しているパスワードを表していない可能性があります。

4. Googleは、リストが公開されたときに、パスワードの2%(100,000)未満がペアになっているGmailアドレスで機能した可能性があることを確認しました。 また、影響を受けるすべてのアカウント所有者は、パスワードをリセットする必要がありました。 つまり、以下のパスワードは、まだ教育的ですが、使用されなくなりました。 代わりに、それらは他の、できればより安全な組み合わせに置き換えられました。

ただし、パスワードがリセットされていない場合は、状況がさらに懸念されます。 いくつかの調査によると、私たちの多くは複数のサービスに同じパスワードを使用しています。 15そして、以下のリストには、数人のCEO、多くのジャーナリスト、そしてジャスティンビーバーとアリアナグランデのタレントマネジメント会社の非常に高い人物が含まれていることを考えると、このダンプは多くの混乱を引き起こした可能性があります。 ありがたいことに、それはしませんでした、そして今はできません。

マスクされていない:パスワードを選択した人について1,000万のパスワードが明らかにするもの

上記のパスワードで最も注目に値するのは、オフラインのクラッキングプロセスがパスワードに対して使用された場合、それらのパスワードの数を非常に簡単に推測できることです。 最強のものはかつてGitHub開発者( ns8vfpobzmx098bf4coj )のものであり、エントロピーが96であるため、ほとんどランダムに見えます。 おそらく、ランダムパスワードジェネレータまたはパスワードマネージャによって作成されました。 最も弱いのはIBMの上級マネージャー( 123456 )でした。これは逆に、非常に基本的であるため、どこかで使い捨てのサインアップに使用されたに違いありません。 他の多くは、複雑さと単純さのバランスを十分に取っているため、所有者はそれらを安全にすることに関心があり、選択されたアカウントを保護したいと考えていました。

仕上げるべきいくつかの興味深い傑出したもの:パスワード(名前ではない)がlinco1n (リンカーン)である米国国務省の課長と、Mulderの足跡をたどって(X-Filesから) trustno1を選んだHuffingtonPostライター。 そして、もっと一般的には、私たちが選んだ著名人の何人が、他の多くの人とまったく同じことをしたかを見るのは興味深いことです。名前、生年月日、簡単な単語、いくつかの数字を組み合わせて、お粗末なものにします。パスワード。 しかし、それは理にかなっていると思います。 オバマ大統領でさえ、彼がかつてパスワード1234567を使用したことを最近認めました。 エントロピースコアがはるかに高いパスワードはPoTuS.1776でした。 賢いクラッカーにとっては、それは少し明白だったかもしれませんが。

***

では、自分のパスワードはどうですか? この投稿を読んでいる間、あなたはおそらく自分自身について考え、「誰かが私のオンラインバンキング、電子メール、またはブログのパスワードを推測できますか?」と疑問に思いました。 Gmailなどの大手メールプロバイダーの1つを使用している場合は、ブルートフォース攻撃によってパスワードが推測されることをあまり心配する必要はありません。 Gmailは、不正な試みをほぼ即座に遮断します。 あなたのオンラインバンキングも同様に保護されている可能性があります。 ただし、ブログを持っている場合、攻撃者が侵入する方法を見つける可能性が高いため、状況はより複雑になります。そのため、攻撃者が侵入できないように、それぞれを積極的に保護する必要があります。 重要なのは、パスワードのセキュリティを当然のことと考えて、安全なパスワードを考え出すためのシステムを理解するのは簡単ですが、それでも難しいことです。

WP Engineのチームは、お客様のWordPressサイトを安全に保つために多くの時間と継続的な努力を費やしています。 安全なWordPressホスティングプラットフォームはWordPress自体に統合されており、脅威を常に学習して適応し、行動を起こすインテリジェントで反応性の高いソフトウェアを使用して、パスワードに対するブルートフォース攻撃からお客様のサイトを保護します。 また、ログイン試行のスニッフィングやSQLインジェクションなど、パスワードの推測とは関係のない攻撃からお客様を保護します。 WP Engineは、最高のマネージドWordPressホスティングプラットフォームを提供し、ブランドと企業がWordPressテクノロジーで世界中の視聴者にリーチできるようにします。

WordPressセキュリティホワイトペーパーをダウンロードして、パスワードを安全に生成、保存、定期的に変更する方法など、WordPressの展開を保護するための10のベストプラクティスについて学びます。

参考文献

1. http://www.dailydot.com/crime/google-gmail-5-million-passwords-leaked/

2. http://www.eweek.com/blogs/security-watch/wordpress-resets-100000-passwords-after-google-account-leak.html

3. https://xato.net/passwords/ten-million-passwords

4. https://xato.net/passwords/ten-million-passwords-faq/

5. http://groups.csail.mit.edu/uid/deneme/?p=628

6. http://micro.magnet.fsu.edu/creatures/pages/random.html

7. http://www.dailymail.co.uk/news/article-2601281/Why-lucky-7-really-magic-number.html

8. https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-estimation/

9. http://digi.ninja/projects/passpat.php

10. https://github.com/Rich5/Keyboard-Walk-Generators

11. http://www.thestar.com/news/gta/2015/02/13/is-there-love-in-your-online-passwords.html

12. https://xato.net/passwords/understanding-password-dumps

13. https://www.fullcontact.com/developer/person-api/

14. http://mashable.com/2014/09/10/5-million-gmail-passwords-leak/

15. http://www.jbonneau.com/doc/DBCBW14-NDSS-tangled_web.pdf

インフォグラフィック