Разоблачение: что 10 миллионов паролей говорят о людях, которые их выбирают

Опубликовано: 2022-07-11

О паролях известно очень много. Большинство из них короткие, простые и их довольно легко взломать. Но гораздо меньше известно о психологических причинах выбора человеком того или иного пароля. Большинство экспертов рекомендуют придумывать надежный пароль, чтобы избежать утечки данных. Но почему так много интернет-пользователей до сих пор предпочитают слабые пароли?

Мы проанализировали выбор паролей 10 миллионов человек, от генеральных директоров до ученых, чтобы узнать, что они говорят о вещах, которые мы считаем легко запоминаемыми и трудными для угадывания.

Кто первый супергерой, который приходит на ум? Как насчет числа от одного до 10? И, наконец, яркий цвет? Быстро подумайте о каждой из этих вещей, если вы еще этого не сделали, а затем объедините все три в одну фразу.

Теперь пришло время нам угадать это.

Это Супермен7ред ? Нет, нет: Batman3Orange ? Если мы угадали любой из отдельных ответов правильно, это потому, что люди предсказуемы. И это проблема с паролями. Да, мы дали себе преимущество в виде некоторых скрытно выбранных вопросов, но это ничто по сравнению с скрытностью промышленного масштаба специально разработанного программного обеспечения для взлома паролей. HashCat, например, может угадывать ваш пароль 300 000 раз в секунду (в зависимости от того, как он хешируется), так что даже если вы выберете Hawkeye6yellow , ваша секретная фраза рано или поздно перестанет быть секретной.

Оглавление

1. Два набора данных, несколько предостережений

2. «Я добавлю номер, чтобы сделать его более безопасным».

3. Оценка энтропии паролей

4. Пароли богатых и влиятельных

5. Ссылки

Пароли так часто легко угадать, потому что многие из нас думают об очевидных словах и цифрах и комбинируют их простыми способами. Мы хотели исследовать эту концепцию и при этом посмотреть, что мы можем узнать о том, как работает разум человека, когда он или она упорядочивает слова, числа и (надеюсь) символы в (вероятно, не очень) уникальном порядке.

Мы начали с выбора двух наборов данных для анализа.

Два набора данных, несколько предостережений

Первый набор данных — это дамп из 5 миллионов учетных данных, который впервые появился в сентябре 2014 года на российском форуме BitCoin. ¹ Оказалось, что это учетные записи Gmail (и некоторые из учетных записей Yandex.ru), но дальнейшая проверка показала, что, хотя большинство включенных электронных писем были действительными адресами Gmail, большинство паролей в текстовом виде были либо старыми паролями Gmail (т. е. более не активными), или пароли, которые не использовались с соответствующими адресами Gmail. Тем не менее, WordPress.com сбросил 100 000 учетных записей и заявил, что еще 600 000 находятся в потенциальной опасности. ² Похоже, что в дампе собраны пароли за несколько лет, которые были собраны из разных мест различными способами. Однако для наших академических целей это не имело значения. Пароли по-прежнему выбирались владельцами учетных записей Gmail, даже если они не предназначались для их собственных учетных записей Gmail, и учитывая, что 98 процентов из них больше не используются, мы чувствовали, что можем безопасно их исследовать. ³

Мы использовали этот набор данных, который мы назовем «дампом Gmail», чтобы ответить на демографические вопросы (особенно те, которые связаны с полом и возрастом тех, кто выбирает пароль). Мы извлекли эти факты путем поиска в 5 миллионах адресов электронной почты тех, которые содержали имена и годы рождения. Например, если адрес был [email protected], он был закодирован как мужчина 1984 года рождения. Этот метод вывода может быть сложным. Мы не будем утомлять вас слишком многими техническими подробностями, но к концу процесса кодирования у нас было 485 000 из 5 миллионов адресов Gmail, закодированных по признаку пола, и 220 000 — по возрасту. На этом этапе стоит уделить внимание вопросу: «Выбирают ли пользователи, указывающие свое имя и год рождения в своих адресах электронной почты, другие пароли, чем те, кто этого не делает?», потому что теоретически возможно, что они это делают. Мы обсудим это чуть позже.

А пока вот как пользователи, которых мы закодировали, были разделены по десятилетию рождения и полу.

Разоблачение: что 10 миллионов паролей говорят о людях, которые их выбирают

Дамп Gmail или, по крайней мере, те люди, у которых в адресах указаны имена и/или годы рождения, были смещены в сторону мужчин и людей, родившихся в 80-х годах. Вероятно, это связано с демографическим профилем сайтов, базы данных которых были скомпрометированы для формирования дампа. Поиск адресов в дампе, содержащих символ + (добавленный пользователями Gmail для отслеживания того, что сайты делают с их адресами электронной почты), показал, что большое количество учетных данных исходит от File Dropper, eHarmony, сайта для взрослых и Friendster.

Второй набор данных, который мы использовали для получения большей части наших результатов, был щедро опубликован консультантом по безопасности Марком Бернеттом через его сайт xato.net. ⁴ Он состоит из 10 миллионов паролей, которые были собраны со всех уголков сети в течение нескольких лет. Марк собрал общедоступные, просочившиеся и опубликованные списки из тысяч источников, чтобы создать, возможно, один из самых полных списков реальных паролей за всю историю. Чтобы узнать больше об этом наборе данных, ознакомьтесь с часто задаваемыми вопросами в его блоге. ⁵

Мы не будем тратить слишком много времени на предоставление вам действительно основных фактов об этом наборе данных (как и обо всех средних значениях). Это было сделано много раз раньше. Вместо этого давайте просто посмотрим на 50 наиболее часто используемых паролей из 10 миллионов. Затем мы перейдем на потенциально более интересную территорию.

Как вы можете видеть и, вероятно, уже знаете, самые распространенные пароли — это яркие примеры вещей, которые сразу же приходят в голову кому-то, когда веб-сайт предлагает ему или ей создать пароль. Все они очень легко запоминаются, и в силу этого догадаться с помощью словарной атаки — детская забава. Когда Марк Бернетт проанализировал 3,3 миллиона паролей, чтобы определить самые распространенные в 2014 году (все они входят в его более крупный список из 10 миллионов), он обнаружил, что 0,6% составляют 123456 . А используя 10 самых популярных паролей, хакер мог угадать в среднем 16 из 1000 паролей.

Однако меньше людей, чем в предыдущие годы, используют пароли, показанные выше. Пользователи все больше осознают, что делает пароль надежным. Например, добавление числа или двух в конце текстовой фразы. Это делает его лучше, верно?

«Я добавлю номер, чтобы сделать его более безопасным».

Почти полмиллиона, или 420 000 (8,4%), из 10 миллионов паролей заканчивались цифрами от 0 до 99. И более чем каждый пятый человек, добавлявший эти цифры, просто выбрал 1 . Возможно, они считали, что это легче всего запомнить. Или, может быть, сайт побудил их включить число в свой выбор основного слова. Другими наиболее распространенными вариантами выбора были 2, 3, 12 (предположительно, один-два, а не 12), 7 и так далее. Было замечено, что когда вы просите человека подумать о числе от одного до десяти, большинство отвечает семь или три (отсюда и наши догадки во введении), и люди, похоже, склонны думать о простых числах. ^{6, 7} Это может иметь значение здесь, но также возможно, что однозначные числа выбираются в качестве альтернативы паролям, которые люди уже используют, но хотят использовать снова, не «компрометируя» свои учетные данные на других сайтах.

Однако это спорный вопрос, если учесть, что приличный взломщик паролей может очень легко добавить число или несколько тысяч к своему словарю слов или подходу грубой силы. Надежность пароля действительно сводится к энтропии.

Оценка энтропии пароля

Проще говоря, чем больше энтропия у пароля, тем он надежнее. Энтропия увеличивается с увеличением длины пароля и вариации символов, из которых он состоит. Однако, хотя разнообразие используемых символов влияет на показатель энтропии (и на то, насколько сложно его угадать), длина пароля имеет большее значение. Это связано с тем, что по мере того, как пароль становится длиннее, количество способов, которыми его составные части могут быть перетасованы в новую комбинацию, экспоненциально увеличивается, и, следовательно, становится намного труднее догадаться.

Средняя длина пароля из дампа Gmail составляла восемь символов (например, пароль ), и не было существенной разницы между средней длиной мужских паролей и женских.

Что насчет энтропии? Что является более точным отражением надежности пароля, чем длина символа?

Средняя энтропия пароля из дампа Gmail составляла 21,6, что не так просто осмыслить. Диаграмма слева дает более четкое представление. Опять же, между мужчинами и женщинами была лишь незначительная разница, но паролей с близкой к нулю энтропией было намного больше, чем более 60.

Примеры паролей различаются на один или два символа в зависимости от диапазона энтропии. Вообще говоря, энтропия зависит от длины, и увеличение диапазона символов за счет включения цифр, заглавных букв и символов также помогает.

Так как же мы рассчитали энтропию для всех 5 миллионов паролей из дампа Gmail?

Существует множество способов расчета энтропии паролей, и некоторые из них более примитивны (и менее реалистичны), чем другие. Самый простой предполагает, что пароль можно угадать, только попробовав каждую комбинацию его символов. Однако более разумный подход признает, что люди — как мы видели — зависимы от шаблонов, и поэтому можно сделать определенные предположения о большинстве их паролей. И на основе этих предположений можно установить правила для попыток угадать их пароли и использовать их для значительного ускорения процесса взлома (путем объединения комбинаций символов в часто используемые шаблоны). Это все очень умно, и мы не можем ставить себе в заслугу это. Вместо этого заслуга принадлежит Дэну Уилеру, который создал используемую нами оценку энтропии. Он называется Zxcvbn, и его можно подробно увидеть и прочитать здесь. ⁸

Короче говоря, он формирует «знание» о том, как люди неосознанно включают шаблоны в свои пароли, в свою оценку того, что должен сделать хороший взломщик паролей, чтобы определить эти шаблоны. Например, пароль , по наивной оценке, имеет энтропию 37,6 бит. Zxcvbn, однако, получает нулевую оценку (самая низкая и наихудшая оценка энтропии), потому что он учитывает тот факт, что каждый список слов, используемый взломщиками паролей, содержит слово password . Он делает то же самое с другими более распространенными паттернами, такими как leet say (добавление numb3rs к словам, чтобы [email protected] сделал их менее угадываемыми).

Он также оценивает другие пароли, которые на первый взгляд выглядят очень случайными, как имеющие нулевую энтропию. qaz2wsx (30-й по распространенности пароль), например, выглядит довольно случайным, верно? На самом деле это совсем не так. На самом деле это клавиатурный паттерн (легко воспроизводимый «шаг» от одной клавиши на клавиатуре к другой). Сам Zxcvbn назван в честь одного из таких шаблонов.

Мы выбрали 20 наиболее часто используемых клавиатурных комбинаций из набора данных с 10 миллионами паролей. Мы решили исключить шаблоны чисел, такие как 123456 , потому что это всего лишь своего рода обход клавиатуры, и их так много в верхней части списка наиболее часто используемых паролей, что не было бы места, чтобы увидеть некоторые из них. более интересные, если бы мы их включили.

самые распространенные комбинации клавиш

Девятнадцать из 20 приведенных выше клавиатурных комбинаций выглядят примерно так же предсказуемо, как и следовало ожидать, за исключением последней: Adgjmptw . Можете ли вы догадаться, почему этот шаблон входит в число наиболее часто используемых шаблонов?

Вам, вероятно, не нужно, так как вы почти наверняка уже посмотрели ниже.

Хотя мы очень сомневаемся, что мы первые, кто заметил это, мы еще не нашли никаких других упоминаний о том, что этот шаблон клавиатуры является одним из наиболее часто используемых в паролях. Тем не менее, он занимает 20-е место выше.

Если вы еще не поняли, он генерируется нажатием цифр от 2 до 9 на клавиатуре смартфона (первая буква каждой соответствует каждой букве комбинации клавиш в пароле).

Сначала мы были озадачены этим шаблоном, потому что большинство людей не печатают буквы с помощью цифровой клавиатуры; они используют раскладку QWERTY. Потом мы вспомнили такие телефоны, как Blackberry, у которых есть физическая клавиатура с цифрами, которые всегда видны на клавишах.

Этот паттерн ставит интересный вопрос: как изменится выбор пароля, поскольку все больше людей создают его на сенсорных устройствах, которые усложняют выбор определенных символов (таких как символы и заглавные буквы), чем при использовании обычной клавиатуры?

Конечно, комбинации клавиш, особенно приведенные выше, не представляют проблемы для любого хорошего взломщика паролей. Passpat использует несколько раскладок клавиатуры и умный алгоритм для измерения вероятности того, что пароль составлен из комбинации клавиш. ⁹ Существуют и другие инструменты для генерации миллионов клавиатурных комбинаций, для составления и использования их в виде списка, вместо того, чтобы тратить время на попытки взлома одних и тех же комбинаций методом грубой силы. ¹⁰

Однако большинство людей не используют комбинации клавиш. Они придерживаются классического и часто небезопасного метода выбора случайного слова.

самые распространенные варианты слов в паролях

Теперь вы понимаете, почему мы угадали Бэтмена и Супермена в начале этой статьи: это наиболее часто используемые имена супергероев в наборе данных из 10 миллионов паролей. Важным моментом в приведенных выше списках является то, что иногда трудно понять, в каком смысле человек использует слово, когда включает его в свой пароль. Например, в списке цветов черный может иногда относиться к фамилии Блэк ; то же самое относится и к другим словам с двойным контекстом. Чтобы свести к минимуму эту проблему при подсчете частот вышеперечисленных слов, мы подошли к каждому списку отдельно. Например, цвета учитывались только тогда, когда пароли начинались с названия цвета и заканчивались цифрами или символами. Таким образом, мы избегали подсчета красного в Alfred и синего в BluesBrothers . Использование этого консервативного подхода, конечно же, означает, что мы пропустили много законных названий цветов, но, кажется, лучше знать, что приведенный выше список содержит только «определенные».

В других списках были другие правила. Мы не включили кошек и собак в список животных, потому что кошка встречается в слишком многих других словах. Вместо этого мы посчитали кошек и собак отдельно и обнаружили, что они используются почти одинаковое количество раз. Тем не менее, кошки используются гораздо чаще в сочетании с Wild- и Bob- (спортивные команды), чем собаки используются в других фразах. Так что мы бы сказали, что собаки , вероятно, побеждают.

Наиболее распространенные существительные и глаголы учитывались только в том случае, если они появлялись в 1000 самых популярных существительных и 1000 самых популярных глаголов, используемых в повседневном английском языке. В противном случае списки были бы полны существительных, таких как пароль , и глаголов, таких как любовь .

Не то, чтобы любовь не интересное слово. На самом деле он удивительно часто используется в паролях. Мы нашли его 40 000 раз в 10 миллионах паролей и много раз в 5 миллионах учетных данных Gmail.

Когда мы подсчитали частоту любви в паролях людей, чей возраст мы определили по их именам пользователей, те, кто родился в 80-х и 90-х годах, использовали его немного чаще, чем люди старшего возраста.

В данных Gmail 1,4% женских паролей содержали любовь по сравнению с 0,7% мужских паролей. Другими словами, по крайней мере, исходя из этих данных, женщины используют слово « любовь » в своих паролях в два раза чаще, чем мужчины. Это открытие следует по стопам других недавних исследований слова «любовь» в паролях. Команда из Технологического института Университета Онтарио сообщила, что ilove [мужское имя] встречается в четыре раза чаще, чем ilove [женское имя]; iloveyou встречается в 10 раз чаще, чем iloveme ; а <3 был вторым наиболее распространенным способом объединения символа с числом. ¹¹

Теперь, когда мы немного узнали о наиболее распространенных словах и числах в паролях, наиболее часто используемых комбинациях клавиш, концепции энтропии паролей и относительной бесполезности простых методов запутывания паролей, таких как leet say, мы можем перейти к нашему последнему порту. вызова. Это самое личное и потенциально самое интересное.

Пароли богатых и влиятельных

Марк Бернетт отмечает на своем веб-сайте, что дампы паролей происходят тревожно часто. ¹² В конце концов, сканирование свежих дампов — вот как он собрал набор данных из 10 миллионов паролей. Другие события, которые, кажется, все чаще попадают в заголовки, — это громкие взломы знаменитостей и корпораций. Дженнифер Лоуренс и др. и Сони сразу приходят на ум. Нам было любопытно, как данные Gmail потенциально могут быть использованы для определения того, какие высокопоставленные лица особенно пострадали от этой свалки. Другими словами, чьи пароли были опубликованы? Мы сделали это с помощью Person API Full Contact, который берет список адресов электронной почты и пропускает их через API нескольких крупных сайтов социальных сетей, таких как Twitter, LinkedIn и Google+. Затем он предоставляет новые точки данных для всех найденных, таких как возраст, пол и профессия. ¹³

Мы уже знали, что несколько довольно известных людей оказались на свалке Gmail. Например, через месяц после публикации списка Mashable отметила, что в него был включен один из его репортеров (пароль, указанный для него, был его паролем Gmail, но ему уже несколько лет, и он больше не используется). ¹⁴ Но мы не думали, что Full Contact появится так много.

Среди найденных нами 78 000 совпадений были сотни очень известных людей. Ниже мы отобрали около 40 самых примечательных из них. Несколько очень важных моментов:

1. Мы намеренно не назвали никого по имени.

2. Логотипы компаний представляют те организации, в которых люди работают сейчас , и не обязательно, когда они использовали указанный для них пароль.

3. Невозможно узнать, где изначально использовались пароли. Возможно, это были личные пароли Gmail, но более вероятно, что они использовались на других сайтах, таких как File Dropper. Поэтому возможно, что многие из слабых паролей не являются репрезентативными для паролей, которые люди в настоящее время используют на работе или где-либо еще в этом отношении.

4. Google подтвердил, что, когда список был опубликован, менее 2 процентов (100 000) паролей могли работать с адресами Gmail, с которыми они были сопряжены. И все затронутые владельцы учетных записей были обязаны сбросить свои пароли. Другими словами, приведенные ниже пароли, хотя и все еще образовательные, больше не используются. Вместо этого они были заменены другими, надеюсь, более безопасными комбинациями.

Однако, если бы пароли не были сброшены, ситуация была бы более серьезной. Несколько исследований показали, что некоторые из нас используют одни и те же пароли для нескольких сервисов. ¹⁵ А учитывая, что в приведенном ниже списке есть несколько генеральных директоров, много журналистов и кто-то очень высокопоставленный в компании по управлению талантами Джастина Бибера и Арианы Гранде, эта свалка могла вызвать большой хаос. К счастью, этого не произошло, и теперь не может.

Самое примечательное в приведенных выше паролях — это то, сколько из них было бы очень легко угадать, если бы против них использовался процесс взлома в автономном режиме. Самый сильный из группы когда-то принадлежал разработчику GitHub ( ns8vfpobzmx098bf4coj ), и с энтропией 96 он выглядит слишком случайным. Вероятно, он был создан генератором случайных паролей или менеджером паролей. Самый слабый принадлежал старшему менеджеру IBM ( 123456 ), который, наоборот, кажется настолько простым, что наверняка где-то использовался для одноразовой регистрации. Многие другие обеспечивают достаточный баланс между сложностью и простотой, чтобы предположить, что их владельцы заботились о том, чтобы сделать их безопасными, и хотели защитить учетные записи, для которых они были выбраны.

Пара интересных выдающихся личностей: начальник отдела Государственного департамента США, чей пароль (но не имя) был linco1n (Линкольн), и автор Huffington Post, который пошел по стопам Малдера (из «Секретных материалов») и выбрал trustno1 . И вообще, интересно посмотреть, сколько из избранных нами высокопоставленных людей сделали именно то, что делают многие из нас: объединили наши имена, даты рождения, простые слова и пару цифр, чтобы получить паршивую пароли. Мы предполагаем, что это имеет смысл, хотя. Даже президент Обама недавно признался, что когда-то использовал пароль 1234567 . Паролем с гораздо более высоким показателем энтропии был бы PoTuS.1776 . Хотя для умного взломщика это могло быть несколько очевидным.

***

Так что насчет ваших собственных паролей? Читая этот пост, вы, вероятно, думали о себе и задавались вопросом: «Может ли кто-нибудь подобрать пароль к моему онлайн-банкингу, электронной почте или блогу?» Если вы пользуетесь одним из крупных почтовых провайдеров, например Gmail, вам не нужно слишком беспокоиться о том, что ваш пароль будет угадан с помощью атаки грубой силы. Gmail практически сразу блокирует незаконные попытки. Ваш онлайн-банкинг, вероятно, защищен аналогичным образом. Однако, если у вас есть блог, ситуация более сложная, потому что, говоря простым языком, у злоумышленника есть больше потенциальных способов проникнуть внутрь, поэтому каждый из них должен быть заранее защищен, чтобы не допустить их проникновения. Суть в том, чтобы никогда не воспринимать безопасность пароля как должное и придумать простую, но все же сложную систему для создания безопасного пароля.

Команда WP Engine тратит много времени и усилий на обеспечение безопасности сайтов WordPress наших клиентов. Наша безопасная хостинговая платформа WordPress интегрируется в сам WordPress и защищает сайты наших клиентов от атак грубой силы на их пароли с помощью интеллектуального, реактивного программного обеспечения, которое постоянно учится, адаптируется к угрозам и принимает меры. Мы также защищаем наших клиентов от атак, которые не имеют ничего общего с подбором пароля, таких как перехват попыток входа в систему и SQL-инъекции. WP Engine предоставляет лучшую управляемую платформу хостинга WordPress, позволяющую брендам и предприятиям охватить глобальную аудиторию с помощью технологии WordPress.

Загрузите нашу Белую книгу по безопасности WordPress и узнайте о 10 лучших методах обеспечения безопасности развертывания WordPress, в том числе о том, как безопасно создавать, хранить и регулярно менять пароли.

использованная литература

1. http://www.dailydot.com/crime/google-gmail-5-million-passwords-leaked/

2. http://www.eweek.com/blogs/security-watch/wordpress-resets-100000-passwords-after-google-account-leak.html

3. https://xato.net/passwords/десять миллионов паролей

4. https://xato.net/passwords/ten-million-passwords-faq/

5. http://groups.csail.mit.edu/uid/deneme/?p=628

6. http://micro.magnet.fsu.edu/creatures/pages/random.html

7. http://www.dailymail.co.uk/news/article-2601281/Why-lucky-7-really-magic-number.html

8. https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-estimation/

9. http://digi.ninja/projects/passpat.php

10. https://github.com/Rich5/Keyboard-Walk-Generators

11. http://www.thestar.com/news/gta/2015/02/13/is-there-love-in-your-online-passwords.html

12. https://xato.net/passwords/understanding-password-dumps

13. https://www.fullcontact.com/developer/person-api/

14. http://mashable.com/2014/09/10/5-million-gmail-passwords-leak/

15. http://www.jbonneau.com/doc/DBCBW14-NDSS-tangled_web.pdf