Smascherato: cosa rivelano 10 milioni di password sulle persone che le scelgono
Pubblicato: 2022-07-11Si sa molto sulle password. La maggior parte sono brevi, semplici e abbastanza facili da decifrare. Ma molto meno si sa sui motivi psicologici per cui una persona sceglie una password specifica. La maggior parte degli esperti consiglia di inventare una password complessa per evitare la violazione dei dati. Ma perché così tanti utenti Internet preferiscono ancora password deboli?
Abbiamo analizzato le scelte di password di 10 milioni di persone, dai CEO agli scienziati, per scoprire cosa rivelano sulle cose che consideriamo facili da ricordare e difficili da indovinare.
Chi è il primo supereroe che mi viene in mente? Che ne dici di un numero compreso tra uno e 10? E infine, un colore vibrante? Pensa rapidamente a ciascuna di queste cose se non l'hai già fatto, quindi combina tutte e tre in un'unica frase.
Ora è il momento di indovinarlo.
È Superman7red ? No, no: Batman3Orange ? Se abbiamo indovinato correttamente una qualsiasi delle singole risposte, è perché gli esseri umani sono prevedibili. E questo è il problema con le password. È vero, ci siamo dati il vantaggio di alcune domande scelte in modo subdolo, ma non è niente in confronto all'invisibilità su scala industriale di un software appositamente progettato per violare le password. HashCat, ad esempio, può richiedere 300.000 tentativi di ipotesi sulla tua password al secondo (a seconda di come viene eseguito l'hashing), quindi anche se hai scelto Hawkeye6yellow , la tua frase segreta, prima o poi, non sarebbe più segreta.
Le password sono così spesso facili da indovinare perché molti di noi pensano a parole e numeri ovvi e li combinano in modi semplici. Volevamo esplorare questo concetto e, così facendo, vedere cosa potremmo scoprire su come funziona la mente di una persona quando lui o lei dispone parole, numeri e (si spera) simboli in un ordine (probabilmente non molto) unico.
Abbiamo iniziato scegliendo due set di dati da analizzare.
Due set di dati, diversi avvertimenti
Il primo set di dati è un dump di 5 milioni di credenziali che è apparso per la prima volta a settembre 2014 su un forum BitCoin russo. 1 Sembravano essere account Gmail (e alcuni Yandex.ru), ma un'ulteriore ispezione ha mostrato che, mentre la maggior parte delle e-mail incluse erano indirizzi Gmail validi, la maggior parte delle password in chiaro erano vecchie Gmail (cioè non più attive) o password che non sono state utilizzate con gli indirizzi Gmail associati. Tuttavia, WordPress.com ha ripristinato 100.000 account e ha affermato che altri 600.000 erano potenzialmente a rischio. 2 La discarica sembra essere composta da diversi anni di password raccolte da vari luoghi, con vari mezzi. Per i nostri scopi accademici, tuttavia, questo non aveva importanza. Le password venivano ancora scelte dai titolari di account Gmail, anche se non erano per i propri account Gmail e dato che il 98% non era più in uso, sentivamo di poterle esplorare in sicurezza. 3
Abbiamo utilizzato questo set di dati, che chiameremo " dump di Gmail ", per rispondere a domande demografiche (soprattutto quelle relative al sesso e all'età dei selezionatori di password). Abbiamo estratto questi fatti cercando nei 5 milioni di indirizzi email quelli che contenevano nomi e anni di nascita. Ad esempio, se un indirizzo era [protetto tramite posta elettronica], veniva codificato come un maschio nato nel 1984. Questo metodo di inferenza può essere complicato. Non ti annoieremo con troppi dettagli tecnici qui, ma alla fine del processo di codifica avevamo 485.000 dei 5 milioni di indirizzi Gmail codificati per sesso e 220.000 codificati per età. A questo punto, vale la pena tenere a mente la domanda: "Gli utenti che includono il loro nome e l'anno di nascita nei loro indirizzi e-mail scelgono password diverse da quelle che non lo fanno?", perché è teoricamente possibile che lo facciano. Ne discuteremo di più un po' più tardi.
Per ora, però, ecco come gli utenti che abbiamo codificato sono stati divisi per decennio di nascita e sesso.
Il dump di Gmail, o almeno quelle persone al suo interno con nomi e/o anni di nascita nei loro indirizzi, era sbilanciato verso uomini e persone nate negli anni '80. Ciò è probabilmente dovuto ai profili demografici dei siti i cui database sono stati compromessi per formare il dump. La ricerca di indirizzi nel dump che contenevano il simbolo + (aggiunto dagli utenti di Gmail per tenere traccia di ciò che i siti fanno con i loro indirizzi e-mail), ha rivelato che un gran numero di credenziali proveniva da File Dropper, eHarmony, un sito di tube per adulti e Friendster.
Il secondo set di dati, e quello che abbiamo usato per raccogliere la maggior parte dei nostri risultati, è stato generosamente rilasciato dal consulente per la sicurezza Mark Burnett, attraverso il suo sito xato.net. 4 Consiste di 10 milioni di password, raccolte da tutti gli angoli del web in un periodo di diversi anni. Mark ha raccolto elenchi pubblicamente scaricati, trapelati e pubblicati da migliaia di fonti per creare forse uno degli elenchi di password reali più completi di sempre. Per saperne di più su questo set di dati, controlla le FAQ sul suo blog. 5
Non passeremo troppo tempo a fornirti informazioni di base su questo set di dati (come tutte le medie). È già stato fatto molte volte. Invece, diamo un'occhiata alle 50 password più utilizzate dei 10 milioni. Quindi entreremo in un territorio potenzialmente più interessante.
Come puoi vedere, e probabilmente già sai, le password più comuni sono tutti esempi fulgidi di cose che saltano subito in mente a qualcuno quando un sito web gli chiede di creare una password. Sono tutti estremamente facili da ricordare e, in virtù di ciò, è un gioco da ragazzi indovinare usando un attacco al dizionario. Quando Mark Burnett ha analizzato 3,3 milioni di password per determinare quelle più comuni nel 2014 (che sono tutte nella sua lista più ampia di 10 milioni), ha scoperto che lo 0,6% erano 123456 . E utilizzando le prime 10 password, un hacker potrebbe, in media, indovinare 16 password su 1.000.
Tuttavia, meno persone rispetto agli anni precedenti utilizzano i tipi di password visti sopra. Gli utenti stanno diventando leggermente più consapevoli di ciò che rende forte una password. Ad esempio, aggiungendo un numero o due alla fine di una frase di testo. Questo lo rende migliore, giusto?
"Aggiungerò un numero per renderlo più sicuro."
Quasi mezzo milione, o 420.000 (8,4 per cento), dei 10 milioni di password terminavano con un numero compreso tra 0 e 99. E più di una persona su cinque che ha aggiunto quei numeri ha semplicemente scelto 1 . Forse sentivano che questo era il più facile da ricordare. O forse il sito ha richiesto loro di includere un numero nella scelta della parola base. Le altre scelte più comuni erano 2, 3, 12 (presumibilmente pensato come uno-due, anziché 12), 7 e così via. È stato notato che quando chiedi a una persona di pensare a un numero compreso tra uno e 10, la maggior parte dice sette o tre (da cui le nostre ipotesi nell'introduzione) e le persone sembrano avere pregiudizi nel pensare ai numeri primi. 6, 7 Questo potrebbe essere in gioco qui, ma è anche possibile che le singole cifre vengano scelte come alternative alle password che le persone già utilizzano ma vogliono riutilizzare senza “compromettere” le proprie credenziali su altri siti.
È un punto controverso, tuttavia, se si considera che un cracker di password decente può facilmente aggiungere un numero, o diverse migliaia, al suo dizionario di parole o all'approccio di forza bruta. Ciò a cui si riduce la forza di una password è l'entropia.
Valutazione dell'entropia delle password
In parole povere, più entropia ha una password, più forte tende ad essere. L'entropia aumenta con la lunghezza della password e la variazione dei caratteri che la compongono. Tuttavia, mentre la variazione dei caratteri utilizzati influisce sul suo punteggio di entropia (e quanto sia difficile da indovinare), la lunghezza della password è più significativa. Questo perché man mano che la password si allunga, il numero di modi in cui le sue parti costitutive possono essere mescolate in una nuova combinazione diventa esponenzialmente più grande e, quindi, molto più difficile da fare congetture selvagge.
La lunghezza media di una password dal dump di Gmail era di otto caratteri (ad es. password ) e non vi era alcuna differenza significativa tra la lunghezza media delle password degli uomini rispetto a quelle delle donne.
E l'entropia? Qual è un riflesso più accurato della sicurezza della password rispetto alla sola lunghezza dei caratteri?
L'entropia media di una password dal dump di Gmail era 21,6, che non è una cosa particolarmente facile da concettualizzare. Il grafico a sinistra fornisce un quadro più chiaro. Anche in questo caso, c'era solo una differenza trascurabile tra uomini e donne, ma c'erano molte più password con entropia prossima allo zero rispetto a oltre 60.
Le password di esempio variano di uno o due caratteri in base agli intervalli di entropia. In generale, l'entropia scala con la lunghezza e anche aumentare la gamma di caratteri includendo numeri, maiuscole e simboli aiuta.
Quindi, come abbiamo calcolato l'entropia per tutti i 5 milioni di password dal dump di Gmail?
Esistono molti modi per calcolare l'entropia della password e alcuni metodi sono più rudimentali (e meno realistici) di altri. Il più elementare presuppone che una password possa essere indovinata solo provando ogni singola combinazione dei suoi caratteri. Un approccio più intelligente, tuttavia, riconosce che gli esseri umani, come abbiamo visto, sono dipendenti dagli schemi e quindi si possono fare alcune ipotesi sulla maggior parte delle loro password. E sulla base di questi presupposti, le regole per tentare di indovinare le password possono essere stabilite e utilizzate per accelerare notevolmente il processo di cracking (tagliando combinazioni di caratteri in schemi comunemente usati). È tutto molto intelligente e non possiamo prenderne alcun merito. Invece, il merito va a Dan Wheeler, che ha creato lo stimatore di entropia che abbiamo usato. Si chiama Zxcvbn e può essere visto e letto in dettaglio qui. 8
In breve, costruisce una "conoscenza" di come le persone includono inconsapevolmente schemi nelle loro password nella sua stima di ciò che un buon cracker di password dovrebbe fare per determinare tali schemi. Ad esempio, password , secondo una stima ingenua, ha un'entropia di 37,6 bit. Zxcvbn, tuttavia, gli dà un punteggio zero (il punteggio di entropia più basso e peggiore) perché spiega il fatto che ogni elenco di parole utilizzato dai cracker di password contiene la parola password . Fa una cosa simile con altri modelli più comuni, come leet speak (aggiungendo numb3rs alle parole per [e-mail protette] apparentemente meno comprensibili).
Punteggio anche altre password, che a prima vista sembrano molto casuali, come aventi zero entropia. qaz2wsx (la trentesima password più comune), ad esempio, sembra piuttosto casuale, giusto? In realtà, è tutt'altro. In realtà è un pattern di tastiera (una "camminata" facilmente ripetibile da un tasto all'altro di una tastiera). Zxcvbn stesso prende il nome da uno di questi modelli.
Abbiamo estratto i 20 modelli di tastiera più utilizzati dal set di dati di 10 milioni di password. Abbiamo scelto di escludere schemi di numeri, come 123456 , perché sono solo una sorta di passeggiata sulla tastiera, e ce ne sono anche così tanti in cima all'elenco delle password più utilizzate che non ci sarebbe stato spazio per vederne alcune quelli più interessanti se li avessimo inclusi.
Diciannove dei 20 schemi di tastiera sopra sembrano prevedibili come ci si potrebbe aspettare, ad eccezione dell'ultimo: Adgjmptw . Riesci a indovinare perché si è classificato tra i modelli più utilizzati?
Probabilmente non è necessario, poiché quasi sicuramente hai già guardato di seguito.
Sebbene dubitiamo fortemente di essere i primi a individuarlo, non abbiamo ancora trovato nessun altro riferimento a questo schema di tastiera tra i più comunemente usati nelle password. Eppure è al 20° posto sopra.
Nel caso non te ne fossi accorto, viene generato premendo da 2 a 9 sul tastierino di uno smartphone (la prima lettera di ciascuno corrisponde a ciascuna lettera della sequenza di tasti nella password).
Inizialmente eravamo confusi su questo schema perché la maggior parte delle persone non digita le lettere con un tastierino; usano il layout QWERTY. Poi abbiamo ricordato telefoni come Blackberry, che hanno una tastiera fisica con i numeri sempre in vista sui tasti.
Questo schema pone una domanda interessante: come cambierà la selezione della password man mano che più persone le creano su dispositivi touch che rendono più difficili da selezionare determinati caratteri (come simboli e maiuscole) rispetto a quando si utilizza una tastiera normale?
Naturalmente, i modelli di tastiera, in particolare quelli sopra, non sono affatto un problema per qualsiasi buon cracker di password. Passpat utilizza diversi layout di tastiera e un algoritmo intelligente per misurare la probabilità che una password sia composta da uno schema di tastiera. 9 E esistono altri strumenti per generare milioni di schemi di tastiera, per compilarli e usarli come un elenco, invece di perdere tempo cercando di decifrare le stesse combinazioni con la forza bruta. 10
Tuttavia, la maggior parte delle persone non usa i modelli di tastiera. Si attengono al metodo classico e spesso insicuro di scegliere una parola a caso.
Ora puoi capire perché abbiamo indovinato Batman e Superman all'inizio di questo articolo: sono i nomi di supereroi più usati nel set di dati da 10 milioni di password. Un punto importante sugli elenchi di cui sopra è che a volte è difficile sapere in che senso una persona usa una parola quando la include nella propria password. Ad esempio, nell'elenco dei colori, il nero potrebbe talvolta fare riferimento al cognome Nero ; lo stesso vale per altre parole con contesti duali. Per ridurre al minimo questo problema quando si contano le frequenze delle parole sopra, abbiamo affrontato ogni elenco separatamente. I colori, ad esempio, venivano contati solo quando le password iniziavano con il nome del colore e terminavano con numeri o simboli. In questo modo, abbiamo evitato di contare il rosso in Alfred e il blu in BluesBrothers . L'uso di questo approccio conservativo, ovviamente, significherà che abbiamo perso molti nomi legittimi di colori, ma sembra meglio sapere che l'elenco sopra contiene solo "definizioni".
Altri elenchi avevano regole diverse. Non abbiamo incluso cani e gatti nell'elenco degli animali perché il gatto appare in troppe altre parole. Invece, abbiamo contato cani e gatti separatamente e abbiamo scoperto che vengono usati un numero quasi identico di volte. Tuttavia, i gatti sono usati molto di più insieme a Wild- e Bob- (squadre sportive) rispetto ai cani in altre frasi. Quindi diremmo che i cani probabilmente vincono.
I nomi e i verbi più comuni venivano contati solo se apparivano nei primi 1.000 nomi e nei primi 1.000 verbi usati nell'inglese di tutti i giorni. Altrimenti le liste sarebbero state piene di nomi come password e verbi come love .
Non che amore non sia una parola interessante. In realtà è usato sorprendentemente spesso nelle password. L'abbiamo trovato 40.000 volte separate nei 10 milioni di password e molto anche nei 5 milioni di credenziali di Gmail.
Quando abbiamo contato la frequenza dell'amore nelle password delle persone di cui abbiamo dedotto l'età dai loro nomi utente, i nati negli anni '80 e '90 lo usavano leggermente più spesso delle persone anziane.
Nei dati di Gmail, l'1,4% delle password femminili conteneva amore , rispetto allo 0,7% di quelle maschili. In altre parole, almeno sulla base di questi dati, le donne sembrano usare la parola amore nelle loro password due volte più spesso degli uomini. Questa scoperta segue le orme di altre recenti ricerche sulla parola amore nelle password. Un team dell'Istituto di tecnologia dell'Università dell'Ontario ha riferito che ilove [nome maschile] era quattro volte più comune di ilove [nome femminile]; iloveyou era 10 volte più comune di iloveme ; e <3 era il secondo metodo più comune per combinare un simbolo con un numero. 11
Ora che abbiamo appreso un po' le parole e i numeri più comuni nelle password, i modelli di tastiera più utilizzati, il concetto di entropia delle password e la relativa futilità di semplici metodi di offuscamento delle password come leet speak, possiamo passare al nostro port finale di chiamata. È il più personale e, potenzialmente, il più interessante.
Le password dei ricchi e dei potenti
Mark Burnett fa notare sul suo sito web che i dump delle password sono preoccupantemente frequenti. 12 Dopo tutto, scansionare nuovi dump è il modo in cui ha compilato il set di dati di 10 milioni di password. Gli altri eventi che sembrano finire sui titoli dei giornali con una frequenza sempre maggiore sono hack di alto profilo di celebrità e aziende. Jennifer Lawrence et al. e mi vengono subito in mente Sony. Eravamo curiosi di sapere come i dati di Gmail potessero essere potenzialmente utilizzati per determinare quali persone di alto profilo sono state colpite in particolare da questo dump. In altre parole, quali password sono state pubblicate? Lo abbiamo fatto utilizzando l'API Person di Full Contact, che prende un elenco di indirizzi e-mail e li esegue attraverso le API di diversi importanti siti di social network come Twitter, LinkedIn e Google+. Quindi fornisce nuovi punti dati per qualsiasi cosa trova, come età, sesso e occupazione. 13
Sapevamo già che alcune persone di alto profilo erano nel dump di Gmail. Ad esempio, Mashable ha notato un mese dopo il rilascio dell'elenco che uno dei suoi giornalisti era incluso (la password indicata per lui era la sua password Gmail, ma vecchia di diversi anni e non più in uso). 14 Ma non pensavamo che Full Contact si sarebbe presentato così tanti di più.
Tra le 78.000 corrispondenze che abbiamo trovato, c'erano centinaia di persone di altissimo profilo. Abbiamo selezionato circa 40 dei più importanti di seguito. Alcuni punti molto importanti:
1. Non abbiamo deliberatamente identificato nessuno per nome.
2. I loghi aziendali rappresentano le organizzazioni per le quali le persone lavorano ora e non necessariamente quando stavano utilizzando la password indicata per loro.
3. Non c'è modo di sapere dove sono state originariamente utilizzate le password. Potrebbero essere password personali di Gmail, ma è più probabile che siano state utilizzate su altri siti come File Dropper. È quindi possibile che molte delle password deboli non siano rappresentative delle password che le persone utilizzano attualmente al lavoro o in qualsiasi altro luogo.
4. Google ha confermato che quando l'elenco è stato pubblicato, meno del 2% (100.000) delle password avrebbe potuto funzionare con gli indirizzi Gmail a cui erano state associate. E a tutti i titolari di account interessati è stato richiesto di reimpostare le proprie password. In altre parole, le password seguenti, sebbene ancora educative, non sono più in uso. Invece, sono stati sostituiti da altre combinazioni, si spera più sicure.
Se le password non fossero state reimpostate, tuttavia, la situazione sarebbe più preoccupante. Diversi studi hanno dimostrato che molti di noi utilizzano le stesse password per più servizi. 15 E dato che l'elenco seguente include alcuni amministratori delegati, molti giornalisti e qualcuno molto in alto nella società di gestione dei talenti di Justin Bieber e Ariana Grande, questa discarica potrebbe aver causato molto caos. Per fortuna non è successo, e ora non può.
La cosa più evidente delle password di cui sopra è quante di esse sarebbero terribilmente facili da indovinare se venisse utilizzato un processo di cracking offline contro di loro. Il più forte del gruppo una volta apparteneva a uno sviluppatore GitHub ( ns8vfpobzmx098bf4coj ) e, con un'entropia di 96, sembra quasi troppo casuale. Probabilmente è stato creato da un generatore di password casuali o da un gestore di password. Il più debole apparteneva a un senior manager IBM ( 123456 ), che, al contrario, sembra così semplice che è stato sicuramente utilizzato per un'iscrizione usa e getta da qualche parte. Molti degli altri raggiungono un equilibrio sufficiente tra complessità e semplicità da suggerire che i loro proprietari si preoccupassero di renderli sicuri e volessero salvaguardare i conti per i quali erano stati scelti.
Un paio di interessanti novità per finire: il Capo della Divisione del Dipartimento di Stato USA la cui password (ma non il nome) era linco1n (Lincoln) e lo scrittore dell'Huffington Post che ha seguito le orme di Mulder (da X-Files) e ha scelto trustno1 . E più in generale, è interessante vedere quante delle persone di alto profilo che abbiamo selezionato hanno fatto esattamente quello che fanno così tanti altri di noi: combinare i nostri nomi, date di nascita, parole semplici e un paio di numeri per fare schifo Le password. Immaginiamo che abbia senso però. Anche il presidente Obama ha recentemente ammesso di aver usato una volta la password 1234567 . Una password con un punteggio di entropia molto più alto sarebbe stata PoTuS.1776 . Anche se, per un cracker intelligente, potrebbe essere stato un po' ovvio.
***
E le tue password? Durante la lettura di questo post probabilmente hai pensato a te stesso e ti sei chiesto: "Qualcuno potrebbe indovinare la password del mio banking online, e-mail o blog?" Se utilizzi uno dei grandi provider di posta elettronica, come Gmail, non dovresti preoccuparti troppo che la tua password venga indovinata attraverso un attacco di forza bruta. Gmail interrompe quasi immediatamente i tentativi illegittimi. Il tuo banking online è probabilmente protetto in modo simile. Se hai un blog, tuttavia, la situazione è più complicata perché, in parole povere, ci sono più modi potenziali per un utente malintenzionato di trovare un modo per entrare, quindi ognuno deve essere protetto in modo proattivo per tenerlo fuori. Il punto è non dare mai per scontata la sicurezza della password e trovare un sistema facile ma comunque difficile da capire per trovare una password sicura.
Il team di WP Engine dedica molto tempo e sforzi continui per proteggere i siti WordPress dei nostri clienti. La nostra piattaforma di hosting WordPress sicura si integra in WordPress stesso e protegge i siti dei nostri clienti dagli attacchi di forza bruta alle loro password con un software intelligente e reattivo che apprende e si adatta costantemente alle minacce e agisce. Proteggiamo anche i nostri clienti da attacchi che non hanno nulla a che fare con l'ipotesi di password, come tentativi di accesso e iniezioni SQL. WP Engine fornisce la migliore piattaforma di hosting WordPress gestita, consentendo ai marchi e alle aziende di raggiungere un pubblico globale con la tecnologia WordPress.
Scarica il nostro White Paper sulla sicurezza di WordPress e scopri le 10 migliori pratiche per proteggere un'implementazione di WordPress, incluso come generare, archiviare e modificare regolarmente le password in modo sicuro.
Riferimenti
1. http://www.dailydot.com/crime/google-gmail-5-million-passwords-leaked/
2. http://www.eweek.com/blogs/security-watch/wordpress-resets-100000-passwords-after-google-account-leak.html
3. https://xato.net/passwords/ten-million-passwords
4. https://xato.net/passwords/ten-million-passwords-faq/
5. http://groups.csail.mit.edu/uid/deneme/?p=628
6. http://micro.magnet.fsu.edu/creatures/pages/random.html
7. http://www.dailymail.co.uk/news/article-2601281/Why-lucky-7-really-magic-number.html
8. https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-stima/
9. http://digi.ninja/projects/passpat.php
10. https://github.com/Rich5/Keyboard-Walk-Generators
11. http://www.thestar.com/news/gta/2015/02/13/is-there-love-in-your-online-passwords.html
12. https://xato.net/passwords/understanding-password-dumps
13. https://www.fullcontact.com/developer/person-api/
14. http://mashable.com/2014/09/10/5-million-gmail-passwords-leak/
15. http://www.jbonneau.com/doc/DBCBW14-NDSS-tangled_web.pdf