Unmasked: รหัสผ่าน 10 ล้านที่เปิดเผยเกี่ยวกับคนที่เลือกรหัสผ่านนั้นคืออะไร
เผยแพร่แล้ว: 2022-07-11หลายคนรู้จักรหัสผ่าน ส่วนใหญ่จะสั้น ง่าย และค่อนข้างง่ายที่จะแตก แต่ไม่ค่อยมีใครรู้เกี่ยวกับเหตุผลทางจิตวิทยาที่บุคคลเลือกรหัสผ่านเฉพาะ ผู้เชี่ยวชาญส่วนใหญ่แนะนำให้ตั้งรหัสผ่านที่รัดกุมเพื่อหลีกเลี่ยงการละเมิดข้อมูล แต่ทำไมผู้ใช้อินเทอร์เน็ตจำนวนมากยังคงชอบรหัสผ่านที่ไม่รัดกุม?
เราได้วิเคราะห์ตัวเลือกรหัสผ่านของคน 10 ล้านคน ตั้งแต่ซีอีโอไปจนถึงนักวิทยาศาสตร์ เพื่อค้นหาสิ่งที่พวกเขาเปิดเผยเกี่ยวกับสิ่งที่เราพิจารณาว่าง่ายต่อการจดจำและเดายาก
ใครคือซูเปอร์ฮีโร่คนแรกที่นึกถึง? แล้วตัวเลขระหว่าง 1 ถึง 10 ล่ะ? และสุดท้าย สีสันฉูดฉาด? คิดอย่างรวดเร็วของแต่ละสิ่งเหล่านั้น ถ้าคุณยังไม่ได้ แล้วรวมทั้งสามเป็นวลีเดียว
ถึงเวลาแล้วที่เราจะเดากัน
มันคือ Superman7red เหรอ ? ไม่ ไม่: Batman3Orange ? หากเราเดาคำตอบของแต่ละคนได้อย่างถูกต้อง นั่นเป็นเพราะมนุษย์คาดเดาได้ และนั่นคือปัญหาของรหัสผ่าน จริงอยู่ เราได้ให้ประโยชน์แก่ตนเองจากคำถามที่เลือกมาอย่างลับๆ ล่อๆ แต่นั่นก็เทียบไม่ได้เลยกับการแอบแฝงในระดับอุตสาหกรรมของซอฟต์แวร์ทำลายรหัสผ่านที่สร้างมาเพื่อจุดประสงค์โดยเฉพาะ ตัวอย่างเช่น HashCat สามารถเดารหัสผ่านของคุณได้ 300,000 ครั้งต่อวินาที (ขึ้นอยู่กับวิธีการแฮช) ดังนั้นแม้ว่าคุณจะเลือก Hawkeye6yellow วลีลับของคุณจะไม่เป็นความลับไม่ช้าก็เร็ว
รหัสผ่านมักจะเดาได้ง่ายเพราะพวกเราหลายคนคิดถึงคำและตัวเลขที่ชัดเจนและรวมเข้าด้วยกันด้วยวิธีง่ายๆ เราต้องการสำรวจแนวคิดนี้ และในการทำเช่นนั้น ดูว่าเราสามารถค้นหาได้อย่างไรว่าจิตใจของบุคคลทำงานอย่างไร เมื่อเขาหรือเธอจัดเรียงคำ ตัวเลข และ (หวังว่า) สัญลักษณ์ให้เป็นลำดับ (อาจจะไม่มาก)
เราเริ่มต้นด้วยการเลือกชุดข้อมูลสองชุดเพื่อวิเคราะห์
ชุดข้อมูลสองชุด คำเตือนหลายประการ
ชุดข้อมูลชุดแรกคือการถ่ายโอนข้อมูลรับรองจำนวน 5 ล้านชุด ซึ่งแสดงครั้งแรกในเดือนกันยายน 2014 บนฟอรัม BitCoin ของรัสเซีย 1 ดูเหมือนว่าจะเป็นบัญชี Gmail (และ Yandex.ru บางส่วน) แต่การตรวจสอบเพิ่มเติมพบว่าในขณะที่อีเมลส่วนใหญ่ที่รวมอยู่นั้นเป็นที่อยู่ Gmail ที่ถูกต้อง รหัสผ่านที่เป็นข้อความล้วนส่วนใหญ่เป็นของ Gmail แบบเก่า (เช่น ไม่มีการใช้งานอีกต่อไป) หรือรหัสผ่านที่ไม่ได้ใช้กับที่อยู่ Gmail ที่เกี่ยวข้อง อย่างไรก็ตาม WordPress.com ได้รีเซ็ตบัญชี 100,000 บัญชี และกล่าวว่าอีก 600,000 บัญชีอาจมีความเสี่ยง 2 การถ่ายโอนข้อมูลดูเหมือนจะเป็นรหัสผ่านที่มีอายุหลายปีที่รวบรวมมาจากที่ต่างๆ ด้วยวิธีการต่างๆ อย่างไรก็ตาม สำหรับวัตถุประสงค์ทางวิชาการของเรา เรื่องนี้ไม่สำคัญ รหัสผ่านยังคงถูกเลือกโดยเจ้าของบัญชี Gmail แม้ว่ารหัสผ่านเหล่านั้นจะไม่ใช่สำหรับบัญชี Gmail ของตนเอง และเนื่องจาก 98 เปอร์เซ็นต์ไม่ได้ใช้งานอีกต่อไป เรารู้สึกว่าเราสามารถสำรวจได้อย่างปลอดภัย 3
เราใช้ชุดข้อมูลนี้ ซึ่งเราจะเรียกว่า "การถ่ายโอนข้อมูล Gmail" เพื่อตอบคำถามด้านประชากรศาสตร์ (โดยเฉพาะคำถามที่เกี่ยวข้องกับเพศและอายุของผู้เลือกรหัสผ่าน) เราดึงข้อมูลเหล่านี้โดยค้นหาที่อยู่อีเมล 5 ล้านรายการที่มีชื่อและปีเกิด ตัวอย่างเช่น ถ้าที่อยู่ถูก [ป้องกันอีเมล] มันจะถูกเข้ารหัสว่าเป็นผู้ชายที่เกิดในปี 1984 วิธีการอนุมานนี้อาจยุ่งยาก เราจะไม่ทำให้คุณเบื่อกับรายละเอียดทางเทคนิคมากเกินไป แต่ในตอนท้ายของกระบวนการเข้ารหัส เรามีที่อยู่ Gmail จำนวน 485,000 จาก 5 ล้านที่อยู่รหัสสำหรับเพศและ 220,000 รหัสสำหรับอายุ ณ จุดนี้ คุณควรคำนึงถึงคำถามที่ว่า "ผู้ใช้ที่มีชื่อและปีเกิดในที่อยู่อีเมลของพวกเขาเลือกรหัสผ่านที่แตกต่างจากผู้ที่ไม่ใช้หรือไม่" เนื่องจากเป็นไปได้ในทางทฤษฎี เราจะพูดถึงเรื่องนี้ในภายหลัง
ในตอนนี้ ต่อไปนี้คือวิธีที่ผู้ใช้ที่เราเขียนโค้ดถูกแบ่งตามอายุที่เกิดและเพศ
การถ่ายโอนข้อมูลของ Gmail หรืออย่างน้อยก็มีบุคคลเหล่านั้นในนั้นที่มีชื่อและ/หรือปีเกิดในที่อยู่ของพวกเขา ถูกเบี่ยงเบนไปในทางผู้ชายและคนที่เกิดในยุค 80 อาจเป็นเพราะโปรไฟล์ประชากรของไซต์ที่ฐานข้อมูลถูกบุกรุกเพื่อสร้างการถ่ายโอนข้อมูล การค้นหาที่อยู่ในการถ่ายโอนข้อมูลที่มีสัญลักษณ์ + (เพิ่มโดยผู้ใช้ Gmail เพื่อติดตามว่าไซต์ทำอะไรกับที่อยู่อีเมลของพวกเขา) เผยให้เห็นว่าข้อมูลประจำตัวจำนวนมากมาจาก File Dropper, eHarmony, ไซต์ Tube สำหรับผู้ใหญ่ และ Friendster
ชุดข้อมูลที่สองและชุดข้อมูลที่เราใช้ในการรวบรวมผลลัพธ์ส่วนใหญ่ ได้รับการเผยแพร่โดยที่ปรึกษาด้านความปลอดภัย Mark Burnett ผ่านทางเว็บไซต์ xato.net ของเขา 4 ประกอบด้วยรหัสผ่าน 10 ล้านรหัส ซึ่งรวบรวมมาจากทุกมุมของเว็บในช่วงหลายปีที่ผ่านมา Mark รวบรวมรายการที่เปิดเผยต่อสาธารณะ รั่วไหล และเผยแพร่จากแหล่งข้อมูลนับพัน เพื่อสร้างรายการรหัสผ่านจริงที่ครอบคลุมมากที่สุดเท่าที่เคยมีมา หากต้องการอ่านเพิ่มเติมเกี่ยวกับชุดข้อมูลนี้ โปรดดูคำถามที่พบบ่อยในบล็อกของเขา 5
เราจะไม่ใช้เวลานานเกินไปในการให้ข้อมูลพื้นฐานเกี่ยวกับชุดข้อมูลนี้แก่คุณ (เช่น ค่าเฉลี่ยทั้งหมด) ที่เคยทำมาหลายครั้งแล้ว ให้พิจารณา 50 รหัสผ่านที่ใช้มากที่สุดจาก 10 ล้านรหัส จากนั้นเราจะเข้าสู่ดินแดนที่น่าสนใจยิ่งขึ้น
อย่างที่คุณเห็นและน่าจะทราบอยู่แล้ว รหัสผ่านทั่วไปส่วนใหญ่ล้วนเป็นตัวอย่างที่ชัดเจนของสิ่งต่างๆ ที่ผุดขึ้นมาในใจของใครบางคนทันทีเมื่อเว็บไซต์แจ้งให้เขาหรือเธอสร้างรหัสผ่าน พวกเขาทั้งหมดจำง่ายมากและด้วยเหตุนี้การเล่นของเด็กในการเดาโดยใช้การโจมตีพจนานุกรม เมื่อ Mark Burnett วิเคราะห์รหัสผ่าน 3.3 ล้านรหัสเพื่อระบุรหัสผ่านที่พบบ่อยที่สุดในปี 2014 (ทั้งหมดอยู่ในรายการมากกว่า 10 ล้านรายการ) เขาพบว่า 0.6 เปอร์เซ็นต์คือ 123456 และการใช้รหัสผ่าน 10 อันดับแรก แฮ็กเกอร์สามารถเดาได้ 16 จาก 1,000 รหัสผ่านโดยเฉลี่ย
อย่างไรก็ตาม มีผู้คนใช้รหัสผ่านประเภทต่าง ๆ ที่เห็นข้างต้นน้อยกว่าปีก่อนหน้าน้อยกว่าปีที่แล้ว ผู้ใช้เริ่มตระหนักถึงสิ่งที่ทำให้รหัสผ่านแข็งแกร่งขึ้นเล็กน้อย ตัวอย่างเช่น การเพิ่มตัวเลขหรือสองต่อท้ายวลีข้อความ นั่นทำให้มันดีขึ้นใช่มั้ย?
“ฉันจะเพิ่มหมายเลขเพื่อให้ปลอดภัยยิ่งขึ้น”
เกือบครึ่งล้านหรือ 420,000 (8.4 เปอร์เซ็นต์) จาก 10 ล้านรหัสผ่านจบลงด้วยตัวเลขระหว่าง 0 ถึง 99 และมากกว่าหนึ่งในห้าคนที่เพิ่มตัวเลขเหล่านั้นเพียงแค่เลือก 1 บางทีพวกเขารู้สึกว่าสิ่งนี้จำง่ายที่สุด หรือบางทีเว็บไซต์อาจแจ้งพวกเขาให้ใส่ตัวเลขพร้อมกับตัวเลือกคำพื้นฐาน ตัวเลือกอื่นๆ ที่พบบ่อยที่สุดคือ 2, 3, 12 (น่าจะคิดว่าเป็น 1-สอง แทนที่จะเป็น 12) 7 และอื่นๆ มีข้อสังเกตว่าเมื่อคุณขอให้ใครคนหนึ่งนึกถึงตัวเลขระหว่าง 1 ถึง 10 คนส่วนใหญ่จะบอกว่าเจ็ดหรือสาม (เพราะฉะนั้นเราจึงเดาไว้ในบทนำ) และผู้คนก็ดูเหมือนจะมีอคติในการคิดเลขเฉพาะ 6, 7 นี่อาจเล่นได้ที่นี่ แต่ก็เป็นไปได้เช่นกันที่ตัวเลขหลักเดียวจะถูกเลือกเป็นทางเลือกแทนรหัสผ่านที่ผู้คนใช้อยู่แล้ว แต่ต้องการใช้อีกครั้งโดยไม่ "ประนีประนอม" ข้อมูลประจำตัวของพวกเขาในไซต์อื่น
แม้ว่าจะเป็นประเด็นที่สงสัย เมื่อคุณพิจารณาว่าโปรแกรมถอดรหัสรหัสผ่านที่เหมาะสมสามารถผนวกตัวเลขหรือหลายพันตัวเข้ากับพจนานุกรมของคำหรือการใช้กำลังเดรัจฉานได้อย่างง่ายดาย จุดแข็งของรหัสผ่านคือเอนโทรปี
การประเมินรหัสผ่านเอนโทรปี
พูดง่ายๆ ก็คือ ยิ่งรหัสผ่านมีเอนโทรปีมากเท่าไหร่ ก็ยิ่งมีแนวโน้มที่แข็งแกร่งเท่านั้น เอนโทรปีจะเพิ่มขึ้นตามความยาวของรหัสผ่านและความหลากหลายของอักขระที่ประกอบขึ้นเป็นรหัสผ่าน อย่างไรก็ตาม แม้ว่าความแตกต่างของอักขระที่ใช้จะส่งผลต่อคะแนนเอนโทรปี (และคาดเดาได้ยากเพียงใด) ความยาว ของรหัสผ่านก็มีความสำคัญมากกว่า เนื่องจากเมื่อรหัสผ่านยาวขึ้น จำนวนวิธีสับเปลี่ยนส่วนประกอบต่างๆ ให้เป็นชุดค่าผสมใหม่จะมีขนาดใหญ่ขึ้นแบบทวีคูณ ดังนั้นจึงยากที่จะคาดเดาได้
ความยาวเฉลี่ยของรหัสผ่านจากการถ่ายโอนข้อมูลของ Gmail คือแปดอักขระ (เช่น password ) และไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างความยาวเฉลี่ยของรหัสผ่านของผู้ชายเมื่อเปรียบเทียบกับของผู้หญิง
แล้วเอนโทรปีล่ะ? ข้อใดสะท้อนความแข็งแกร่งของรหัสผ่านได้แม่นยำกว่าความยาวของอักขระเพียงอย่างเดียว
ค่าเอนโทรปีเฉลี่ยของรหัสผ่านจากการถ่ายโอนข้อมูลของ Gmail คือ 21.6 ซึ่งไม่ใช่เรื่องง่ายที่จะกำหนดแนวคิด แผนภูมิทางด้านซ้ายให้ภาพที่ชัดเจนยิ่งขึ้น อีกครั้ง มีเพียงความแตกต่างเล็กน้อยระหว่างชายและหญิง แต่มีรหัสผ่านจำนวนมากที่มีเอนโทรปีเกือบเป็นศูนย์มากกว่า 60
รหัสผ่านตัวอย่างจะแตกต่างกันไปตามอักขระหนึ่งหรือสองตัวตามช่วงเอนโทรปี โดยทั่วไปแล้ว เอนโทรปีจะขยายตามความยาว และเพิ่มช่วงของอักขระโดยรวมตัวเลข ตัวพิมพ์ใหญ่ และสัญลักษณ์ก็ช่วยได้เช่นกัน
แล้วเราคำนวณเอนโทรปีสำหรับรหัสผ่านทั้งหมด 5 ล้านรหัสผ่านจากการถ่ายโอนข้อมูลของ Gmail ได้อย่างไร
มีหลายวิธีในการคำนวณเอนโทรปีของรหัสผ่าน และบางวิธีก็เป็นพื้นฐาน (และสมจริงน้อยกว่า) มากกว่าวิธีอื่นๆ พื้นฐานที่สุดสันนิษฐานว่ารหัสผ่านสามารถเดาได้โดยลองใช้อักขระทุกตัวรวมกัน อย่างไรก็ตาม วิธีการที่ชาญฉลาดกว่านั้น ตระหนักดีว่ามนุษย์—ดังที่เราได้เห็น—เสพติดรูปแบบ ดังนั้นจึงสามารถตั้งสมมติฐานบางอย่างเกี่ยวกับรหัสผ่านส่วนใหญ่ของพวกเขาได้ และจากสมมติฐานเหล่านั้น กฎสำหรับการพยายามเดารหัสผ่านสามารถกำหนดและใช้เพื่อเร่งกระบวนการถอดรหัสได้อย่างมีนัยสำคัญ (โดยแบ่งกลุ่มอักขระเป็นรูปแบบที่ใช้กันทั่วไป) ทั้งหมดนี้ฉลาดมากและเราไม่สามารถให้เครดิตกับมันได้ เครดิตไปที่ Dan Wheeler ผู้สร้างตัวประมาณเอนโทรปีที่เราใช้แทน เรียกว่า Zxcvbn และสามารถดูและอ่านรายละเอียดได้ที่นี่ 8
โดยสังเขป มันสร้าง "ความรู้" เกี่ยวกับวิธีที่ผู้คนใส่รูปแบบในรหัสผ่านโดยไม่รู้ตัวในการประเมินว่าโปรแกรมถอดรหัสรหัสผ่านที่ดีจะต้องทำอะไรเพื่อกำหนดรูปแบบเหล่านั้น ตัวอย่างเช่น รหัสผ่าน โดยการประมาณแบบไร้เดียงสา มีเอนโทรปี 37.6 บิต อย่างไรก็ตาม Zxcvbn ให้คะแนนเป็นศูนย์ (คะแนนเอนโทรปีที่ต่ำที่สุดและแย่ที่สุด) เพราะมันอธิบายความจริงที่ว่าทุกรายการคำที่ใช้โดยโปรแกรมถอดรหัสรหัสผ่านมีคำว่า password มันทำสิ่งที่คล้ายกันกับรูปแบบทั่วไปอื่น ๆ เช่น leet speak (เพิ่ม numb3rs ให้กับคำใน [email protected] พวกเขาดูเหมือนจะ gue55able น้อยกว่า)
นอกจากนี้ยังให้คะแนนรหัสผ่านอื่นๆ ซึ่งในแวบแรกจะดูสุ่มมาก ว่ามีเอนโทรปีเป็นศูนย์ qaz2wsx (รหัสผ่านที่พบบ่อยที่สุดลำดับที่ 30) ตัวอย่างเช่น ดูค่อนข้างสุ่มใช่ไหม อันที่จริงมันเป็นอะไรแต่ จริงๆ แล้วมันคือรูปแบบแป้นพิมพ์ (เป็นการ "เดิน" ที่ทำซ้ำได้ง่ายจากแป้นหนึ่งบนแป้นพิมพ์ไปยังแป้นถัดไป) Zxcvbn เองได้รับการตั้งชื่อตามรูปแบบดังกล่าว
เราดึงรูปแบบแป้นพิมพ์ที่ใช้มากที่สุด 20 รูปแบบออกจากชุดข้อมูลรหัสผ่าน 10 ล้านชุด เราเลือกที่จะยกเว้นรูปแบบของตัวเลข เช่น 123456 เนื่องจากเป็นเพียงรูปแบบการใช้แป้นพิมพ์เท่านั้น และยังมีอีกมากมายที่ด้านบนสุดของรายการรหัสผ่านที่ใช้มากที่สุดจนไม่มีที่ว่างให้เห็น สิ่งที่น่าสนใจยิ่งขึ้นถ้าเรารวมไว้
รูปแบบแป้นพิมพ์สิบเก้าจาก 20 รูปแบบด้านบนดูคาดเดาได้เหมือนที่คุณคาดหวัง ยกเว้นรูปแบบสุดท้าย: Adgjmptw คุณเดาได้ไหมว่าทำไมมันถึงติดอันดับหนึ่งในรูปแบบที่ใช้มากที่สุด?
คุณไม่จำเป็นต้องทำอย่างนั้น เพราะคุณได้ดูด้านล่างแล้ว
แม้ว่าเราจะสงสัยมากว่าเราเป็นคนแรกที่สังเกตเห็นมัน แต่เรายังไม่พบว่าการอ้างอิงอื่นใดเกี่ยวกับรูปแบบแป้นพิมพ์นี้เป็นหนึ่งในรหัสผ่านที่ใช้บ่อยที่สุด แต่ก็ยังอยู่อันดับที่ 20 ด้านบน
ในกรณีที่คุณไม่รู้ตัว มันถูกสร้างขึ้นโดยการกด 2 ถึง 9 บนแป้นกดหมายเลขของสมาร์ทโฟน (ตัวอักษรตัวแรกของแต่ละตัวอักษรที่ตรงกับตัวอักษรแต่ละตัวของรูปแบบคีย์ในรหัสผ่าน)
ตอนแรกเราสับสนเกี่ยวกับรูปแบบนี้เพราะคนส่วนใหญ่ไม่พิมพ์ตัวอักษรด้วยแป้นกดหมายเลข พวกเขาใช้เค้าโครง QWERTY จากนั้นเราจำโทรศัพท์อย่าง Blackberry ที่มีแป้นพิมพ์จริงพร้อมตัวเลขที่มองเห็นบนปุ่มเสมอ
รูปแบบนี้ก่อให้เกิดคำถามที่น่าสนใจ: การเลือกรหัสผ่านจะเปลี่ยนไปอย่างไรเมื่อมีผู้คนจำนวนมากขึ้นบนอุปกรณ์ระบบสัมผัสที่ทำให้เลือกอักขระบางตัว (เช่น สัญลักษณ์และตัวพิมพ์ใหญ่) ได้ยากกว่าเมื่อใช้แป้นพิมพ์ปกติ
แน่นอนว่ารูปแบบแป้นพิมพ์โดยเฉพาะที่กล่าวข้างต้นนั้นไม่มีปัญหาสำหรับตัวถอดรหัสรหัสผ่านที่ดี Passpat ใช้รูปแบบแป้นพิมพ์หลายแบบและอัลกอริธึมที่ชาญฉลาดในการวัดความเป็นไปได้ที่รหัสผ่านจะถูกสร้างขึ้นจากรูปแบบแป้นพิมพ์ 9 และมีเครื่องมืออื่น ๆ สำหรับสร้างรูปแบบแป้นพิมพ์นับล้าน เพื่อรวบรวมและใช้เป็นรายการ แทนที่จะเสียเวลาพยายามถอดรหัสชุดค่าผสมเดียวกันโดยใช้กำลังเดรัจฉาน 10
คนส่วนใหญ่ไม่ได้ใช้รูปแบบแป้นพิมพ์ พวกเขายึดติดกับวิธีการสุ่มคำที่คลาสสิกและไม่ปลอดภัยบ่อยครั้ง
ตอนนี้ คุณสามารถดูว่าทำไมเราถึงเดา แบทแมน และ ซูเปอร์แมน ในตอนต้นของบทความนี้: พวกเขาเป็นชื่อซูเปอร์ฮีโร่ที่ใช้มากที่สุดในชุดข้อมูลรหัสผ่าน 10 ล้านชุด ประเด็นสำคัญเกี่ยวกับรายการด้านบนคือ บางครั้งก็ยากที่จะทราบว่าบุคคลใช้คำหนึ่งคำในความหมายใดเมื่อรวมคำไว้ในรหัสผ่าน ตัวอย่างเช่น ในรายการสี สีดำ บางครั้งอาจหมายถึงนามสกุล สีดำ ; เช่นเดียวกับคำอื่นๆ ที่มีบริบทสองบริบท เพื่อลดปัญหานี้เมื่อนับความถี่ของคำข้างต้น เราจึงเข้าหาแต่ละรายการแยกกัน ตัวอย่างเช่น สีจะถูกนับเฉพาะเมื่อรหัสผ่านเริ่มต้นด้วยชื่อสีและลงท้ายด้วยตัวเลขหรือสัญลักษณ์ ด้วยวิธีนี้ เราหลีกเลี่ยงการนับ สีแดง ใน Alfred และ สีน้ำเงิน ใน BluesBrothers แน่นอนว่าการใช้แนวทางอนุรักษ์นิยมนี้หมายความว่าเราพลาดชื่อสีที่ถูกต้องตามกฎหมายไปหลายชื่อ แต่ดูเหมือนว่าดีกว่าที่จะรู้ว่ารายการด้านบนมีเพียง "คำจำกัดความ"
รายการอื่นมีกฎที่แตกต่างกัน เราไม่ได้รวมแมวและสุนัขไว้ในรายการสัตว์เพราะแมวมีคำอื่นๆ มากเกินไป แต่เรานับ แมว และ สุนัข แยกกัน และพบว่ามีการใช้จำนวนครั้งที่เท่ากันเกือบทั้งหมด อย่างไรก็ตาม มีการใช้ แมว ร่วมกับ Wild- และ Bob- (ทีมกีฬา) มากกว่าการใช้ สุนัข ในวลีอื่นๆ เราว่า หมา น่าจะชนะ
คำนามและคำกริยาที่พบบ่อยที่สุดจะถูกนับก็ต่อเมื่อปรากฏในคำนาม 1,000 อันดับแรกและคำกริยา 1,000 อันดับแรกที่ใช้ในภาษาอังกฤษทุกวัน มิฉะนั้นรายการจะเต็มไปด้วยคำนามเช่น รหัสผ่าน และกริยาเช่น ความรัก
ไม่ใช่ว่าความ รัก ไม่ใช่คำที่น่าสนใจ มันถูกใช้บ่อยอย่างน่าประหลาดใจในรหัสผ่าน เราพบว่ามี 40,000 ครั้งแยกจากกันในรหัสผ่าน 10 ล้านครั้ง และอีกมากใน 5 ล้านข้อมูลประจำตัวของ Gmail ด้วย
เมื่อเรานับความถี่ของ ความรัก ในรหัสผ่านของคนที่เราอนุมานอายุจากชื่อผู้ใช้ คนที่เกิดในยุค 80 และ 90 ใช้บ่อยกว่าคนสูงอายุเล็กน้อย
ในข้อมูล Gmail รหัสผ่านของผู้หญิง 1.4 เปอร์เซ็นต์มี ความรัก เทียบกับ 0.7 เปอร์เซ็นต์ของผู้ชาย กล่าวอีกนัยหนึ่ง จากข้อมูลนี้อย่างน้อย ผู้หญิงมักใช้คำว่า รัก ในรหัสผ่านบ่อยเป็นสองเท่าของผู้ชาย การค้นพบนี้เดินตามรอยของการวิจัยล่าสุดเกี่ยวกับคำว่ารักในรหัสผ่าน ทีมงานจากสถาบันเทคโนโลยีแห่งมหาวิทยาลัยออนแทรีโอรายงานว่า ไอเลิฟ [ชื่อผู้ชาย] พบบ่อยกว่า ไอเลิฟ [ชื่อผู้หญิง] ถึงสี่เท่า; iloveyou มีมากกว่า iloveme ถึง 10 เท่า ; และ <3 เป็นวิธีการทั่วไปอันดับสองในการรวมสัญลักษณ์กับตัวเลข 11
ตอนนี้เราได้เรียนรู้เล็กน้อยเกี่ยวกับคำและตัวเลขที่พบบ่อยที่สุดในรหัสผ่าน รูปแบบแป้นพิมพ์ที่ใช้มากที่สุด แนวคิดของรหัสผ่านเอนโทรปี และความไร้ประโยชน์ของวิธีการสร้างความสับสนของรหัสผ่านอย่างง่าย เช่น leet speak เราสามารถย้ายไปยังพอร์ตสุดท้ายของเรา ของการโทร เป็นเรื่องส่วนตัวที่สุดและอาจน่าสนใจที่สุด
รหัสผ่านของคนรวยและทรงพลัง
Mark Burnett ตั้งข้อสังเกตบนเว็บไซต์ของเขาว่าการทิ้งรหัสผ่านนั้นเป็นเรื่องที่น่ากังวล 12 การรวบรวมข้อมูลทิ้งใหม่เป็นวิธีที่เขารวบรวมชุดข้อมูลรหัสผ่าน 10 ล้านชุด เหตุการณ์อื่นๆ ที่ดูเหมือนจะเป็นหัวข้อข่าวบ่อยครั้งมากขึ้นเรื่อยๆ เป็นการแฮ็กที่มีชื่อเสียงของคนดังและบริษัทต่างๆ เจนนิเฟอร์ ลอว์เรนซ์ และคณะ และ Sony ก็ผุดขึ้นมาในทันที เราอยากรู้ว่าข้อมูล Gmail จะถูกนำมาใช้เพื่อพิจารณาว่าบุคคลที่มีชื่อเสียงรายใดได้รับผลกระทบจากการถ่ายโอนข้อมูลนี้โดยเฉพาะ กล่าวอีกนัยหนึ่ง รหัสผ่านของใครถูกเผยแพร่? เราทำโดยใช้ API บุคคลของผู้ติดต่อแบบเต็ม ซึ่งรับรายชื่อที่อยู่อีเมลและเรียกใช้ผ่าน API ของไซต์เครือข่ายสังคมที่สำคัญหลายแห่ง เช่น Twitter, LinkedIn และ Google+ จากนั้นจะมีจุดข้อมูลใหม่สำหรับทุกสิ่งที่พบ เช่น อายุ เพศ และอาชีพ 13
เรารู้แล้วว่ามีคนที่มีชื่อเสียงค่อนข้างสูงบางคนอยู่ในการถ่ายโอนข้อมูลของ Gmail ตัวอย่างเช่น Mashable ตั้งข้อสังเกตหนึ่งเดือนหลังจากที่รายการถูกเผยแพร่ว่ามีนักข่าวคนหนึ่งรวมอยู่ด้วย (รหัสผ่านสำหรับเขาคือรหัสผ่าน Gmail ของเขา แต่มีอายุหลายปีและไม่ได้ใช้งานอีกต่อไป) 14 แต่เราไม่คิดว่า Full Contact จะมีมากกว่านี้
เราพบการแข่งขัน 78,000 นัด มีคนที่มีชื่อเสียงมากหลายร้อยคน เราได้เลือกรายการที่โดดเด่นที่สุดประมาณ 40 รายการด้านล่าง ประเด็นสำคัญบางประการ:
1. เราจงใจไม่ได้ระบุชื่อใคร
2. โลโก้บริษัทแสดงถึงองค์กรที่บุคคลทำงานอยู่ใน ขณะนี้ และไม่จำเป็นว่าจำเป็นเมื่อพวกเขาใช้รหัสผ่านที่ระบุไว้สำหรับพวกเขา
3. ไม่มีทางรู้ได้เลยว่าเดิมใช้รหัสผ่านที่ใด อาจเป็นรหัสผ่าน Gmail ส่วนบุคคล แต่มีแนวโน้มว่าจะใช้ในไซต์อื่นๆ เช่น File Dropper ดังนั้นจึงเป็นไปได้ที่รหัสผ่านที่ไม่รัดกุมจำนวนมากไม่ได้เป็นตัวแทนของรหัสผ่านที่บุคคลนั้นใช้ในที่ทำงานหรือที่อื่นใดสำหรับเรื่องนั้น
4. Google ยืนยันว่าเมื่อมีการเผยแพร่รายการ รหัสผ่านน้อยกว่า 2 เปอร์เซ็นต์ (100,000) อาจใช้งานได้กับที่อยู่ Gmail ที่พวกเขาจับคู่ด้วย และเจ้าของบัญชีที่ได้รับผลกระทบทั้งหมดจะต้องรีเซ็ตรหัสผ่าน กล่าวอีกนัยหนึ่ง รหัสผ่านด้านล่าง—ในขณะที่ยังศึกษา—ไม่ได้ใช้งานอีกต่อไป แต่กลับถูกแทนที่ด้วยชุดค่าผสมอื่นๆ ที่หวังว่าจะปลอดภัยกว่าแทน
อย่างไรก็ตาม หากไม่มีการรีเซ็ตรหัสผ่าน สถานการณ์จะน่าเป็นห่วงมากขึ้น การศึกษาหลายชิ้นแสดงให้เห็นว่าพวกเราหลายคนใช้รหัสผ่านเดียวกันสำหรับบริการต่างๆ 15 และเนื่องจากรายการด้านล่างประกอบด้วยซีอีโอสองสามคน นักข่าวจำนวนมาก และบุคคลที่สูงมากในบริษัทจัดการพรสวรรค์ของจัสติน บีเบอร์และอาเรียนา กรานเด ขยะนี้อาจก่อให้เกิดความโกลาหลมากมาย โชคดีที่ไม่ได้ทำ และตอนนี้ทำไม่ได้
สิ่งที่เห็นได้ชัดเจนที่สุดเกี่ยวกับรหัสผ่านด้านบนคือจำนวนรหัสผ่านที่คาดเดาได้ง่ายอย่างยิ่งว่ามีการใช้กระบวนการแคร็กแบบออฟไลน์กับพวกเขาหรือไม่ กลุ่มที่แข็งแกร่งที่สุดครั้งหนึ่งเคยเป็นของนักพัฒนา GitHub ( ns8vfpobzmx098bf4coj ) และด้วยเอนโทรปี 96 มันดูสุ่มเกินไป มันอาจจะถูกสร้างขึ้นโดยตัวสร้างรหัสผ่านแบบสุ่มหรือตัวจัดการรหัสผ่าน จุดอ่อนที่สุดคือผู้จัดการอาวุโสของ IBM ( 123456 ) ซึ่งดูเหมือนจะเป็นพื้นฐานที่ตรงกันข้ามกับที่จะถูกนำไปใช้เพื่อลงชื่อสมัครใช้แบบใช้ครั้งเดียวทิ้งที่ไหนสักแห่ง คนอื่น ๆ หลายคนสร้างความสมดุลระหว่างความซับซ้อนและความเรียบง่ายเพื่อแนะนำว่าเจ้าของของพวกเขาใส่ใจในการทำให้พวกเขาปลอดภัยและต้องการปกป้องบัญชีที่พวกเขาเลือก
ไฮไลท์ที่น่าสนใจสองสามอย่างที่จะจบ: หัวหน้าแผนกของกระทรวงการต่างประเทศสหรัฐฯ ที่มีรหัสผ่าน (แต่ไม่ใช่ชื่อ) คือ linco1n (Lincoln) และนักเขียน Huffington Post ที่เดินตามรอย Mulder (จาก X-Files) และเลือก trustno1 โดยทั่วไปแล้ว เป็นเรื่องที่น่าสนใจที่จะเห็นว่าคนที่มีชื่อเสียงสูงที่เราเลือกมานั้นได้ทำในสิ่งที่พวกเราหลายคนทำจริงๆ กัน: รวมชื่อของเรา วันเดือนปีเกิด คำง่ายๆ และตัวเลขสองสามตัวเพื่อทำให้เป็นหมัด รหัสผ่าน เราคิดว่ามันสมเหตุสมผล แม้แต่ประธานาธิบดีโอบามาเพิ่งยอมรับว่าเขาเคยใช้รหัสผ่าน 1234567 รหัสผ่านที่มีคะแนนเอนโทรปีสูงกว่ามากคือ PoTuS.1776 แม้ว่าสำหรับแครกเกอร์ที่ฉลาดแล้ว นั่นอาจชัดเจนเล็กน้อย
***
แล้วรหัสผ่านของคุณเองล่ะ? ขณะอ่านโพสต์นี้ คุณคงคิดเกี่ยวกับตัวเองและสงสัยว่า “มีใครสามารถเดารหัสผ่านสำหรับธนาคารออนไลน์ อีเมล หรือบล็อกของฉันได้ไหม” หากคุณใช้ผู้ให้บริการอีเมลรายใหญ่รายใดรายหนึ่ง เช่น Gmail คุณไม่ควรกังวลว่ารหัสผ่านจะถูกเดาผ่านการโจมตีแบบเดรัจฉานมากเกินไป Gmail ยุติการพยายามโดยมิชอบด้วยกฎหมายเกือบจะในทันที ธนาคารออนไลน์ของคุณน่าจะได้รับการคุ้มครองในทำนองเดียวกัน อย่างไรก็ตาม หากคุณมีบล็อก สถานการณ์จะซับซ้อนกว่านั้น เพราะในแง่ง่ายๆ มีวิธีที่เป็นไปได้มากกว่าที่ผู้โจมตีจะหาทางเข้า ดังนั้นแต่ละบล็อกจึงต้องได้รับการรักษาความปลอดภัยในเชิงรุกเพื่อกันไม่ให้เข้าถึง ประเด็นคืออย่าใช้การรักษาความปลอดภัยรหัสผ่านโดยเด็ดขาดและคิดหาระบบที่ง่าย แต่ยังยากในการคิดรหัสผ่านที่ปลอดภัย
ทีมงานของ WP Engine ใช้เวลาและความพยายามอย่างต่อเนื่องในการรักษาความปลอดภัยให้กับไซต์ WordPress ของลูกค้า แพลตฟอร์มโฮสติ้ง WordPress ที่ปลอดภัยของเราผสานรวมเข้ากับ WordPress และปกป้องไซต์ของลูกค้าจากการโจมตีรหัสผ่านด้วยซอฟต์แวร์อัจฉริยะที่โต้ตอบได้ ซึ่งจะเรียนรู้และปรับให้เข้ากับภัยคุกคามและดำเนินการอย่างต่อเนื่อง นอกจากนี้เรายังปกป้องลูกค้าของเราจากการโจมตีที่ไม่เกี่ยวข้องกับการเดารหัสผ่าน เช่น การดมกลิ่นความพยายามในการเข้าสู่ระบบและการฉีด SQL WP Engine นำเสนอแพลตฟอร์มโฮสติ้ง WordPress ที่มีการจัดการที่ดีที่สุด ขับเคลื่อนแบรนด์และองค์กรเพื่อเข้าถึงผู้ชมทั่วโลกด้วยเทคโนโลยี WordPress
ดาวน์โหลดเอกสารไวท์เปเปอร์การรักษาความปลอดภัย WordPress และเรียนรู้เกี่ยวกับแนวทางปฏิบัติที่ดีที่สุด 10 ข้อสำหรับการรักษาความปลอดภัยในการใช้งาน WordPress รวมถึงวิธีสร้าง จัดเก็บ และเปลี่ยนรหัสผ่านเป็นประจำอย่างปลอดภัย
อ้างอิง
1. http://www.dailydot.com/crime/google-gmail-5-million-passwords-leaked/
2. http://www.eweek.com/blogs/security-watch/wordpress-reset-100000-passwords-after-google-account-leak.html
3. https://xato.net/passwords/ten-million-passwords
4. https://xato.net/passwords/ten-million-passwords-faq/
5. http://groups.csail.mit.edu/uid/deneme/?p=628
6. http://micro.magnet.fsu.edu/creatures/pages/random.html
7. http://www.dailymail.co.uk/news/article-2601281/Why-lucky-7-really-magic-number.html
8. https://blogs.dropbox.com/tech/2012/04/zxcvbn-realistic-password-strength-estimation/
9. http://digi.ninja/projects/passpat.php
10. https://github.com/Rich5/Keyboard-Walk-Generators
11. http://www.thestar.com/news/gta/2015/02/13/is-there-love-in-your-online-passwords.html
12. https://xato.net/passwords/understanding-password-dumps
13. https://www.fullcontact.com/developer/person-api/
14. http://mashable.com/2014/09/10/5-million-gmail-passwords-leak/
15. http://www.jbonneau.com/doc/DBCBW14-NDSS-tangled_web.pdf