Hay giải câu đố để chúng tôi biết bạn không phải là robot

Người dùng Internet chắc hẳn từng bị quấy rầy bởi những hộp xác thực CAPTCHA với câu "I'm not a robot" (Tôi không phải người máy) hoặc yêu cầu phải tìm ra vạch kẻ đường, biển hiệu hay đèn tín hiệu giao thông...

Trước khi giải đáp cho câu hỏi tại sao Google thường bắt người dùng xác nhận "Tôi không phải người máy", chúng ta hãy tìm hiểu ngọn nguồn vấn đề - CAPTCHA.

Hay giải câu đố để chúng tôi biết bạn không phải là robot
CAPTCHA giống như là một bài kiểm tra về mức độ phản hồi, nhằm xác định xem liệu người dùng có phải là một con người thật hay bot máy tính. (Ảnh: The Cloudflare Blog)

CAPTCHA là viết tắt của "Completely Automated Public Turing test to tell Computers and Humans Apart" (tạm dịch: Bài kiểm tra Turing công khai hoàn toàn tự động nhằm phân biệt máy tính và người), được phát triển bởi các nhà khoa học, gồm: Luis von Ahn, Manuel Blum, Nicholas J. Hopper (thuộc Đại học Carnegie Mellon), và John Langford (khi đó thuộc IBM) vào năm 2000.

Xem thêm: Cẩn thận kẻo mất tài khoản vì trò lừa mới trên Facebook

Bạn có thể hiểu nôm na, CAPTCHA giống như là một bài kiểm tra về mức độ phản hồi, được sử dụng để xác minh trong máy tính, nhằm xác định xem liệu người dùng có phải là một con người thật sự không.

Hay giải câu đố để chúng tôi biết bạn không phải là robot
(Ảnh: Panda Security)

Máy chủ sẽ yêu cầu người dùng hoàn tất một quá trình kiểm tra đơn giản mà máy tính dễ dàng tạo ra được, nhưng bản thân nó lại không thể giải được. Vậy nên, chỉ có người dùng – con người đích thực mới có thể hoàn thành CAPTCHA.

Khi CAPTCHA ngày càng được dùng phổ biến trong bảo mật trên Internet, Luis von Ahn cảm thấy con người đã tiêu tốn quá nhiều thời gian để giải những câu đố hình ảnh này. Trong TED Talk 2011, Von Ahn đã ước tính rằng toàn bộ nhân loại đã lãng phí 500.000 giờ mỗi ngày để gõ CAPTCHA.

Hay giải câu đố để chúng tôi biết bạn không phải là robot
reCAPTCHA không chỉ giúp bảo mật cho website, mà còn giúp số hoá sách cũ. (Ảnh: Internet)

Để CAPTCHA được sử dụng mạnh mẽ và có ý nghĩa hơn, ông đã phát triển reCAPTCHA, sau đó được bán cho Google vào năm 2009, giúp điện tử hóa sách giấy. Ví dụ mỗi lần bạn gõ CAPTCHA trên Facebook, Twitter, Google,... bạn đang giúp số hoá sách.

Được biết, reCAPTCHA đã giúp số hóa hàng triệu cuốn sách mỗi năm và cũng đã mở rộng để hỗ trợ các nỗ lực khác như số hóa tên đường và số trên Google Maps hoặc nhận ra các đối tượng phổ biến trong ảnh cho Google Images.

Hay giải câu đố để chúng tôi biết bạn không phải là robot
reCAPTCHA còn giúp số hóa tên đường và số trên Google Maps hoặc nhận ra các đối tượng phổ biến trong ảnh cho Google Images. (Ảnh: Internet)

Tuy nhiên, CAPTCHA cũng như reCAPTCHA không phải là không thể phá vỡ. Năm 2014, phân tích của Google cho thấy trí tuệ nhân tạo (AI) có thể giải được những hình ảnh CAPTCHA và reCAPTCHA phức tạp nhất với độ chính xác lên tới 99.8%.

Do đó, Google đã tạo ra hệ thống mới "No CAPTCHA reCAPTCHA: I'm not a robot", không dựa vào khả năng giải mã văn bản của người dùng mà là hành vi trên mạng của họ trước khi vượt qua điểm kiểm tra an ninh.

Hay giải câu đố để chúng tôi biết bạn không phải là robot
Phương pháp xác thực bằng cách tick vào ô "I'm not a robot" mà chúng ta thường thấy. (Ảnh: Internet)

Google sẽ phân tích hành vi của bạn trước, trong và sau khi nhấp vào hộp kiểm để xác định xem bạn có những đặc điểm xuất hiện ở người không. Phân tích này có thể bao gồm mọi thứ từ lịch sử duyệt web của bạn, cho đến cách bạn di chuyển chuột trên trang.

Nếu Google vẫn không chắc chắn rằng bạn có phải là người thật hay không thì sau khi nhấp vào hộp kiểm, bạn sẽ được hiển thị reCAPTCHA như một biện pháp bảo mật bổ sung.

Hay giải câu đố để chúng tôi biết bạn không phải là robot
(Ảnh: Alex Castro / The Verge)

Điều này tuy khiến người dùng mất thời gian nhưng bù lại sẽ giúp tăng tính bảo mật cho website, tránh tình trạng spam và sự tấn công của tin tặc.

Xem thêm: Trò chơi FarmVille trên Facebook chính thức nói lời tạm biệt sau 11 năm hoạt động

Khi tìm kiếm thông tin trên Google, đôi khi bạn sẽ phải thực hiện bài kiểm tra CAPTCHA để chứng minh bạn không phải là robot hay 1 loại virus nào đó. Tuy nhiên, đôi khi những bài kiểm tra này lại khiến cho nhiều người "xoắn hết cả não", giải đi giải lại mấy lần mà vẫn sai.

Dưới đây là những bài kiểm tra CAPTCHA “khoai” được dân mạng ở khắp nơi chia sẻ.

1. Chọn tất cả các hình vuông có đèn giao thông, không biết phần nhỏ tí xíu ở hình vuông kia có được tính không nhỉ?

2. Chọn tất cả các hình vuông có các tấm biển, hình như ô nào cũng đúng có phải không? Nhìn lướt qua cũng thấy hoa mắt rồi.

3. Bọn robot cho rằng cái hòm thư kia là máy thu tiền đỗ xe khiến người dùng trả lời đúng vẫn thành sai.

4. Bài toán đánh đố người dùng đây mà, tìm tất cả hình vuông có vạch sang đường cho người đi bộ.

5. Chọn tất cả hình vuông có xe cộ, có vẻ như người dùng đã bỏ sót một ô rồi.

6. Chọn tất cả hình vuông có biển chỉ đường, người dùng hoang mang không biết có nên tích mấy cái ô "chết tiệt" kia không?

7. Cái đuôi xe chui 1 tí sang ô vuông kia thì có tính không nhỉ?

8. Chọn tất cả hình ảnh có xe đạp, không biết có tính xe đạp vẽ không nhỉ?

9. Lại là cái máy thu tiền đỗ xe "huyền thoại".

10. Chọn tất cả các hình vuông có cầu, nhiều người bấm chọn mà quên mất rằng cái cầu này kéo dài đến tít đằng xa và còn có cả chỗ thanh đỡ nữa.


11. Lại là chọn xe đạp này.

12. Chọn tất cả các hình vuông có xe buýt, đúng là cố ý bẫy người dùng mà.

13. Một câu hỏi quen thuộc và cái chỗ đen đen bé tí chòi sang hình vuông kia cũng tính nhé mọi người.

14. Lại là xe buýt “thần thánh”.


15. Máy thu tiền đỗ xe cũng rất được “ưu ái” nhé, mỗi tội hay nhầm với hòm thư.

Internet đã làm cuộc sống của chúng ta trở nên dễ dàng hơn nhiều. Chỉ một cú nhấn chuột ngay trong căn phòng ấm cúng, bạn đã có mọi thứ mình muốn. Cần sắm nhu yếu phẩm trong nhà? Hãy vào một trang thương mại điện tử nào đó và cho hàng vào giỏ. Muốn gửi tiền mà không phải ra ngân hàng? Sử dụng các dịch vụ internet banking do ngân hàng của bạn cung cấp. Muốn tìm thông tin về bất kỳ sở thích quái lạ nào mà bạn quan tâm? Chỉ cần tìm đọc một loạt các blog chuyên về các chủ đề phù hợp với bạn.

Tuy nhiên, mọi công nghệ đột phá đều có ưu điểm và hạn chế. Trong trường hợp của internet, một trong nhiều mối quan ngại trong quản lý hạ tầng kỹ thuật số chính là lưu lượng truy cập không lường trước vào các website bởi những con bot.

Với khả năng thực hiện những phi vụ lừa đảo tài chính, đến việc khoắng sạch nguồn hàng từ một website thương mại điện tử, những con bot có thể gây hỗn loạn trên diện rộng. Việc phát triển ra những phương thức tiên tiến nhằm xác định xem ai đang thực sự truy cập một website là điều rất cần thiết; một con người trần mắt thịt, hay một con bot lạnh lùng tạo ra từ những dòng mã?

Phương thức phổ biến nhất hiện nay – hẳn bạn đã biết rồi – chính là reCAPTCHA, hay bước kiểm tra nhằm phân biệt giữa bạn với một con bot chỉ bằng một cú nhấn chuột duy nhất.

Hay giải câu đố để chúng tôi biết bạn không phải là robot

Nhưng làm cách nào mà bạn có thể vượt qua bài kiểm tra này khi chỉ đơn giản nhấn vào một cái hộp? Phương thức này hiệu quả đến mức nào?

Tại sao các website cần kiểm tra xem bạn có phải là bot hay không?

Như đã đề cập ở trên, internet nay không còn là một nơi lý tưởng như chúng ta vẫn thường hình dung. Đó là địa bàn hoạt động của vô vàn những kẻ xấu muốn lợi dụng những sơ hở trong cơ sở hạ tầng kỹ thuật số để phục vụ cho những ý đồ cá nhân của mình.

Bot có thể được huấn luyện để gây đủ loại nguy hiểm. Bot có thể tạo nhiều tài khoản trên các nền tảng mạng xã hội và các nhà cung cấp dịch vụ email (như Gmail chẳng hạn), khiến số lượng người dùng của các dịch vụ này tăng cao và sử dụng những tài khoản email đó để phá hoại những nơi khác trên internet. Chúng có thể điền vào các form bằng các nội dung không mong muốn và phát tán thư rác. Điều tương tự cũng xảy ra với phần bình luận trên các website và các nền tảng khác. Bot khiến chúng ta khó lòng đánh giá được tương tác giữa những con người thực thụ trên một nền tảng hay website.

Ngoài ra, còn có những kẻ gọi là "scraper", chuyên sử dụng bot để thu thập địa chỉ email của người dùng và sử dụng chúng cho nhiều mục đích khác nhau. Các hacker có thể dùng phương thức tấn công "từ điển", trong đó lần lượt quét từng từ trong một danh sách chúng lập nên để bẻ mật mã, do đó mật mã của bạn hoàn toàn không an toàn như bạn vẫn nghĩ. Đó là lý do tại sao bạn lại thấy một bước kiểm tra "I’m not a robot" khi đăng nhập vào nhiều website. Bot còn được dùng để viết các đánh giá tích cực 5 sao trên các sản phẩm và dịch vụ, nhằm tạo nên hình ánh "bóng loáng" trong khi trên thực tế chưa chắc đã vậy.

Để ngăn chặn những vấn đề nêu trên, bước kiểm tra để phân biệt người dùng thực sự và bot là điều cần thiết. Đó là lúc người ta dùng đến CAPTCHA.

Hay giải câu đố để chúng tôi biết bạn không phải là robot

Sự ra đời của CAPTCHA

CAPTCHA, viết tắt của "Completely Automated Public Turing test to tell Computers and Humans Apart" (bài kiểm tra Turing công khai hoàn toàn tự động nhằm phân biệt máy tính và người), được phát triển bởi các nhà khoa học và giáo sư tại Đại học Carnegie Mellon (CMU) và IBM vào năm 2000. Nó là một phương thức để loại bỏ những con bot không mong muốn khỏi website bằng cách sử dụng những hình ảnh bị biến dạng, những câu đố, những đoạn âm thanh… Phương thức này được sử dụng để theo dõi các trường hợp lừa đảo thẻ tín dụng của PayPal.

Tiền đề của phương thức này là các chương trình thường gặp khó khăn trong việc giải mã các hình ảnh bị biến dạng, trong khi con người có thể dễ dàng giải mã chúng. Có thời điểm, phương thức CAPTCHA này đã được sử dụng bởi 200 triệu người dùng mỗi ngày, tương đương với việc bỏ ra xấp xỉ 500.000 giờ giải mã các đoạn văn bản bị xáo trộn! Các chuyên gia tại CMU quyết định biến toàn bộ những nỗ lực này thành một thứ gì đó hữu dụng hơn, và họ đã dùng phương thức phát hiện bot này để số hóa những cuốn sách kinh điển.

Phương thức mới này được gọi là reCAPTCHA, và nó sử dụng các tập tin PDF và sách được scan lên máy tính, hay các nguồn nguyên liệu khác, để đóng vai trò những bài kiểm tra chữ biến dạng, yêu cầu người dùng phải giải mã chúng, qua đó giải quyết 2 vấn đề: loại bỏ bot và số hóa những cuốn sách kinh điển.

Loại công nghệ CAPTCHA mới này sau đó được mua lại bởi Google vào năm 2009 và tiếp tục được công ty phát triển.

Vào ngày 14/4/2014, Google tung ra một bản thảo khoa học tiết lộ hãng đã phát triển được các hệ thống nhận dạng hình ảnh bằng Deep Convolutional Neural Networks, với khả năng giải mã chữ và số từ kho hình ảnh Street View của mình. Có nghĩa là các chương trình này có khả năng giải được các bài kiểm tra CAPTCHA khó nhất với độ chính xác đến 99,8% - khiến cho hệ thống hiện tại trở nên không đáng tin cậy nữa.

Dẫu vậy, vấn đề bot vẫn còn tồn tại, và chúng ta cần một cách nào đó để loại bỏ chúng. Xin giới thiệu với các bạn: No CAPTCHA reCAPTCHA.

Hay giải câu đố để chúng tôi biết bạn không phải là robot

No CAPTCHA reCAPTCHA

Vào ngày 14/12/2014, Google công bố đã phát triển một phiên bản reCAPTCHA mới – phiên bản khá phổ biến hiện nay, chính là ô vuông với dòng chữ "I’m not a robot" (Tôi không phải người máy) bên cạnh.

Phiên bản này không yêu cầu người dùng giải mã các văn bản biến dạng nữa, nhưng thay vào đó sẽ dựa vào một cú nhấn chuột duy nhất để xác định xem bạn là người hay bot. Phương thức này sử dụng backend Advanced Risk Analysis dành cho reCAPTCHA, được phát triển và công bố bởi Google trên một bài blog vào năm 2013.

Quy trình backend này sẽ phân tích tương tác của người dùng trước, trong và sau khi viết CAPTCHA để xác nhận họ, dựa vào các manh mối để hiểu được một người dùng là bot hay con người. Bài kiểm tra "I’m not a robot" sử dụng các phương thức tương tự, đồng thời đánh giá các người dùng di chuyển con trỏ chuột và cách họ điền vào ô văn bản. Google không tiết lộ tất cả các manh mối, bởi nếu lộ ra, mục tiêu loại bỏ bot sẽ không đạt được.

Tuy nhiên, CAPTCHA chưa hoàn toàn bị thay thế, và vẫn được dùng kèm với ô nhấn chuột nếu Google cảm thấy có hành vi mờ ám, biến nó thành một manh mối bổ sung để xác minh người dùng. Các văn bản biến dạng đã được thay thế bằng các hình ảnh – ví dụ, một chú mèo – mà người dùng phải xác định trong số các hình ảnh khác.

Bài kiểm tra "I’m not a robot" có hiệu quả?

Google nói rằng khi phiên bản mới của reCAPTCHA được tung ra, các công ty như Snapchat, WordPress, và Humble Bundle sẽ sẵn sàng triển khai phương thức này. Họ khẳng định rằng trong tuần đầu sử dụng No CAPTCHA reCAPTCHA, người dùng đã vào được website chính nhanh hơn nhiều so với các phương thức trước đó.

Xét về khía cạnh bảo mật, thêm nhiều lớp manh mối sẽ khiến việc truy cập vào một website trở nên khó khăn hơn, và phương thức "I’m not a robot" rõ ràng đã hỗ trợ rất nhiều so với việc giải mã văn bản trong các phương thức CAPTCHA trước đó. Google không tiết lộ các manh mối để buộc những kẻ viết bot phải đoán, từ đó đảm bảo reCAPTCHA luôn ở "kèo" trên.

Phương thức này còn phù hợp với những người khiếm thị, bởi nó giảm được thời gian cần thiết để giải mã văn bản, và thay việc đó với chỉ một cú nhấn chuột, và thỉnh thoảng là tìm một đồ vật trong nhiều hình ảnh. "No CAPTCHA reCAPTCHA" sẽ được phát triển hơn nữa trong tương lai, với nhiều manh mối hơn được thêm vào thuật toán để kiểm tra tính hợp lệ của người dùng.

Có thể nói vấn đề bot sẽ chưa biến mất sớm, nhưng tính đến nay, có vẻ như con người đang dẫn trước trong cuộc đua số với chính những chiếc máy tính.

Tham khảo: ScienceABC