Chờ...

Khi AI được huấn luyện để lừa dối thì chuyện gì xảy ra?

VOH -  Nghiên cứu cho biết chatbot trí tuệ nhân tạo - AI dễ dàng được huấn luyện để nói dối nhằm vào mục đích xấu, nhưng khi đó không thể sửa nó được.

Theo các nhà nghiên cứu từ công ty khởi nghiệp trí tuệ nhân tạo, AI Anthropic, một khi mà hệ thống trí tuệ nhân tạo bắt đầu nói dối, điều đó có thể khó đảo ngược lại được.

Một nghiên cứu mới cho thấy các mô hình trí tuệ nhân tạo tiên tiến có thể được đào tạo để đánh lừa con người và cả các AI khác.

Khi AI được huấn luyện để lừa dối thì chuyện gì xảy ra? 1
Công ty khởi nghiệp AI Anthropic đã công bố một nghiên cứu vào tháng 1/2024 cho thấy trí tuệ nhân tạo có thể học lừa dối theo cách tương tự như con người - Ảnh: Reuters

Các nhà nghiên cứu tại công ty khởi nghiệp AI Anthropic đã kiểm tra xem liệu các chatbot có trình độ thành thạo ở cấp độ con người, chẳng hạn như hệ thống Claude hay ChatGPT của OpenAI, có thể học cách nói dối để lừa mọi người hay không.

Họ nhận thấy rằng chúng không chỉ có thể nói dối mà một khi có hành vi lừa đảo đã được chúng biết thì không thể đảo ngược bằng các biện pháp an toàn của AI hiện tại.

Để kiểm tra giả thuyết này, công ty khởi nghiệp do Amazon tài trợ đã tạo ra một “tác nhân nằm im chờ” khi có một số yêu cầu nhất định thì trợ lý AI sẽ viết mã máy tính có hại hoặc phản hồi theo cách độc hại khi nghe thấy lệnh kích hoạt.

Các nhà nghiên cứu cảnh báo rằng có cảm giác sai lầm nhưng có vẻ “an toàn” vì các giao thức hiện tại không thể ngăn chặn hành vi của con AI đó.

Kết quả đã được công bố trong một nghiên cứu có tiêu đề tạm dịch “Tác nhân nằm chờ: Đào tạo mô hình ngôn ngữ lừa đảo - LLM mà có cảm giác an toàn”.

Mô hình ngôn ngữ LLM được hiểu là mô hình ngôn ngữ được đào tạo trên một lượng lớn dữ liệu, có thể được sử dụng để tạo và dịch văn bản cũng như các nội dung khác, đồng thời thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác.

Các nhà nghiên cứu viết: “Chúng tôi nhận thấy rằng việc đào tạo ngược lại (đào tạo tiêu cực) có thể dạy các mô hình AI nhận biết tốt hơn các tác nhân kích hoạt cửa sau của chúng, che giấu hành vi không an toàn một cách hiệu quả”.

“Kết quả của chúng tôi cho thấy rằng, khi một mô hình AI có hành vi lừa đảo, các kỹ thuật tiêu chuẩn có thể không loại bỏ được hành vi lừa dối đó và làm cho nhận thức sai lầm về sự an toàn.”

Vấn đề về an toàn AI đã trở thành mối quan tâm ngày càng tăng đối với cả các nhà nghiên cứu và nhà lập pháp trong những năm gần đây, với sự ra đời của các chatbot tiên tiến như ChatGPT đã thu hút sự chú ý mới từ các cơ quan quản lý.

Vào tháng 11 năm 2023, một năm sau khi phát hành ChatGPT, Vương quốc Anh đã tổ chức Hội nghị thượng đỉnh về an toàn AI để thảo luận về các cách có thể giảm thiểu rủi ro khi sử dụng công nghệ này.

Thủ tướng Anh Rishi Sunak, người chủ trì hội nghị thượng đỉnh, cho biết những thay đổi do AI mang lại có thể “sâu rộng” như cuộc cách mạng công nghiệp trong quá khứ và mối đe dọa mà AI đặt ra cần được coi là ưu tiên toàn cầu bên cạnh các mối đe dọa như đại dịch và chiến tranh hạt nhân.

“Hãy hiểu rằng AI có thể giúp việc chế tạo vũ khí hóa học hoặc sinh học trở nên dễ dàng hơn.” Ông nói: “Các nhóm khủng bố có thể sử dụng AI để gieo rắc nỗi sợ hãi và hủy diệt ở quy mô lớn hơn”.

“Tội phạm có thể khai thác AI để tấn công mạng, lừa đảo hoặc thậm chí lạm dụng tình dục trẻ em… thậm chí có nguy cơ nhân loại có thể mất quyền kiểm soát trí tuệ nhân tạo thông qua loại AI “lừa dối” mà đôi khi nó còn được gọi là “siêu thông minh”.