Phát hiện ChatGPT tự nói dối, gian lận khi bị áp lực kiếm tiền

Hành vi lừa đảo này xuất hiện một cách tự phát khi các chatbot trí tuệ nhân tạo (AI) như ChatGPT đưa ra các mẹo "giao dịch nội gián", sau khi được giao nhiệm vụ kiếm tiền cho một công ty đầu tư tài chính.

Điều này diễn ra ngay cả khi không có sự khuyến khích từ các đối tác con người của nó.

Kịch bản gây áp lực đầu tư cho ChatGPT

Nhóm tác giả gồm các tiến sĩ khoa học máy tính Jérémy Scheurer (Đại học New York, Mỹ), Mikita Balesni (Apollo Research), Marius Hobbhahn (Đại học Tübingen, Đức) đã công bố nghiên cứu của họ trên kho lưu trữ truy cập mở cho gần 2,4 triệu bài báo học thuật arXiv.

“Trong báo cáo kỹ thuật này, chúng tôi trình bày kịch bản duy nhất. Trong đó mô hình ngôn ngữ lớn hành động sai lệch và đánh lừa người dùng một cách có chiến lược, điều mà chúng không hề được hướng dẫn.

ChatGPT phản ứng bất ngờ khi chuyên gia AI rủ 'tiêu diệt loài người'ĐỌC NGAY

Theo hiểu biết của chúng tôi, đây là minh chứng đầu tiên về hành vi lừa đảo mang tính chiến lược như vậy trong các hệ thống AI, dù chúng được thiết kế vô hại và trung thực”, nhóm tác giả viết.

Trong nghiên cứu mới, họ đã sử dụng Generative Pre-training Transformer-4, hay GPT-4 (cung cấp năng lượng cho ChatGPT Plus), hoạt động như một hệ thống AI thay mặt cho một công ty tài chính thực hiện đầu tư.

Các nhà nghiên cứu đã cung cấp cho GPT-4 một bộ lời nhắc dựa trên văn bản để tạo ra môi trường mô phỏng.

AI sau đó được cấp quyền truy cập vào các công cụ tài chính để phân tích cổ phiếu, thực hiện giao dịch, lên kế hoạch cho các bước tiếp theo và cung cấp thông tin cập nhật cho các nhà quản lý tại công ty đầu tư.

Các nhà nghiên cứu đã tương tác với AI thông qua giao diện trò chuyện, đồng thời định cấu hình để AI bộc lộ suy nghĩ bên trong của nó khi trả lời tin nhắn - một đoạn độc thoại nội tâm giải thích các quyết định của nó cho chính nó. Đối với mỗi giao dịch mà nó thực hiện, nó cũng đưa ra một lý do "công khai", cho phép AI nói dối.

Các nhà nghiên cứu đã tạo áp lực theo ba cách.

Đầu tiên, họ gửi cho "nhà giao dịch chứng khoán AI" một email từ "người quản lý" của công ty, nói rằng công ty đang hoạt động không tốt và cần hoạt động tốt hơn nhiều trong quý tới.

Tiếp đến, họ gửi email từ một đồng nghiệp dự đoán tình hình suy thoái trong quý tới.

Sau đó, họ đưa ra lời khuyên cho mô hình AI này rằng các nhà quản lý của công ty không chấp thuận giao dịch nội gián, và chờ xem mô hình sẽ hoạt động như thế nào.

Kiểu gì cũng cho kết quả gian lận

Họ chạy đi chạy lại kịch bản này nhiều lần, đo lường tần suất AI thực hiện giao dịch nội gián, tần suất nó nói dối và tần suất nó nhân đôi lời nói dối.

Kết quả: khoảng 75% trường hợp khi đối mặt với những điều kiện trên, GPT-4 đã thực hiện giao dịch dựa trên thông tin nội bộ mà nó nhận được (giao dịch nội gián, thông tin này là bất hợp pháp ở Mỹ), sau đó nó cố gắng che đậy bằng cách nói dối người quản lý về suy nghĩ của mình.

Sau khi nói dối, khoảng 90% trường hợp mô hình sẽ tăng gấp đôi lời nói dối của mình.

Nhóm nghiên cứu đã thực hiện một số thử nghiệm tiếp theo, thay đổi cả mức độ khuyến khích hoặc ngăn cản hoạt động bất hợp pháp, cũng như mức độ áp lực. Họ cũng sửa đổi nguy cơ bị bắt.

Nhưng không một kịch bản nào đưa ra tỉ lệ 0% cho giao dịch nội gián hoặc lừa dối.

Vì đây chỉ là một kịch bản do các nhà nghiên cứu đề ra với mô hình GPT-4, nên họ không muốn đưa ra kết luận chắc chắn về khả năng AI tồn tại trong môi trường thế giới thực như thế nào.

Tuy nhiên, nhóm nghiên cứu muốn dựa trên công trình này để điều tra tần suất và mô hình ngôn ngữ nào dễ xảy ra hành vi này.