Việc kiểm thử trí tuệ nhân tạo đã phát hiện ra những lỗ hổng đáng lo ngại. Trong chế độ thử nghiệm, ChatGPT đã đưa ra hướng dẫn chế tạo chất nổ, vũ khí sinh học, ma túy bất hợp pháp và thậm chí cả mẹo cho tin tặc. Tuy nhiên, các chuyên gia khẳng định người dùng thông thường sẽ không tiếp cận được những thông tin này vì trong môi trường sử dụng thực tế, các bộ lọc bảo mật đã được thiết lập để ngăn chặn.

Việc kiểm thử là một phần của hợp tác đặc biệt giữa OpenAI và công ty đối thủ Anthropic. Mỗi bên đã kiểm tra các mô hình của bên còn lại bằng cách giả lập các tình huống nguy hiểm như yêu cầu sản xuất, kích nổ bom, công thức chế tạo chất nổ hoặc điều chế chất ma túy trái phép – theo thông tin từ trang The Guardian.
Dù vậy, các chuyên gia cho rằng kết quả từ những thử nghiệm này không phản ánh hành vi của mô hình khi vận hành công khai, nơi các bộ lọc an toàn bổ sung đã được kích hoạt.
Công ty Anthropic nhấn mạnh rằng đối với các phiên bản GPT-4o và GPT-4.1, họ đã ghi nhận một số biểu hiện đáng lo ngại liên quan đến khả năng bị lạm dụng, cho thấy nhu cầu cấp thiết trong việc hiệu chỉnh và đánh giá chi tiết các hệ thống AI.
“Các mô hình của OpenAI dễ dàng chấp thuận những yêu cầu rõ ràng là nguy hiểm từ các người dùng mô phỏng, nhiều hơn kỳ vọng ban đầu,” các nhà khoa học từ Anthropic cho biết.
“Họ chỉ cần được thuyết phục qua vài lần thử hoặc bằng những cái cớ không thuyết phục, chẳng hạn như tuyên bố rằng yêu cầu liên quan đến mục đích nghiên cứu,” báo cáo viết.
Minh bạch hơn trong nghiên cứu
Cả hai công ty cho biết họ quyết định công bố kết quả vì mục tiêu minh bạch hơn trong lĩnh vực đánh giá tính tuân thủ, vốn thường được các hãng phát triển AI giữ kín khi cạnh tranh công nghệ. Việc liệu các mô hình của Anthropic có mắc lỗi tương tự hay không thì The Guardian không nêu rõ.
OpenAI bổ sung rằng phiên bản ChatGPT-5 – được triển khai sau các bài kiểm tra – đã thể hiện cải thiện rõ rệt: giảm xu hướng làm hài lòng người dùng một cách quá mức, giảm những câu trả lời "ảo tưởng" (hallucinations) và gia tăng khả năng chống lại các hành vi khai thác nguy hiểm.
Ardi Janjeva từ Trung tâm Công nghệ và An ninh mới của Vương quốc Anh cho rằng những phát hiện này là điều đáng quan tâm. “Tình hình không lý tưởng, nhưng hiện tại vẫn chưa có số lượng đáng kể các trường hợp nghiêm trọng trong thực tế,” ông nhận định.
“Với đủ nguồn lực, nghiên cứu và hợp tác liên ngành, sẽ ngày càng khó để lạm dụng các mô hình trí tuệ nhân tạo tiên tiến vào mục đích phi pháp,” ông nói thêm.
Theo Novinky
Ghi rõ nguồn TAMDAMEDIA.eu khi phát hành lại thông tin từ website này