什麼是人工智慧安全（AI Safety）？

安全模型設計: 開發具有內在安全性的AI模型，例如使用正則化技術來防止過擬合，或使用差分隱私來保護敏感數據。
對抗性訓練: 通過在訓練數據中加入對抗性樣本，使AI模型對抗攻擊更具魯棒性。
形式化驗證: 使用數學方法來驗證AI系統的行為是否符合預期，例如驗證AI系統是否滿足特定的安全屬性。
監控和審計: 監控AI系統的運行情況，並定期進行審計，以檢測和糾正潛在的安全問題。
紅隊測試: 模擬真實世界的攻擊，以評估AI系統的安全性，並發現潛在的漏洞。

人工智慧安全旨在確保AI系統在部署後，其行為符合人類意圖，避免產生意外或有害的後果，保障人類福祉。

核心概念

人工智慧安全的核心概念圍繞著確保AI系統的行為與人類價值觀和目標一致。這包括預防AI系統產生意外或有害的後果，以及確保它們在各種情況下都能可靠地運行。以下是一些關鍵概念：

人工智慧安全涉及多個層面的工作，從模型設計到部署和監控。以下是一些常見的運作原理：

人工智慧安全在許多領域都有重要的應用，包括：

AI安全 vs. AI倫理: AI倫理關注AI系統的道德和社會影響，而AI安全則關注AI系統的安全性，避免產生意外或有害的後果。雖然兩者有所不同，但它們之間存在密切的聯繫。
AI安全 vs. 網路安全: 網路安全關注保護計算機系統和網絡免受攻擊，而AI安全則關注保護AI系統免受攻擊和濫用。AI安全可以被視為網路安全的一個子集，但它也涉及到一些獨特的問題，例如對抗性攻擊和模型竊取。
AI安全 vs. 可靠性工程: 可靠性工程關注確保系統在各種條件下都能可靠地運行，而AI安全則關注確保AI系統的行為符合人類意圖，避免產生意外或有害的後果。AI安全可以被視為可靠性工程的一個擴展，它考慮了AI系統的獨特特性，例如學習能力和自主性。

延伸學習

想看人工智慧安全的完整影片教學？前往美第奇 AI 學院