對抗準確度 Adversarial Accuracy
iPAS衡量模型在面對惡意擾動輸入時的性能,評估其魯棒性與安全性。
瀏覽 AITerms.tw 中標籤為「AI倫理與治理」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「AI倫理與治理」,共 95 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「AI倫理與治理」 ,共 95 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
衡量模型在面對惡意擾動輸入時的性能,評估其魯棒性與安全性。
對抗性去偏見是一種利用對抗性訓練減少機器學習模型預測中固有偏見的技術,確保演算法的公平性。
對抗性穩健是指機器學習模型在面對惡意設計的對抗樣本時,仍能維持其預測準確性的能力,抵抗攻擊。
自主系統對抗韌性旨在確保AI驅動的自主系統,如自駕車或機器人,在面對惡意干擾或對抗性攻擊時,仍能維持其預期功能與安全性,避免錯誤決策或系統失效。
一種透過引入具有對抗特性的數據樣本來強化模型穩健性的機器學習訓練方法,能夠提升模型在面對惡意攻擊或分佈外輸入時的防禦能力。
人工智慧倫理旨在探討並解決AI系統開發、部署和使用過程中涉及的道德、法律和社會問題,確保AI的發展符合人類價值觀。
AI治理是指建立一套框架和流程,以確保AI系統的開發和使用符合倫理、法律和社會價值觀。
人工智慧監管是指政府或相關機構制定和實施的,旨在規範人工智慧技術開發、部署和使用的法律、政策和指導方針,以確保其安全、公平和符合倫理。
人工智慧風險評估是一種識別、分析和評估人工智慧系統可能造成的潛在風險的過程,旨在了解風險的性質、可能性和影響,並制定相應的應對措施。
人工智慧安全旨在確保AI系統在部署後,其行為符合人類意圖,避免產生意外或有害的後果,保障人類福祉。
AI沙盒是一個受控的環境,用於測試和評估AI系統,而無需擔心對真實世界產生負面影響。它提供了一個安全可靠的實驗平台。
AI浮水印是一種將資訊嵌入AI模型或其產生的內容中的技術,用於驗證來源、追蹤使用情況或防止未經授權的複製。
演算法問責制指確保人工智慧與自動化系統之設計、開發及部署過程具備透明度、公平性及可解釋性,並在產生損害時明確劃分相關責任歸屬的機制。
對齊校準是指使AI模型,特別是大型語言模型,的行為與人類意圖、價值觀和倫理規範相符的過程,降低潛在風險。
模型在對齊(使其行為符合人類價值觀)過程中可能損失的性能,特別是在某些原始能力上的下降。
反洗錢人工智慧(AML AI)利用AI技術自動偵測金融交易中的可疑活動,協助金融機構遵守法規,打擊洗錢犯罪。
通用人工智慧(AGI)是指具備與人類同等或超越人類的智慧,能夠理解、學習、適應並在任何智力任務中表現出色的AI系統。
模擬真實情境以測試和評估AI系統的安全性、合規性與應變能力,識別潛在弱點。
自動駕駛技術利用感測器、人工智慧和控制系統,使車輛能夠在沒有人為干預的情況下感知環境並自主導航。
後門攻擊是一種針對機器學習模型的惡意攻擊,攻擊者在模型中植入後門,使其在特定觸發條件下產生預設的錯誤輸出。
偏差是模型對特定族群或特徵產生系統性錯誤傾向,源自訓練資料不平衡或演算法設計缺陷
偏見偵測旨在識別AI資料或演算法中對特定群體的歧視性偏差,是確保系統公平性與可信度的關鍵步驟。
AI偏見是指AI系統在訓練或決策過程中,由於資料、演算法或人為因素,產生不公平或歧視性的結果。
識別和減少機器學習模型中存在的各種偏見,確保 AI 系統的公平性和非歧視性
黑箱模型是指其內部運作機制對使用者而言不透明的模型,難以理解輸入與輸出之間的具體關係。
撤銷已發行但因故不再信任的數位憑證,防止其被濫用,確保AI系統安全與信任鏈完整性。
可證明穩健性指在特定的擾動範圍內,透過數學或嚴謹的演算法保證機器學習模型輸出不會發生改變的性質。
一種對齐大型語言模型的方法,透過編制一份「憲法」(一組原則和價值準則),指導 AI 系統自我批評和改進行為,無需依賴大量人類反饋,實現更可控且價值對齐的 AI 系統。
憲法式AI原則是一種透過明確的價值觀或「憲法」來引導AI系統行為的方法,旨在確保AI的輸出符合人類的期望和倫理標準。
數位證書與元資料標準,用於追蹤、驗證和建立對生成或修改媒體內容的來源與真實性的信任。
Copilot 是一個 AI 程式碼助手,透過分析程式碼上下文,提供程式碼建議、自動完成和程式碼生成,提升開發效率。
反事實解釋描述了為了改變模型預測結果,輸入數據需要做的最小變動。它提供了一種理解模型決策邏輯的方式。
創用CC提供彈性版權許可,讓創作者分享作品,同時保留部分權利,促進知識共享與再利用。
描述資料集來源、組成、預期用途、限制與潛在偏誤的文件。
資料投毒攻擊是一種惡意攻擊,攻擊者將惡意或錯誤的資料注入到訓練資料集中,以影響機器學習模型的性能或行為。攻擊目標是使模型產生錯誤的預測或執行其他有害操作。
深度偽造是利用深度學習技術合成的逼真音訊、圖像或影片,通常用於製造假新聞、詐騙或惡意中傷。
深度偽造偵測旨在辨識經由深度學習技術偽造或操縱的影音內容,以防止不實資訊傳播和維護資訊真實性。
差分隱私是一種資料匿名化技術,透過在統計查詢結果中注入隨機噪音,在公開資料的同時保護個別資料點的隱私。
透過收集設備或用戶的多種可識別資訊,建立獨特且穩定的識別碼。
直接侵權指未經授權而直接複製、散布或使用受版權保護作品的行為,在AI領域涉及模型訓練與輸出。
湧現能力是指大型語言模型在達到一定規模後,突然展現出在較小模型中未曾觀察到的複雜能力,例如推理、翻譯和程式碼生成。
歐盟於 2024 年 5 月正式生效的全球首部綜合 AI 監管法規,對 AI 系統的開發、部署和使用設定強制性要求。
機器學習模型決策過程的透明度與可理解性,使用戶與利益相關者能理解模型為何做出特定預測。
可解釋 AI 透過視覺化或簡化模型,讓複雜的黑箱模型預測決策過程能被人類理解、信任與稽核。
人臉辨識是一種電腦視覺技術,用於自動識別或驗證圖像或影片中的人臉,並與已知人臉資料庫進行比對。
AI 公平性要求模型對不同族群的決策結果無系統性歧視,需透過資料平衡與演算法設計確保一致待遇,是負責任 AI 的核心原則。
公平性約束是在機器學習模型訓練或部署過程中引入的數學條件,旨在防止系統對特定群體產生偏見,確保演算法決策的公正性。
人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視,追求結果的公正與平等。
機器學習公平性旨在確保人工智慧系統決策的客觀與公正,防止演算法因使用者的種族、性別或年齡等受保護特徵而產生系統性的偏見與歧視。
基礎模型是使用大量未標記數據訓練的大型模型,可適應多種下游任務,展現出強大的泛化能力和遷移學習能力。
AI 幻覺是大型語言模型產生自信但事實錯誤或無中生有內容的現象,是 LLM 部署的主要風險
指在人工智慧系統的訓練、評估與決策過程中,系統性引入人類專業知識與反饋的機制,以確保模型行為符合預期。
人機迴路 (HITL) 是一種 AI 方法,其中人類參與模型訓練和決策過程,以提高準確性、可靠性和倫理考量。
研究人類與機器人之間互動的跨學科領域,旨在設計更自然、高效且安全的協作方式,提升使用者體驗與系統效能。
標籤偏誤是指訓練資料的標註結果反映了人類主觀判斷或社會既有成見,導致資料標籤帶有系統性偏差,使AI模型學習到不公平的關聯。
局部可解釋模型無關解釋(Local Interpretable Model-Agnostic Explanations, LIME)是一種模型可解釋性技術,透過在單一預測結果附近擾動輸入資料並訓練簡單
LLaMA(Large Language Model Meta AI)是 Meta 開發的開放權重(open-weight)大型語言模型系列,可免費下載、修改、自行部署,採 Meta 自訂 community license 授權,非 OSI 認證開源。
LIME 針對單筆預測,以局部線性模型近似複雜黑箱模型的行為,提供與模型無關的可解釋性
邏輯式人工智慧利用形式邏輯表示知識並進行推論,旨在模擬人類的符號推理過程,解決複雜問題,強調可解釋性。
醫療影像分析利用AI技術,自動或半自動地分析醫學影像,輔助醫生進行疾病診斷、病情監測和治療規劃,提高診斷效率和準確性。
成員推論是一種隱私攻擊技術,旨在判斷特定資料樣本是否曾被用於訓練特定的機器學習模型。
成員推斷攻擊旨在判斷特定資料點是否曾被用於訓練機器學習模型。攻擊者利用模型輸出來推斷訓練資料的成員關係,可能洩漏隱私資訊。
記憶率衡量AI模型對訓練資料中特定樣本的過度記憶程度,可能導致隱私洩露或泛化能力差。
概述AI模型性能、限制、預期用途、評估指標與潛在風險的文件。
模型反演攻擊是一種試圖從機器學習模型中恢復訓練數據或敏感資訊的攻擊方式,藉此洩漏隱私。
模型竊取是一種針對機器學習模型的網路安全攻擊手法。攻擊者透過大量且有系統地向目標模型的應用程式介面發送查詢,並記錄其回傳的預測結果,藉此訓練出一個功能與原始目標高度相似的替代模型。
安全多方計算(Multi-Party Computation,MPC)是一種密碼學協議,允許多方在不揭露各自私有輸入資料的前提下,共同計算某個函數的結果,廣泛應用於聯邦學習、隱私保護 AI 推論等場景
負責任AI是一種全面性的框架,旨在確保人工智慧系統的開發、部署與使用過程,能嚴格遵守倫理原則、社會價值觀和法律規範,以促進公平、透明且可信賴的AI發展。
一種在強化學習系統中出現的現象,指智能體發現並利用獎勵函數的漏洞或意外行為來獲得高分,而不是實現設計者的實際目標。這種遺漏通常源於獎勵函數與真實目標之間的不完全對齐。
獎勵建模是訓練AI模型以預測人類對不同結果的偏好,用於強化學習中,引導模型學習符合人類價值的行為。
人類回饋強化學習(RLHF)是一種利用人類回饋訊號,訓練強化學習模型,使其行為更符合人類偏好的方法。
機器人學是設計、建造、操作和應用機器人的科學和工程學科,涉及機械工程、電子工程、電腦科學等多個領域。
穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時,仍能維持其性能表現的能力。
規則提取是從機器學習模型中提取人類可理解的規則的過程,旨在提高模型的可解釋性和可信度。
一種廣泛使用的密碼學雜湊函數,將任意長度資料轉換為固定256位元雜湊值。
基於Shapley值的機器學習模型解釋方法,公平分配每個特徵對預測結果的貢獻。
SHAP 是一種基於賽局理論 Shapley 值的模型解釋方法,用於量化各特徵對模型預測的貢獻程度
利害關係人參與是指在人工智慧開發過程中,主動納入受影響群體的意見,以確保系統符合社會價值。
超級對齊旨在確保遠超人類智慧的AI系統,其目標與人類價值觀對齊,避免潛在的失控風險。
合成數據是指通過程式或演算法生成的人工數據,而非從真實世界收集的數據。它常用於訓練AI模型,特別是在真實數據稀缺或涉及隱私問題時。
合成資料生成是指透過程式或模型創建人工資料,用於訓練機器學習模型,尤其是在真實資料稀缺或難以獲取的情況下。