資料處理 相關 AI 術語

確保資料庫交易可靠執行的四個基本屬性：原子性、一致性、隔離性與持久性，是資料處理的重要基礎。

資料處理AI基礎MLOps

ACID原則是什麼？→

ACID ACID (Atomicity, Consistency, Isolation, Durability)

ACID 是指資料庫交易必須具備原子性、一致性、隔離性與持久性四大特性，以確保資料處理的正確性、可靠性與完整性。

資料處理AI基礎

ACID 是什麼？→

主動學習 Active Learning

一種機器學習策略，由演算法主動選擇最具訊息價值的未標籤樣本進行標籤，以最小化標籤成本並最大化模型性能

機器學習資料處理最佳化

主動學習是什麼？→

人工智慧倫理 AI Ethics

人工智慧倫理旨在探討並解決AI系統開發、部署和使用過程中涉及的道德、法律和社會問題，確保AI的發展符合人類價值觀。

AI倫理與治理機器學習模型評估

人工智慧倫理是什麼？→

AI治理 AI Governance

AI治理是指建立一套框架和流程，以確保AI系統的開發和使用符合倫理、法律和社會價值觀。

AI倫理與治理AI應用AI基礎

AI治理是什麼？→

人工智慧監管 AI Regulation

人工智慧監管是指政府或相關機構制定和實施的，旨在規範人工智慧技術開發、部署和使用的法律、政策和指導方針，以確保其安全、公平和符合倫理。

AI倫理與治理AI應用資料處理

人工智慧監管是什麼？→

人工智慧風險評估 AI Risk Assessment

人工智慧風險評估是一種識別、分析和評估人工智慧系統可能造成的潛在風險的過程，旨在了解風險的性質、可能性和影響，並制定相應的應對措施。

AI倫理與治理風險評估模型評估

人工智慧風險評估是什麼？→

演算法 Algorithm

演算法是一組定義明確的指令，用於解決特定問題或執行特定任務。它接收輸入，經過一系列步驟處理，並產生輸出。

AI基礎最佳化資料處理

演算法是什麼？→

異常偵測 Anomaly Detection

異常偵測是指識別數據集中與預期模式顯著不同的數據點，這些異常點可能指示錯誤、欺詐或其他不尋常的事件。

機器學習異常偵測AI應用

異常偵測是什麼？→

變異數分析 ANOVA

變異數分析 (ANOVA) 是一種統計方法，用於比較兩個或多個群體的平均數是否存在顯著差異。它將總變異分解為不同來源的變異。

統計方法模型評估資料處理

變異數分析是什麼？→

反洗錢人工智慧 Anti-Money Laundering AI

反洗錢人工智慧（AML AI）利用AI技術自動偵測金融交易中的可疑活動，協助金融機構遵守法規，打擊洗錢犯罪。

金融AI異常偵測機器學習

反洗錢人工智慧是什麼？→

差分整合移動平均 ARIMA

ARIMA是一種廣泛使用的時間序列預測模型，結合了自迴歸、差分和移動平均三個部分，用於分析和預測時間序列資料。

時序分析統計方法模型評估

差分整合移動平均是什麼？→

自編碼器 Autoencoder

自編碼器是一種神經網路，旨在學習輸入數據的壓縮表示（編碼），然後從該壓縮表示重建原始數據（解碼）。

深度學習資料處理特徵工程

自編碼器是什麼？→

自動特徵工程 Automated Feature Engineering

自動特徵工程利用演算法自動從原始資料中提取、選擇和轉換特徵，以提升機器學習模型的效能。

自動特徵工程是什麼？→

B

9 個術語

詞袋模型 Bag of Words

詞袋模型是一種簡化文本表示的方法，忽略詞語的順序和語法結構，僅統計每個詞語在文本中出現的次數，形成詞頻向量。

自然語言處理機器學習資料處理

詞袋模型是什麼？→

批次推論 Batch Inference

批次推論是指將大量資料一次性輸入模型進行預測，適用於對延遲不敏感的場景，例如定期報表生成或離線資料分析。

機器學習模型部署資料處理

批次推論是什麼？→

批次處理 Batch Processing

將大量資料或任務累積後一次性集中執行的計算模式，與即時處理相對。

機器學習模型訓練推論優化

批次處理是什麼？→

基準測試 Benchmark

基準測試是用於評估和比較不同AI模型、演算法或系統性能的標準化方法，提供客觀的性能指標。

機器學習模型評估AI基礎

基準測試是什麼？→

AI偏見 Bias in AI

AI偏見是指AI系統在訓練或決策過程中，由於資料、演算法或人為因素，產生不公平或歧視性的結果。

AI倫理與治理模型評估資料處理

AI偏見是什麼？→

大數據 Big Data

大數據指規模龐大、速度快速且多樣化的資料集合，傳統資料處理工具難以有效處理，需要專門的技術與架構來儲存、分析與應用

大數據資料處理iPAS初級高頻

大數據是什麼？→

二進位編碼 Binary Encoding

將類別特徵映射為整數，再將這些整數轉換為其二進位表示的特徵工程方法。

二進位編碼是什麼？→

BM25算法 BM25

BM25 (Best Matching 25) 是一種用於資訊檢索的排序函數，它基於詞頻和逆文檔頻率，並考慮了文檔長度的影響，以提高檢索的準確性。

自然語言處理推薦系統資料處理

BM25算法是什麼？→

位元組對編碼 Byte Pair Encoding

位元組對編碼（BPE）是一種資料壓縮技術，也常用於自然語言處理中，作為一種詞彙標記化方法，將單詞分解成更小的子詞單元。

自然語言處理資料處理模型訓練

位元組對編碼是什麼？→

C

19 個術語

類別特徵 Categorical Features

機器學習中取值為有限離散類別的特徵，如性別（男/女）、顏色（紅/綠/藍）、地區等，需要特殊編碼才能用於模型訓練

特徵工程機器學習資料處理

類別特徵是什麼？→

因果推論 Causal Inference

因果推論是從觀察數據中推斷因果關係的方法，旨在確定一個變數的變化是否直接導致另一個變數的變化。

統計方法機器學習AI基礎

因果推論是什麼？→

中央極限定理 Central Limit Theorem

中央極限定理指出，大量獨立隨機變數的總和（或平均值）趨近於常態分佈，與原始變數的分佈無關。是統計推論的基石。

數學基礎統計方法AI基礎

中央極限定理是什麼？→

變遷偵測 Change Detection

比較不同時間點的影像，識別地表或物件狀態的變化，廣泛應用於監測。

電腦視覺資料處理AI應用

變遷偵測是什麼？→

卡方檢定 Chi-squared Test

卡方檢定是一種統計方法，用於檢驗兩個或多個類別變數之間是否存在顯著關聯性。它比較觀察值與期望值之間的差異。

統計方法模型評估資料處理

卡方檢定是什麼？→

分塊處理 Chunking

分塊處理是指將大型資料集或文本分割成更小、更易於管理的部分，以便於模型處理和分析，提升效率。

自然語言處理資料處理大型語言模型

分塊處理是什麼？→

類別不平衡 Class Imbalance

訓練資料中各類別樣本數量差異懸殊，導致模型偏向多數類的問題。

資料處理不平衡學習SMOTE

類別不平衡是什麼？→

類別權重 Class Weight

類別權重是一種機器學習技術，透過賦予少數類別較高權重來解決資料不平衡問題，提升模型對稀有事件的預測能力。

類別權重是什麼？→

點擊率預測 Click-through Rate Prediction

點擊率預測旨在預估使用者點擊特定廣告或連結的可能性，是數位廣告和推薦系統的核心技術。

機器學習深度學習推薦系統

點擊率預測是什麼？→

冷啟動問題 Cold Start Problem

冷啟動問題是指在推薦系統中，對於新使用者或新物品，由於缺乏足夠的互動資料，導致無法準確推薦的問題。常見解決方案包括利用元資料、內容過濾或混合推薦。

推薦系統資料處理模型訓練

冷啟動問題是什麼？→

協同過濾 Collaborative Filtering

協同過濾是一種推薦系統技術，透過分析使用者行為或偏好，預測使用者可能感興趣的項目，例如商品、電影或音樂。

推薦系統機器學習資料處理

協同過濾是什麼？→

計算生物學 Computational Biology

計算生物學結合電腦科學、統計學與生物學，利用演算法分析生物數據，以理解複雜的生物系統與過程。

AI應用資料處理統計方法

計算生物學是什麼？→

內容過濾推薦 Content-based Filtering

內容過濾推薦是一種推薦系統方法，它基於用戶過去互動過的項目內容特徵，向用戶推薦相似的項目。它分析項目描述，並匹配用戶偏好。

推薦系統自然語言處理特徵工程

內容過濾推薦是什麼？→

凸優化 Convex Optimization

凸優化是一種數學優化方法，旨在尋找凸函數在凸集合上的最小值。其優點是局部最小值即為全局最小值，易於求解。

最佳化機器學習數學基礎

凸優化是什麼？→

語料庫 Corpus

語料庫是大量結構化的文本集合，用於語言研究和自然語言處理，提供真實語言使用的範例，用於訓練和評估模型。

自然語言處理資料處理AI基礎

語料庫是什麼？→

共變異數 Covariance

共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少，負值表示一個增加時另一個趨於減少，零值表示沒有線性關係。

統計方法資料處理機器學習

共變異數是什麼？→

創用CC Creative Commons

創用CC提供彈性版權許可，讓創作者分享作品，同時保留部分權利，促進知識共享與再利用。

AI倫理與治理資料處理生成式AI

創用CC 是什麼？→

信用評分 Credit Scoring

信用評分是利用統計模型評估個人或企業的信用風險，預測其未來償還債務的能力，是金融機構決策的重要依據。

金融AIAI應用模型評估

信用評分是什麼？→

D

33 個術語

資料與數據 Data

資料是機器學習模型的學習基礎，包含結構化與非結構化形式，驅動 AI 系統發展。

資料處理特徵工程自監督學習

資料與數據是什麼？→

資料標註 Data Annotation

資料標註是為資料集添加標籤或註解的過程，使機器學習模型能夠理解和學習這些資料，是模型訓練的基礎。

資料標註是什麼？→

資料擴增術 Data Augmentation

資料擴增術是一種增加訓練資料多樣性的技術，透過對現有資料進行微小的修改，創造出新的、但仍然代表相同類別的資料點，以提升模型泛化能力。

機器學習深度學習電腦視覺

資料擴增術是什麼？→

資料卡 Data Card

描述資料集來源、組成、預期用途、限制與潛在偏誤的文件。

資料處理AI倫理與治理模型訓練

資料卡是什麼？→

資料漂移 Data Drift

資料漂移是指模型上線後，輸入資料的分布與訓練資料不同，進而造成模型預測效能降低的現象

資料處理異常偵測模型部署

資料漂移是什麼？→

資料不平衡 Data Imbalance

資料不平衡指訓練資料中各類別樣本數量差異懸殊，導致模型傾向預測多數類別，常用 SMOTE 過採樣或欠採樣等技術來處理

資料處理SMOTE模型評估高頻

資料不平衡是什麼？→

資料填補 Data Imputation

資料填補是處理遺失值的方法，透過統計方法估算並替換遺失值，以維持資料完整性，避免分析偏差。

資料處理統計方法機器學習

資料填補是什麼？→

資料標註 Data Labeling

資料標註是指為原始資料添加標籤的過程，這些標籤提供關於資料的額外資訊，用於訓練監督式機器學習模型。

機器學習深度學習電腦視覺

資料標註是什麼？→

資料湖 Data Lake

資料湖是一種大型集中式儲存庫，能以原始格式存放結構化、半結構化和非結構化的各式資料，提供高度彈性與可擴展性。

資料處理AI基礎

資料湖是什麼？→

資料洩漏 Data Leakage

資料洩漏（Data Leakage）是指模型訓練過程中，未來或測試集的資訊意外滲入訓練集，導致模型在評估時表現虛高，但部署後實際效能大幅下滑的現象。

模型評估資料處理特徵工程

資料洩漏是什麼？→

資料血緣追蹤 Data Lineage

資料血緣追蹤記錄資料從來源到目的地的流動和轉換，提供資料的完整歷史和上下文，確保資料品質和可追溯性。

資料處理MLOpsAI基礎

資料血緣追蹤是什麼？→

資料並行 Data Parallelism

資料並行是一種分散式訓練方法，將資料分割成多份，分配給多個節點，每個節點使用相同模型副本訓練不同資料子集。

機器學習深度學習模型訓練

資料並行是什麼？→

資料管線 Data Pipeline

資料管線是一系列資料處理步驟，將原始資料轉換為可供分析或模型使用的格式，包含擷取、轉換、載入等階段。

資料處理MLOps模型部署

資料管線是什麼？→

資料投毒攻擊 Data Poisoning

資料投毒攻擊是一種惡意攻擊，攻擊者將惡意或錯誤的資料注入到訓練資料集中，以影響機器學習模型的性能或行為。攻擊目標是使模型產生錯誤的預測或執行其他有害操作。

機器學習資訊安全模型訓練

資料投毒攻擊是什麼？→

資料前處理 Data Preprocessing

資料前處理是指在將原始資料用於機器學習模型之前，對其進行清理、轉換和整合的過程，以提高模型效能和準確性。

資料前處理是什麼？→

資料品質監控 Data Quality Monitoring

資料品質監控是指持續追蹤和評估資料的準確性、完整性、一致性、時效性和有效性，以確保資料符合預期標準。

資料處理AI基礎MLOps

資料品質監控是什麼？→

資料分片 Data Sharding

將大規模資料集水平切割為多個獨立區塊，以提升平行處理效率與降低記憶體負荷。

資料處理模型訓練MLOps

資料分片是什麼？→

資料驗證 Data Validation

資料驗證是確保機器學習模型訓練與推論資料之準確性、完整性與格式正確性的自動化檢查過程，能有效防止異常數據污染系統。

資料處理特徵工程MLOps

資料驗證是什麼？→

資料版本控制工具 Data Version Control

資料版本控制是一種管理機器學習專案中資料集與模型異動的技術，確保實驗的可重複性與團隊協作效率。

MLOps模型訓練資料處理

資料版本控制工具是什麼？→

資料版本控制 Data Versioning

資料版本控制追蹤資料集在不同時間點的狀態，確保可重複性、可追溯性，並允許回復到先前的資料版本。

機器學習資料處理MLOps

資料版本控制是什麼？→

資料倉儲 Data Warehouse

資料倉儲是針對查詢與分析優化的結構化資料儲存系統，整合多來源資料以支援商業智慧決策

資料處理AI基礎中頻

資料倉儲是什麼？→

密度型空間分群演算法 DBSCAN

密度型空間分群演算法（Density-Based Spatial Clustering of Applications with Noise, DBSCAN）是一種基於資料點鄰域密度進行分群的演算法，

機器學習統計方法資料處理

密度型空間分群演算法是什麼？→

依存句法分析 Dependency Parsing

依存句法分析是自然語言處理中，分析句子中詞彙之間的依存關係，建立句子的語法結構，揭示詞彙間的修飾、支配等關係。

自然語言處理AI基礎機器學習

依存句法分析是什麼？→

裝置漂移 Device Drift

指感測器或裝置隨時間產生資料分佈變化的現象，影響模型效能。

機器學習模型部署資料處理

裝置漂移是什麼？→

差分隱私 Differential Privacy

差分隱私是一種資料匿名化技術，透過在統計查詢結果中注入隨機噪音，在公開資料的同時保護個別資料點的隱私。

AI倫理與治理資料處理

差分隱私是什麼？→

數位指紋 Digital Fingerprint

透過收集設備或用戶的多種可識別資訊，建立獨特且穩定的識別碼。

AI應用資料處理AI倫理與治理

數位指紋是什麼？→

數位分身 Digital Twin

數位分身是真實世界實體或系統的虛擬化身，通過收集數據進行模擬、監控和預測，以優化性能、預防故障和做出更明智的決策。

AI應用資料處理模型訓練

數位分身是什麼？→

降維處理 Dimensionality Reduction

降維處理旨在減少資料集的特徵數量，同時保留重要資訊，以簡化模型、加速運算並避免維度災難。

降維處理是什麼？→

直接侵權 Direct Infringement

直接侵權指未經授權而直接複製、散布或使用受版權保護作品的行為，在AI領域涉及模型訓練與輸出。

AI倫理與治理資料處理生成式AI

直接侵權是什麼？→

分散式感測 Distributed Sensing

透過部署在廣大空間中的多個智慧感測器節點協同合作，收集並分析環境與系統狀態的分散式資料處理技術。

資料處理AI應用時序分析

分散式感測是什麼？→

分散式訓練 Distributed Training

分散式訓練利用多個計算節點，將模型訓練任務分割並行處理，加速大型模型訓練，提升效率。

機器學習深度學習模型訓練

分散式訓練是什麼？→

DNA序列分析 DNA Sequence Analysis

DNA序列分析是計算生物學領域的關鍵技術，旨在解讀、比較和理解生物體的遺傳信息，對於疾病診斷、藥物開發和演化研究至關重要。

資料處理統計方法AI應用

DNA序列分析是什麼？→

AI藥物發現 Drug Discovery AI

AI藥物發現利用人工智慧加速藥物研發流程，從靶點識別、候選藥物篩選、臨床試驗設計到藥物重定位，降低成本並縮短開發週期。

醫療AI機器學習深度學習

AI藥物發現是什麼？→

E

12 個術語

邊緣運算AI Edge Computing AI

邊緣運算AI是在終端裝置直接執行人工智慧模型的技術，具備低延遲、省頻寬與強化隱私保護等核心優勢。

AI應用模型部署最佳化

邊緣運算AI 是什麼？→

特徵值 Eigenvalue

特徵值是線性變換作用於向量後，該向量長度縮放的比例。它描述了變換對特定方向向量的影響程度。

數學基礎機器學習資料處理

特徵值是什麼？→

特徵向量 Eigenvector

特徵向量是指在線性變換下，方向保持不變或僅反向的非零向量。它對應於特定的特徵值，代表變換的主要作用方向。

數學基礎機器學習電腦視覺

特徵向量是什麼？→

電子病歷人工智慧 Electronic Health Records AI

電子病歷人工智慧 (EHR AI) 指的是利用人工智慧技術分析電子病歷 (EHR) 數據，以改善醫療照護、研究和管理的應用。

醫療AIAI應用機器學習

電子病歷人工智慧是什麼？→

實體鏈接 Entity Linking

實體鏈接是將文本中的實體提及項，連結到知識庫中對應實體的過程，以消除歧義並豐富文本的語義資訊。

自然語言處理知識圖譜AI應用

實體鏈接是什麼？→

實體解析 Entity Resolution

實體解析是一種資料處理技術，旨在識別並連結來自不同資料來源中指涉相同真實世界實體的記錄，以建立統一且一致的實體視圖。

知識圖譜資料處理機器學習

實體解析是什麼？→

熵 Entropy

熵是資訊理論中衡量隨機變數不確定性的指標，數值越高代表不確定性越大。在機器學習中，熵常用於特徵選擇和決策樹構建。

AI基礎數學基礎統計方法

熵是什麼？→

期望最大化算法 Expectation Maximization

期望最大化 (EM) 算法是一種迭代算法，用於在存在隱變量的情況下，估計機率模型的參數。它交替執行期望 (E) 步驟和最大化 (M) 步驟。

統計方法機器學習模型訓練

期望最大化算法是什麼？→

探索性資料分析 Exploratory Data Analysis

在機器學習建模前，透過視覺化與統計方法理解資料特徵、發現模式並檢驗假設的關鍵資料處理步驟。

資料處理特徵工程統計方法

探索性資料分析是什麼？→

指數平滑法 Exponential Smoothing

指數平滑法是一系列時序預測方法，使用加權平均數，其中權重隨著時間的推移呈指數衰減，更重視近期觀測值。

時序分析統計方法資料處理

指數平滑法是什麼？→

萃取、轉換、載入 Extract, Transform, Load

萃取、轉換、載入（ETL）是資料工程的核心流程，指從多個來源提取數據，經過清洗與格式轉換，最終載入至目標資料倉儲的過程

資料處理

萃取、轉換、載入是什麼？→

提取式摘要技術 Extractive Summarization

提取式摘要技術從原文中選擇重要句子組成摘要，簡單直接，易於實現，但可能缺乏連貫性，且無法進行語義概括。

自然語言處理機器學習資料處理

提取式摘要技術是什麼？→

F

9 個術語

人工智慧公平性 Fairness in AI

人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視，追求結果的公正與平等。

AI倫理與治理機器學習模型評估

人工智慧公平性是什麼？→

特徵漂移 Feature Drift

機器學習中，輸入資料的特徵分佈隨時間變化的現象，可能導致模型性能下降。

模型訓練資料處理模型評估

特徵漂移是什麼？→

特徵工程 Feature Engineering

特徵工程透過創建、轉換與選擇原始資料的代表性特徵，顯著提升機器學習模型的預測效果

特徵工程資料處理模型訓練高頻

特徵工程是什麼？→

特徵縮放 Feature Scaling

特徵縮放是一種資料前處理技術，用於將不同範圍的特徵值縮放到一個統一的範圍內，避免某些特徵主導模型訓練。

特徵縮放是什麼？→

特徵選擇法 Feature Selection

特徵選擇是機器學習中選擇最相關特徵子集的過程，旨在簡化模型、提高準確性、減少過擬合和提升模型的可解釋性。

特徵選擇法是什麼？→

特徵儲存庫 Feature Store

特徵儲存庫是一個集中管理和共享機器學習特徵的平台，確保特徵一致性、可重用性，並簡化特徵工程流程。

機器學習特徵工程資料處理

特徵儲存庫是什麼？→

詐欺偵測 Fraud Detection

AI 詐欺偵測（Fraud Detection）透過機器學習即時分析交易行為，識別異常模式，廣泛應用於銀行信用卡詐欺防範、網路詐騙偵測與保險理賠審核。

異常偵測機器學習AI應用

詐欺偵測是什麼？→

頻率計數 Frequency Count

頻率計數是計算特定事件、特徵或字詞在數據集中出現次數的統計方法，為資料分析與機器學習提供基礎特徵。

機器學習自然語言處理特徵工程

頻率計數是什麼？→

頻率編碼 Frequency Encoding

將類別特徵轉換為其在資料集中出現的頻率或計數，以捕捉資訊並降低維度。

頻率編碼是什麼？→

G

5 個術語

高斯雜訊 Gaussian Noise

高斯雜訊是一種機率密度符合常態分佈的隨機干擾訊號，數值多集中於平均值，常應用於資料擴增與生成模型中。

資料處理電腦視覺生成式AI

高斯雜訊是什麼？→

歐盟通用資料保護規範 General Data Protection Regulation

歐盟通用資料保護規範是保障歐盟公民個人資料控制權的法規，對違規企業處以高額罰款，影響全球企業。

AI倫理與治理資料處理AI應用

歐盟通用資料保護規範是什麼？→

泛化能力 Generalization

泛化能力是指機器學習模型在未見過的數據上表現良好的能力。一個具有良好泛化能力的模型能夠從訓練數據中學習到普遍規律，並應用於新數據。

泛化能力是什麼？→

圖池化 Graph Pooling

圖池化是一種減少圖形結構資料維度與節點數量的技術，用以提取全域特徵，降低計算成本，在圖神經網路中扮演關鍵的降維角色。

神經網路深度學習知識圖譜

圖池化是什麼？→

真實邊界框 Ground Truth Box

真實邊界框是電腦視覺模型訓練與評估中，由人工標註的正確物件位置範圍，作為衡量預測結果的基準標準。

電腦視覺資料處理模型訓練

真實邊界框是什麼？→

H

6 個術語

階層式密度分群演算法 Hierarchical DBSCAN

階層式密度分群演算法（Hierarchical DBSCAN, HDBSCAN）是 DBSCAN 的進化版本，透過建立多密度尺度的階層式叢集樹，能自動適應密度不均勻的資料，無需設定全局鄰域半徑 ε，並

機器學習統計方法資料處理

階層式密度分群演算法是什麼？→

高維度與高階特徵 High

指特徵空間中的極高維度狀態，或深度學習模型萃取出具備高度抽象、全局觀念與豐富語意的高階向量表示。

機器學習特徵工程資料處理

高維度與高階特徵是什麼？→

高基數特徵 High Cardinality

高基數特徵（High Cardinality）指某個類別型特徵包含大量不同取值的情況，例如用戶 ID、商品 SKU、地理位置等可能有數萬至數百萬種取值，直接進行 One-Hot 編碼會導致維度爆炸，需

特徵工程機器學習資料處理

高基數特徵是什麼？→

人機迴路 Human-in-the-Loop

人機迴路 (HITL) 是一種 AI 方法，其中人類參與模型訓練和決策過程，以提高準確性、可靠性和倫理考量。

AI倫理與治理模型訓練模型評估

人機迴路是什麼？→

混合搜尋 Hybrid Search

混合搜尋結合了多種搜尋技術，例如關鍵字搜尋和語義搜尋，以提高搜尋結果的相關性和準確性，提供更全面的資訊。

自然語言處理推薦系統AI應用

混合搜尋是什麼？→

高光譜影像分析 Hyperspectral Image Analysis

分析包含數百個窄頻譜波段的影像，以識別材料成分與特性。

電腦視覺資料處理AI應用

高光譜影像分析是什麼？→

I

9 個術語

數位影像處理 Image

AI 模型對數位圖片進行處理、分析或生成的基礎技術，涵蓋像素級的特徵萃取、語意解析與跨模態影像合成。

電腦視覺生成式AI資料處理

數位影像處理是什麼？→

圖像分類 Image Classification

圖像分類是電腦視覺中的一項任務，旨在將圖像分配到預定義的類別中。模型學習圖像特徵，並基於這些特徵預測圖像所屬的類別。

電腦視覺深度學習模型訓練

圖像分類是什麼？→

圖像識別 Image Recognition

圖像識別是電腦視覺領域的一項任務，旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛，可能涉及定位和標記圖像中的多個對象。

電腦視覺深度學習模型訓練

圖像識別是什麼？→

資訊理論 Information Theory

資訊理論研究資訊的量化、儲存與傳輸，核心概念包含熵、互資訊、通道容量等，為資料壓縮、通訊編碼等領域奠定基礎。

AI基礎數學基礎統計方法

資訊理論是什麼？→

標註者一致性 Inter-annotator Agreement

標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好，反之則可能需要重新評估標註規範。

機器學習資料處理模型訓練

標註者一致性是什麼？→

逆向文件頻率 Inverse Document Frequency

逆向文件頻率（IDF）是一種評估詞彙重要性的統計指標，用於降低常見詞彙權重並突顯罕見關鍵字。

自然語言處理特徵工程資料處理

逆向文件頻率是什麼？→

物聯網 IoT

物聯網是將實體裝置透過網際網路相互連接，使其能收集並傳輸資料的技術架構，為智慧化應用提供資料基礎。

AI應用資料處理時序分析

物聯網是什麼？→

四分位距 IQR

四分位距（Interquartile Range, IQR）是第三四分位數（Q3）與第一四分位數（Q1）的差值，代表資料中間 50% 的分布範圍，常用於穩健的異常值偵測，不受極端值影響。

統計方法資料處理特徵工程

四分位距是什麼？→

迭代反向翻譯 Iterative Back-Translation

迭代反向翻譯是一種自然語言處理技術，透過將目標語言翻譯回來源語言生成合成平行語料，並反覆交替訓練正反向模型以提升翻譯品質。

自然語言處理自監督學習模型訓練

迭代反向翻譯是什麼？→

K

3 個術語

金鑰輪換 Key Rotation

定期更換加密金鑰的資安實踐，以降低金鑰洩露風險並限制潛在損害。

AI倫理與治理AI應用資料處理

金鑰輪換是什麼？→

知識庫 Knowledge Base

知識庫是儲存結構化和非結構化知識的中央儲存庫，用於支援決策、自動化任務和提供資訊。

AI基礎知識圖譜自然語言處理

知識庫是什麼？→

知識融合 Knowledge Fusion

知識融合是將來自多個異構來源的知識整合為統一、連貫表示的過程，旨在提升AI系統的理解與推理能力。

知識圖譜資料處理AI應用

知識融合是什麼？→

L

7 個術語

標籤偏誤 Label Bias

標籤偏誤是指訓練資料的標註結果反映了人類主觀判斷或社會既有成見，導致資料標籤帶有系統性偏差，使AI模型學習到不公平的關聯。

AI倫理與治理資料處理模型訓練

標籤偏誤是什麼？→

標籤編碼 Label Encoding

標籤編碼是將類別型資料轉換為整數，以便機器學習模型處理，但需注意可能產生不必要的順序關係

資料處理特徵工程機器學習

標籤編碼是什麼？→

標籤雜訊 Label Noise

標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能，導致模型學習到錯誤的模式。

標籤雜訊是什麼？→

詞形還原 Lemmatization

詞形還原是自然語言處理中將單詞還原為其基本形式（詞元）的過程，考慮了單詞的語法和上下文。

自然語言處理資料處理AI基礎

詞形還原是什麼？→

光達資料處理 LiDAR Processing

光達資料處理是指對雷射雷達感測器採集的三維點雲資料進行清理、分析與解釋的過程，旨在從中提取有意義的空間資訊，廣泛應用於自動駕駛、測繪與環境監測等領域。

電腦視覺資料處理深度學習

光達資料處理是什麼？→

羊駝索引 LlamaIndex

LlamaIndex是一個資料框架，用於連接大型語言模型（LLMs）與您的私有或特定領域的資料，簡化建立基於LLM的應用程式。

大型語言模型資料處理自然語言處理

羊駝索引是什麼？→

邏輯程式設計 Logic Programming

邏輯程式設計是一種基於形式邏輯的程式典範，透過宣告事實與規則來推導結論，而非明確指令執行步驟。

AI基礎知識圖譜資料處理

邏輯程式設計是什麼？→

M

12 個術語

影像製圖 Map Generation from Imagery

從衛星、航空或無人機影像中提取地理資訊，自動或半自動生成地圖。

電腦視覺深度學習AI應用

影像製圖是什麼？→

矩陣分解 Matrix Factorization

矩陣分解是一種將矩陣分解為兩個或多個矩陣乘積的技術，常應用於推薦系統，以預測用戶對未評分項目的偏好。

機器學習推薦系統資料處理

矩陣分解是什麼？→

矩陣分解推薦 Matrix Factorization for Recommendations

矩陣分解推薦是一種推薦系統技術，它將用戶-項目互動矩陣分解為兩個低維矩陣，分別代表用戶和項目的隱含特徵，用於預測用戶對未互動項目的偏好。

推薦系統機器學習模型訓練

矩陣分解推薦是什麼？→

平均絕對誤差 Mean Absolute Error

平均絕對誤差（MAE）是衡量預測值與實際值之間平均絕對差異的指標，數值越小代表模型預測越準確。

機器學習模型評估統計方法

平均絕對誤差是什麼？→

醫療影像分析 Medical Image Analysis

醫療影像分析利用AI技術，自動或半自動地分析醫學影像，輔助醫生進行疾病診斷、病情監測和治療規劃，提高診斷效率和準確性。

醫療AI深度學習電腦視覺

醫療影像分析是什麼？→

梅爾頻譜圖 Mel Spectrogram

梅爾頻譜圖是一種音訊訊號的視覺表示，它將音訊的頻率轉換到梅爾尺度上，更符合人類聽覺感知，常用於語音辨識和音訊分析。

語音辨識特徵工程資料處理

梅爾頻譜圖是什麼？→

混合正則化 Mixing Regularization

混合正則化是一種透過組合兩個或多個訓練樣本及其標籤來生成新訓練數據的技術，藉此擴增資料集多樣性，有效減輕神經網路模型的過擬合現象並提升泛化能力。

深度學習模型訓練資料處理

混合正則化是什麼？→

機器學習管線 ML Pipeline

機器學習管線是自動化機器學習工作流程的步驟序列，包括資料準備、模型訓練、評估和部署。

機器學習模型訓練模型部署

機器學習管線是什麼？→

機器學習維運 MLOps

MLOps 是一種將機器學習模型開發與部署流程標準化的方法，旨在加速模型迭代、提高可靠性並簡化維護。

機器學習模型部署資料處理

機器學習維運是什麼？→

模型反演攻擊 Model Inversion Attack

模型反演攻擊是一種試圖從機器學習模型中恢復訓練數據或敏感資訊的攻擊方式，藉此洩漏隱私。

機器學習深度學習模型訓練

模型反演攻擊是什麼？→

模型版本控制 Model Versioning

模型版本控制是追蹤和管理機器學習模型不同迭代的過程，確保可重複性、可追溯性和協作。

機器學習模型訓練模型部署

模型版本控制是什麼？→

互信息 Mutual Information

互信息衡量兩個隨機變數之間相互包含的信息量，數值越大代表相關性越高，常用於特徵選擇、圖像配準等任務。

機器學習特徵工程模型評估

互信息是什麼？→

N

6 個術語

N元語法 N-gram

N元語法是一種自然語言處理技術，用於預測序列中下一個詞的概率，基於前N-1個詞的出現頻率。

自然語言處理統計方法AI基礎

N元語法是什麼？→

自然語言生成 Natural Language Generation

自然語言生成（NLG）是將結構化資料轉換為人類可理解的自然語言文本的AI技術，廣泛應用於報告生成、聊天機器人等。

自然語言處理生成式AIAI應用

自然語言生成是什麼？→

巢狀欄位 Nested Field

巢狀欄位是一種資料結構，指一個欄位內部包含其他子欄位，形成階層關係，常用於表示複雜或半結構化資料，提升資料組織與查詢效率。

資料處理AI基礎推薦系統

巢狀欄位是什麼？→

常態分佈 Normal Distribution

常態分佈是一種連續機率分佈，其機率密度函數呈鐘形曲線，平均數、中位數和眾數相等，數據集中在平均值附近。

統計方法機器學習資料處理

常態分佈是什麼？→

正規化 Normalization

正規化是一種資料前處理技術，將資料縮放到一個單位範數，例如L1或L2範數，使每個樣本的向量長度為1。

正規化是什麼？→

新穎性偵測 Novelty Detection

新穎性偵測是一種機器學習技術，旨在識別訓練資料中從未出現過的全新模式或資料點，通常用於確保系統在面對未知情況時的穩定性。

機器學習異常偵測資料處理

新穎性偵測是什麼？→

O

6 個術語

光學字元辨識 OCR

光學字元辨識（OCR）是一種技術，能將圖像中的文字轉換為機器可讀的文字格式，例如將掃描文件轉換為可編輯的文字。

機器學習深度學習電腦視覺

光學字元辨識是什麼？→

獨熱編碼 One-hot Encoding

獨熱編碼是一種將類別資料轉換為二元向量的方法，為每個類別建立獨立欄位，存在時標記為 1，其餘為 0

資料處理特徵工程

獨熱編碼是什麼？→

線上學習 Online Learning

線上學習是一種機器學習方法，模型在接收到每個新資料點後立即更新，無需儲存所有資料或進行批次訓練，適用於資料流場景。

機器學習模型訓練模型部署

線上學習是什麼？→

本體論 Ontology

本體論是明確指定領域概念及其關係的正式表示，用於知識共享和推理，是知識圖譜的基礎。

知識圖譜AI基礎資料處理

本體論是什麼？→

流程協調 Orchestration

流程協調是指自動化安排、協調和管理複雜的計算機系統、應用程式和服務的過程，以實現特定目標。

AI基礎MLOps資料處理

流程協調是什麼？→

序數特徵 Ordinal Feature

一種具有明確順序或等級關係，但數值間距不一定均等的類別型資料。

特徵工程資料處理機器學習

序數特徵是什麼？→

P

11 個術語

全色銳化 Pansharpening

全色銳化是將高解析度全色影像與低解析度多光譜影像融合，生成高空間解析度且色彩豐富的多光譜影像。

電腦視覺深度學習資料處理

全色銳化是什麼？→

詞性標注 Part-of-Speech Tagging

詞性標注是自然語言處理中，為句子中的每個詞彙指定詞性的過程，例如名詞、動詞、形容詞等，是後續語法分析的基礎。

自然語言處理AI基礎機器學習

詞性標注是什麼？→

持久化儲存卷 Persistent Volume

持久化儲存卷是在容器化環境中獨立於容器生命週期的儲存資源，能確保系統或任務重啟時資料不會遺失。

MLOps模型部署資料處理

持久化儲存卷是什麼？→

卜瓦松分佈 Poisson Distribution

卜瓦松分佈是一種離散機率分佈，描述在固定時間或地點內，事件發生的次數。其特點是事件發生是獨立且隨機的。

統計方法資料處理數學基礎

卜瓦松分佈是什麼？→

事後插補 Post-hoc Imputation

事後插補是在模型訓練完成後，於推論階段或生成事後解釋時，即時填補缺失特徵的技術。

資料處理模型評估特徵工程

事後插補是什麼？→

預測性分析 Predictive Analytics

預測分析（Predictive Analytics）運用機器學習與統計模型，從歷史資料預測未來趨勢或事件機率，廣泛用於銷售預測、風險管理、客戶流失預防。

機器學習統計方法AI應用

預測性分析是什麼？→

機率分佈 Probability Distribution

機率分佈描述了隨機變數所有可能取值及其對應的機率。它可以是離散的（例如二項分佈）或連續的（例如常態分佈）。

機器學習統計方法AI基礎

機率分佈是什麼？→

程式化標註 Programmatic Labeling

程式化標註是一種利用程式碼（例如，規則、啟發式方法或外部知識庫）自動生成訓練資料標籤的技術，以加速模型開發。

程式化標註是什麼？→

先知預測模型 Prophet

Prophet是由Facebook開發的時間序列預測模型，專為具有強烈季節性趨勢的商業時間序列資料設計，易於使用且具有良好的預測能力。

時序分析機器學習模型評估

先知預測模型是什麼？→

蛋白質交互作用網路 Protein Interaction Networks

蛋白質交互作用網路是描述細胞內蛋白質之間物理與功能連結的圖結構，是理解生命活動與疾病機制的關鍵。

知識圖譜機器學習資料處理

蛋白質交互作用網路是什麼？→

偽平行語料庫 Pseudo-Parallel Corpus

透過自動化演算法從多語言文本中萃取或合成的高語義相似度句子對集合，主要用於緩解跨語言任務中的資料稀缺問題。

自然語言處理資料處理模型訓練

偽平行語料庫是什麼？→

R

6 個術語

隨機過採樣 Random Oversampling

隨機過採樣（Random Oversampling）是處理類別不平衡問題的技術，透過隨機複製少數類別的現有樣本，使各類別的訓練樣本數趨於平衡，讓模型對少數類別有足夠的學習機會，但有增加過擬合風險的疑慮

機器學習資料處理模型訓練

隨機過採樣是什麼？→

遙感技術 Remote Sensing

遙感技術是從遠處獲取地球表面資訊的科學與藝術，不直接接觸目標。

資料處理AI應用電腦視覺

遙感技術是什麼？→

機器人理財顧問 Robo-Advisor

機器人理財顧問是一種使用演算法和人工智慧來提供自動化投資建議和管理服務的平台，旨在降低投資門檻和成本。

金融AI推薦系統最佳化

機器人理財顧問是什麼？→

機器人流程自動化 Robotic Process Automation

RPA（機器人流程自動化）用軟體機器人模擬人類操作電腦，自動執行重複性業務流程，廣泛應用於金融對帳、訂單處理、HR 入職等高量重複性作業。

AI應用AutoMLMLOps

機器人流程自動化是什麼？→

穩健性 Robustness

穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時，仍能維持其性能表現的能力。

穩健性是什麼？→

S

28 個術語

合成孔徑雷達影像處理 SAR Imagery Processing

處理合成孔徑雷達影像，提取地物資訊，應用於環境監測、災害評估等領域。

電腦視覺資料處理AI應用

合成孔徑雷達影像處理是什麼？→

模式對齊 Schema Alignment

識別並映射不同資料源之間語義等效的資料元素，以實現資料整合與互通。

資料處理知識圖譜自然語言處理

模式對齊是什麼？→

綱要演進 Schema Evolution

綱要演進是指資料庫或資料倉儲的綱要隨著時間推移而發生的變更，以及管理這些變更的過程，以確保資料的相容性和可用性。

資料處理AI基礎MLOps

綱要演進是什麼？→

季節性分解 Seasonal Decomposition

季節性分解是一種時序分析技術，將時間序列分解為趨勢、季節性、週期性和殘差等成分，以便更好地理解和預測資料。

時序分析統計方法資料處理

季節性分解是什麼？→

季節性偵測 Seasonality Detection

識別時間序列資料中重複出現的週期性模式，如每日、每週或每年循環。

時序分析資料處理統計方法

季節性偵測是什麼？→

分割品質 Segmentation Quality

衡量圖像分割任務中預測區域與真實區域重疊程度的指標。

模型評估電腦視覺深度學習

分割品質是什麼？→

半監督學習 Semi-supervised Learning

半監督學習是一種機器學習方法，它結合了少量標記資料和大量未標記資料進行模型訓練，旨在利用未標記資料提升模型效能，降低標記成本。

半監督學習是什麼？→

感測器資料處理 Sensor Data Processing

指將感測器收集的原始訊號，透過濾波、校正與特徵提取，轉化為AI模型可用的結構化數據。

資料處理時序分析異常偵測

感測器資料處理是什麼？→

感測器融合 Sensor Fusion

感測器融合是整合多個異質感測器資料的技術，旨在消除單一硬體盲區，提供更精確且可靠的環境感知能力。

多模態AI電腦視覺資料處理

感測器融合是什麼？→

語句片段 SentencePiece

SentencePiece 是一種獨立於語言的分詞器，它將輸入視為 Unicode 字符序列，並使用 BPE 或 Unigram 算法生成詞彙表。

自然語言處理深度學習模型訓練

語句片段是什麼？→

情感分析 Sentiment Analysis

情感分析是一種自然語言處理技術，用於識別和提取文本中的主觀情感，例如正面、負面或中性情緒，應用於輿情監控、客戶回饋分析等。

自然語言處理機器學習AI應用

情感分析是什麼？→

金融情緒分析 Sentiment Analysis for Finance

金融情緒分析利用自然語言處理技術，分析新聞、社群媒體等文本數據，提取市場情緒，用於預測股價、風險管理和交易策略。

自然語言處理金融AI機器學習

金融情緒分析是什麼？→

序列比對 Sequence Alignment

序列比對是計算生物學技術，用於找出生物序列間的相似區域，揭示演化關係或功能同源性。

資料處理統計方法最佳化

序列比對是什麼？→

基於會話推薦 Session-based Recommendation

基於會話推薦利用使用者單次瀏覽會話內的行為序列，預測使用者下一步可能感興趣的項目，無需使用者歷史資料。

機器學習深度學習推薦系統

基於會話推薦是什麼？→

SHA-256 雜湊 SHA-256 Hash

一種廣泛使用的密碼學雜湊函數，將任意長度資料轉換為固定256位元雜湊值。

AI基礎資料處理AI倫理與治理

SHA-256 雜湊是什麼？→

奇異值分解 Singular Value Decomposition

奇異值分解（SVD）是一種將矩陣分解為三個矩陣乘積的技術，廣泛應用於降維、推薦系統和資料壓縮等領域。

數學基礎機器學習資料處理

奇異值分解是什麼？→

SMOTE 過採樣 SMOTE

SMOTE 是一種處理資料不平衡問題的過採樣技術，透過合成少數類別樣本來平衡資料分佈，提升模型學習效果。

機器學習資料處理模型訓練

SMOTE 過採樣是什麼？→

SPARQL查詢 SPARQL

SPARQL是一種用於查詢和操作RDF資料的查詢語言，類似於SQL用於關係資料庫。它允許使用者從知識圖譜中提取特定資訊。

知識圖譜資料處理AI應用

SPARQL查詢是什麼？→

稀疏檢索 Sparse Retrieval

稀疏檢索是一種資訊檢索方法，它使用稀疏向量來表示查詢和文檔，向量中的非零元素通常表示詞彙的存在或重要性。

自然語言處理推薦系統資料處理

稀疏檢索是什麼？→

語者分段 Speaker Diarization

語者分段旨在識別音訊中不同語者的發言時間段，並將其區分開來，無需事先知道語者身份。

語音辨識自然語言處理機器學習

語者分段是什麼？→

拼寫校正 Spell Correction

拼寫校正是一種自動偵測並修正文本中拼寫錯誤的技術，旨在提高資料品質、增強搜尋精準度與改善使用者體驗。

自然語言處理資料處理AI應用

拼寫校正是什麼？→

標準差 Standard Deviation

衡量資料集各數值與平均值之間平均離散程度的統計指標，反映資料的變異性。

統計基礎資料處理特徵工程

標準差是什麼？→

詞幹提取 Stemming

詞幹提取是自然語言處理中將單詞簡化為其詞幹或詞根形式的過程，通常通過刪除後綴來實現。

自然語言處理資料處理AI基礎

詞幹提取是什麼？→

分層抽樣 Stratified Sampling

分層抽樣是一種統計抽樣方法，將母體依據特定特徵劃分為互斥的子群體（層），再從各層中獨立抽樣。這確保了各層在樣本中的代表性，能有效降低抽樣誤差，特別適用於處理不平衡資料集。

機器學習資料處理統計方法

分層抽樣是什麼？→

結構化資料 Structured Data

結構化資料是指具有預定義格式和組織方式的資料，易於儲存、查詢和分析，例如關聯式資料庫中的表格。

資料處理AI基礎iPAS初級

結構化資料是什麼？→

次詞單元化 Subword Tokenization

次詞單元化是將單詞拆分為更小的子單元（次詞）的技術，用於解決詞彙量過大和未登錄詞（OOV）問題，提升模型泛化能力。

自然語言處理深度學習模型訓練

次詞單元化是什麼？→

合成數據 Synthetic Data

合成數據是指通過程式或演算法生成的人工數據，而非從真實世界收集的數據。它常用於訓練AI模型，特別是在真實數據稀缺或涉及隱私問題時。

生成式AI資料處理模型訓練

合成數據是什麼？→

合成資料生成 Synthetic Data Generation

合成資料生成是指透過程式或模型創建人工資料，用於訓練機器學習模型，尤其是在真實資料稀缺或難以獲取的情況下。

合成資料生成是什麼？→

T

8 個術語

目標洩漏 Target Leakage

訓練模型時，不小心納入在預測時無法獲取的未來或結果資訊，導致模型過度樂觀。

模型訓練特徵工程模型評估

目標洩漏是什麼？→

時序點過程 Temporal Point Processes

時序點過程是一種用於建模非連續事件發生時間的統計工具，特別適用於分析事件之間的時間依賴性與相互作用。

時序分析統計方法機器學習

時序點過程是什麼？→

TF-IDF Term Frequency-Inverse Document Frequency

衡量一個詞對文件的重要性：在這篇文件中出現多（TF 高）但在其他文件中少見（IDF 高）的詞最重要

自然語言處理特徵工程資料處理

TF-IDF 是什麼？→

測試資料集 Test Set

測試資料集用於評估模型在未見過資料上的泛化能力，是模型效能的最終指標，在模型部署前使用。

測試資料集是什麼？→

時間序列分析 Time Series Analysis

時間序列分析是研究按時間順序排列的數據點序列，以識別模式、趨勢和週期性，並預測未來值。

時序分析統計方法機器學習

時間序列分析是什麼？→

分詞 Tokenization

分詞是自然語言處理（NLP）中的基礎步驟，旨在將連續的文本序列拆解成更小的、具有語義意義的單元，例如詞彙、子詞或字符，這些單元稱為 tokens。

自然語言處理資料處理

分詞是什麼？→

訓練集 Training Set

訓練集是用於訓練機器學習模型的資料集，模型通過學習訓練集中的模式和關係來提升預測能力。

訓練集是什麼？→

趨勢分解 Trend Decomposition

將時間序列資料拆解為趨勢、季節性與殘差成分，以揭示其潛在模式。

時序分析資料處理統計方法

趨勢分解是什麼？→

U

2 個術語

非結構化資料 Unstructured Data

非結構化資料是指沒有預定義格式或組織方式的資料，難以直接儲存和分析，例如文字、圖像、音訊和影片。

資料處理AI基礎自然語言處理

非結構化資料是什麼？→

非監督式學習 Unsupervised Learning

非監督式學習是機器學習方法，讓模型在沒有標籤的輸入資料中，自行探索隱藏的結構與模式

機器學習模型訓練資料處理高頻

非監督式學習是什麼？→

V

2 個術語

驗證資料集 Validation Set

驗證資料集用於在模型訓練期間調整超參數和評估模型效能，以防止過擬合，並選擇最佳模型。

驗證資料集是什麼？→

向量資料庫 Vector Database

向量資料庫是一種專門儲存和檢索向量嵌入的資料庫，能高效處理高維度資料的相似性搜尋，廣泛應用於推薦系統和語義搜尋。

資料處理機器學習推薦系統

向量資料庫是什麼？→

W

3 個術語

弱監督學習 Weak Supervision

弱監督學習利用不精確、不完整或帶有雜訊的標籤資料來訓練機器學習模型，降低對大量精確標註資料的依賴。