ACID原則 ACID
iPAS確保資料庫交易可靠執行的四個基本屬性:原子性、一致性、隔離性與持久性,是資料處理的重要基礎。
瀏覽 AITerms.tw 中標籤為「資料處理」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「資料處理」,共 210 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「資料處理」 ,共 210 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
確保資料庫交易可靠執行的四個基本屬性:原子性、一致性、隔離性與持久性,是資料處理的重要基礎。
ACID 是指資料庫交易必須具備原子性、一致性、隔離性與持久性四大特性,以確保資料處理的正確性、可靠性與完整性。
一種機器學習策略,由演算法主動選擇最具訊息價值的未標籤樣本進行標籤,以最小化標籤成本並最大化模型性能
人工智慧倫理旨在探討並解決AI系統開發、部署和使用過程中涉及的道德、法律和社會問題,確保AI的發展符合人類價值觀。
AI治理是指建立一套框架和流程,以確保AI系統的開發和使用符合倫理、法律和社會價值觀。
人工智慧監管是指政府或相關機構制定和實施的,旨在規範人工智慧技術開發、部署和使用的法律、政策和指導方針,以確保其安全、公平和符合倫理。
人工智慧風險評估是一種識別、分析和評估人工智慧系統可能造成的潛在風險的過程,旨在了解風險的性質、可能性和影響,並制定相應的應對措施。
演算法是一組定義明確的指令,用於解決特定問題或執行特定任務。它接收輸入,經過一系列步驟處理,並產生輸出。
異常偵測是指識別數據集中與預期模式顯著不同的數據點,這些異常點可能指示錯誤、欺詐或其他不尋常的事件。
變異數分析 (ANOVA) 是一種統計方法,用於比較兩個或多個群體的平均數是否存在顯著差異。它將總變異分解為不同來源的變異。
反洗錢人工智慧(AML AI)利用AI技術自動偵測金融交易中的可疑活動,協助金融機構遵守法規,打擊洗錢犯罪。
ARIMA是一種廣泛使用的時間序列預測模型,結合了自迴歸、差分和移動平均三個部分,用於分析和預測時間序列資料。
自編碼器是一種神經網路,旨在學習輸入數據的壓縮表示(編碼),然後從該壓縮表示重建原始數據(解碼)。
自動特徵工程利用演算法自動從原始資料中提取、選擇和轉換特徵,以提升機器學習模型的效能。
詞袋模型是一種簡化文本表示的方法,忽略詞語的順序和語法結構,僅統計每個詞語在文本中出現的次數,形成詞頻向量。
批次推論是指將大量資料一次性輸入模型進行預測,適用於對延遲不敏感的場景,例如定期報表生成或離線資料分析。
將大量資料或任務累積後一次性集中執行的計算模式,與即時處理相對。
基準測試是用於評估和比較不同AI模型、演算法或系統性能的標準化方法,提供客觀的性能指標。
AI偏見是指AI系統在訓練或決策過程中,由於資料、演算法或人為因素,產生不公平或歧視性的結果。
大數據指規模龐大、速度快速且多樣化的資料集合,傳統資料處理工具難以有效處理,需要專門的技術與架構來儲存、分析與應用
將類別特徵映射為整數,再將這些整數轉換為其二進位表示的特徵工程方法。
BM25 (Best Matching 25) 是一種用於資訊檢索的排序函數,它基於詞頻和逆文檔頻率,並考慮了文檔長度的影響,以提高檢索的準確性。
位元組對編碼(BPE)是一種資料壓縮技術,也常用於自然語言處理中,作為一種詞彙標記化方法,將單詞分解成更小的子詞單元。
機器學習中取值為有限離散類別的特徵,如性別(男/女)、顏色(紅/綠/藍)、地區等,需要特殊編碼才能用於模型訓練
因果推論是從觀察數據中推斷因果關係的方法,旨在確定一個變數的變化是否直接導致另一個變數的變化。
中央極限定理指出,大量獨立隨機變數的總和(或平均值)趨近於常態分佈,與原始變數的分佈無關。是統計推論的基石。
比較不同時間點的影像,識別地表或物件狀態的變化,廣泛應用於監測。
卡方檢定是一種統計方法,用於檢驗兩個或多個類別變數之間是否存在顯著關聯性。它比較觀察值與期望值之間的差異。
分塊處理是指將大型資料集或文本分割成更小、更易於管理的部分,以便於模型處理和分析,提升效率。
訓練資料中各類別樣本數量差異懸殊,導致模型偏向多數類的問題。
類別權重是一種機器學習技術,透過賦予少數類別較高權重來解決資料不平衡問題,提升模型對稀有事件的預測能力。
點擊率預測旨在預估使用者點擊特定廣告或連結的可能性,是數位廣告和推薦系統的核心技術。
冷啟動問題是指在推薦系統中,對於新使用者或新物品,由於缺乏足夠的互動資料,導致無法準確推薦的問題。常見解決方案包括利用元資料、內容過濾或混合推薦。
協同過濾是一種推薦系統技術,透過分析使用者行為或偏好,預測使用者可能感興趣的項目,例如商品、電影或音樂。
計算生物學結合電腦科學、統計學與生物學,利用演算法分析生物數據,以理解複雜的生物系統與過程。
內容過濾推薦是一種推薦系統方法,它基於用戶過去互動過的項目內容特徵,向用戶推薦相似的項目。它分析項目描述,並匹配用戶偏好。
凸優化是一種數學優化方法,旨在尋找凸函數在凸集合上的最小值。其優點是局部最小值即為全局最小值,易於求解。
語料庫是大量結構化的文本集合,用於語言研究和自然語言處理,提供真實語言使用的範例,用於訓練和評估模型。
相關係數衡量兩個變數之間線性關係的強度和方向,範圍從 -1 到 1。1 表示完全正相關,-1 表示完全負相關,0 表示沒有線性關係。
共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少,負值表示一個增加時另一個趨於減少,零值表示沒有線性關係。
創用CC提供彈性版權許可,讓創作者分享作品,同時保留部分權利,促進知識共享與再利用。
信用評分是利用統計模型評估個人或企業的信用風險,預測其未來償還債務的能力,是金融機構決策的重要依據。
資料是機器學習模型的學習基礎,包含結構化與非結構化形式,驅動 AI 系統發展。
資料標註是為資料集添加標籤或註解的過程,使機器學習模型能夠理解和學習這些資料,是模型訓練的基礎。
資料擴增術是一種增加訓練資料多樣性的技術,透過對現有資料進行微小的修改,創造出新的、但仍然代表相同類別的資料點,以提升模型泛化能力。
描述資料集來源、組成、預期用途、限制與潛在偏誤的文件。
資料漂移是指模型上線後,輸入資料的分布與訓練資料不同,進而造成模型預測效能降低的現象
資料不平衡指訓練資料中各類別樣本數量差異懸殊,導致模型傾向預測多數類別,常用 SMOTE 過採樣或欠採樣等技術來處理
資料填補是處理遺失值的方法,透過統計方法估算並替換遺失值,以維持資料完整性,避免分析偏差。
資料標註是指為原始資料添加標籤的過程,這些標籤提供關於資料的額外資訊,用於訓練監督式機器學習模型。
資料湖是一種大型集中式儲存庫,能以原始格式存放結構化、半結構化和非結構化的各式資料,提供高度彈性與可擴展性。
資料洩漏(Data Leakage)是指模型訓練過程中,未來或測試集的資訊意外滲入訓練集,導致模型在評估時表現虛高,但部署後實際效能大幅下滑的現象。
資料血緣追蹤記錄資料從來源到目的地的流動和轉換,提供資料的完整歷史和上下文,確保資料品質和可追溯性。
資料並行是一種分散式訓練方法,將資料分割成多份,分配給多個節點,每個節點使用相同模型副本訓練不同資料子集。
資料管線是一系列資料處理步驟,將原始資料轉換為可供分析或模型使用的格式,包含擷取、轉換、載入等階段。
資料投毒攻擊是一種惡意攻擊,攻擊者將惡意或錯誤的資料注入到訓練資料集中,以影響機器學習模型的性能或行為。攻擊目標是使模型產生錯誤的預測或執行其他有害操作。
資料前處理是指在將原始資料用於機器學習模型之前,對其進行清理、轉換和整合的過程,以提高模型效能和準確性。
資料品質監控是指持續追蹤和評估資料的準確性、完整性、一致性、時效性和有效性,以確保資料符合預期標準。
將大規模資料集水平切割為多個獨立區塊,以提升平行處理效率與降低記憶體負荷。
資料驗證是確保機器學習模型訓練與推論資料之準確性、完整性與格式正確性的自動化檢查過程,能有效防止異常數據污染系統。
資料版本控制是一種管理機器學習專案中資料集與模型異動的技術,確保實驗的可重複性與團隊協作效率。
資料版本控制追蹤資料集在不同時間點的狀態,確保可重複性、可追溯性,並允許回復到先前的資料版本。
資料倉儲是針對查詢與分析優化的結構化資料儲存系統,整合多來源資料以支援商業智慧決策
密度型空間分群演算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN)是一種基於資料點鄰域密度進行分群的演算法,
依存句法分析是自然語言處理中,分析句子中詞彙之間的依存關係,建立句子的語法結構,揭示詞彙間的修飾、支配等關係。
指感測器或裝置隨時間產生資料分佈變化的現象,影響模型效能。
差分隱私是一種資料匿名化技術,透過在統計查詢結果中注入隨機噪音,在公開資料的同時保護個別資料點的隱私。
透過收集設備或用戶的多種可識別資訊,建立獨特且穩定的識別碼。
數位分身是真實世界實體或系統的虛擬化身,通過收集數據進行模擬、監控和預測,以優化性能、預防故障和做出更明智的決策。
降維處理旨在減少資料集的特徵數量,同時保留重要資訊,以簡化模型、加速運算並避免維度災難。
直接侵權指未經授權而直接複製、散布或使用受版權保護作品的行為,在AI領域涉及模型訓練與輸出。
透過部署在廣大空間中的多個智慧感測器節點協同合作,收集並分析環境與系統狀態的分散式資料處理技術。
分散式訓練利用多個計算節點,將模型訓練任務分割並行處理,加速大型模型訓練,提升效率。
DNA序列分析是計算生物學領域的關鍵技術,旨在解讀、比較和理解生物體的遺傳信息,對於疾病診斷、藥物開發和演化研究至關重要。
AI藥物發現利用人工智慧加速藥物研發流程,從靶點識別、候選藥物篩選、臨床試驗設計到藥物重定位,降低成本並縮短開發週期。
邊緣運算AI是在終端裝置直接執行人工智慧模型的技術,具備低延遲、省頻寬與強化隱私保護等核心優勢。
特徵值是線性變換作用於向量後,該向量長度縮放的比例。它描述了變換對特定方向向量的影響程度。
特徵向量是指在線性變換下,方向保持不變或僅反向的非零向量。它對應於特定的特徵值,代表變換的主要作用方向。
電子病歷人工智慧 (EHR AI) 指的是利用人工智慧技術分析電子病歷 (EHR) 數據,以改善醫療照護、研究和管理的應用。
實體鏈接是將文本中的實體提及項,連結到知識庫中對應實體的過程,以消除歧義並豐富文本的語義資訊。
實體解析是一種資料處理技術,旨在識別並連結來自不同資料來源中指涉相同真實世界實體的記錄,以建立統一且一致的實體視圖。
熵是資訊理論中衡量隨機變數不確定性的指標,數值越高代表不確定性越大。在機器學習中,熵常用於特徵選擇和決策樹構建。
期望最大化 (EM) 算法是一種迭代算法,用於在存在隱變量的情況下,估計機率模型的參數。它交替執行期望 (E) 步驟和最大化 (M) 步驟。
在機器學習建模前,透過視覺化與統計方法理解資料特徵、發現模式並檢驗假設的關鍵資料處理步驟。
指數平滑法是一系列時序預測方法,使用加權平均數,其中權重隨著時間的推移呈指數衰減,更重視近期觀測值。
萃取、轉換、載入(ETL)是資料工程的核心流程,指從多個來源提取數據,經過清洗與格式轉換,最終載入至目標資料倉儲的過程
提取式摘要技術從原文中選擇重要句子組成摘要,簡單直接,易於實現,但可能缺乏連貫性,且無法進行語義概括。
人工智慧公平性旨在確保AI系統的決策不會對特定群體或個人產生不合理的歧視,追求結果的公正與平等。
機器學習中,輸入資料的特徵分佈隨時間變化的現象,可能導致模型性能下降。
特徵工程透過創建、轉換與選擇原始資料的代表性特徵,顯著提升機器學習模型的預測效果
特徵縮放是一種資料前處理技術,用於將不同範圍的特徵值縮放到一個統一的範圍內,避免某些特徵主導模型訓練。
特徵選擇是機器學習中選擇最相關特徵子集的過程,旨在簡化模型、提高準確性、減少過擬合和提升模型的可解釋性。
特徵儲存庫是一個集中管理和共享機器學習特徵的平台,確保特徵一致性、可重用性,並簡化特徵工程流程。
AI 詐欺偵測(Fraud Detection)透過機器學習即時分析交易行為,識別異常模式,廣泛應用於銀行信用卡詐欺防範、網路詐騙偵測與保險理賠審核。
頻率計數是計算特定事件、特徵或字詞在數據集中出現次數的統計方法,為資料分析與機器學習提供基礎特徵。
將類別特徵轉換為其在資料集中出現的頻率或計數,以捕捉資訊並降低維度。
高斯雜訊是一種機率密度符合常態分佈的隨機干擾訊號,數值多集中於平均值,常應用於資料擴增與生成模型中。
歐盟通用資料保護規範是保障歐盟公民個人資料控制權的法規,對違規企業處以高額罰款,影響全球企業。
泛化能力是指機器學習模型在未見過的數據上表現良好的能力。一個具有良好泛化能力的模型能夠從訓練數據中學習到普遍規律,並應用於新數據。
圖池化是一種減少圖形結構資料維度與節點數量的技術,用以提取全域特徵,降低計算成本,在圖神經網路中扮演關鍵的降維角色。
真實邊界框是電腦視覺模型訓練與評估中,由人工標註的正確物件位置範圍,作為衡量預測結果的基準標準。
階層式密度分群演算法(Hierarchical DBSCAN, HDBSCAN)是 DBSCAN 的進化版本,透過建立多密度尺度的階層式叢集樹,能自動適應密度不均勻的資料,無需設定全局鄰域半徑 ε,並
指特徵空間中的極高維度狀態,或深度學習模型萃取出具備高度抽象、全局觀念與豐富語意的高階向量表示。
高基數特徵(High Cardinality)指某個類別型特徵包含大量不同取值的情況,例如用戶 ID、商品 SKU、地理位置等可能有數萬至數百萬種取值,直接進行 One-Hot 編碼會導致維度爆炸,需
人機迴路 (HITL) 是一種 AI 方法,其中人類參與模型訓練和決策過程,以提高準確性、可靠性和倫理考量。
混合搜尋結合了多種搜尋技術,例如關鍵字搜尋和語義搜尋,以提高搜尋結果的相關性和準確性,提供更全面的資訊。
分析包含數百個窄頻譜波段的影像,以識別材料成分與特性。
AI 模型對數位圖片進行處理、分析或生成的基礎技術,涵蓋像素級的特徵萃取、語意解析與跨模態影像合成。
圖像分類是電腦視覺中的一項任務,旨在將圖像分配到預定義的類別中。模型學習圖像特徵,並基於這些特徵預測圖像所屬的類別。
圖像識別是電腦視覺領域的一項任務,旨在識別圖像中的對象、人物、地點或事件。它比圖像分類更廣泛,可能涉及定位和標記圖像中的多個對象。
資訊理論研究資訊的量化、儲存與傳輸,核心概念包含熵、互資訊、通道容量等,為資料壓縮、通訊編碼等領域奠定基礎。
標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好,反之則可能需要重新評估標註規範。
逆向文件頻率(IDF)是一種評估詞彙重要性的統計指標,用於降低常見詞彙權重並突顯罕見關鍵字。
物聯網是將實體裝置透過網際網路相互連接,使其能收集並傳輸資料的技術架構,為智慧化應用提供資料基礎。
四分位距(Interquartile Range, IQR)是第三四分位數(Q3)與第一四分位數(Q1)的差值,代表資料中間 50% 的分布範圍,常用於穩健的異常值偵測,不受極端值影響。
迭代反向翻譯是一種自然語言處理技術,透過將目標語言翻譯回來源語言生成合成平行語料,並反覆交替訓練正反向模型以提升翻譯品質。
標籤偏誤是指訓練資料的標註結果反映了人類主觀判斷或社會既有成見,導致資料標籤帶有系統性偏差,使AI模型學習到不公平的關聯。
標籤編碼是將類別型資料轉換為整數,以便機器學習模型處理,但需注意可能產生不必要的順序關係
標籤雜訊是指訓練資料集中不正確或錯誤的標籤。這些錯誤標籤會降低模型效能,導致模型學習到錯誤的模式。
詞形還原是自然語言處理中將單詞還原為其基本形式(詞元)的過程,考慮了單詞的語法和上下文。
光達資料處理是指對雷射雷達感測器採集的三維點雲資料進行清理、分析與解釋的過程,旨在從中提取有意義的空間資訊,廣泛應用於自動駕駛、測繪與環境監測等領域。
LlamaIndex是一個資料框架,用於連接大型語言模型(LLMs)與您的私有或特定領域的資料,簡化建立基於LLM的應用程式。
邏輯程式設計是一種基於形式邏輯的程式典範,透過宣告事實與規則來推導結論,而非明確指令執行步驟。
從衛星、航空或無人機影像中提取地理資訊,自動或半自動生成地圖。
矩陣分解是一種將矩陣分解為兩個或多個矩陣乘積的技術,常應用於推薦系統,以預測用戶對未評分項目的偏好。
矩陣分解推薦是一種推薦系統技術,它將用戶-項目互動矩陣分解為兩個低維矩陣,分別代表用戶和項目的隱含特徵,用於預測用戶對未互動項目的偏好。
平均絕對誤差(MAE)是衡量預測值與實際值之間平均絕對差異的指標,數值越小代表模型預測越準確。
醫療影像分析利用AI技術,自動或半自動地分析醫學影像,輔助醫生進行疾病診斷、病情監測和治療規劃,提高診斷效率和準確性。
梅爾頻譜圖是一種音訊訊號的視覺表示,它將音訊的頻率轉換到梅爾尺度上,更符合人類聽覺感知,常用於語音辨識和音訊分析。
混合正則化是一種透過組合兩個或多個訓練樣本及其標籤來生成新訓練數據的技術,藉此擴增資料集多樣性,有效減輕神經網路模型的過擬合現象並提升泛化能力。
機器學習管線是自動化機器學習工作流程的步驟序列,包括資料準備、模型訓練、評估和部署。
MLOps 是一種將機器學習模型開發與部署流程標準化的方法,旨在加速模型迭代、提高可靠性並簡化維護。
模型反演攻擊是一種試圖從機器學習模型中恢復訓練數據或敏感資訊的攻擊方式,藉此洩漏隱私。
模型版本控制是追蹤和管理機器學習模型不同迭代的過程,確保可重複性、可追溯性和協作。
互信息衡量兩個隨機變數之間相互包含的信息量,數值越大代表相關性越高,常用於特徵選擇、圖像配準等任務。
N元語法是一種自然語言處理技術,用於預測序列中下一個詞的概率,基於前N-1個詞的出現頻率。
自然語言生成(NLG)是將結構化資料轉換為人類可理解的自然語言文本的AI技術,廣泛應用於報告生成、聊天機器人等。
巢狀欄位是一種資料結構,指一個欄位內部包含其他子欄位,形成階層關係,常用於表示複雜或半結構化資料,提升資料組織與查詢效率。
常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。
正規化是一種資料前處理技術,將資料縮放到一個單位範數,例如L1或L2範數,使每個樣本的向量長度為1。
新穎性偵測是一種機器學習技術,旨在識別訓練資料中從未出現過的全新模式或資料點,通常用於確保系統在面對未知情況時的穩定性。
光學字元辨識(OCR)是一種技術,能將圖像中的文字轉換為機器可讀的文字格式,例如將掃描文件轉換為可編輯的文字。
獨熱編碼是一種將類別資料轉換為二元向量的方法,為每個類別建立獨立欄位,存在時標記為 1,其餘為 0
線上學習是一種機器學習方法,模型在接收到每個新資料點後立即更新,無需儲存所有資料或進行批次訓練,適用於資料流場景。
本體論是明確指定領域概念及其關係的正式表示,用於知識共享和推理,是知識圖譜的基礎。
流程協調是指自動化安排、協調和管理複雜的計算機系統、應用程式和服務的過程,以實現特定目標。
一種具有明確順序或等級關係,但數值間距不一定均等的類別型資料。
全色銳化是將高解析度全色影像與低解析度多光譜影像融合,生成高空間解析度且色彩豐富的多光譜影像。
詞性標注是自然語言處理中,為句子中的每個詞彙指定詞性的過程,例如名詞、動詞、形容詞等,是後續語法分析的基礎。
持久化儲存卷是在容器化環境中獨立於容器生命週期的儲存資源,能確保系統或任務重啟時資料不會遺失。
卜瓦松分佈是一種離散機率分佈,描述在固定時間或地點內,事件發生的次數。其特點是事件發生是獨立且隨機的。
事後插補是在模型訓練完成後,於推論階段或生成事後解釋時,即時填補缺失特徵的技術。
預測分析(Predictive Analytics)運用機器學習與統計模型,從歷史資料預測未來趨勢或事件機率,廣泛用於銷售預測、風險管理、客戶流失預防。
機率分佈描述了隨機變數所有可能取值及其對應的機率。它可以是離散的(例如二項分佈)或連續的(例如常態分佈)。
程式化標註是一種利用程式碼(例如,規則、啟發式方法或外部知識庫)自動生成訓練資料標籤的技術,以加速模型開發。
Prophet是由Facebook開發的時間序列預測模型,專為具有強烈季節性趨勢的商業時間序列資料設計,易於使用且具有良好的預測能力。
蛋白質交互作用網路是描述細胞內蛋白質之間物理與功能連結的圖結構,是理解生命活動與疾病機制的關鍵。
透過自動化演算法從多語言文本中萃取或合成的高語義相似度句子對集合,主要用於緩解跨語言任務中的資料稀缺問題。
隨機過採樣(Random Oversampling)是處理類別不平衡問題的技術,透過隨機複製少數類別的現有樣本,使各類別的訓練樣本數趨於平衡,讓模型對少數類別有足夠的學習機會,但有增加過擬合風險的疑慮
推薦系統是一種利用演算法預測使用者對物品偏好的資訊過濾系統,旨在幫助使用者發現感興趣的內容,並提升平台互動與銷售。
遙感技術是從遠處獲取地球表面資訊的科學與藝術,不直接接觸目標。
機器人理財顧問是一種使用演算法和人工智慧來提供自動化投資建議和管理服務的平台,旨在降低投資門檻和成本。
RPA(機器人流程自動化)用軟體機器人模擬人類操作電腦,自動執行重複性業務流程,廣泛應用於金融對帳、訂單處理、HR 入職等高量重複性作業。
穩健性是指模型在面對輸入數據的微小擾動、對抗性攻擊或分布偏移時,仍能維持其性能表現的能力。
處理合成孔徑雷達影像,提取地物資訊,應用於環境監測、災害評估等領域。
識別並映射不同資料源之間語義等效的資料元素,以實現資料整合與互通。
綱要演進是指資料庫或資料倉儲的綱要隨著時間推移而發生的變更,以及管理這些變更的過程,以確保資料的相容性和可用性。
季節性分解是一種時序分析技術,將時間序列分解為趨勢、季節性、週期性和殘差等成分,以便更好地理解和預測資料。
識別時間序列資料中重複出現的週期性模式,如每日、每週或每年循環。
衡量圖像分割任務中預測區域與真實區域重疊程度的指標。
半監督學習是一種機器學習方法,它結合了少量標記資料和大量未標記資料進行模型訓練,旨在利用未標記資料提升模型效能,降低標記成本。
指將感測器收集的原始訊號,透過濾波、校正與特徵提取,轉化為AI模型可用的結構化數據。
感測器融合是整合多個異質感測器資料的技術,旨在消除單一硬體盲區,提供更精確且可靠的環境感知能力。
SentencePiece 是一種獨立於語言的分詞器,它將輸入視為 Unicode 字符序列,並使用 BPE 或 Unigram 算法生成詞彙表。
情感分析是一種自然語言處理技術,用於識別和提取文本中的主觀情感,例如正面、負面或中性情緒,應用於輿情監控、客戶回饋分析等。
金融情緒分析利用自然語言處理技術,分析新聞、社群媒體等文本數據,提取市場情緒,用於預測股價、風險管理和交易策略。
序列比對是計算生物學技術,用於找出生物序列間的相似區域,揭示演化關係或功能同源性。
基於會話推薦利用使用者單次瀏覽會話內的行為序列,預測使用者下一步可能感興趣的項目,無需使用者歷史資料。
一種廣泛使用的密碼學雜湊函數,將任意長度資料轉換為固定256位元雜湊值。
奇異值分解(SVD)是一種將矩陣分解為三個矩陣乘積的技術,廣泛應用於降維、推薦系統和資料壓縮等領域。
SMOTE 是一種處理資料不平衡問題的過採樣技術,透過合成少數類別樣本來平衡資料分佈,提升模型學習效果。
SPARQL是一種用於查詢和操作RDF資料的查詢語言,類似於SQL用於關係資料庫。它允許使用者從知識圖譜中提取特定資訊。
稀疏檢索是一種資訊檢索方法,它使用稀疏向量來表示查詢和文檔,向量中的非零元素通常表示詞彙的存在或重要性。
語者分段旨在識別音訊中不同語者的發言時間段,並將其區分開來,無需事先知道語者身份。
拼寫校正是一種自動偵測並修正文本中拼寫錯誤的技術,旨在提高資料品質、增強搜尋精準度與改善使用者體驗。
衡量資料集各數值與平均值之間平均離散程度的統計指標,反映資料的變異性。
詞幹提取是自然語言處理中將單詞簡化為其詞幹或詞根形式的過程,通常通過刪除後綴來實現。
分層抽樣是一種統計抽樣方法,將母體依據特定特徵劃分為互斥的子群體(層),再從各層中獨立抽樣。這確保了各層在樣本中的代表性,能有效降低抽樣誤差,特別適用於處理不平衡資料集。
結構化資料是指具有預定義格式和組織方式的資料,易於儲存、查詢和分析,例如關聯式資料庫中的表格。
次詞單元化是將單詞拆分為更小的子單元(次詞)的技術,用於解決詞彙量過大和未登錄詞(OOV)問題,提升模型泛化能力。
合成數據是指通過程式或演算法生成的人工數據,而非從真實世界收集的數據。它常用於訓練AI模型,特別是在真實數據稀缺或涉及隱私問題時。
合成資料生成是指透過程式或模型創建人工資料,用於訓練機器學習模型,尤其是在真實資料稀缺或難以獲取的情況下。
訓練模型時,不小心納入在預測時無法獲取的未來或結果資訊,導致模型過度樂觀。
時序點過程是一種用於建模非連續事件發生時間的統計工具,特別適用於分析事件之間的時間依賴性與相互作用。
衡量一個詞對文件的重要性:在這篇文件中出現多(TF 高)但在其他文件中少見(IDF 高)的詞最重要
測試資料集用於評估模型在未見過資料上的泛化能力,是模型效能的最終指標,在模型部署前使用。
時間序列分析是研究按時間順序排列的數據點序列,以識別模式、趨勢和週期性,並預測未來值。
分詞是自然語言處理(NLP)中的基礎步驟,旨在將連續的文本序列拆解成更小的、具有語義意義的單元,例如詞彙、子詞或字符,這些單元稱為 tokens。
訓練集是用於訓練機器學習模型的資料集,模型通過學習訓練集中的模式和關係來提升預測能力。
將時間序列資料拆解為趨勢、季節性與殘差成分,以揭示其潛在模式。