摘要生成技術 Abstractive Summarization
摘要生成技術利用AI理解原文,並以新的句子和詞彙生成摘要,更接近人類的摘要方式,但實現難度較高。
瀏覽 AITerms.tw 中標籤為「大型語言模型」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「大型語言模型」,共 144 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「大型語言模型」 ,共 144 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
摘要生成技術利用AI理解原文,並以新的句子和詞彙生成摘要,更接近人類的摘要方式,但實現難度較高。
適配器模組是一種輕量級的模型微調方法,透過在預訓練模型中插入少量可訓練參數,以適應特定任務,同時保持原始模型參數凍結。
具備自主感知環境、做出決策並執行相應動作以達成特定目標的智慧型軟體實體。
一種相對位置編碼方法,通過在注意力分數中添加位置相關的線性偏置項,實現相對位置編碼且具有優秀的外推性能。
對齊校準是指使AI模型,特別是大型語言模型,的行為與人類意圖、價值觀和倫理規範相符的過程,降低潛在風險。
模型在對齊(使其行為符合人類價值觀)過程中可能損失的性能,特別是在某些原始能力上的下降。
一種在分散式系統中進行資料聚合與同步的通訊操作,確保所有計算節點最終獲得完全相同的整合結果。
注意力崩潰指深度神經網路的注意力權重趨向一致,導致模型無法有效區分輸入特徵的現象。
集束搜尋是一種啟發式搜尋演算法,用於序列預測任務,它在每個時間步保留多個最有可能的候選序列(集束),而非僅僅選擇最佳選項。
模型基準測試是一套標準化的評估任務與資料集,用來客觀衡量並比較不同 AI 模型的各項性能與實際能力。
BERT是一種基於Transformer架構的雙向編碼器模型,用於理解文本的語義和上下文,廣泛應用於自然語言理解任務。
雙向語境是同時參考目標元素前後文資訊的技術,能大幅提升模型對整體脈絡與語意的理解精準度。
能同時處理序列的前向和後向上下文,在每個位置都能看到完整序列信息的神經網路編碼器,相比單向模型提供更豐富的上下文表示,是 BERT 等預訓練模型的核心。
Google 的雙向語言模型,用 MLM(遮罩)和 NSP 預訓練,擅長理解文本語意
雙語評估替代指標(BLEU,Bilingual Evaluation Understudy)是機器翻譯品質評估的自動化量化指標,透過比對機器翻譯輸出與人工參考譯文中 n-gram 的重疊程度,給出 0
位元組對編碼(BPE)是一種資料壓縮技術,也常用於自然語言處理中,作為一種詞彙標記化方法,將單詞分解成更小的子詞單元。
因果語言模型是一種語言模型,它基於序列中先前詞彙預測下一個詞彙,並明確建模詞彙之間的因果關係,以提升生成文本的連貫性和可控性。
思維鏈是一種讓大型語言模型逐步推理,而非直接給出答案,以提升複雜問題解答正確率的方法
思維鏈提示是一種Prompt工程技術,透過引導模型逐步推理,提升複雜問題的解答品質與可解釋性。
聊天機器人是一種能模擬人類對話的電腦程式,透過文字或語音與使用者互動,提供資訊、協助解決問題或執行特定任務。
金吉拉縮放是一種模型縮放法則,旨在透過調整模型大小和訓練資料量,以達到最佳的計算效率,避免過度訓練或訓練不足。
分塊處理是指將大型資料集或文本分割成更小、更易於管理的部分,以便於模型處理和分析,提升效率。
一種條件生成技術,不依賴外部分類器,通過在無條件生成過程中注入條件信息來控制生成結果,常用於文本到圖像等多模態任務。
完形填空任務是一種語言理解測試,透過移除文本中的部分詞彙,要求模型或人類填補缺失部分,以評估其對上下文的理解能力。
程式碼生成是指利用人工智慧模型,自動產生程式碼片段或完整程式的技術,旨在提高開發效率並降低編碼錯誤。
常識推理是賦予人工智慧運用人類日常生活基礎知識進行邏輯判斷的能力,使其能對未明言情境做出合理推斷。
一種對齐大型語言模型的方法,透過編制一份「憲法」(一組原則和價值準則),指導 AI 系統自我批評和改進行為,無需依賴大量人類反饋,實現更可控且價值對齐的 AI 系統。
憲法式AI原則是一種透過明確的價值觀或「憲法」來引導AI系統行為的方法,旨在確保AI的輸出符合人類的期望和倫理標準。
AI 模型在生成回應或進行預測時,所能參考與記憶的輸入資訊範圍及歷史對話內容。
上下文窗口是指,大型語言模型一次性能處理的最大 Token 數量,超過此限制模型便會遺忘先前的內容
有效利用 LLM 的上下文窗口(模型能處理的最大序列長度),在有限的空間內優先放置最重要的信息,避免超長內容丟失或品質下降。
對話式人工智慧是指能透過自然語言與人類進行互動的AI系統,例如聊天機器人或語音助理,旨在提供更自然、直觀的互動體驗。
Copilot 是一個 AI 程式碼助手,透過分析程式碼上下文,提供程式碼建議、自動完成和程式碼生成,提升開發效率。
語料庫是大量結構化的文本集合,用於語言研究和自然語言處理,提供真實語言使用的範例,用於訓練和評估模型。
將大規模資料集水平切割為多個獨立區塊,以提升平行處理效率與降低記憶體負荷。
深度學習模型架構設計,僅使用解碼器(Decoder)層進行文本生成和處理,無需編碼器,通過因果遮蔽使模型只能關注當前位置的歷史信息,實現自迴歸文本生成。
僅解碼器模型是一種專注於自迴歸生成的架構,透過預測下一個詞彙來產生連續文本,為現代語言模型的核心。
稠密檢索模型使用神經網路將查詢和文檔嵌入到一個低維向量空間中,通過計算向量相似度來檢索相關文檔,克服了傳統方法的詞彙不匹配問題。
對話系統是一種能與人類進行自然語言互動的AI系統,目標是理解使用者意圖並提供適當的回應,完成特定任務或提供資訊。
直接偏好優化(DPO)是一種直接利用人類偏好資料,優化語言模型,無需訓練獎勵模型的強化學習替代方案。
Transformer 中最基礎的注意力機制,透過查詢向量與鍵向量的點積計算相似度,再用 softmax 轉為權重後對值向量加權求和。
根據系統負載和數據可用性,動態調整批次大小和處理時機的推理最佳化技術,用於平衡吞吐量和延遲。
在提示詞中提供少量(通常 2-10 個)輸入輸出範例,引導語言模型依照示範格式完成任務的提示技術。
閃電注意力機制是一種優化注意力計算的技術,透過重新排序計算步驟和利用硬體加速,大幅提升注意力計算的速度和記憶體效率。
基礎模型是使用大量未標記數據訓練的大型模型,可適應多種下游任務,展現出強大的泛化能力和遷移學習能力。
函數呼叫是一種允許大型語言模型(LLM)調用外部函數或API的能力,以擴展其功能並與外部世界互動。
生成式模型(Generative Model)是能夠學習資料的機率分布並從中生成新樣本的機器學習模型,涵蓋 GAN、VAE、擴散模型等架構,廣泛應用於影像合成、文字生成與資料擴增。
OpenAI 的自回歸語言模型,一個字接一個字生成文本,只使用 Decoder 架構
GPT是一種基於Transformer架構的大型語言模型,透過預訓練學習大量文本資料,用於生成文本、翻譯語言、回答問題等。
利用離散神經記憶碼本對知識編輯目標局部化的大型語言模型知識修正框架。
圖檢索增強(Graph RAG)利用知識圖譜結構化信息,提升檢索效率和答案準確性,優於傳統向量檢索。
貪婪解碼是一種序列生成方法,在每個時間步選擇概率最高的詞作為輸出,直到生成終止符號或達到最大長度。它簡單快速,但可能陷入局部最佳解。
一種高效的注意力機制,將多個查詢頭共享同一組鍵值頭,減少模型參數和記憶體消耗,同時保持性能不下降。
AI安全護欄是用於限制AI系統行為,確保其符合預期規範和倫理標準的機制,防止產生有害或不當的輸出。
上下文學習 (In-context Learning) 指的是大型語言模型無需額外訓練,僅通過輸入範例即可學習新任務的能力。
上下文學習理論指大型語言模型無需額外訓練,僅憑藉輸入提示中的範例,即可執行新任務的能力,展現了模型泛化的潛力。
指令微調是一種利用特定格式指令資料集,微調預訓練語言模型,使其更精確理解並執行人類指令的技術。
LangChain是一個用於開發基於大型語言模型(LLM)應用程式的框架。它簡化了LLM的整合、鏈接和部署,讓開發者能快速構建複雜的AI應用。
在AI中,「語言」專指機器對人類自然語言的理解與生成能力,是實現人機順暢溝通與通用人工智慧的關鍵技術橋樑。
LLaMA(Large Language Model Meta AI)是 Meta 開發的開放權重(open-weight)大型語言模型系列,可免費下載、修改、自行部署,採 Meta 自訂 community license 授權,非 OSI 認證開源。
LlamaIndex是一個資料框架,用於連接大型語言模型(LLMs)與您的私有或特定領域的資料,簡化建立基於LLM的應用程式。
以大型語言模型為核心決策引擎,結合工具調用與記憶機制,自主規劃並執行多步驟任務的 AI 系統。
LLMs 是大型語言模型群的統稱,代表當今具備強大自然語言理解與生成能力的各類基礎模型集合。
邏輯形式生成是將自然語言轉換為結構化、機器可讀且無歧義表達式的過程,為語意分析的核心。
指時序資料裡跨度極大的長程關聯性,或資料集中呈現數量極少但種類繁多的極端不平衡長尾樣本分佈現象。
指大型語言模型能夠處理和理解更長输入序列的能力,通常指支援數千到數百萬個 token 的上下文窗口。
LoRA是一種參數高效的微調技術,透過學習低秩矩陣來適應預訓練模型,大幅減少訓練參數,降低計算成本。
透過在預訓練模型的權重矩陣旁插入低秩分解矩陣來進行參數高效微調的技術。
Mamba是一種基於選擇機制的序列模型,旨在解決Transformer在長序列建模上的效率瓶頸,透過硬體感知演算法提升運算速度。
遮蔽語言模型(MLM)是一種自監督學習方法,隨機遮蔽輸入文本的部分詞語,並訓練模型預測這些被遮蔽的詞語。
機制性可解釋性旨在理解AI模型內部運作的具體機制,如同理解程式碼般,而非僅僅觀察輸入輸出關係。
記憶率衡量AI模型對訓練資料中特定樣本的過度記憶程度,可能導致隱私洩露或泛化能力差。
專家混合模型是一種機器學習技術,透過結合多個獨立的「專家」模型,針對不同輸入選擇性地激活特定專家,以提升模型整體效能。
模型平行化是一種將大型模型分割到多個裝置上進行訓練或推論的技術,以克服單一裝置的記憶體限制。
多跳推理是指需要通過多個推理步驟才能得出結論的推理過程,模擬人類複雜的思考方式。
N元語法是一種自然語言處理技術,用於預測序列中下一個詞的概率,基於前N-1個詞的出現頻率。
自然語言生成(NLG)是將結構化資料轉換為人類可理解的自然語言文本的AI技術,廣泛應用於報告生成、聊天機器人等。
自然語言理解(NLU)是人工智慧的一個分支,旨在使電腦能夠理解和解釋人類語言的含義,從而執行相關任務。
根據累積機率選擇詞彙範圍,只從機率累計達到設定閾值(如 90%)的最少詞彙中採樣,比 Top-k 更能適應不同機率分布。
PaLM (Pathways Language Model) 是 Google 開發的大型語言模型,以其卓越的推理能力和多語言處理能力著稱。
困惑度衡量語言模型預測文本序列的能力,數值越低代表模型預測能力越好,對文本的理解程度越高。
將深度神經網路的不同層分配到不同的 GPU 設備上,讓多個 micro-batch 在不同層上交叉執行以提高 GPU 利用率的分佈式訓練方法。
策略崩潰是強化學習中因參數更新過度,導致行為迅速退化成單一無效模式的現象,嚴重破壞訓練穩定性。
前綴調整法是一種參數高效的微調技術,通過在輸入序列前添加可訓練的前綴向量,來引導預訓練模型生成期望的輸出,同時保持原始模型參數凍結。
提示工程是設計與優化輸入給 AI 模型的指令,以引導模型產生更準確、符合需求的回應
提示詞注入是一種安全漏洞,攻擊者通過惡意設計的提示詞操控大型語言模型的行為,使其忽略或違反原始指令。
透過自動化演算法從多語言文本中萃取或合成的高語義相似度句子對集合,主要用於緩解跨語言任務中的資料稀缺問題。
ReAct框架是一種結合推理(Reasoning)和行動(Acting)的AI Agent框架,允許模型在解決問題的過程中進行思考、規劃和執行。
要求模型跨越字面意義,透過邏輯推演與跨段落分析,推導出未明示結論的進階自然語言處理技術。
倒數排名融合是一種無需依賴絕對分數的結果融合技術。它透過計算文件在多個獨立檢索系統中排名的倒數並進行加總,藉此產生綜合多方結果的最終排名。
在生成過程中對已經出現的詞彙施加機率懲罰,抑制模型重複使用相同詞彙或短語,提高文本多樣性。
從大規模資料庫中快速且精準地找出與使用者查詢高度相關的資訊或文件的核心技術。
檢索增強微調結合了檢索式和生成式模型的優勢,透過檢索相關資訊來增強微調過程,提升模型在特定任務上的效能。
RAG(檢索增強生成)讓 AI 回答問題前先查詢外部知識庫,再結合查到的資料生成答案,大幅減少幻覺、提升回答準確性。
一種在強化學習系統中出現的現象,指智能體發現並利用獎勵函數的漏洞或意外行為來獲得高分,而不是實現設計者的實際目標。這種遺漏通常源於獎勵函數與真實目標之間的不完全對齐。
獎勵建模是訓練AI模型以預測人類對不同結果的偏好,用於強化學習中,引導模型學習符合人類價值的行為。
環狀注意力是一種分散式注意力機制,將注意力計算分散到多個設備上,減少單一設備的記憶體需求,適用於超大型模型。
將強化學習技術應用於自然語言處理任務中,透過獎勵機制優化文本生成的序列決策過程。
人類回饋強化學習(RLHF)是一種利用人類回饋訊號,訓練強化學習模型,使其行為更符合人類偏好的方法。
一種位置編碼方法,通過複數旋轉操作將位置信息編碼到注意力機制中,相比絕對位置編碼具有更好的外推性能。
規模指AI系統中模型參數、訓練資料與運算資源的量級。擴展規模可顯著提升效能,是推動大型語言模型突破的關鍵因素。
透過計算查詢與鍵的點積並進行縮放,以決定序列中特徵間的關聯權重,是提取上下文資訊的關鍵深度學習機制。
規模定律描述了模型性能如何隨著模型大小、訓練數據量和計算資源的增加而變化。它提供了一種預測模型性能的經驗關係。
深度學習中根據序列內不同位置的相關性動態分配權重的機制,通過計算查詢(Query)、鍵(Key)、值(Value)的交互,使模型能關注序列中任意位置的信息,無視距離限制。
從未標注資料中自動建立監督信號以訓練模型的學習範式,無需人工標注。
語義分析旨在理解文本的真實含義,超越字面解釋,提取句子或段落的深層語義結構和關係,賦予機器理解語言的能力。
將文字或概念轉換為連續向量空間中數值表示的技術,讓機器能理解並比較資料間的深層意義關聯與相似度。
Semantic Kernel是一個輕量級的開源SDK,使您可以將大型語言模型(LLMs)與傳統程式語言(如C#、Python)整合,建立AI應用。
語意解析是將自然語言文本轉換為機器可讀的邏輯形式或結構化表示的方法,使電腦能精確理解人類意圖。
語義搜尋是一種理解使用者搜尋意圖和上下文的搜尋技術,超越了關鍵字匹配,旨在提供更相關和精確的搜尋結果。
語義空間是將詞彙、句子或文件轉換為多維連續向量的數學模型,使電腦能計算語言的意義相似度與深層關聯。
SentencePiece 是一種獨立於語言的分詞器,它將輸入視為 Unicode 字符序列,並使用 BPE 或 Unigram 算法生成詞彙表。
使用人工標注的高品質示範資料,對預訓練語言模型進行有監督訓練以使其遵循指令的技術。
一種高效的注意力機制,限制每個位置只與一個固定大小的局部上下文窗口內的位置進行注意力計算,減少計算複雜度。
稀疏注意力機制是一種減少注意力機制計算複雜度的技術,透過只關注輸入序列中的部分元素,降低運算量,提升模型效率。
稀疏變換器是一種深度學習架構,透過限制注意力機制的計算範圍降低複雜度,使其能高效處理長序列資料。
推測解碼是一種加速大型語言模型推論速度的技術,透過小型模型預測多個token,再由大型模型驗證,減少計算量。
指定特殊的詞彙序列,當模型生成到此序列時立即停止生成,用於控制輸出長度和結構邊界。
次詞單元化是將單詞拆分為更小的子單元(次詞)的技術,用於解決詞彙量過大和未登錄詞(OOV)問題,提升模型泛化能力。
系統提示詞是用於引導大型語言模型行為的初始指令,影響模型的回應風格、知識範圍和任務執行方式。
T5 (Text-to-Text Transfer Transformer) 是一種將所有 NLP 任務轉換為文本到文本格式的轉換器模型,簡化了模型訓練和應用。
透過調整溫度參數,控制語言模型生成文本的隨機程度和多樣性。溫度越低生成越確定,溫度越高生成越隨機。
將單個張量(矩陣或更高維數組)的計算分割到多個 GPU 設備上,通過跨設備並行計算矩陣乘法等操作的分佈式訓練方法。
指引AI模型生成內容的文字指令或問題,是與生成式AI互動的核心方式。
文本摘要是自然語言處理中的一項任務,旨在從一篇或多篇文章中生成簡潔且信息豐富的摘要。分為抽取式和生成式兩種方法。
AI 模型透過顯式的中間推理步驟(思維鏈)將複雜問題拆解為可逐步解決的子問題,以提升多步推理任務準確率的方法。
符記是大型語言模型處理文字時,不可分割的最小單位,它可以是一個字、詞,或者更小的子詞
工具使用能力是指大型語言模型利用外部工具(例如API、資料庫)來擴展其功能,完成更複雜任務的能力。
為降低自注意力複雜度的技術。透過僅保留分數最高的前 K 個鍵值對參與計算,有效減少記憶體與運算開銷。
限制每次詞彙選擇只從機率最高的 k 個候選詞彙中進行隨機採樣,減少低機率詞彙被錯誤選中的風險。