---
title: "多物件追蹤（Multi-Object Tracking）"
slug: multi-object-tracking
language: zh-TW
source: https://aiterms.tw/learning/what-is-multi-object-tracking
updated_at: 2026-07-04
tags: [電腦視覺, 深度學習, 時序分析, AI應用, source:ipas]
ipas_term: true
type: deep-dive
---

# 多物件追蹤 是什麼？

> 一種在連續影像中偵測並識別多個移動物件，持續賦予穩定追蹤編號與軌跡預測的電腦視覺分析技術。

## 核心概念
多物件追蹤是電腦視覺分析中的一項關鍵技術，其主要任務是在連續的影像序列或影片中，自動偵測多個移動中的感興趣目標，並在時間軸上為每個目標分配唯一的識別標籤，進而重建出這些目標的完整運動軌跡。這項任務的核心挑戰在於如何處理動態環境中的各種不確定性，例如目標之間的相互遮擋、目標外觀的劇烈變化、光線條件的波動，以及攝影機本身的運動。一個穩健的多物件追蹤系統必須能夠在目標短暫消失後再次出現時，正確地重新辨識其身分，而不是將其誤認為一個新的物件。這不僅需要精確的空間定位能力，更仰賴強大的時序資料關聯演算法。多物件追蹤技術是連結基礎靜態影像辨識與高階動態行為理解的重要橋樑，它使得電腦系統能夠從單純地「看到」物件，進階到「理解」物件的活動模式與互動關係，為後續的行為預測、事件偵測與場景語義分析奠定堅實的基礎。

## 運作原理
主流的多物件追蹤系統通常採用「基於偵測的追蹤」框架。在這個框架下，運作流程主要分為兩大階段：目標偵測與資料關聯。首先，在每一幀影像中，物件偵測模型負責標出所有潛在目標的位置與邊界框。接著，系統需要擷取這些目標的特徵，這可能包含空間位置、運動速度以及外觀特徵向量。在資料關聯階段，追蹤演算法會將當前影格中偵測到的目標，與先前建立的目標軌跡進行匹配。這個過程常使用卡爾曼濾波器來預測現有軌跡在下一幀的位置，並計算預測位置與實際偵測位置之間的交並比作為空間相似度指標。同時，外觀特徵的相似度也常被引入，透過深度度量學習訓練的重新識別模型，來判斷兩個目標在外觀上是否屬於同一個體。最後，透過匈牙利演算法等圖論匹配方法，系統會找出整體匹配成本最低的分配方案，完成軌跡的更新、新軌跡的建立或失效軌跡的終止。近年來，聯合偵測與追蹤的端到端神經網路架構也逐漸受到重視，透過共享特徵提取層來提升運算效率，並利用圖神經網路或 Transformer 來進行更全域的時空特徵關聯。

## 實際應用
多物件追蹤技術在眾多領域發揮著關鍵作用。在智慧交通系統中，這項技術被廣泛用於車流監控與分析，透過追蹤車輛的移動軌跡，系統可以計算交通流量、平均車速，甚至自動偵測違規變換車道或逆向行駛等危險行為，為城市交通管理提供即時數據支持。在體育賽事分析中，多物件追蹤可用於追蹤球員與球的運動路徑，幫助教練團隊分析戰術執行狀況、評估球員體能消耗，並為轉播畫面提供增強實境的戰術解析圖形。公共安全與智慧監控也是重要的應用場景，在機場、車站等擁擠的公共場所，系統能夠追蹤人群流動模式，偵測異常聚集行為或遺留物品，提升安全防範能力。此外，在自動駕駛領域，自駕車必須時刻追蹤周圍其他車輛、行人與自行車的動態，以預測其未來的移動意圖，確保行駛過程的安全性。在零售業的智慧商店中，追蹤顧客在店內的購物動線，則能幫助商家優化商品擺設與店面動線設計，提升營運效率。

## 常見誤區
在理解與應用多物件追蹤時，常見的誤區之一是將其等同於簡單的物件偵測加上位置比對。許多初學者會認為只要偵測器夠準確，追蹤就能自然解決，但實際上，真實場景中的頻繁遮擋與目標變形，往往會導致簡單位置比對方法的失效，引發頻繁的身分切換錯誤。另一個誤區是過度依賴外觀特徵來進行目標匹配，在擁擠或目標外觀高度相似的場景中，僅靠外觀特徵容易產生誤判，必須綜合考量空間運動規律。此外，開發者有時會忽略系統的延遲問題，在某些即時應用如自動駕駛中，為了追求極致的追蹤準確率而使用過於龐大的重新識別網路，可能導致處理延遲過高，反而失去實用價值。還有一個常見的迷思是認為所有環境下的追蹤演算法都可以通用，實際上，不同場景對追蹤演算法的需求差異極大，應用於空拍畫面的追蹤模型與應用於平視監控攝影機的模型，在特徵設計與參數調校上往往需要截然不同的策略。

## 與相關技術的比較
將多物件追蹤與相關技術對比，可以更清楚地看出其技術特徵。與單物件追蹤相比，單物件追蹤通常在第一幀由使用者指定一個目標，模型隨後只需專注於該目標的定位，無需處理新目標的出現或背景中其他干擾目標的身分管理；而多物件追蹤則需要同時處理未知的目標數量與頻繁的目標進出場景，複雜度顯著提高。與純粹的物件偵測相比，偵測模型只關注每一幀的空間資訊，將各幀視為獨立事件，多物件追蹤則增加了時間維度的連貫性要求。若與影片實例分割相比，多物件追蹤通常只輸出矩形的邊界框與追蹤編號，計算負擔較輕，適合需要快速掌握目標大略位置與軌跡的應用；而影片實例分割則進一步要求像素級的精確輪廓，雖然資訊更豐富，但對算力的要求也高出許多。此外，與行人重新識別技術相比，行人重識別主要解決跨攝影機視角的個體匹配問題，通常不強調連續影格的時序追蹤，而多物件追蹤則側重於單一攝影機視角下的連續運動軌跡重建。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 多物件追蹤中的「身分切換」是什麼意思？

在多物件追蹤系統中，「身分切換」是指系統在追蹤過程中，錯誤地將原本屬於某目標的追蹤編號分配給了另一個目標，或是目標經過遮擋後被系統賦予了全新的編號。這種錯誤通常發生在多個目標外觀相似、距離過近發生交會，或是目標被障礙物長時間遮擋的場景。身分切換次數是評估追蹤演算法穩定性的重要指標，次數越少代表系統維持長期追蹤的能力越強。

### 卡爾曼濾波器在多物件追蹤中扮演什麼角色？

卡爾曼濾波器在多物件追蹤中主要用於目標的運動狀態預測與軌跡平滑化。系統會根據目標過去的位置與速度資訊，建立一個運動學模型。在下一幀影像實際偵測結果出來前，卡爾曼濾波器會預先估計目標可能出現的空間位置。這個預測位置隨後會與實際的偵測框進行比對，協助系統縮小目標匹配的搜尋範圍，並在偵測框偶爾出現雜訊或暫時遺失時，提供穩定的軌跡估計。

### 深度學習如何改善傳統的多物件追蹤演算法？

深度學習大幅提升了多物件追蹤中兩個關鍵環節的效能：目標偵測與特徵提取。現代神經網路能夠在複雜光照與嚴重遮擋下，提供更精準、更具魯棒性的物件偵測框，減少追蹤遺漏。同時，深度度量學習被用於提取目標的高階外觀特徵，這些特徵對姿態變化與視角轉換較不敏感，使得在目標交會或短暫遮擋後的重新辨識變得更加可靠，顯著降低了身分切換的發生率。

---

深度解說頁：https://aiterms.tw/learning/what-is-multi-object-tracking
快查頁：https://aiterms.tw/terms/multi-object-tracking
最後更新：2026/07/04