# 視覺變換器（Vision Transformer）

Vision Transformer (ViT) 是一種將 Transformer 架構應用於圖像識別的深度學習模型，它將圖像分割成小塊，並將其視為序列進行處理。

## 完整說明

Vision Transformer (ViT) 是一種創新的圖像識別模型，它直接將 Transformer 架構應用於圖像。ViT 將輸入圖像分割成一系列圖像塊 (patches)，並將這些圖像塊視為序列，然後使用 Transformer 編碼器進行處理，從而實現圖像分類。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/vision-transformer
快查頁：https://aiterms.tw/terms/vision-transformer
深度解說：https://aiterms.tw/learning/what-is-vision-transformer