計算機視覺的9大常見應用，圖像識別果然第一

計算機視覺的領域正從統計方法轉變為深度學習神經網絡方法。在計算機視覺中仍然需要解決許多具有挑戰性的問題。儘管如此，深度學習方法仍在某些特定問題上取得了最新的成果。有趣的不僅僅是深度學習模型在基準問題上的表現。事實是，單個模型可以從圖像中學習含義並執行視覺任務，從而不需要專門的手工方法。

在本文中，你將發現九個有趣的計算機視覺任務，其中深度學習方法正在取得進展。注意，在圖像分類（識別）任務時，採用了ILSVRC的命名約定。儘管這些任務集中在圖像上，但是它們可以推廣到視頻幀。

我試圖將重點放在你可能感興趣的最終用戶問題的類型上，而不是在深度學習方面做得很好的更多學術子問題上。

每個示例都提供了對該問題的描述以及一個示例。是否有未列出的最喜歡的用於深度學習的計算機視覺應用程式？

1、圖像分類

圖像分類涉及為整個圖像或照片分配標籤。這個問題也被稱為「對象分類」，並且可能更普遍地被稱為「圖像識別」，儘管後者的任務可能適用於與圖像內容分類有關的更廣泛的任務集。

圖像分類的一些示例包括：

是否將X射線標記為癌症（二進位分類）。

對手寫數字進行分類（多類分類）。

為面部照片分配名稱（多類分類）。

用作基準問題的圖像分類的一個流行示例是MNIST數據集。

街景房門號碼（SVHN）數據集是對數字照片進行分類的一種流行的現實版本。

該圖像的類別是什麼？

有許多涉及對象照片的圖像分類任務。兩個受歡迎的示例包括CIFAR-10和CIFAR-100數據集，這些數據集的照片分別分為10類和100類。

大規模視覺識別挑戰賽（ILSVRC）是一項年度競賽，在該競賽中，團隊將根據ImageNet資料庫中提取的數據，在一系列計算機視覺任務中爭奪最佳性能。圖像分類的許多重要進步來自有關此挑戰的任務或有關此任務的論文，其中最著名的是有關圖像分類任務的早期論文。

2、具有本地化的圖像分類

具有本地化的圖像分類涉及為圖像分配類別標籤，並通過邊界框（在對象周圍繪製一個框）顯示對象在圖像中的位置。

這是圖像分類的更具挑戰性的版本。

具有本地化的圖像分類的一些示例包括：

標記X射線是否為癌症，並在癌變區域周圍畫一個方框。

在每個場景中對動物的照片進行分類並在動物周圍畫一個方框。用於本地化圖像分類的經典數據集是PASCAL視覺對象類數據集，或簡稱為PASCAL VOC（例如VOC 2012）。這些是多年來在計算機視覺挑戰中使用的數據集。

該任務可能涉及在圖像中同一對象的多個示例周圍添加邊界框。這樣，有時將該任務稱為「對象檢測」。用於本地化圖像分類的ILSVRC2016數據集是一個受歡迎的數據集，包含150,000張照片和1,000個對象類別。

3、物體檢測

儘管圖像可能包含需要定位和分類的多個對象，但是對象檢測是通過定位對圖像進行分類的任務。與簡單的圖像分類或具有定位的圖像分類相比，這是一個更具挑戰性的任務，因為通常在不同類型的圖像中存在多個對象。通常，針對本地化圖像分類而開發的技術已被使用並證明用於物體檢測。

對象檢測的一些示例包括：

繪製邊界框並標記街道場景中的每個對象。

繪製邊界框並標記室內照片中的每個對象。

繪製邊界框並標記景觀中的每個對象。

PASCAL視覺對象類數據集或簡稱PASCAL VOC（例如VOC 2012）是用於對象檢測的常見數據集。另一個用於執行多個計算機視覺任務的數據集是Microsoft的「上下文數據集中的通用對象」，通常稱為MS COCO。

4、對象分割

對象分割或語義分割是對象檢測的任務，其中在圖像中檢測到的每個對象周圍畫一條線。圖像分割是將圖像分割成多個部分的更普遍的問題。對象檢測有時也稱為對象分割。

與涉及使用邊界框識別對象的對象檢測不同，對象分割可識別圖像中屬於該對象的特定像素。這就像一個細粒度的本地化。一般而言，「圖像分割」可能是指將圖像中的所有像素分割為不同類別的對象。

同樣，VOC 2012和MS COCO數據集可用於對象分割。KITTI Vision Benchmark Suite是另一個受歡迎的對象細分數據集，它提供用於自動駕駛汽車訓練模型的街道圖像。

5、樣式轉移

樣式轉移或神經樣式轉移是從一個或多個圖像中學習樣式並將該樣式應用於新圖像的任務。可以將此任務視為可能沒有客觀評估的一種照片濾鏡或變換。

例如，將特定的著名藝術品（例如帕勃羅·畢卡索（Pablo Picasso）或文森特·梵谷（Vincent van Gogh））的風格應用於新照片。數據集通常涉及使用公共領域的著名藝術品和來自標準計算機視覺數據集的照片。

6、圖像著色

圖像著色或神經著色涉及將灰度圖像轉換為全色圖像。可以將此任務視為可能沒有客觀評估的一種照片濾鏡或變換。示例包括為舊的黑白照片和電影著色。

數據集通常涉及使用現有的照片數據集並創建模型必須學會著色的照片的灰度版本。

7、影像重建

圖像重建和圖像修復是填充圖像缺失或損壞的部分的任務。可以將此任務視為可能沒有客觀評估的一種照片濾鏡或變換。例如，重建舊的，損壞的黑白照片和電影（例如，照片恢復）。數據集通常涉及使用現有照片數據集並創建模型必須學習修復的照片的損壞版本。

8、圖像超解析度

圖像超解析度是生成比原始圖像具有更高解析度和細節的圖像新版本的任務。通常，為圖像超解析度開發的模型可以解決相關問題，因此可以用於圖像恢復和修復。數據集通常涉及使用現有照片數據集並創建照片的縮小版本，而模型必須學習這些縮小版本的模型才能創建超解析度版本。

9、圖像合成

圖像合成是生成現有圖像或全新圖像的目標修改的任務。這是一個非常廣闊的領域，正在迅速發展。它可能包括對圖像和視頻的少量修改（例如，圖像到圖像的翻譯），例如：

更改場景中對象的樣式。

將對象添加到場景。

在場景中添加面孔。

它還可能包括生成全新的圖像，例如：

生成面孔。

生成浴室。

產生服飾。

其他問題

我沒有涉及其他重要而有趣的問題，因為它們不是純粹的計算機視覺任務。據推測，人們學會了在其他形式和圖像（例如音頻）之間進行映射。

計算機視覺與語音識別的應用示例

Gravitylink推出鈦靈AIX是一款集計算機視覺與智能語音交互兩大核心功能為一體的人工智慧硬體，Model Play是面向全球開發者的AI模型資源平台，內置多樣化AI模型，與鈦靈AIX結合，基於Google開源神經網絡架構及算法，構建自主遷移學習功能，無需寫代碼，通過選擇圖片、定義模型和類別名稱即可完成AI模型訓練。