2020 年 1 月 20 日 15:14
從人工智能發展的早期開始,計算機科學家就一直夢想著創造出能像我們一樣看世界和理解世界的機器,這些努力推動了計算機視覺的出現。
本文最初發布于 TechTalks 博客,經原作者授權由 InfoQ 中文站翻譯并分享。
本文是“ 解密人工智能 ”系列文章的一部分。該系列文章(試圖)消除有關人工智能的術語和傳說的歧義。
從人工智能發展的早期開始,計算機科學家就一直夢想著創造出能像我們一樣看世界和理解世界的機器。這些努力導致了 計算機視覺 的出現,這是人工智能和處理視覺數據內容的計算機科學的一個巨大的子領域。
近年來,由于 深度學習 和人工神經網絡的發展,計算機視覺實現了飛躍。深度學習是人工智能的一個分支,尤其適合處理圖像和視頻等非結構化數據。
這些進展為促進計算機視覺在現有領域的應用和將其引入新領域鋪平了道路。在許多情況下,計算機視覺算法已經成為我們日常使用的應用程序的一個非常重要的組成部分。
先不要對計算機視覺的進步過于興奮,讓我們了解下當前人工智能技術的局限性,這很重要。雖然有了顯著的改進,但距離有能像人類那樣理解照片和視頻的計算機視覺算法,我們還有很長的路要走。
目前, 深度神經網絡 (計算機視覺系統的核心)非常擅長像素級模式匹配。它們在圖像分類和對象定位方面特別有效。但是,當涉及到理解可視化數據的上下文和描述不同對象之間的關系時,它們常常失效。
該領域的最新工作 顯示,計算機視覺算法存在局限性,而且需要新的評估方法。盡管如此,目前計算機視覺的應用表明,僅通過模式匹配就可以完成很多工作。在這篇文章中,我們將探索其中的一些應用程序,但是我們也將討論它們的局限性。
你每天都在使用計算機視覺應用程序,只是在某些情況下可能沒有注意到。以下是計算機視覺的一些實用的流行應用,它們使生活變得有趣和方便。
在圖像分類和目標檢測方面,計算機視覺已經取得了很大的進展。如果標記數據足夠多,那么訓練出的神經網絡將能夠以令人印象深刻的準確性檢測和突出顯示許多各種不同的物體。
很少有公司能有谷歌那樣海量的用戶數據。該公司一直在利用其幾乎無限(且不斷增長)的用戶數據開發一些最高效的人工智能模型。當你在谷歌照片中上傳照片時,它使用其計算機視覺算法用關于場景、對象和人員的內容信息來標注照片。然后,你可以根據這些信息搜索圖像。
例如,如果搜索“dog”,谷歌將自動返回庫中包含 dog 的所有圖像。
然而,谷歌的圖像識別并不完美。有一次,計算機視覺算法錯誤地 將兩名深色皮膚的人的照片標記為“大猩猩” ,使公司很尷尬。
谷歌還使用計算機視覺從庫、驅動器和 Gmail 附件中的圖像中提取文本。例如,當你在收件箱中搜索某個術語時,Gmail 還會查看圖像中的文本。不久前,我在 Gmail 中搜索我的家庭地址,我收到一封帶有圖片附件的電子郵件,其中包含一個有我地址的 Amazon 程序包。
許多公司現在都使用 機器學習 來自動增強照片。谷歌的 Pixel 系列手機就使用設備上的神經網絡進行自動增強,如白平衡,并添加 模糊背景 等效果。
計算機視覺的發展帶來的另一個顯著的進步是智能縮放。傳統的縮放功能通常會使圖像變得模糊,因為它們通過在像素之間插值來填充放大的區域。與放大像素不同,基于計算機視覺的縮放側重于邊緣、模式等特征。這種方法可以得到更清晰的圖像。
許多初創公司和歷史悠久的圖形公司已經轉向使用深度學習來增強圖像和視頻。Adobe 的 增強細節技術 (以 Lightroom CC 為特色)使用機器學習來創建更清晰的縮放圖像。
圖像編輯工具 Pixelmator Pro 提供了 ML 超分辨率 特性,它使用卷積神經網絡提供清晰的縮放和增強。
直到不久前,面部識別還是一項笨拙且成本高昂的技術,僅限于警察研究實驗室。但近年來,由于計算機視覺算法的進步,面部識別已經進入了各種計算設備。
iPhone X 引入了 FaceID,這是一種 身份驗證系統 ,當手機看到主人的臉時,它會利用設備上的神經網絡解鎖手機。在設置過程中,FaceID 使用主人的面部圖像訓練它的人工智能模型,并且,即使照明條件、面部毛發、發型、帽子和眼鏡等方面存在差異,它也可以很好地工作。
在中國,許多商店現在使用面部識別技術為顧客 提供更流暢的支付體驗 (但代價是他們的隱私)。顧客無需使用信用卡或移動支付應用,只需面對裝有電腦視覺系統的攝像頭即可。
然而,盡管有這些進步,目前的面部識別并不完美。人工智能和安全研究人員已經發現了許多導致面部識別系統出錯的方法。有這樣一個案例, 卡內基梅隆大學的研究人員 發現,他們可以通過佩戴特制的眼鏡欺騙面部識別系統,讓它們誤以為自己是名人。
隨著 物聯網(IoT) 的無序發展,連接到互聯網的家居安全攝像頭越來越受歡迎。你現在可以很容易地安裝安全攝像頭,并隨時在線監控你的家。
每個攝像頭都向云發送大量的數據。但是,安全攝像頭記錄的大部分畫面都無關痛癢,這造成了 大量的網絡、存儲和電力資源的浪費 。計算機視覺算法可以使家居安全攝像頭更有效地利用這些資源。
智能相機一直處于閑置狀態,直到它們在即時影像中檢測到一個物體或移動,然后它們就可以開始向云發送數據或向相機的所有者發送警報。然而,請注意,計算機視覺在理解上下文方面效果仍然不是很好。所以,不要指望它能區分善意的舉動(如一個球滾過房間)和需要你注意的事情(如一個小偷闖入你家)。
增強現實 技術是一種將真實世界的視頻和圖像與虛擬物體疊加在一起的技術,在過去幾年里,它已經成為一個不斷增長的市場。增強現實技術的發展在很大程度上歸功于計算機視覺算法的進步。AR 應用程序使用機器學習來檢測和跟蹤目標位置和對象,并據此放置虛擬對象。你可以在很多應用中看到AR 和計算機視覺的結合,比如 Snapchat 的濾鏡 和 Warby Parker 的 Virtual Try-On。
計算機視覺還能讓你通過手機攝像頭的鏡頭從現實世界中提取信息。一個非常顯著的例子是谷歌 Lens,它使用計算機視覺算法來執行各種任務,比如讀取名片、檢測家具和衣服的風格、翻譯路牌,以及根據路由器標簽 將手機連接到 wi-fi 網絡 。
由于深度學習的進步,計算機視覺正在解決以前計算機很難甚至不可能解決的問題。在某些情況下,經過良好訓練的計算機視覺算法可以與擁有多年經驗及經過相應訓練的人類相媲美。
在深度學習出現之前,創建能夠處理醫學圖像的計算機視覺算法需要軟件工程師和主題專家做大量的工作。他們必須合作開發從放射圖像中提取相關特征的代碼,然后檢查它們以進行診斷。(人工智能研究員 Jeremy Howard 對此進行了 有趣的討論 。)
深度學習算法提供了端到端的解決方案,使這個過程非常簡單。工程師們建立了恰當的神經網絡結構,然后用 X 光片、核磁共振成像(MRI)圖像或 CT 掃描圖像對其進行訓練,并標注結果。然后,神經網絡會找出與每個結果相關的特征,這樣就可以診斷未來的圖像,其準確性令人印象深刻。
計算機視覺已經在許多醫學領域找到了合適的應用場景,包括 癌癥檢測和預測 、放射學、 糖尿病性視網膜病 。
一些人工智能研究人員甚至 表示 ,深度學習將很快取代放射學家。但那些在這一領域有豐富經驗的人 并不認同 。診斷和治療疾病所要做的工作遠遠超出查看幻燈片和圖像。我們不要忘記,深度學習是從像素中提取模式——它不能復制人類醫生的所有職責。
教電腦玩游戲 一直是人工智能研究的一個熱點領域。大多數游戲程序都使用 強化學習 ,這是一種人工智能技術,通過反復試驗來改進自己的行為。
計算機視覺算法在幫助這些程序解析游戲圖形內容方面起著重要的作用。然而,需要注意的一點是,在許多情況下,為了使神經網絡更容易理解它們,這些圖形被“簡化”了。此外,目前的人工智能算法需要大量的數據來學習游戲。例如, OpenAI 的 Dota 游戲 AI 使用 4.5 萬年的游戲數據訓練才能達到冠軍級別。
2016 年, 亞馬遜推出了 Go ,你可以走進這家商店,拿起你想要的任何東西,然后離開,不會因為入店行竊而被逮捕。Go 使用了各種人工智能系統來消除對收銀員的需求。
當顧客在店內走動時,裝有先進計算機視覺算法的攝像頭會監控他們的行為,并跟蹤他們挑選或放回貨架的商品。當他們離開商店時,他們的購物車會自動記入他們的亞馬遜賬戶。
三年后,亞馬遜又新開了 18 家 Go 商店,而這項工作仍在進行中。但有跡象表明,計算機視覺(在其他技術的幫助下)總有一天會讓排隊結賬成為過去時。
無人駕駛汽車一直是人工智能領域最長久的夢想和最大的挑戰之一。今天,我們距離能夠在各種照明和天氣條件下在任何道路上行駛的 自動駕駛汽車 還有很長的路要走。但由于深度神經網絡的發展,我們已經取得了很多進展。
創造自動駕駛汽車的 最大挑戰之一 是使它們能夠理解周圍的環境。雖然不同的公司正以不同的方式解決這個問題,但有一件事是不變的,那就是計算機視覺技術。
安裝在汽車周圍的攝像頭監控著汽車的環境。深度神經網絡分析視頻片段,并提取周圍物體和人的信息。這些信息與來自激光雷達等其他設備的數據相結合,形成該地區的地圖,幫助汽車導航并避免碰撞。
像所有其他技術一樣,人工智能并非方方面面都令人愉悅。先進的計算機視覺算法可以增強惡意應用。下面是一些引起關注的計算機視覺應用。
對面部識別技術感興趣的不僅僅是手機和電腦制造商。事實上,面部識別技術的最大客戶是政府機構,他們對利用這項技術在監控錄像中自動識別罪犯有著濃厚的興趣。
但問題是,在國家安全和公民隱私之間,你在哪劃線?若前者太多而后者太少,就會導致一種監控狀態,讓政府獲得太多控制權。以面部識別技術為基礎的安全攝像頭的廣泛使用使政府能夠密切跟蹤數百萬公民的行動,無論他們是否是犯罪嫌疑人。
在美國和歐洲,情況比較復雜。在向執法部門提供面部識別技術方面,科技公司會遭到員工和數字維權人士的 抵制 。美國的一些州和城市已經 禁止面部識別技術的公共使用 。
計算機視覺也能給武器裝上眼睛。軍用無人機可以使用人工智能算法來識別物體和挑選目標。在過去的幾年里,軍方使用人工智能引發了很多爭議。因為面臨著來自員工的批評,谷歌不得不 取消與國防部續簽 計算機視覺技術開發合同。
目前還沒有自主武器。大多數軍事機構在使用人工智能和計算機視覺系統時都有人的干預。
但人們擔心,隨著計算機視覺的進步和軍事部門的進一步介入,我們遲早會擁有自主選擇目標并扣動扳機的武器,而不需要人類來做決定。
著名計算機科學家和人工智能研究員 Stuart Russell 成立了一個組織,致力于 阻止自主武器的發展 。
查看英文原文: Computer vision applications: The power and limits of deep learning
https://www.infoq.cn/article/wLSpoj2eOQF7ujcHZqzf
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。