首頁>
VR資訊>
GEEK NICE>
GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

科技業(yè)界數(shù)字生活人工智能虛擬現(xiàn)實原創(chuàng)

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

時間：2017-08-29 來源：VR之家

0 203

8月23日，北京國際廣播電影電視展覽會（BIRTV2017）在中國國際展覽中心（老館）開幕。NVIDIA將參與本屆展會，展示NVIDIA的GPU渲染和VR技術(shù)將如何應(yīng)用于傳媒、娛樂、數(shù)字內(nèi)容創(chuàng)建、以及建筑設(shè)計、汽車研發(fā)與設(shè)計等相關(guān)工作流程。我們受邀參觀了NVIDIA的展臺，體驗最新的圖形圖像技術(shù)，并聽取相關(guān)工作人員的精彩演講，了解到一些GPU技術(shù)最新的發(fā)展情況。

本次媒體溝通會上的主要發(fā)言人包括：NVIDIA中國區(qū)業(yè)務(wù)拓展總監(jiān)何猶卿，NVIDIA中國虛擬現(xiàn)實業(yè)務(wù)開發(fā)及銷售經(jīng)理張武和NVIDIA中國虛擬現(xiàn)實業(yè)務(wù)開發(fā)及銷售經(jīng)理周錫健。

他們的發(fā)言內(nèi)容分別包括：基于GPU的人工智能技術(shù)的發(fā)展和應(yīng)用（本次重點講述媒體領(lǐng)域的運用），GPU 360度高清視頻技術(shù)和NVIDIA開發(fā)的虛擬現(xiàn)實輔助設(shè)計工具——Holodeck（暫譯為全息甲板）介紹。

一、基于GPU的人工智能技術(shù)的發(fā)展和應(yīng)用

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

何老師在這里主要分享了NVIDIA不久之前在美國SIGGRAPH 2017上發(fā)布的一些最新消息。

首先是最近二三十年發(fā)生的主要技術(shù)革命，包括互聯(lián)網(wǎng)的誕生、移動互聯(lián)網(wǎng)的興起和接下來可能出現(xiàn)的人工智能變革。前兩次變革的成果我們已經(jīng)看到，然后隨著計算機運算力的提升我們可以實現(xiàn)大數(shù)據(jù)分析等大規(guī)模數(shù)據(jù)運算，然后以深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)也逐漸開始運用，進(jìn)入人們的日常生活，例如智能翻譯、醫(yī)療健康、智慧城市等。

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

根據(jù)一些數(shù)據(jù)分析，當(dāng)前全球有三千多家公司正積極投入到人工智能的開發(fā)過程當(dāng)中。到了2020年，機器人在客服服務(wù)領(lǐng)域的比例將達(dá)到85%。到時機器人將不再僅僅負(fù)責(zé)咨詢，售后、亦或是導(dǎo)購都會通過機器人來完成。

具體到傳媒領(lǐng)域的應(yīng)用，人工智能可以實現(xiàn)的場景主要聚焦到視覺和聽覺兩方面。例如神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)了古代或現(xiàn)代藝術(shù)家的畫作之后，就可以模仿這種藝術(shù)風(fēng)格，輸入場景它能夠生成對應(yīng)風(fēng)格的畫作，例如把照相機拍攝的圖片轉(zhuǎn)化為梵高的名作。

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

媒體廣告也是合適的應(yīng)用場景。它可以識別分析各類廣告中商標(biāo)的辨識度和具體時長，判別廣告投放的價值和回報。實際上愛奇藝已經(jīng)利用相關(guān)技術(shù)實現(xiàn)了視頻內(nèi)容的快速審核，包括視頻畫面、標(biāo)題、標(biāo)簽等，實現(xiàn)2分鐘就能上線的速度，人工是無法達(dá)到這樣的效率的。以現(xiàn)在的AI識別速度，可以實現(xiàn)對30幀標(biāo)清視頻中各種物體、人物進(jìn)行實時識別。

還有動漫影視后期制作，這里需要大量數(shù)字內(nèi)容，它可以根據(jù)現(xiàn)有素材去合成需要風(fēng)格的場景。例如電影里需要一個80年代風(fēng)格的場景，可以讓計算機學(xué)習(xí)老照片，然后利用素材生成那種懷舊風(fēng)格的場景。同樣，電影中大量運用的CG畫面，以前都要通過復(fù)雜設(shè)備捕捉演員的表情、動作，例如為了制作面部的動作，會在演員臉上貼上很多傳感器來捕捉。但難點之一是捕捉不到眼神，因為眼睛上面沒法貼傳感器。對舌頭的捕捉也很困難，因為舌頭上無法貼傳感器。

為了達(dá)到傳神的效果，眼睛舌頭都需要專門制作動畫效果，現(xiàn)在NVIDIA和Remedy公司合作，錄制各種包含人面部表情變化的視頻，通過視頻文本訓(xùn)練神經(jīng)網(wǎng)絡(luò)，讓CG角色完全可以根據(jù)每個人說話的表情，來復(fù)現(xiàn)舌頭、面部肌肉和眼神，大大的減少了過去做動漫的工作量。

還有影視愛好者喜歡的4K、藍(lán)光電影，盡管獲得4K電視比較容易，但目前4K的片源仍然是比較稀少的，京東方正在利用人工智能大力開發(fā)具有超高分辨力的解決方案，能夠?qū)?biāo)清或高清視頻轉(zhuǎn)化成為4K內(nèi)容。這里就通過深度學(xué)習(xí)技術(shù)對視頻中的細(xì)節(jié)進(jìn)行補全，根據(jù)學(xué)習(xí)獲得的各類素材猜測真實的細(xì)節(jié)，例如毛發(fā)的特效等。

語音方面，主要是客服和語音助手。大多數(shù)企業(yè)目前均采用NVIDIA GPU對語音識別進(jìn)行訓(xùn)練，幫助它提升文字、語音識別的準(zhǔn)確度。人工智能能夠根據(jù)用戶的精確畫像做精確推薦，就消費領(lǐng)域來說，人工智能技術(shù)能夠根據(jù)用戶在社交平臺上發(fā)送的文字和圖片，幫助企業(yè)快速了解用戶的喜好，得到用戶的準(zhǔn)確畫像。

二、GPU 360度高清視頻技術(shù)

張老師主要介紹了英偉達(dá)在VR領(lǐng)域提供的一些工具。這些工具可以幫一些內(nèi)容開發(fā)者更快、更高效地利用GPU制作出更好的VR內(nèi)容。VRWorks SDK能夠從四個方面為VR帶來真實感：360 video、圖像渲染、音效、物理特性和觸感。這次的重點是視頻捕捉部分。

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

所謂物理特性和觸感主要就是模擬真實世界的物體帶給我們的感覺。例如一瓶水，顛倒時水面會因為重力而變化，掉到地上會發(fā)出聲音等，這些重力、材質(zhì)、聲音以及觸摸時的力反饋就是可以利用GPU和算法去模仿，讓你感受到同樣或類似的感受。

然后音效，VRWorks Audio致力于模擬真實環(huán)境的聲音，體現(xiàn)讓用戶能夠從聲音中感受到環(huán)境、聲音的距離遠(yuǎn)近等。

圖像渲染。最新的渲染技術(shù)主要是可以提高開發(fā)速度，原本需要幾個月完成的東西現(xiàn)在可能只要幾個星期。

重點的視頻捕捉主要應(yīng)用于VR視頻直播或者說360度全景視頻。NVIDIA是與全景相機廠商進(jìn)行合作，廠商能夠拍攝畫面，采用NVIDIA的SDK進(jìn)行視頻剪輯。他們?nèi)ツ陮崿F(xiàn)的是2D的全景視頻，今年則是雙眼立體全景視頻，說明計算力有很大提升。

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

VRWorks 360 Video SDK（官網(wǎng)免費下載）的特性：（1）支持實時&離線視頻拼接；（2）支持Mono和Stereo方案；（3）最高支持32路的4K視頻輸入。

張老師舉了個例子說明NVIDIA GPU的渲染能力：有一個火車模型，包含1.5億個面，采用上一代GPU，兩片M6000，只能渲染500萬個面，相當(dāng)于只能看到火車頭前半部分?，F(xiàn)在用P6000，然后加了VR SLI、 Single Pass Stereo，整個效能提升了9倍，從之前可以在同一時間渲染500萬個面，變成了4500萬個面。相當(dāng)于從之前的火車頭，能夠看到列車廂了。再往后走，我們又加了Occlusion Culling的功能，整個效能從最早的500萬個面，直接跳到了1.5億個面。

這樣的一次渲染能力對于CAD設(shè)計公司來說很有幫助，這個就體現(xiàn)了NVIDIA GPU的計算能力和專項的渲染加速能力。

三、虛擬現(xiàn)實輔助設(shè)計工具——Holodeck（暫譯為全息甲板）

周老師介紹的就是VR輔助設(shè)計工具——Holodeck（暫譯為全息甲板）。全息甲板最早出現(xiàn)在《星際迷航》電影里，后來的《鋼鐵俠》、《普羅米修斯》也有類似概念的設(shè)備，當(dāng)然這個并不是電影里的那種科幻設(shè)備，而是借助虛擬現(xiàn)實實現(xiàn)類似視覺效果。

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

實現(xiàn)全息甲板主要就是利用計算機模擬整個場景的物理效果，所以需要龐大的計算能力。就像幾十年前游戲只能像素點畫面，然后3D游戲，到現(xiàn)在VR游戲，越來越精細(xì)，越來越完整。

全息甲板就是要提供逼真的反饋，摸到一個物體提供力反饋，看到場景，聽到聲音。也許還要用人工智能識別你說的話，提供實時生成的360度視頻，在各種感官層面上呈現(xiàn)一個逼真的世界。

NVIDIA的Holodeck就是按照這樣的理念設(shè)計的。他們在展臺提供了HTC Vive可以體驗這個應(yīng)用，VR箘也去體驗了一下，稍后說明具體效果。

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

Holodeck里面導(dǎo)入了一輛超跑的工程文件（真正的跑車廠商的設(shè)計工程文件），它總共有5千萬個多邊形，足夠精細(xì)，而Holodeck可以實時生成超跑的物理光照效果，你可以在四周移動查看每個細(xì)節(jié)，可以透視內(nèi)部，展開零件，就好像視覺上真的有一輛超跑在你面前。

Holodeck的視覺效果是基于真實物理模型的，它還提供相關(guān)的虛擬互動，兩個身處異地的人可以在虛擬場景中進(jìn)行互動、交流；或者用這個虛擬場景訓(xùn)練AI機器人，它在VR中訓(xùn)練獲得一些操作能力，然后直接將數(shù)據(jù)導(dǎo)入真實的機器人，它就可以在同樣的場景中立刻實現(xiàn)同樣的操作。

還有就是物理反饋，通過控制器去觸碰虛擬物體，它會有對應(yīng)的反應(yīng)。

Holodeck的一個關(guān)鍵點就是注視點渲染，這個就是VR箘以前也在資訊里介紹過的焦點渲染技術(shù)。因為現(xiàn)在的VR場景任何區(qū)域都是清晰的，但實際上我們的眼鏡有對焦過程，近處遠(yuǎn)處有模糊的地方，這也是視覺深度的一部分體現(xiàn)，而目前的VR沒法表現(xiàn)。這需要眼球追蹤技術(shù)，NVIDIA正在研究的注視點渲染，VR顯示技術(shù)等多方面提升。

四、媒體問答相關(guān)

我們首先問了：基于GPU的人工智能和其他類似產(chǎn)品相比有什么突出的特點？

關(guān)于這一點，何老師的回答主要可以概括為兩點內(nèi)容：一是GPU在編程方面的優(yōu)勢，包括各種工具鏈、相關(guān)的庫和生態(tài)鏈體系，因為最早研究人員就是利用GPU做這方面研究，這里積累了工具鏈方面的優(yōu)勢，并且GPU工具已經(jīng)發(fā)展比較成熟，開發(fā)人員習(xí)慣于使用這些工具。二是神經(jīng)網(wǎng)絡(luò)發(fā)展速度，相關(guān)架構(gòu)變化也很迅速，相對于其他同類產(chǎn)品，NVIDIA GPU適用范圍廣泛，能夠通過對自身的調(diào)整適應(yīng)架構(gòu)變化，通用性更佳。

然后是關(guān)于360度視頻渲染SDK合作的問題，這一點NVIDIA基本是提供開放的工具，軟件可以自行下載。

接著是全景視頻拼接方面的問題：全景相機有多個鏡頭，假設(shè)有一個人從一個鏡頭的邊緣過度到另外一個鏡頭的邊緣的時候，人在運動過程當(dāng)中會變形或者突然消失到突然出現(xiàn)，NVIDIA如何解決這個問題？

這里張老師表示涉及底層算法的部分暫時沒辦法提供確切的答案，主要是與攝像頭時間同步有關(guān)，多個畫面幀時間記錄沒有出錯就不會出現(xiàn)這樣的情況。

關(guān)于Holodeck多人協(xié)作的問題，周老師表示異地協(xié)同需要網(wǎng)絡(luò)條件允許，本地有一臺強力的NVIDIA機器加速就可以。

然后是Holodeck實際運用，他們表示Holodeck是一個運用到實際工程設(shè)計環(huán)境的VR工具，是一個通用的平臺，將要服務(wù)于現(xiàn)在的制造業(yè)、設(shè)計領(lǐng)域。它主要是解決了在VR里面實時操作、多人協(xié)同的問題?，F(xiàn)階段的開發(fā)版本，是針對于汽車制造業(yè)。但是實際上未來是可以應(yīng)用于更多有此類需求的領(lǐng)域的，例如建筑行業(yè)。簡而言之，這個平臺，不只是為了汽車制造業(yè)而打造的，而是旨在應(yīng)用于更多類型的場景中，讓更多行業(yè)領(lǐng)域能夠受益其中。

五、VR箘體驗Holodeck

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

體驗Holodeck的媒體同行

問答結(jié)束以后，VR箘就進(jìn)入Holodeck演示間，工作人員幫我佩戴好Vive頭顯，并在體驗時給我提供輔助說明。

需要說明的是Holodeck還提供了互動用的畫筆工具，VR箘用它畫了一個懸浮在空中的3D籠子，從多個角度觀察效果，確實具有很好的立體感（并不是在平面上畫一個立體感的圖像，而是圖像本身就是實體的），不過因為這是在虛擬空間畫的，沒辦法拍照。

其他體驗的功能包括瞬間移動，可以移動到跑車四周從多個角度進(jìn)行觀察（因為場地有限，不可能直接跑過去）；修改跑車配色；透視鏡（查看內(nèi)部構(gòu)造，就是拿在手里的一個鏡子，指哪透視哪）；跑車分解效果（跑車的所有零件分開，懸浮在空中）；場景切換（查看不同環(huán)境下跑車的視覺效果，車身光影變化很贊）。

從體驗來看，雖然Vive頭顯仍然能看出像素點，但整個場景非常逼真，很快就忘記像素點不夠清晰的問題了；然后整體追蹤非常流暢，并沒有讓人感到延遲的地方，雖然VR中長距離移動和操作和現(xiàn)實還有區(qū)別，但很快就能上手了；不過我也能感覺到VR場景視覺上的一些差異，就是之前講到的注視點渲染的問題，因為場景沒有清晰度的變化，所以雖然是雙眼立體視覺，仍然感覺視覺縱深比較差，就是畫籠子的時候以為畫的兩條線在同一個平面上，結(jié)果轉(zhuǎn)過去看發(fā)現(xiàn)其實一前一后，正面看不出來。

最后，這樣的虛擬現(xiàn)實已經(jīng)能夠在視覺上以假亂真了，例如跑車零件散開時有個零件正好快速向我彈過來，下意識躲了一下，并且在體驗了二十分鐘以后脫下頭顯，也許是更適應(yīng)虛擬現(xiàn)實了，覺得現(xiàn)實世界看起來有點不真實（當(dāng)然這也說明模擬的世界其實在細(xì)節(jié)上與現(xiàn)實有點差別）。

版權(quán)聲明：VR之家(bcs-co.com)所有原創(chuàng)文章獨家稿件
未經(jīng)授權(quán)，禁止轉(zhuǎn)載，違者必將追究法律責(zé)任。

文章點評

帶你玩VR

【帶你玩VR】為王國而戰(zhàn)！你需要的是《勇氣Valiant》 207 10

GPU計算走向AI和VR 英偉達(dá)BIRTV媒體溝通會重點拾記

相關(guān)文章

文章點評

相關(guān)閱讀

熱門視頻

帶你玩VR

本周熱門文章

推薦閱讀