Videó: 11/12 Сделай это правильно ( 1 сезон ) Озвучка (November 2024)
A számítások legforróbb témája manapság a gépi tanulás, és ez mindenképpen látható a hardver oldalán. Az elmúlt hetekben sokat hallottunk a mélyreható tanuláshoz tervezett új chipekről, az Nvidia Tesla P100-jától és a Drive PX 2-től a Google Tensor feldolgozó egységeitől az Intel Xeon Phi-ig. Tehát nem meglepő, hogy a Hot Chips konferencián a múlt héten számos különböző cégtől hallottuk a gépi tanulásra és a látásfeldolgozásra szabott tervezés nagyon eltérő megközelítésével.
Talán a legnagyobb hír az volt, hogy az Nvidia részletesebben közölte Parker chipjével, amelyet a Drive PX 2 modulban használt az önjáró autók számára, és amelynek célja az önálló gépek mély tanulása. Ez a chip két, egyedi módon épített, ARM-kompatibilis Denver CPU-magot, négy ARM Cortex-A57-magot és 256-at használ az Nvidia által Pascal CUDA (grafikus) magnak.
Az Nvidia szerint ez volt az első gépjárművek számára tervezett és osztályozott chip, amely speciális rugalmassággal rendelkezik, és beszélt a gyorsabb memóriáról és a memóriáról, megjegyezve, hogy a Denver mag jelentõsen javítja a teljesítményt wattonként. Az új funkciók között szerepel a hardveresen támogatott virtualizáció, akár 8 VMS-sel, amelyek lehetővé teszik az autós funkciók integrálását, amelyeket hagyományosan külön számítógépeken végeznek. Összességében a társaság szerint a Drive PX 2 modellnek lehet két ilyen Parker chipe és két diszkrét GPU, összesen 8 teraflops (dupla pontosság) vagy 24 mélyreható tanulási művelettel (8 bites, vagy félig precíziós). A társaság összehasonlító referenciaértékeket vett összehasonlítva kedvezően az aktuális mobil feldolgozással, az SpecInt_2000 alkalmazásával, ami egy viszonylag régi referenciaérték. A teljesítmény azonban lenyűgözőnek tűnik, és a Volvo nemrégiben azt mondta, hogy a jövő évtől kezdve önálló járművek tesztelésére fogja használni.
Természetesen sok más megközelítés is létezik.
A kínai indító DeePhi egy FPGA-alapú neurális hálózatok platformját vitatta meg, két különböző architektúrával, az érintett hálózat típusától függően. Az Arisztotelészet viszonylag kicsi konvolúciós neurális hálózatokra tervezték és a Xilinx Zynq 7000 alapján, míg a Descartes nagyobb visszatérő ideghálózatokhoz készült, hosszú rövid távú memóriát (RNN-LSTM) használva, a Kintex Ultrascale FPGA alapján. A DeePhi azt állítja, hogy fordítója és architektúrája lerövidítette a fejlesztési időt az FPGA-k legtöbb felhasználásához képest, valamint azt is, hogy egy FPGA használata jobb teljesítményt nyújthat, mint az Nvidia Tegra K1 és K40 megoldásai.
Egy másik megközelítés egy digitális jelfeldolgozó vagy DSP használata, amely általában egy meghatározott funkciót vagy egy apró funkciókészletet nagyon gyorsan, nagyon kevés energiát használ. Ezeket gyakran beépítik más, összetettebb chipekbe, hogy felgyorsítsák bizonyos funkciókat, például a látásfeldolgozást. Számos vállalat, köztük a Movidius, a CEVA és a Cadence, megosztotta megoldásait a Hot Chips-en.
A Movidius bemutatta a DSP-alapú megoldást, a Myriad 2 látásfeldolgozó egység néven, és a DJI Phantom 4 drónában jelentette meg. Azt is megmutatta, hogy a Myriad 2 felülmúlja-e a GPU-kat és a GoogLeNet mély neurális hálózatot, amelyet a 2014-es ImageNet versenyen használtak.
A CEVA népszerűsítette a CEVA-XM4 Vision DSP-t, amelyet kifejezetten a látásfeldolgozásra állítottak össze és az autóiparra irányították, a CEVA Deep Neural Network 2 platformjával együtt, amely szerint bármi elkészíthető a Caffe vagy a TensorFlow keretrendszerekhez, és optimalizálhatja annak futtatását. a DSP-jén. Az új processzornak a jövő évben SoC-kben kell lennie.
Eközben a Cadence, amely a Tensilica látásfeldolgozó processzorcsaládot (amely beilleszthető más termékekbe) megvitatta a legújabb verzióját, a Vision P6-ot, amely új funkciókat, például vektor lebegőpontos támogatást és egyéb funkciókat adott a konvolúciós neurális hálózatokhoz.. Az első termékek hamarosan megjelennek.
A Microsoft a HoloLens fejhallgató hardverének részleteiről beszélt, mondván, hogy egy 14 nm-es Intel Atom Cherry Trail processzort használ, amelyen Windows 10 fut, és egy egyedi Holographic Processing Unit (HPU 1.0) érzékelő hubot, amelyet a TSMC gyártott 28 nm-es folyamaton. Ez magában foglalja a 24 Tensilica DSP magot.
Különösen Cadence egyik diája vette fel, amely megmutatta a GPU-k, FPGA-k és a különféle DSP-k átviteli és hatékonysági különbségeit a szorozás-műveletek szempontjából, amely az ideghálózatok egyik kulcsfontosságú építőeleme. Noha nyilvánvalóan önkiszolgáló (mivel az összes eladó bemutató), rámutatott, hogy a különféle technikák hogyan változnak a sebesség és a hatékonyság szempontjából (teljesítmény wattonként), nem is beszélve a költségről és a programozás egyszerűségéről. Nagyon sok megoldás van a különböző megközelítésekre itt, és érdekes lesz látni, hogy ez hogyan alakul ki az elkövetkező néhány évben.