Videó: Diving into the TPU v2 and v3 (November 2024)
Az elmúlt hetekben számos fontos bevezetésre került az új számítási platformok, amelyeket kifejezetten a gépi tanulás mély ideghálózataira fejlesztettek ki, ideértve a Google új "felhő TPU-ját" és az Nvidia új Volta kialakítását.
Számomra ez a legérdekesebb trend a számítógépes építészetben - még ennél is több, mint az AMD és az Intel most bemutatja a 16 és 18 magos CPU-kat. Természetesen vannak más alternatív megközelítések is, ám az Nvidia és a Google érdemel sok figyelmet az egyedi megközelítéseikre.
A Google I / O-nál láttam, hogy bevezeti a „felhő TPU-t” (a Tensor Processing Unit számára, jelezve, hogy optimalizálva van a Google TensorFlow gépi tanulási keretrendszeréhez). Az előző generációs TPU, amelyet a tavalyi kiállításon mutattak be, egy ASIC, amelyet elsősorban a következtetésekhez terveztek - gépi tanulási műveletek futtatására -, de az új verziót az ilyen algoritmusok következtetésére és kiképzésére tervezték.
Egy nemrégiben írt cikkben a Google további részleteket nyújtott be az eredeti TPU-ról, amelyet 256-tól 256-ig terjedő több-felhalmozódó (MAC) mátrixot tartalmaz (összesen 65 536), legmagasabb teljesítménye 92 teraop (trillió művelet / második). Az utasításokat a gazda CPU-tól kapja meg a PCIe Gen 3 buszon keresztül. A Google szerint ez egy 28 nm-es kivitel, amely kevesebb, mint fele az Intel Haswell Xeon 22 nm processzor méretének, és hogy felülmúlja a processzort és az Nvidia 28 nm-es K80 processzort.
Az új verzió, a TPU 2.0 vagy a felhő TPU néven (fent látva) valójában négy processzort tartalmaz a táblán, és a Google szerint minden fórum képes elérni 180 teraflopot (180 billió lebegőpontos művelet másodpercenként). Ugyanolyan fontos, hogy a táblákat úgy tervezték, hogy együtt dolgozzanak, egy egyedi nagysebességű hálózat használatával, tehát egyetlen gépi tanulási szuperszámításként működnek, amelyet a Google "TPU pod" -nak hív.
Ez a TPU pod 64 második generációs TPU-t tartalmaz, és akár 11, 5 petaflopot biztosít egy nagy gépi tanulási modell képzésének felgyorsításához. A konferencián Fei Fei Li, aki a Google AI kutatását vezette, elmondta, hogy míg a társaság egyik nagyszabású fordítási tanulási modelljének teljes napja van a kereskedelemben elérhető 32 legjobb GPU-n való képzésre, ez most a ugyanazzal a pontossággal délután, a TPU hüvelyének nyolcadát használva. Ez egy nagy ugrás.
Tudja meg, hogy ezek nem kicsi rendszerek - a Pod úgy néz ki, hogy körülbelül négy normál számítási rack méretű.
És úgy tűnik, hogy az egyes processzoroknak nagyon nagy hűtőbordája van, ami azt jelenti, hogy a táblákat nem lehet túl szorosan egymásra rakni. A Google még nem adott sok részletet arról, hogy mi változott a processzorok vagy az összeköttetések ezen verziójában, de valószínű, hogy ez is a 8 bites MAC-okon alapul.
A héttel korábban az Nvidia bemutatta ebben a kategóriában a legújabb bejegyzését, a Telsa V100 Volta néven ismert hatalmas chipet, amelyet az első új CPU-nak írt le az új Volta architektúrával, amelyet csúcskategóriás GPU-k számára terveztek.
Nvidia szerint az új chip képes 120 TensorFlow terafloppra (vagy 15 32 bites TFLOPS vagy 7, 5 64 bites változatra.) Ez egy új architektúrát használ, amely 80 streaming multiprocessort (SM) tartalmaz, amelyek mindegyike tartalmaz nyolc új "Tensor magot". és egy 4x4x4 tömb, amely képes óránként 64 FMA (Fused Multiply-Add) művelet végrehajtására. Az Nvidia szerint a DGX-1V munkaállomásán a VX 8 munkaállomásán a harmadik negyedévben felajánlja a chipet, követve a cég korábbi DGX-1-ét, amely a korábbi P100 architektúrát alkalmazta.
A cég szerint ez a 149 000 dolláros doboz 960 teraflops edzésteljesítményt biztosít, 3200 watt felhasználásával. Később az első azt mondta, hogy egy Személyes DGX állomást szállít négy V100-tal, és a negyedik negyedévben azt mondta, hogy a nagy kiszolgálók szállítják a V100 szervereket.
Ezt a chipet az elsőként bejelentették, hogy a TSMC 12nm-es processzort használja, és ez egy hatalmas chip lesz, amelynek 21, 1 milliárd tranzisztorja van a 815 négyzet milliméter meghajtón. Az Nvidia mind a Microsoftot, mind az Amazonot megemlítette, mint a chip korai ügyfeleit.
Vegye figyelembe, hogy ezek a megközelítések nagy különbségeket mutatnak. A Google TPU-k valóban egyedi chipek, amelyeket a TensorFlow alkalmazásokhoz fejlesztettek ki, míg az Nvidia V100 valamivel általánosabb chipek, amelyek más alkalmazásokhoz különféle matematikai képességeket tudnak felhasználni.
Eközben a többi nagy felhő szolgáltató alternatívákat keresi: a Microsoft mind a GPU-kat használja az oktatáshoz, mind a terepen programozható kapu tömbök (FPGA) használatát a bevezetéshez, és mindkettőt kínál az ügyfelek számára. Az Amazon Web Services a GPU és az FPGA példányokat egyaránt elérhetővé teszi a fejlesztők számára. Az Intel az FPGA-kat és számos más technikát szorgalmazott. Időközben számos új induló vállalkozás alternatív megközelítéseken dolgozik.
Bizonyos szempontból ez a legdrasztikusabb változás, amelyet évek óta látunk a munkaállomások és a szerverprocesszorok területén, legalábbis azóta, hogy a fejlesztők több éve kezdték el használni a "GPU compute" alkalmazást. Érdekes lesz látni, hogyan alakul ez.