Estimació del cost de l'API GPT3

Bloc

Saps quant costarà l'API GPT3?

Un càlcul aproximat em diu que pot arribar a un màxim de 790 sol·licituds / $.

GPT3 és bastant enorme ** (paràmetres 175B = 700 GB) ** i ja sabeu fins a quin punt poden costar les inferències de la GPU. Fins i tot si en trobem un cas d’ús, encara hem de justificar el ROI. Hi ha molts blocs sobre les possibles aplicacions, però no he trobat res sobre el seu preu.

Intentem endevinar-ho amb els fonaments dels preus al núvol.

Nota: Podeu utilitzar aquesta metodologia per calcular el cost de l'API per a qualsevol model. A la gent també li agrada fer servir AWS TCO (cost total de propietat) calculadora però m’agrada fer-ho manualment.

Imatge per publicar

Imatge per publicar

PAS 0: cas d'ús

Els transformadors són quadràtics en càlcul. Per tant, és extremadament crucial decidir el cas d’ús perquè el cas d’ús decidirà la longitud de la seqüència.

El millor cas d'ús per a GPT3 és la generació de text donada la sol·licitud.

El missatge pot ser de qualsevol longitud, però 128 fa una suposició sensata. La gent també ho fa recursivament afegint el text generat anteriorment per generar-ne més.

GPT3 pot agafar la longitud seq_ fins a 1024 (màxima compatible), però a causa de la naturalesa quadràtica del transformador, farà que la inferència sigui encara més costosa.

Fixem la longitud seq a 128 i, a continuació, fem servir l'escala per calcular 1024.

Nota: Podeu utilitzar aquesta metodologia per calcular el cost de l'API per a qualsevol model. A la gent també li agrada fer servir AWS TCO (cost total de propietat) calculadora però m’agrada fer-ho manualment.

entrada d'etiquetes bootstrap 4

PAS 1: obtenir inferències GPT2 per hora

Supòsits

  • Seqüència: 128
  • Inferència GPU + XLA a Tensorflow
  • Instància de la GPU V100
  • 12 vCPU, 40 GB de RAM
  • Mida del lot: 8

De l’experiment HuggingFace full , GPT2 obté un temps d'inferència de 0,02 segons per a una mida de lot de 8 a Tensorflow GPU + XLA.

Per tant, pot servir 8 * 3600 / 0,02 = 1440000 inferències / hora.

PAS 2: obtenir inferències GPT3 per hora

Paràmetres GPT2–1,5B

Paràmetres GPT3–175B

Com que GPT3 no pot cabre en 1 GPU, es divideix en molts. Per motius de simplicitat, suposem que podem extrapolar el temps d’inferència amb càlcul lineal. Tot i que la GPU múltiple pot ser més lenta a causa del pas de gradients d’una GPU a una altra.

Inferències GPT3 equivalents / hora / GPU

= 1440000 * 1.5 / 175

= ~ 12400

#naturallanguageprocessing # data-science # gpt-3 # deep-learning # machine-learning

towardsdatascience.com

Estimació del cost de l'API GPT3

Saps quant costarà l'API GPT3? Un càlcul aproximat em diu que pot arribar a un màxim de 790 sol·licituds / $. GPT3 és bastant enorme (paràmetres 175B = 700 GB) i ja sabeu fins a quin punt poden costar les inferències de la GPU. Fins i tot si en trobem un cas d’ús, encara hem de justificar el ROI. Hi ha molts blocs sobre les possibles aplicacions, però no he trobat res sobre el seu preu.