Velocidad de Inferencia LLM

Inferencia LLM
Estimador de Velocidad.

Selecciona un modelo LLM, formato de cuantización y GPU para estimar la velocidad de generación de tokens en tiempo real. Basado en ancho de banda de memoria — el verdadero cuello de botella de la inferencia autorregresiva.

settings_input_component Configurador de PC Gamer bolt Calculador de Fuentes de Alimentación memory Calculadora VRAM LLM code Comparador de Velocidad de Compilación electric_bolt Calculadora de Costo Eléctrico compare_arrows Detector de Cuello de Botella psychology Velocidad de Inferencia LLM

1. Selecciona el Modelo LLM

2. Cuantización

fp32/fp16 = precisión completa, máxima calidadq8 = 8 bits, casi sin pérdidasq4 = 4 bits, mejor equilibrio tamaño/calidadq2 = 2 bits, muy pequeño, menor calidad

3. Selecciona la GPU

branding_watermark

Selecciona una marca de GPU

psychology

Configura tu estimación

Selecciona un modelo, cuantización y GPU para ver la velocidad de generación de tokens estimada.

1 smart_toyElige un modelo LLM

2 memory_altSelecciona el formato de cuantización

3 developer_boardElige tu GPU de inferencia