Velocidad de Inferencia LLM

Inferencia LLM
Estimador de Velocidad.

Selecciona un modelo LLM, formato de cuantización y GPU para estimar la velocidad de generación de tokens en tiempo real. Basado en ancho de banda de memoria — el verdadero cuello de botella de la inferencia autorregresiva.

1. Selecciona el Modelo LLM

category

Selecciona una familia de modelos

2. Cuantización

fp32/fp16 = precisión completa, máxima calidadq8 = 8 bits, casi sin pérdidasq4 = 4 bits, mejor equilibrio tamaño/calidadq2 = 2 bits, muy pequeño, menor calidad

3. Selecciona la GPU

branding_watermark

Selecciona una marca de GPU

psychology

Configura tu estimación

Selecciona un modelo, cuantización y GPU para ver la velocidad de generación de tokens estimada.

1 smart_toyElige un modelo LLM
2 memory_altSelecciona el formato de cuantización
3 developer_boardElige tu GPU de inferencia
© 2026 PC Master Studio.Sincronizado con el Pulso de Precisión.

En calidad de Afiliado de Amazon, obtengo ingresos por las compras adscritas que cumplen los requisitos aplicables.