Velocidad de Inferencia LLM Inferencia LLM
Inferencia LLM
Estimador de Velocidad.
Selecciona un modelo LLM, formato de cuantización y GPU para estimar la velocidad de generación de tokens en tiempo real. Basado en ancho de banda de memoria — el verdadero cuello de botella de la inferencia autorregresiva.
1. Selecciona el Modelo LLM
category
Selecciona una familia de modelos
2. Cuantización
fp32/fp16 = precisión completa, máxima calidadq8 = 8 bits, casi sin pérdidasq4 = 4 bits, mejor equilibrio tamaño/calidadq2 = 2 bits, muy pequeño, menor calidad
3. Selecciona la GPU
branding_watermark
Selecciona una marca de GPU
psychology
Configura tu estimación
Selecciona un modelo, cuantización y GPU para ver la velocidad de generación de tokens estimada.
1 smart_toyElige un modelo LLM
2 memory_altSelecciona el formato de cuantización
3 developer_boardElige tu GPU de inferencia