LIBRISTO
LIBROAMANTO
obbligatorio
Entra a far parte di una comunità di amanti dei libri di tutto il mondo e ottieni numerosi vantaggi. Crea un account gratuito
0
Spedizione gratuita con Packeta per un prezzo superiore a 69.99 €
Bartolini 4.49 Punto Poste 5.49 Punto Poste 5.49 Punto Bartolini 3.49 DHL 6.99 GLS 7.99

Spedizione gratuita per ordini superiori a 69,99 euro.

AI Inference Optimization Engineering

Quantization, Speculative Decoding, and Hardware-Specific LLM Deployment

Lingua IngleseInglese
Libro In brossura
Libro AI Inference Optimization Engineering ChatVariety Team
Codice Libristo: 52770465
Casa editrice Independently published, giugno 2026
Slash LLM Deployment Costs and LatencyDeploying Large Language Models (LLMs) in production is a mass... Descrizione completa
? points 29 b In preparazione In preparazione Nuovi Nuovi
11.79
Immagazzinamento previsto Pubblicazione 07. 06. 2026

30 giorni per il reso

Slash LLM Deployment Costs and Latency

Deploying Large Language Models (LLMs) in production is a massive economic and engineering hurdle. AI Inference Optimization Engineering is your comprehensive, hands-on guide to mastering the full stack of modern LLM optimization techniques. From memory-bandwidth solutions to hardware-specific compilation, this book bridges the gap between research-level models and enterprise-grade execution.

What you will master inside this book:
  • Hardware-Aware Optimization: Dive deep into KV cache mechanics, autoregressive decoding, and GPU memory hierarchies to eliminate latency bottlenecks.
  • State-of-the-Art Quantization: Apply GPTQ, AWQ, and GGUF compression algorithms to scale down massive neural networks without sacrificing model accuracy.
  • Advanced Acceleration Methods: Implement speculative decoding with draft models (like Medusa and Eagle), PagedAttention, and FlashAttention to boost throughput by 2-3x.
  • Production-Grade Serving: Build ultra-low-latency deployment infrastructures using vLLM, Triton Inference Server, and continuous batching.
  • Cross-Platform Deployment: Optimize models for specific target hardware, including NVIDIA H100 (TensorRT-LLM), Apple Silicon (llama.cpp/Metal), and Qualcomm mobile/edge accelerators.

Whether you are an ML infrastructure engineer, an AI platform architect, or a technical leader looking to scale LLMs cost-effectively, this book provides the production-ready code, equations, and architectural patterns you need to build hyper-efficient AI pipelines.

Attrice & Poliglotta
EWA KASP per
Riproduci video
Ewa Kasp
Libristo ha la più grande selezione di letteratura in lingue straniere. Per questo compro i miei libri qui.

Informazioni sul libro

Titolo completo AI Inference Optimization Engineering
Lingua Inglese
Rilegatura Libro - In brossura
Data di pubblicazione 2026
Numero di pagine 96
EAN 9798199720021
Codice Libristo 52770465
Casa editrice Independently published
Peso 142
Dimensioni 152 x 229 x 5
Regala questo libro oggi stesso
È facile
1 Aggiungi il libro al carrello e scegli la consegna come regalo 2 Ti invieremo subito il buono 3 Il libro arriverà all'indirizzo del destinatario

Accesso

Accedi al tuo account. Non hai ancora un account Libristo? Crealo ora!

 
obbligatorio
obbligatorio

Non hai un account? Ottieni i vantaggi di un account Libristo!

Con un account Libristo, avrai tutto sotto controllo.

Crea un account Libristo