DSpark: come DeepSeek fa parlare i modelli AI il doppio più velocemente

DeepSeek ha sviluppato DSpark, una tecnica che accelera la generazione di token dei LLM fino al 60% senza ridurre la qualità del modello. Ecco come funziona.
Contenuti dell'articolo

Lo sapevi? Ogni volta che un modello come ChatGPT o DeepSeek scrive una risposta, lo fa generando una parola alla volta. Letteralmente. Non è una metafora: “genera” un token (che può essere una parola o un pezzo di parola), poi lo usa per generare il successivo, e così via fino alla fine del testo. È come scrivere una lettera dettando una parola alla volta a qualcuno che la trascrive: funziona, ma è lento.

DSpark è una tecnica di DeepSeek che prova a rompere questo schema, facendo generare più token contemporaneamente a un modello, prima di farli validare dal modello principale. Il risultato è una accelerazione netta: dal +51% al +60% di token al secondo, e in alcuni scenari fino al +400%. Il modello resta lo stesso, la qualità non cambia. Solo che parla molto più velocemente.

Vediamo come funziona.

Il problema di fondo: generare un token alla volta

I modelli di linguaggio funzionano in modo sequenziale. Per generare la frase “Il gatto dorme sul divano”, un LLM classico fa:

  • genera “Il”
  • genera “gatto”
  • genera “dorme”
  • genera “sul”
  • genera “divano”

Un passaggio alla volta. Ogni token richiede un’inferenza completa dell’intera rete neurale. È costoso, lento, e consuma tantissima potenza di calcolo. Questa è la natura del decoding autoregressivo: una catena in cui ogni anello dipende dal precedente. Se vuoi un ripasso su come funzionano i modelli di linguaggio, ti consiglio l’articolo Cos’è l’Intelligenza Artificiale (e cosa non è) che parte dalle basi.

Speculative Decoding: un modello piccolo fa da apripista

Per aggirare questo collo di bottiglia, negli ultimi anni si è diffusa una tecnica chiamata Speculative Decoding. L’idea è semplice: invece di far fare tutto al modello grande (lento e costoso), si usa un modello molto più piccolo e veloce per fare delle “proposte”. Il modello grande controlla il lavoro del piccolo e conferma o corregge.

Esempio concreto. Il modello piccolo (detto drafter) scrive tutta la frase: “Il gatto dorme sul divano”. Il modello grande controlla parola per parola: conferma “Il”, “gatto”, “dorme”, ma corregge “sul” perché preferisce “sulla”. Risultato: il modello grande ha dovuto fare una sola verifica per tre token accettati, invece di tre generazioni complete. Il risparmio è enorme.

C’è però un problema.

Il limite dei drafter classici: sequenziali anche loro

Il drafter, per quanto piccolo e veloce, genera comunque i token uno dopo l’altro. È più rapido del modello grande, certo, ma rimane un processo sequenziale: genera un token, poi il successivo, poi il successivo.

È come spedire le email con un piccione viaggiatore più veloce degli altri: meglio di niente, ma sempre un piccione alla volta.

L’intuizione di DSpark: token in parallelo

Qui arriva l’innovazione di DeepSeek. I ricercatori si sono fatti una domanda semplice: perché il drafter deve generare token uno dopo l’altro? Possiamo fargli generare più token contemporaneamente?

La risposta è sì, con qualche accorgimento. DeepSeek chiama questa tecnica DSpark e si basa su un’architettura mista, che chiamano Semi-Autoregressive Generation.

Il sistema è composto da due blocchi:

  1. Parallel Block: genera più token in contemporanea, senza aspettare il precedente. È la parte innovativa.
  2. Sequential Block: dopo la generazione parallela, applica una piccola correzione sequenziale per mantenere coerenza.

Il risultato è un sistema parzialmente parallelo e parzialmente autoregressivo. Il drafter non è più un collo di bottiglia sequenziale, ma una macchina che produce ipotesi in blocco.

L’Hardware-Aware Prefix Scheduler: un filtro intelligente

La parte forse più elegante di DSpark è l’Hardware-Aware Prefix Scheduler. Il drafter non si limita a sparare token a caso in parallelo. Assegna a ciascun token un punteggio di confidenza.

Immagina una situazione del genere:

  • Token A: 99% di confidenza
  • Token B: 98% di confidenza
  • Token C: 95% di confidenza
  • Token D: 60% di confidenza

Il sistema prende i primi tre token come “affidabili” e li passa al modello grande per la verifica finale. Il token D, con solo il 60%, viene scartato direttamente. È un filtro intelligente che evita di sprecare verifiche su token che probabilmente verrebbero rifiutati.

Il “prefix” nel nome indica proprio questa logica: accetta un prefisso di token ad alta confidenza, scarta il resto, e il modello grande controlla solo la parte promettente.

I numeri: da 1,5x a 5x più throughput

I risultati presentati da DeepSeek parlano chiaro. Su DeepSeek V4 Flash (il modello più leggero):

  • +51% di throughput (token generati al secondo)
  • +60% di TPS (token al secondo nella generazione)

Su DeepSeek V4 Pro (il modello più grande):

  • +52% di throughput
  • +57% di TPS

E in alcuni scenari, il guadagno arriva fino al +400% rispetto alla tecnica precedente (MTP). Tradotto in termini pratici: con la stessa quantità di GPU, puoi servire da 1,5 a 5 volte più token nello stesso tempo. Stesso modello, stessa qualità, più velocità.

Perché è importante

Il collo di bottiglia dei LLM da anni è sempre lo stesso: ogni token dipende dal precedente. Non puoi parallelizzare facilmente la generazione senza perdere qualità. DSpark trova un compromesso intelligente: non arriva alla generazione completamente parallela (che degraderebbe troppo il risultato), ma ci si avvicina abbastanza da ottenere accelerazioni significative. Di novità come questa ne parlo spesso nella newsletter settimanale sull’IA.

Per chi gestisce modelli su larga scala, questo significa meno GPU necessarie per lo stesso carico di lavoro, costi operativi ridotti, latenza più bassa per gli utenti finali e più utenti servibili contemporaneamente. Il tutto senza dover addestrare un nuovo modello da zero. DSpark è una tecnica di inferenza, non di addestramento. Non rende il modello più intelligente, gli permette solo di parlare molto più velocemente.

FAQ

DSpark funziona solo con i modelli DeepSeek?

In teoria la tecnica è generalizzabile, ma DeepSeek l’ha sviluppata e testata sui propri modelli (V4 Flash e V4 Pro). Le architetture specifiche potrebbero richiedere adattamenti per funzionare su altri modelli.

Cosa significa throughput e perché è diverso da TPS?

Il throughput misura quanti token il sistema produce in un secondo considerando l’intero sistema (inclusi i batch, le code, l’elaborazione parallela). TPS (Token Per Second) misura la velocità pura di generazione per una singola richiesta. Sono metriche correlate ma diverse.

Il drafter parallelo produce token di qualità inferiore?

Il drafter può produrre ipotesi meno coerenti perché genera in parallelo, ma è proprio per questo che esiste il Sequential Block di correzione e la verifica finale del modello grande. Il risultato finale mantiene la qualità del modello target.

Questa tecnica è già disponibile pubblicamente?

DeepSeek ha presentato DSpark come ricerca. Al momento non è chiaro se sia già integrata nei modelli disponibili al pubblico o sia ancora in fase di sviluppo interno. Trattandosi di una tecnica di inferenza, potrebbe essere rollata senza riaddestrare i modelli.

In pratica, cosa sentirà un utente normale?

Probabilmente nulla di visibile, se non risposte leggermente più rapide. L’impatto vero è per chi gestisce i server: più utenti serviti con le stesse risorse, e costi inferiori che potrebbero tradursi in prezzi più bassi o piani gratuiti più generosi. Ma questo, lo sappiamo, dipende sempre da tanti altri fattori.

Condividi:

Potrebbero interessarti