AI Locale in VS Code con continue

Ciao a tutti,
recentemente ho acquistato un macbook pro M5 e la prima domanda che mi sono posto è stata: come faccio a far girare un modello in locale? fin dove mi posso spingere?
In questo articolo vi spiego come utilizzare un modello locale ed utilizzarlo in visual studio code.

LM Studio

LM studio è un’applicazione gratuita dove poter eseguire modelli IA localmente, un’alternativa a Ollama.
Una volta installata la prima cosa da fare è scaricare un modello, io ho scaricato Qwen3 Coder da 30 miliardi di parametri. Per scaricare il modello bisogna cliccare sull’icona del robot con la lente di ingrandimento, sul menù di sinistra


e poi scegliere il modello da scaricare.

Formato delle immagini

Sulla destra è possibile notare due label accanto alla dicitura “Format”: GGUF ed MLX.

GGUF è un formato di runtime utilizzato soprattutto con llama.cpp ed è uno dei formati più diffusi. MLX invece è un formato ottimizzato per processori apple (M1 -> M5). 

Su dispositivi Apple è consigliabile scegliere un modello con un formato MLX poichè avremo delle prestazioni nettamente superiori rispetto al formato GGUF. 

Testiamo il modello

In LM studio è integrata anche una chat dove è possibile testare il modello appena scaricato.
Clicchiamo sull’icona colorata del menù a sinistra (la prima in alto) ed entriamo nella sezione con la chat.

La prima cosa da fare è selezionare il modello cliccando in alto

Nella modal che si aprirà ci sono due sezioni: la prima (in alto) mostra quali modelli abbiamo attualmente caricati in memoria (ne possiamo avere più di uno, dipende però dalla quantità della vostra ram).
Sotto invece, nella sezione “your models”, saranno visibili i modelli scaricati localmente.

Se non vedete nessun modello significa che prima dovrete andare a scaricarlo, come spiegato prima.

Una volta selezionato il modello possiamo provare la chat:

Performance

Sul mio MacBook Pro M5 32GB la velocità di questo modello si attesta attorno ai 55 token/secondo. L’esperienza di utilizzo è la stessa che si ha con servizi a pagamento quali Claude Code o Github Copilot

Avviare il server locale

Per utilizzare il modello in locale dobbiamo avviare un server locale e caricare il modello scelto. Per farlo clicchiamo sull’icona del terminale nel menù di sinistra:

Clicchiamo sulla checkbox per attivare il server.
Potete vedere che il modello che abbiamo usato poco fa in chat è già caricato e quando avvieremo il server sarà disponibile per l’utilizzo. 

Una volta attivato il server (tramite checkbox) si attiverà un endpoint locale che useremo per l’integrazione con visual studio code.

A questo punto abbiamo avviato il server locale sulla nostra macchina e siamo pronti per utilizzarlo nel nostro IDE preferito.

Visual studio code

Ci sono diversi metodi e diversi strumenti per utilizzare un modello locale in visual studio code, oggi vediamo come utilizzarlo con l’estensione chiamata “continue”

Continue è un plugin di VS Code che permette di avere un assistente AI all’interno del nostro IDE, non legato a nessun brand specifico e che ci permette anche di configurare un modello locale. L’esperienza di utilizzo è analoga a quella a cui siamo già abituati con i plugin di Github Copilot o Claude Code

Clicchiamo sul nome del modello (la prima volta sarà vuoto) e poi clicchiamo su “Add Chat Model”

Apparirà una nuova modal dove configurare il modello: come provider selezioniamo LM Studio, come modello scegliamo “autodetect” (che ci dà la flessibilità di cambiare il modello e di provarne diversi senza dover creare profili multipli).

Questa configurazione può essere fatta anche sul file di configurazione (trovate il link sotto il pulsante di connect). In questo caso la configurazione è la seguente:

YAML
name: Local Config
version: 1.0.0
schema: v1
models:
  - name: Autodetect
    provider: lmstudio
    model: AUTODETECT
    apiBase: http://localhost:1234/v1/

Testiamo il modello

Per iniziare diamo il seguente prompt:

Bash
You are a python expert with 10+ year of experience. Create a command line tool in python that accept 2 arguments as input: "lenght" (number, integer) and "useSpecialChars" (1 or 0). This utility should be used to generate a secure password.

Rules:
- Add comment to explain the code
- Use python 3
- Create a readme that explain how to run tool

Il modello mi ha correttamente creato il file readme con una buona spiegazione ed il relativo tool scritto in python.

Conclusioni

In questo articolo abbiamo visto come configurare LM Studio per eseguire Qwen 3 Coder 30B localmente e come collegarlo a Visual Studio Code tramite l’estensione Continue, ottenendo un assistente AI integrato nel nostro IDE.

Questo è solo il primo passo verso un’insieme più ampio di utilizzi di un modello locale, non solo applicato ad un contesto di sviluppo dove la privacy deve essere un requisito ma anche a situazioni dove l’utilizzo intenso e continuativo di un LLM diventa possibile proprio grazie ad un modello locale (senza costi). Provate anche solo pensare a cosa si potrebbe fare con un modello locale e Ralph!

Infine avere un modello locale è un vantaggio anche in tutte quelle situazioni dove la connessione internet non è disponibile o non possiamo accedervi.

Alla prossima!

Condividi questo articolo
Shareable URL
Post precedente

Da OneNote a Obsidian: come ho costruito il mio secondo cervello

Prosimo post

Clean Architecture

Leggi il prossimo articolo

Claude 4.5

Nelle scorse ore è stato annunciato che è stato rilasciata la versione 4.5 del nuovo Claude! In questo articolo…