Un modello avanzato di analytics per i siti di Sky Italia. Obiettivo: visualizzare i comportamenti online degli utenti e migliorare le azioni di upselling.

Da quando esiste la business intelligence, la sfida è sempre la stessa: passare dalla dimensione dei dati a quella dei significati utili per il management. I sistemi di BI sono tradizionalmente utilizzati per misurare i fenomeni e fornire una vista operativa di alto livello. Questa deve essere facilmente leggibile e coerente con lo scenario che si vuole conoscere. Attraverso la BI il manager vuole capire, prevedere e ottimizzare. Ma il governo di un processo di data discovery che soddisfi allo stesso modo l’IT aziendale e gli utenti di business non è cosa semplice. Soprattutto, non dipende dal software.

Con questo presupposto in mente ci siamo dati un approccio che non parte dalla tecnologia e neppure dai dati, ma dalle domande poste dal business. Trasformare i dati in informazioni è una questione prima di tutto metodologica, che si affronta mettendo in campo competenze statistiche, socio-economiche e di data science. Queste si integrano con competenze di tipo tecnologico e relative alle modalità di visualizzazione dei dati. Il tutto deve funzionare all’interno di un processo pensato per generare informazione.

Il lavoro svolto per Sky Italia è esemplificativo di questo approccio e nasce dalla collaborazione fra Spindox e Smartstat, spin-off universitario guidato da esperti di statistica impegnati anche a livello accademico. La richiesta del cliente era tutta in una domanda posta in modo volutamente “aperto”: quale informazione è possibile generare a partire dalla mole di dati provenienti dalla navigazione sui siti web di Sky? Tale domanda ne sottende altre, di carattere più operativo, legate agli obiettivi di business della piattaforma televisiva.

Il nostro modello operativo, però, prevede che gli obiettivi dell’analisi siano condivisi con il cliente solo dopo una primo lavoro di design e strutturazione della base dati. Anche nel caso di Sky l’attività si è articolata in quattro step principali:

1) Verifica della base dati in termini di coerenza e utilizzabilità, organizzazione della base dati stessa e primo lavoro di analisi, di tipo bottom-up.

2) Identificazione degli obiettivi di approfondimento dell’analisi, alla luce del primo ciclo di data discovery.

3) Disegno del modello di visualizzazione e, conseguentemente, del processo di estrazione dei dati.

4) Definizione del processo di elaborazione e generazione delle visualizzazioni.

Nel caso specifico di Sky il lavoro ha portato alla produzione di un primo prototipo e di alcuni esempi di visualizzazione. Sulla base di questi output abbiamo avviato un’ulteriore fase di progetto, nella quale sono stati creati nuovi modelli di analisi e nuove visualizzazioni.

Il lavoro di design e strutturazione della base dati (step 1) è partito dalle aggregazioni fornite dal modulo di web analytics di Adobe, la piattaforma di riferimento per la gestione dei siti web in Sky. In particolare abbiamo considerato le informazioni relative agli accessi, ai percorsi di navigazione, all’inserimento dei pacchetti Sky nel carrello e all’acquisto dei pacchetti. È stato così possibile definire, insieme al cliente, gli obiettivi operativi del progetto (step 2). Ci siamo mossi in tre direzioni: trovare una modalità di descrizione sintetica dei comportamenti degli utenti, analizzare il comportamento dei visitatori che caricano i pacchetti nel carrello e che gli acquistano, fornire spunti per il miglioramento delle azioni di upselling.

Per la profilazione dei comportamenti dei visitatori (step 3) abbiamo identificato circa 100 “feature” attraverso un processo di tipo euristico condotto per prove ed errori. Si è trattato di selezionare fenomeni suscettibili di interpretazione e atti a caratterizzare i comportamenti osservati. A tale scopo è stato necessario aggregare i dati di livello più elementare forniti dallo strumento di web analytics. I profili identificati riguardano il comportamento di navigazione dei visitatori in relazione alla fascia oraria, i patern di navigazione, gli interessi (assunti in base alle keyword incontrate nel corso della navigazione), il rapporto degli utenti con la tecnologia (tipo di dispositivo e browser e impiegato), la localizzazione geografica (numero IP dell’utente unico).

sky data diascovery

Come detto, al termine del progetto abbiamo fornito tre tipi di output (step 4). In primo luogo abbiamo descritto la navigazione mediante mappe di Kohonen (o self-organizing map). Queste permettono di proiettare dati multidimensionali su una superficie a due dimensioni, visualizzabile a stampa o su schermo. Le mappe create distribuiscono i navigatori del sito in base a tre prospettive: giorni della settimana, fasce orarie (ore lavorative, ore festive ecc.) e aree tematiche del sito. Le mappe con colori pieni e disposti in modo uniforme indicano che i profili rappresentati hanno un solo comportamento caratteristico (per esempio ci sono utenti che navigano solo nella sezione calcio). Viceversa colori  mischiati e sfumati indicano compresenza di più caratteristiche nello stesso profilo.

La mappatura degli utenti ci ha permesso di identificare in quale area del sito o in quale fascia oraria navigano principalmente coloro che acquistano i diversi tipi di pacchetto. In questo modo è possibile definire criteri di ottimizzazione dell’auto-promozione. In particolare abbiamo formulato una stima statistica dell’impatto, per ciascuno dei cento profili, sulla probabilità che un utente acquisti un determinato prodotto Sky.

Infine, applicando un modello analogo a quello appena descritto, abbiamo definito criteri di ottimizzazione dell’upselling. Si è trattato, in sostanza, di stimare le probabilità che un certo utente, con un certo profilo e che sta caricando nel carrello un certo prodotto, acquisti anche un altro prodotto dell’offerta Sky.