banner

Blog

Feb 04, 2024

Che cos'è la regressione nell'apprendimento automatico?

KOHb - Getty Images

Le tecniche di regressione sono essenziali per scoprire le relazioni all'interno dei dati e costruire modelli predittivi per un'ampia gamma di casi d'uso aziendali, dalle previsioni di vendita all'analisi dei rischi. Ecco un approfondimento su questa potente tecnica di machine learning.

La regressione nell'apprendimento automatico è una tecnica utilizzata per catturare le relazioni tra variabili indipendenti e dipendenti, con lo scopo principale di prevedere un risultato. Si tratta di addestrare una serie di algoritmi per rivelare modelli che caratterizzano la distribuzione di ciascun punto dati. Una volta identificati i modelli, il modello può quindi effettuare previsioni accurate per nuovi punti dati o valori di input.

Esistono diversi tipi di regressione. Due dei più comuni sono la regressione lineare e la regressione logistica. Nella regressione lineare, l'obiettivo è adattare tutti i punti dati lungo una linea chiara. La regressione logistica si concentra sulla determinazione se ciascun punto dati deve essere al di sotto o al di sopra della linea. Ciò è utile per ordinare le osservazioni in contenitori distinti come frode/non-frode, spam/non-spam o cat/non-cat.

La regressione è un concetto fondamentale nella maggior parte delle statistiche. L’apprendimento automatico migliora le cose utilizzando algoritmi per distillare queste relazioni fondamentali attraverso un processo automatizzato, ha affermato Harshad Khadilkar, scienziato senior presso TCS Research e professore associato in visita presso IIT Bombay.

"La regressione è ciò che gli scienziati e le imprese utilizzano quando rispondono a domande quantitative, in particolare del tipo "quanti", "quanto", "quando sarà" e così via. Nell'apprendimento automatico, scopre qualsiasi misura che non è attualmente disponibile nel dati", ha spiegato Khadilkar.

Due tecniche comuni utilizzate nella regressione nell'apprendimento automatico sono l'interpolazione e l'estrapolazione. Nell'interpolazione, l'obiettivo è stimare i valori all'interno dei punti dati disponibili. L'estrapolazione mira a prevedere valori oltre i limiti dei dati esistenti, sulla base delle relazioni di regressione esistenti.

La regressione è un concetto essenziale non solo per gli esperti di machine learning, ma anche per tutti i leader aziendali, in quanto è una tecnica fondamentale nell’analisi predittiva, ha affermato Nick Kramer, vicepresidente delle soluzioni applicate presso la società di consulenza globale SSA & Company. La regressione viene comunemente utilizzata per molti tipi di previsione; Rivelando la natura della relazione tra le variabili, le tecniche di regressione forniscono alle aziende informazioni dettagliate su questioni chiave, come l’abbandono dei clienti, l’elasticità dei prezzi e altro ancora.

David Stewart, responsabile della scienza dei dati presso Legal & General, un asset manager globale, ha osservato che i modelli di regressione vengono utilizzati per fare previsioni basate su informazioni che già conosciamo, rendendoli ampiamente rilevanti in diversi settori. Ad esempio, la regressione lineare, che prevede un risultato numerico, potrebbe essere utilizzata per valutare l'altezza di qualcuno in base a fattori quali età e sesso. Al contrario, la regressione logistica potrebbe aiutare a prevedere la probabilità di una persona di acquistare un nuovo prodotto utilizzando gli acquisti di prodotti precedenti come indicatori.

La regressione lineare ha una sensibilità fissa o costante alle variabili da cui dipende, sia che si tratti di prevedere i prezzi delle azioni, il tempo di domani o la domanda al dettaglio. Ad esempio, un duplice cambiamento in una variabile porterà a una deviazione specifica nel risultato, ha detto Khadilkar. Molti algoritmi standard del settore utilizzano la regressione lineare, come la previsione della domanda in serie temporali.

La regressione logistica, al contrario, si concentra sulla misurazione della probabilità di un evento su una scala da 0 a 1 o da 0% a 100%. L'idea centrale di questo approccio è quella di creare una curva a forma di S che mostri la probabilità che si verifichi un evento, con l'evento - come un guasto del sistema o una violazione della sicurezza - altamente improbabile su un lato della curva e vicino certo dall'altro.

Come notato, le tecniche di regressione lineare si concentrano sull'adattamento di nuovi punti dati a una linea. Sono preziosi per l’analisi predittiva.

Al contrario, la regressione logistica mira a determinare la probabilità che un nuovo punto dati appartenga sopra o sotto la linea, cioè a una particolare classe. Le tecniche di regressione logistica sono utili in attività di classificazione come quelle menzionate sopra, per determinare se una transazione è fraudolenta, un'e-mail è spam o un'immagine è un gatto oppure no.

CONDIVIDERE