PROBLEMA SPAM O POSTA
INDESIDERATA
Lo Spamming è un serio problema perché i
messaggi non contengono solo offerte promozionali ma anche link
a siti internet riservati solo per un
pubblico adulto o collegamenti a dialer e in molti casi
anche virus. Tutto ciò risulta prima
di tutto costoso perché
un utente che non dispone di una connessione Flat è obbligato a
scaricare con il proprio client di posta tutte le e-mail
depositate sul server, e questo
costituisce una palese perdita di tempo. E’ pericoloso,
perché su scala mondiale questi messaggi Spam generano un
traffico enorme di dati appesantendo i
server di posta e rallentando la connessione. Anche gli stessi
provider sono costretti a sostenere costi inutili e per questa
ragione hanno rivisto le modalità di utilizzo dei loro account
di posta, richiedendo per scaricare o inviare e-mail una
connessione diretta ai loro POP o alla loro ADSL, in modo da
ottenere un rientro economico. Se si ha la fortuna di non essere
vittime di questo fenomeno oppure si ha la possibilità di
cambiare indirizzo e-mail, è importante prendere delle
precauzioni per evitare di cadere nella rete degli Spammer. Per
catturare gli indirizzi e-mail vengono infatti utilizzati dei
programmi automatici, i cosiddetti spambot, capaci di
esplorare l'intera rete ed estrarre dalle pagine Web, dai
messaggi nei forum di discussione e dai newsgroup gli indirizzi
di e-mail degli utenti.
L’efficacia nello scovare tali indirizzi
e-mail non si ferma qui, infatti sono in grado di estrarli anche
dai commenti e dai codici HTML tipo mailto che si usano
per creare link a un indirizzo di posta. E’ consigliabile avere
più di un indirizzo di posta elettronica in modo da non usare
quello riservato ad amici, parenti o per lavoro per segnarsi a
quei servizi sul Web che richiedono un indirizzo valido
con l’evidente intento di mandare messaggi pubblicitari. Non
bisogna assolutamente rispondere all’e-mail
indesiderata attraverso
la voce “Remove” o Unsubscribe”; perché questo segnala allo
spammer che l’indirizzo è in uso e può essere utilizzato per
inoltrare altro Spam.
Inizialmente,
quando il numero delle e-mail indesiderate erano giornalmente di
poche unità, gli utenti in genere le cestinavano manualmente
oppure i più attenti nell’uso del proprio client di posta
abilitavano i filtri automatici. Poiché l’ e-mail
scaricate erano sempre le stesse e avevano spesso gli stessi
contenuti, era sufficiente creare delle regole del tipo : “Se
l’e-mail contiene la parola Adult nel corpo del messaggio
allora dirottala nel cestino” . Componendo diverse regole
come quella dell’esempio precedente era possibile ottenere dei
buoni risultati. Questa tecnica ovviamente non è efficiente,
basta che arriva una nuova tipologia di e-mail indesiderata con
parole non contenute nel data base creato che viene scaricata
nella posta in arrivo. Questo approccio al problema ha
funzionato nel caso di utenti in cui l’e-mail indesiderate
ricevute erano esigue e sempre quelle. Ora lo scenario è
differente, il numero di e-mail indesiderate è elevato e la
tipologia varia in continuazione. I filtri automatici creati in
precedenza vengono ora aggirati facilmente, dopo che gli Spammer
hanno preso visione della situazione. Aggirare un filtro
automatico per uno Spammer è la cosa più semplice che può fare.
L’approccio del filtro automatico al problema si basa sul
Vero e Falso, in questa situazione alterando il modo
in cui vengono scritte le parole, il filtro può essere
facilmente eluso. Parole come Adult o Sex sono differenti da
A-d-u-l-t o SeX ed è anche improponibile pensare di creare
manualmente un data base con tutte le possibili combinazione. Un
altro aspetto particolare da non sottovalutare è la possibilità
che il filtraggio automatico cestini e-mail utili. Se ad esempio
un amico chiede aiuto perché il suo browser viene indirizzato
verso un sito per adulti è possibile che l’e-mail venga filtrata
se nel corpo del messaggio vengono usate parole presenti nel
data base. Tutti questi aspetti dimostrano che ormai il
filtraggio automatico è superato e la nuova arma per combattere
lo Spamming si chiama filtraggio
bayesiano.
Il nome deriva da Thomas Bayes (1702-1761),
matematico inglese il quale ha inventato
una
nuova tecnica che utilizza un approccio statistico al problema e
"apprende" dalle scelte dell’utente.
L’uso della statistica per sconfiggere lo
Spamming è stato segnalato da
Paul Graham in
un saggio (http://www.paulgraham.com/spam.html)
dell'agosto 2002. La validità di questo metodo è testimoniata
dal fatto che dalla segnalazione in avanti, diverse tra le
principali case produttrici di antivirus hanno inserito nel loro
catalogo programmi Antispam che utilizzano questo metodo.
Entrando nel dettaglio del filtraggio
bayesiano,
risulta che il punto debole della posta indesiderata risiede
proprio nel contenuto della stessa. Quando l’utente riceve posta
indesiderata e segnala la cosa al programma, i filtri bayesiani
analizzano il contenuto e il programma prende visione della
situazione e impara come comportarsi in futuro.
In cosa consiste l’approccio statistico?
I filtri bayesiani analizzano oltre alla frequenza d’uso delle
parole contenute nel Data Base
anche i codici HTML e i dettagli delle intestazione cioè l’header
del messaggio. Se una o più parole presenti appartengono al
campione di parole Spam è possibile che il messaggio contenga
Spam. Mano a mano che vengono analizzate differenti e-mail il
filtro classifica i messaggi in base alla probabilità
Totale
delle diverse parole presenti. Con questa tecnica, se una e-mail
contiene una sola parola “sospetta” ma il resto del messaggio
utilizza parole normali questa non viene filtrata. Grazie a
questa analisi, il rischio di
Falsi positivi
cioè di classificare come Spam messaggi normali è quindi
bassissimo e migliora con l’aumentare delle mail esaminate.
Come riesce il
programma ad “Apprendere”?
Con il filtraggio bayesiano non è necessario creare manualmente
(qualche programma ha l’aggiornamento in linea) un data base di
parole e relative varianti ortografiche da bloccare ma è
sufficiente segnalare al programma che l’e-mail ricevuta è Spam
o non è Spam. Nel caso di un messaggio indesiderato le parole
più ricorrenti (presenti nel database) saranno considerate Spam
e l’elenco presente aggiornato con la nuova analisi.
ESEMPIO
Concreto sul filtraggio Bayesiano
Supponiamo che il programma filtra l’ e-mail che contengono
parole che generano una percentuale pari o superiore al 100%
(aggressività del filtro: Normale). Associamo alla parola
Sex
la probabilità del 100% di essere Spam, alla parola
Newsletter
30%, alla parola
Unsubscribe
70%. In un primo caso si riceve una mail con la parola
Sex
e
Unsubscribe
con la probabilità Totale del 170% e in questa situazione
l’e-mail viene giustamente filtrata. Se si riceve una e-mail del
nostro produttore di antivirus che ci segnala un aggiornamento e
nel corpo del messaggio sono presenti le parole
Newsletter
e
Unsubscribe
l’e-mail viene cestinata perché la probabilità è del 100%. In
questa situazione l’utente deve segnalare l’errore al programma.
Da questo errore le percentuali associate alle parole cambiano e
la loro somma diventa minore del 100% e in futuro una simile
e-mail non verrà cestinata. Questo è un esempio molto semplice
ma sono presenti altri criteri di valutazione su tutta l’analisi
a partire dall’intestazione completa del messaggio. Quello che
si è voluto mettere in evidenza come la probabilità associata
alla singola parola può variare in base alle scelte dell’utente.
Da questa analisi si comprende che il filtro
bayesiano
può essere personalizzato. Il fatto che una e-mail sia Spam o
meno può variare da utente a utente. Con questa tecnica il
filtro “Apprende” cosa è effettivamente Spam per l’utente. Per
ottenere buoni risultati l’utente deve essere capace di istruire
correttamente il programma
NON
cambiando linea di condotta su cosa è Spam e su cosa non lo è.
In conclusione l’approccio statistico allo Spamming sembra
l’arma definitiva per combattere la posta indesiderata e risulta
evidente che la scelta deve ricadere su un programma che dispone
del filtraggio bayesiano.
| |
|
| |
| |
|
Acunetix Web Vulnerability
Scanner |
|
|
|
|
|
|