Volete reperire indirizzi email dal web ?
Nulla di più semplice :-) .. ho realizzato un crawler che se ne và a 'spasso' per il web autoalimentandosi memorizzando tutti gli indirizzi di posta elettronica che trova !
RBCrawler è l'applicativo sviluppato in c# che potete scaricare ed installare gratuitamente.
Vi spiego come funziona ....
il menu' è molto intuitivo con i seguenti pulsanti:
1. Start: Inizia l'operazione di crawling.
2. Start: Ferma l'operazione di crawling.
3. Load Siti: Ricarica nel Tab Web Address tutti i link presenti nel db sia letti che da leggere.
4. Load Mail: Ricarica nel Tab Email tutti gli indirizzi email presenti nel db .
5. Export: Esportazione su file txt di tutti gli indirizzi email presenti nel db .
6. Delete DB: Cancella il database.
Istruzioni per l'uso
1. Inserire nel Tab Web Address un indirizzo web compreso di http:// . L'indirizzo che inserite può essere un url di un sito oppure un link di ricerca di google etc etc. (fig.2)
2. Premere il pulsante Add.
3. Premere il Check 'Collegamenti interni al sito' se desiderate effettuare la ricerca solamente sul dominio che avete inserito nella url.
4. Premere il pulsante Start.
5. La ricerca è iniziata ....
6. Quando volete sospendere la ricerca premere il pulsante Stop
I pulsanti Load Url e Load Email servono solamente se ,a seguito di una sospensione di una ricerca , volete continuarla (dopo aver chiuso e riaperto l' applicazione).
Nel Tab Web Address compariranno gli indirizzi visitati mentre nel tab Email saranno memorizzati gli indirizzi di posta elettronica riconosciuti.
Algoritmo
1. Mentre che ci sono siti da visitare
2. Estrae il primo sito (logica fifo)
3. Legge tutto l'html del link in oggetto
4. Parserizza l'html utilizzando le Regular Expression rilevando tutti gli indirizzi web sia assoluti che relativi.
3. Inserisce in coda tutti gli indirizzi sia assoluti che relativi uscenti dalla pagina (ovviamente se non sono già presenti)
4. Estrae tutti gli indirizzi email dall'html
5. Torna al punto 1.
Se non avete inserito come spunta "Collegamenti interni al sito" difficilmente si fermerà :-)
Fig.1
Fig.2