
Ciao a tutti, sono Marco Maltraversi, organizzatore del Marketing Business Summit e autore del libro SEO E SEM GUIDA AVANZATA AL WEB MARKETING.
Oggi volevo parlarvi di alcune tecniche di data scraping per capire se, con tutti le novità in Casa Google, tali tecniche abbinate a una buona SEO possano, in base alla mia personale esperienza, ancora funzionare.
Chi ama “smanettare” con programmazione, html e SEO sicuramente sarà incappato nello Scraping ovvero quella tecnica che ci permette di individuare strutture logiche similari per estrapolare dati da un sito web. Tale tecnica, a volte non legale, può essere utilizzata per:
- Copiare i contenuti di un sito
- Copiare i prodotti di un sito
- Copiare le immagini di un sito
- Scaricare listino di prezzi di un sito
Bastano poche conoscenze di programmazione e si potrebbe aprire un vero mondo.
“Data scraping is a technique in which a computer program extracts data from human-readable output coming from another program.” Da Wikipedia
Perché parliamo di Web/Data Scraping?
- Perché in passato funzionava molto bene abbinato alla SEO
- Perché si possono fare cose davvero carine e interessanti
- Perché forse funzionerà ancora, se abbinato alla SEO
Data Scraping – alcuni spunti
Vediamo alcune librerie da cui partire
- Simple HTML DOM http://simplehtmldom.sourceforge.net
- HtmlAgilityPack http://www.nuget.org/packages/HtmlAgilityPack
- CsQuery https://github.com/jamietre/CsQuery
Ovviamente questa non vuole essere una guida al Data Scraping, ma voglio fornirvi spunti utili per sapere pro e contro, oggi, dell’applicazioni di questi metodi.
Detto ciò, sappiate che esistono anche sistemi di protezione da tali “attacchi” ed è quindi opportuno sfruttare Proxy e Headless browser per rendere il tutto più simile a una reale visita “umana”.
Vediamo quindi brevemente e nella pratica come fare Scraping di un sito web, senza entrare troppo nei dettagli tecnici, attraverso due esempi.
ESEMPIO N.1 Voglio avere il download di tutti i prodotti del mio competitor http://www.shopbot.com.au/
Attraverso lo strumento UiPath che non richiede conoscenze di programmazione impostiamo il workflow di analisi ed estrazione dei dati.
Ci basterà premere start per vedere i dati desiderati esportati in un CSV. Tutto molto semplice.
Poi, sfruttando Python e la libreria Beautiful Soup, possiamo estrarre i dati di una determinata pagina web e salvarli in una base di dati o in un file csv.
Ok tutto molto bello, ma in pratica?
In pratica, sfruttando lo scraping, spintax e applicando tecniche SEO in passato era possibile fare siti auto generati che si posizionavano in modo egregio. Avevo diversi progetti che replicavano in un italiano improponibile risorse e testi e generavano guadagni grazie ad Adsense o sistemi di affiliazione.
Dopo l’avvento di Panda il giochino non funzionava più cosi bene e negli ultimi anni con aggiustamenti algoritmici da parte di Google e il tutto è diventato davvero difficile.
Creare siti con contenuti generati in modo pseudo automatico prendendo testi e risorse da altri siti non funziona più così tanto bene.
Nella seguente figura un sito creato con sistemi automatizzati e affiliazione Amazon. Dopo un mese andava alla grande, ma sono bastati due mesi a Google per individuare che il sito era privo di valore e… ban! Messaggio nella Search Console e sito penalizzato (come era prevedibile).
Oggi dopo “Fred” e tutto il marasma sulla qualità dei contenuti è ancora possibile elaborare progetti di scraping vantaggiosi, ma ci vuole tempo e soprattutto un giusto mix di contenuti di qualità sia per gli utenti che per i motori di ricerca.
Se vuoi approfondire tematiche SEO, ADV, Social e Business online ti invitiamo al MARKETING BUSINESS SUMMIT 2017 che si terrà il 23 e 24 novembre a Milano. Usa il codice sconto “alverde“
Al Marketing Business Summit 2017 potrai confrontarti con esperti internazionali su varie tematiche legate al guadagno online e a come far prosperare i tuoi progetti web. Ad esempio potrai capire Google per evitare Penality e filtri Web Spam. Tra gli speaker di rilievo, segnalo:
- KASPAR SZYMANSKI, Ex Search Quality Google, ti mostrerà come evitare una penalizzazione e capire in anticipo gli algoritmi di Google per migliorare il tuo posizionamento!
- BARRY ADAMS ti mostrerà una Audit SEO di successo.
Relatori di Twitter, Bing, Microsoft, Fastweb e non solo ti illustreranno con esempi pratici come far decollare il tuo business online.
ISCRIVITI ORA con il codice sconto “alverde“, e risparmia subito!
DI Marco Maltraversi organizzatore di www.mbsummit.it