El web Scraping y el BIGDATA

Cada vez es mas habitual encontrarnos con ciertas  necesidades y demandas de las empresas que coinciden.

La información es poder y el BIGDATA cada vez más esta en boca de todos, en muchas ocasiones el problema se centra en:

No saber que hacer con la información o no saber como extraerla de forma eficaz.

El scraping en 2018 esta auge y por ello queremos hacer una seria de publicaciones que hablen de ello y su aplicación en el marketing online.

Pero, ¿Qué es el Scraping o web scraping?

El web scraping es la forma para  conseguir y tratar cantidades descomunales de información sin mover un dedo. (¿Como haremos eso?) A través de los algoritmos avanzados de búsqueda de Google podemos rastrear todo internet en busca  de las  webs que más nos interesan  para extraer todo la  información que necesitamos.

En esta primera parte, ¿que será lo único que vamos a necesitar? Si, seguro que ya lo estabais pensando. Google!!

Aunque tendremos que utilizar búsquedas avanzados o fooprints, esto será lo único que necesitaremos para empezar con nuestras técnicas de scraping o bigdata. ¿Empezamos?

Instrucciones esenciales para las técnicas de SCRAP:

Que hace el comando Site:

dicho comando permite restingir una búsqueda en una web determinada, o incluso una parte específica de esa web. De este modo, la petición site:pasionseo.com Conseguir Seguidores INSTAGRAM en Google apareceran las páginas pertinentes para las palabras clave “Conseguir Seguidores INSTAGRAM”, de la web pasionseo.com

Que hace el comando Intext:

Sirve para localizar páginas web que contengan en su texto un determinado termino de búsqueda. Ej: intext: “busco entrenador personal” “gmail.com” y con esta instrucción ya dejamos entrever algunos detalles de lo que nos iremos encontrando.

Si incluimos una captura de alguno de sus resultados, vemos que ya nos esta arrojando algunos datos interesantes, como emails relacionados con el sector, un foro de Londres, una oferta de empleo y algo relacionado con un entrenador personal en hortaleza Madrid. Y esto solo en una búsqueda en google de 2 segundos. Pero seguimos…

Antes de seguir y que alguien pueda asustarse es muy habitual cuando se empiezan a tocar instrucciones avanzadas que google se queje!! y como se queja Google?

Efectivamente esta es la forma que tiene google de “quejarse” del uso de este tipo de instrucciones y asegurarse que somos una persona y no un BOT, los CATPATCH y aunque hay rumores de que google acaba quitando este sistema, por el momento esta es la realidad. Pero no preocuparse, tecleamos lo que nos indica el catpatch y seguimos. Aunque adelantamos que para temas de SCRAPING mas avanzados podemos saltarnos fácilmente esta protección con el uso de proxys y programas de scraping como SCRAPEBOX.

Para seguir de forma sencilla con esta primera toma de contacto con el scraping, te pediré que descargues este plugin para google ghrome, ginfinity. Este plugin realiza de forma automatica un scroll en los resultados de busqueda de google (SERPS).  Tal que así:

Así que ahora al entrar en google.com y realizar una búsqueda, al mover la rueda del ratón hacia abajo,  veréis como automáticamente realiza y muestra la siguiente pagina automáticamente. Porque queremos esto? De una forma semiautomática y basándonos en un búsqueda avanzada previa, queremos recolectar todas esos emails que aparecen en las primeras lineas de búsqueda y se muestran en los resultados.

Como recolectar o extraer emails de las búsquedas de google

Utilizaremos los comandos mas letal de los últimos tiempos: (risas)

1 –  CTRL + A    – Así seleccionaremos todo lo que aparece en los resultados de búsqueda

2- CTRL + C     – Copiaremos todos esos resultados

3 – Realizaremos limpieza de todos esos datos, utilizando un extractor web online como por ejemplo: http://www.procato.com/mailextract/

Con este extractor online conseguiremos filtrar todo el texto y solo quedarnos con lo que nos interesa, los emails.

Ahora solo queda eliminar duplicados y comprobar los emails validos. Algo sencillo que podremos hacer desde aquí:

Eliminar duplicados:  http://textmechanic.com/text-tools/basic-text-tools/remove-duplicate-lines/

Verificar Emails: http://www.verifyemailaddress.org/es/validacion-de-emails-en-masa.html

La finalidad es clara encontrar emails de potenciales clientes, pero aquí desde pasionseo y seoinhouse como Agencia marketing online Barcelona 

queremos ir un paso mas allá y como no nos gusta el SPAM, proponemos filtrarlos aún mas utilizando más expresiones avanzadas de google y enviar todos esos emails a FACEBOOK!!

Recordar que el SCRAP tiene multitud de aplicaciones y esto no deja de ser la punta del ICEBERG!! imagínate un scrap para conseguir emails de un nicho concreto y enviar un artículo de tus productos a influencers del sector para pedir de forma colaborativa una review y conseguir un link a tu web, eso ya seria linkbuilding, alimento para el SEO de nuestra pagina web.  Asi que IMAGINACIÓN elevado al BIGDATA.

Así que si quieres una segunda parte o mas información, no dudes en escribir un comentario!!

 

 

 

 

 

 

 

4 Comments

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *