Com utilitzar els fulls de càlcul de Google per a la creació de campanyes i el raspat web


Nota de l’editor: A mesura que s’acaba el 2021, estem celebrant amb un compte enrere dels 12 dies de Nadal dels articles d’experts més populars i útils del Search Engine Journal d’aquest any.

Aquesta col·lecció va ser seleccionada pel nostre equip editorial en funció del rendiment, la utilitat, la qualitat i el valor creat per a cada article, els nostres lectors.

Cada dia fins al 24 de desembre, tornarem a publicar una de les millors columnes de l’any, començant al número 12 i fent el compte enrere fins al número 1. El nostre compte enrere comença avui amb la nostra columna número 5, que es va publicar originalment el 4 d’agost. , 2021.

Aquesta guia pràctica d’Andrea Atzori ensenya als lectors a utilitzar Fulls de càlcul de Google per a la creació de campanyes i la creació de campanyes, sense necessitat d’experiència en codificació.

Gaudeix!


Tots ens hem trobat en una situació en què en algun moment hem hagut d’extreure dades d’un lloc web.

Quan treballeu en un compte o campanya nous, és possible que no tingueu les dades o la informació disponible per a la creació dels anuncis, per exemple.

Anunci

Continueu llegint a continuació

En un món ideal, ens hauria proporcionat tot el contingut, les pàgines de destinació i la informació rellevant que necessitem, en un format fàcil d’importar, com ara un CSV, un full de càlcul Excel o un full de Google. (O com a mínim, sempre que necessitem com a dades amb pestanyes que es poden importar en un dels formats esmentats anteriorment).

Però no sempre és així.

Aquells que no disposen de les eines per al raspat web, o dels coneixements de codificació per utilitzar alguna cosa com Python per ajudar amb la tasca, potser han hagut de recórrer al tediós treball de copiar i enganxar manualment possiblement centenars o milers d’entrades.

En una feina recent, se’m va demanar al meu equip que:

  • Aneu al lloc web del client.
  • Baixeu més de 150 productes nous repartits en 15 pàgines diferents.
  • Copieu i enganxeu el nom del producte i l’URL de la pàgina de destinació de cada producte en un full de càlcul.

Ara, us podeu imaginar com de llarga hauria estat la tasca si haguéssim fet això i l’haguéssim executat manualment.

Anunci

Continueu llegint a continuació

No només requereix temps, sinó que amb algú que passa manualment per tants elements i pàgines i físicament ha de copiar i enganxar les dades producte per producte, les possibilitats de cometre un error o dos són força altes.

Aleshores, caldria encara més temps per revisar el document i assegurar-se que està lliure d’errors.

Hi ha d’haver una millor manera.

Bones notícies: n’hi ha! Deixa’m mostrar-te com ho hem fet.

Què és IMPORTXML?

Introduïu Fulls de càlcul de Google. M’agradaria que coneixeu la funció IMPORTXML.

Segons Google pàgina de suport, IMPORTXML “importa dades de qualsevol tipus de dades estructurades, com ara XML, HTML, CSV, TSV i RSS i ATOM XML”.

Bàsicament, IMPORTXML és una funció que us permet esborrar dades estructurades de pàgines web, sense necessitat de coneixements de codificació.

Per exemple, és fàcil i ràpid extreure dades com ara títols de pàgines, descripcions o enllaços, però també informació més complexa.

Com pot ajudar IMPORTXML a raspar elements d’una pàgina web?

La funció en si és bastant senzilla i només requereix dos valors:

  • L’URL de la pàgina web de la qual volem extreure o esborrar la informació.
  • I la XPath de l’element en què es troben les dades.

XPath significa Llenguatge XML Path i es pot utilitzar per navegar per elements i atributs en un document XML.

Per exemple, per extreure el títol de la pàgina de https://en.wikipedia.org/wiki/Moon_landing, utilitzaríem:

=IMPORTXML(“https://en.wikipedia.org/wiki/Moon_landing”, “//títol”)

Això retornarà el valor: Aterratge a la Lluna – Viquipèdia.

O, si busquem la descripció de la pàgina, proveu això:

=IMPORTXML(“https://www.searchenginejournal.com/”,”//meta[@name=’description’]/@contingut”)

Pàgina d'inici de SEJ Meta descripció extreta amb IMPORTXML.

Aquí teniu una llista breu d’algunes de les consultes XPath més comunes i útils:

Anunci

Continueu llegint a continuació

  • Títol de la pàgina: //títol
  • Meta descripció de la pàgina: //meta[@name=’description’]/@contingut
  • Pàgina H1: //h1
  • Enllaços a la pàgina: //@href

Vegeu IMPORTXML en acció

Des que vam descobrir IMPORTXML a Google Sheets, s’ha convertit realment en una de les nostres armes secretes en l’automatització de moltes de les nostres tasques diàries, des de la creació de campanyes i anuncis fins a la recerca de contingut i molt més.

A més, la funció combinada amb altres fórmules i complements es pot utilitzar per a tasques més avançades que, d’altra manera, requeririen solucions i desenvolupament sofisticats, com ara eines construïdes en Python.

Però en aquest cas, mirarem IMPORTXML en la seva forma més bàsica: esborrar dades d’una pàgina web.

Fem una ullada a un exemple pràctic.

Imagineu que se’ns ha demanat que creem una campanya per a Search Engine Journal.

Voldrien que anunciem els darrers 30 articles que s’han publicat a la secció PPC del web.

Anunci

Continueu llegint a continuació

Una tasca bastant senzilla, podríeu dir.

Malauradament, els editors no poden enviar-nos les dades i ens han demanat amablement que consultem el lloc web per obtenir la informació necessària per configurar la campanya.

Com es va esmentar al principi del nostre article, una manera de fer-ho seria obrir dues finestres del navegador: una amb el lloc web i l’altra amb Google Sheets o Excel. Aleshores començaríem a copiar i enganxar la informació, article per article i enllaç per enllaç.

Però utilitzant IMPORTXML a Google Sheets, podem aconseguir la mateixa sortida amb poc o cap risc d’error, en una fracció del temps.

Heus aquí com.

Pas 1: comença amb un full de Google nou

Primer, obrim un document nou i en blanc de Fulls de càlcul de Google:

Comenceu amb un document de Google Sheets en blanc.

Pas 2: afegiu el contingut que necessiteu per raspar

Afegiu l’URL de la pàgina (o pàgines) de les quals volem treure la informació.

Anunci

Continueu llegint a continuació

En el nostre cas, comencem amb https://www.searchenginejournal.com/category/pay-per-click/:

Afegiu l'URL de la pàgina que voleu raspar.Captura de pantalla presa de Google Sheets, juliol de 2021

Pas 3: Trobeu el XPath

Trobem el XPath de l’element del qual volem importar el contingut al nostre full de càlcul de dades.

En el nostre exemple, comencem pels títols dels darrers 30 articles.

Dirigiu-vos a Chrome. Un cop passat el cursor per sobre del títol d’un dels articles, feu clic amb el botó dret i seleccioneu Inspeccionar.

Obriu l'eina de Chrome WebDev.Captura de pantalla de SearchEngineJournal.com, juliol de 2021

Això obrirà la finestra Eines de desenvolupament de Chrome:

Cerqueu i copieu l'element XPath que voleu extreure.Captura de pantalla de SearchEngineJournal.com, juliol de 2021

Assegureu-vos que el títol de l’article encara estigui seleccionat i ressaltat, després feu clic amb el botó dret de nou i trieu Còpia > Copia XPath.

Anunci

Continueu llegint a continuació

Pas 4: extreu les dades a Fulls de Google

De tornada al document de Google Sheets, introduïu la funció IMPORTXML de la següent manera:

=IMPORTXML(B1,”//*[starts-with(@id, ‘title’)]”)

Un parell de coses a tenir en compte:

Primer, a la nostra fórmula, hem substituït l’URL de la pàgina per la referència a la cel·la on s’emmagatzema l’URL (B1).

Segon, quan copieu l’XPath de Chrome, sempre s’adjuntarà entre cometes dobles.

(//*[@id=”title_1″])

Tanmateix, per assegurar-vos que no trenca la fórmula, caldrà canviar el signe de cometes dobles pel signe de cometes simples.

(//*[@id=’title_1’])

Tingueu en compte que, en aquest cas, com que el títol de l’ID de la pàgina canvia per a cada article (títol_1, títol_2, etc.), hem de modificar lleugerament la consulta i utilitzar “comença per” per capturar tots els elements de la pàgina amb un identificador que contingui ‘títol’.

Això és el que apareix al document de Fulls de càlcul de Google:

Un exemple d'IMPORTXML.Captura de pantalla presa de Google Sheets, juliol de 2021

I en pocs moments, aquest és l’aspecte dels resultats després que la consulta s’hagi carregat les dades al full de càlcul:

Títols importats a Google Sheets.Captura de pantalla presa de Google Sheets, juliol de 2021

Com podeu veure, la llista retorna tots els articles que apareixen a la pàgina que acabem d’esborrar (inclosa la meva peça anterior sobre l’automatització i com utilitzar-la). Personalitzadors d’anuncis per millorar el rendiment de les campanyes de Google Ads).

Anunci

Continueu llegint a continuació

També podeu aplicar-ho per esborrar qualsevol altra informació necessària per configurar la vostra campanya publicitària.

Afegim els URL de la pàgina de destinació, el fragment destacat de cada article i el nom de l’autor al nostre document de Fulls.

Per als URL de les pàgines de destinació, hem d’ajustar la consulta per especificar que estem després de l’element HREF adjunt al títol de l’article.

Per tant, la nostra consulta serà així:

=IMPORTXML(B1,”//*[starts-with(@id, ‘title’)]/@href”)

Ara, afegiu “/@href” al final de l’Xpath.

Importa els enllaços de l'article.Captura de pantalla presa de Google Sheets, juliol de 2021

Voila! De seguida, tenim els URL de les pàgines de destinació:

Articles i URL importats a Fulls de càlcul de Google.Captura de pantalla presa de Google Sheets, juliol de 2021

Podeu fer el mateix amb els fragments destacats i els noms dels autors:

Totes les dades s'extreuen i s'importen a Google Sheets.Captura de pantalla presa de Google Sheets, juliol de 2021

Resolució de problemes

Una cosa a tenir en compte és que per poder expandir completament i omplir el full de càlcul amb totes les dades que retorna la consulta, la columna en què s’omplen les dades ha de tenir prou cel·les lliures i cap altra dada en el camí.

Anunci

Continueu llegint a continuació

Això funciona de manera semblant a quan fem servir una ARRAYFORMULA, perquè la fórmula s’ampliï no hi ha d’haver cap altra dada a la mateixa columna.

Conclusió

I aquí teniu una manera totalment automatitzada i sense errors d’esborrar dades de (potencialment) qualsevol pàgina web, tant si necessiteu el contingut i les descripcions dels productes, com les dades de comerç electrònic, com ara el preu del producte o els costos d’enviament.

En una època en què la informació i les dades poden ser l’avantatge necessari per oferir resultats millors que la mitjana, la capacitat d’esborrar pàgines web i contingut estructurat d’una manera fàcil i ràpida pot no tenir preu. A més, com hem vist anteriorment, IMPORTXML pot ajudar a reduir els temps d’execució i reduir les possibilitats d’error.

A més, la funció no és només una gran eina per a la qual es pot utilitzar exclusivament Tasques de PPC, però en canvi pot ser realment útil en molts projectes diferents que requereixen raspat web, inclòs SEO i tasques de contingut.

Compte enrere de Nadal SEJ 2021:

Anunci

Continueu llegint a continuació

Imatge destacada: Aleutie/Shutterstock





Source link

Com utilitzar els fulls de càlcul de Google per a la creació de campanyes i el raspat web