8 biblioteques Python útils per a SEO i com utilitzar-les


Nota de l’editor: A mesura que s’acaba el 2021, estem celebrant amb un compte enrere dels 12 dies de Nadal dels articles d’experts més populars i útils del Search Engine Journal d’aquest any.

Aquesta col·lecció va ser seleccionada pel nostre equip editorial en funció del rendiment, la utilitat, la qualitat i el valor creat per a cada article, els nostres lectors.

Cada dia fins al 24 de desembre, tornarem a publicar una de les millors columnes de l’any, començant al número 12 i fent el compte enrere fins al número 1. El nostre compte enrere comença avui amb la nostra columna número 3, que es va publicar originalment el 18 de març. , 2021.

L’article de Ruth Everett sobre l’ús de biblioteques de Python per automatitzar i realitzar tasques de SEO facilita molt la feina d’un venedor. És molt fàcil de llegir i perfecte per a principiants i fins i tot per a professionals de SEO més experimentats que volen utilitzar més Python.

Gran treball en això, Ruth, i agraïm molt les vostres contribucions a Search Engine Journal.

Gaudeix!


Les biblioteques de Python són una manera divertida i accessible de començar a aprendre i utilitzar Python per a SEO.

Anunci

Continueu llegint a continuació

Una biblioteca Python és una col·lecció de funcions i codi útils que us permeten completar una sèrie de tasques sense necessitat d’escriure el codi des de zero.

Hi ha més de 100.000 biblioteques disponibles per utilitzar a Python, que es poden utilitzar per a funcions des de l’anàlisi de dades fins a la creació de videojocs.

En aquest article, trobareu diverses biblioteques diferents que he utilitzat per completar projectes i tasques de SEO. Tots són aptes per a principiants i trobareu molta documentació i recursos per ajudar-vos a començar.

Per què són útils les biblioteques Python per al SEO?

Cada biblioteca de Python conté funcions i variables de tot tipus (matrius, diccionaris, objectes, etc.) que es poden utilitzar per realitzar diferents tasques.

Per al SEO, per exemple, es poden utilitzar per automatitzar determinades coses, predir resultats i proporcionar informació intel·ligent.

És possible treballar només amb vanilla Python, però les biblioteques ho poden fer s’utilitza per fer les tasques molt més fàcils i més ràpid d’escriure i completar.

Biblioteques Python per a tasques de SEO

Hi ha diverses biblioteques Python útils per a tasques de SEO, incloses anàlisi de dades, raspat web i visualització d’informació.

Anunci

Continueu llegint a continuació

Aquesta no és una llista exhaustiva, però aquestes són les biblioteques que més utilitzo amb finalitats de SEO.

Pandes

Pandas és una biblioteca de Python que s’utilitza per treballar amb dades de taules. Permet la manipulació de dades d’alt nivell on l’estructura de dades clau és un DataFrame.

Els marcs de dades són similars a Excel fulls de càlcul, però, no es limiten als límits de fila i byte i també són molt més ràpids i eficients.

La millor manera de començar amb Pandas és agafar un simple CSV de dades (un rastreig del vostre lloc web, per exemple) i desar-lo a Python com a DataFrame.

Un cop ho tingueu emmagatzemat a Python, podeu realitzar una sèrie de tasques d’anàlisi diferents, com ara agregar, pivotar i netejar dades.

Per exemple, si tinc un rastreig complet del meu lloc web i vull extreure només aquelles pàgines que es poden indexar, utilitzaré una funció Pandas integrada per incloure només aquests URL al meu DataFrame.

import pandas as pd 
df = pd.read_csv('/Users/rutheverett/Documents/Folder/file_name.csv')
df.head
indexable = df[(df.indexable == True)]
indexable

Sol·licituds

La següent biblioteca s’anomena Sol·licituds i s’utilitza per fer peticions HTTP a Python.

Requests utilitza diferents mètodes de sol·licitud com GET i POST per fer una sol·licitud, i els resultats s’emmagatzemen a Python.

Un exemple d’això en acció és una simple sol·licitud GET d’URL, això imprimirà el codi d’estat d’una pàgina:

import requests
response = requests.get('https://www.deepcrawl.com') print(response)

A continuació, podeu utilitzar aquest resultat per crear una funció de presa de decisions, on un codi d’estat 200 significa que la pàgina està disponible, però un 404 significa que no es troba la pàgina.

if response.status_code == 200:
    print('Success!')
elif response.status_code == 404:
    print('Not Found.')

També podeu utilitzar diferents sol·licituds, com ara capçaleres, que mostren informació útil sobre la pàgina, com ara el tipus de contingut o el temps que va trigar a emmagatzemar la resposta a la memòria cau.

headers = response.headers
print(headers)

response.headers['Content-Type']

També hi ha la possibilitat de simular un agent d’usuari específic, com ara Googlebot, per extreure la resposta que aquest bot específic veurà quan rastregi la pàgina.

headers = {'User-Agent': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'} ua_response = requests.get('https://www.deepcrawl.com/', headers=headers) print(ua_response)

Resposta de l'agent d'usuari

Sopa preciosa

Beautiful Soup és una biblioteca que s’utilitza per extreure dades de fitxers HTML i XML.

Anunci

Continueu llegint a continuació

Dada curiosa: la biblioteca BeautifulSoup va rebre el nom del poema d’Alice’s Adventures in Wonderland de Lewis Carroll.

Com a biblioteca, BeautifulSoup s’utilitza per donar sentit als fitxers web i s’utilitza més sovint per al raspat web, ja que pot transformar un document HTML en diferents objectes Python.

Per exemple, podeu agafar un URL i utilitzar Beautiful Soup juntament amb la biblioteca de sol·licituds per extreure el títol de la pàgina.

from bs4 import BeautifulSoup 
import requests
url="https://www.deepcrawl.com" 
req = requests.get(url) 
soup = BeautifulSoup(req.text, "html.parser")
title = soup.title print(title)

Preciós títol de la sopa

A més, utilitzant el mètode find_all, BeautifulSoup us permet extreure determinats elements d’una pàgina, com ara tots els enllaços a href de la pàgina:

Anunci

Continueu llegint a continuació

url="https://www.deepcrawl.com/knowledge/technical-seo-library/" 
req = requests.get(url) 
soup = BeautifulSoup(req.text, "html.parser")

for link in soup.find_all('a'): 
    print(link.get('href'))

Sopa preciosa Tots els enllaços

Posant-los junts

Aquestes tres biblioteques també es poden utilitzar juntes, amb les sol·licituds utilitzades per fer la sol·licitud HTTP a la pàgina de la qual voldríem utilitzar BeautifulSoup per extreure informació.

Aleshores podem transformar aquestes dades en brut en un Pandas DataFrame per dur a terme una anàlisi addicional.

URL = 'https://www.deepcrawl.com/blog/'
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")

links = soup.find_all('a')

df = pd.DataFrame({'links':links})
df

Matplotlib i Seaborn

Matplotlib i Seaborn són dues biblioteques de Python que s’utilitzen per crear visualitzacions.

Matplotlib us permet crear una sèrie de visualitzacions de dades diferents, com ara gràfics de barres, gràfics de línies, histogrames i fins i tot mapes de calor.

Anunci

Continueu llegint a continuació

Per exemple, si volgués agafar algunes dades de Google Trends per mostrar les consultes amb més popularitat durant un període de 30 dies, podria crear un gràfic de barres a Matplotlib per visualitzar-les.

Gràfic de barres Matplotlib

Seaborn, que es basa en Matplotlib, ofereix encara més patrons de visualització com ara gràfics de dispersió, gràfics de caixa i gràfics de violí, a més de gràfics de línies i barres.

Difereix lleugerament de Matplotlib, ja que utilitza menys sintaxi i té temes predeterminats integrats.

Anunci

Continueu llegint a continuació

Una de les maneres en què he utilitzat Seaborn és crear gràfics de línies per visualitzar les visites dels fitxers de registre a determinats segments d’un lloc web al llarg del temps.

Gràfic de línies Matplotlib

sns.lineplot(x = "month", y = "log_requests_total", hue="category", data=pivot_status)
plt.show()

Aquest exemple en particular pren dades d’una taula dinàmica, que vaig poder crear a Python mitjançant la biblioteca Pandas, i és una altra manera en què aquestes biblioteques col·laboren per crear una imatge fàcil d’entendre a partir de les dades.

Eines publicitàries

Eines publicitàries és una biblioteca creada per Elias Dabbas que es pot utilitzar per ajudar a gestionar, entendre i prendre decisions en funció de les dades que tenim com a professionals del SEO i comercialitzadors digitals.

Anunci

Continueu llegint a continuació

Anàlisi del mapa del lloc

Aquesta biblioteca us permet realitzar una sèrie de tasques diferents, com ara descarregar, analitzar i analitzar Mapes del lloc XML per extreure patrons o analitzar la freqüència amb què s’afegeix o es modifica el contingut.

Anàlisi de Robots.txt

Una altra cosa interessant que podeu fer amb aquesta biblioteca és utilitzar una funció extreu el fitxer robots.txt d’un lloc web en un DataFrame, per entendre i analitzar fàcilment les regles establertes.

També podeu executar una prova dins de la biblioteca per comprovar si un agent d’usuari concret és capaç d’obtenir determinats URL o camins de carpetes.

Anàlisi d’URL

Advertools també us permet analitzar i analitzar URL per extreure informació i entendre millor les dades d’anàlisi, SERP i rastreig per a determinats conjunts d’URL.

També podeu dividir els URL mitjançant la biblioteca per determinar coses com ara l’esquema HTTP que s’utilitza, el camí principal, paràmetres addicionals i cadenes de consulta.

Seleni

Selenium és una biblioteca de Python que s’utilitza generalment amb finalitats d’automatització. El cas d’ús més comú és provar aplicacions web.

Anunci

Continueu llegint a continuació

Un exemple popular de Selenium que automatitza un flux és un script que obre un navegador i realitza una sèrie de passos diferents en una seqüència definida, com ara omplir formularis o fer clic a determinats botons.

Selenium utilitza el mateix principi que s’utilitza a la biblioteca de sol·licituds que vam cobrir anteriorment.

Tanmateix, no només enviarà la sol·licitud i esperarà la resposta, sinó que també mostrarà la pàgina web que s’està sol·licitant.

Per començar amb Selenium, necessitareu un WebDriver per poder fer les interaccions amb el navegador.

Cada navegador té el seu propi WebDriver; Chrome té ChromeDriver i Firefox té GeckoDriver, per exemple.

Són fàcils de descarregar i configurar amb el vostre codi Python. Aquí teniu un article útil explicant el procés de configuració, amb un projecte d’exemple.

Scrapy

L’última biblioteca que volia cobrir en aquest article és Scrapy.

Tot i que podem utilitzar el mòdul de sol·licituds per rastrejar i extreure dades internes d’una pàgina web, per passar aquestes dades i extreure informació útil també hem de combinar-les amb BeautifulSoup.

Anunci

Continueu llegint a continuació

Scrapy us permet bàsicament fer tots dos en una biblioteca.

Scrapy també és considerablement més ràpid i potent, completa les sol·licituds de rastreig, extreu i analitza dades en una seqüència determinada i us permet protegir les dades.

Dins de Scrapy, podeu definir una sèrie d’instruccions, com ara el nom del domini que voleu rastrejar, l’URL d’inici i determinades carpetes de pàgines que l’aranya pot o no rastrejar.

Scrapy es pot utilitzar per extreure tots els enllaços d’una pàgina determinada i emmagatzemar-los en un fitxer de sortida, per exemple.

class SuperSpider(CrawlSpider):
   name="extractor"
   allowed_domains = ['www.deepcrawl.com']
   start_urls = ['https://www.deepcrawl.com/knowledge/technical-seo-library/']
   base_url="https://www.deepcrawl.com"
   def parse(self, response):
       for link in response.xpath('//div/p/a'):
           yield {
               "link": self.base_url + link.xpath('.//@href').get()
           }

Podeu fer un pas més i seguir els enllaços que es troben a una pàgina web per extreure informació de totes les pàgines a les quals s’enllacen des de l’URL d’inici, com una rèplica a petita escala dels enllaços de cerca i seguiment de Google en una pàgina.

from scrapy.spiders import CrawlSpider, Rule
 
 
class SuperSpider(CrawlSpider):
    name="follower"
    allowed_domains = ['en.wikipedia.org']
    start_urls = ['https://en.wikipedia.org/wiki/Web_scraping']
    base_url="https://en.wikipedia.org"
 
    custom_settings = {
        'DEPTH_LIMIT': 1
    }
 
    def parse(self, response):
        for next_page in response.xpath('.//div/p/a'):
            yield response.follow(next_page, self.parse)
 
        for quote in response.xpath('.//h1/text()'):
            yield {'quote': quote.extract() }

Obteniu més informació sobre aquests projectes, entre altres projectes d’exemple, aquí.

Pensaments finals

Com Hamlet Baptista sempre deia: “la millor manera d’aprendre és fent”.

Anunci

Continueu llegint a continuació

Espero que descobrir algunes de les biblioteques disponibles us hagi inspirat a començar a aprendre Python o a aprofundir en els vostres coneixements.

Contribucions de Python de la indústria de SEO

A Hamlet també li agradava compartir recursos i projectes dels membres de la comunitat SEO de Python. Per honrar la seva passió per animar els altres, volia compartir algunes de les coses sorprenents que he vist de la comunitat.

Com a meravellós homenatge a Hamlet i a la comunitat SEO Python que va ajudar a conrear, Charly Wargnier ha creat SEO Pythonistas per recollir contribucions dels sorprenents projectes Python que han creat els de la comunitat de SEO.

Es presenten les inestimables contribucions de Hamlet a la comunitat de SEO.

Moshe Ma-yafit va crear un súper script fantàstic per a l’anàlisi de fitxers de registre, i en aquesta entrada s’explica com funciona el guió. Les visualitzacions que pot mostrar inclouen visites de Google Bot per dispositiu, visites diàries per codi de resposta, % de codi de resposta total i molt més.

Koray Tüberk GÜBÜR actualment està treballant en un verificador de salut del mapa del lloc. També va organitzar un seminari web RankSense amb Elias Dabbas on va compartir un script que registra SERP i algorismes d’anàlisi.

Anunci

Continueu llegint a continuació

Bàsicament, registra SERP amb diferències horàries regulars i podeu rastrejar totes les pàgines de destinació, combinar dades i crear algunes correlacions.

John McAlpin va escriure un article detallant com es pot utilitzar Python i Data Studio per espiar els teus competidors.

JC Chouinard va escriure a guia completa per utilitzar l’API de Reddit. Amb això, podeu fer coses com extreure dades de Reddit i publicar-les a un Subreddit.

Rob May està treballant en una nova eina d’anàlisi GSC i construint uns quants dominis/llocs reals nous a Wix per mesurar-los amb el seu competidor de WordPress de gamma alta mentre ho documenta.

Masaki Okazawa també va compartir un script que analitza les dades de Google Search Console amb Python.

Compte enrere de Nadal SEJ 2021:

Anunci

Continueu llegint a continuació

Imatge destacada: jakkaje879/Shutterstock





Source link

8 biblioteques Python útils per a SEO i com utilitzar-les
A %d bloguers els agrada això: