Visualització de temes candents amb Python per analitzar mapes del lloc de notícies


Els mapes del lloc de notícies utilitzen protocols de mapes del lloc diferents i únics per proporcionar més informació als motors de cerca de notícies.

Un mapa del lloc de notícies conté les notícies publicades en les últimes 48 hores.

Les etiquetes del mapa del lloc de notícies inclouen el títol de la publicació de notícies, l’idioma, el nom, el gènere, la data de publicació, les paraules clau i fins i tot els tickers de valors.

Com podeu utilitzar aquests mapes del lloc al vostre avantatge per a la recerca de contingut i l’anàlisi competitiva?

En aquest tutorial de Python, aprendràs un procés de 10 passos per analitzar mapes de llocs de notícies i visualitzar les tendències d’actualitat que s’hi descobreixen.

Notes de neteja per començar

Aquest tutorial va ser escrit durant la invasió russa d’Ucraïna.

Mitjançant l’aprenentatge automàtic, fins i tot podem etiquetar fonts de notícies i articles segons quina font de notícies és “objectiva” i quina font de notícies és “sarcàstica”.

Però per simplificar les coses, ens centrarem en temes amb anàlisi de freqüència.

Utilitzarem més de 10 fonts de notícies globals als EUA i al Regne Unit

Nota: ens agradaria incloure fonts de notícies russes, però no tenen un mapa del lloc de notícies adequat. Encara que ho tinguessin, bloquegen les peticions externes.

Comparant l’ocurrència de la paraula de “invasió” i “alliberament” de fonts de notícies occidentals i orientals mostra el benefici dels mètodes d’anàlisi de text de freqüència distributiva.

Què necessiteu per analitzar contingut de notícies amb Python

A continuació s’enumeren les biblioteques de Python relacionades per auditar un mapa del lloc de notícies per entendre l’estratègia de contingut de la font de notícies:

  • Eines publicitàries.
  • Pandes.
  • Plotly Express, subtrames i objectes gràfics.
  • Re (Regex).
  • Corda.
  • NLTK (Corpus, Stopwords, Ngrams).
  • Unicodedata.
  • Matplotlib.
  • Comprensió bàsica de la sintaxi de Python.

10 passos per a l’anàlisi del mapa del lloc de notícies amb Python

Tot configurat? Anem-hi.

1. Agafeu els URL de notícies del mapa del lloc de notícies

Vam triar “The Guardian”, “New York Times”, “Washington Post”, “Daily Mail”, “Sky News”, “BBC” i “CNN” per examinar els URL de notícies dels mapes del lloc de notícies.

df_guardian = adv.sitemap_to_df("http://www.theguardian.com/sitemaps/news.xml")
df_nyt = adv.sitemap_to_df("https://www.nytimes.com/sitemaps/new/news.xml.gz")
df_wp = adv.sitemap_to_df("https://www.washingtonpost.com/arcio/news-sitemap/")
df_bbc = adv.sitemap_to_df("https://www.bbc.com/sitemaps/https-index-com-news.xml")
df_dailymail = adv.sitemap_to_df("https://www.dailymail.co.uk/google-news-sitemap.xml")
df_skynews = adv.sitemap_to_df("https://news.sky.com/sitemap-index.xml")
df_cnn = adv.sitemap_to_df("https://edition.cnn.com/sitemaps/cnn/news.xml")

2. Examineu un exemple de mapa del lloc de notícies amb Python

He utilitzat la BBC com a exemple per demostrar el que acabem d’extreure d’aquests mapes del lloc de notícies.

df_bbc
Exemple de mapa del lloc de notíciesVista de marc de dades del mapa del lloc de notícies

El mapa del lloc de la BBC té les columnes a continuació.

df_bbc.columns
Etiquetes de mapa del lloc de notíciesEtiquetes de mapa del lloc de notícies com a columnes de marc de dades

Les estructures generals de dades d’aquestes columnes es mostren a continuació.

df_bbc.info()
Mapa del lloc de notícies com a marc de dadesNotícies Mapa del lloc Columnes i tipus de dades

La BBC no utilitza la columna “news_publication” i altres.

3. Trobeu les paraules més utilitzades a les URL de les publicacions de notícies

Per veure les paraules més utilitzades als URL dels llocs de notícies, hem d’utilitzar els mètodes “str”, “explode” i “split”.

df_dailymail["loc"].str.split("/").str[5].str.split("-").explode().value_counts().to_frame()
loc
article
176
Russian
50
Ukraine
50
says
38
reveals
38
...
...
readers
1
Red
1
Cross
1
provide
1
weekend.html
1
5445 rows × 1 column

Veiem que per al “Daily Mail”, “Rússia i Ucraïna” són el tema principal.

4. Trobeu la llengua més utilitzada a les publicacions de notícies

L’estructura de l’URL o la secció “idioma” de la publicació de notícies es pot utilitzar per veure els idiomes més utilitzats a les publicacions de notícies.

En aquesta mostra, hem utilitzat “BBC” per veure la seva prioritat d’idioma.

df_bbc["publication_language"].head(20).value_counts().to_frame()
llengua_publicació
en
698
fa
52
sr
52
ar
47
mr
43
hi
43
gu
41
ur
35
pt
33
te
31
ta
31
cy
30
ha
29
tr
28
es
25
sw
22
cpe
22
ne
21
pa
21
yo
20
20 rows × 1 column

Per arribar a la població russa a través de Google News, totes les fonts de notícies occidentals haurien d’utilitzar l’idioma rus.

Algunes institucions internacionals de notícies van començar a fer aquesta perspectiva.

Si sou un SEO de notícies, és útil veure les publicacions en rus dels competidors per distribuir les notícies objectives a Rússia i competir dins del sector de les notícies.

5. Auditoria dels títols de notícies per a la freqüència de les paraules

Hem utilitzat la BBC per veure els “títols de notícies” i quines paraules són més freqüents.

df_bbc["news_title"].str.split(" ").explode().value_counts().to_frame()
news_title
to
232
in
181
-
141
of
140
for
138
...
...
ፊልም
1
ብላክ
1
ባንኪ
1
ጕሒላ
1
niile
1
11916 rows × 1 columns

El problema aquí és que tenim “tot tipus de paraula als títols de les notícies”, com ara “paraules sense context”.

Hem de netejar aquest tipus de termes no categòrics per entendre millor el seu focus.

from nltk.corpus import stopwords
stop = stopwords.words('english')
df_bbc_news_title_most_used_words = df_bbc["news_title"].str.split(" ").explode().value_counts().to_frame()
pat = r'b(?:{})b'.format('|'.join(stop))
df_bbc_news_title_most_used_words.reset_index(drop=True, inplace=True)
df_bbc_news_title_most_used_words["without_stop_words"] = df_bbc_news_title_most_used_words["words"].str.replace(pat,"")
df_bbc_news_title_most_used_words.drop(df_bbc_news_title_most_used_words.loc[df_bbc_news_title_most_used_words["without_stop_words"]==""].index, inplace=True)
df_bbc_news_title_most_used_words
Eliminació de les paraules d'aturada de l'anàlisi de textLa columna “without_stop_words” inclou els valors de text netejats.

Hem eliminat la majoria de les paraules clau amb l’ajuda del mètode “regex” i “reemplaçar” de Pandas.

La segona preocupació és eliminar les “puntuació”.

Per a això, utilitzarem el mòdul “cadena” de Python.

import string
df_bbc_news_title_most_used_words["without_stop_word_and_punctation"] = df_bbc_news_title_most_used_words['without_stop_words'].str.replace('[{}]'.format(string.punctuation), '')
df_bbc_news_title_most_used_words.drop(df_bbc_news_title_most_used_words.loc[df_bbc_news_title_most_used_words["without_stop_word_and_punctation"]==""].index, inplace=True)
df_bbc_news_title_most_used_words.drop(["without_stop_words", "words"], axis=1, inplace=True)
df_bbc_news_title_most_used_words
news_title
without_stop_word_and_punctation
Ukraine
110
Ukraine
v
83
v
de
61
de
Ukraine:
60
Ukraine
da
51
da
...
...
...
ፊልም
1
ፊልም
ብላክ
1
ብላክ
ባንኪ
1
ባንኪ
ጕሒላ
1
ጕሒላ
niile
1
niile
11767 rows × 2 columns

O bé, utilitzeu “df_bbc_news_title_most_used_words[“news_title”].to_frame()” per fer una imatge més clara de les dades.

news_title
Ukraine
110
v
83
de
61
Ukraine:
60
da
51
...
...
ፊልም
1
ብላክ
1
ባንኪ
1
ጕሒላ
1
niile
1
11767 rows × 1 columns

Veiem 11.767 paraules úniques als URL de la BBC, i Ucraïna és la més popular, amb 110 ocurrències.

Hi ha diferents frases relacionades amb Ucraïna del marc de dades, com ara “Ucraïna:”.

El “NLTK Tokenize” es pot utilitzar per unir aquests tipus de diferents variacions.

La següent secció utilitzarà un mètode diferent per unir-los.

Nota: si voleu facilitar les coses, utilitzeu Advertools com a continuació.

adv.word_frequency(df_bbc["news_title"],phrase_len=2, rm_words=adv.stopwords.keys())

El resultat és a continuació.

Anàlisi de Text i WordAnàlisi de textos amb Advertools

“adv.word_frequency” té els atributs “phrase_len” i “rm_words” per determinar la longitud de l’ocurrència de la frase i eliminar les paraules finals.

Em pots dir, per què no el vaig fer servir en primer lloc?

Volia mostrar-vos un exemple educatiu amb “regex, NLTK i la cadena” perquè pugueu entendre què passa entre bastidors.

6. Visualitza les paraules més utilitzades als títols de notícies

Per visualitzar les paraules més utilitzades en els títols de les notícies, podeu fer servir el bloc de codis de sota.

df_bbc_news_title_most_used_words["news_title"] = df_bbc_news_title_most_used_words["news_title"].astype(int)
df_bbc_news_title_most_used_words["without_stop_word_and_punctation"] = df_bbc_news_title_most_used_words["without_stop_word_and_punctation"].astype(str)
df_bbc_news_title_most_used_words.index = df_bbc_news_title_most_used_words["without_stop_word_and_punctation"]
df_bbc_news_title_most_used_words["news_title"].head(20).plot(title="The Most Used Words in BBC News Titles")
Notícies Mapa del lloc Anàlisi PythonNotícies NGrams Visualització

T’adones que hi ha una “línia trencada”.

Recordeu “Ucraïna” i “Ucraïna:” al marc de dades?

Quan eliminem la “puntuació”, el segon i el primer valors esdevenen els mateixos.

És per això que el gràfic de línies diu que Ucraïna va aparèixer 60 vegades i 110 vegades per separat.

Per evitar aquesta discrepància de dades, utilitzeu el bloc de codi següent.

df_bbc_news_title_most_used_words_1 = df_bbc_news_title_most_used_words.drop_duplicates().groupby('without_stop_word_and_punctation', sort=False, as_index=True).sum()
df_bbc_news_title_most_used_words_1
news_title
without_stop_word_and_punctation
Ukraine
175
v
83
de
61
da
51
и
41
...
...
ፊልም
1
ብላክ
1
ባንኪ
1
ጕሒላ
1
niile
1
11109 rows × 1 columns

Les files duplicades s’eliminen i els seus valors es sumen.

Ara, visualitzem-ho de nou.

7. Extreu els N-Grams més populars dels títols de notícies

Extraure n-grames dels títols de notícies o normalitzar les paraules URL i formar n-grames per entendre l’actualitat general és útil per entendre quina publicació de notícies s’apropa a quin tema. Heus aquí com.

import nltk
import unicodedata
import re
def text_clean(content):
  lemmetizer = nltk.stem.WordNetLemmatizer()

  stopwords = nltk.corpus.stopwords.words('english')

  content = (unicodedata.normalize('NFKD', content)

    .encode('ascii', 'ignore')

    .decode('utf-8', 'ignore')

    .lower())

  words = re.sub(r'[^ws]', '', content).split()

  return [lemmetizer.lemmatize(word) for word in words if word not in stopwords]
raw_words = text_clean(''.join(str(df_bbc['news_title'].tolist())))
raw_words[:10]
OUTPUT>>>
['oneminute', 'world', 'news', 'best', 'generation', 'make', 'agyarkos', 'dream', 'fight', 'card']

La sortida mostra que hem “lematitzat” totes les paraules dels títols de les notícies i les hem posat en una llista.

La comprensió de la llista proporciona una drecera ràpida per filtrar fàcilment totes les paraules aturades.

L’ús de “nltk.corpus.stopwords.words(“anglès”)” proporciona totes les paraules finals en anglès.

Però podeu afegir paraules finals addicionals a la llista per ampliar l’exclusió de paraules.

La “unicodedata” és canonitzar els caràcters.

Els caràcters que veiem són en realitat bytes Unicode com “U+2160 NUMERAL ROMÀ U” i el caràcter romà “U+0049 LLETTRA I MAYÚSCULA LLATINA” són en realitat els mateixos.

El “unicodedata.normalize” distingeix les diferències de caràcters perquè el lematitzador pugui diferenciar les diferents paraules amb caràcters similars entre si.

pd.set_option("display.max_colwidth",90)

bbc_bigrams = (pd.Series(ngrams(words, n = 2)).value_counts())[:15].sort_values(ascending=False).to_frame()

bbc_trigrams = (pd.Series(ngrams(words, n = 3)).value_counts())[:15].sort_values(ascending=False).to_frame()

A continuació, veureu els “n-grams” més populars de BBC News.

Bigrams de la BBCNGrams Dataframe de la BBC

Per visualitzar simplement els n-grams més populars d’una font de notícies, utilitzeu el bloc de codi següent.

bbc_bigrams.plot.barh(color="red", width=.8,figsize=(10 , 7))

“Ucraïna, guerra” és la notícia de tendència.

També podeu filtrar els n-grams per a “Ucraïna” i crear un parell “entitat-atribut”.

Notícies Mapa del lloc NGramsNotícies Mapa del lloc NGrams de la BBC

Rastrejar aquests URL i reconèixer les “entitats de tipus de persona” us pot donar una idea de com aborda la BBC les situacions que són dignes de notícia.

Però va més enllà dels “mapes del lloc de notícies”. Per tant, és per un altre dia.

Per visualitzar els n-grams populars dels mapes del lloc de la font de notícies, podeu crear una funció python personalitzada com a continuació.

def ngram_visualize(dataframe:pd.DataFrame, color:str="blue") -> pd.DataFrame.plot:

     dataframe.plot.barh(color=color, width=.8,figsize=(10 ,7))
ngram_visualize(ngram_extractor(df_dailymail))

El resultat és a continuació.

Visualització de N-GramNotícies Mapa del lloc Visualització de trigrames

Per fer-lo interactiu, afegiu un paràmetre addicional com a continuació.

def ngram_visualize(dataframe:pd.DataFrame, backend:str, color:str="blue", ) -> pd.DataFrame.plot:

     if backend=="plotly":

          pd.options.plotting.backend=backend

          return dataframe.plot.bar()

     else:

          return dataframe.plot.barh(color=color, width=.8,figsize=(10 ,7))
ngram_visualize(ngram_extractor(df_dailymail), backend="plotly")

Com a exemple ràpid, comproveu a continuació.

8. Creeu les vostres pròpies funcions personalitzades per analitzar els mapes del lloc de font de notícies

Quan auditeu els mapes del lloc de notícies repetidament, caldrà un petit paquet Python.

A continuació, podeu trobar quatre cadenes de funcions Python ràpides diferents que utilitzen totes les funcions anteriors com a devolució de trucada.

Per netejar un element de contingut textual, utilitzeu la funció següent.

def text_clean(content):

  lemmetizer = nltk.stem.WordNetLemmatizer()

  stopwords = nltk.corpus.stopwords.words('english')

  content = (unicodedata.normalize('NFKD', content)

    .encode('ascii', 'ignore')

    .decode('utf-8', 'ignore')

    .lower())

  words = re.sub(r'[^ws]', '', content).split()

  return [lemmetizer.lemmatize(word) for word in words if word not in stopwords]

Per extreure els n-grams dels títols de notícies del mapa del lloc d’un lloc web de notícies específic, utilitzeu la funció següent.

def ngram_extractor(dataframe:pd.DataFrame|pd.Series):

     if "news_title" in dataframe.columns:

          return dataframe_ngram_extractor(dataframe,  ngram=3, first=10)

Utilitzeu la funció següent per convertir els n-grams extrets en un marc de dades.

def dataframe_ngram_extractor(dataframe:pd.DataFrame|pd.Series, ngram:int, first:int):

     raw_words = text_clean(''.join(str(dataframe['news_title'].tolist())))

     return (pd.Series(ngrams(raw_words, n = ngram)).value_counts())[:first].sort_values(ascending=False).to_frame()

Per extreure mapes del lloc de diversos llocs web de notícies, utilitzeu la funció següent.

def ngram_df_constructor(df_1:pd.DataFrame, df_2:pd.DataFrame):

  df_1_bigrams = dataframe_ngram_extractor(df_1, ngram=2, first=500)

  df_1_trigrams = dataframe_ngram_extractor(df_1, ngram=3, first=500)

  df_2_bigrams = dataframe_ngram_extractor(df_2, ngram=2, first=500)

  df_2_trigrams = dataframe_ngram_extractor(df_2, ngram=3, first=500)

  ngrams_df = {

  "df_1_bigrams":df_1_bigrams.index,

  "df_1_trigrams": df_1_trigrams.index,

  "df_2_bigrams":df_2_bigrams.index,

  "df_2_trigrams": df_2_trigrams.index,

  }

  dict_df = (pd.DataFrame({ key:pd.Series(value) for key, value in ngrams_df.items() }).reset_index(drop=True)

  .rename(columns={"df_1_bigrams":adv.url_to_df(df_1["loc"])["netloc"][1].split("www.")[1].split(".")[0] + "_bigrams",

                    "df_1_trigrams":adv.url_to_df(df_1["loc"])["netloc"][1].split("www.")[1].split(".")[0] + "_trigrams",

                    "df_2_bigrams": adv.url_to_df(df_2["loc"])["netloc"][1].split("www.")[1].split(".")[0] + "_bigrams",

                    "df_2_trigrams": adv.url_to_df(df_2["loc"])["netloc"][1].split("www.")[1].split(".")[0] + "_trigrams"}))

  return dict_df

A continuació, podeu veure un exemple d’ús.

ngram_df_constructor(df_bbc, df_guardian)
Popularitat de NgramComparació popular de Ngram per veure l’enfocament dels llocs web de notícies.

Només amb aquestes quatre funcions Python personalitzades imbricades podeu fer les coses següents.

  • Fàcilment, podeu visualitzar aquests n-grams i el recompte del lloc web de notícies per comprovar.
  • Podeu veure l’enfocament dels llocs web de notícies per al mateix tema o temes diferents.
  • Podeu comparar la seva redacció o el vocabulari dels mateixos temes.
  • Podeu veure quants subtemes diferents dels mateixos temes o entitats es processen de manera comparativa.

No vaig posar els números per a les freqüències dels n-grams.

Però, els primers classificats són els més populars d’aquesta font de notícies específica.

Per examinar les 500 files següents, feu clic aquí.

9. Extraieu les paraules clau de notícies més utilitzades dels mapes del lloc de notícies

Quan es tracta de paraules clau de notícies, sorprenentment encara estan actives a Google.

Per exemple, Microsoft Bing i Google no us penseu que les “meta paraules clau” ja siguin un senyal útil, a diferència Yandex.

Però, les paraules clau de notícies dels mapes del lloc de notícies encara es fan servir.

Entre totes aquestes fonts de notícies, només The Guardian utilitza les paraules clau de les notícies.

I entendre com utilitzen les paraules clau de les notícies per proporcionar rellevància és útil.

df_guardian["news_keywords"].str.split().explode().value_counts().to_frame().rename(columns={"news_keywords":"news_keyword_occurence"})

Podeu veure les paraules més utilitzades a les paraules clau de notícies de The Guardian.

news_keyword_occurence
news,
250
World
142
and
142
Ukraine,
127
UK
116
...
...
Cumberbatch,
1
Dune
1
Saracens
1
Pearson,
1
Thailand
1
1409 rows × 1 column

La visualització és a continuació.

(df_guardian["news_keywords"].str.split().explode().value_counts()

.to_frame().rename(columns={"news_keywords":"news_keyword_occurence"})

.head(25).plot.barh(figsize=(10,8),

title="The Guardian Most Used Words in News Keywords", xlabel="News Keywords",

legend=False, ylabel="Count of News Keyword"))

Paraules més populars a les paraules clau de notíciesParaules més populars a les paraules clau de notícies

El “,” al final de les paraules clau de la notícia representen si es tracta d’un valor independent o d’un altre.
Us suggereixo que no elimineu les “puntuació” o les “paraules limitades” de les paraules clau de notícies perquè pugueu veure millor el seu estil d’ús de paraules clau de notícies.

Per a una anàlisi diferent, podeu utilitzar “,” com a separador.

df_guardian["news_keywords"].str.split(",").explode().value_counts().to_frame().rename(columns={"news_keywords":"news_keyword_occurence"})

La diferència del resultat és a continuació.

news_keyword_occurence
World news
134
Europe
116
UK news
111
Sport
109
Russia
90
...
...
Women's shoes
1
Men's shoes
1
Body image
1
Kae Tempest
1
Thailand
1
1080 rows × 1 column

Centra’t en la “divisió (“,”)”.

(df_guardian["news_keywords"].str.split(",").explode().value_counts()

.to_frame().rename(columns={"news_keywords":"news_keyword_occurence"})

.head(25).plot.barh(figsize=(10,8),

title="The Guardian Most Used Words in News Keywords", xlabel="News Keywords",

legend=False, ylabel="Count of News Keyword"))

Podeu veure la diferència de resultats per a la visualització a continuació.

Paraules clau més populars dels mapes del lloc de notíciesParaules clau més populars dels mapes del lloc de notícies

Des de “Chelsea” fins a “Vladamir Putin” o “Guerra d’Ucraïna” i “Roman Abramovich”, la majoria d’aquestes frases s’alineen amb els primers dies de la invasió russa d’Ucraïna.

Utilitzeu el bloc de codi següent per visualitzar de manera interactiva dues paraules clau de notícies de mapes del lloc web de notícies diferents.

df_1 = df_guardian["news_keywords"].str.split(",").explode().value_counts().to_frame().rename(columns={"news_keywords":"news_keyword_occurence"})

df_2 = df_nyt["news_keywords"].str.split(",").explode().value_counts().to_frame().rename(columns={"news_keywords":"news_keyword_occurence"})

fig = make_subplots(rows = 1, cols = 2)

fig.add_trace(

     go.Bar(y = df_1["news_keyword_occurence"][:6].index, x = df_1["news_keyword_occurence"], orientation="h", name="The Guardian News Keywords"), row=1, col=2

)

fig.add_trace(

     go.Bar(y = df_2["news_keyword_occurence"][:6].index, x = df_2["news_keyword_occurence"], orientation="h", name="New York Times News Keywords"), row=1, col=1

)

fig.update_layout(height = 800, width = 1200, title_text="Side by Side Popular News Keywords")

fig.show()

fig.write_html("news_keywords.html")

Podeu veure el resultat a continuació.

Per interactuar amb el gràfic en directe, feu clic aquí.

A la següent secció, trobareu dues mostres de subtrama diferents per comparar els n-grams dels llocs web de notícies.

10. Creeu trames secundàries per comparar fonts de notícies

Utilitzeu el bloc de codi següent per posar els n-grams més populars de les fonts de notícies dels títols de les notícies a una subtrama.

import matplotlib.pyplot as plt

import pandas as pd

df1 = ngram_extractor(df_bbc)

df2 = ngram_extractor(df_skynews)

df3 = ngram_extractor(df_dailymail)

df4 = ngram_extractor(df_guardian)

df5 = ngram_extractor(df_nyt)

df6 = ngram_extractor(df_cnn)

nrow=3

ncol=2

df_list = [df1 ,df2, df3, df4, df5, df6] #df6

titles = ["BBC News Trigrams", "Skynews Trigrams", "Dailymail Trigrams", "The Guardian Trigrams", "New York Times Trigrams", "CNN News Ngrams"]

fig, axes = plt.subplots(nrow, ncol, figsize=(25,32))

count=0

i = 0

for r in range(nrow):

    for c in range(ncol):

        (df_list[count].plot.barh(ax = axes[r,c],

        figsize = (40, 28),

        title = titles[i],

        fontsize = 10,

        legend = False,

        xlabel = "Trigrams",

        ylabel = "Count"))        

        count+=1

        i += 1

Podeu veure el resultat a continuació.

Font de notícies NGramsNGrams més populars de fonts de notícies

La visualització de dades d’exemple anterior és completament estàtica i no ofereix cap interactivitat.

Últimament, Elias Dabbascreador de Advertools, ha compartit un nou script per treure el recompte d’articles, n-grams i els seus recomptes de les fonts de notícies.

Comproveu aquí per obtenir un tauler de dades millor, més detallat i interactiu.

L’exemple anterior és d’Elias Dabbas, i demostra com treure el recompte total d’articles, les paraules més freqüents i els n-grams dels llocs web de notícies d’una manera interactiva.

Consideracions finals sobre l’anàlisi del mapa del lloc de notícies amb Python

Aquest tutorial va ser dissenyat per oferir una sessió de codificació educativa de Python per agafar les paraules clau, n-grams, patrons de frases, idiomes i altres tipus d’informació relacionada amb SEO dels llocs web de notícies.

El SEO de notícies depèn en gran mesura de reflexos ràpids i de la creació d’articles sempre activa.

El seguiment dels angles i mètodes dels vostres competidors per cobrir un tema mostra com els competidors tenen reflexos ràpids per a les tendències de cerca.

Seria millor crear un tauler de control de Google Trends i una font de notícies Ngram Tracker per a una anàlisi de SEO de notícies comparativa i complementària.

En aquest article, de tant en tant, he posat funcions personalitzades o avançades for loops, i de vegades, he mantingut les coses senzilles.

Els principiants fins als professionals avançats de Python se’n poden beneficiar per millorar les seves metodologies de seguiment, informes i anàlisi per al SEO de notícies i més enllà.

Més recursos:


Imatge destacada: BestForBest/Shutterstock





Source link

Visualització de temes candents amb Python per analitzar mapes del lloc de notícies
A %d bloguers els agrada això: