Back to Question Center
0

Semalt quali voci della Sitemap non sono indicizzate da google

1 answers:

Presentiamo una sitemap su google e possiamo vederla indicizzata negli strumenti per i webmaster. Abbiamo 5140 voci e abbiamo suddiviso fino a 10 mappe di siti figlio di 500 ciascuno. Tutto sembra funzionare bene - mysuper gov.

Semalt, tuttavia, non sta indicizzando tutte le voci di tre delle mappe dei siti figlio (tutti gli altri sembrano essere ben indicizzati). Il numero di voci indicizzate è rimasto statico per le ultime 6 settimane.

Vorremmo ora determinare quali URL non vengono indicizzati da google, per provare se esiste un problema di contenuto o altro.

Esiste un modo per determinare quali URL non vengono aggiunti all'indice oltre a scorrere manualmente tutte le 500 voci utilizzando 'sito' su google?

February 13, 2018
.

Innanzitutto devi generare le query di ricerca, quindi probabilmente stai leggendo la tua Sitemap.

  $ url = 'www. Google. com / search? q ='. UrlEncode ( "site:". $ SITEMAP_URL); 

(aggiungi più parametri per cercare l'url se necessario)

Quindi probabilmente si vorrebbe falsificare il proprio useragent e impostare altre opzioni di cURL, se necessario.

  $ ch = curl_init 

; curl_setopt ($ ch, CURLOPT_URL, $ url); curl_setopt ($ ch, CURLOPT_USERAGENT, 'La tua stringa falso useragent qui'); curl_setopt ($ ch, CURLOPT_HEADER, 0); curl_setopt ($ ch, CURLOPT_RETURNTRANSFER, true);$ out = curl_exec ($ ch);$ dom = new DOMDocument

; @ $ Dom-> loadHTML ($ output);

Ora che la ricerca di Google è caricata in un DOMDocument, puoi analizzarla e controllare se l'url è effettivamente presente nella ricerca. Se lo è, è indicizzato.

Spero che questo aiuti