Back to Question Center
0

Semalt quali voci della Sitemap non sono indicizzate da google

1 answers:

Presentiamo una sitemap su google e possiamo vederla indicizzata negli strumenti per i webmaster. Abbiamo 5140 voci e abbiamo suddiviso fino a 10 mappe di siti figlio di 500 ciascuno. Tutto sembra funzionare bene.

Semalt, tuttavia, non sta indicizzando tutte le voci di tre delle mappe dei siti figlio (tutti gli altri sembrano essere ben indicizzati). Il numero di voci indicizzate è rimasto statico per le ultime 6 settimane.

Vorremmo ora determinare quali URL non vengono indicizzati da google, per provare se esiste un problema di contenuto o altro.

Esiste un modo per determinare quali URL non vengono aggiunti all'indice oltre a scorrere manualmente tutte le 500 voci utilizzando 'sito' su google?

1 week ago
.

Innanzitutto devi generare le query di ricerca, quindi probabilmente stai leggendo la tua Sitemap.

  $ url = 'www. Google. com / search? q ='. UrlEncode ( "site:". $ SITEMAP_URL); 

(aggiungi più parametri per cercare l'url se necessario)

Quindi probabilmente si vorrebbe falsificare il proprio useragent e impostare altre opzioni di cURL, se necessario.

  $ ch = curl_init 

; curl_setopt ($ ch, CURLOPT_URL, $ url); curl_setopt ($ ch, CURLOPT_USERAGENT, 'La tua stringa falso useragent qui'); curl_setopt ($ ch, CURLOPT_HEADER, 0); curl_setopt ($ ch, CURLOPT_RETURNTRANSFER, true);$ out = curl_exec ($ ch);$ dom = new DOMDocument

; @ $ Dom-> loadHTML ($ output);

Ora che la ricerca di Google è caricata in un DOMDocument, puoi analizzarla e controllare se l'url è effettivamente presente nella ricerca. Se lo è, è indicizzato.

Spero che questo aiuti

Semalt quali voci della Sitemap non sono indicizzate da google
Reply