Stern inaktivStern inaktivStern inaktivStern inaktivStern inaktiv
 

Diese Webseite hat durch Umstruktirierung leider eine größere Anzahl von toten Links bekommen nachdem sie umstrukturiert wurde. Das gefällt den Suchmaschinen nicht. Deshalb habe ich ein go Programm geschrieben welches mir dabei geholfen hat die Seiten zu finden die tote Links enthalten und auch gleichzeitig eine sitemap für diese Webseite erstellt.

Folgende Seiten werden entdeckt:

1) Interne Seitenlinks die nicht OK sind (404, 403, ...)

2) Externe Seitenlinks die nicht OK sind (404, 403, ...)

3) Remote Links der Webseite die OK sind (200)

 

und jeweils die Seiten die darauf verlinken. Ist zwar etwas mühsam aber so konnte ich nach und nach alle ungültigen/toten Links aus meiner Webseite enfernen.

 

Wer es nutzen will - entweder einfach um eine Sitemap fuer seine Webseite offline zu generieren - oder eben wie bei meinem Problem Fehler auf seiner Webseite zu entdecken und zu eliminieren kann den Crawler wie folgt unter x86 Linux und von einer Raspberry aufrufen. Eine go Installation ist nicht notwendig.

 

curl https://raw.githubusercontent.com/framps/golang_tutorial/master/genSitemap/startCrawler.sh | bash -s -- https://<website>>

 

Later on the crawler can be started with ./startCrwaler.sh. Use option -worker numberOfWorkersif you want to use more than the 20 default workers.