SEO Crawler und Meta Data Explorer ­čöÄ
Kategorie:
Ver├Âffentlicht: 21.10.2019
Dein Netzwerk ist offline, deshalb laden wir die gesamte Seite aus dem Cache. Beachte: die Inhalte k├Ânnten veraltet sein! F├╝r aktuelle Inhalte aktiviere bitte dein Internet.
Hallo liebe Nutzer,
da wir als Coding-Plattform und Webentwickler ausschlie├člich auf aktuelle Technologien setzen, unterst├╝tzen wir keine veralteten Internetbrowser. Bitte schau dir doch ein paar der tollen Alternativen an, bestimmt findest du hier einen f├╝r dich passenden modernen Browser!

Benachrichtigungen

Bleib immer mit aktuellen Informationen auf dem Laufenden, dein Browser informiert dich ├╝ber neue Artikel und wichtige Hinweise von uns!

Wof├╝r brauchst du den Meta Data Explorer?

Inhaltsverzeichnis
[[TABLE OF CONTENTS]]

Der Meta Data Explorer liefert dir eine Übersicht über die wichtigsten Infos zu deiner Domain. Damit kannst du zum Beispiel folgende Szenarien analysieren:

Hast du Links auf andere Seiten, die du vergessen hast oder nicht siehst? Der Metadaten-Scrapper schaut sich den Source Code der Seite an und findet alle Links. Er sortiert diese nach externen und internen Links. So kannst du die Links deiner Webseite ganz einfach lesen. 

Mit dem Tool kannst du eine Seite anfragen und es wird dir der HTTP Status Code zurückgegeben. Bei Redirects wird die URL angefragt, auf die der Redirect gesetzt wurde. Eine Redirect ist die Weiterleitung auf eine andere Seite.

Das Canonical Tag wird ausgegeben. So kannst du schnell überprüfen, ob die angefragte Seite auch der kanonischen URL entspricht.

Beta Status

Der Scrapper ist zur Zeit noch in der Beta, bei Problemen hinterlasse bitte eine Kommentar.

Falls du Interesse an den Daten hast per API Zugriff, kannst du mich gerne Anschreiben.

Anfrage Starten

Was ist eine Kanonische URL ?

Kanonische URLs sind dazu da, Duplicate Content korrekt auszuzeichnen. Gibt es einen Artikel zum Beispiel unter zwei Kategorien, würde Google eine Abstrafung vornehmen, da der Inhalt doppelt vorhanden ist. Durch eine kanonische URL kann man Google nun sagen, welcher Artikel das Original ist. Google berücksichtigt diese; hier zum Beispiel die Ausgabe des Canonicals in der Search Console von Google.

Die Kanonische URL kannst du ganz einfach definieren:

<link rel="canonical" href="https://hellocoding.de/">
Search Console Kanonische URL
Search Console Kanonische URL

Durch das rel Attribute wird definiert, dass die URL eine kanonische URL ist. Der href gibt die URL an. Dieses Link Tag muss im <head> der HTML Seite stehen.

Was ist ein HTTP Status Code?

Der HTTP Status Code wird bei Anfragen an einen Server immer an den Client als Antwort zurückgegeben, um einen Erfolg der Anfrage zu identifizieren oder eben bei einem Nicht-Erfolg genauer eingrenzen zu können, warum das Dokument nicht zurückgegeben werden konnte.

Eine kleine Aufführung der häufigsten Status Codes:

200 - OK

Der 200 Status Code sagt aus, dass die Anfrage vom Server verarbeitet werden konnte. Daraufhin wird die Antwort zurückgegeben.

307 - Temporary Redirect

Der 307 Status Code besagt das eine Weiterleitung nur temporärer Natur ist und nach einiger Zeit sich wieder zurückändern könnte.

308 - Permanent Redirect

Der 308 Status Code besagt, dass eine Weiterleitung für immer gesetzt ist und nicht mehr ändern wird.

Die ursprüngliche Request Methode wird bei der Weiterleitung mit 307 und 308 beachtet

403 - Forbidden

Der Status Code 403 gibt meistens eine weiße Seite mit den Worten “Forbidden 403” zurück. Das heißt, der Client hat nicht die nötigen Berechtigungen um die Seite vom Server abzurufen.

Das kann zum Beispiel so aussehen:

Zugriff Verweigert - 403
Zugriff Verweigert - 403

404 - Not Found

Der Status Code 404 ist wohl gleich der bekannteste, da dieser erscheint, wenn eine Ressource auf dem Server nicht gefunden wurde.

418 - I’m a teapot

Mit dieser Teekanne kannst du leider keinen Kaffee im Coffee Pot Control Protocol kochen; es wurde aus Versehen eine Teekanne anstatt einer Kaffeekanne verwendet. Dieser Status Code ist eine Aprilscherz aus dem Jahr 1998.

Die Browserunterstützung ist von allen Browsern gegeben. https://developer.mozilla.org/de/docs/Web/HTTP/Status/418

500 - Internal Server Error

Der 500 Fehler ist ein server-interner Fehler, heißt: Wenn du in deiner Backend Sprache (zum Beispiel PHP) einen Fehler machst, kann es sein, dass, wenn der Server dafür entsprechend konfiguriert ist, nicht die Fehlermeldung von PHP ausgegeben, sondern ein 500 Status Code zurückgegeben wird.

Backend Sprache bezeichnet die Sprache, die auf dem Server läuft, und ist im Hintergrund für den Nutzer der Webseite nicht ersichtlich.

Was sind Metadaten?

Metadaten sind zusätzliche Informationen im <head> einer Webseite, diese helfen, die Informationen der Seite zu verstehen. Dort könnten zum Beispiel folgende Metainformationen hinterlegt sein:

  • Open Graph Protocol Daten (https://ogp.me/)
  • Favicon
  • Charset
  • Twitter Daten
  • Facebook Daten
  • Title und Description

Die Informationen helfen verschiedenen Tools den Inhalt deiner Webseite besser analysieren zu können.

Vorsicht vor Status Code 301 & 302

Diese sind ebenfalls für das Weiterleiten zuständig; allerdings kann es bei diesen Methoden oft vorkommen, dass ein POST Request in eine GET Request umgewandelt wird.

Primär sind vor allem URL-Hijackings der Grund dafür, dass diese Request Methoden grundsätzlich zu vermeiden sind und besser auf einen 307 oder 308 Status Code zurückgegriffen werden sollte. Diesen ist es nicht erlaubt die Request Methode zu ändern.

Womit Arbeitet dieses Tool?

Das Tool basiert auf Node JS und arbeitet mit den folgenden Modulen:

Express

(https://expressjs.com/de/)

Express ist ein Webserver und Framework für NodeJS, das es dir ermöglicht, Routen anzulegen, Controller einzurichten und mit Template Engines zu arbeiten.

Dafür eignet sich der Express Generator. Diese CLI bietet dir die Möglichkeit, schnell Und einfach ein kleines Template für deine Applikation zu erstellen.

Mehr Informationen zu Express Generator findest du hier: https://expressjs.com/de/starter/generator.html

Request

(https://www.npmjs.com/package/request)

Request macht - wie der Name schon sagt - einen Request an den Server und holt sich dadurch die angefragte Seite.

Cheerio

(https://github.com/cheeriojs/cheerio)

Das JQuery für Node JS ist Cheerio. Nativ hat NodeJS kein Dom oder die Möglichkeit, diesen zu interpretieren, weshalb man einen Dom-Interpreter benötigt. Für diesen Zweck habe ich Cheerio verwendet.

URL - Node JS integriertes Module

Mit dem Befehl new URL() kannst du dir sowohl eine Übersicht der Parameter einer URL generieren als auch eine Relative URL in eine Absolute URL umwandeln.

Weitere Infos zu dem URL Module findest du hier: https://nodejs.org/docs/latest/api/url.html

Changelog

03.11.2019

  1. Interne und Externe Links werden nun bei Unterseiten Gezählt.
  2. Bei Überschriften wird nun die Hirachie angezeigt.
  3. Meta Daten ohne ein Name oder Property Attribute werden nicht mehr ausgegben.

Autor & Programmierer

Felix Sch├╝rmeyer

Ich bin Felix Sch├╝rmeyer, Gr├╝nder von HelloCoding. Meine erste Webseite stellte ich mit 8 Jahren online. Bis heute bin ich immer an neuen Technologien Interessiert!

Zur Autorseite
Home Men├╝ Suche
X