|
Dieses Tutorial beschreibt die Konfiguration des kostenlosen Logfile
Analyse Programms Webalizer.
Es wird beschrieben wie die Statistiken die durch die Standardkonfiguration
von Webalizer erstellt werden angepasst und erweitert werden können.
Bei der überwiegenden Mehrzahl der Hosting-Angebote auf der Basis von
Systemen mit Linux, Apache, MySQL und PHP und den meisten Root Server Angeboten
mit Linux als Betriebssystem kommt das kostenlose Programm Webalizer zur Erstellung
von Zugriffsstatistiken zum Einsatz.
Webalizer analysiert dazu die Logfiles des Webservers Apache und wird in der
Regel einmal pro Nacht über einen Cron Job ausgeführt.
Rechner, Besuche, Seiten, Dateien und Anfragen
Bevor wir uns der Konfiguration von Webalizer widmen einige Worte zu der Terminologie
von Webalizer, da diese immer wieder zu Missverständnissen führt.
Webalizer unterscheidet zwischen den Einheiten Rechner, Besuche, Seiten, Dateien
und Anfragen (bzw. Sites, Visits, Pages, Files und Hits in der englischen Version).
Da diese Angaben nicht unbedingt selbsterklärend sind hier kurze Erläuterungen
dazu:
Bedeutung Anfragen / Hits
Anfragen spiegeln die Summe aller Zugriffe auf die Seite wieder. Dazu zählen
alle Elemente die zu einer Seite gehören wie z.B. Bilder, CSS-Dateien,
Flash-Animationen usw. – in dieser Spalte wird generell der höchste
Wert für einen bestimmten Zeitraum stehen.
Bedeutung Dateien / Files
Dateien spiegeln ähnliche wie Anfragen die Summe aller Zugriffe auf die
Seite wieder. Anders als bei den Anfragen werden hier aber hier nur Anfragen
gelistet bei denen auch tatsächlich etwas an den Browser geschickt wurde.
Zugriffe auf Dateien die nicht mehr vorhanden sind bzw. die sich schon im Browser
Cache befinden gehen nicht in diese Zahl mit ein.
Bedeutung Seiten / Pages
Unter Seiten werden alle Zugriffe auf tatsächliche Seiten gezählt.
In der Standardkonfiguration wertet Webalizer alle Dateien mit den Endungen
.ggi bzw .htm* als Seiten. In anderen Programmen werden diese Zugriffe als Seitenzugriffe
oder „Page Views“ bzw. „Page Impressions“ bezeichnet.
Bedeutung Rechner / Sites
Rechner bezeichnet die Anzahl der unterschiedlichen IP-Adressen bzw. Hostnamen
die in einem bestimmten Zeitraum auf die Seite zugegriffen haben. Da mehrere
Besucher beispielsweise in Firmennetzwerken mit einem Proxy Server unter der
selben IP-Adresse gelistet werden ist dieser Wert nur beschränkt mit der
Anzahl der tatsächlichen Besucher gleich zu setzen.
Bedeutung Besuche / Visits
Einen Besuch zählt Webalizer dann wenn ein Zugriff auf einen als Seite
definierten Dateityp von einer neuen IP-Adresse erfolgt. Zugriffe von dieser
IP-Adresse werden so lange nicht als neuer Besuch gezählt wie der Abstand
zwischen dem aktuellen und dem letzten Zugriff einen bestimmten Zeitraum nicht
überschreitet. In der Standardkonfiguration ist dieser Zeitraum auf 30
Minuten eingestellt. Durch die Einschränkung auf Zugriffe auf Seiten werden
externe Zugriffe auf Bilder, Flash-Animationen oder CSS-Dateien nicht als Besuche
gezählt.
Die Konfigurationsdatei webalizer.conf
Die Konfiguration von Webalizer erfolgt über die Datei webalizer.conf.
Sie kann mit jedem beliebigen Texteditor angepasst werden.
Hosting-Anbieter
In reinen Hosting-Angeboten besteht meist kein direkter Zugriff auf die Konfigurationsdatei
von Webalizer. Oftmals ist es jedoch möglich, sich vom Support des Anbieters
die Konfigurationsdatei schicken zu lassen, sie zu editieren und vom Support
wieder auf den Server kopieren zu lassen.
Virtual oder Root Server
Bei Virtual oder Root Servern liegen die Konfigurationsdateien meist innerhalb
des Verzeichnisses einer Domain.
Server mit Confixx
Auf Servern bei denen die Konfigurationssoftware Confixx zum Einsatz kommt
findet sich die Datei webalizer.conf innerhalb des Verzeichnisses eines Accounts
im Unterverzeichnis .configs (Beispiel /home/www/web4/.configs/webalizer.conf
).
Server mit Plesk
Auf Servern mit der Konfigurationssoftware Plesk liegen die Dateien im Unterverzeichnis
conf eines Accounts (Beispiel /home/httpd/vhosts/tanmar.de/conf/webalizer.conf
).
Konfigurationsoptionen im Detail
Aufbau der Konfigurationsdatei
Die Konfigurationsdatei ist nach dem Schema
Option Wert
aufgebaut. In jeder Zeile steht dabei ein paar aus Option und Wert. Die Reihenfolge
in der die Einträge in der Datei stehen macht spielt keine Rolle und bestimmte
Optionen können mehrfach verwendet werden.
Beispieldatei
Hier eine typische Standardkonfiguration von einem Root Server mit Plesk:
# Warning! Changes in this file may affect statistics functionality
# It is good idea, to keep this file untouched. ;)
ReportTitle Usage Statistics for
PageType htm*
PageType shtm*
PageType cgi
PageType phtm*
PageType php*
PageType pl
PageType asp
DNSCache dns_cache.db
DNSChildren 50
Quiet no
CountryGraph yes
DailyGraph yes
DailyStats yes
HourlyGraph yes
HourlyStats yes
GraphLegend yes
HideURL *.gif
HideURL *.GIF
HideURL *.jpg
HideURL *.JPG
HideURL *.png
HideURL *.PNG
HideURL *.ra
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine eureka.com q=
SearchEngine lycos.com query=
SearchEngine hotbot.com MT=
SearchEngine msn.com MT=
SearchEngine infoseek.com qt=
SearchEngine webcrawler searchText=
SearchEngine excite search=
SearchEngine netscape.com search=
SearchEngine mamma.com query=
SearchEngine alltheweb.com query=
SearchEngine northernlight.com qr=
Die Warnung zu Beginn dabei ist zwar gut gemeint - mit einer vorab erstellten
Sicherheitskopie der Datei erstellt kann man jedoch guten Gewissens Hand an
die Datei legen.
Option PageType
Über die Option PageType wird definiert welche Dateitypen als Seiten gewertet
werden. Alle Zugriffe auf Dateien mit einer Endung die als PageType definiert
ist werden als Besuche gewertet. Bei der Definition können auch Wildcards
verwendet werden. (Beispiel PageType php*)
Optionen DNSCache und DNSChildren
Diese Optionen steuern die Namensauflösung der IP-Adressen bei der Auswertung
und können in aller Regel auf den Standardwerten belassen werden.
Optionen DailyGraph, DailyStats
Mit diesen Optionen wird festgelegt, ob die Besucherstatistik ein Balkendiagramm
für die Zugriffe nach Tagen und eine Statistik für die Anfragen, Dateien,
Seiten, Besuche, Rechner und kb nach Tagen enhalten soll. (Beispiel:
DailyGraph yes)
 Erzeugte Grafik Besucher nach Tagen mit der Option DailyGraph
 Liste der Besucher nach Tagen mit der Option DailyStats
Optionen HourlyGraph, HourlyStats
Mit diesen Optionen wird festgelegt, ob die Besucherstatistik ein Balkendiagramm
für die Zugriffe nach Tageszeit und eine Statistik für die Anfragen,
Dateien, Seiten und kb nach Tageszeit enhalten soll. (Beispiel: HourlyGraph
yes)
 Erzeugte Grafik Besucher nach Tagen mit der Option HourlyGraph
 Liste der Besucher nach Stunden mit der Option HourlyStats
Option CountryGraph
Die Option CountryGraph legt fest ob die Statistik ein Tortendiagramm für
Anteile der Besucher nach Herkunftsländern enthalten soll. (Beispiel:
CountryGraph yes)
 Erzeugte Grafik Besucher nach Herkunftsländern mit der Option CountryGraph
Option GraphLegend
Mit der Option GraphLegend kann festgelegt werden ob die von Webalizer erzeugten
Grafiken links und rechts an den Rändern Legenden enthalten sollen. (Beispiel:
GraphLegend no)
Hier ein Beispiel für eine Grafik ohne Legende:
 Eine von Webalizer erzeugte Grafik ohne Legende mit der Option GraphLegend no
Option HideAgent
Über diese Option lassen sich gezielt Anwenderprogramme aus der Liste
der häufigsten Anwendungsprogramme ausschließen. (Beispiel:
HideAgent RealPlayer)
Option HideReferrer
Mit HideReferrer lassen sich aus der Liste der externen Verweise Seiten ausblenden.
Dies ist beispielsweise dann praktisch, wenn mehrere Domains auf eine Seite
weisen und eigentlich interne Verweise zwischen den Domains als Verweise gezählt
werden. (Beispiel: HideReferrer tanmar.info)
Option HideSite
HiteSite bietet die Möglichkeit gezielt Hostnamen bzw. IP-Adressen von
der Liste der Top Rechner auszuschließen. (Beispiel: HideSite
192.168.100.*)
Option HideURL
Mit der Option HideURL können Dateitypen von der Liste der Top URLs ausgeschlossen
werden. Dies kann beispielsweise genutzt werden, um zu verhindern, das Bilder,
CSS Dateien und ähnliche Dateien in der Liste der Top URLs auftauchen.
(Beispiel: HideURL *.gif)
Option HideUser
Über die Option HideUser lassen sich gezielt Benutzer von passwortgeschützten
Bereichen aus der Liste der Benutzer ausblenden. (Beispiel: HideUser
admin)
Option VisitTimeout
Über diese Option kann der Zeitraum festlegen der zwischen zwei Zugriffen
von der selben IP-Adresse liegen muss, damit ein Zugriff als erneuter Besuch
gewertet ist. Die Angabe des Zeitraums Erfolgt nach dem Format HHMMSS also Stunden
gefolgt von Minuten und Sekunden wobei führende Nullen ignoriert werden
und weggelassen werden können. Der Standardwert beträgt 30 Minuten.
Wenn dieser Wert verändert wird lassen sich die Zahlen zu den Besuchern
nicht mehr mit den Statistiken anderer Seiten vergleichen, da diese in der Regel
auf der Basis der Standardeinstellung erzeugt werden.. (Beispiel: VisitTimeout
3000)
Option MangleAgents
Über Option MangleAgents lässt sich steuern wie stark Webalizer Anwendungsprogramme
zusammenfasst. Die Option kann die Werte 0 bis 5 annehmen, wobei 0 die Namen
der Anwendungsprogramme unangetastet lässt und somit die Liste mit größten
Detailreichtum produziert. Der Wert 5 gruppiert die Anwendungsprogramme lediglich
nach Ihrem Namen (Internet Explorer, Mozilla etc). Sinnvoll ist meist der Wert
4 bei dem zusätzlich zum Namen noch die Versionsnummer berücksichtigt
wird. (Beispiel: MangleAgents 4)
 Liste der Anwendungsprogramme mit der Option MangleAgents 4
Option SearchEngine
Über Option SearchEngine lassen sich Seiten definieren die als Suchmaschine
gewertet werden und in die Analyse der Suchbegriffe eingehen. In der Standardkonfiguration
sind lediglich amerikanische Suchmaschinen definiert, so dass es für eine
deutsche Seite immer Sinn macht die Definitionen für diese Option zu erweitern.
Neben dem Domainnamen der Suchmaschine muss außerdem angegeben werden
über welchen Parameter die Suchmaschine die Suchbegriffe entgegen nimmt.
Eine Suche bei Google nach dem Begriff „TanMar Tutorials“ erfolgt
beispielsweise über folgende URL:
http://www.google.de/search?hl=de&q=tanmar+tutorials&btnG=Google-Suche&meta=
Wie aus dem Link ersichtlich wird, übergibt Google die Suchbegriffe über
den Parameter „q=“. (Beispiel: SearchEngine google.de q=)
Eine Suche bei Web.de nach den gleichen Begriffen erfolgt über die URL
http://suche.web.de/search/web/?mc=hp%40suche.suche%40home& su=tanmar+tutorials&su1=tanmar+tutorials&su2=&oneField=Suchen&webRb=de
Hier wird der Parameter „su=“ Verwendet. (Beispiel: web.de
su=)
Optionen AllAgents, AllReferrers, AllSites, AllURLs, AllUsers, AllSearchStr
Über diese Optionen kann Webalizer dazu veranlasst werden zu den Statistiken
Verweise, Rechner, Top URLs, Benutzer und Verweise eine zusätzliche HTML-Datei
zu erzeugen in der alle Einträge gezeigt werden. Am Beispiel der Referrer
werden dann in der Übersicht die Top 30 Verweise angezeigt und unterhalb
der Liste wird dann noch ein Link zu der Liste aller Verweise eingeblendet.
(Beispiel: AllReferrers yes)
 Link zu der Liste aller Verweise mit der Option AllReferrers
Optionen TopAgents, TopCountries, TopReferrers, TopSites, TopKSites, TopURLs,
TopKURLs, TopEntry, TopExit, TopSearch, TopUsers
Über die TopXXX Optionen lässt sich steuern wie viele Einträge
Webalizer in den jeweiligen Statistiken listet. Die Angabe ist nur optional
und primär dann sinnvoll, wenn die Anzahl der Einträge in der Standardeinstellung
zu gering ist. (Beispiel: TopSearch 30)
Trackback(0)
|