网站日志可以统计访客的信息,将访客的信息以文档的新式记录下来,可以知道访客那个时间段来过,从哪里过来,做了哪些操作,得到的结果是什么。它就相当于黑匣子记录飞机所有的运行数据一般。
一、什么是网站日志?
1、网站日志
网站日志主要用于记录用户和搜索引擎蜘蛛对网站的访问行为。记录用户IP、访问的网页地址、访问时间、访问状态信息,这些信息保存在日志文件里。可以让我们知道网站的死链接、http返回状态码等,让我们及时的分析好网站的收录和快照更新情况。日志中的数据比统计工具更加精准。
2、通过网站日志我们能知道些什么?
- 我们发的外链是否起到效果?
- 我们买的空间是否能够稳定?
- 蜘蛛对我们的那些页面比较喜欢,而对哪些页面内容不喜欢?
- 蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?
- 都有哪些搜索引擎喜欢我们的网站内容
- 网站是否存在隐性的死链接、错误链接?
3、分类
IIS日志。主机是Windows的就是IIS日志。
阿帕奇日志。主机是阿帕奇的就是阿帕奇日志。
二、如何获取网站日志?
虚拟机进入空间的主机后台管理面板都有日志,或者是直接在ftp中下载。下面以万网的空间为例,直接在ftp中下载。
三、如何看懂网站日志?
1、日志格式
- 将日志下载下来并解压,解压后的格式为.log。
- 使用excel表来看日志会更加的清晰明了,具体操作为:打开excel,数据→导入数据→选择数据源→选择所有文件→选择刚刚解压的文件→下一步→选择分隔符号→下一步→点击勾选空格→下一步→完成。得到的结果为下图所示:
- 删除不必要的数据,我们只留下我们需要分析的一些数据。
- 选中第一行→数据→筛选,以便更好的分类。
- 为了更方便看日志,可将第一行固定,具体操作为:选中第一行→视图→冻结窗口。
2、分析解读IIS日志:
上图是一张IIS的日志截图,我们先来理解一下第一行所对应的意思是什么。
- Date 日期
- Time 时间
- s-sitename 网站名
- s-ip 网站的IP地址
- cs-method 获取方式
- cs-uri-stem 文件的url
- cs-uri-query 请求参数
- s-port 服务器端口
- cs-username 用户名
- c-ip 访问者(蜘蛛)的IP地址
- cs(User-Agent) 用户代理,即用户所用的浏览器
- sc-status 协议状态
- sc-substatus 协议子状态
- sc-win32-status win32状态
- sc-bytes 发送的字节数
- cs-bytes 接收的字节数
- time-taken 处理的时间
2014-01-18 00:00:41 W3SVC182356455 115.29.188.51 GET /blog/ p=114 80 - 183.60.214.19 Mozilla/5.0+(compatible;+EasouSpider;++http://www.easou.com/search/spider.html) 200 0 0
- 2014-01-1800:00:41代表搜索引擎蜘蛛爬行的日期和时间。
- W3SVC182356455代表服务器名称。
- 115.29.188.51 网站的IP。
- /blog/代表搜索引擎访问了blog这个目录。
- 183.60.214.19 表示搜索引擎的IP。
- Mozilla/5.0+(compatible;+EasouSpider;++http://www.easou.com/search/spider.html) 表示宜搜蜘蛛。
- 返回状态码为200,服务器已成功处理了请求。通常,这表示服务器提供了请求的网页。
一般地说,以2开头的状态码表示成功,以3开头的状态代码表示由于各种不同的原因用户请求被重定向到了其他位置,以4开头的状态代码表示客户端存在某种错误,以5开头的状态代码表示服务器遇到了某个错误。
3、分析解读Apache日志
66.249.79.160 - - [21/Sep/2016:01:53:00 +0800] "GET /tag/wpwenti HTTP/1.1" 200 6181 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" bxu2340660039.my3w.com text/html "/usr/home/bxu2340660039/htdocs/index.php" 447333
- 66.249.79.160 这是一个请求到apache服务器的客户端ip。
- - 这一项是空白,使用"-"来代替,这个位置是用于标注访问者的标识。
- - 这一项又是为空白,不过这项是记录用户HTTP的身份验证,如果某些网站要求用户进行身份验证,那么这一项就是记录用户的身份信息。
- [21/Sep/2016:01:53:00 +0800]表示记录请求的时间,格式为[day/month/year:hour:minute:second zone],最后的+0800表示服务器所处的时区为东八区。
- "GET /tag/wpwenti HTTP/1.1" 这一项整个记录中最有用的信息,首先,它告诉我们的服务器收到的是一个GET请求,其次,是客户端请求的资源路径,第三,客户端使用的协议时HTTP/1.1,整个格式为"%m %U%q %H",即"请求方法/访问路径/协议"。
- 200这是一个状态码,由服务器端发送回客户端,它告诉我们客户端的请求是否成功,这里的200告诉我们请求是成功的。
- 6181这项表示服务器向客户端发送了多少的字节,在日志分析统计的时侯,把这些字节加起来就可以得知服务器在某点时间内总的发送数据量是多少。
- -暂不知。
- (compatible; Googlebot/2.1; +http://www.google.com/bot.html)这项主要记录客户端的浏览器信息或者是蜘蛛,在这里为谷歌蜘蛛。
4、如何辨别真假蜘蛛。
在分析日志的过程中,我们还应当学会如何分辨真假蜘蛛,随着技术的发展很多采集程序会冒充假蜘蛛来爬行我们的网站,如此一来就会占用网络带宽,影响正常蜘蛛的抓取,还会对我们的SEO工作造成干扰,那么要如何辨别真假蜘蛛呢?
我们可以通过dos命令来查看,我们从网站日志中来找两个IP段123.125.71.44和220.181.108.175
开始→运行→输入cmd,使用用命令nslookup +ip,下面来看截图:
真的:
假的:
只要是真的百度IP段,代码中会出现baiduspider,如果没有出现那就是假的。其它搜索引擎的蜘蛛也是一样的方法查看。
百度官方文档是这样记录的:
新版移动ua:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
PC ua:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
也就是说,只要在日志中显示的是百度官方文档记录的,一般来说都是真的蜘蛛。
总结
网站日志分析是每个站长所必须要掌握的技能,日志又分为IIS日志和Apache日志,读懂和分析网站日志才能更好的了解网站的基本情况。日志需要长时间不断的分析经验积累,随着自身SEO的技术不断的增长,你所分析日志得到的信息是不一样的。