莱芜网络公司教你如何识别伪装的爬虫
如何通过网站流量统计系统和日志分析来识别爬虫?
有些爬虫喜欢修改User-Agent信息来伪装自己,把自己伪装成一个真实浏览器的User-Agent信息,让你无法有效的识别。这种情况下我们可以通过网站流量系统记录的真实用户访问IP来进行识别。
主流的网站流量统计系统不外乎两种实现策略:一种策略是在网页里面嵌入一段js,这段js会向特定的统计服务器发送请求的方式记录访问量;另一种策略是直接分析服务器日志,来统计网站访问量。在理想的情况下,嵌入js的方式统计的网站流量应该高于分析服务器日志,这是因为用户浏览器会有缓存,不一定每次真实用户访问都会触发服务器的处理。但实际情况是,分析服务器日志得到的网站访问量远远高于嵌入js方式,极端情况下,甚至要高出10倍以上。
现在较多临沂网络公司喜欢采用awstats来分析服务器日志,来计算网站的访问量,但是当他们一旦采用Google Analytics来统计网站流量的时候,却发现GA统计的流量远远低于awstats,为什么GA和awstats统计会有这么大差异呢?罪魁祸首就是把自己伪装成浏览器的网络爬虫。这种情况下awstats无法有效的识别了,所以awstats的统计数据会虚高。
其实作为一个网站来说,如果希望了解自己的网站真实访问量,希望精确了解网站每个频道的访问量和访问用户,应该用页面里面嵌入js的方式来开发自己的网站流量统计系统。自己做一个网站流量统计系统是件很简单的事情,写段服务器程序响应客户段js的请求,分析和识别请求然后写日志的同时做后台的异步统计就搞定了。
通过流量统计系统得到的用户IP基本是真实的用户访问,因为一般情况下爬虫是无法执行网页里面的js代码片段的。所以我们可以拿流量统计系统记录的IP和服务器程序日志记录的IP地址进行比较,如果服务器日志里面某个IP发起了大量的请求,在流量统计系统里面却根本找不到,或者即使找得到,可访问量却只有寥寥几个,那么无疑就是一个网络爬虫。
- 教你如何用微博进行淘宝客营销
- 是不是客户喜欢的就是搜索引擎所喜欢的?
- 利用搜索引擎提升网络品牌的基本方法
- 合理利用微博打造品牌营销赚钱
- 几种高质量的网站外链方法打造优秀网站
- 搜索引擎给网站不同排名衡量的标准是什么 对每个站长来说都希望
- 应该怎样合理布局网站链接
- 电子商务企业网站建设解决方案
- 浅析开发者如何从应用中赚取最多的钱
- 一个要想优化成功的网站应该从哪里开始做起?
- 微博营销:微距阵营销助力热门电影
- 网站降权有高招:防患于未然
- 品牌零售营销应注重25个概念
- 互联网广告:收入猛增 价格走低
- 2012年度十大创新营销案例盘点
- 企业遇渠道三大挑战 网络传播放大不满
- 自媒体广告系统,新浪微博的自我救赎?
- 提高用户体验度和网站PV值的关系
- 国内体育用品在伦敦奥运广告营销解读
- 各种网站优化细节之我见