网站流量统计(头条搜索流量统计分析)

0x01:事出起因记头条搜索统计不到流量分析,大神请忽略…最近手机收到阿里云服务器磁盘使用率过高预警信息,掐指一算,不好~肯定是前两天写的爬某音小姐姐视频将磁盘跑满了,大脑飞速运转(磁盘一满,临时文件无法生成,服务器上的网站肯定异常,数据库无法写入…如果满了会导致灾难性故障),0.1秒思考后,拿出手机ssh服务器,一顿操作猛如虎,果不其然,总磁盘40G,视频占用了30个G,将近6000多个小姐姐视频,请忽略我吞咽口水的动作…,为了不影响网站,打包,下载,删除服务器上的文件,停止采集脚本。 一月后…某KFC角落吃着炸鸡,看着美剧,享受午后的暖阳,手机响起了短信铃声,电脑同时收到Email,眉头一紧,不好,服务器故障了,心里一顿草泥马,打开一看,短信提示磁盘又快满了,记得明明关了爬虫脚本,不要问问明明是谁,我想静静!放下手中的炸鸡,暂停播放,三下二除五,用沾满油脂的手一顿 df du 命令,发现好几个网站的web日志每天都几百M,一个月下来日志文件总计28G。0x02:日志分析,流量异常第一直觉,网站被被人攻击了,过滤IP,没看出太大问题继续分析发现好多页面只有html访问记录,没有CSS、Js、Css等记录,直觉再次告诉我有人在爬网站数据,但爬虫一般都有规律会按url 上的ID递增或递减,这些请求毫无规律,先保留当前想法。找SEO运营部要到百度统计账号,顺便撩一下小姐姐,嘎嘎…打开统计工具,看流量是否异常,嘿,这一月都流量上升还挺明显,分析来路,从搜索引擎过来的流量占比56%,主要是百度,不禁感慨公司离了百度这奶娘还能活吗,但是对比上月流量持平略下滑趋势,剩下主要来源都在直接访问,占比为30%,从事多年互联网职业的我一下就知道这里的猫腻了,直接访问的占比太高了,肯定是SEO部门为了完成业绩补量了,嚯嚯嚯~,感觉一下就抓住了其他部门的小尾巴,结局往往事实却很打脸,请下看…0x03:旁敲侧击,打入内部虽然知道了其他部门的小啾啾,俗话说“井水不犯河水”,“人不犯我我不犯人”,作为一名愿望是世界和平的天秤座运维工程师,不能做“损人不利己”的事,默默将系统日志删除,只保留最近5天的,换取磁盘的容量,别问我为什么不扩容磁盘,公司不允许,宝宝心里苦。别问我为什么不写自动删除脚本,懒,懒,懒… 几天后,为了讨小姐姐开心,将这个问题说了出来,本意是想让她和她上级说将假量做的真实点,才知道公司减少了百度SEM的投放增加了头条搜索业务,差点毁了一世英名,喜欢刷小姐姐视频的我当然知道头条搜索,某音旗下公司的产品,但上次分析没有从头条搜索过来的流量啊,难道我看花眼了。因为忙,此事不了而之…0x04:红色紧急,委以重任大概意思就是月底公司总结,运营部统计投入产出比,公司花了钱看不到效果,运营部总结头条流量无法统计,于是我就就被委以重任(你说为什么不找程序猿,我也想知道,可能公司看我比较闲吧!),开始分析头条搜索。0x05:步入正题,一波三折工欲善其事,必先利其器!之前为了抓小姐姐视频,都安装好抓包了。Step1:打开fiddlerSetp2:打开“今日头条”App,搜索关键词Step3:分析发包数据头条搜索结果页先忽略我搜索的词,一不小心暴漏存款了,上图是搜索的“二手车2万左右”出现的列表页,只是触发了搜索,没有点击具体结果的URL,但是数据包里确有访问的信息,我们并没有访问啊,如下图:一开始以为是头条暗地给某些白名单网站导量,但不管大小站点都这样。未点击搜索结果,依然请求网站点击一个有百度URL统计的网站含有百度统计的页面点击后可以看出百度及google统计提交的信息:如下图百度统计提交表单google统计提交表单从统计工具击Post表单信息以及Referer信息可以看出这两个工具均无法统计流量来源,只能在「直接访问」里看到,后面我用自己的blog又测试了国内小众(qq,cnzz,51la)的统计工具,发现均无法统计流量来源于头条,心中一万个草泥马经过,这不坑么。0x06:寻根问底为了解决这个问题阅遍各大论坛,访遍各大社群,然而答案远在天边近在眼前,在官网找到说法了,让我想起了网友找小姐姐的评论,在你面前你不撩,现在让我们海底捞,传送门:https://www.toutiao.com/media_cooperation/官方原话:预加载技术 今日头条为了让用户获得更好的体验,使用预加载技术极致提升用户打开文章的速度,使用户进入文章时几乎不用等待,实现“秒开”体验。 所谓预加载,是指用户在打开页面前,会预先加载文章的 html、css、javascript 这几部分内容。一些浏览器厂商为提高网页访问速度也同样使用此技术。比如:搜狗高速浏览器,其宣称的“智能预取,速度革命”,就是如此。 预加载技术特点: 1.预加载只加载文本代码(html、css 和 javascript),不预加载图片。 2.预加载不执行代码(javascript),不影响下游网站的流量统计。 3.广告不进行预加载。所谓预加载就是提前将搜索结果页里的第三方站点(标识为全网的站点)提前将Html源码缓存到手机本地,原理就像刷抖音的时候,访问当前视频的时候已经将后面几条视频提前缓存到本地,实现访问无延迟感。凡事都有双面性,预加载的缺陷:1. 我们看不清流量来源,因为没有Referer参数,这也是为什么公司无法区分统计流量的问题。2. 即使客户没有点击搜索结果页的网站,只是搜索关键词,网站服务器也会产生web日志,造成有流量的访问的迹象。之后分析最近几天的日志文件,和预想的一样,头条去除各大搜索引擎来源、css、js、图片,剩下的为直接访问和头条搜索过来的,和统计工具对比PV多出10%,剔除少量爬虫,乱七八糟的,意味剩下的8% 有可能是从头条搜索页过来未点击产生的流量!给运营小姐姐解释以上内容的时候,小姐姐懵了,一副钦佩仰慕(听不懂)的眼神,简单概括吧:服务器web日志和统计工具数据不对称,每当有关键词从头条搜索引擎搜索到网站即使不点击web日志也会记录,web日志量大于统计工具运营部的头条搜索业务确实带来大量真实流量,0x07:头条搜索流量统计小结通过之后观察流量的增长趋势,觉得公司做头条搜索是个明智的决定,虽然感觉不太完善,想到头条一两年就发展到如此水平,还是觉得这个公司未来可期,毕竟神仙打架,渔翁得利,希望头条团队就会出类似百度站长的工具,完善下自己的系统,向百度看齐。Q:头条是否可以统计流量 A:可以统计,在百度,友盟(CNZZ)等统计工具体现的来路是「直接访问」 Q:是否可以统计具体关键词带来的流量 A:头条暂时无法统计具体的关键词带来的量,头条也在完善中 Q:为什么无法区分头条来源的流量 A:因为头条APP为了实现“秒开”体验,采用的是预加载技术,预加载不执行代码(javascript),所以第一次请求没有执行js,也没有referer字段,导致无法记录来路官方预加载技术描述:https://www.toutiao.com/media_cooperation/佛曰:“有就是无,无就是有”,忙活了半天,还是没有解决咱公司运营部的问题,没法面对小姐姐们,如有大神能统计从头条搜索过来的流量的解决思路,欢迎留言~


本文出自快速备案,转载时请注明出处及相应链接。

本文永久链接: https://www.xiaosb.com/beian/42937/