文章
技术

流量跟踪码是什么,有什么危害,是否等同于钓鱼

根据上一篇文章 https://2049bbs.xyz/t/3699 的回复内容的反馈,写本文。

小二和某傻逼站长对流量跟踪码是什么根本就是一知半解,靠道听途说和脑补,把流量跟踪码说成是试图获取网站访问者身份的钓鱼行为,更是发展出一套所谓「BE4是跟踪狂」「没有流量跟踪码的网站就是安全的」等等歪理邪说。

这两个半灌水看到「流量跟踪码」这个名词中有「跟踪」两个字,就认为是「部署者」试图获取网站「访问者」的真实身份跟行为。

原来你们搞技术主要是靠脑补啊。如果不是有人认真研究实验过,还真被这套歪理邪说给骗了。

X「BE4是跟踪狂」

X「没有流量跟踪码的网站就是安全的」

上面两个都是假命题

在安全问题上向公众发表不负责任的言论,这可以是智商问题,也可以是人品问题,看你怎么理解了。

先说说流量跟踪码是什么

大家日常访问的绝大部分网站都部署了流量跟踪码,这里有张统计截图 https://i.imgur.com/ej3fwAZ.jpg 其中的数字代表阻断了多少次跟踪请求。

至于为什么这些网站要部署流量跟踪码,上面那张截图的来源网站给出了更好的解释,这里就不重复了,有兴趣多了解的朋友可以去读这篇文章

这里强调两个事实

  1. 首先,网站的服务器记录了访问者(你)的所有数据,包括你的IP地址,浏览器,操作系统,访问地址等等。当你访问一个网站的时候,这个网站会自动获得这些数据。网站获得这些信息不需要任何流量跟踪码。OK。
  2. 其次,流量跟踪码是第三方(比如Google Analytics, Facebook, ShareThis, Clicky等)提供的脚本,我们称这个第三方为「提供商」,这些脚本的目的是帮助「部署方」统计其网站各页面的访问量、独立访问者等信息。某些比较无耻的跟踪码甚至会统计单个用户在网页上的鼠标移动,获取用户的注意力信息。

对于「部署方」来说,如果要获取访问者的身份,直接在自己服务器上部署跟踪码就行了,根本不需要在网页部署跟踪码。网页的跟踪码没有隐蔽性,查看网页代码就都可以看见,而且还容易被浏览器block。事实上Netlify就提供了服务器端的流量/点击统计,无需任何跟踪码。

「部署方」利用跟踪码主要是为了方便的获取「有公信力的」流量统计。这些流量统计可以帮助「部署方」优化运营,甚至吸引投资,因为对于绝大部分网站而言,流量就是现金。

问题来了,跟踪码的「提供商」为什么要「免费」提供流量跟踪码,以及相关的流量统计服务呢?

跟踪码的真正危害

下面摘抄我稍早发表的文章, 主链接

跟踪码主要是用于流量分析和广告投放,它给用户带来的隐私威胁主要在于可能被跟踪码提供商分析用户的个人偏好。拿最流行的Google Analytics(简称GA)来说,由于大量日常访问的网站都使用GA提供的跟踪码,这就让Google能够了解一个人在无任何防护措施下的日常上网习惯,从而让谷歌掌握这个用户的大量隐私和偏好。比如,用户的常用设备、常用IP地址,上网习惯,常访问的网站、应用等等,从这些信息可以分析用户的偏好、财富、位置、性别、年龄、种族等等许多隐私信息。Google主要用这样的个人信息和偏好向你精准的投放广告,因为广告是谷歌的主要营收来源。

这里有一篇纽约时报的观点文章,说明跟踪码的普遍程度。I Visited 47 Sites. Hundreds of Trackers Followed Me.

但毕竟Google也是由人运营的,所以让陌生人比自己更了解自己的小秘密,实在是让人不舒服的事。更何况前两年还出现了跟脸书有关的剑桥数据分析丑闻,其中之一的应用便是利用脸书搜集的大量用户私人数据,分析用户的政治倾向,投放竞选广告。值得说明的是,这些数据可不止你在脸书上的活动和个人信息,还有你访问过任何带有脸书插件的第三方网站的记录。把自己的隐私交给Google,FB这些公司其实是很让人不安的,尤其当你是一个持有跟Google或FB公司内部主流的progressive意识形态相反的保守主义人士的时候。

正确的反跟踪姿势

在了解跟踪码的真正目的是尽量搜集你的完整上网记录并数据挖掘分析你的个人偏好之后,你对下面的反跟踪码措施可能会更加理解。

首先,使用全匿名的上网方式,比如Tor Browser,本身就对跟踪码有了天然防护,因为跟踪码提取的用户IP是全球Tor用户公用的Tor节点IP,浏览器指纹也被Tor Browser抹去。所以,Google对这类流量是根本无法定位到个人的。Google的机器人识别系统reCAPTCHA对Tor网络格外严厉,或许也夹带了这点私货。

其次,日常上网不可能全部通过Tor,毕竟Tor很慢。所以在裸奔的情况下,安装阻断跟踪码的插件是非常重要的隐私保护手段。uBlockOrigin是一款能够阻断绝大多数跟踪码的浏览器插件,支持Chrome,Firefox等主流浏览器。它的数据库是由社区维护,并且在不断更新,能够阻断绝大部分主流的跟踪码,充分保护你的隐私。 欢迎你到uBO社区举报尚未被封锁的跟踪码

https://be4-news.herokuapp.com/item/41b63d88-ca51-4ca8-af1f-4b5a905f6303

菜单
  1. BE4  

    管理员:本文谢绝转水。

    其他人:本帖只讨论技术问题。非技术类讨论请自觉移步这里

  2. 张怀义  

    前辈,我觉得你放弃吧

    他们会把你移水

    我先makr下,明天再拜读

    前辈听过syn flood么?我觉得前辈可以对品葱练练手

  3. BE4  

    关于Clicky

    BE4是跟踪狂这套歪理邪说就是由Clicky发展出来的。这里说一下Clicky是一家正规的第三方流量分析公司,市场份额位于Google Analytics之后,而Google已经是注册实名制了。

    Clicky到底获取哪些信息?

    如果你在Tor网络上,可以到下面这个实验页面去看Clicky是否对「部署方」提供完整的用户信息。这个网页里提供了Clicky的后台链接,你可以直接看到该网页的跟踪码为「部署方」提供了哪些统计信息。

    https://diymysite.github.io/analytics/clicky-test

    千万不要直连

    下面是Clicky的截图,注意IP地址仅有C段,也就是并非完整的IP地址

  4. BE4  

    再强调一遍,Clicky提供的这些信息,对于开论坛的站长来说,根本就是垃圾。

    论坛站长控制的服务器日志上有比这个详细得多,且包含访问者完整IP地址的信息。

    其实只要你有防备心,有一点自学能力,掌握了正确的知识,就能保证上网安全。

    但是某些散播「歪理邪说」试图降低大家防备心的人,可能才是真正的威胁。

  5. BE4  

    流量跟踪码的真正危害是

    Google, Facebook,Twitter这种最大牌公司通过为数以千万计的各种大中小网站提供第三方流量跟踪码。作为跟踪码的「提供商」,Google, Facebook,Twitter这样的巨头能够获取每个人每天在成千上万个网站上的活动轨迹,数以十亿计的用户,7x24小时。这些巨头则利用这些大数据挖掘出的个人隐私和偏好等信息赚大钱。

    第三方跟踪码的「部署方」为了方便和公信力,选择跟巨头合作,而没有尽到保护访问者的责任,仅此而已。最主要的原因是绝大部分「部署方」并不知道跟踪码「提供商」的盈利模式,为了方便作出这样的选择。

    单个「部署方」所获取的用户访问记录,只是大数据中的一个样本点,根本挖掘不出任何有价值的信息。

    你用clicky给我演示一下如何获取用户真实身份。能获取到的话,我们一起发财。

  6. BE4  

    奉劝某些人一句,搞技术的,不能只靠脑补和看微信公众号获取知识,读技术文档+亲自做实验懂不懂啊?

  7. 说我想说的  

    @BE4 #6

    哈哈,一有机会就阴阳怪气的。

  8. 张怀义  

    前辈,我不理解,在墙内部署Google,Facebook等公司的跟踪码,Google和Facebook能获取到收集的数据么?

    不能的话,为什么有站长部署呢?这个部署了,会有什么后果?如何工作?原理是什么?代码在哪里?是不是可以找一个跟踪码,分析下源码,告诉我,都采集了什么,如何实现,原理,最后采集的数据发到哪里?

  9. BE4  

    其实跟踪码的用途和危害用一张图就能说明 这是纽约时报文章中,作者自己某一天的网络活动的时间线。

    他从上午11:56开始上网到凌晨3:17分访问最后一个网站后睡觉,一共访问了47个网站。每一个网站用一个圆圈表示,圆圈里面的每一个点就是一次「跟踪码」的跟踪动作,跟踪码的颜色代表不同的来源,也就是本帖提到的「提供商」。可以看到最常见的跟踪码提供商有Google, Amazon, Facebook. 另外,有的跟踪码还搜集地理信息,在图中用绿色点标出。剩下灰色的点,应该是上面三家之外的其他跟踪码「提供商」。

    大家可以看到,Google的跟踪码在作者访问的每家网站都出现了,所以理论上来说,Google能掌握这个人一天的完整的上网记录。其次是Facebook的跟踪码,部署在作者访问过大部分网站,也就是说Facebook搜集了作者大部分的上网记录。即便是第三名的Amazon,也搜集了作者超过一半的上网记录。

    其中他用虚线连起来那些点使用了同一个跟踪ID,也就是说,这一家跟踪码「提供商」准确的掌握了作者在虚线连起来这些网站上的活动轨迹。刚好8家网站是作者活动最频繁的网站。这家跟踪码「提供商」显然太嫩了,做得不如Google,Amazon,FB这类大厂干净。

    可见,跟踪码「提供商」通过免费给网站提供流量统计服务,目的是让尽量多的网站部署自己的跟踪码,这样好收集每个人尽量完整的上网活动记录。

    我们光是从作者的这一天的活动记录,就可以目测出作者的生活作息是晚睡晚起,政治倾向偏左,支持民主党候选人伊丽莎白.沃纶。而上面三家大厂Google、Amazon、Facebook利用跟踪码掌握的数据,完全也可以用来挖掘出作者的这些个人隐私。

    所以,这两个半瓶水那套「跟踪码是网站用来搜集用户身份信息」的歪理邪说,把谁在搜集什么数据都完全搞错了,推导出来的结论更是荒谬绝伦。

    「半瓶水的歪理邪说」得出了什么荒谬的结论

    荒谬结论(1): 小网站不能部署跟踪码,因为小网站可能出卖你的数据。大网站可以部署跟踪码搜集你的数据,因为大网站会考虑商誉而保护你的隐私。

    事实是,真正搜集你信息的是跟踪码的「提供商」,它搜集你的完整上网记录,反而是越大的网站,越能泄漏你的隐私。比如作者访问了几家左派媒体和沃伦的官方网站,这就透露了这位纽时作者的政治倾向。

    相反,部署这些跟踪码的网站,本身可以直接在后台保存你的访问记录,根本就不需要通过跟踪码来搜集。

    荒谬结论(2):避免被跟踪的解决方案是网站不该部署跟踪码。

    事实是,绝大部分网站都需要流量统计这类功能,而跟踪码「提供商」通过为网站无偿提供这个功能,但隐瞒了他们搜集用户的访问记录这个事实。绝大部分网站当然会无脑选择免费又有公信力的流量统计服务。所以荒谬结论2的方案根本就不现实,更无法保护你的隐私。一两家网站没有跟踪码,对Google Facebook Amazon等等大厂小厂来说,就是大数据少了一两个点,对他们挖掘你的隐私根本就没有任何影响。

    荒谬结论(3):要保证安全和隐私,你要尽量访问没有跟踪码的网站。

    这根本就是错的,少了一两个点,你的隐私照样被巨头搜集和挖掘。只不过是创造一个让你多上他们网站的理由,一个卖点罢了,对你的隐私没起到什么保护作用。你要是经常上中国数字时代,matters这类有跟踪码的网站,Google Facebook Amazon等等大小几百家跟踪码「提供商」都知道你是个反贼。

    正确的方法是用Tor跟uBlockOrigin这类阻断跟踪码的插件来保护自己的隐私。用Tor或TorBrowser是让你每次点击都产生一个不同来源的假数据,让跟踪码不知道点这些网站的是同一个人。用uBlockOrigin则是直接不让这些跟踪码正常工作。

    uBO会不会漏掉一些跟踪码?肯定是会有的,但是漏掉一两个并无大碍。如果你能够把上面那张图上99%的点都抹去,那么只有一两家跟踪码「提供商」搜集了你一两个点的数据,他们能挖出的有用信息极少。我说的是不用代理,但是用uBO插件的情况下。

    如果你用Tor,那么uBO漏掉一两个跟踪码根本毫无影响。

    跟踪码的确给网站提供了统计流量的便利,流量统计是绝大部分网站的刚需,

  10. BE4  

    上面那张图的文字没有显示出来,重新发一遍

    来源 https://www.nytimes.com/interactive/2019/08/23/opinion/data-internet-privacy-tracking.html

  11. 张怀义  

    @BE4 #10 我有好多问题啊,为什么Tor浏览器集成了noscript却不集成uBlockOrigin?为什么不同网站的同一个跟踪码可以生存同一个跟踪ID,还有这个跟踪ID是如何产生的?如果我在win10下,一直每隔20分钟切换一个沙盒,那么是不是每20分钟一个跟踪ID?会重复么?我觉得沙盒比虚拟机好用很多,跑在内存上,类似docker

  12. BE4  

    @张怀义 #11 这些问题,你到这几个地方去问

    https://forum.privacytools.io/

    https://www.reddit.com/r/privacytools/

    https://www.reddit.com/r/uBlockOrigin/

  13. 张怀义  

    @BE4 #13 前辈,我英语不好。不会发英语帖子。。。

    能不能前辈翻译好以后发过去。我自己会订阅问题,有了答复自己看,就不劳烦前辈翻译了。

  14. BE4  

    @张怀义 #8 墙内网站一般用的是国产跟踪码,Google,FB,Amazon等可能无法搜集,但具体是不是这样我无法确认,只有你自己去做实验。

    至于说正规的第三方跟踪码长什么样子,你可以去看看这个网站和它的代码

    Google Analytics, Clicky, ShareThis等等跟踪码提供商,你直接去注册一个帐号,然后就网站就会为你提供你的跟踪码的嵌入代码。

  15. 张怀义  

    @BE4 #12 好吧,前辈。我用Charles抓包分析下看看。我对cnbeta比较感兴趣。拿它练手了!

    代码我看不懂的,我只会Java,不会JavaScript!我只是工商管理毕业!

  16. BE4