文章

删海经

phoenix000 · 2018年5月21日一个关心社会的人

首先得说明，本文跟《删海经》这部纪录片没有关系。我很想看这部电影，只可惜一直没有机会。这边用作标题只是单纯觉得“删海经”这三字很符合现实罢了。

围绕中国是否存在言论自由的讨论，反对者经常脱口而出：“在中国，连Fx、Txxx、Gxxxx等网站都不能上，所以当然是言论不自由。”

几年前豆瓣的海也写了一篇文章，描述了我们是怎么一步步失去这些网站的。曾经，互联网是自由的，但很快就有高墙落下，慢慢越来越多东西被扔到了墙的另一侧。我们却束手无策。

然而，到了2018年的现在，当Fx、Txxx这些网站的记忆渐渐模糊消散，已经在人群中难以引起共感了。另一方面，国内的百度、微信等网络工具已经逐渐完善，在功能上可以弥补另一侧的网站消失带来的烦恼了。这时候，有没有墙，能不能上Fx，Txx网站这些对比已经难以成立了，也让人困惑，到底有和没有的差别是什么？里面和外面的差别又是什么？替代的瓶子足够好，它是不是原本的瓶子，有关系吗？

所以，我想现在有必要重新去讨论，墙内的我们，面临什么样的言论限制，这样的言论限制除了墙以外，是以怎么样的方式在逐渐升级的。

一条轴线是很清楚的，是法律的轴线，越来越多法律开始约束网络行为。实名制，打击网络谣言，管制的方法都是删除发布违禁文章的账户，然后追查网络账号、起诉发表相关言论的人。国家利用法律制度进行互联网的管制，逻辑与现实社会中对于言论的管制是类似的。只是稍微晚了一点，但该来的总不会不来。

另一条轴线则是隐蔽的，是跟国家不直接相关的，这条轴线是网站的审核、删除机制。这边的机制都是技术上的，与法律不直接相关。当然，也不是完全与法律无关，毕竟被删文章的时候，通常都会收到一些删除理由，里面写的就是“不符合某某法律”。

然而，网站的删帖究竟是依据那一条法律呢？常见的删帖多是涉及政治，法律并没有禁止大家讨论政治，虽然你说出某些话来会有进监狱的风险，但那是警察、法院去处理的事情，跟网站的删帖行为不同。或是一些涉及人身攻击的文章，通常按照法律的处理流程应该是收集证据，然后起诉相关发表者。然而，网站的做法是把证据直接消灭了，甚至可以说是违法的。

网站对于言论的管制是更甚于法律的，这可以分几点来说明：

法律条文尚且有迹可循，网站的删除机制难以琢磨。

应该修正一下，是越来越无法琢磨了。早期百度贴吧的规则是碰到文章里有敏感词你就发布不出去，这个规则很清楚，所以也很容易有对策，开发一个河蟹转换器，把敏感词转换成音类似的字或是中间加个符号就可以绕过网站的审查机制。现在却是不同了，豆瓣、微信都没有敏感词，敏感词是隐性的，你不知道那个词会撞枪眼上，也不知道怎么去躲避。

在微信，你发布的某些链接会正常显示，但对方却看不见，这种隐藏形的删帖越来越多了。因为背后的代码、程式我们用户全都看不见，Try and error的话成本又很高，再加上审查机制迅速的升级，现在已经无力应对了。

网站的删除范围在不断扩大

无力应对是一回事，另一个可怕的地方在于网站的删除范围正在扩大。过去是讨论政治时事的文本会被删除，现在很多并不直接涉及时事的影评、书评也会跟着遭殃。你看最近那个王X玛，明明在知乎上什么也没干，竟然也被封账号了。有人认为这是网站的自保策略，为了尽量避免麻烦，所以要比国家政策更进一步，把所有可能引发事端的言论通通消灭掉。这是有道理的，在中国，资本需要游走在市场与国家两端。

网站删除机制的发达让国家卸除责任

因为是间接的管制，所以我们不会一眼看到是在什么样的条件下网站才会形成这样的删除机制，看不见背后真正在发号施令的人。利用网络删除来进行治理，相比于把一个个违法妄议国是的人都送上法庭，政治风险小了很多。很多人也因此把怒气都发泄在个别的网站上面，认为它们做的太过火了，然而是谁让它们做的这么过火呢？

删除文章会改写舆论走势

一个问题很重要，究竟网站是在选择性地删除具有特定立场的文章还是只删除所有涉及特定话题的讨论？我们很害怕前者的发生，因为一旦网站可以迅速识别文章立场进行定点打击，而保留了相反立场的言论，那么删除机制实际上就是在形塑网络舆论，在现在，甚至可以说会主导整个社会舆论。

没有清楚的证据可以讨论这点。但有些蛛丝马迹让我觉得现在正逐渐走向前者。

Dan Wallach对微博的研究发现，审核机制不只是对特定话题的无条件删除，过去有被删微博记录的人更容易被删除微博。所以，经常就时事发表讨论的人更容易被消音，而容易写出有深入分析的又恰恰必然是经常针对类似的话题进行讨论的人。被消音的其实是更有深度的分析，或者更热心的参与者。而普通的参与者针对话题的讨论更容易被留下，如果我们相信政治和思考是需要培养、学习的，那么这些参与者因为参与少，可以推断他们更容易相信主流媒体的论述，难以形成批判性的言论。

另外，之前北京某著名学府半夜谈心事件中，分析讨论的文章也很快就被删除。倒是某些针对当事人的恶意中伤存活得久一些，例如什么论文写不完啊，什么此事不单纯啊。当然，理客中永远存活得最久。这里的逻辑似乎是，不正面讨论事件，反而对当事人进行评述、猜疑较不容易被列入审核、删帖的范围。似乎也可以理解，因为对当事人的中伤不太会碰到事件关键词，即使碰到，也相对比较少。但是深入的分析性文章则无可避免要碰到大量的关键字。

结果，网络舆论走向其实已经被删除机制改写了。

今晚，我们来聊一出悲剧吧，AI、自然语言处理、大数据。

本篇非原创，所有论述、文本段落都来自互联网，请自行寻找。

LoveFormula

-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA256

网络舆论引导嘛。方法多种多样，包括且不限于：删贴、限流、网评员、评论机器人。

不过幸好受意识形态和经验所限，我国的舆论引导做得还不如西方。在舆论上的高压态度，反而让人们转向各种如微信群等的“小道消息”，反而让部分信息得到更快的流传。等中国共产党学会像西方媒体一样，从吸引人的注意力抓起，让人们自动自发地看他们胡扯，而且并不关注其他信息渠道，也不自发地互相传播信息（或者只传播媒体想让人们知道的信息），把人们发自内心地原子化，那才叫可怕。

新浪微博，Twitter，Facebook，百度，谷歌这些东西中的信息都是刻意排过序的，人们在关键问题上看到的信息，都是这些企业或是其后的政府想要让人们看到的。这不止是一个中国问题，这是一个世界性问题。 -----BEGIN PGP SIGNATURE-----

iI4EARYIADYWIQRIxvuhrHBrbISlkKFYHqZmdi3SkQUCWwO07xgcbG92ZWZvcm11 bGFAMjA0OWJicy54eXoACgkQWB6mZnYt0pGkpAEAyHHqtHyekzWvswg/hTKHSWuH FJVpMZwIkHrVlBz1J8kBAIu1VbG2A61CWlCxweD+n3ANnk5evTuc5uv7A6soAH0J =vG3S -----END PGP SIGNATURE-----

2018年5月21日 /p/1488

菜单
star800

@LoveFormula PGP 和 S/MIME 高危漏洞会暴露加密邮件的明文 https://www.solidot.org/story?sid=56491

2018年5月22日 /p/1493

菜单
LoveFormula

@star800 准确的讲是邮件客户端的问题，结果赖到加密软件头上。有的组织还劝导人们卸载加密软件，使我感觉后面有阴谋。

2018年5月22日 /p/1494

菜单
catcat 呼吸新鲜空气

可靠消息，我曾经有个朋友做过网警。都要求去注册一些论坛/新闻媒体的账号，每天去各大新闻下面做舆论的引导。

2018年5月22日 /p/1499

菜单
LoveFormula

对自然语言和大数据的吐槽：

我在这个论坛发表了这么多吐槽。理论上可以把这些吐槽收集起来，同时大数据收集人们在其他各种社交平台上的发言，用机器学习模型做出一个向量，政府就能知道我到底是谁，然后来迫害我，譬如请我喝茶或者扣除我的信用。虽然在这里发言的时候我已经修改了一些我常用的词语，但我觉得还不够。

如果审查真的到达这个地步，就算匿名也没有用了呀。

2018年5月24日 /p/1527

菜单
小二默认开启批量屏蔽受限用户发言功能，可在设置中手动取消。

@LoveFormula 对于你说的这种情况，倒也不必太担心，不是说 CIA 用这种方法找到了中本聪了嘛，但也没个确切的消息。这种方法理论上可行，不过成本应该非常大，而且最多只能作为一种辅助侦查手段，还不能作为证据吧……

2018年5月24日 /p/1528

菜单
star800

@LoveFormula 朋友，你多虑了，你一介无名之辈，谁查你，除非你闹出什么顶上战争之类的大事件，或者打掉几个七武海，把你的悬赏金额提高到10亿贝里以上，否则世界政府哪有那么多闲心管你...

2018年5月24日 /p/1529

菜单
LoveFormula

@Ciao @star800 不不不，我怀疑这个方法的成本非常小。虽然我在这里谈的是我的问题，但实际上这是2049BBS每个人的问题。

我认为共产党以后（甚至已经）会对公民建立一整套的数据库，跟踪公民在网上的发言。当发现了一个新的网站，只要扫一遍自然语言模型，就能知道这个网站里面的活跃用户到底是谁。国家的人力有限，肯定不会当场抓你。但当你要办什么事情的时候，比如贷款或出境，就可以查出来你这个人是有案底的。

这个攻击不是针对个人，而是每一个人。

2018年5月24日 /p/1540

菜单
star800

@LoveFormula 中国网民算10亿（http://bj.bendibao.com/news/201685/231565.shtm），每个人算3个马甲，就是30亿，在全世界N个网站发布M条信息，那么数据库就是30NM，单位至少百亿级，甚至万亿。嗯，这样超算或量子计算机可破。另外兄弟看下你的身份证，你只是居民而不是公民...

2018年5月24日 /p/1542

菜单
star800

不过防止办法倒是有，只不过你要小心得上精神分裂或人格分裂：） https://www.zhihu.com/question/27335909/answer/48799908 https://www.zhihu.com/question/27037627/answer/35041564

2018年5月24日 /p/1543

菜单
LoveFormula

-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA256 @star800 你的计算是错误的。按现在一般的机器学习的算法，每个人最多就是数据库中一个长度为几百的向量，不需要也不应该存储每个人发布的所有信息，否则无法做匹配。

既然要用来，那就只需统计实名制的场合发表的信息，比如微博和QQ，那么最多10亿记录，不需要看你的3个马甲。设向量维度为300，用32位浮点数（4字节），那么只需要1200GB，算上各种别的附加信息，最多2000GB。淘宝买个硬盘就好了，几百块钱，方便下发到各个单位。做这种数据挖掘，NLP模型本身有一定复杂度（但不需要复杂到2个GTX 1080无法在合理时间内处理），要能够分布式处理，要能on the fly地续调整向量，还要考虑以后模型升级后原先的数据如何处理。

最后要设法部署到各个大的互联网企业，虽需要一定成本，但是比起现在的人工审查，简直微不足道，以国家安全的名义，这是非常正当的。统筹协调这些互联网企业是困难的事情，可以钦定一个企业来专门做这个事情，制定统一接口和规范，和这些互联网企业合作，而且是很好的腐败机会。

这里只讨论了统计文字中的特征，如关键词，语气词等，实际上人在网上发布的信息还有非常多其他的特征，比如发布信息的时间、频率等。都可以作为很好的机器学习材料。 @Ciao 技术上有一定难度，但不是不可能（如果用完全错误的算法，当然是不可能的）。希望以上论证不要成为什么操作指南。 -----BEGIN PGP SIGNATURE-----

iI4EARYIADYWIQRIxvuhrHBrbISlkKFYHqZmdi3SkQUCWwgvaBgcbG92ZWZvcm11 bGFAMjA0OWJicy54eXoACgkQWB6mZnYt0pFjfQD/ebdTQe8gZsiCIIyBIdG2soxW ojeVgJs5jxc6Ny5y5TYBAK2/NeULfkVZaRm004vGW3IL8fAL32LIc4RM8hdtSQoI =xtI6 -----END PGP SIGNATURE-----

2018年5月25日 /p/1546

菜单
Sierra

精彩绝伦

2018年5月29日 /p/1598

菜单