文章
技术

可靠的信息

可靠的信息

我突然想到,什么信息是可信的,如何增加可信的信息。我们了解的信息或者说知识,有几种途径。

  1. 亲自通过感官认识的。
  2. 别人告诉我的。

第一种知识大概是最可信的,其中最可靠的还要属「我思故我在」。第二类知识还要分许多类别,政府宣传的,朋友告诉我的,还是网络上的陌生人告诉我的,大的新闻媒体,社交网络的名人,学术论文,史书、教科书。但第一类的事实总是占比很小,很多时候要靠别人告诉我。除了感官直接获取的信息,其他的信息都是间接得到的。在本文的语境下,信息有且只有两种来源,亲自验证的,和间接得到的。这里的信息是对于客观世界感官的观测,即经验。我们用怀疑的眼光审视所有的信息,但在此着重考虑第二种信息。

我想,除了我亲眼见到的,朋友告诉我的最可信,因为他们没有欺骗我的动机。最不可靠的是历史资料,没有人能确定史书受了多少篡改,但伪造的部分可能不符合逻辑而被人发现。谎言总是存在,而人本身也有一定的判断信息真伪的能力。所以,既然我不能见证所有的事实,我希望这里的「他人」是没有恶意的,希望他们的声音不受抑制。

Reddit 对录像数据伪造曾经有探讨,ML 的发展已经大幅降低了伪造的成本(不出几年应该可以直接生成电影了)。数据本身恐怕不能成为证据了。我们用录像作为证据时,其实依靠了录像难以伪造的前提,所以录像的内容被认为是真实的。这意味着证据本身产生的可信度会越来越小,以后不得不相信证词和证人。而制造谎言的人,他们的谎言会越来越真实。

刚刚看到有人在争辩文革的是非,大概不会有结果吧。

互联网的意义在于,它让许多人成为了事实的记录者。史书往往是少数人写的。为什么不让所有人参与事实的记录呢,毕竟每个人都在社会中生活。增加真相,减少谎言,大概是件好事。假如非要增加谎言,那么这部分的谎言可能是被编造出来为少数人服务的,因此还是增加真相比较好。

用密码学获得可靠信息的尝试

还是要运用之前提出的区块链、密码学技术,我们首先登记公民的密码学身份到链上。这是在言论自由和新闻自由的基础上,再进一步。

如果我想知道新冠病毒疫苗的效果,可以发起一场匿名投票,投票者需要提供:

  1. 投票者自我反馈,打了什么疫苗,这个疫苗的效果如何,有什么副作用(这里会尽量避免常人认知水平造成的误差)
    • 疫苗公司可以在打疫苗后向参与者提供密码学证明。在投票中可以匿名提供,为自我反馈增加证据。
  2. 密码学证明,它可以证明:投票者是公民的一员,并且没有重复投票,除此以外完全匿名。

这种问卷调查会准确的多,论文有统计的方法和结果,但没有统计的证明。投票结果可以每个人独立验证,只要承认登记的公民密码学身份,承认数学,就没有任何理由怀疑密码学证明的投票结果。这是最理想的方法。

还可以增加第三条投票的条件,要求投票者是我社交网络内「朋友的朋友」圈内的 256 人,这样会多一层直接或是间接的信任因素。

同样是调查问卷的形式,可以确定一些其他的命题,新开的饭馆是否好吃,或者,64 当日发生了什么。这些命题不需要专业能力,只需要基本的认知水平。

反观现在,这样的工具是不存在的,谷歌上有许多营销文章,其中最可信的只有论文了,社交网络只有初步的功能,网购平台有许多虚假评论。

可靠的专业知识 ?

譬如说最佳的 covid 治疗方法,这超出了本文的范围,因为它不属于本文意义上的信息,它是根据信息研究得出的结论。

PKI 产生之后

Publickey Infrastructure(大规模密码学身份的登记)产生之后,就不会有「编造的名言」了。

如果社交平台的每句话附有「数字签名」,或者 hash 被记录到链上,那么所有的言论都可以验证,任何篡改都会被立刻查出。

不必担心,仍然可以保有匿名,因为 publickey 不一定和实名身份绑定。这早已发生,如 PGP mailing list。

可靠的历史

Wayback machine 记录了许多网站,各种新闻,政府门户网站发布的资料,其中包括了北京政府如何清理低端人口,这部分后来被政府删除。

当证据逐渐失效的时候,

  1. 记录更难以伪造的真实数据。
  2. 构建、寻找一种区分证词可信度的方法,至少让编造谎言有巨大的成本。

从获取信息的角度考虑

上文提到的密码学元数据是一种信息自证的方法,它人为地构建了信息之间的联系。这是一种逻辑上的联系,于是我们可以用较少的前提确认较多的信息。譬如说如果某公钥属于某人,那么所有这个公钥签名的信息,大概率来源于此人;如果我们能预先确认文件的 hash,那么我们就能完全确认文件的内容;如果我们有区块链的 genesis block,那么我们就能共同承认一个不断演进的共识。

个体获取信息是一种持续的过程,亲自见证事实的无需验证,而间接得到的信息会通过其他的一切的可靠的我们所确信的事物验证。

可以预见一种情况,某些信息是和其他信息之间互相比对才得以判断真伪,那么审查者只需要压制一部分,宣扬另一部分,就有足够蛊惑的能力。如果这个信息是证据,那么操纵的方式就叫断章取义。

现代人的信息获取大多依赖互联网,而互联网又以搜索引擎、各大媒体、社交网络为主要的个人的信息来源。

  1. 因此,第三点是从个体的角度考量。尽量获取准确真实的认知(此次强调获取完善的信息),而这是高度依赖于工具的。

既然前文关注证据本身的属性,这里将目光投向别处。关注证据本身,意味着强调信息的本身特征。一篇文章的叙事可以用合理的逻辑自证它的可信度,同样,一封邮件可以用数字签名自证它的可信度,而数字签名基于数学,和逻辑一样都是先验的知识。有趣的是,这种可信度是由计算机验证的。

如果个体的信息分为两种,已知的和未知的,那么在挖掘分析完已知的信息,必然要获取未知的信息才能进一步修正自己的认知。对于前者,虽然还没有人工智能代替读者分析文章的逻辑,但密码学的验证是可以做到的。后者则依赖于互联网,将它作为一种获取信息的工具。

言论自由、新闻自由是基本的前提,我们还可以更进一步,譬如将私人的公司的平台纳入公共监管的范围,要求同等的自由;由政府推行民主的去中心化的互联网。

信息的 Algocracy

Algocracy(governance by algorithm)与官僚制相对,但在这我不指特定的制度,而是算法本身对社会的影响,这种影响大概不会小于「台面上的政治」,影响的程度再加深便是操纵。

它的影响显然,早已有人论述,互联网作为 Algocracy 的体现,影响了全球的经济政治。人获取信息依赖搜索引擎,当今的搜索引擎有向人工智能发展的趋势,人也依赖互联网的推荐系统,算法的重要性不断增加。

相比以人工智能作为一种信息获取的工具,实现本文的目标,眼下密码学更为直接有效,因此着重讨论。

菜单
  1. MayajossMin
    MayajossMin   Without music, life would be a mistake

    与其说可靠不如说成以下两部分 1.可查证 2.可信

    可查证代表被多个来源交叉确认,比如被广泛报道的新闻,被公认的知识。 可信代表信息来源的权威性,比如亲眼所见的事件,权威的研究。

    网络本身只是传播信息的工具而不是生产信息,只不过信息的传播可以让信息得以更广泛的保存,但更广泛的保存并不意味着增加了可查证性。 然后就是可信的部分,这里有一个问题,那就是一个被广泛传播的信息的可信度是否与传播过程中各个传播者的权威总和成正比。或者说,对于传播过程中信息的可信度评价以及对此评价的声明义务在信息源,还是传播者,还是接受者。

    以你所举的疫苗有效性投票为例

    可查证的问题你已经提到了,一个关于疫苗有效性的研究如果被广泛传播事实上并不意味着增加了可查证性。这类事情在各个学科领域都层出不穷。 但可信的问题被你忽略了,或许可以设计出一个完美的投票系统来防止重复投票,废票和恶意投票,并保护好隐私与信息安全。 但每个投票者的个人信用之总和,未必就大于个人权威,毕竟投票者没有声明是否可信的义务,更或者,连评价是否可信都做不到。

    比如投票者在投票时疫苗接种已经超过半年以上,要他们去清晰回忆半年内的所有症状并区分哪些是副作用哪些不是,对于大多数人来说都是做不到的。 又比如,如果疫苗存在一种对普通人来说难以检测到的副作用(比如间歇性血氧浓度下降,或者与其他药物的交叉影响等),那么对于大多数的投票者来说也是无法判断的。

    类似的事情其实美国已经开始做了,就是电子病历共享系统(国内好像也有这方面研究)。将病患的病历共享,由于病历是由医生记录的,其实已经相比于简单的一份疫苗副作用记录报告要可信的多,但结果依旧是只能作为医疗参考。在此参考上开展研究是否比实验室中能得到更详细的信息都是一个问题呢。

    还有一个贵站各位技术员们总喜欢忽略的问题,投票率。你们如果不是只是想实验性的研究加密技术,而是想要推广开甚至引发社会变革的话,真的有想过怎么让更多人接受并使用你们的技术吗?靠金融工具的利益驱动?还是无限扩张隐私保护的成本和收益?有必要吗?可行吗?

  2. planetoryd 回复 MayajossMin /p/197618

    你有没有发现,在我的概念模型中,所有的事实的叙述只有两种来源,我亲眼见到的,其他人认知并得出的。这里的「其他人」有不同的动机,不同的认知水平,专业能力。我没有提及「来源」而是直接考虑生产信息的人。你提到的「权威」或者有名声的人,算是动机更加纯粹,认知能力更高的个体,社交媒体上有许多,属于互联网范畴内的。

    如果网络只传播信息,而不生产信息,互联网的意义就减小了。而白纸革命那段时间社交媒体的作用你也看到了。除了记录事实的信息生产者,传播者本身也有一定的信息筛选的能力,可以选择传播谎言或者只传播真相。我在文中提到了,信息本身是越来越难以查证的,谎言以假乱真。很多时候要靠其他人的信息互相比对,这就需要事实记录的广泛参与,否则拿什么比对。

    在此参考上开展研究是否比实验室中能得到更详细的信息

    这里我更怀疑商业利益对研究的影响,我不认为这种公众的调查在学术上会更准确,但它一定更公正、真实。

    投票率

    上面疫苗的投票和网购平台写评论一样,本身是需要精力的。然而这种投票实际上更像一种数据收集,所谓的「投票」一定程度上可以自动化,计算机如果掌握和投票者等同的数据,那么就可以代理投票者参与投票。并且这个投票的数据,其实计算机内已经有了,医院就诊的数据,疫苗接种的数据,可能人工还要提供是否阳性什么时候阳性的数据。

    政治性的投票如果不去参与,那也没什么好说的了,而且在那种社会不会有工作很忙的情况。

  3. MayajossMin
    MayajossMin 回复 planetoryd /p/197621

    再强调一下,信息的传播过程中并不增加可查证性。对于一个事件来说目击者是信息源。这些信息源之间(或者他们提供的信息之间)的信息交换确实增加了可查证性,但也仅此而已。其他传播者并没有增加,甚至还有可能会降低可查证性。这也是为什么媒体会那么关注于第一手信息的原因。当然完全说互联网不生产信息确实是有不妥,毕竟信息传播过程中难免被加工。

    你忽略了目击者的可信度问题,亲眼所见未必真,或者所言未必真的情况。另一个问题,并不是所有的传播者都愿意且有能力筛选信息,或者说对可信度进行评价(同样,信息的接受者也未必都有此能力)。所以我一直强调的是查证而不是记录或者比对,不存在百分百对一个事件无限细节的完整记录,无论你如何增加信息源最后拼凑出的依旧只会是一个(又一个)片面的事实。

    为什么你会产生商业利益只会影响少数人而不会影响多数人的错觉。事实上如果可能,商业当然是更愿意去影响多数人,那样效果更好。

    且不说就算是在分布式病历共享系统中要实现自动化收集疫苗接种副作用这种事都不见得是目前的人工智能水平能做到的(先需要解决怎么让ai学会评价病历的可信度,又绕回去了),就算未来实现了这种技术,实践中各个细节上还是有很多问题不是靠技术就能解决的。另,我不止说的是政治活动,而是如果要推广到各个领域就需要有充分的动力,不是政治利益就是商业利益或者其他的什么利益,至少由加密货币所带来的商业利益已经证明对实现社会变革起不到任何帮助了。

  4. planetoryd  

    信息的传播过程中并不增加可查证性

    我提到的是更广泛地参与记录事实,不要攻击稻草人,并不只是传播。而且传播基本不需要人做,推送算法和搜索引擎就够了。复制粘贴的事情没有什么好讨论的。

    对于一个事件来说目击者是信息源。这些信息源之间(或者他们提供的信息之间)的信息交换确实增加了可查证性

    目击者提供的就是第一手信息。

    你忽略了目击者的可信度问题

    没有。我认为普通人比利益相关的人可信。举个例子,事件A「路口的建筑物发生爆炸」是否发生。我宁愿发起一个投票,让当时当地的1000个可能的目击者判断事件A是否发生,而不是相信几家媒体的报道。

    每个投票者的个人信用之总和,未必就大于个人权威

    可以设计限定投票的参与者,譬如说限定到社交网络的名人。当然反过来汇总社交网络的信息也可以。

    对于那个特定的例子,我不觉得有任何问题,那样的机制得出的结果一定是最接近真相的。

  5. linda 回复 planetoryd /p/197961

    你说的第三个问题其实不是投票问题,是一个确认(confirmation)问题。confirmation是依靠绝对数的,不像投票是依赖相对比例的。一件事情是否发生,需要confirmation,confirmation数和可靠性是指数式的:1-e^(-kx),k为衰减系数,x为confirmation数,当confirmation数超过一定数值的时候,我们就认为这件事情为真。

    哪怕一千个人里只有十个看到了爆炸,那也说明了爆炸发生可能性很高了。

  6. planetoryd 回复 linda /p/197962

    还要考虑证人说谎的可能。这个方法比较极端,主要是为了探查「可靠性的边界」,在怀疑一切不是亲眼所见的事实的前提下,看看信息还能做到多可靠。

    这里密码学工具的作用,是减小了「证词被篡改、被伪造」的可能。

  7. linda 回复 planetoryd /p/197969

    参数k对应的就是证人说谎的概率啊,k越大,预设的说谎概率就越大,你就需要越多观测到(阳性)的样本,来保障事实发生(阳性)的可能性。

  8. 二哈 回复 planetoryd /p/198042

    普通人比利益相关的人可信

    这可未必,大多数人对和自己无关的事情是不愿意动脑子的,一个个体的虚假记忆可能成为集体虚假记忆。获得关注是另外一个可能夸大扭曲事实的动机,撒谎者可能无意为之,对自己所说的话深信不疑。

    亲眼所见

    任何目击者的证言都是自己从现实中吸收的那部分,加上脑补的结果,不同的人脑补的程度不同,吸收程度也不同。