mountainsea

@mountainsea

mountainsea

@mountainsea

发完10个帖子，账号保持静默。账号是隔壁佛学院共用的，写的东西跟我无关，请领导不要上山下海找我。

3 声望 2020-08-19 加入

0 关注者 0 正在关注

关注的小组(1)

2047
11734 个成员

动态帖子 0 评论 10 短评 0 收到的赞 13 送出的赞 4

mountainsea 在小组 2047 回复文章
新西兰的华人政治活动家遇车祸近丧命，背后的故事

@dididi #6846824

小二因为我的一些努力而脱离出去单干

说真的，我还真不知道小二脱离还有你的一份努力。我怎么记得你出走“新”品葱几个月以后小二才退出的？

我虽然觉得你写的东西很有趣，我们的信息源和消息源完全不重合，看你的东西还能知道另外一个角度的看法，但是我以后还是避开你算了，毕竟你说过

因为凡是我认识的，似乎都要倒霉。

knocking on wood

2020年8月29日 /p/34894

菜单
mountainsea 在小组 2047 回复文章
挖坑已填——人民英雄紀念碑（誠實wiki）

@NodeBE4

你的几个项目都很不错，观点和外媒两个项目我也常常去扫一眼看看有没有我感兴趣的报道。我本来对你的新闻站有比较高的期望，也许能变成中文的hacker news，可惜了。

我还是建议你尽量注册一个一级域名，从exposure来说会比现在用github的二级域名来说要好很多。从工程量上来说，你只用把你现在在github的指向转发给你的一级域名就好了（搜索一下custom domain for github pages site）。

当然，注册一级域名牵扯到付费，需要当心一点，不过可以一次注册管10年，应该还好。你可以衡量一下benefits vs. risk。

我还是很看好你的行动力和一些务实的点子的。加油！

2020年8月29日 /p/34893

菜单
mountainsea 在小组 2047 回复文章
==== 阿拉斯加 ==== （康复俱乐部）

This is cute.

PS：俱乐部不错。支持一下。

PS 2：好像大家都用大学的logo做头像，我也凑个趣。

re: @rebecca #6495695 直接回复一下，省一个帖子。既然网站的logo都是大学，那就更好了。【立人】这个名字不错。己欲立而立人，己欲达而达人，己所不欲，勿施于人，很有儒学之风（PS，想起了卜学亮唱的子曰中的一段）。

2020年8月26日 /p/34799

菜单
mountainsea 在小组 2047 回复文章
上海市共产党员信息XLSX修复及还原【压缩包下载】

@libgen #5440847

这个对匿名用户很方便，同意这个，估计站长的to do list要爆了。

2020年8月25日 /p/34773

菜单
mountainsea 在小组 2047 回复文章
匿名论坛安全tip汇总贴

“墙内用户用VPN+Tor，墙外用户至少用Tor访问本站，一律公开宣称自己用Tor。”

ref: https://be4.herokuapp.com/topic/269/%E5%8F%8D%E7%A4%BE%E5%B7%A5%E7%BD%91%E7%BB%9C%E8%AE%BA%E5%9D%9B%E8%A1%8C%E4%B8%BA%E7%BA%AA%E5%BE%8B

还有一些其他建议，大多数我都同意。最重要的是不要实时对线，同时把“尽量发没有营养的话”并且“试图激怒其他用户”的ID当作五毛，目的不是抓五毛，而是不要落入五毛信息污染论坛的陷阱。

以下，在原帖中直接回复你们了。我个人的习惯是每个ID发言不超过10个帖子，这样可以省一个贴。

re: @穿鞋的企鹅 #6230464

混淆时间和日期的用处是在于提高国宝们找到你作息习惯的成本，但是如果国宝们真的花时间，还是能找到（option 1：扫描新帖，建立time stamp，通过对照来找到精确发帖时间；option 2：@thphd 写的也可以）。但是如果不混淆，国宝直接query就出来了，方便很多。

把发帖的具体时间移除，只显示日期

还是不错的建议，但是估计需要重写帖子的排序方法。不记录具体发帖时间，而是给每个回帖一个non-decreasing 的 post/reply ID，通过ID序列而不是发帖时间来排序（i.e., sort via actual time --> sort via relative order）。其实都可以不用显示真实日期，加noise也行。看需求了。

另外，其实 @三点五英寸软盘提到的信息很好，有时间去看看很有帮助，可惜有点零散，不能直接spoon给其他人。

re: @Neko #6372512

当我们花时间在Feeding the troll的时候，就落入了圈套

就是这个意思，不用实时对线，信息交换不用实时。实时交流很容易有情绪上的激动，不管是说出了不该说的话还是feeding the troll，都不美。

不知除了任他沉之外，还有什么更好的方法。

其实我想过用NLP写一个模拟水贴和机器人贴的东西，工具都是成熟的，可是data collection/clean和training太麻烦（PS，突然想到也许可以考虑用GAN来减少data的需求）。加上自己太懒，没有商业价值，没去搞。也许等到vacation，可以revisit一下。

如果这个东西搞出来，在上面叠几层 NN用来给每个帖子打一个相似分，分数高的和水贴近，分数低的不像水贴。然后改一下网站code，把分数高的帖子显示ID但是自动隐藏发帖内容（需要查看内容点击一下就好）。这样一来可以极大减少水贴的exposure，发水贴人就没有什么incentive发帖了。当然，坏处是，有可能有type 2 error，把不是水贴的当成水贴隐藏；从而打击发帖人，然后发帖人找管理员，让管理员不厌其烦...... 也许需要长时间的调试来达到平衡，有兴趣可以找个人专门搞搞看。

2020年8月25日 /p/34772

菜单
mountainsea 在小组 2047 回复文章
上海市共产党员信息XLSX修复及还原【压缩包下载】

遇到问题就不用写query了，直接做一个页面，list anonymous posts in last 24 h, join user with uid

想象一下这个帖子中有11个回帖：

1 posted by User A

2 posted by User B

3 posted by User A using anonymous ID

4 posted by User D

5 posted by User E using anonymous ID

6 posted by User A using anonymous ID

7 posted by User B using anonymous ID

8 posted by User D

9 posted by User G using anonymous ID

10 posted by User A using anonymous ID

11 posted by User A

scenario alpha: 这其中 post 6和 post 10在是User A在spam，但是中间隔了其他两个人的anonymous post，也许没有连续看到，我们不会发现A在spam；

scenario beta: post 9和 post 10在是两个Users在发言，也许我们直接觉得如果是同一个人在发言，那么他们可能是在spam，直到我们后台发现他们其实是两个不同的ID，才发现是coincidence；

scenario gamma: A和D在posts 3，4， 6，8中交流；但是在post 7中B用同样的匿名ID插了一句话，D以为是A说的，认为A对他有敌意，开始骂人；但是其实post 7并不是A说的。

其他的scenarios其实还有很多（试试站在一个想搞乱论坛的人的角度，如何浑水摸鱼制造混乱），统一的匿名ID在coding实现上比较省事，但是带来的之后的审查以及监督的工作量会很大，从而导致没人想管，最终使得统一的匿名ID被滥用是可以被预见到的。

最后，还是那句话，不用把这个需求放在首位，你应该还有更加high priority的list。匿名的需求从be4的论坛来看，我大概能看到还有3-4个和我一样有需求的人，但是他们和我一样，并不是常常泡网的。现在常常上网的人，可以增加人气的人，在我看来还是用特定的ID的人为主，满足他们或者相类似的人的需求更为重要。在初始阶段，人不多的时候，匿名还是不匿名对隐藏语言和能力指纹没有太大的帮助；所以等到论坛人气足了，在考虑我们这种很在乎匿名的人的需求也不迟。

最最后，早点公网上线，对这个网的人气更有好处。

2020年8月19日 /p/34721

菜单
mountainsea 在小组 2047 回复文章
上海市共产党员信息XLSX修复及还原【压缩包下载】

除非有正式注册用户approve这个发言。同时是谁approve、什么时候approve，系统不作记录。

这个加大了用户的人工成本，需要人去看和识别这些匿名发帖。需要一批无私的人持续地去审核匿名发帖，人工anti-spam。如果没有这批人，那么最后还是主ID来approve匿名ID的发帖，如果有记录的话和实名发帖没有区别。

如果启用临时记录，怎么保证站长只保留24小时+他人不可见？

off the top of my head，两个密匙由站长和另一个非站长ID掌握，需要阅读临时记录anti-spam，两份密匙同时解码还原临时记录。以此来保证临时记录不被重复保存和滥用。当然，这个方法人工成本还是不小，我相信还有其他人工成本更低的方法，大家可以集思广益。

2020年8月19日 /p/34720

菜单
mountainsea 在小组 2047 回复文章
上海市共产党员信息XLSX修复及还原【压缩包下载】

使用一个唯一uid的 [ √ 匿名发帖] 选项的问题在于无法与特定的某名匿名者在一段时间多次交流。比如主账号A使用匿名账号X和主账号B交流，这是主账号C也使用同样的匿名账号X在于主账号D交流，在同一个帖子中B和D是不能区分A和C的，会带来短暂交流混乱。我之前提出的使用短期绑定匿名账号的方法是为了解决这种情况：A绑定X_1匿名账号12小时，C绑定X_2匿名账号12小时；因为现在匿名账号可以唯一识别，那么么A和B的交流可以继续下去，C和D的交流也不会受到阻碍。

另外还有一个anti-spam工作量问题。如果只有一个uid的 [ √ 匿名发帖] ，那么如果在一段时间内出现spam，需要站长用query去查询临时记录确定这段时间是谁发了什么帖子，然后再区分特定的人在某个帖子中前后发帖的逻辑中是否存在spam的故意意图；如果有多个人使用匿名发帖，需要人工来区分那些发帖是这个特定的人发的；这个人工的成本太高。短期绑定一个匿名ID可以去掉这个识别特定的人的ID的人工成本。

2020年8月19日 /p/34718

菜单
mountainsea 在小组 2047 回复文章
上海市共产党员信息XLSX修复及还原【压缩包下载】

给自己发邀请码，就像你说的有两个问题：如果数据库没有记录，那么邀请码制度名存实亡（一只mole就可以引入万千水军）；如果数据库记录而且可查询，那么新账号和老账号之间还是直接联系，做不到匿名（就算加密数据库记录，但是这种长期记录和历史记录被解密以后还是有问题）。

关于anti-spam的东西，没有什么新意，但是现有的工具这两个链接写得不错：

https://wordpress.stackexchange.com/questions/54465/allow-anonymous-comments-but-prevent-spam

https://wpforms.com/how-to-build-spam-free-wordpress-contact-forms-the-ultimate-guide/#honeypot

我记得编程随想也试验过一些，我有点记不清了。

我自己的想法比较麻烦：1. 系统自动reserve一部分固定的匿名账号（比如，小号海1~小号海9）作为令牌；2. 有需要的用户申请令牌； 3. 在一定规则下（比如，老用户或者是管理信任的用户，或者是其他规则），系统自动同意或者拒绝申请；4. 如果同意申请，那么系统自动random给予申请者一个令牌（比如，小号海5）12小时（或者更短，或者更长），并自动生成一个密码；在这12小时中，密码有效，12小时之后，密码失效（如果用户12小时之后还需要匿名令牌，重新申请，并且random给一个新的令牌；之前的老令牌在接下来12小时内不再分配给其他人，原因在接下来的第5点）；5. 系统关联记录当前申请者主账号和得到的令牌，暂时储存在“缓存”中加密保存12+12小时（anti abuse：站长可以在这24小时内通过密匙读取，并且对令牌所有者的主账号进行处罚；当然如何确保只保存24小时，如何确保其他人不能读取可以再聊）。

固定多个匿名账号的原因有二：。首先是之前anti abuse的原因，固定的匿名账号可以短期把发帖人和原作者联系起来；其次同一个令牌可以在不同时段频繁被不同人使用，增加被标注识别的难度。

当然，这个方法也不是完美的，但是它会极大增加国宝收集training data的麻烦。而且兼顾了anti abuse。

不过也许你或者其他人能有更好的方法？我抛砖引玉了。

最后，这些东西能否成，都有一个前期，这个网站人气不错，有匿名需求的人足够多。不然，你的机制再好，没有足够喜欢匿名的人玩，最后还是所有匿名的人都是一个人，那么匿名和不匿名没什么区别了。现在我的需求不重要，你来完善网站，吸引人气更重要。等比较多的人有匿名需求，再考虑不迟。

2020年8月19日 /p/34708

菜单
mountainsea 在小组 2047 回复文章
上海市共产党员信息XLSX修复及还原【压缩包下载】

补充一下信息：这个文件是16年就发过的；资料是真实的；有一些人已经去世了。

2020年8月19日 /p/34705

菜单