当前位置：首页> 书评> 正文

信息乌托邦《Text mining，Wikipedia和Web实验》

小小评论家
书评
2023-03-26 15:41:25
69

Text Mining把一个文本集合作为一个客观的研究对象，试图对其中的信息进行聚合，总结出不同角度的信息来。由于是让计算机来做这件事情，它的优点是效率高，可以是普通人阅读和理解的成千上万倍，但是它的理解可能既不深刻也不准确。

Wikipedia让人看到了另外一种可能性。在这里，计算机不是自己去对信息进行自动的聚合，而是建立一个公共的环境，在这么一个良性环境中，它会激励人们贡献出自己知识，激励人们互相协作来完成这种知识的聚合。无疑Wikipedia是极其成功的，没有一个Text mining算法可以做得如此之好。

在上述的两个应用中，可以看到计算机扮演的两种不同的角色：前者是一个劳动者，辛辛苦苦地做着人们希望它做的事情；后者犹如是人类社会中一个法律制度框架，一套好的制度可以鼓励人们最大程度地发挥他们的潜力。现在计算机科学的研究，更多的拿它当作一个苦劳力来用：科学计算－计算员，网络传输－火车皮，数据挖掘－数据分析员。但是，后者的作用无疑也极其巨大，是一个值得认真研究的话题。

譬如有“网络暴民”一说，我不知道它的确切含义。但是网络上的无中生有的虚假新闻，尖酸刻薄的谩骂等不良的现象是我们所司空见惯的。现在也有一定的办法来处理这些问题，譬如通过计算一个新闻的质量来评估它的真实程度，通过关键字过滤来防止谩骂和不良信息的产生。但是，这都是一种事后诸葛治标不治本的做法，能不能通过程序自动对网民行为的激励和惩罚，促使网民之间的互相监督，从而营造一个真正和谐的网络环境呢？可以由网站来试行它们的这种实验。然后其他的网站可以借鉴这种优良的经验。甚至全民的立法和政策制定部门都可以从中借鉴有益的成分。

阅读全文