想象一下当你在一家超市购物时,发现着苹果,麦片,洗发水等商品都放在看起来长得一模一样的存储箱里。毫无疑问,购物绝对会成为一个噩梦!
大多数开放式数据网站的设计(通常是政府)就是这样。这些网站将与人口普查,经济和其他方面相关的数据随意放置和分类。虽然他们不完全等同于那噩梦般的超市,但也可以说是相当接近了。
在过去的十年里,这类型的网站在世界各地纷纷涌现,比如美国政府大数据网站,英国政府数据网站等等。然而,它们中的大多数并没有什么实用性,因为它们传送数据仍然是简单的提供数据链接表或链接到其他网站。
在最好的情况下,数据可以通过APIs,或者应用程序接口传送,但这些都需要用户拥有编程的基础知识,了解简单的数据查询语言。所以对用户来说要明白里面哪些数据集需要下载、哪些又需要打开和探究是极其费力的和麻烦的。看来如噩梦般的超市离我们不远了。
那些想在开放式数据网站方面有新的建树的人们进行了不断地尝试,然而他们的努力目前都以失败告终,所以我们需要新的选择。当你在浏览这些网站时,你就应该会明白为什么需要了。
大多数开放式数据网站的设计十分糟糕,且不说它们的设计毫无美感,就连它们组织和向用户提供数据的方式也是极不合理的。这些网站的设计遵循的是追求量的策略,开放更多的数据成了驱动力,所以往往忽视了这些数据的质量。
当前一些开放式数据网站的设计缺陷很明显。那些重要又或者可能有用的数据集却没有放在网站的显现位置,很明显这样的组织形式是极不恰当的,这就好比在超市里,我们根本没办法分辨那些外表一样又放在一起的存储箱里面是什么物品。相信这样的数据网站并不是我们能做到的最好模式。
这些网站还有其他不太明显却又十分重要的问题。第一个是大多数网站只是纯粹的传送其收集的数据,而不是对这些数据进行分析使用。人们在这些网站搜索到的数据往往与特定地点、职业、行业,或指标(如收入或人口)有关,如果他们需要的数据来自于全国调查的X或Y局(这些情况不多),那么对用户来说就没有任何的作用。然而,即使这不是我们应该给用户反馈的数据,但我们的开放式数据网站却总数是这样做。
第二个不明显的却可能是最重要的设计问题是开放式数据网站的数据埋葬在所谓的深层网络中。深层网络只是互联网的一部分,传统的搜索引擎无法搜寻到这些网站。深层网络表面看来是由文本,图片和视频等构成。搜索引擎知道如何搜索信息,但是它并不擅长搜寻链接到解释不详的开放式数据网站中的zip文件的行17,354的逗号分隔文件。
在某些情况下,你可以按一个单选按钮,并从大量的下拉菜单中选择选项就可以得到你所需要的,但是这无助与搜索引擎,因为爬网程序不能浏览下拉菜单。要想使开放式数据网站真的公开,我们需要让它们可以搜索,因此我们要把数据放在网络表层来。
那么我们应该怎么做呢?可想而知方法绝对不可能简单,我们开始就要认真设计。在麻省理工学院的十年,我有超过一半的时间都在创建数据可视化引擎。我们现在的设计原则都体现在DataUSA中,这里的所有图表都支持外链,嵌入任何博客、新闻或者转载到Facebook,Hidalgo。
那么什么是设计呢?我们如何利用它来提高开放式数据网站的质量?我对设计的定义很简单,设计就是将功能最大化。如果它们碰巧看起来也漂亮,这当然是一个奖励。通常一个好的设计也需要美观,因为实现功能就是要把简单的美化,复杂的神秘化。在我们打开数据网站时,要想让人们理解这些数据就必须给他们探索网络的搜索引擎
到目前为止,我们创建的站点已经吸纳了多个数据集并将它们转化为故事。DataUSA吸纳了美国社区调查局,美国劳工局和统计局,经济分析局和教育部中的数据集,把这些数据变成简单易懂的图表,网站根据地区、行业、职业、教育背景做了初步的分类,你可以进入任何你想了解的部分,探索美国社会局部的详细情况。它们也提供了地图式的阅读视图,除此之外,网站上已经提供了许多现场的“故事”,大多数由团队成员和大学教授撰写。
在DataUSA中的可视化帮助人类了解超市里的每个数据盒子里是什么。如果用户想知道盒子里面是什么,他们现在可以直接下载这些数据,或通过我们的API来访问它。
但是这样的方法是否可行?在我们的经验看来答案是肯定的。OEC(TheObservatoryofEconomicComplexity)就是我们为更好的了解使用深层网络里的国际贸易数据而创建的工具。OEC现在每个月有超过50万的用户,并且用户量还在不断增加。因为它们不是把数据隐藏在深层网络中,而是通过转化为故事来供用户使用。
现在美国开放式数据网站也打算致力于这方面的发展。DataUSA表面的数据从学费费用和工资,通勤时间、疾病流行到美国公民的语言和文化水平等应有尽有。
我们的希望是让人们在数据购物中体验快乐,而不是让人郁闷,为了让给数据记者、分析师、教师和学生提供更多的数据。此外,我们也为了确保可视化效果可嵌入,因此人们可以使用它们来创建他们自己的故事。
毕竟,开放式数据网站的目的不仅仅是打开文件,而是帮助我们更全面的了解这个社会。当然我们也要清楚现在我们探索的只是深层网络的一角,以后要更加致力于其发展。