“大数据”这个词听起来并不陌生,新冠疫情以来,我们真真切切地感受到了大数据技术无处不在,每个人的每一个行为、每一次位移、每一笔交易、甚至身体生理数据每一点的变化,都成为了可被记录和分析的数据。到底什么是大数据?大数据并不是一个确切的概念。最初,这个概念是指需要处理的信息量过大,也就是我们常说的海量数据,这种数据量级已经超出了一般电脑所能使用的内存量,因此工程师们必须改进处理数据的工具,这就导致了新的处理技术的诞生(也就是“云计算”)。而现在,大数据已成为人们获得新的认知、创造新的价值的源泉;大数据同样也是改变市场、组织机构,以及政府和公民关系的方法。
《大数据时代——生活、工作与思维的大变革》的第一作者维克托·迈克-舍恩伯格,是大数据领域最受人尊敬的权威发言人之一,被誉为“大数据时代的预言家”。这本书从思维、商业和管理三个方面分析了大数据给我们这个时代带来的变革。
一、思维变革:量变引发质变
在数字化时代,数据处理变得更加容易、快速,人们能瞬间处理成千上万的数据,量的变化引发了质的改变,我们对数据的思维也有了根本性的转变。
一是获取数据的范围从随机样本拓展到全体数据。在很长一段时间,准确分析大量数据都是一种挑战,随机采样、抽样的小数据时代一直持续到现在。如今,信息处理能力飞速发展,计算机可以处理各类传感器、智能手机、网站点击、GPS定位等收集的大量数据。当我们可以获得海量数据并且可以处理,那么采样就没什么意义了。
二是使用数据的标准从精确性转向混杂性。大数据时代,我们开始接受甚至欢迎“混乱”。现实生活中,只有5%的数据是结构化并且能适用于传统数据库的。(这里说的结构化数据是能够用数据或统一的结构表示的数据,也就是我们常说的数据库;而另一类信息如文本、图像、声音、网页等无法用数字或统一的结构表示的数据我们称之为非结构化数据。)如果不接受混乱,那么剩下的95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。“大数据”通常用概率说话,而不是“确凿无疑”的。我们要习惯用这种思维去思考看待大数据,允许其中的错误率、格式的不一致。
三是分析数据的目的从因果关系变为相关关系。在大数据时代,我们不再探求“为什么”,只要知道“是什么”就足够了。换句话说就是我们不必非得知道现象背后的原因是什么,为什么会发生,而是要让数据自己“发声”。依赖的是数据间的相关关系,而不是因果关系。它告诉你的是会发生什么而不是为什么发生。
二、商业变革:一切皆可量化
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术的变革日新月异,但一直以来信息技术变革的重点在技术(Technology)上,现在是时候聚焦在信息本身(Information)了。谈到这,不得不提到最近一直很受关注的TikTok(字节跳动)收购,之所以美国这么针对TikTok,就是和它的核心算法以及海量数据分不开的。举个简单的例子,我们在抖音点开了一条美食视频,后续就会经常给你推相关的美食视频。这就是最简单的大数据分析的结果。我们继续聊回《大数据时代》这本书,在商业变革这一部分介绍了日本、美国等国在各领域大数据技术的应用和研究。比如坐姿研究与汽车防盗系统、数字图书馆、移动运行商与数据再利用、谷歌街景与GPS采集、在线教育课程、找到最适合阅读的论坛帖子等等。万物皆可量化,数据就像一个神奇的矿藏,当它的首要价值被发觉后仍能不断给予。它的价值并不仅限于特定的用途,它可以为了统一目的而被多次使用,也可以用于其他的目的。数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
三、管理变革:兴利必须除弊
天下万事,有一利必有一弊。在大数据时代,我们时刻都暴露在“第三只眼”之下,电商监视着我们的购物习惯,搜索引擎监视着我们的网页浏览习惯,社交工具更是对我们的喜好、社交网了如指掌。随着存储成本的下降分析工具越来越先进,数据的存储和处理都变得越来越便捷。如何兴利除弊,减少大数据给我们带来的威胁和风险将是管理的重点。作为信息的管理者需要做到责任与自由并举,人们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。大数据早已经在推动我们去重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁。
通读《大数据时代——生活、工作与思维的大变革》一书可知,大数据时代是名副其实的“信息社会”,大数据技术正重塑着我们的生活、工作和思维方式。在抗疫斗争中,大数据技术为新冠的防治贡献了自己独特的力量,在背后默默地为防控和救治等各个领域提供了重要的决策支持。比如通过对每个用户基于运营商定位的位置轨迹数据,得到全国人口流动的情况,有助于预测密切接触人员的分析,对疫情形势判断和防疫部署提供了数据依据。通过对居民的用电情况进行分析,可以判断出社区居住的具体情况,精准判断出区域内人员日流动量和分布,可以监控居民短暂和长期外出、举家返回、隔离人员异动等情况,对社区的防疫具有重要参考价值。通过5000多个病例的CT影像样本大数据,学习训练样本的病灶纹理,针对新冠肺炎临床诊断研发了一套全新AI诊断技术,在20秒内准确地对新冠疑似案例CT影像做出判读,分析结果准确率达到96%,大幅提升诊断效率。节约了大量的诊断时间,在医疗资源不足的情况下,为临床医生节约了大量时间。在6月份北京出现的疫情,也正是大数据技术的运用使得第一位感染者确诊后不到22个小时锁定新发地,迅速阻断疫情,并且最终在30天结束了北京的这次疫情。
基于现在大数据时代的背景,我们信息中心也一直在思考全国政协“大数据”从何而来,如何应用等问题。全国政协的大数据是围绕委员履职的全量信息数据,主要来源为两部分:一是委员履职产生的数据,例如提案、会议发言、履职app的主题议政、主题读书发言、社情民意、工作简报、调研报告、视察报告、会议出勤等信息;二是为委员履职提供的各类参阅材料,例如政府工作报告、各部位公开的信息、政策法规、国家图书馆文献资料和关于经济社会发展热点的公开来源信息等。基于全国政协委员履职多源异构大数据,通过整理整合各类信息资源孤岛,全面提升政协数据的利用水平,对数据进行综合管理、分析挖掘和深度应用,创造新价值,提升新能力。让数据自己“发声”,为领导决策提供支持和依据,为委员履职提供精准化服务,为机关工作提质增效。
全国政协的信息化刚刚起步,还有很多的工作等着我们去做。以委员履职app为例,对主题议政和主题读书群内的发言进行规范化、标签化处理,依托自然语言处理、知识图谱、云计算、深度学习等人工智能技术,对数据进行深度分析处理,促进数据广泛应用;实现发言自动摘编和汇编、提案智能关联推送、政策走向及符合性等多维度分析,建立“智慧政协”体系。
将委员履职产生的数据、服务委员履职的外源数据集成汇聚,形成全国政协大数据中心和知识平台。分析委员关注热点,有针对性的为委员履职推送相关参阅材料,实现精准化服务等都是我们努力和研究的方向。
大数据是一种资源,也是一种工具。在现在的大数据时代,技术日新月异,数据隐藏的信息源源不断地被分析挖掘。大数据改造着我们的生活,但大数据本身并不是一个算法加机器的冰冷世界,它仍然是围绕人类发生作用的,人类才是最大的数据源!
公众号:pcren_cn(长按复制)
评论