您现在的位置: 范文先生网 >> 理工论文 >> 计算机信息技术 >> 正文

数据 信息与知识

时间:2007-1-18栏目:计算机信息技术

张奠成(合肥工业大学)

关键词数据发掘, 知识发现, 信息发掘, 事务智能 一 数据过剩与知识贫乏

计算机与信息技术经历了半个世纪的发展,给人类社会带来了巨大的变化与影响。支配

人类社会三大要素(能源 材料和信息)中,信息愈来愈显示出其重要性和支配力,它将人类社会由工业化时代推向信息化時代,使现代社会所有大的机构都卷入到以数据及其处理(数据搜集 存储 检索 传送 分析和表示)的浪潮中。而随着人类活动范围扩展,节奏加快,以及技术的进步,人们能以更快速较易而廉价的方式获取和存储数据,这就使得数据和信息量以指数形式向上增长。早在八十年代,人们粗略地估算到全球信息量,每隔20个月就增加班一倍。进入九十年代,各类机构所有数据库数据量增长更快。一个不大的企业每天要产生100MB以上来自各方面的营业数据。美国政府部门的一个典型的大数据库每天要接收约5TP数据量,在15秒到1分钟时间里,要维持的数据量达到300TB,存档数据达15-100PB。在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据量就达3-4TB之多,而为了研究的需要,这些数据要保存七年之久。九十年代因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPN--Virtual Private network)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋。据估计,1993年面全球数据存贮容量约为二千TP,到达2000年会增加到三百万TB,对这极度膨胀的数据信息量,人们受到“信息爆炸”“混沌信息空间”(Information Chaotic Spact)和“数据过剩”(Data glut)的巨大压力。

然而,人类的各项活动基于人类的智慧和知识,即对外部世界的观察和了解,正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到智慧,要经过分析加工处理精炼的过程。如图1所示:数据是原材料,它只是描述发生了什么事情,它不提供判断或解释,和行动的可靠基础。人们对数据进行分析找出其中关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽给出了数据中一些有一定意义的东西,但它往往和人们手上的任务没有什么关联,还不能做为判断 决策和行动的依据。对信息进行再加工,进行深入洞察,才能获得更有用可资利用的信息,即知识.所谓知识,可以定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的。”从信息中理解其模式,即形成知识。在大量知识积累基础上,总结成原理和法则,就形成所谓智慧(Wisdom).其实,一部分人类文明发展史,就是在各种活动中 知识的创造 交流 再创造不断积累的螺旋式上升的历史。另一方面,计算机与信息技术的发展,加速了这种过程,据德国世界报的资料分析,如果说19世纪时科学定律(包括新的化学分子式,新的物理关系和新的医学认识)的认识数量一百年增长一倍,到本世纪60年代中期以后,每五年就增加一倍。这其中知识起着关键的作用。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,也感到像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用.这样,相对于“数据过剩” 和“信息爆炸”,人们又感到“信息贫乏”(Information poor)"数据关在牢笼中”(data in jail).

 

二 从数据到知识

早在八十年代,人们从“物竞天择 适者生存”的大原则下,认识到“谁最先从外部世界获得有用信息并加以利用谁就是优胜者”。现时当市场经济面向全球性剧烈竞争的环境下,一家厂商的优势不在于像产品 服务 地区等方面因素,而在于创新。用知识来作为创新的原动力,就能使公司长期持续保持竞争优势。因此要能及时迅速从日积月累的庞大的数据库及网络上获取有关经营决策有关知识,这是应付客户需求易变性及市场快速变化引起竞争激烈局面的唯一武器。

针对上述情况,如何对数据与信息快速有效地进行分析加工提炼以获取所需知识并发挥其作用,向计算机和信息技术领域提出了新的挑战。其实计算机和信息技术发展的过程,也是数据和信息加工手段不断更新和改善的过程。早年受技术条件限制,一般用人工方法进行统计分析,和用批处理程序进行汇总和提出报告.在当时市场情况下,月度和季度报告已能满足决策所需信息要求。随着数据量的增长,多渠道数据源带来各种数据格式的不相容性,为了便于获得决策所需信息,就有必要将整个机构内的数据以统一形式集成存储在一起,这就是所谓数据仓库(data Warehousing).它不同于只适用于日常工作的数据库.它是为了便于分析针对一定主

[1] [2] [3] [4] [5] [6] 下一页

下页更精彩:1 2 3 4 下一页