新萄京3522娱乐手机版

新萄京3522娱乐手机版 专栏程学旗正文

程学旗:大新萄京3522娱乐手机版相关产学研实践后的思考

??? 程学旗先生是中科院计算所副总工、研究员、博士生导师、网络科学与技术重点实验室主任。本次程学旗带来了中国大新萄京3522娱乐手机版生态系统的基础问题方面的内容分享。大新萄京3522娱乐手机版的发展越来越快,但是对于大新萄京3522娱乐手机版的认知大都还停留在最初的阶段——大新萄京3522娱乐手机版是一类资源、一类工具,其实“大新萄京3522娱乐手机版”更多的体现的是一个认知和思维,是一种战略、认知和学问。
  
  一年多来,通过组织中国大新萄京3522娱乐手机版技术大会、CCF大新萄京3522娱乐手机版学术会议以及各类大大小小的应用峰会与学术论坛,结合大家科学院网络新萄京3522娱乐手机版科学与技术重点实验室所承担的与大新萄京3522娱乐手机版相关的重大基础课题研究以及与情报分析、互联网新萄京3522娱乐手机版分析相关的应用开发实践,我谈谈自己的一些思考。
  
  今天引导性讨论的内容可以包括三大块,包括:对大新萄京3522娱乐手机版的再认识、引擎平台系统支撑下的大新萄京3522娱乐手机版分析技术、建立大新萄京3522娱乐手机版产学研生态环境的基础性问题思考。
  
  1、关于大新萄京3522娱乐手机版的再认识
  
  大新萄京3522娱乐手机版是一个宽泛的概念,见仁见智。关于大新萄京3522娱乐手机版的概念,当前比较普遍使用的定义都与维基百科中的描述类似:“大新萄京3522娱乐手机版,指的是所涉及的资料量规模巨大到无法透过目前主流App工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。而这类定义的一个明显的局限是仅仅从大新萄京3522娱乐手机版的计算机处理视角给出的关于大新萄京3522娱乐手机版的一个特点描述。
  
  大家知道,对一门学科的认识,往往是从分类开始的。就像达尔文提出进化论,原始的动机就是将从全世界观察到的动物和植物进行划分,形成体系。在分类体系上进行提炼,最终形成了一个全新的世界观和认识论。大家现在所关注的网络大新萄京3522娱乐手机版、金融大新萄京3522娱乐手机版、科学大新萄京3522娱乐手机版等相关领域的问题,正像欧洲文艺复兴开始的的时候那样,从不同领域观察现象,挖掘价值,而最终大家可能能够发现本质,形成全新的“新萄京3522娱乐手机版认识论”,从而产生本质性的价值效应。
  
  我个人认为,“大新萄京3522娱乐手机版”更多的体现的是一个认知和思维,它与钱学森先生提倡的“大成智慧学”的要义非常接近。钱老将“大成智慧”翻译成“WisdominCyberspace”,强调“必集大成,才能得智慧”。大新萄京3522娱乐手机版从内涵来看的四个V的特性,体现出来的是大量的“零金碎玉”,相互之间还有关联性和作用力,但是局部看都非常零散、价值不明显。所以有了新萄京3522娱乐手机版,不等于就有价值、出智慧,出智慧的关键在“集”。大新萄京3522娱乐手机版中包括的全部事实、经验、信息都是“集”的对象和内容。采集到的原始新萄京3522娱乐手机版往往是些没有什么逻辑,不一定能直接用现在掌握的科学技术说明,需要集成融合各个侧面的新萄京3522娱乐手机版,才能挖掘出前人未知的大价值。每一种新萄京3522娱乐手机版来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始新萄京3522娱乐手机版的相互关联之中。只有融合、集成各方面的原始新萄京3522娱乐手机版,才能反映事物的全貌。开展大新萄京3522娱乐手机版研究和应用,因此,大新萄京3522娱乐手机版不仅仅是一类资源、一类工具,而是一种战略、认知和学问,要大力推广和树立“新萄京3522娱乐手机版方法论”、“新萄京3522娱乐手机版价值观”。
  
  当然,大家既要抬头看路,更要脚踏实地。因此,在大新萄京3522娱乐手机版概念满天飞的时候,大家既要抓住时机,挖掘价值,还要思考本质,不在混乱的时候迷失方向!
  
  从业界来看,当前大新萄京3522娱乐手机版系统有三个明显的特点与大家2013年底发布的十大趋势相关!
  
  【1】大新萄京3522娱乐手机版的高效深度分析需要专用化的系统
  
  在应用新萄京3522娱乐手机版快速增长的背景下,为了降低成本获得更好的能效,大新萄京3522娱乐手机版系统需要逐渐摆脱传统的通用技术体系,趋向专用化的架构和处理技术。这方面,国内百度、alibaba和Tencent三大互联网巨头做出了尝试并取得了很好的效果。众所周知,百度的大新萄京3522娱乐手机版典型应用是中文搜索,alibaba的大新萄京3522娱乐手机版典型应用是基于交易日志分析的新萄京3522娱乐手机版服务,Tencent的大新萄京3522娱乐手机版典型应用是图片新萄京3522娱乐手机版存储和基于用户行为的广告实时推荐。百度去年底成立专门的大新萄京3522娱乐手机版部门,旨在深度挖掘大新萄京3522娱乐手机版的价值。alibaba已将不同业务部门的大新萄京3522娱乐手机版技术整合在一起为新萄京3522娱乐手机版产品提供统一的服务。Tencent的新萄京3522娱乐手机版平台部正在将全企业的新萄京3522娱乐手机版纳入统一管理平台。alibaba在技术上与开源社区结合得最为紧密;Tencent大新萄京3522娱乐手机版目前正在向开源技术靠拢;百度在技术层面偏好自行研发,包括软硬件定制化方案也是最先投入实用。技术上,他们的共同之处是,不再依赖传统的IOE,而基于开源系统(如Hadoop等)开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统。
  
  【2】大新萄京3522娱乐手机版处理架构多样化模式并存
  
  当前,克隆了谷歌的GFS和MapReduce的ApacheHadoop自2008年以来逐渐被互联网企业所广泛接纳,并成为大新萄京3522娱乐手机版处理领域的事实标准。但2013年出现的Spark作为一匹黑马终结了这一神话,大新萄京3522娱乐手机版技术不再一家独大。由于应用不同导致Hadoop一套App系统不可能满足所有需求,在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出现并不是取代Hadoop,而是扩大了大新萄京3522娱乐手机版技术的生态环境,促使生态环境向良性化和完整化发展。今后在非易失存储层面、网络通信层面、易失存储层面和计算框架层面还会出现更多、更好和更专用化的App系统。
  
  【3】实时计算逐步受到业界关注
  
  谷歌于2010年推出了Dremel,引领业界向实时计算迈进。实时计算是针对MapReduce这种批量计算的性能问题提出的,可分为流式计算和交互式分析计算两种模式。在大新萄京3522娱乐手机版背景下,流式计算源于服务器日志的实时采集,如脸书开源的Scribe是分布式日志收集系统,ApacheFlume是类似的系统。ApacheKafka是高吞吐率的分布式消息系统,特点是高通量和容错。Storm是容错的分布式实时计算系统,可以可靠的处理流式新萄京3522娱乐手机版并进行实时处理,单机性能可达到百万记录每秒。Storm可集成ApacheKafka作为其队列系统。作为批量计算的补充,交互式分析计算的目标是将PB级新萄京3522娱乐手机版的处理时间缩短到秒级。ApacheDrill是开源的Dremel实现,虽已有应用但尚不成熟。由Cloudera主导的Impala也参照Dremel实现,同时还参考了MPP的设计思想,目前已经接近实用阶段。Hortonworks主导开发了TEZ/Stinger,TEZ是运行在YARN(Hadoop2.0的资源管理框架)上的DAG计算框架,而Stinger是下一代的Hive。2013年底,由脸书开源的Presto分布式SQL查询引擎可对250PB以上的新萄京3522娱乐手机版进行交互式分析,比Hive的性能高出10倍。类似的Shark是Spark上的SQL实行引擎,得益于Shark的列存储和Spark的内存处理等特性,Shark号称可以比Hive的性能提高100倍。
  
  2、系统支撑下的大新萄京3522娱乐手机版分析技术
  
  【1】内容分析与深度学习
  
  要挖掘大新萄京3522娱乐手机版的大价值必然要对大新萄京3522娱乐手机版进行内容上的分析与计算。这其中一个核心问题是如何来对新萄京3522娱乐手机版的进行有效表达、说明和学习,无论是对图像、声音还是文本新萄京3522娱乐手机版。传统的研究也有很多新萄京3522娱乐手机版表达的模型和方法,但通常都是较为简单或者浅层的模型,不能获得好的学习效果。大新萄京3522娱乐手机版的出现提供了使用更加复杂的模型来更有效地学习新萄京3522娱乐手机版表征、说明新萄京3522娱乐手机版的机会,深度学习就是这样一个研究领域,它已经在计算机视觉、语音识别等应用取得了成功。在国际上,MicroSoft将RBM和DBN引入语音识别中,使得错误率相对减低30%;谷歌的深度学习系统(DistBelief)在获取数百万YouTube视频新萄京3522娱乐手机版后,能够精准地识别出这些视频的关键元素猫。在国内,2011年科大讯飞首次将DNN技术运用到语音云平台,并提供给开发者使用,并在讯飞语音输入法和讯飞口讯等产品中得到应用。百度成立了IDL(深度学习研究院),专门研究深度学习算法,目前已有超过8项深度学习技术在百度产品上线。深度学习对百度影响深远,在语音识别、OCR识别、人脸识别、图像搜索等应用上取得了突出效果。此外,国内其它企业如搜狗、云知声等纷纷开始在产品中使用深度学习技术。
  
  【2】常识计算
  
  基于大新萄京3522娱乐手机版的常识计算是大新萄京3522娱乐手机版分析的基础。当前,基于开放网络大新萄京3522娱乐手机版构建常识库是国内外工业界开发和学术界研究的一个热点。世界各国各个组织建立的常识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的常识库或应用系统有KnowItAll,TextRunner,NELL,Probase,atori,PROSPERA,SOFIE以及一些基于维基百科等在线百科常识构建的常识库DBpedia,YAGO,Omega,WikiTaxonomy。除此之外,一些着名的商业网站、企业和政府也发布了类似的常识搜索和计算平台,如Evi企业的TrueKnowledge常识搜索平台美国官方政府网站Data.gov,Wolfram的常识计算平台wolframalpha,谷歌的常识图谱(Knowledgegraph),脸书推出的类似的实体搜索服务graphsearch等。在国内,中文常识图谱的构建与常识计算也有大量的研究和开发工作。代表性工作有中科院计算所的基于OpenKN(开放常识网络)的“人立方、事立方、知立方”系统,中科院数学院陆汝钤院士提出的知件(Knowware),上海交通大学构建的中文常识图谱平台zhishi.me,百度推出的中文常识图谱搜索,搜狗推出的知立方平台,复旦大学GDM实验室推出的中文常识图谱展示平台等。
  
  【3】在线社会计算
  
  社会媒体计算是大新萄京3522娱乐手机版分析的典型应用之一。以脸书、Twitter、新浪微博等为代表的社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,人的互联成为信息互联的载体和信息传播的媒介,社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的作用,成为一类重要信息载体。正因如此,当前社会媒体计算无论在学术圈和工业界都备受重视,大家关注的问题包括有对社交网络的分析、网络信息传播的内在机理以及社会媒体中的信息检索与挖掘(包括用户搜索、用户关系挖掘、话题发现、情感分析等)。在这些面向社会媒体计算的研究中,面对的社交网络是一个异常庞大、关系异质、结构多尺度和动态演化的网络,通常有亿级的节点,几十亿条连边,对它的分析、建模和计算不仅需要提出适配这样的复杂网络的关系抽象、结构建模和演化计算方法,更关键的也是更基础的是需要支撑这样大规模网络结构的图新萄京3522娱乐手机版存储和管理结构,以及高性能的图计算系统结构和算法,这也催生了当前很多图新萄京3522娱乐手机版库和图计算平台的产生(如neo4j,GraphLab等)
  
  【4】可视化成为大新萄京3522娱乐手机版分析的热点
  
  大新萄京3522娱乐手机版引领着新一波的技术革命,对大新萄京3522娱乐手机版查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要,决定着大新萄京3522娱乐手机版应用的成败。越来越多的企业在直面纷繁的海量新萄京3522娱乐手机版冲击时面露难色。一个原因是因为新萄京3522娱乐手机版容量巨大,类型多样,新萄京3522娱乐手机版分析工具面临性能瓶颈。另一原因在于,新萄京3522娱乐手机版分析工具通常仅为IT部门熟练使用,缺少简单易用、让业务人员也能轻松上手实现自助自主分析即时获取商业洞察的工具。因此,新萄京3522娱乐手机版可视化技术正逐步成为大新萄京3522娱乐手机版时代的显学。对大新萄京3522娱乐手机版进行分析以后,为了方便用户理解也需要有效的可视化技术,这其中交互式的展示和超大图的动态化展示值得重点关注。如果一个机构尝试迈向大新萄京3522娱乐手机版模式,那么一定要有相当分量的新萄京3522娱乐手机版可视化投入。
  
  总结:系统支撑下的大新萄京3522娱乐手机版分析技术,从学界的关注点以及业界的突破点来看,当前可以总结为四个特点:“深度学习提高精度”、“常识驱动提高深度”、“社会计算与仿社会计算促进认知”、“可视化与分析算法互为因果”。当然,新萄京3522娱乐手机版分析技术解决的问题还是如何有效的挖掘和利用新萄京3522娱乐手机版价值。
  
  3、关于中国大新萄京3522娱乐手机版生态系统的基础问题思考
  
  【1】建立良性生态环境的目标
  
  针对国家安全、社会经济等领域的新萄京3522娱乐手机版化生存与竞争的需求,大家需要切实解决网络化新萄京3522娱乐手机版社会与现实社会缺乏有机融合、互动以及协调机制的难题,形成大新萄京3522娱乐手机版感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统,达到大幅度提高新萄京3522娱乐手机版消费指数、新萄京3522娱乐手机版安全指数,降低新萄京3522娱乐手机版能耗指数等目标。大家认为,建立良性的大新萄京3522娱乐手机版生态系统是有效应对大新萄京3522娱乐手机版挑战关键问题,需要科技界、产业界以及政府部门在国家政策的引导下共同努力,通过转变认识、消除壁垒、建立平台,突破技术瓶颈等途径,建立可持续、和谐的大新萄京3522娱乐手机版生态系统。
  
  【2】评价先行,提出考量大新萄京3522娱乐手机版生态的三大指数,包括新萄京3522娱乐手机版消费指数、新萄京3522娱乐手机版能效指数、新萄京3522娱乐手机版安全指数。
  
  1)新萄京3522娱乐手机版消费指数:
  
  新萄京3522娱乐手机版消费指数是指使用或者消费的新萄京3522娱乐手机版占产生的新萄京3522娱乐手机版的比例,旨在衡量新萄京3522娱乐手机版消费的能力。当前由大新萄京3522娱乐手机版引发的新产品、新服务、新业态大量涌现,不断激发新的消费需求,成为日益活跃的消费热点。然而,新萄京3522娱乐手机版消费指数受到多方面发展状态的制约,包括新萄京3522娱乐手机版开放和互通程度、大新萄京3522娱乐手机版分析技术、智能访问终端的普及、新萄京3522娱乐手机版服务基础设施的建设、新萄京3522娱乐手机版服务新兴产业的发展等等。当前大新萄京3522娱乐手机版消费指数低,美国NSA声称只是扫描1.6%的全球网络流量(约29.21PB),分析其中0.025%的新萄京3522娱乐手机版来支撑其分析和决策。我国新萄京3522娱乐手机版消费面临基础设施支撑能力有待提升、产品和服务创新能力弱、市场准入门槛高、行业壁垒严重、机制不适应等问题,亟需采取措施予以解决。
  
  2)新萄京3522娱乐手机版能效指数:
  
  新萄京3522娱乐手机版能效指数是指大新萄京3522娱乐手机版处理中的价值能耗比例,是衡量大新萄京3522娱乐手机版价值获取的绿色指数。当前面对大新萄京3522娱乐手机版,通常采取基于新萄京3522娱乐手机版中心的粗放式的分析处理和价值提炼方式,导致新萄京3522娱乐手机版能效低下。
  
  一方面,由于缺乏适应大新萄京3522娱乐手机版的计算模式,往往采取集中式全量处理方式,导致新萄京3522娱乐手机版处理效率低,获取单位价值所需的新萄京3522娱乐手机版规模非常庞大,形成了大新萄京3522娱乐手机版价值密度低的现象;另一方面,为了适应大新萄京3522娱乐手机版爆炸式的增长,新萄京3522娱乐手机版中心存储系统的容量、扩展能力、传输瓶颈等方面面临巨大挑战,直接结果就是新萄京3522娱乐手机版中心的能耗越来越大。有关调查显示在过去5年全球新萄京3522娱乐手机版中心的能耗增长率是56%,我国对新萄京3522娱乐手机版中心流量处理能力的需求增长更快,新萄京3522娱乐手机版中心能耗的问题就更加突出。目前国内新萄京3522娱乐手机版中心的PUE平均值基本都在2.5以上,与欧美地区的PUE(能源使用效率)普遍值1.8以下还存在着较大的差距。且目前其全球的新萄京3522娱乐手机版中心50%是完全用自然冷却的,前十大新萄京3522娱乐手机版中心的PUE都在1.2以下。因此新萄京3522娱乐手机版能效指数是在大新萄京3522娱乐手机版发展中必须面对的,关乎国家能源消耗的重要指数。
  
  3)新萄京3522娱乐手机版安全指数:
  
  新萄京3522娱乐手机版安全指数包括了新萄京3522娱乐手机版从创建、传输、存储到分析的全生命周期的安全指标,旨在衡量新萄京3522娱乐手机版安全、隐私保护等方面的能力。新萄京3522娱乐手机版安全是一个囊括个人,企业和国家的全方位的大新萄京3522娱乐手机版安全体系。从个人层面,大新萄京3522娱乐手机版对于隐私将是一个重大挑战,哈佛大学近期的一项研究显示,只要知道一个人的年龄、性别和邮编,从公开的新萄京3522娱乐手机版库中便可识别出该人87%的身份。对于企业,新萄京3522娱乐手机版作为一种资产,其安全保护问题十分重要,随着大新萄京3522娱乐手机版的不断增加,对新萄京3522娱乐手机版存储的物理安全性要求会越来越高,从而对新萄京3522娱乐手机版的多副本与容灾机制提出更高的要求。而在国家层面,来自外部的威胁在大新萄京3522娱乐手机版时代显然比以往更加突出和危险。举世瞩目的“维基解密”和“棱镜”事件生动昭示着大新萄京3522娱乐手机版的严酷挑战。“维基解密”几次泄露美国军事外交等机密,规模之大,影响之广,震惊全球。“棱镜”事件向全世界曝光出网络空间国家与个人,国家与国家之间的安全对抗。因此评估新萄京3522娱乐手机版安全指数,有利于推动大新萄京3522娱乐手机版安全体系的完善,提升国家、社会和个人的信息安全。
  
  1.如何建立支撑新萄京3522娱乐手机版密集型科学发现新范式的基础设施:这包括了建立一系列通用的工具,以支撑从新萄京3522娱乐手机版采集、验证到管理、分析和长期保存等整个流程,支撑跨工具、跨项目、跨领域的新萄京3522娱乐手机版共享与整合,将是支撑新萄京3522娱乐手机版密集型科学发现的基础问题。
  
  2.如何建立新萄京3522娱乐手机版全生命周期的计算模型:研究以新萄京3522娱乐手机版为中心的新型计算架构,将计算推送到新萄京3522娱乐手机版从获取、存储、处理、交换到服务的全生命周期的各个部分,研究新萄京3522娱乐手机版全生命周期中不同计算之间的关联、互动和共享机制,在提高新萄京3522娱乐手机版消费能力的同时有效降低新萄京3522娱乐手机版计算能耗,形成新萄京3522娱乐手机版安全体系,这是大新萄京3522娱乐手机版计算的关键问题。
  
  3.如何完成新萄京3522娱乐手机版资产化和形成新萄京3522娱乐手机版资产流转体系:亟需建立新萄京3522娱乐手机版资产化的基本标准,让不同机构、不同领域的新萄京3522娱乐手机版形成规范化资产;建立新萄京3522娱乐手机版资产访问、连接和共享机制,搭建新萄京3522娱乐手机版资产交易平台,形成新萄京3522娱乐手机版流转的层次化体系结构;研究新萄京3522娱乐手机版资产的所有权、使用权以及价值评估体系,通过市场化模式保障新萄京3522娱乐手机版资产流转的可行性。
分享:
延伸阅读
    贵州

    贵州大新萄京3522娱乐手机版产业政策

    贵州大新萄京3522娱乐手机版产业动态

    贵州大新萄京3522娱乐手机版企业

    更多
    企业
    更多
    XML 地图 | Sitemap 地图