大数据学习心得

2025-02-19

大数据学习心得 篇1

  奥伦·艾奇奥伦(Oren Etzioni)创立的从文本中挖掘信息的公司ClearForest,已经被路透社收购。

  美国股市每天成交量高达70亿股,而其中三分二的交易都是由建产在数学模型和算法之上的计算机程序自动完成的。

  farecast经过了20xx年立项,到20xx年被收购。经历了5年的时间,数据从最早了120xx条到20xx亿条。

  大数据的平台有:谷歌的MAPREDUCE 和开源HADOOP平台(最初源于雅虎)。NOSQL更优先于MYSQL.

  大数据所用的数据记录单位:拍字节PB(2的50次方)和艾字节EB(2的60次方),泽字节ZB (2的70次方),太字节TB。1EB=10亿GB。1ZB=1024EB

  20xx年,所有数据中只有7%是存储在报纸、书籍、图片等媒价上的模拟数据,其余全部是数字数据。

  20xx年世界上存储的数据预计能达到约1.2泽字节,其中非数字数据只占不到2%。

  人类存储信息量的增长速度比世界经济的增长速度快4倍。而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。

  大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因。

  大数据的算法从因果关系向相关关纱转化。这也是思维方式的转变。

  推荐电影《点球成金》MONEYBALL

  大数据的三个思维方式:

  1、不要依靠分析少量的数据样本,不要抽样调查。要分析与某事物相关的所有数据。

  2、不要追求精确性,要乐于接受纷繁复杂的数据。

  3、不要探求难以捉摸的因果关系,转而关注事物的相关关系。

  大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。

  LYTOR相机(光场相机)就是对拍照场景的应用。将传统相机的拍摄照片的样本进行全收集,成为样本=总体的应用代表。

  意外的案例:

  如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效,但却不会解体。但是如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网奶快就会破碎成很多的小块。节点的做用。

  社交网络的多样性是有额外价值的。这是一个人在社会关系网中的存在价值。

  互联网可以使数据达到精确吗?只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下的95%的非结构化数据都无法被利用。只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

  数据与算法那个更重要呢?简单的算法+大数据,还是复杂的算法+小数据。结论就是大数据比算法智能系统更重要。

大数据学习心得 篇2

  大数据时代已经悄然到来,如何应对大数据时代带来的挑战与机遇,是我们当代大学生特别是我们计算机类专业的大学生的一个必须面对的严峻课题。大数据时代是我们的一个黄金时代,对我们的意义可以说就像是另一个“80年代”。 在讲座中秦永彬博士由一个电视剧《大太监》中情节来深入浅出的简单介绍了“大数据”的基本概念,并由“塔吉特”与“犯罪预测”两个案例让我们深切的体会到了“大数据”的对现今这样一个信息时代的不可替代的巨大作用。

  在前几年本世纪初的时候,世界都称本世纪为“信息世纪”。确实在计算机技术与互联网技术的飞速发展过后,我们面临了一个每天都可以“信息爆炸”的时代。打开电视,打开电脑,甚至是在街上打开手机、PDA、平板电脑等等,你都可以接收到来自互联网从世界各地上传的各类信息:数据、视频、图片、音频……这样各类大量的数据累积之后达到了引起量变的临界值,数据本身有潜在的价值,但价值比较分散;数据高速产生,需高速处理。大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。遂有了“大数据”技术的应运而生。

  现在,当数据的积累量足够大的时候到来时,量变引起了质变。“大数据”通过对海量数据有针对性的分析,赋予了互联网“智商”,这使得互联网的作用,从简单的数据交流和信息传递,上升到基于海量数据的分析,一句话“他开始思考了”。简言之,大数据就是将碎片化的海量数据在一定的时间内完成筛选、分析,并整理成为有用的资讯,帮助用户完成决策。借助大数据企业的决策者可以迅速感知市场需求变化,从而促使他们作出对企业更有利的决策,使得这些企业拥有更强的创新力和竞争力。这是继云计算、物联网之后IT产业又一次颠覆性的技术变革,对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。后工业社会时代,随着新兴技术的发展与互联网底层技术的革新,数据正在呈指数级增长,所有数据的产生形式,都是数字化。如何收集、管理和分析海量数据对于企业从事的一切商业活动都显得尤为重要。

  大数据时代是信息化社会发展必然趋势,我们只有紧紧跟随时代发展的潮流,在技术上、制度上、价值观念上做出迅速调整并牢牢跟进,才能在接下来新一轮的竞争中摆脱受制于人的弱势境地,才能把握发展的方向。

  首先,“大数据”究竟是什么?它有什么用?这是当下每个人初接触“大数据”都会有的疑问,而这些疑问在秦博士的讲座中我们都了解到了。“大数据”的“大”不仅是单单纯纯指数量上的“大”,而是在诸多方面上阐释了“大”的含义,是体现在数据信息是海量信息,且在动态变化和不断增长之上。同时“大数据”在:速度(Velocity)、多样性(Variety)、价值密度(Value)、体量(Volume)这四方面(4v)都有体现。其实“大数据”归根结底还是数据,其是一种泛化的数据描述形式,有别于以往对于数据信息的表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据信息、社交媒体上的数据信息、购物网站上的用户数据信息、规模超过TB级的数据信息等。

  了解了“大数据”的“大”之后我们也该了解它所具有的巨大价值。就目前来说“大数据”的来源主要还是互联网,来自互联网上的大多数不被重视信息都是具有巨大开发价值的,

  其具有巨“大”的商业价值,我们所缺少的只是一些数据分析等手段。例如:在如今,网购已经成为了一种风潮,网上也涌现了以淘宝、京东、亚马逊等一系列的购物网站。而在这些网站之中,顾客的浏览记录,购买记录等等都是一些巨大商业价值的信息。借鉴“塔吉特”的先例,我们可以利用“大数据”技术收集分析,就可预测需求、供给和顾客习惯等,做到精准采购、精准投放,达到利益放大的效果。 从全球范围来看,很多人都把20xx年看做是大数据时代的元年。在这一年里,很多行业在大数据方面的管理、规划和应用已经觉醒。电商、金融、电信等行业数据有着长期的数据积累。事实上,很多互联网公司,例如亚马逊、Google、腾讯,更愿意将自己定位为数据企业。因为信息时代,数据成为经营决策的强有力依据,给企业带来了发展和引领行业的机遇。银行也同样拥有丰富的数据矿藏,不仅存储处理了大量结构化的账务数据,而且随着银行渠道快速渗透到社交网络、移动端等媒介,海量的非结构化数据也在等待被收集和分析。未来的金融业将更多地受到科技创新力的驱动,也越来越倾向于零售营销:对于金融业来说,大数据意味着巨大的商机,可强化客户体验,提高客户忠诚度。大数据技术的发展带来企业经营决策模式的转变,驱动着行业变革,衍生出新的商机和发展契机。驾驭大数据的能力已被证实为领军企业的核心竞争力,这种能力能够帮助企业打破数据边界,绘制企业运营全景视图,做出最优的商业决策和发展战略。金融行业在大数据浪潮中,要以大数据平台建设为基础,夯实大数据的收集、存储、处理能力;重点推进大数据人才的梯队建设,打造专业、高效、灵活的大数据分析团队;不断提升企业智商,挖掘海量数据的商业价值,从而在数据新浪潮的变革中拔得头筹,赢得先机

  在如此快速的到来的大数据革命时代,我们还有很多知识需要学习,许多思维需要转变,许多技术需要研究。职业规划中,也需充分考虑到大数据对于自身职业的未来发展所带来的机遇和挑战。当我们掌握大量数据,需要考虑有多少数字化的数据,又有哪些可以通过大数据的分析处理而带来有价值的用途?在大数据时代制胜的良药也许是创新的点子,也许可以利用外部的数据,通过多维化、多层面的分析给我们日后创业带来价值。借力,顺势,合作共赢。把自己的心门打开,像海绵般吸取积极、正能量的东西。

大数据学习心得 篇3

  在学习这门课的过程中,在对数据库的了解过程中,慢慢对数据库有了感观。数据库这一词并不是很难想象,并不是像外人看来很神奇。作为计算机专业的学生,这样的专业术语或者专业知识是最基本的。

  学习的时候没有想象中的那么难,只要上课能听懂就基本还可以。但是问题还是出在书本有点厚,有的时候上课的内容都要找很久才能找到,甚至有的时候老师讲的知识书本上是找不到的,是另外补充而且是相当重要的内容。有的时候开小差,没有听到老师讲的知识点,这就导致了以后的学习无法顺利进行,使得学习起来十分困难。所以在数据库这门课的学习中,上课一定要听牢,就像老师说的那样,这样的专业课如果想凭考试前几天突击是行不通的,必须是日积月累的知识才能取得好成绩。

  通过对数据库的学习,我也明白了各行各业都离不开数据库,就算是一个小型的超市也离不开它。可见数据库这门课的广泛性,如果能够认真学好它将来必有成就。我就是抱着这种信念去学习数据库的。第一次接触数据库,第一次接触SQL语言,虽然陌生,但是可以让我从头开始学,就算没有基础的人也可以学得很好。刚开始练习SQL语言的时候,并不是很难,基本上都是按照老师的步骤来做,还很有成就感。后来学了单表查询和连接查询后,就慢慢发现越学越困难了,每个题目都要思考很久,并且每个题目基本上不止一个答案,所以必须找出最优的答案。后面的删除、插入、修改这些题目都变化蛮大的,书本上的例题根本无法满足我们,好在老师给我们提供了大量的课件,通过这些PPT,我们可以巩固课内的知识,还可以学习内容相关的知识,更好地完成老师布置的作业。

  除了老师布置的一些基本作业外,还有一份大作业。就像我们小组的是杂货店的销售管理系统,在完成这一作业的过程中,我们可以通过网络实现一家杂货店。过程是很复杂的,杂货店需要员工,还有百来种商品,不仅需要大量的数据,还要完成需求说明,数据词典,还有E-R图等,虽然想象起来并不是很难,但是要转化成文字,转化成人们能够读懂的文字就显得十分困难。特别是一个完整的销售系统,对我们来说都是第一次接触,在做大作业的时候经常是前面改改,后面改改,因为一些数据不能很好地对应起来,经常会遗忘一些,所以出现了这样的情况。一个完整的数据库系统也就是在这样修修改改的状态下完成的,也给了我很大的反思。第一、一个数据库的完成一定要考虑各方面的因素,包括现实因素。第二、在完成这类作业时,修修改改是很正常的,不要因此而厌倦。第三、一个完整的数据库一定不能出现错误,否则会在现实生活中带来不必要的麻烦。

  通过本学期数据库的学习及大作业的完成,很有去作项目的冲动,但深知自己的能力水平有限,还需要更多的学习。

  一、数据库主要知识点

  我们首先从第一章绪论了解了数据库的概念,其中有几个较为重要的知识点,即数据库系统DBS、数据库管理系统DBMS的概念以及数据库管理员DBA的职责。此外本章还介绍了数据库发展的三个阶段:人工管理阶段、文件系统阶段和数据库系统阶段。

  第二章

  介绍了数据模型和三层模式数据库。本章要求我们理解实体-联系方法,并学会绘制E-R图。此外还应掌握概念数据模型的意义和传统的三大数据模型,以及数据独立性和数据库三层模式结构。

  接着开始着重讲述现在普遍使用的关系数据库。包括关系数据模型的数据结构和基本术语,关系模型的完整性约束和关系代数运算。重点是关系模式完整性的分类和功能,以及关系代数中集合运算和关系运算。最后介绍了关系数据库系统的三层模式结构。

  第五章

  系统讲述关系数据库的标准语言SQL的定义功能、查询功能、操作和控制功能。重点在于数据查询功能。另外还介绍了视图的用法和动态SQL中定义、操作和查询功能。

  第六章

  知识点有:存储过程的创建和执行过程、修改和删除;触发器的基本概念,建立,插入和删除视图,插入、删除和更新类触发器。最后介绍了数据完整性。

  第七章

  介绍安全性,包括安全性措施的层次、数据库管理系统的安全功能等,用户管理和角色管理,权限管理。其他的安全问题包括:数据加密、审计、统计数据库和用户定义的安全性措施。

  事务管理这一章首先介绍了事务的概念、性质以及SQL对事务的支持。并发控制——干扰问题、可串行性、封锁、死锁、隔离级别、封锁与隔离级别;恢复——故障类型、备份类型、日志的概念、恢复模型、备份转储、还原。

  第九章

  为关系数据理论:函数依赖术语和符号;函数依赖的公理系统——

  Amstrong公理的内容及其正确性、逻辑蕴含和闭包、公理的完备性、闭包的计算、函数依赖集的等价和最小化;规范化——1NF、2NF、3NF、BCNF;模式分解。

  第十章:

  数据库设计。完善E-R模型中的概念——弱实体,依赖关系,强制联系;数据库设计的过程主要掌握其建立的步骤。

  第十一章

  介绍面向对象数据库:新的数据库应用和新的数据库类型;面向对象的数据模型——对象与类;对象的属性、方法和状态、对象的交互和消息、类的确定和分化、封装、继承、多态;对象关系数据库与对象数据库;面向对象数据库的研究。

  第十二章

  “数据库应用的结构和开发环境”并非重点,而第十三章的内容在软件工程课程中就已经掌握,所以这两章的知识点就略过了。 第十四

  章分布式数据库与分布式数据管理:概念;分布式数据库的分布方式;分布式数据库特点和目标——更新传播、分布式查询处理、目录表管理、分布式事务管理;SQLServer的复制及其术语、复制模型。 第十五章

  数据仓库:概念;结构;数据仓库系统;建立数据仓库系统;实现数据仓库的数据库模型;数据仓库与决策支持。