bigdata_猿客奇谈

对码当歌，猿生几何?

#最热 #最新

五个改变生活的大数据实践项目

大数据从前几年计入人们的视野开始，每个人都在期待着大数据所带来的价值，因此大数据技术被誉为是可以改变世界的技术。然而在这几年的热炒中已经褪去了它们最初的光环，而且这种退潮的速度很快，因而一些怀疑论者对于大数据技术也持有一种保守的看法。但是，那些怀疑论者对于大数据的质疑程度却远远低于对云计算和社交媒体的质疑。这可能是因为大数据已为那些拥抱大数据的企业带来了实际的收益。而且，大数据分析也正在从根本上改变着一些不同的领域，如药物研究、市场营销和产品开发等。像智慧城市和无人驾驶汽车这样的用例的研究和发展，也是为了满足我们生活中的各种需求而存在。而大数据技术的未来可能也是如此——逐步发展，以满足人们的需求。但目前大数据还没有发展到它应该发展，的阶段。Infobright的首席执行官Don DeLoach说：“技术上的可行性和实际的执行力存在很大的差别。我们来看查看全文

Yuanke_S 2019年06月04日 30 0

五个改变生活的大数据实践项目

Yuanke_S 2019年05月30日 34 0

大数据学习笔记之Hadoop安装步骤详解

一般大数据集群都是由Hadoop组成的，本文的最终目标是安装和配置两台Ubuntu服务器，让他们组成Hadoop的集群。首先要安装vmware workstation虚拟软件，这个安装方法和一般的软件一样，这里附一个安装版本，供大家下载。链接:https://pan.baidu.com/s/1qY9LBGC 密码:21w91、用vmware workstation建立虚拟机，开始先不选择安装包内存选择：如果本机是4G内存，则分配虚拟机1G内存2、按默认要求来，完成虚拟机的初步配置【大数据开发学习资料领取方式】：加入大数据技术学习交流群458345782，点击加入群聊，私信管理员即可免费领取 3、开始ubuntu的安装选择镜像文件（我用的版本也在上面的网盘里下载），然后一步步的安装 4、选择电脑名称为hd1，密码为123456。注意查看全文

Yuanke_S 2019年05月28日 74 0

大数据的七大核心具体价值

随着移动互联网的飞速发展，信息的传输日益方便快捷，端到端的需求也日益突出，纵观整个移动互联网领域，数据已被认为是继云计算、物联网之后的又一大颠覆性的技术性革命，毋庸置疑，大数据市场是待挖掘的金矿，其价值不言而喻。可以说谁能掌握和合理运用用户大数据的核心资源，谁就能在接下来的技术变革中进一步发展壮大。大数据，可以说是史上第一次将各行各业的用户、方案提供商、服务商、运营商以及整个生态链上游厂商，融入到一个大的环境中，无论是企业级市场还是消费级市场，亦或政府公共服务，都正或将要与大数据发生千丝万缕的联系。近期有不少文章畅谈大数据的价值，以及其价值主要凸显在哪些方面，这里我们对大数据的核心具体价值进行了分门别类的梳理汇总，希望能帮助读者更好的获悉大数据的大价值。核心价值究其用户到底是谁?谈及价值，首先必须要弄清楚其用户到底是谁?有针对企业数据市场的，还有针对查看全文

Yuanke_S 2019年05月28日 52 0

大数据处理框架技术，你了解了多少？

大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取的数据，或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。下文将介绍这些框架：仅批处理框架：Apache Hadoop仅流处理框架：Apache StormApache Samza混合框架：Apache SparkApache Flink大数据处理框架是什么？处理框架和处理引擎负责对数据系统中的数据进行计算。虽然“引擎”和“框架”之间的区别没有什么权威的定义，但大部分时候可以将前者定义为实际负责处理查看全文

Yuanke_S 2019年05月28日 38 0

matlab 批量调整图像亮度

版权声明：本文为博主原创文章，未经博主允许不得转载。转载请联系qq:1719702396 https://blog.csdn.net/yingtaotaotao/article/details/88675929 close all; filepath='D:19_无人机照片'; file =dir(strcat(filepath,'*.jpg')); [k ~]=size(file); for j=1:k imgname=file(j).name; RGB1 = imread(strcat(filepath,imgna 查看全文

Yuanke_S 2019年03月21日 390 0

数据分析之解析电影中如下问题

“”"1.导演电影部数排名前5位的导演，分别导演了哪些电影Title，总票房多少？Revenue2.导演电影最多的导演是否平分平均分最高？3.科幻片票房最高的4.哪种类型的影片数量最多5.评分最高的影片分别是什么“”"数据如需下载下载下方链接，复制粘贴到你当前目录链接：https://pan.baidu.com/s/1YCff3HE0sbBoHt5ruG7QnQ提取码：g8ykimport pandas as pd movie=pd.read_csv('IMDB.csv') # 1.导演电影部数排名前5位的导演，分别导演了哪些电影Title，总票房多少？Revenue(没写好，找不到电影导演，只能暂时一步一步写) # for i in 查看全文

Yuanke_S 2019年03月17日 68 1

spark共享变量：累加器与广播变量

累加器累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器一个常见用途是，在调试时对作业执行过程中的事件进行计数。执行行动操作后，累加器的值才会更新；累加器的值只有在驱动程序才能访问，从工作节点上任务的角度看，累加器只是一个只写变量。在这种模式下，累加器的实现可以更加高效，不需要对每次更新操作进行复杂的通信。广播变量广播变量可以让程序高效地向所有工作节点发送一个较大的只读值，以供一个或多个spark操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，或者是机器学习算法中的一个很大的特征向量，广播变量查看全文

YuanKe_S 2018年10月27日 110 0

加载更多

matlab 批量调整图像亮度

Yuanke_S 2019年03月21日 390 0

大数据系列之数据仓库Hive知识整理（四）Hive的严格模式，动态分区，排序，事务，调优

1.Hive的严格模式Hive提供了一个严格模式，可以防止用户执行那些产生意想不到的不好的影响的查询。想想看在那么大的数据量的前提下，如果我们在分区上表上使用查找所有，或是使用了笛卡尔积查询数据等等不良情况，那得花费我们多少时间和资源成本，Hive在默认情况下会开启一种模式，叫做严格模式，来限制我们这些不良操作。其中在hive-site.xml的配置文件中，设置了属性来进行全局的配置对于全局的配置，我们可以修改这些属性，也可以采用临时会话的形式，使用set 属性=值的形式来进行修改，只不过只在当前会话有效。使用了严格模式之后主要对以下3种不良操作进行控制：1.分区表必须指定分区进行查询。2.order by时必须使用limit子句。3.不允许笛卡尔积。2.Hive的动态分区之前我们介绍过了分区表，并且查看了分区表的存储结构（分区表是目录），并且像分区查看全文

YuanKe_S 2018年08月24日 358 0

大数据应用1：Spark分析处理Oracle大表

0、制造测试数据https://blog.csdn.net/lizhangyong1989/article/details/45013509 生产一千万条测试数据总共四个字段，每次插入一百万的数据耗时110秒左右create table TestTable asselect rownum as id,to_char(sysdate + rownum / 24 / 3600, 'yyyy-mm-dd hh24:mi:ss') as inc_datetime,trunc(dbms_random.value(0, 100)) as random_id,dbms_random.string('x', 20) random_stringfrom dualconnect by level <= 1000000;因为查看全文

YuanKe_S 2018年08月12日 237 0

大数据协作框架之Hue

一、安装1.1、根据提示安装http://archive.cloudera.com/cdh5/cdh/5/hue-3.9.0-cdh5.14.2/manual.htmlyum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel openldap-devel python-devel python-simplejson sqlite-devel gmp-devel -y1.2、解压hue-3.9.0-cdh5.14.2. 查看全文

YuanKe_S 2018年08月22日 172 0

大数据零基础学习，ZOOKEEPER入门

大数据零基础学习，小编带你看ZOOKEEPER入门1、解压2、配置环境变量3、修改conf/zoo_sample.cfg文件为zoo.cfg server为固定值我要推荐下我自己建的大数据开发学习群：119599574，专注大数据分析方法,大数据编程，大数据仓库，大数据案例，人工智能,数据挖掘都是纯干货分享都是学大数据开发的，如果你正在学习大数据，欢迎初学和进阶中的小伙伴。1表示该主机的myid需要与数据目录下的myid文件中的值相同=kd01表示主机名4、在数据目录中创建myid文件，值与server.值的值相同5、分发到其它主机，将/etc/profile同步、生效6、三台主机同时运行:zkServer.sh startzkServer.sh status 查看状态java操作1、进入zookeeper的命令窗口 zkCli.sh2、查查看全文

YuanKe_S 2018年08月24日 145 0

大数据主要是做三件事：对用户理解、对信息理解、对关系理解

大数据主要是做三件事：对用户理解、对信息理解、对关系理解大数据这个概念提了好多年。每次提到大数据的时候，都是个性化、精准化，大家能想到的就是这些。在很多年前，IBM和很多大互联网公司都在提这个话题。但是它真正产品化或者商业化的价值，是在2011、2012年以后才有了爆发性的增长。它有一些原因：第一个是这两年确实是随着社会化媒体的普及、数据的量爆发式的增长。大家每天在网上分享的文字、图片、视频，它的数据的规模要超过我们历史上任何时期。有价值的信息也越来越多。历史上，很多年前大家上互联网，信息无非就是各种网页，小网站、大网站。信息的价值不像现在这么充分。现在太多的信息反映了各位的动机或者各位的兴趣特征。比如说我儿子三岁，我经常会发我儿子的照片，发一些养孩子的心理感受。结果他就曝露了我兴趣的方向。这对我们数据的应用会很有帮助。不像以前你顶多看各种各样的网页查看全文

YuanKe_S 2018年08月22日 141 0

大数据学习之路33-hive的DDL语法，显示命令

show tables;show databases;show partitions;show functions; --->显示hive中所有的内置函数这里的函数就和我们平时使用的函数一样，有输入有返回：这里截取字符串的时候下标是从1开始的，当然写成0也可以查出来，因为0本来就不存在。desc extended t_name; ------->显示表的详细信息，但是显示的有点乱desc formatted table_name; ----->也是显示表的详细信息，但是比上面的显示的要好看。是格式化的。阅读更多查看全文

YuanKe_S 2018年08月22日 131 0

zookeeper概念以及使用情景

我们要使用就需要知道有什么需求：情景一：我的这个亚信需要采集数据，那么在采集的过程中如果采集程序突然挡掉，这个时候上面传输的数据就采集不了，而且上面的服务器新数据来了可能会将旧的数据覆盖掉，还有一种可能是我下面的程序突然又好了，那么上面已经有好多旧的数据而且此时又有新的数据，这样采集压力比较大，有人肯定会问可以使用keepalived，你要知道此时亚信这端是客户端，而keepalied这个是在服务器端的检测，也就是我客户端访问服务器端，然后服务端使用keepalived去检测哪个服务器挡掉，然后其他服务器抢占ip，然后成为主服务器，但是这里是客户端访问。所以我们可以使用一个第三方的服务，我的所有的客户端在这个第三方进行注册信息，并且第三方实时监测每一个注册了的客户端的状态数据。当我的某一个客户机档掉了，此时我的第三方就检测出来，然后可以查看有没有空的查看全文

YuanKe_S 2018年08月24日 130 0

加载更多