每日总结|9.19-初步了解大数据技术(一)

news/发布时间2024/5/23 20:35:46

拜托,这里是博客园欸,我每天写流水账,我觉得没有尊重“博客”两个字。

大数据技术的学习——————————

大数据不仅仅是数据的“大量化”,而是包含“快速化”,“多样化”和“价值化”等多重属性。大数据是由结构化和非结构化数据组成的。

大数据技术需要解决的难题:

1、海量数据如何存储?

很早以前,对于处理庞大的数据量时,采用的解决方案时使用NFS(网络文件系统)将数据分开存储。

缺点:海量数据分析方面不能够充分利用多台计算机同时进行分析。

解决思路:横向扩展-用多台节点分布式集群处理(通过将增加节点数量提高处理能力)

优点:成本相对低,易于线性扩展

缺点:

如何调度资源?

任务如何监控?

中间结果如何调度?

系统如何容错?

如何实现众多节点间的协调?

分布式计算的复杂性就体现在这五个问题上。

什么是Hadoop?

Hadoop是一个开源的可运行于大规模集群上的分布式文件系统和运行处理的框架。擅长于在廉价机器上搭建的集群上进行海量数据(结构化和非结构化)的存储与离线处理。它是一门用来处理大数据的技术,就是用来解决上述提到的分布式计算里面的五个技术难题的。

Hadoop的项目结构

已经说了它是一个框架。

Hadoop的核心是HDFS和Mapreduce,Hadoop2.0还包括YARN

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.jwkm.cn/p/81073482.html

如若内容造成侵权/违法违规/事实不符,请联系宁远站长网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

Opera GX 浏览器推出 “Fake My History” 功能

导读 Opera GX 浏览器近日宣布推出 “Fake My History” 功能。该功能激活后,如果连续 14 天没有使用 Opera GX 浏览器,软件会认为你可能已经去世,于是自动删除历史记录,并伪造虚假但是很正经的历史记录,防止死后你的家人通过历史记录看到你浏览不健康网站的行为,对你的清…

读高性能MySQL(第4版)笔记11_查询性能优化(中)

查询性能优化1. MySQL的客户端/服务器通信协议 1.1. MySQL的客户端和服务器之间的通信协议是“半双工”的 1.2. 在任何时刻,要么是由服务器向客户端发送数据,要么是由客户端向服务器发送数据,这两个动作不能同时发生 1.3. 当查询的语句很长的时候,参数max_allowed_packet就…

Python 通过 stomp 发送消息到 ActiveMQ 的代码

只需要下面简单的几行代码,我们就可以把我们本地数据发送到 ActiveMQ 上面去。 def send_mq(data):hosts = [(AMQHOST, AMQPORT)]conn = stomp.Connection(host_and_ports=hosts, auto_content_length=False)conn.connect(username=AMQUSER, passcode=AMQPASS, wait=True)conn…

GAMES202作业1

@目录作业要求基于球面谐波函数预计算Light项和Transport项为什么需要预计算如何进行预计算编译问题预计算对Lo预计算对Transport预计算在WebGL使用预计算的数据实时计算光照信息 作业要求 物体在不同光照下的表现不同,PRT(Precomputed Radiance Transfer) 是一个计算物体在不…

第2次作业-SQL语句的基本使用

这个作业属于哪个课程 https://edu.cnblogs.com/campus/uzz/cs3这个作业要求在哪里 https://edu.cnblogs.com/campus/uzz/cs3/homework/这个作业的目标 <第2次作业-SQL语句的基本使用>1.使用SQL语句创建数据库studentsdb。 create database studentsdb;2.使用SQL语句选择…