数据分析中有哪些常见的数据模型，大数据具体是学习什么内容呢?主要框架是什么

专业大数据挖掘分析——助力小微企业发现价值

电话+V： 152079-09430 ，欢迎咨询大数据可视化分析框架结构包括什么，[大数据挖掘与分析]，[大数据应用场景建设]，[大数据接口共享]，[大数据去除冗余]，[大数据精准推送]，[大数据广告价值]，[助力小微企业成长更上台阶]

一、数据分析中有哪些常见的数据模型

　　要进行一次完整的数据分析，首先要明确数据分析思路，如从那几个方面开展数据分析，各方面都包含什么内容或指标。是分析框架，给出分析工作的宏观框架，根据框架中包含的内容，再运用具体的分析方法进行分析。

数据分析方法论的作用：

理顺分析思路，确保数据分析结构体系化

把问题分解成相关联的部分，并显示他们的关系

为后续数据分析的开展指引方向

确保分析结果的有效性和正确性

五大数据分析模型
1.PEST分析模型

政治环境：

包括一个国家的社会制度，执政党性质，政府的方针、政策、法令等。不同的政治环境对行业发展有不同的影响。

　　关键指标

政治体制，经济体制，财政政策，税收政策，产业政策，投资政策，专利数量，国防开支水平，政府补贴水平，民众对政治的参与度。

经济环境：

宏观和微观两个方面。

宏观：一个国家国民收入，国民生产总值以及变化情况，以通过这些指标反应国民经济发展水平和发展速度。

微观：企业所在地区的消费者收入水平、消费偏好、储蓄情况、就业程度等因素，这些因素决定着企业目前以及未来的市场大小。

　　关键指标

GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。

社会环境：

包括一个国家或地区的居民受教育程度和文化水平、宗教信仰、风俗习惯、审美观点、价值观等。文化水平营销居民的需求层次，宗教信仰和风俗习惯会禁止或抵制某些活动的进行，价值观会影响居民对组织目标和组织活动存在本身的认可，审美观点则会影响人们对组织活动内容、活动方式以及活动成果的态度。

　　关键指标

人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

技术环境：

企业所处领域直接相关的技术手段发展变化，国家队科技开发的投资和支持重点，该领域技术发展动态和研究开发费用总额，技术转移和技术商品化速度，专利及其保护情况。

　　关键指标

新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况。

2.5W2H模型

5W2H分析法主要针对5个W以及2个H提出的7个关键词进行数据指标的选取，根据选取的数据进行分析

3.逻辑树分析模型

将问题的所有子问题分层罗列，从最高层开始，并逐步向下扩展。

把一个已知问题当作树干，考虑这个问题和哪些问题有关，将相关的问题作为树枝加入到树干，一次类推，就会将问题扩展成一个问题树。

逻辑树能保证解决问题的过程完整性，将工作细化成便于操作的具体任务，确定各部分优先顺序，明确责任到个人。

逻辑树分析法三原则：

要素化：把相同问题总结归纳成要素

框架化：将各个要素组成框架，遵守不重不漏原则

关联化：框架内的各要素保持必要的相互关系，简单而不孤立

4.4P营销理论模型

产品：

能提供给市场，被人们使用和消费并满足人们某种需求的任何东西，包括有形产品、服务、人员、组织、观念和它们的组合。

价格：

购买产品时的价格，包括基本价格、折扣价格、支付期限等。影响价格的主要因素有需求、成本和竞争。

渠道：

产品从生产企业流转到用户手上全过程所经历的各个环节。

促销：

企业通过销售行为的改变来激励用户消费，以短期的行为促进消费的增长，吸引其他品牌用户或导致提钱消费来促进销售增长。

5.用户行为模型

用户行为指用户为获取、使用产品或服务才去的各种行动，首先要认知熟悉，然后试用，再决定是否继续消费使用，最后成为产品或服务的忠实用户。

行为轨迹：认知->熟悉->试用->使用->忠诚

最后

五大数据分析模型的应用场景根据数据分析所选取的指标不同也有所区别。

PEST分析模型主要针对宏观市场环境进行分析，从政治、经济、社会以及技术四个维度对产品或服务是否适合进入市场进行数据化的分析，最终得到结论，辅助判断产品或服务是否满足大环境。

5W2H分析模型的应用场景较广，可用于对用户行为进行分析以及产品业务分析。

逻辑树分析模型主要针对已知问题进行分析，通过对已知问题的细化分析，通过分析结论找到问题的最优解决方案。

4P营销理论模型主要用于公司或其中某一个产品线的整体运营情况分析，通过分析结论，辅助决策近期运营计划与方案。

用户行为分析模型应用场景比较单一，完全针对用户的行为进行研究分析。

当然，模型只是前人总结出的方式方法，对于我们实际工作中解决问题有引导作用，但是不可否认，具体问题还要具体分析，针对不同的情况需要进行不同的改进。

二、大数据计算框架有哪些?

大数据计算框架有：批处理计算框架、流式计算框架、图计算框架、分布式数据库计算框架、深度学习计算框架。

1、批处理计算框架

适用于对大规模的离线数据进行处理和分析。典型的批处理计算框架包括ApacheHadoopMapReduce、ApacheSpark等。

2、流式计算框架

适用于实时或近实时处理连续的数据流。流式计算框架可以实时接收和处理数据，根据需要输出结果。典型的流式计算框架包括ApacheFlink、ApacheStorm、ApacheSamza等。

3、图计算框架

适用于处理大规模的图结构数据和进行复杂的图算法计算。典型的图计算框架包括ApacheGiraph、GraphX、Pregel等。

4、分布式数据库计算框架

适用于分布式数据库系统，用于存储和处理大规模的结构化、半结构化和非结构化数据。典型的分布式数据库计算框架包括ApacheHBase、Cassandra、MongoDB等。

5、深度学习计算框架

用于实现和训练深度神经网络模型。它提供了高效的计算和优化算法，支持大规模的并行计算和分布式训练。典型的深度学习计算框架包括TensorFlow、PyTorch、Caffe等。

三、大数据具体是学习什么内容呢?主要框架是什么

首先，学习大数据是需要有java，python和R语言的基础。

1)Java学习到什么样的程度才可以学习大数据呢?

java需要学会javaSE即可。javaweb，javaee对于大数据用不到。学会了javase就可以看懂hadoop框架。

2)python是最容易学习的，难易程度：pythonjavaScala。

python不是比java更直观好理解么，因为会了Python还是要学习java的，你学会了java，再来学习python会很简单的，一周的时间就可以学会python。

3)R语言也可以学习，但是不推荐，因为java用的人最多，大数据的第一个框架Hadoop，底层全是Java写的。就算学会了R还是看不懂hadoop。

java在大数据中的作用是构成大数据的语言，大数据的第一个框架Hadoop以及其他大数据技术框架，底层语言全是Java写的，所以推荐首选学习java

大数据开发学习路线：

第一阶段：Hadoop生态架构技术

1、语言基础

Java：多理解和实践在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化就可以，不需要深入掌握。

Linux：系统安装、基本命令、网络配置、Vim编辑器、进程管理、Shell脚本、虚拟机的菜单熟悉等等。

Python：基础语法，数据结构，函数，条件判断，循环等基础知识。

2、环境准备

这里介绍在windows电脑搭建完全分布式，1主2从。

VMware虚拟机、Linux系统（Centos6.5）、Hadoop安装包，这里准备好Hadoop完全分布式集群环境。

3、MapReduce

MapReduce分布式离线计算框架，是Hadoop核心编程模型。

4、HDFS1.0/2.0

HDFS能提供高吞吐量的数据访问，适合大规模数据集上的应用。

5、Yarn（Hadoop2.0）

Yarn是一个资源调度平台，主要负责给任务分配资源。

6、Hive

Hive是一个数据仓库，所有的数据都是存储在HDFS上的。使用Hive主要是写Hql。

7、Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎。

8、SparkStreaming

SparkStreaming是实时处理框架，数据是一批一批的处理。

9、SparkHive

Spark作为Hive的计算引擎，将Hive的查询作为Spark的任务提交到Spark集群上进行计算，可以提高Hive查询的性能。

10、Storm

Storm是一个实时计算框架，Storm是对实时新增的每一条数据进行处理，是一条一条的处理，可以保证数据处理的时效性。

11、Zookeeper

Zookeeper是很多大数据框架的基础，是集群的管理者。

12、Hbase

Hbase是一个Nosql数据库，是高可靠、面向列的、可伸缩的、分布式的数据库。

13、Kafka

kafka是一个消息中间件，作为一个中间缓冲层。

14、Flume

Flume常见的就是采集应用产生的日志文件中的数据，一般有两个流程。

一个是Flume采集数据存储到Kafka中，方便Storm或者SparkStreaming进行实时处理。

另一个流程是Flume采集的数据存储到HDFS上，为了后期使用hadoop或者spark进行离线处理。

第二阶段：数据挖掘算法

1、中文分词

开源分词库的离线和在线应用

2、自然语言处理

文本相关性算法

3、推荐算法

基于CB、CF，归一法，Mahout应用。

4、分类算法

NB、SVM

5、回归算法

LR、DecisionTree

6、聚类算法

层次聚类、Kmeans

7、神经网络与深度学习

NN、Tensorflow

以上就是学习Hadoop开发的一个详细路线，如果需要了解具体框架的开发技术，可咨询加米谷大数据老师，详细了解。

学习大数据开发需要掌握哪些技术呢？

（1）Java语言基础

Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合类

（2）HTML、CSS与Java

PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生Java交互功能开发、Ajax异步交互、jQuery应用

（3）JavaWeb和数据库

数据库、JavaWeb开发核心、JavaWeb开发内幕

LinuxHadoop生态体系

Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架

分布式计算框架和SparkStrom生态体系

（1）分布式计算框架

Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX图计算、实战一：基于Spark的推荐系统（某一线公司真实项目）、实战二：新浪网（www.sina.com.cn）

（2）storm技术架构体系

Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、大数据项目实战数据获取、数据处理、数据分析、数据展现、数据应用

大数据分析—AI（人工智能）Data

Analyze工作环境准备数据分析基础、数据可视化、Python机器学习

【GSFAI BANK FINANCING】尊享直接对接老板

电话+V： 152079-09430

专注于为大数据运营推广及打包交易配套流程服务方案。为企业及个人客户提供高性价比的数据确权、数交所交易及应用场景内外共享解决方案，解决小微企业难题