专业大数据挖掘分析——助力小微企业发现价值
电话+V: 152079-09430 ,欢迎咨询旅游景点双变量分析可视化,[大数据挖掘与分析],[大数据应用场景建设],[大数据接口共享],[大数据去除冗余],[大数据精准推送],[大数据广告价值],[助力小微企业成长更上台阶]
旅游景点双变量分析可视化
一、引言
在旅游的海洋中,我们总是寻找那些能带给我们独特体验的地方。然而,面对琳琅满目的景点,如何选择成为了一个难题。这时,数据的力量就显得尤为重要。通过数据分析,我们可以更深入地了解各个景点的特色和优势,从而做出更符合自己需求的旅游决策。今天,我们就以双变量分析的方式,对旅游景点进行可视化研究。
二、数据选择与处理
我们需要选择合适的数据进行分析。在这个例子中,我们选择了两个重要的变量:景点的人流量和门票价格。这两个变量可以在一定程度上反映出景点的热门程度和经济性。然后,我们对这两个变量进行清洗和整理,以确保数据的质量和准确性。
三、数据分析与可视化
接下来,我们将通过散点图对这两个变量进行可视化分析。在散点图中,每一个点代表一个景点,点的位置代表了该景点的人流量和门票价格。通过观察点的分布,我们可以直观地看出各个景点之间的差异。
四、结果解读
从散点图中,我们发现大部分的点集中在人流量较大、门票价格较低的区域。这说明大多数的景点都具有较大的吸引力,并且门票价格也相对亲民。但是,也有一些点分布在人流量较小、门票价格较高的区域,这可能说明这些景点的吸引力相对较小,或者门票价格设置得过高。
五、结论与建议
通过这次的双变量分析,我们可以看出,数据对于旅游决策的重要性。它可以帮助我们更全面、更深入地了解各个景点的情况,从而做出更明智的选择。在未来,我们还可以尝试加入更多的变量,如景点的评价、交通便利性等,以得到更全面的分析结果。
数据可视化——双变量数据
2020-07-0707:09·AI干货课程分享如果想研究两个定量变量的关系,可以使用散点图,x轴表示一个变量的值,y轴表示另外一个变量的值,
我们通常使用相关系数表示两个变量之间的关系,常见的相关系数是皮尔逊相关系数,通常使用r表示,范围是-1到1。
我们使用燃油经济性数据集来分析。
importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltimportseabornassb%matplotlibinlinefuel_econ=pd.read_csv('./data/fuel_econ.csv')fuel_econ.head()绘制发动机排量displ和燃油效率comb的散点图,从图中可以看出,引擎的大小和燃油效率是负相关的。但是小排量的变化幅度是比大排量要大。
plt.scatter(data=fuel_econ,x='displ',y='comb')plt.xlabel('Displacement(1)')plt.ylabel('CombinedFuelEff.(mpg)')我们也可以使用sb.regplot绘制,绘制的图形还带有数据拟合回归线。可以设置fit_reg=False来关闭。
#sb.regplot(data=fuel_econ,x='displ',y='comb',fit_reg=False)sb.regplot(data=fuel_econ,x='displ',y='comb')plt.xlabel('Displacement(1)')plt.ylabel('CombinedFuelEff.(mpg)')数据点重叠
-抽样
-透明度调整
-抖动
抽样
透明的调整
抖动会给各点的位置增加一点随机噪声,可以使小范围重叠的数据抖散
燃油效率和生产年份的关系,我们可以看出随着年份的增长,燃油效率提高。
sb.regplot(data=fuel_econ,x='year',y='comb',x_jitter=0.3)#增加抖动sb.regplot(data=fuel_econ,x='year',y='comb',x_jitter=0.3)
#增加透明度sb.regplot(data=fuel_econ,x='year',y='comb',x_jitter=0.3,scatter_kws={'alpha':1/20})
热图是一张由多个单元格组成的网格,热图会统计每个单元格里的数据点数,然后根据统计值,用不同的颜色填充相应的单元格,单元格里的数据越多,颜色就越深。如果两个变量都是离散的,那么热图的效果比散点图好。
plt.hist2d(data=fuel_econ,x='displ',y='comb')plt.colorbar()plt.xlabel('Displacement(1)')plt.ylabel('CombinedFuelEff.(mpg)')
bins_x=np.arange(0.6,7+0.3,0.3)bins_y=np.arange(12,58+3,3)plt.hist2d(data=fuel_econ,x='displ',y='comb',cmin=0.5,cmap='viridis_r',bins=[bins_x,bins_y])plt.colorbar()plt.xlabel('Displacement(1)')plt.ylabel('CombinedFuelEff.(mpg)')
小提琴图
有几种方法可以绘制一个**定量变量和一个定性变量**之间的关系,这些方法可以演示不同抽象级别的数据。小提琴图位于抽象的较低级别。对于分类变量的每个级别,将绘制数值变量上的值分布。将该分布绘制为内核密度估计值,类似于平滑的直方图。在上一课程的末尾还有一个额外的部分,可提供有关内核密度估计的更多信息。
base_color=sb.color_palette()[0]sb.violinplot(data=fuel_econ,x='VClass',y='comb',color=base_color,inner=None)plt.xticks(rotation=15)箱图
箱形图是显示数字变量和分类变量之间关系的另一种方法。与小提琴图相比,盒式图更依赖于数据汇总,主要只是报告每个类别级别上的一组数值的描述性统计信息。可以使用se