哪种酸是挥发性酸?

在数据进行建模或者严格的统计分析之前,我们一般需要先熟悉一下数据,弄清楚各变量的分布以及变量之间的关系,为进一步构建严格的模型,深入的分析打下基础。探索性数据分析(EDA)就是为了获得对数据的初步了解。
这篇文章,来源于自己课程学习实践的一个项目,主要是利用R语言进行探索性数据分析。用到的数据,是普遍使用的白葡萄酒的数据。主要内容涉及对单个变量,两个变量之间关系,多个变量之间的关系的一个探索。
单个变量的探索,主要利用的是柱形图,查看各变量的整体分布。两个变量的探索,主要分析变量之间是否存在相关关系,对于两个连续型变量可以使用散点图,一个连续型变量和离散型变量可以使用箱线图查看整体趋势;另外,定量分析可以使用相关系数矩阵和线性模型。三个变量的探索,可以使用气泡图,或者用颜色区分第三各变量。一般来说,探索性数据分析都是为后面具体的深入分析打基础的,所以也会一定的方向性。但是这篇文章为自己的探索性数据分析的课程项目,所以篇幅较长。主要的分析方向是探索影响白葡萄酒质量的因素。

在探索数据之前,我们先对数据有一个总体的概览。我们先导入数据


整个数据有4898条,涉及13各变量。接着我们查看一下具体的信息:


数据设计及到的变量有,白葡萄酒的固定酸度、挥发性酸度、柠檬酸度、残糖量、白葡萄酒质量等。在对数据有了总体的概观以后,我们可以开始探索了。先导入相应的包资源:

白葡萄酒数据主要涉及的是每一类白葡萄酒的质量,以及它具有的一些属性。我们主要关注的问题是什么因素会影响到白葡萄酒的质量。首先我们对白葡萄酒的质量有一个总体的概观:

从上面的总体分析中,可以看到白葡萄酒的质量最低为3,最高为9,为了更能充分的展示,这里用scale_x_continuous来限制x轴的范围,并设置x轴的断点。最后结果为:
从上面的直方图中可以看到整个白葡萄酒各种质量的分布情况。从直方图中可以看到,白葡萄酒的质量大部分集中在5,6,7这三类。由于我们最终的目的是为了探索影响白葡萄酒质量的因素,所以在分析每个变量时,还分析了高质量和低质量葡萄酒在这个变量上的区别。为了突出这种差异,我们把3和4作为低质量的一列,8和9作为高质量的一列。切分的代码如下:

接下来会涉及到大量的图形绘制,而且很多的代码类似,所以这里先设置一个绘图函数:

首先,我们来看一下固定酸度。


固定酸度值的分布大致为正态分布,大部分值都集中在6-8之间。我们来看一下高、低质量的区别:


高质量和低质量的白葡萄酒的固定酸度也都集中在6-8之间。


挥发性酸度值也大致服从正态分布,大部分分布在0.15-0.35之间。可以看到,高低质量的白葡萄酒的挥发性酸度值的分布情况很相近。


柠檬酸度值大部分分布在0.25-0。45之间。高低质量的白葡萄酒的柠檬酸度至也大致在这个范围。


可以看到白葡萄酒的残糖量在0-20之间。为了跟好的观察,我们把x轴的跨度限制在0-20,如下图:


可以看到白葡萄酒的酒精度大部分集中在8.5-13之间。我的一个兴趣点就是研究酒精度对白葡萄酒质量的影响。为了更好地观察,我们把x轴的范围限制8.5-13之间。如下图:


 
 

 
 


可以看到低质量的白葡萄酒的酒精度大部分集中在10的附近。而高质量的白葡萄酒的酒精度大部分集中在12的附近。



 
 

 
 


总体的白葡萄酒的氯化物含量在0-0.1之间。而高质量的白葡萄酒的氯化物含量大部分在0.025-0.05之间。


总体上,游离二氧化硫的含量在0-100之间。而高低质量的白葡萄酒在大致在这个范围之内,有一点是高质量的白葡萄酒都在100以内。


总体上,白葡萄酒的总二氧化硫的含量大部分在100-200之间。高低质量的白葡萄酒的含量也大致在这个范围内。



白葡萄酒的密度值大部分集中在0.9871-1之间,彼此相差不是很大。



白葡萄酒的pH值大部分分布在3-3.3之间。高质量和低质量的白葡萄酒的pH值分布差不多。


白葡萄酒的硫酸盐量大部分分布在0.3-0.6之间。高低质量的白葡萄酒的硫酸盐含量差不多。

共有4898条白葡萄酒数据,数据中包含12各变量。其中除quality这个变量为分类变量,其他全为连续型变量。
质量总共有3-9七个品类,3为最低质量,9为最高质量。
1.固定酸度大部分在6-8之间;挥发性酸度大部分在0.15-0.35之间;柠檬酸度大部分在0.25-0.45之间。
2.残糖量大部分在0-20;酒精度大部分在8.5-13之间;氯化物大部分在0-0.1之间。
3.游离二氧化硫大部分在0-100之间;总二氧化硫大部分在100-200之间。

双变量分析,在于探索哪些变量之间会存在关系,一般采用散点图和计算相关系数,箱线图可以可视化群体间的差异。
首先我们计算所有变量之间的相关系数:



另外,可以看查看具体的数值:



从上面的相关性分析可以看到,酒精度和白葡萄酒的质量有最大的正相关性,密度和白葡萄酒的质量有最大的负相关性。接下来,用箱线图展示几个相关系数较大的变量与白葡萄酒质量的具体关系。



并没有一个固定的趋势展示白葡萄酒的质量越高,酒精度越高。但可以看到高质量的白葡萄酒的酒精度会相对来说高一点。



虽然白葡萄酒的密度值相差不是很大,但有个个比较明显的趋势是质量越高的白葡萄酒的密度较低。



白葡萄酒的质量和氯化物的含量并不是很明显的负相关。但高质量的白葡萄酒的氯化物含量相对较低。下面对酒精度和白葡萄酒质量进行更细致的分析:


 
 


从上面的酒精度均值的散点图中可以看到,高质量的白葡萄酒的酒精度相对来说会高一点。



对白葡萄酒质量和酒精度构建线性模型可以看到,R-squared值为0.1897。所以,相关性最强的酒精度也不能充分解释白葡萄酒的质量。另外,从散点图中看到,质量和酒精度在质量为5的时候有个折点。因此,对质量高于5的白葡萄酒进行线性建模,如下所示:



同样可以看到R-squared值为0.2186,也说明酒精度并不能解释白葡萄酒质量。在相关性分析中,密度与酒精度的相关性最大。下面展示它们之间的关系图:


 
 


从散点图中,可以看到密度和酒精度存在很强的正相关性。但我们可以知道,酒精度会影响密度,而不是反过来的关系。而且,从构建的线性模型来看,酒精度可以解释60.86%的密度的波动。另外,从相关性分析可以看到,影响白葡萄酒密度的因素,除酒精度外,还有一个很重要的因素就是残糖量。下面我们展示密度和残糖量之间的关系图:


 
 


残糖量大部分集中在0-20之间,我们忽略掉几个高于20的极值点,并把密度值范围缩小在0.987-1.005之间,设置透明度以清晰看到数据整体的情况,重新绘图如下:


可以看到,残糖量和密度之间有很强的正相关关系。一般来说,残糖量越高,白葡萄酒的密度越大。为了更加具体的分析残糖量对密度的决定性影响,我们对残糖量和密度构建线性模型:



可以看到R-squared的值为0.7039,说明残糖量可以解释大部分的白葡萄酒质量的波动.除了对白葡萄酒密度影响较大的两个因素酒精度和残糖量外,总的二氧化硫的含量与密度也有着较强的关系,它们之间的散点图如下:


 
 
 
 


从上面的散点图可以看到,虽然不像残糖量和酒精度那样和密度有很强的相关关系,总二氧化硫含量与密度之间也有着较为明显的正相关关系,总二氧化硫的含量越高,相对来说密度越大。除了对白葡萄酒密度的观察,我们还可以看到,在变量中有固定酸度、挥发性酸度和柠檬酸度这几个酸度值。这几个酸度值中,固定酸度值对白葡萄酒pH值的影响最大,它们之间的关系图如下:


 
 
 


可以看到,固定酸度值与pH值之间有着明显的负相关关系。固定酸度值越大,pH值越小,也就是酸性越强。

从分析的结果中可以看到,质量较高的白葡萄酒的酒精度会相对来说高一点。虽然整体的密度和氯化物浓度相差不大,但有个较明显的趋势是,质量高白葡萄酒的密度和氯化物浓度都较低。白葡萄酒的密度和酒精度有着很强的负相关关系,和残糖量有着很强的正相关关系。最后,白葡萄酒的pH值和固定酸度值关系比较大。在分析中发现白葡萄酒的密度和酒精度以及残糖量有着很强的联系。

在上一部分的双变量分析中,我们可以看到,密度和酒精度、残糖量和总二氧化碳含量相关性较强,我们这里想看一下这种相关性会不会在不同质量的白葡萄酒上表现不同。


 
 
 
 

 
 
 
 
 

 
 
 


上面三幅图分别为在不同质量下,按颜色区分的酒精度、残糖量和总二氧化硫含量与白葡萄酒密度的关系图。从图中可以看到,低质量的白葡萄酒大部分集中在高的密度和低的酒精度区域,高质量的白葡萄酒大部分集中在低的密度和高的酒精度区域。另外,高质量的白葡萄酒在低的密度区域与残糖量相关,低质量的白葡萄酒在高的密度区域与残糖量相关。最后,高质量的白葡萄酒更偏向于低的密度和低的总二氧化硫含量,低质量的白葡萄酒更偏向于高的密度和高的总二氧化硫含量。为了更加具体的对白葡萄酒密度进行,分析,我们对密度和酒精度、残糖量以及总二氧化硫含量构建线性模型:



我们可以看到酒精度和残糖量已经可以解释90.7%的密度的波动,加上总二氧化硫的含量可以解释91.1%的密度的波动。


 
 
 
 


可以看到高质量的白葡萄酒更偏向于高的pH值和低的固定酸度值,低质量的白葡萄酒更偏向于低的pH值和高的固定酸度值。

我们通过分析不同质量的白葡萄酒下,酒精度、残糖量和总二氧化硫与密度的关系,以及pH值与固定酸度值的关系。我们看到不同质量的白葡萄酒这些关系会有些差异,高质量的白葡萄酒更偏向于高的酒精度、低的密度、低的总二氧化硫的含量以及高的pH值和低的固定酸度值。通过分析发现,白葡萄酒的密度和残糖量之间存在很强的正相关关系,和酒精度有很强的负相关关系。并且在不同的白葡萄酒质量下,这种关系存在着差异。

}

打开网易新闻 查看精彩图片

各典型行业常见挥发性有机物种类如下:

化学品制造业:苯类,烷烃,烯烃,卤代烃,醇类,醛类,酮类,酚类,醚类,酸类,酯类,胺类。

医药制造业:苯类,,卤代烃,醇类,醛类,酮类,酚类,醚类,酸类,酯类,胺类。

汽车制造业:苯类,烷烃,卤代烃,醇类,醛类,酮类,酚类,醚类,酯类。

食品制造业:醇类,醚类,酸类,胺类。

印刷业:苯类,,醇类,醛类,酮类,酯类。

橡胶和塑料制品业:苯类,卤代烃,醇类,醛类,酮类。

计算机等制造业:苯类,烷烃,醇类,醛类,酮类,酚类,醚类,酸类,酯类。

石油加工业:苯类,烯烃。

电气制造业:苯类,烯烃,酮类,酯类。

金属制品业:苯类,酯类。

通用设备制造业:苯类。

木材加工业:苯类,烯烃。

烟草制品业:苯类,醛类,酚类。

专用设备制造业:苯类,烯烃,酯类。

造纸和纸制品业:苯类,醇类。

各类挥发性有机物主要包含的物质如下:

苯类:苯、甲苯、二甲苯、三甲苯、乙苯、苯乙烯、异丙苯。

烷烃:甲烷、丙烷、正丁烷、环己烷、正己烷、环氧乙烷、1,2-环氧丙烷。

烯烃:丙烯、氯丁二烯、戊二烯、氯乙烯、1,3-丁二烯。

卤代烃:氯、二氯甲烷、三氯甲烷、四氯化碳、三、氯乙烯、氯仿、二氯乙烷、氯丁二烯、氯苯类、溴甲烷、溴乙烷、环氧氯丙烷。

醇类:甲醇、乙醇、丁醇、乙二醇、正丁醇、异丙醇、异丁醇、甲硫醇。

醛类:甲醛、乙醛、丙烯醛、丙醛、正丁醛、正戊醛。

酮类:丁酮、丙酮、环己酮、甲基乙基酮、甲基异丁基酮、2-丁酮。

醚类:丁醚、乙醚、二甲醚、甲硫醚、四氢呋喃。

酸类:丙烯酸、苯乙酸、。

酯类:辛酯、戊酯、乙酸乙酯、乙酸丁酯、乙酸丙酯、丙烯酸乙酯、丙烯酸丁酯、酚醛树脂、环氧树脂。

胺类:一甲胺、二甲胺、三甲胺、三乙胺、苯乙胺、N,N-二甲基甲酰胺(DMF)、丙烯酰胺、苯胺类。

}

本站为注册用户提供信息存储空间服务,非“MAIGOO编辑上传提供”的文章/文字均是注册用户自主发布上传,不代表本站观点,版权归原作者所有,如有侵权、虚假信息、错误信息或任何问题,请及时联系我们,我们将在第一时间删除或更正。 网页上相关信息的知识产权归网站方所有(包括但不限于文字、图片、图表、著作权、商标权、为用户提供的商业信息等),非经许可不得抄袭或使用。

}

我要回帖

更多关于 浓硝酸有挥发性吗 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信