Datahub
数据改变生活

挑战杯系列第三篇——探索数据,实现创新

发表时间:2022-07-14 13:37


选择一个最贴合文章研究主题的数据,可以给文章插上创新的翅膀。

——写在开头

数据是进行学术研究和写论文的根基,数据的口径、权威性、限制条件等都会对数据分析过程和研究结论造成重要影响;此外,选择什么样的数据、是否贴合研究主题,都会对文章的实用价值和现实意义产生影响。因此,本篇文章专门就我在论文数据的选取和数据的使用方面给大家分享一下我的经验~图片

、数据的选取——PM10还是PM2.5

近年来,PM2.5一直是京津冀雾霾的首要污染物,人体对它没有任何过滤与阻拦能力,其还可能携带病毒和致癌物存留在肺的深处,因此文章如果能够运用PM2.5年均浓度值作为衡量京津冀雾霾的指标展开分析,是最合适最完美的了。但是,我国2012年起PM2.5纳入环境空气质量标准,官方统计年鉴中从2013年起才开始公布PM2.5浓度值,此前官方数据全部缺失。图片

如果我能找到京津冀地区近10年来PM2.5的数据,那么这将是我国关于这方面的首份数据,可以填补学界空白,后续的分析和结论也将是第一次,同时是一个巨大的创新点。所以能拿到这个数据,成为我本篇论文的关键。图片

然而,在阅读了众多文献、寻找遍了能搜寻的国内网站后,还是找不到想要的数据,所以我又产生了退缩感,PM10也能衡量雾霾情况,而且之前的很多文献中都是用PM10作为核心数据,那我要不然也退而求其次,选择PM10进行数据分析呢?但是没过多久,我自己又必须要承认,PM2.5是更贴近研究主题、更能衡量雾霾污染程度的指标,我怎么能用PM10代替PM2.5,假装这是最合适的指标呢?就这样,我选择数据指标时,在PM10PM2.5之间来回犹豫和纠结,起码放弃了PM2.53、4次,但是又不忍心就这么舍掉。图片

虽然我一直在反复选择,但是依然在努力寻找各种文献和资料,功夫不负有心人,就在我将要放弃时,我找到了美国哥伦比亚大学国际地球科学信息网络中心(CIESIN)和巴特尔研究所的数据!!他们借助A Van Donkelaar等人的研究思路,利用卫星搭载设备测度出气溶胶光学厚度(AOD)的栅格数据(Grids)。这个研究机构公布了2006-2015 年中国PM2.5栅格值图片

我下载了这个数据,并将数据导入到 ArcGIS 12.2.2 中,设定国际通用WGS-1984坐标系,采用反距离加权的克里金插值法,获取2006-2015年京津冀市级PM2.5年均浓度值!!(当然这个途中经历了软件运用、数据导出等各种问题,但是在我“一定要把数据搞出来”的坚定信念下,都一一攻破了。)到此,我获得了国内首份近10年来京津冀地区13个城市的PM2.5年均浓度值。

   所以本文最大的一个创新点,也即可以写在文章中的“特色与创新点”部分如下:数据来源上,本文利用哥伦比亚大学和巴特尔研究中心提供的卫星云图栅格数据,借助 arcGIS 12.2.2 解析得到 2006-2015 年京津冀 13 个城市的 PM2.5 年均浓度值,克服了2013 年之前中国官方数据缺失的问题。图片图片

二、利用全国唯一一份PM2.5数据对京津冀雾霾进行现状分析

在有了PM2.5数据后,我们可以进行很多分析,在就模型进行计量分析前,先可以对京津冀雾霾情况进行现状及原因分析。以下以2015年京津冀地区13个城市的PM2.5年均浓度值为例进行分析:

(一)雾霾污染程度显著重于全国平均水平

做出2015年京津冀与全国平均大气污染情况对比表,可以发现,京津冀雾霾污染程度远高于全国平均水平,PM2.5年均浓度是国家二级标准的2.2倍。全国空气质量最差10座城市中,保定、邢台、衡水、邯郸、石家庄和廊坊6市均位于河北。图片图片

图片

(二)雾霾空间分布不均衡

     借助 arcGIS 12.2.2 做出 2015 年京津冀 PM2.5 浓度空间分布图,如下图所示。可见PM2.5 呈现“南部污染较重、北部污染较轻、南北部污染差异大”特点。

图片

(三)雾霾时间分布差异大

做出 2015 年京津冀 13 个城市 PM2.5 月度均值变化图,如图 4 所示。张家口、秦皇岛、承德、天津的逐月变化曲线相对平缓,全年数值差异较小。其余 7 市月均浓度较高,全年数值差异大,且变化趋势相似,基本呈现W”型,在 11 月至次年 2 月的浓度较高,5-9 月的浓度较低,但在 7 月有一个小攀升

图片

为更直观感受 PM2.5 季节分布趋势,令春季 3~5 月,夏季 6~8 月,秋季 9~11 月,冬 12 月~次年 1 月,做出季节分布图

图片

综上,借助全国首份2006-2015年京津冀地区13个城市PM2.5年均浓度值的数据,首先使得文章有一个巨大的突破性的创新点;其次可以就现状进行分析,在条形图、折线图、饼图、雷达图等中选择最合适的图形,进而用数据得出京津冀地区雾霾污染程度显著重于全国平均水平、雾霾空间分布不均衡(北高南低)、雾霾时间分布差异大(夏季低冬季高)等结论,并为下一步分析原因、进而找出衡量的影响因素的指标做准备工作;最后,这份数据可以应用在模型的被解释变量中,经过数据分析后得出文章最后结论。图片图片

所以,当大家在寻找最合适的数据时面临困难时,请先不要放弃,一定要再试一次再试一次,说不定就找到了呢~合适的数据将会给你的文章插上翅膀,让后续的写作和结论都更加熠熠生辉。图片图片图片

图片




QQ:258506508                                     联系电话:020-000000    000-000000                                   联系邮箱:xxx@.co.m                                     联系地址:XXX省XXX市XXX县XXX路