美赛阅读论文笔记
2021 C
-
2123823
-
假设做的非常好,通过给的参考论文,假设了只有4-10月是蜂的活动时间,去除掉了其他数据,简化了问题
-
第一问,对于传播预测,
- 他从时间和空间上两个角度出发,
- 首先是把这个州划分了很多的点
- 在空间上,他主要是参考了一篇论文“ A PCA-based modelling technique forpredicting environmental suitability for organisms from presence records”,内容基本一样的,他找了很多美国的数据,查阅文献搞了一个叫环境适应性的概念,通过查找来的数据,进行因子分析,然后给每个点,打了一个环境适应性的分。并且结合地图,说明了打分高的点的地理位置和特点,说明自己模型的正确性
- 在时间上,计算每个月份的分布,剔除掉了确认不是的样本,只对阳性、未经核实、未经处理的样本操作。
- 他们先说明蜂是群居的,然后根据给的论文,给活跃的月份设置了更多的聚类中心
- 使用k-means计算聚类中心和数量,然后结合GMM,GMM是一种概率式的聚类方法,可以得到出现的概率。蜂出现在不同点的概率受到该区域多个集群中心的影响。这种效应随距离的变化曲线是正态分布的概率密度曲线
- 然后他结合时间和空间,构建了一个组合模型
- model1环境适应度缩放到0-1,得到一个概率分布,model2就是GMM结果的概率分布。把二者加权进行组合,比例设置为1:β,β一开始设置为1,后面β的概念还能做敏感性分析(这是我没想到的,感觉不错)
- 预测的精度,按理来说应该是,做一下未来的预测的,但是他这里选用了变异系数,通过变异系数来说明模型的精度高,(我有点明白但又不明白)
- 整个模型上没有牵扯不同月份间的关系,所以有亮点但是很不严谨,只能说创新的比较多
-
第二问,题目要求通过图像和文本做分类
-
第三问,用分类分析,给可能是正面报告的排个序,也就是得得到每个报告可能是正面的概率。
- 将第一问和第二问的模型输出,作为这里的输入,然后拓展到二十八维,这是我没见过的构造特征,感觉很神奇
- 划分训练集和测试集,然后使用正则化逻辑回归,防止过拟合,根据论文要求附上损失函数
- 用散点图,说明了一下测试集上跑的结果
-
第四问
- 未来更多报告来扩充模型
- 引入“伪标签”
- 确定更新频率
- 看不下去了以后再看
- 未来更多报告来扩充模型
-
第五问
- 确定消除
-
总结:
- 该论文告诉我们查阅文献很重要,他这个环境适应性和伪标签可以说都是查阅论文之后,创新的,内容可以跟查阅的论文很像
- 其他CNN、罗辑回归、线性回归、tf-idf都是很常见的模型罢了
-
-
2101166
- 假设
- 对提供的数据和蜂的行为两方面进行假设,可学
- 第一问
- 引入了种群间资源竞争系数和环境友好度(目前还不知道这公式咋给出来的),建立时间步长差分方程,蒙特卡洛模拟种群迁徙。
- 时间步长差分方程的方法概述图画的好
- 用一个传统的逻辑斯蒂增长曲线来测试自己模型准确性,思路不错,可学
- 说实话,我的评价是看不太懂,不如元胞自动机
- 第二问
- 第二问在摘要中压根没提文本,在正文里是先上来简单给文本长度和是否报告状态做了一个回归,然后方差分析发现是依托答辩,所以就不使用文本了(我感觉思路不错,说明文本没用,但是就拿文本长度来说事,而不是语意分析我感觉太不严谨,不过真正美赛时做不出来也不失为一种好方法)
- 说明一下对不同文件的处理方法,并对样本不平衡进行处理
- 对图像处理分为特征提取和图像分类
- 用自动编码器进行特征提取,(不是这个领域的,不想看,感觉直接上个CNN就完事了,难道说不降维一下,后续不能用罗辑回归和SVM吗),百度是数据降噪,特征提取,但没搜到后面再接一个分类模型的例子,所以这里暂时不可学
- 然后图像分类建立了逻辑回归、SVM、CNN三个模型,对比分析,扩充文章内容,比较后选择了CNN
- 最后,用实际的图像的例子来说明结果的正确性,从三个维度总结了negative图像的特征,物种特征、主题定义、背景柔和度
- 第三问
- 他这里报告的优先级,是另一种思路,其实是评定了不同地区报告的优先级
- 先进行了一个根据经纬度的层级聚类(这里经纬度求距离应该不严谨,得选转成米),说明了一下聚成鸡几类的合理性,聚成五类后,通过该区域内的图像通过上问CNN模型输出的正概率,来决定出优先级最高的区域
- 第四问
- 至于更新,就是设置不同的更新指标间隔,比较性能吧,然后选出最好的更新时间
- 更新时间是通过设置多个时间,来计算模型的loss和精准度,然后三次样条差值补全数据,他这里定义的模型更新最佳时间是与时变函数(自动编码器的loss曲线和CNN的精度)的导数极值相对应的横坐标,(他意思是分类精度下降最快的时候更新,有点道理但不多的样子)
- 再解释一下更新方法,就是将新的处理过的数据放进去
- 至于更新,就是设置不同的更新指标间隔,比较性能吧,然后选出最好的更新时间
- 总结
- 总的来说,这篇论文相比上篇不算太创新,更多的是计算机视觉方面的功底,用的模型和方法,比上篇更容易懂,思路是不错的,比较简单
- 这篇的可视化做的真的不错,工作图挺好看的,拿o奖一半功劳在可视化上。
- 假设
-
2101587
- 第一问
- 从分析蜂的习性入手,不错的角度,蜂后和蜂后,蜂后在的地方就是巢,分析蜂后的分布和地理(更喜欢在城郊、山坡而不是平原,最后用高程数据代替)
- 然后他给了一个AHP,是自己打的分,太捞了,就不看这部分了(不是说方法不好,只能说太不严谨,也只能在美赛论文里看到,不过这块哥们也复现不了,罢了罢了)
- 第二问
- 他这里实际上做了一个多分类,我感觉没有必要
- 样本不均衡的处理是网上下载图片
- 第三问
- 他这里是根据地理距离,来将报告分为三个组别,每个组别有不同的计算方法
- 与positive点越远的地方越看重图像识别的结果,越近的地方越看重蜂迁徙模型和地理模型的结果,挺不错的思路,可学
- 第四问
- 更新,有点捞,没有任何模型,纯语文建模
- 总结:
- 这篇感觉第三问有亮点,emm,整体来说不太严谨,比较偏向地理,而且参考的论文不如前两篇多。展示了自己的工作量,但是部分还在说自己的模型结果不是很好,emm,可能美赛看重的就是创新和排版吧,结果不重要
- 第一问
2021D
简单解读一下题目
四个数据文件
-
influence_data.csv
- 不同的艺术家、流派以及他们互相之间影响的关系
-
full_music_data.csv
- 全部的音乐,包含作者、音乐的特征,时间
-
data _by_artist.csv
- 某个艺术家音乐的特征
-
data_by_year.csv
- 某一年音乐的特征
- 第一问
- 分析不同音乐家之间的影响关系,要对影响程度进行量化
- 第一种方法:马尔可夫链方法
- 可以根据影响关系得到一个矩阵,有关系为1没关系为0,把它当作状态转移矩阵,反应了不同节点之间的转移概率,只要求出稳定解,就可以得到各节点影响程度的相对重要程度
- 第二种方法:循环比赛排名
- i影响了j,就相当于i胜了j
- 每次循环是计算,把j影响别人的分加到i头上,不停迭代,名次排名会趋于稳定,可将较高的排名作为依据
- 很像谷歌的PageRank算法(其实知道啥时候该调用啥算法就行了)
- 根据题目要求还可以探讨一些图的典型特征
- 节点的度:反应follower数量
- 变异系数:把每个节点的度序列汇在一起,求变异系数,反应平均波动程度,数值越大,反应各影响者差异就越大。还可以分流派做
- 网络最大半径R
- 比如这样
- 第二问
- 对艺术家的相似性进行度量,分析流派内和流派间
- 首先对艺术家特征归一化
- 然后求两个艺术家之间的相似性,就可以用将艺术家之间的特征向量,做cos,或者求相关系数啥的,都可以
- 然后是流派内和流派间的相似性
- 定义流派内的相似性,就是该流派内所有艺术家之间求相似性,然后求平均
- 定义流派间的相似性,就是该流派间所有艺术家之间求相似性,然后求平均
- 这是流派间的,在论文中可以把所有的都画出来,然后以热力图的方式展现,学习一手o奖论文中对应的排版和配图
- 结论显然会是流派内的相似性强于流派间的
- 第三问,小问比较多
- 探索流派之间的关系
- 流派间的相似性其实就是某种关系了,可以反应距离的大小,于是我们便可以想到在此基础上做一个聚类,越先被聚类的关联性越高,单独分为一个类别的与其他的关联性不高
- 探索区别流派的指标
- 考察每个特征,考察不同流派在该特征上的差异。我认为可以直接用一个独立样本t检验,然后他这里给的方法也可以。选取典型的几个在论文里展示就行
- 对那些差异大的特征,将作为流派的区别特征。同时考察同一流派内,音乐特征随时间的变化特性。
- 考察每个特征,考察不同流派在该特征上的差异。我认为可以直接用一个独立样本t检验,然后他这里给的方法也可以。选取典型的几个在论文里展示就行
- 对某一流派对其他流派的影响
- 主要考察该流派拥有其他流派的追随者人数或比例。
- 第一个公式应该分母还要加一个西格玛1到20
- 探索流派之间的关系
- 第四问
- 影响者和追随者之间的相似性指标
- 证明影响者和跟随者之间相关
- 求出每个艺术家,跟其追随者的相关性,取其平均值。然后求所有艺术家的这个值的平均值
- 影响追随,传染性强的指标
- 也跟上面差不多
- 还可以考虑按年代来
- 第五问
- 表征音乐进化程度的特征
- 每个流派内,算出不同年代间特征的平均值差异,然后求出最大值,就可以得到每个特征的最大差异值,然后比较哪个特征的最大差异值最大(可能有点绕,还是数学公式清楚)。就可以得到哪个特征是流派进化的代表
- 艺术家代表的革命者
- 第一问已经做了一个影响力分析了,那个是根据图的,这里可以换一种。这里要做一个排名,所以先需要有指标,指标可以选取比如他的追随者的人数,以及他影响的流派数,做归一化后,可以将这两个相乘做合成。
- 还可以划定一个阈值,说明前百分之10是革命者
- 表征音乐进化程度的特征
- 第六问
- 探索各流派随着时间的影响力
- 比如做出每个流派的人数随着时间的变化的折线图
- 动态指标
- 欧几里得距离
- 相同流派与最初的音乐特征差异越来越大
- [扩充]由于data_by_year中有一个popularity,所以可以做一个回归分析,探索哪个特征跟popularity关系最大
- 探索各流派随着时间的影响力
- 第七问
- 探索社会环境影响音乐
- 分析一下流派总个数与艺术家总人数、不同流派艺术家人数随着时间的变化,然后用政治、经济去解释这种现象
- 还可以分析一下歌名,提取高频词,分析一下不同年代高频词的不同
- 敏感性分析
- 敏感性分析就是自变量变化个5%,看总体
- 这里能做敏感性分析的不多
- 一个是可以删除一年的数据,然后比如计算一下第二问的指标,流派内的流派间的都可以做
- 当然,删掉一部分影响大的革命者,之类的也是行,反正就是天马行空的,
- 2106028
- 第一问
- 因为是排名,然后就做成了一个评价问题
- 选取了五种指标,使用熵权法
- 前两个是参考网络中计算节点重要性的一些指标[节点中心性];第三个是参考文献的,代表了影响的深度;第四和五个应该是自己定义的,分别代表了影响的人数和流派数
- 介数中心性,还做了一下归一化
- 特征向量中心度
- 三度影响,用广度优先搜索BFS一级一级计算
- 追随者忠诚度,每个人忠诚度是1,平均分配给影响他的人
- 影响流派多样性
- 指标主要是从网络里抽象出来具有现实意义的指标,作者总结前四个指标反映了网络的拓扑结构,最后一个指标反映影响类型
- 然后用熵权法计算权重,并给出了排名靠前的一些人的指标
- 最后还需要用一个子网络来展示,并揭示音乐影响力在其中的怎么展现的
- 用BFS抽出一层三级网络
- 然后解释一下前面的指标的意义(个人感觉这里应该做一个可视化,不然抽出子网络抽了个寂寞)
- 第二问
- 音乐相似性度量,本文认为特征之间有相似性,就先做了一手特征之间的相关性分析,然后做因子分析消除多重共线性。
- 在可视化方面,特征间相关性分析是热力图形式,然后为了展示不同流派在特征上的不同,选取3个特征(其实2个也行,三个看着高级),每个音乐家选第一首歌作为一个点,在三维上初步展示不同流派间的差异。
- 最后用余弦相似性计算,再用一个热力图表示不同流派之间的相似性大小。
- 其实这里没有太多说明流派内的相似性比流派间的强,就3d图展示了一下
- 第三问
- 本文分为两部分,第一部分是承接上文的相似性来说明流派间的关系,第二部分是利用音乐特征指标
- 第一部分
- 先阐述一下流派内相似性肯定高,然后探索流派间相似性
- 利用前面提过的忠诚度的概念,加起来计算整个流派对另一个流派的忠诚度,一个流派是一个点了这里,然后计算他们相连的边权重,这里可视化做的不错,用线的宽度和颜色表示相似性和源流派
- 第二部分
- 挖掘每个流派的重要特征,提出三种方法
- 低方差特征,同一流派内方差越小的特征,有可能更能代表流派
- 分析法,从前面的3d图那样分析流派特点
- 极端值检测,用小提琴图来检查某些流派会不会在某些特征上有异常值
- 结合举的例子进行一些阐述
- 挖掘每个流派的重要特征,提出三种方法
- 第三部分
- 流派的演化,牵扯到跟时间的关系
- 这里分为三个小部分,流派内艺术家人数、作品数、某些音乐特征的变化
- 这里是只抽取了五个流派进行展示(不展现全部的In particular, we select several genres and plot a trend chart of the numberof musicians in the genres as is shown in Figure)这样看起来比较清爽,可学
- 然后全是简单的折线图配上很多文字的解释
- 第四问
- 证明追随者被影响者影响了,本文的角度是证明二者的相关关系比随便拉两个随机的艺术家要强,使用假设检验
- 因为美赛太开放了,很多都要自己定义和简化,于是这里就先Definition相似性,这里定义的是余弦相似度
- 然后写明步骤
- 选取特征
- 分组
- 检验是否正态分布,是就用皮尔逊,不是就用斯皮尔曼
- 嘎嘎算,循环,对比结果
- 可视化+说明结论
- 第五问
- 音乐进化的标志和代表人物
- 第一部分 标志
- 他这里借用了金融股票里的均线和布林带概念,对于三个提取的因子,如果均线快速突破布林带,则意味重大变革
- 他这里借用了金融股票里的均线和布林带概念,对于三个提取的因子,如果均线快速突破布林带,则意味重大变革
- 第二部分 代表人物
- 在前面的时间段里,找到音乐家的某因子时间序列,和该因子平均值的时间序列,对两者求时间序列的相关性,如果约等于1,则可以说明
- 第一部分 标志
- 音乐进化的标志和代表人物
- 第六问没做好,前半问没做,估计是比赛比的昏昏沉沉了,第七问全是字,懒得看了。
- 敏感性分析
- 在ma和布林带那里,调整了一下滑动窗口的长度,发现还是差不多结论,说明正确
- 前面计算谁是革命者的时候设置了一个阈值,修改阈值,查看结果
- 第一问
2021E
- 摘自别人的
11.在论文2102057中,完整性非常值得学习,比如有敏感度分析,优缺点,推广性,讨论这些流程。颜色搭配图表的做法值得我们学习,目录的排版风格也值得学习,摘要过程中将结果描述清楚的做法也值得学习,假设中有几个基本假设基本每个模型都会用到,一定要借鉴来。排版非常好,排版风格应该模仿,关于小标题的起名,要突出模型,不能单调乏味。建模部分主要用到了逻辑增长这一简单模型。考虑比较到位,但是也承认了一些不足,模型反复描述,反复提到的写法值得学习,这样做描述也就更清楚了。对于公式的把握很好,解释具体变量含义以及整体用法,然后假设在特定时间再次提到相关的假设。表格呈现大规模结果的形式很好,我的想法是是否能画图呈现结果更加生动形象。这篇论文给我最大感触就是对于模型结论的描述,应该得出尽可能多的结论,这是很重要的一点,然后如果结论分开得出最后还可以综述在一个表格中,结论的描述至关重要!总之,这是一篇排版,模型以及论文写作都非常好的一篇O奖论文!
12.在论文2113869中,学到了bp神经网络用于预测和Dijkstra的用法及叙述过程,叙述问题一定很完整,要能切实解决实际问题。这篇论文在我看来一般,但却是一篇O奖论文,所以只要叙述问题完整,建立模型能实际解决问题,结果分析到位,就是一篇很好的论文!
(BP神经网络,Dijkstra)
13.在论文2119031中,用到了熵权法,多目标优化的遗传算法求解,这部分的描述以及思路值得学习,这篇论文我认为排版上最好的一点是每次写完公式后,在公式后都分点描述清楚了每个变量,看着很清晰,值得学习!
(熵权法,多目标优化遗传算法)
14.在论文2119893中,使用了随机过程模拟突发情况,并测量可能带来的影响,泊松分布用来度量给定时期内自然灾害的发生频率。一年内的灾害数量遵循泊松分布。随后用到了模糊综合评价的一些知识,对于指标的最大最小中间正态的处理过程也是描述的非常清晰合理,很值得学习!熵权法的过程也很好。关于组合赋权的描述也很清楚,值得借鉴!
(随机过程,泊松分布,熵权法,模糊综合评价)
15.在论文2122175中,对于指标的描述非常到位,同时再次看到了指标的树状图,这很值得借鉴。熵权法和变异系数法的指标处理再次被用到,还是学习语言描述。粒子群算法结合灰色预测的算法是一个很好的创新点。模型描述过程也值得借鉴。
(熵权法,变异系数法,灰色预测结合粒子群)
16.在论文2102185中,主要是topsis算法,语文建模的比例极大,在语文建模方面,也有很多值得我们研究的地方,比如说,语文的描述,作为一道政策题,政策的描述非常重要,一定要描述的尽可能的详细,描述出政策是什么,实施政策的影响,为什么实施政策,实施政策的结果分析到位,以及实行政策的阻力。不得不说,语文建模到了极致,只要真正解决了问题,这就是一篇很有效的论文。
(TOPSIS)
17.在论文2103649中,这篇明显比上一篇在模型丰富度和数学上好的多,但是语文建模要稍逊一筹,但是对于政策的上述分析依旧是到位的。模型方面,马尔科夫链,数据包络分析法都比较新奇,值得好好学习。图表的展示也丰富,尤其是政策部分
- 2102057
- 背景介绍添加一个小图,生动有趣,要注意标明图片来源
- 假设:最好是一句话的假设,配上后面的解释
- 要大胆的做出合理的假设,才能简化问题
- 该文提出的分别是
- 每个人的食物消耗只计算卡路里和蛋白质
- 食物的价格是稳定的
- 二氧化碳的消耗只计算生产过程中的,不算运输过程的
- 忽略极端事件,在预测食物系统发展的过程中,假设目标国家都是稳定的
- 我们没考虑进去的因素对整个事件影响很小
- 我们在网站上获取的数据精准且可靠
- 很多都能学习
- 这篇文章独特的结构也是我第一次见,不是按照问题1、2、3这样,而是自己构建了一个EEE(环境、公平、经济)模型,从模型的基础概念、第一个E、第二个E、第三个E、应用、灵敏度分析几个模块回答。没有按问题顺序答,但是回答了大部分的问题,构思巧妙
- 环境
- 作者看着题目中的“可持续性发展”,想到了environment
- 然后经典选指标
- 通过对作者论文里给的查询数据网站"our world in data",搜索食物生产对环境的一些影响,可以找到,What are the environmental impacts of food and agriculture?
- 作者参考着选了三个温室气体(使用co2代表)、水体富营养化(使用氮磷值代表)、可居住地变化(土地都从森林变成了农田,减少了生物多样性)
- 于是,作者看着题目中“如何为了可持续性发展而优化食物系统”,默默沉思,可以在“our world in data”网站中,找到“吃肉增加二氧化碳排放”的文章,于是创新的提出“加增动物食品税”的方法
- 开始建模
- 食物结构转换模型,设定一个国家每年人口、每天的蛋白质和卡路里需求,直到这个国家的蛋白质、卡路里需求能全部由植物提供为止。
- 引入了两个系数,这两个系数随着时间增长,直到为1就完成, 于是借用逻辑斯蒂增长模型,来表示这两个系数的增长函数。其max值取决不同国家国情
- 然后是参数介绍,这部分思路简单又精彩
- 先讲植物相关的参数(比如生产提供1000 k卡路里的植物铲平会产生多少co2),总共3*2(cal/pro)
- 然后是动物的,也是6种
- 其中,比如植物生产是由大豆、青菜、玉米之类的按某种加权算起来的(因为数据找到的是给某种特定植物的co2量)
- 最后就可以根据每年生产的植物量/动物量*对应的消耗,算出三个方面的值了(气体、水污染、土地),带入数据即能算出实例
- 公平
- 从食品过剩的地方转食物到缺的地方
- 是建立了一个微分方程
- 不知道是参考什么搞出来的,可学
- 经济
- 分粮食、劳动力、土地三方面(公式后补充西格玛符号),等于产量*成本
- 然后算了一个受益
- 最后算了一个利润=受益-成本
- 还要算上税
- 应用
- 一看图表就像编的,但是要说明其合理性
- 在正文里带上颜色,对应图里的线颜色
- 总结:
- 本篇胜在模型足够出彩,配图较少
- 2122175
- 食物系统
- 先分析食物系统的活动流程:生产、加工、分配、消费和浪费
- 然后确定评价食物系统的指标(包括食物供应、食物获取、食物利用和环境、社会经济五个方面),具体有
- 供应
- 土地利用和农业工人数构成粮食生产指数
- 运输
- 食物进口
- 获取
- 粮食不安全的人口比率
- IDA resource allocation index
- corruption percep-tion Index
- 食物偏好,这里用了宗教偏好来表示 Freedom of religion Index (IDEA)
- 利用
- 营养不良率
- 粮食安全:安全饮用水人口比例和使用安全卫生设施人口比例
- 环境
- 水资源
- 森林
- 温室气体
- 社会经济
- GDP
- 就业人口比例
- 供应
- 确定指标间权重
- 小指标合成大指标
- 用熵权法
- 然后大指标之间用变异系数法
- 说实话,两个方法思想基本一样,emm多此一举,我感觉要是能找到好的文献参考的话,大指标之间用AHP算权重更好
- 小指标合成大指标
- 给了一个最后各个指标权重的表,给了一个世界范围的饥饿指数图和综合指数图。说明了自己建立的综合指标,能够更好的评价一个国家的食物系统,考虑了更多因素,比饥饿环境好
- 然后建立了一个食物系统进化的指标(包括系统复原力、盈利能力、效率、公平、可持续性五个方面)
- 复原力
- 参考一篇论文,https://sci-hub.st/https://doi.org/10.1080/10440046.2012.746767,叽里呱啦从论文里抄,讲了一堆概念,然后说将这个思想应用到我们这个过程,
- 然后选取了极端事件的频率(FE)、食物多样性(FD)、财富水平(WL)和政府效率(GE)
- 盈利能力
- 这里说范围太广了,就狭义化巴拉巴拉(美赛确实需要简化)
- Local prices(LP), Labor costs(LC), Transportation facilities(TF), Advertising(AD), agricultureland(AL)
- 效率
- 运输模式和消费方式
- 消费方式这里是设定了一个系数,显然可以灵敏度分析
- 公平
- 运输模式
- 腐败感知指数,反应政府做正确决策的可能性
- 目前公平
- 未来公平
- 可持续性
- 安全、稳定、生态
- 这里盈利和效率在加权计算公式最后,分别加了一个r,用来表示紧急事件的影响,可以用来灵敏度分析,丰富内容
- 公平、可持续性是第一问要求的,其他可能自己想可能参考文献然后抄抄的
- 复原力
- 搞了半天,在建立了综合评价模型和五个优化指标之后,才开始回答问题
- 嘶,然后他所谓的优化就是按公平和可持续性各占百分之五十,重新算了一下熵权法,比较一下与前面系数的不同?,有点捞
- 然后分析效益和成本
- 然后应用,用了一手基于粒子群优化的灰色预测,对两个国家的系统指数进行了一个预测,我感觉是啥也没有,纯编
- 适应性和扩展性更多的是语文建模
- 提出意见
- 食物系统
转载:https://blog.csdn.net/weixin_57345774/article/details/128887319