本课题的主要任务就是通过神经网络对房屋的价格进行预测,这里,我们采用的数据是奥克兰其中一个郊区的房屋价格的数据。在MATLAB中,使用load函数,将数据进行导入,可以看到房屋价格数据如图2.1所示。
图2.1 奥克兰一郊区房屋价格
这里我们采用的影响房屋价格的因素主要有13项,其分别为:每个城镇的平均犯罪率;住宅用地超过500平米的比例;每个城镇非商业用地的比例;距离海洋的距离在1公里内,则为1,否则为0;氧化物浓度;每个房子的平均房间数;1940前自建房屋的比例;到购物中心的权值距离;高速公里的标号;每1万美元产出的值;教师比例;20岁以下的人口比例;退休人口比例。这些数据都是影响其房屋价格的因素。
·每个城镇的平均犯罪率;
图2.2每个城镇的平均犯罪率
从图2.2可以看到当一个城镇的犯罪率较高的时候,其房屋价格会相应的较低,因此犯罪率是影响房屋价格的一个因素。
·住宅用地超过500平米的比例;
图2.3住宅用地超过500平米的比例
从图2.3可以看到,住宅用地越多,那么房屋的价格也就相应的低,当住宅用地较少的时候,房屋价格会相应的高。
·每个城镇非商业用地的比例;
图2.4每个城镇非商业用地的比例
从图2.4可以看到,商业用地较多的时候,城镇的房屋价格会较低,反之,城镇的房屋价格较高。
·距离海洋的距离在1公里内,则为1,否则为0;
图2.5距离海洋的距离在1公里内,则为1,否则为0
对比房屋价格,可以看到,房屋距离海边较近的时候,房屋价格会较高,这是由于较好的生活环境导致的,离海边较远的地方,价格相应的较低。
·氧化物浓度;
图2.6 氧化物浓度
很显然,当空气质量较差的时候,房屋价格也较低。
·每个房子的平均房间数;
图2.7每个房子的平均房间数
每栋公寓的房价数较多的时候,这说明人气较高,相应的房屋价格也会较高,反之,房屋价格就会较低
·1940前自建房屋的比例;
图2.8 1940前自建房屋的比例
从图2.8可知,年代久远的建筑,其价格必然就会较低,而较新的建筑,其价格就较贵。
·到购物中心的权值距离;
图2.9到购物中心的权值距离
从图2.9可以看到,当购物中心较多的时候,那么房屋价格就高反之就低。
·高速公里的标号;
图2.10高速公里的标号
从图2.10可知,房屋周围高速公路较多的时候, 房屋价格必然偏低,但是周围高速公路较少的时候,房屋价格会略有变高。
·每1万美元的管理费;
图2.11每1万美元的管理费
从图2.11可知,当某个区域市政管理成本较高的时候,那么该区域的房屋价格就会变低。
·教师比例;
图2.12学生教师比例
从图2.12可知,当学生与教师数量比值较大的时候,也就意味着该地区师资力量缺乏,教育水平较低,那么其房价就会较低。
·20岁以下的人口比例;
图2.13 20岁以下的人口数量
当20岁的人口数量较小的时候,房屋价格就会较低。由此可见,年轻人的数量也决定了房屋的价格。
·退休人口比例;
图2.14退休人口比例
这个说明老年人多的地方,房屋价格就较低。
从以上的分析可知,房屋的价格的决定因素如下表所示:
表2.1 房屋价格决定因素
|
影响因素 |
影响分析 |
1 |
平均犯罪率 |
该因素值较高,则房价较低 |
2 |
住宅用地 |
该因素值较高,则房价较低 |
3 |
非商业用地 |
该因素值较高,则房价较低 |
4 |
距离海洋的距离 |
该因素值较高,则房价较高 |
5 |
氧化物浓度 |
该因素值较高,则房价较低 |
6 |
每个房子的平均房间数 |
该因素值较高,则房价较高 |
7 |
1940前自建房屋的比例 |
该因素值较高,则房价较低 |
8 |
购物中心 |
该因素值较高,则房价较高 |
9 |
高速公里 |
该因素值较高,则房价较低 |
10 |
每1万美元管理费 |
该因素值较高,则房价较低 |
11 |
教师比例 |
该因素值较高,则房价较低 |
12 |
20岁以下的人口比例 |
该因素值较高,则房价较高 |
13 |
退休人口比例 |
该因素值较高,则房价较低 |
神经网络的工作过程主要由两个阶段组成,一个阶段是学习期,即训练阶段,此时连接权值可调整,另一个阶段就是工作期,此时,其各个权值固定。
在学习阶段,训练集中已知类别的输入向量将随机输入给神经网络,每次的输入使得PE之间的连接权重根据一种固定的学习规则得到细致的调整,使得网络的输出向正确的方向转变。随着训练过程的推进,网络的性能得到的改善,直到网络中每一个PE都收敛到合适的权重为止。
在神经网络的学习阶段,当网络做出错误的判决的时候,那么通过神经网络的学习,应使得网络减少下次犯同样错误的可能性,通常情况下,系统将会给网络一个随机的权值,然后将信号输入到神经网络,网络将输入的模式进行加权求和、并与门限进行比较,然后进行非线性运算从而得到网络的输出。这个时候系统输出正确和错误的概率是相同的,那么这个时候,系统将正确的输出结果的连接权值增大,从而使下次输入同一个信号的时候,得到正确的输出结果。
通常情况下,按这种方法学习几次后,神经网络将判断的正确率大大提高,一般来说,网络中所含的神经元个数就越多,那么它能够记忆和识别的模式也越多。
当训练结束进入工作期时,权重系数保持不变,此外神经网络的输入是未知类别的向量,输入的信息经过神经元层层传播,最后在输出层上产生输出向量,根据此输出向量可以将对象划分到某一类中,从而实现对象的模式识别。
以上就是神经网络的基本工作过程。
3.3 基于神经网络的预测
在自然科学和社会科学中,限于人们的认识能力,许多问题的内在规律还不能被揭示出来。对于这类问题的分析和预测,人们较多的采取回归分析与时间序列分析的方法,在时间序列分析方面,一般用ARMA模型拟合时间序列进行建模和分析。然而,ARMA模型是一种平稳的,线性的模型。对于经济模型(比如房屋价格预测模型)中常出现的非线性,非平稳的时间序列的分析不再合适。虽然目前也有一些处理某类非线性或非平稳时间序列的方法,但还不存在统一的模型及方法。
人工神经网络作为一种模拟生物神经系统结构的人工智能技术,能够从训练数据样本中自动地学习以前的经验而无需复杂的查询和表述过程,并能自动地逼近那些最佳刻画了训练样本数据规律的函数,揭示出数据样本中所蕴含的非线性关系,而不论这些函数具有怎样的形式。由于神经网络的这种非线性映射能力以及对任意函数的一致逼近性能,此项技术在经济建模研究中日益受到重视。近几年来,人工神经网络作为一种建模
工具被广泛的应用于非线性模型问题中,取得了一定的成果。
在前面,我们分析影响房屋价格的多个因素,对住宅价格分析与预测中出现的非线性或非平稳的时间序列分析中,以往传统的预测方法已不能胜任,而人工神经元网络,正弥补了这一缺点。从本质上讲,人工神经网络模型就是一种非线性的动态系统,并可通过对数据样本的训练来建立模型。因此人工神经网络也为非线性,非平稳时间序列的建模和预测提供了一种新的解决思路,使其对住宅价格的预测成为可能。
下面我们将结合本课题的要求进行研究基于神经网络的数据预测。
4.基于神经网络的房屋价格预测与分析
4.1 价格影响因素的选取
影响商品住宅价格变动的因素是复杂、多变的,将所有因素纳入分析研究是困难的。但是可以认为在一段经济、政治比较平稳时期,商品住宅价格的变动是由一些基本因素决定的。根据本文第二章介绍的,考虑到奥克兰地区的实际情况,将选取13个主要的因素作为影响房屋价格的主要因素:
·每个城镇的平均犯罪率;
·住宅用地超过500平米的比例;
·每个城镇非商业用地的比例;
·距离海洋的距离在1公里内,则为1,否则为0;
·氧化物浓度;
·每个房子的平均房间数;
·1940前自建房屋的比例;
·到购物中心的权值距离;
·高速公里的标号;
·每1万美元的管理费;
·教师比例;
·20岁以下的人口比例;
·退休人口比例。
将以上因素分别表示为:。
这里将原始的样本数据和通过神经网络预测得到的数据进行对比,其结果如下:
图4.7 原始样本数据和预测后的数据对比图
从图4.7可以看到,通过神经网络预测后的数据和原始的数据基本相似,通过相减得到其误差信息如下所示:
图4.8 误差曲线
从图4.8可知,通过神经网络之后,其预测输出值和样本值之间的误差都在0附近,但是对于部分值,如房屋价格中几个跳变的区域,误差较大,这就是对突发情况的预测能力较弱导致的。
4.4实际价格的预测与分析
以上,我们已经实现了预测模型,下面将使用别的数据进行测试,来验证系统的正确性。
图4.9 区域1的房间预测仿真
图4.10 区域2的房间预测仿真
图4.11 区域3的房间预测仿真
通过以上的仿真,说明系统是正确,通过神经网络得到的预测数据和实际的数据十分接近。通过这个模块,可以预测其他一些因素相似的区域的房屋价格
转载:https://blog.csdn.net/ccsss22/article/details/109661957