分析杭州历年城区内小区房价变化,根据房地产知识定义楼盘,为用户购房提供决策参考。(可分析其他城市,替换第一个城区链接即可。)
- 如何评估房子性价比。
- 二手房源如何定价。
- 房价预测趋势。
- 楼盘开发预测。
房源网站数据全,但是量过大,我们只针对小区这一维度,给出纵向和横向对比的维度数据,做分析。
获取房天下的数据源,数据入库。
指标:小区名,房价,经度,纬度,板块评级,物业评级,活跃度评级,教育评级,搜索热度。
待分析出的指标:同比,环比,分类,综合评分,预测房价。
requests请求数据接口,selenium获取页面静态数据。
selenium有点慢,5小时可爬到杭州小区全部数据。中间会有反爬机制,弹出验证码页面,导致查不到页面元素,可以监听异常,手动输入验证码,或者用图像识别自动输入,我嫌麻烦就手动了,大概输入个5、6次,后期核心业务做好了,再加图像识别这块。
树形结构嵌套请求,可以用for循环,可以用队列。
执行crawl_data.py
脚本,抓数据。
清洗脏数据,整理数据维度。 这个过程可以说是最麻烦的了,各种不确定,不规范的数据,都要在这阶段解决,处理成规范的可用的数据。
缺少的值不容易估算,先填充0,不影响计算,后面为了表现缺省值再填充-1。
活跃度评级
、板块评级
、物业评级
、教育评级
取值区间[A,B,C,D]
搜索指数
取值区间 0-50
假设这些指标在一个量化维度,令A=10,B=7.5,C=5,D=2.5,default=0,搜索指数/5,归一化到0-10,五个值之和可以看做一个简单维度的评分。
待开发:后面四个大文本字段信息量太大,需要正则抽取指标,后期再细化建模。
执行data_analysis.py
脚本
房地产指标,定义楼盘,分类。 环比,同比-增长,下跌
购物中心,星巴克,地铁口,公交,学校,
得房率高,公摊面积小,开发商实力雄厚,区域潜力,高性价比,绿地率高(30-60),容积率低(2.5-1),开间,进深
高新产业占GDP的比重、增速,年轻人的人口占比、增速
买房场景: 选筹, 返租,
楼盘标签: 远大大(远郊,大盘,大户型), 公寓, 商铺, 标杆盘, 别墅, 中央商务区, 地铁投资, 被城市包住的郊区 睡城 城乡结合部 新区 学区房 笋盘
期货和存货
地图展示:百度地图,echarts 可视化找了几个工具,arcgis for python的mapview对象不好用,且只支持jupyter的展示,geopandas没有具象到街道和小区,还是百度地图最香,统计图表用echarts。
微观层面上可以预测,但是实际上会受政策,经济等因素的影响,所以预测仅仅是在微观层面上,即仅考虑指标和数值的维度上,提供参考。
Author: suimingyang
Email : [email protected]
Blog : https://suimingyang.github.io/