天气后报网——数据爬取(Scrapy框架)
1.创建天气后报网爬虫
在开始编程之前,我们首先要根据项目需求对天气后报网站进行分析。目标是提取2016-2020年每个城市的每天的温度、天气状况、风力风向等数据。首先来到天气后报网(http://www.tianqihoubao.com/lishi/)。如图1所示。
图 1
可以看到列表中每个省份下的城市信息,以北京市为例,点击进去,进入二级页面。
、 图 2
以2011年1月北京天气为例,进入三级页面(详情页面),其中可以看到日期、天气状况、气温、风力风向等所需的信息。
图 3
以上将整个爬虫项目的流程分析完成,编程可以开始了。首先在命令行中切换到用于存储项目的路径,然后输入下面命令创建爬虫项目和爬虫模块:
1 scrapy startproject tqhbCrawl
2 cd tqhbCrawl
3 scrapy genspider -t crawl tqhb_spider \"tianqihoubao.com/lishi/\"
来源:https://www.cnblogs.com/chyhoo/p/14581518.html
图文来源于网络,如有侵权请联系删除。