失效链接处理 |
pythonscrapy爬虫实例Python爬虫Scrapy实例 PDF 下蝲
相关截图Q?/strong>
![]() 主要内容Q?/strong>
、创建Scrapy{
g所有的框架Q开始的W⼀步都是从创徏{开始的QScrapy也不例外。在q之前要说明的是Scrapy{的创建、配|、运q?hellip;…默认
都是在终端下操作的。不要觉得很难,其实它真的⾮常简单,做填I题已。如果实在是法接受Q也可以qh思配|好EclipseQ在q?/span>
个万能IDE下操作。推荐还是在l端操作较好,虽然开始可能因Z熟?zhn)出现很多错误,错多了(jin),通过排错印象深刻?jin),也就q然学会(x)
?jin)。打开Puttyq接到LinuxQ开始创建Scrapy{。执q命令:(x)
cd
cd code/scrapy/
scrapy startproject todayMovie
tree todayMovie
执⾏l果如图1所?/span>
? 创徏todayMovie{
tree命o(h)以?wi)Şl构䏘g录l构。tree命o(h)默认情况下是没有安装的,可以执⾏命o(h)apt-get install tree来安装这个命令?/span>
qo可以很清楚地看到todayMovie录下的所有ug和u录。⾄此Scrapy{todayMovie基本上完成了(jin)。按照Scrapy的提C息,
可以通过Scrapy的Spider基础模版Z建uh个基的。相当于把填I题打印到试卷上Q等待填IZ(jin)。当?dng)也可以不Scrapy命o(h)建u
基础Q如果⾮要体验⼀下DIY也是可以的。这q我们还是怎么单怎么来吧Q按照提C息,在该l端中执q命令:(x)
cd todayMovie
scrapy genspider wuHanMovieSpider mtime.com
执⾏l果如图2所?/span>
? 创徏基础爬⾍
q此Q⼀个最基本的项已l徏完毕了(jin)Q它包含?jin)⼀个Scrapy所需的基g。到q⼀步可以说填空题已准备完毕Q后q的h作q_?/span>
是填IZ(jin)。图2中第hq⽂字scrapy genspider是⼀个命令,也是Scrapy最常T的⼏个命令之hQ它的⽅法如?所?/span>
? scrapy genspider命o(h)帮助
因此Q刚才的命o(h)意思是低Tscrapy genspider命o(h)创徏h个名字ؓ(f)wuHanMovieSpider的爬q脚本。这个脚本搜索的域ؓ(f)
mtime.com?/span>
2、Scrapyg介绍
Scrapy{的所有⽂仉已经C?jin),如?所ͼ下⾯来看看各个⽂件的作T。⾸先最层的那个todayMoviegҎ(gu){名,q个?/span>
什么好说的?/span>
在第h层中是h个与{同名的⽂件夹todayMovie和⼀个⽂件scrapy.cfgQ这q与{同名的⽂件夹todayMovie是模?也可以叫做包
?Q所有的{代码都在q个模块(gҎ(gu)者叫?内添加。❲scrapy.cfggQ顾名思义它是整个Scrapy{的配|⽂件。来看看q个
gq有些什么。Scrapy.cfgg内容如下Q?/span>
|