VC驿站

 找回密码
 加入驿站

QQ登录

只需一步,快速开始

搜索
查看: 98|回复: 1

[分享] Scrapy框架实例

[复制链接]
08_avatar_middle
最佳答案
0 
在线会员 发表于 2020-6-17 17:33:42 | 显示全部楼层 |阅读模式

下载安装
pip install scrapy
Hello World
创建工程
在 cmd 下切换到想创建 scrapy 项目的地方,然后使用命名
scrapy startproject tutorial
注:tutorial 为工程名
然后就会发现在当前位置会多出一个文件夹,名字是 tutorial。它的目录结构是这样的:
tutorial/
    scrapy.cfg
    tutorial/
        spiders/
            __init__.py
        __init__.py
        items.py
        pipelines.py
        settings.py
注:
scrapy.cfg 是该项目的全局配置文件
tutorial/: 该项目的python模块。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.
定义 Item
Item 是保存爬取到的数据的容器;其使用方法和python字典类似。虽然您也可以在 Scrapy 中直接使用dict,但是 Item 提供了额外保护机制来避免拼写错误导致的未定义字段错误。
这里这样写
# -*- coding: utf-8 -*-
import scrapy
class DmozItem(scrapy.Item):
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()
DmozItem 为该 Item 的名字, 该类是一个 scrapy.Item 类。
我这里想获取到的信息是 title、link 和 desc 这三个字段,它们都是 scrapy.Field 类型的。
编写爬虫
在 tutorial/spiders/ 下创建一个 py 文件 dmoz_spider.py,它是这样定义的:
import scrapy
from tutorial.items import DmozItem
class DmozSpider(scrapy.Spider):
    name = 'dmoz'
    allowed_domains = ['dmoz.org']
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        for sel in sites:
            item = DmozItem() # 实例化一个 DmozItem 类
            item['title'] = sel.xpath('a/text()').extract()
            item['link'] = sel.xpath('a/@href').extract()
            item['desc'] = sel.xpath('text()').extract()
            yield item
爬虫类必须继承自 scrapy.Spider 类, 且定义一些属性:
name: 用于区别 Spider。 该名字必须是唯一的,不可以为不同的 Spider 设定相同的名字。
start_urls: 包含了 Spider 在启动时进行爬取的 url 列表。 因此,第一个被获取到的页面将是其中之一, 后续的URL则从初始的URL获取到的数据中提取。
parse() 是 spider 的一个方法。 被调用时,每个初始 URL 完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成 item )以及生成需要进一步处理的 URL 的 Request 对象。scrapy 为 Spider 的 start_urls 属性中的每个URL创建了 scrapy.Request 对象,并将 parse 方法作为回调函数(callback)赋值给了 Request。Request 对象经过调度,执行生成 scrapy.http.Response 对象并送回给 spider parse() 方法, 一般返回 Item 实例。
爬取
进入该工程目录,本例中就是 tutorial/, 在命令行执行
scrapy crawl dmoz
保存
可以使用如下命令
scrapy crawl dmoz -o items.json
该命令是说将结果保存在 items.json 文件中。
常用的命令行工具
# 创建项目
scrapy startproject myproject
# 帮助信息
scrapy <command> -h
# 帮助信息
scrapy -h
# 使用下载器下载指定的url,并将获取到的内容送到标准输出
scrapy fetch <url>
# 在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现
scrapy view <url>
# 以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell
scrapy shell [url]
#在未创建项目的情况下,运行一个编写在Python文件中的spider
scrapy runspider <spider_file.py>
# 获取Scrapy的设定
scrapy settings [options]
-------------------------以上不需要项目,以下需要在项目中----------------------------------------
# 使用 template 模版来信创建一个 spider, name 值为<name>, allowed_domains 值为 <domain>
scrapy genspider [-t template] <name> <domain>
# 查看可用的模版,默认有 basic、crawl、csvfeed 和 xmlfeed 4个
scrapy genspider -l
# 查看 TEMPLATE 信息
scrapy genspider -d TEMPLATE
# 使用<spider>进行爬取数据
scrapy crawl <spider>
# 列出当前项目中所有可用的 spider
scrapy list
# 运行contract检查。
scrapy check [-l] <spider>
# 获取给定的URL并使用相应的spider分析处理,可以解析成自己写的 item
scrapy parse <url> [options]
但是不管使用什么方式采集数据都是一个长期的过程,所以需要配合代理才能更好的获取数据,亿牛云爬虫动态转发加强版可以让我们爬虫程序长期稳定的进行数据采集。




上一篇:c++多态与重写
下一篇:Selenium如何登录生成Cookie
19_avatar_middle
最佳答案
6 
在线会员 发表于 2020-6-17 19:40:23 | 显示全部楼层
老铁 你主要想表达什么意思啊  我么看懂???
您需要登录后才可以回帖 登录 | 加入驿站 qq_login

本版积分规则

×【发帖 友情提示】
1、请回复有意义的内容,请勿恶意灌水;
2、纯数字、字母、表情等无意义的内容系统将自动删除;
3、若正常回复后帖子被自动删除,为系统误删的情况,请重新回复其他正常内容或等待管理员审核通过后会自动发布;
4、感谢您对VC驿站一如既往的支持,谢谢合作!

关闭

站长提醒上一条 /2 下一条

QQ|小黑屋|手机版|VC驿站 ( 辽ICP备09019393号 )|网站地图wx_jqr

GMT+8, 2020-7-7 05:05

Powered by CcTry.CoM

© 2009-2020 cctry.com

快速回复 返回顶部 返回列表