博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Scrapy创建zentao爬虫
阅读量:6614 次
发布时间:2019-06-24

本文共 714 字,大约阅读时间需要 2 分钟。

1.安装好Scrapy爬虫框架

2.切换到F盘的wooyun目录下执行:scrapy startproject zentao

这个命令会在当前目录下创建一个新目录zentao,它的结构如下:

3.通过tree /f命令查看目录结果

这些文件主要是:

  • scrapy.cfg: 项目配置文件
  • zentao/: 项目python模块, 呆会代码将从这里导入
  • zentao/items.py: 项目items文件
  • zentao/pipelines.py: 项目管道文件
  • zentao/settings.py: 项目配置文件
  • zentao/spiders: 放置spider的目录

 

定义Item

Items是将要装载抓取的数据的容器,它工作方式像python里面的字典,但它提供更多的保护,比如对未定义的字段填充以防止拼写错误。

它通过创建一个scrapy.item.Item类来声明,定义它的属性为scrpy.item.Field对象,就像是一个对象关系映射(ORM).

我们通过将需要的item模型化,来控制从dmoz.org获得的站点数据,比如我们要获得站点的名字,url和网站描述,我们定义这三种属性的域。要做到这点,我们编辑在tutorial目录下的items.py文件,我们的Item类将会是这样

from scrapy.item import Item, Field class DmozItem(Item):    title = Field() link = Field() desc = Field()

刚开始看起来可能会有些困惑,但是定义这些item能让你用其他Scrapy组件的时候知道你的 items到底是什么。

转载地址:http://jghso.baihongyu.com/

你可能感兴趣的文章
web网站加速之CDN(Content Delivery Network)技术原理
查看>>
sed的基本用法
查看>>
ansible模块批量管理
查看>>
RHEL/Centos7新功能
查看>>
细说浏览器特性检测(1)-jQuery1.4添加部分
查看>>
Java基础-算术运算符(Arithmetic Operators)
查看>>
C#编程(四十七)----------集合接口和类型
查看>>
【转】关于大型网站技术演进的思考(十二)--网站静态化处理—缓存(4)
查看>>
积跬步,聚小流------Bootstrap学习记录(1)
查看>>
Android官方架构组件LiveData: 观察者模式领域二三事
查看>>
vmware workstation14永久激活密钥分享
查看>>
Myeclipse中打开接口实现类的快捷键
查看>>
使用JdbcTemplate和JdbcDaoSupport
查看>>
Glibc 和 uClibc
查看>>
Mysql学习第三课-分析二进制日志进行增量备份和还原
查看>>
HDU 6073 - Matching In Multiplication | 2017 Multi-University Training Contest 4
查看>>
如何检测域名是否被微信屏蔽 微信域名检测接口API是如何实现
查看>>
POJ1611-The Suspects
查看>>
Linux下安装Python-3.3.2【转】
查看>>
LeetCode OJ:Merge Two Sorted Lists(合并两个链表)
查看>>