05月27, 2017

scrapy入门-1

项目说明

scrapy.cfg: 项目的配置文件
spiders/: 该项目的python模块。之后您将在此加入代码。
spiders/items.py: 项目中的item文件.
spiders/pipelines.py: 项目中的pipelines文件.
spiders/settings.py: 项目的设置文件.
spiders/spiders/: 放置spider代码的目录.

依赖安装

yum -y install epel-release python-pip
yum clean all
wget https://bootstrap.pypa.io/ez_setup.py -O - | python
## 安装easy_install
yum -y install python-setuptools
## 安装pip
easy_install pip
## 安装scrapy
yum -y install libxslt-devel libffi libffi-devel python-devel gcc openssl openssl-devel
easy_install scrapy

pip3 install scrapy requests redis pymongo

scrapy使用

# 创建项目
scrapy startproject project_name
# 查看任务类型(basic crawl csvfeed xmlfeed)
scrapy genspider -l
# 创建任务 默认为scrapy.Spider
scrapy genspider -t basic intbee_basic intbee.com
# 查看已有的抓取任务
scrapy list
# 修改指定任务
scrapy edit <spider>
# 测试获取内容
scrapy fetch url
# 获取内容,并使用浏览器打开
scrapy view url
# 运行任务
scrapy crawl spider_name
scrapy runspider <spider_file.py>

scrapy配置

# 忽略发爬虫协议
ROBOTSTXT_OBEY=False

解析

# 安装
pip install beautifulsoup4

本文链接:https://blog.jnliok.com/post/scrapy-start0.html

-- EOF --

Comments