0、个人曾经的爬虫

Requests库、Beautiful Soup。
本科毕业设计:微博爬虫。

1、Scrapy

  Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
  Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
  Scrap,是碎片的意思,这个Python的爬虫框架叫Scrapy。外号小刮刮。

2、前言

语言无关论者
数据格式:csv、json、xml、txt
数据库:mongodb、sqlalchemy、postges
前端:html、css、js、squery

Beautiful Soup、lxml、XPath、selectors。
https://stackoverflow.com/questions/tagged/scrapy
https://scrapy.org/community/

最小可行产品(Minimum Viable Product, MVP)
初创公司、精益创业

3、认识Scrapy

数据清晰、格式化、装饰以及存储到数据库。

XPath选择HTML元素:$x工具函数。(在浏览器console中使用)
使用//语法去的某一指定类型的元素。使用/语法即前一个父类下的最近子集。
符号@(选择属性)、text()函数、符号* 等等。

一个特殊的网站:example.com

4、安装Scrapy

pip install scrapy
import scrapy

5、UR2IM流程

U:URL
R:Request
R:Response
I:Item
M:More URL

6、看到第三章发现真的全程用框架,放弃20181123