当前位置:首页 > IT技术 > Web编程 > 正文

一日一技:使用Scrapy的选择器来解析HTML
2021-09-17 11:54:08

一日一技:使用Scrapy的选择器来解析HTML_解析json

在使用Scrapy抓取网站的时候,可能会遇到这样的情况,网站返回一个JSON字符串。在JSON字符串中又有一项,它的值是HTML。

如果不用Scrapy,我们一般使用lxml来解析HTML:

  1. from lxml.html import fromstring
  2. selector = fromstring(HTML)
  3. name = selector.xpath('xxxx')

如果使用Scrapy解析网站直接返回的HTML,我们使用response即可:

  1. def parse(self, response):
  2.    name = response.xpath('xxx').extract()

那么现在问题来了。如果想使用Scrapy解析JSON返回的HTML,难道还有再单独用上lxml吗?显然不需要,可以使用Scrapy的Selector模块:

  1. from scrapy.selector import Selector
  2. selector = Selector(text='你获得的HTML')
  3. name = selector.xpath('xxxx').extract()

一日一技:使用Scrapy的选择器来解析HTML_html_02

 

本文摘自 :https://blog.51cto.com/u

开通会员,享受整站包年服务立即开通 >