python爬虫13--Ajax数据爬取

时间：05-19来源：作者：点击数：39

1. Ajax介绍

Ajax，Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下，与服务器交换数据并更新部分网页的技术。

2. Ajax基本原理

发送Ajax请求到网页更新的过程可以分为3步：

发送请求
解析内容
渲染页面

//创建XMLHttpRequest对象
var xmlhttp;
if(window.XMLHttpRequest){
    xmlhttp=new XMLHttpRequest();
}else{
    xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange=function()
  {
  if (xmlhttp.readyState==4 && xmlhttp.status==200)
    {
    document.getElementById("myDiv").innerHTML=xmlhttp.responseText;
    }
  }

//向服务器发送数据
xmlhttp.open("GET","test.asp",true);
xmlhttp.send();

2.1 发送请求

利用JavaScript实现页面的交互功能，新建XMLHttpRequest对象，然后调用onreadystatechange 属性设置了监听，然后用open和send方法向服务器发起请求。相当于前面python实现请求发送，此处请求发送变成JavaScript来完成。

2.2 解析内容

发送请求后，onreadystatechange 对应的方法被触发，利用xmlhttp的responseText属性可取得相应内容（html或json）。如果是json可以进行解析和转化。

2.3 渲染页面

解析完相应内容后，通过document.getElementById("myDiv").innerHTML操作，对某个元素内的源代码进行操作，元素内将呈现出服务器返回的新数据，网页内容即更新了。

整个过程实际是JavaScript向服务器发送了一个Ajax请求，然后获取新的数据，并将其解析，并将其渲染在网页中。

3.Ajax分析方法

3.1查看请求

Network中找到Type为xhr（Ajax的请求类型）的请求，该请求Request Headers中有一个信息为X-Requested-With:XMLHttpRequest，即标记了该请求为Ajax请求。

3.2 过滤请求

筛选出所有XHR请求。

4.Ajax结果提取

4.1 分析请求

分析XHR中请求的参数信息，可找到url规律。

4.2 分析响应

分析响应页面

5.案例--今日头条街拍美图下载

import requests
from urllib import parse,request
import json
import os

def create_requests(page):
    #请求网页
    url = 'https://www.toutiao.com/api/search/content/?'
    data = {
        'aid': 24,
        'app_name': 'web_search',
        'offset': page*20,
        'format': 'json',
        'keyword': '街拍',
        'autoload': 'true',
        'count': 20,
        'en_qc': 1,
        'cur_tab': 1,
        'from': 'search_tab',
        'pd': 'synthesis'
    }
    data = parse.urlencode(data)
    headers = {
        'cookie': 'tt_webid=6781299774467098126; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6781299774467098126; csrftoken=36a17f079733431bb0eebe295a71d202; s_v_web_id=15a87d6fef7402fba1f3671918f4ac02; __tasessionId=0qadawfku1579070548273',
        'referer': 'https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D',
        'user-agent': 'Mozilla/5.0(Windows NT 10.0; Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/76.0.3809.132 Safari/537.36'
    }

    res = requests.get(url=url,params=data,headers=headers)
    return res

def get_img(content):
    #获取图片
    data_json = json.loads(content.text)
    data = data_json.get('data')
    images_list = []
    for item in data:
        if item.get('title'):
            title = item.get('title')
            if item.get('image_list'):
                urls = item.get('image_list')
                url_list = []
                for i in range(len(urls)):
                    url = urls[i]['url']
                    url_list.append(url)
                images_list.append({'title':title,'url_list':url_list})
    return images_list

def save_img(img_list):
    #保存图片
    #生成文件夹
    img_dir = os.path.join(os.curdir,'imgs')
    for images in img_list:
        img_path = os.path.join(img_dir,images['title'])
        if not os.path.exists(img_path):
            os.makedirs(img_path)
            for url in images['url_list']:
                res = requests.get(url)
                url_split = parse.urlparse(url)
                filename = url_split.path.split('/')[-1] + '.jpg'
                file_path = os.path.join(img_path, filename)
                if not os.path.exists(file_path):
                    with open(file_path, 'wb') as fn:
                        fn.write(res.content)


def main():
    i = int(input('请输入要下载的页数;'))
    for page in range(i):
        content = create_requests(page)
        img_list = get_img(content)
        save_img(img_list)
    print('下载完成！')

if __name__ == "__main__":
    main()