1. Ajax介绍
Ajax,Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下,与服务器交换数据并更新部分网页的技术。
2. Ajax基本原理
发送Ajax请求到网页更新的过程可以分为3步:
- //创建XMLHttpRequest对象
- var xmlhttp;
- if(window.XMLHttpRequest){
- xmlhttp=new XMLHttpRequest();
- }else{
- xmlhttp=new ActiveXObject("Microsoft.XMLHTTP");
- }
- xmlhttp.onreadystatechange=function()
- {
- if (xmlhttp.readyState==4 && xmlhttp.status==200)
- {
- document.getElementById("myDiv").innerHTML=xmlhttp.responseText;
- }
- }
-
- //向服务器发送数据
- xmlhttp.open("GET","test.asp",true);
- xmlhttp.send();
2.1 发送请求
利用JavaScript实现页面的交互功能,新建XMLHttpRequest对象,然后调用onreadystatechange 属性设置了监听,然后用open和send方法向服务器发起请求。相当于前面python实现请求发送,此处请求发送变成JavaScript来完成。
2.2 解析内容
发送请求后,onreadystatechange 对应的方法被触发,利用xmlhttp的responseText属性可取得相应内容(html或json)。如果是json可以进行解析和转化。
2.3 渲染页面
解析完相应内容后,通过document.getElementById("myDiv").innerHTML操作,对某个元素内的源代码进行操作,元素内将呈现出服务器返回的新数据,网页内容即更新了。
整个过程实际是JavaScript向服务器发送了一个Ajax请求,然后获取新的数据,并将其解析,并将其渲染在网页中。
3.Ajax分析方法
3.1查看请求
Network中找到Type为xhr(Ajax的请求类型)的请求,该请求Request Headers中有一个信息为X-Requested-With:XMLHttpRequest,即标记了该请求为Ajax请求。
3.2 过滤请求
筛选出所有XHR请求。
4.Ajax结果提取
4.1 分析请求
分析XHR中请求的参数信息,可找到url规律。
4.2 分析响应
分析响应页面
5.案例--今日头条街拍美图下载
- import requests
- from urllib import parse,request
- import json
- import os
-
- def create_requests(page):
- #请求网页
- url = 'https://www.toutiao.com/api/search/content/?'
- data = {
- 'aid': 24,
- 'app_name': 'web_search',
- 'offset': page*20,
- 'format': 'json',
- 'keyword': '街拍',
- 'autoload': 'true',
- 'count': 20,
- 'en_qc': 1,
- 'cur_tab': 1,
- 'from': 'search_tab',
- 'pd': 'synthesis'
- }
- data = parse.urlencode(data)
- headers = {
- 'cookie': 'tt_webid=6781299774467098126; WEATHER_CITY=%E5%8C%97%E4%BA%AC; tt_webid=6781299774467098126; csrftoken=36a17f079733431bb0eebe295a71d202; s_v_web_id=15a87d6fef7402fba1f3671918f4ac02; __tasessionId=0qadawfku1579070548273',
- 'referer': 'https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D',
- 'user-agent': 'Mozilla/5.0(Windows NT 10.0; Win64;x64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/76.0.3809.132 Safari/537.36'
- }
-
- res = requests.get(url=url,params=data,headers=headers)
- return res
-
- def get_img(content):
- #获取图片
- data_json = json.loads(content.text)
- data = data_json.get('data')
- images_list = []
- for item in data:
- if item.get('title'):
- title = item.get('title')
- if item.get('image_list'):
- urls = item.get('image_list')
- url_list = []
- for i in range(len(urls)):
- url = urls[i]['url']
- url_list.append(url)
- images_list.append({'title':title,'url_list':url_list})
- return images_list
-
- def save_img(img_list):
- #保存图片
- #生成文件夹
- img_dir = os.path.join(os.curdir,'imgs')
- for images in img_list:
- img_path = os.path.join(img_dir,images['title'])
- if not os.path.exists(img_path):
- os.makedirs(img_path)
- for url in images['url_list']:
- res = requests.get(url)
- url_split = parse.urlparse(url)
- filename = url_split.path.split('/')[-1] + '.jpg'
- file_path = os.path.join(img_path, filename)
- if not os.path.exists(file_path):
- with open(file_path, 'wb') as fn:
- fn.write(res.content)
-
-
- def main():
- i = int(input('请输入要下载的页数;'))
- for page in range(i):
- content = create_requests(page)
- img_list = get_img(content)
- save_img(img_list)
- print('下载完成!')
-
- if __name__ == "__main__":
- main()