用python模拟登录（解析cookie + 解析html + 表单提交 + 验证码识别 + excel读写 + 发送邮件）...

老婆大人每个月都要上一个网站上去查数据，然后做报表。

为了减轻老婆大人的工作压力，所以我决定做个小程序，减轻我老婆的工作量。

准备工作

1.tesseract-ocr

这个工具用来识别验证码，非常好用。

ubuntu上安装：

sudo apt-get install tesseract-ocr

非常简单。

2.pytesseract和PIL(pillow)

pytesseract用来在python中调用tesseract-ocr，PIL(pillow)用来加载图片，安装方法如下：

pip3 install pytesseract
pip3 install pillow

也非常简单。

如果安装pillow的时候报如下错误:

ValueError: zlib is required unless explicitly disabled using --disable-zlib, aborting

那么我们更新一下pip即可

sudo pip3 install --upgrade pip

如果pip速度很慢，可以改用国内的源，在命令后面加上 -i http://pypi.douban.com/simple （百度一下一大把），但pillow好像国内镜像都没有，只能用蜗牛速度从自带的源下载咯...

一切准备就绪。

分析网站

我们的目标网址是：http://222.217.19.16:3512/Site/LzsfySite/Default.aspx

预览图：

看上去很low啊...心疼我老婆....看来我必须快点完成这个小程序了！

经过简单的分析可以得到关键信息：

1.表单的提交地址：http://222.217.19.16:3512/Site/LzsfySite/Default.aspx

2.验证码地址：http://222.217.19.16:3512/Main/AspCode/ZhuChengXu/AuthenImage.aspx

3.表单的格式：

 1 {
 2             '__LASTFOCUS' : '',
 3             '__EVENTTARGET' : 'ctl00$ContentPlaceHolder1$Login1$btnLogin',
 4             '__EVENTARGUMENT' : '',
 5             '__VIEWSTATE' : __VIEWSTATE,
 6             '__EVENTVALIDATION' : __EVENTVALIDATION,
 7             'ctl00$ContentPlaceHolder1$Login1$txtUsr' : 用户名,
 8             'ctl00$ContentPlaceHolder1$Login1$txtPwd' : 用户密码,
 9             'ctl00$ContentPlaceHolder1$Login1$txtYZM' : 验证码
10 }

其中4、5、6行是访问首页的时候，在首页的源代码中返回的参数

但__EVENTARGUMENT常年为空，所以干脆直接写死空字符串即可；__VIEWSTATE和__EVENTVALIDATION则需要对html进行解析。

7、8、9则对应用户名、密码和验证码，用户名密码可以写死，验证码则需要用到tesseract-ocr进行识别。

4.表单提交的报文头

 1 {
 2             'Accept' : b'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 3             'Accept-Encoding' : 'gzip, deflate, lzma',
 4             'Accept-Language' : 'zh-CN,zh;q=0.8',
 5             'Cache-Control' : 'max-age=0',
 6             'Connection' : 'keep-alive',
 7             'Content-Length' : 表单内容长度,
 8             'Content-Type' : 'application/x-www-form-urlencoded',
 9             'Cookie' : cookie内容,
10             'Host' : '222.217.19.16:3512',
11             'Origin' : 'http://222.217.19.16:3512',
12             'Referer' : 'http://222.217.19.16:3512/Site/LzsfySite/Default.aspx',
13             'Upgrade-Insecure-Requests' : '1',
14             'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36 OPR/38.0.2220.41}'
15 }

其中7行可以根据构造的表单报问题长度来计算，9行需要从cookie中获取。

主要技术

获取cookie

python3中获取cookie的方式很简单，用http.cookiejar。

cookiejar扩展阅读：https://docs.python.org/3.0/library/http.cookiejar.html

import urllib.request
import urllib.parse
import http.cookiejar

#登录的主页面
hosturl = 'http://222.217.19.16:3512/Site/LzsfySite/Default.aspx'

#设置一个cookie处理器，它负责从服务器下载cookie到本地，并且在发送请求时带上本地的cookie
cj = http.cookiejar.LWPCookieJar()
cookie_support = urllib.request.HTTPCookieProcessor(cj)
opener = urllib.request.build_opener(cookie_support, urllib.request.HTTPHandler)
urllib.request.install_opener(opener)

#打开登录主页面（目的是从页面下载cookie，这样我们在再送post数据时就有cookie了，否则发送不成功）
hostOpen = urllib.request.urlopen(hosturl)

#解析cookie
cookieText = ''
for item in cj:
    cookieText = cookieText + item.name + '=' + item.value + '&'
cookieText = cookieText[0:-1]

print(cookieText)

这样我们就可以得到cookie啦。

识别验证码

这个也简单，我们先把它下载到本地，然后用pytesseract来解析它：

import urllib.request
import pytesseract
from PIL import Image

#验证码图片地址
checkCodeUrl = 'http://222.217.19.16:3512/Main/AspCode/ZhuChengXu/AuthenImage.aspx'

#下载验证码
checkCodeOpen = urllib.request.urlopen(checkCodeUrl)
data = checkCodeOpen.read()
local = open('image.gif', 'wb')
local.write(data)
local.close()

#pytesseract解析
img = Image.open('image.gif')
checkCode = pytesseract.image_to_string(img)

print(checkCode)

哈哈哈哈就这么简单暴力~

诶等等！好像有点不对。我们多执行几次，然后对比一下输出和图片

...出现了英文，什么鬼...再来

...这次是正确的。再试试...

又不对了。

多试几次，发现验证码的识别率不太高。

在识别率不高的情况下，那么我们只有开个循环，多识别几次验证码，然后多提交几次表单即可。——总有一次会正确滴~~

#以下是伪代码
def 提交方法():
    识别验证码
    构造表单
    提交表单
    解析服务器返回报文
    
    if 登录成功:
        return true
    else:
        return false

while not 提交方法():
    等待1000秒

print('登录成功啦')

解析html

我这里用的是python自带的HTMLParser，这种简单暴力的办法非常好用。 ^_^

from html.parser import HTMLParser
import urllib.request

#主页面  
hosturl = 'http://222.217.19.16:3512/Site/LzsfySite/Default.aspx'

#打开登录主页面
hostOpen = urllib.request.urlopen(hosturl)

#解析__VIEWSTATE和__EVENTVALIDATION
#这里用了HTMLParser的库。
#自定义的DefaultHTMLParser继承了HTMLParser
#在调用此类型对象的feed方法对二进制字节流解析时，
#若遇到tag的开始标签则会触发handle_starttag方法，
#若遇到tag中的内容时则会触发handle_data方法
class DefaultHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.hasLogin = False
    
    #如果是input标签，则判断其id属性是否是__VIEWSTATE或__EVENTVALIDATION
    #如果是二者之一，则在对象.xxxx属性中存入对应值
    #这里假定一定能够从中读取到__VIEWSTATE和__EVENTVALIDATION
    #没有做错误处理
    def handle_starttag(self, tag, attrs):
        iid = ''
        value = ''
        if tag == 'input':
            for attr in attrs:
                if attr[0] == 'id':
                    iid = attr[1]
                    break;
#用exec来设置属性值，节省代码量^_^
            if iid in ('__VIEWSTATE', '__EVENTVALIDATION'):
                for attr in attrs:
                    if attr[0] == 'value':
                        exec('self.' + iid + " = attr[1]")
                            
    def handle_data(self, data):
        #根据能否找到跳转语句判断是否登陆        
        if data.find('window.location=\'../../Main/AspCode/ZhuChengXu/ShowSelect.aspx\'') != -1:
            self.hasLogin = True
    
    #get方法，用来获取属性值。
    #这里偷懒用了eval——eval的效率不太高，但非常省代码量。
    #如果对执行速度要求比较高建议不要用这个方法喔。
    def get(self, attr):
        result = eval('self.' + attr)
        return result
                                
p = DefaultHTMLParser()
p.feed(hostOpen.read().decode('GB2312'))

print(p.get('__VIEWSTATE'))
print(p.get('__EVENTVALIDATION'))

提交表单

根据之前的内容，我们已经获取了提交登录表单所需要的一切信息。

所以我们可以开始构造一个表单并提交

 1 import zlib
 2 import urllib.request
 3 import urllib.parse
 4 
 5 #表单提交的url  
 6 hosturl = 'http://222.217.19.16:3512/Site/LzsfySite/Default.aspx'
 7 
 8 #构造表单
 9 formData = {
10     '__LASTFOCUS' : '',
11     '__EVENTTARGET' : 'ctl00$ContentPlaceHolder1$Login1$btnLogin',
12     '__EVENTARGUMENT' : '',
13     '__VIEWSTATE' : '__VIEWSTATE',
14     '__EVENTVALIDATION' : '__EVENTVALIDATION',
15     'ctl00$ContentPlaceHolder1$Login1$txtUsr' : '用户名',
16     'ctl00$ContentPlaceHolder1$Login1$txtPwd' : '密码',
17     'ctl00$ContentPlaceHolder1$Login1$txtYZM' : 'xxxx'
18 }
19 #对formData进行url编码
20 formData = urllib.parse.urlencode(formData)
21 
22 #构造登陆用header
23 headers = {
24     'Accept' : b'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
25     'Accept-Encoding' : 'gzip, deflate, lzma',
26     'Accept-Language' : 'zh-CN,zh;q=0.8',
27     'Cache-Control' : 'max-age=0',
28     'Connection' : 'keep-alive',
29     'Content-Length' : len(formData.encode('GB2312')),
30     'Content-Type' : 'application/x-www-form-urlencoded',
31     'Cookie' : 'cookieText',
32     'Host' : '222.217.19.16:3512',
33     'Origin' : 'http://222.217.19.16:3512',
34     'Referer' : 'http://222.217.19.16:3512/Site/LzsfySite/Default.aspx',
35     'Upgrade-Insecure-Requests' : '1',
36     'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36 OPR/38.0.2220.41}'
37 }
38 
39 #开始登陆
40 loginRequest = urllib.request.Request(hosturl, formData.encode('GB2312'), headers)
41 loginResponse = urllib.request.urlopen(loginRequest)
42 #返回的数据是压缩过的，所以要用zlib进行解码
43 loginResponseData = zlib.decompress( loginResponse.read(), 16+zlib.MAX_WBITS).decode('GB2312')
44 
45 print(loginResponseData)

需要注意的是，12-17行以及31行这里要填入前几节说明的解析的内容。否则服务器会返回500的响应码喔。

上述内容基本上涵盖了做一个爬虫所需要的知识。

扩展内容

但我的工作还没完，我还得给我老婆生成一个excel，并发送到她邮箱！

所以，下面是关于写excel和发送email的扩展内容，不感兴趣的同学可以跳过啦。

快捷写入excel

我们可以先手动做一个有标题，但内容为空的excel模板，像这样：

注意，这里是第四个sheet。然后将其保存为empty.xls

在这里我使用python的xlutils对此报表进行写入。（扩展阅读：http://xlutils.readthedocs.org/en/latest/）

先安装。

sudo pip3 install xlutils

简单示例：

 1 from xlutils.copy import copy
 2 import xlrd
 3 import xlwt
 4 from xlwt.Style import easyxf
 5 
 6 
 7 #打开文件，formatting_info=true表示读入单元格style信息
 8 file = xlrd.open_workbook('empty.xls',formatting_info=True)
 9 #用xlutils.copy的copy方法获取一个报表对象
10 w = copy(file)
11 
12 #定义居中对齐格式示例
13 alignment = xlwt.Alignment()
14 alignment.horz = xlwt.Alignment.HORZ_CENTER
15 style = xlwt.XFStyle()
16 style.alignment = alignment
17 
18 #write方法的第一个参数对应要写入的行数，第二个参数对应要写入的列数，二者都是从0开始计算的
19 #用居中对齐格式写入第3张sheet的3行7列单元格
20 w.get_sheet(3).write(2,6, '2016 年 7 月 21 日至2016 年 8 月 20 日', style)
21 #用居中对齐格式写入第3张sheet的16行3列单元格
22 w.get_sheet(3).write(15,2, '2016 年 8 月 21 日' , style)
23 
24 #定义边框示例
25 borders = xlwt.Borders()
26 borders.left = 1
27 borders.right = 1
28 borders.top = 1
29 borders.bottom = 1
30 style = xlwt.XFStyle()
31 style.borders = borders 
32 style.alignment = alignment
33 
34 #填充数据
35 for i in range(1, 18):
36     w.get_sheet(3).write(9,i,int(100), style)
37     w.get_sheet(3).write(10,i,int(100), style)
38 
39 
40 #写入公式示例
41 for i in range(1,18):
42     column = chr(ord('A')+i)
43     w.get_sheet(3).write(13, i, xlwt.Formula('SUM(' + column + '10:' + column + '13)'),style)
44 
45 #保存为新文件
46 w.save('报表.xls')

然后我们就可以得到如下表格啦~~ python真的是非常简单又暴力...

发送带有附件的email

这个更简单...smtplib在ubuntu下的python是自带的。

示例如下：

import smtplib  
from email.mime.multipart import MIMEMultipart  
from email.mime.text import MIMEText  
from email.mime.application import MIMEApplication  

print('准备邮件....')

#qq邮箱用户名和密码，自带星号屏蔽
#必须在账户设置开启smtp服务才能登录
_user = "27*****68@qq.com"
_pwd  = "***********"
_to   = "10*****09@qq.com"  

#初始化消息
msg = MIMEMultipart()
msg["Subject"] = "2016年9月份统计报表"
msg["From"]= _user  
msg["To"]  = _to  

#这是文字部分
part = MIMEText("详见附件...")  
msg.attach(part)

#这是附件部分  
part = MIMEApplication(open('报表.xls','rb').read())  
#filename最好设置成英文，否则容易出乱码
part.add_header('Content-Disposition', 'attachment', filename="baobiao.xls")
msg.attach(part)  

#开始发送
print('from ' + _user + ' to ' + _to + '...')
#必须要用SSL方式加密
smtp = smtplib.SMTP_SSL('smtp.qq.com')
smtp.login(_user, _pwd)
smtp.sendmail(_user, _to, msg.as_string())
smtp.quit()
print('发送完毕')

所做的一切都非常简单！所以python是世界上最好的语言！笑....

综合上述技术，删删改改增增减减，最后成果展示

最后，感谢我老婆，让我有学习python的动力。

本章完。

转载于:https://www.cnblogs.com/prpl/p/5901423.html