代理IP,爬微信公众号的网页

news/2024/7/19 12:09:13 标签: PYTHON, 爬虫
先通过西刺制作IP代理池,然后伪造USERAGENT 为安卓机或者
苹果机,通过筛选出的可用IP,登陆目标网页,本意是通过电脑抓
包投票的POST 的data和PARA来构造相应项。
但狗腾讯对PC端的限制,PC端只能浏览网页不能投票,不能抓取到
POST传递信息,本爬虫就只能做到构建代理池,通过代理池和安卓
或苹果的useragent访问网站,若有需要可爬取内容,但无法模拟
手机投票或者刷票


附上PYTHON代码,用到的requests包
# coding=utf-8
import urllib2
import random
import time
import requests
import re

class JB():
    def __init__(self):
        self.pro_g = []
        print('赋值完成')
        self.n1()
        self.n2()


    def n1(self):
        a1={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
        htm=requests.get('http://www.xicidaili.com/nt',headers=a1)
        pattern = re.compile('<td class="country">.*? alt="Cn" /></td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>',re.S)

        items = re.findall(pattern, htm.text)
        for item in items:
            X=(item[0]+':'+item[1])
            print X
            self.pro_g.append(X)
        print ('爬取IP完成个数:')
        print(len(self.pro_g))
        return self.pro_g


    def n2(self):
        print self.pro_g
        a=0
        a1={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64)'}
        sx={'User-Agent':'Mozilla/5.0 (Linux; U; Android 2.3.6; zh-cn; GT-S5660 Build/GINGERBREAD) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1 MicroMessenger/4.5.255'}
        for a in range(0, 80):
            proxies_l = {'http': self.pro_g[a],

                 }
            print(proxies_l['http'])

            try:
                req=requests.get('http://httpbin.org/ip',headers=a1,proxies=proxies_l)
                print('可以用的IP')
                print (req.text)
                req2=requests.get('http://mp.weixin.qq.com/s/ep30umOyUNS03IvFSj7msg',headers=sx,proxies=proxies_l)
                req2=req2.text
                print('得到PAGE')
                print(req2)


            except:
                print('no proxies')
            sleep_time=random.randint(1, 3)
            time.sleep(sleep_time)
            print('Wait%ds'%sleep_time)

spider=JB()


http://www.niftyadmin.cn/n/746038.html

相关文章

2020资料员-岗位技能(资料员)证考试及资料员-岗位技能(资料员)复审模拟考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2020资料员-岗位技能(资料员)证考试及资料员-岗位技能(资料员)复审模拟考试&#xff0c;包含资料员-岗位技能(资料员)证考试答案解析及资料员-岗位技能(资料员)复审模拟考试练习。由安全生产模拟考试一点通公众号结合…

bs4简单示例

bs4(beautiful soup 4)简单抓取示例 import urllib.requestfrom bs4 import BeautifulSoupimport sysurl https://blog.tanteng.mehtml urllib.request.urlopen(url).read()soup BeautifulSoup(html)h1s soup.find_all(h1,class_entry-title)打印所有H1标题和链接for h1 in…

2020尾矿考试题库及尾矿模拟考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2020尾矿考试题库及尾矿模拟考试&#xff0c;包含尾矿考试题库答案解析及尾矿模拟考试练习。由安全生产模拟考试一点通公众号结合国家尾矿考试最新大纲及尾矿考试真题出具&#xff0c;有助于尾矿证考试考前练习。 1、…

BS4模块爬取第一财经练手

采用requests包和beautiful soup 注意requests get请求得到的html要encode为‘UTF-8’ 得到的数据结果为新闻标题url # codingutf-8 from bs4 import BeautifulSoup import requests import time h1{User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH…

2020工具钳工(中级)模拟考试及工具钳工(中级)复审模拟考试

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2020工具钳工&#xff08;中级&#xff09;模拟考试及工具钳工&#xff08;中级&#xff09;复审模拟考试&#xff0c;包含工具钳工&#xff08;中级&#xff09;模拟考试答案解析及工具钳工&#xff08;中级&#xf…

使用BS4爬取智联招聘

代码使用了try&#xff0c;except来排除异常随机选取代理IPsleep15秒&#xff0c;模拟人类点击&#xff0c;以避开反爬虫机制# codingutf-8 from bs4 import BeautifulSoup import requests import time import random import sys import pandas import MySQLdbdef getpage():p…

2020土建方向-通用基础(施工员)考试题及土建方向-通用基础(施工员)考试题库

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2020土建方向-通用基础(施工员)考试题及土建方向-通用基础(施工员)考试题库&#xff0c;包含土建方向-通用基础(施工员)考试题答案解析及土建方向-通用基础(施工员)考试题库练习。由安全生产模拟考试一点通公众号结合…

2020土建方向-通用基础(质量员)考试及土建方向-通用基础(质量员)模拟考试题库

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2020土建方向-通用基础(质量员)考试及土建方向-通用基础(质量员)模拟考试题库&#xff0c;包含土建方向-通用基础(质量员)考试答案解析及土建方向-通用基础(质量员)模拟考试题库练习。由安全生产模拟考试一点通公众号…