python json 爬京东商品评论

news/2024/7/19 10:36:28 标签: python, json, 京东, 爬虫

目标:爬京东任意商品评论

一、首先打开京东任意商品的评论

               1、我用的是QQ浏览器,右击检查,在Network下选择JS,在搜索框里输入productPageComments(如果出不来记得F5刷新一下)

如图:

2、双击productPageComments会得到以下页面

评论就在其中啦

二、找到想要的东西就要写代码啦

上代码

# -*- coding:utf-8 -*-
import urllib
import json
import sys
reload(sys)
sys.setdefaultencoding( "gbk" )  #注意编码

f=open("PL.txt","w+")
def get_evaluate(url):    #打开网页
    page = urllib.urlopen(url).read().decode('gbk')
    page=page.replace('fetchJSON_comment98vv19563(','')  #替换,也可以使用sub
    page=page.replace(');','')
    data = json.loads(page) #decode的过程,将json对象转换成python对象
    for p in data["comments"]:  #data是个字典,content是data的key值
         content = p["content"].encode('utf-8')
         time = p["referenceTime"].encode('utf-8')
         name = p["referenceName"].encode('utf-8')
         f.write("评价内容"+'\n'+content+'\n'+"类型:"+name+'\n'+"评论时间:"+time+'\n')


for i in range(0,10):#爬取一到十页的评论(可以自己任意设置)
    print("正在获取第{}页评论数据!".format(i+1))
    url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv19' \
          '563&productId=781490&score=0&sortType=5&page=' + str(i) +'0&pageSize=10&isShadowSku=0&fold=1'
          #注意URL的值
    get_evaluate(url)
f.close
三、成果


然后写入文件的格式啊什么的,可以按自己的喜好改改
















       


http://www.niftyadmin.cn/n/787750.html

相关文章

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——工程搭建-准备工作

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。 公共模块搭建-1

CSP 2017_9_4 通信网络

题目链接 DFS&#xff08;AC&#xff09; import java.util.ArrayList; import java.util.Scanner;public class Main {static ArrayList<Integer> []adj;static int n, m;static int tol;static boolean []vis;static boolean [][]isLinked;public static void main(S…

使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时&#xff0c;遇到一个小问题&#xff0c;我在scala代码里&#xff0c;使用spark sql访问hive的表&#xff0c;然后根据一批id把需要的数据过滤出来&#xff0c;本来是非常简单的需求直接使用下面的伪SQL即可&#xff1a; select * from tabl…

idea maven配置_IDEA2020.1不能自动导包,需要手动添加依赖,idea修改maven配置总是恢复默认配置...

由于换了一台新电脑&#xff0c;安装了最新的2020.1版本的IDEA&#xff0c;发现添加maven依赖&#xff0c;不能直接导入包&#xff0c;需要每次点击Reload All Maven Projects。并且也发现每次local repository maven都update error&#xff0c;于是百度总结了如下一些解决方法…

SeasLog-An effective,fast,stable log extension for PHP

github: https://github.com/Neeke/SeasLog author Chitao.Gao [neekephp.net] 交流群 312910117 简介 为什么使用SeasLog目前提供了什么目标是怎样的安装 编译安装 SeasLogseaslog.ini的配置使用 常量与函数 常量列表函数列表SeasLog Logger的使用 获取与设置basePath设置logg…

hdoj 1026 搜索

题目链接、 #include<iostream> #include<queue> #include<cstring> using namespace std;const int INF 9999999; const int MAX 102;struct Node{int x, y;int step;int prex, prey;char c; }; struct cmp{bool operator () (const Node &a, const N…

python scrapy框架爬艺龙动态评论

python scrapy框架爬艺龙动态评论 本人用的是python2.7 1、安装好scrapy 安装scrapy 网上都有教程&#xff08;附&#xff1a;http://cuiqingcai.com/912.html&#xff09; 安装好scrapy之后&#xff0c;在cmd命令行代码的目录下运行 scrapy startproject yourprojectname该命…

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——注册中心搭建

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。 https://blog.csdn.net/qq_39505065/article…