python json 爬京东商品评论

python json 爬京东商品评论

news/2024/7/19 10:36:28 标签: python, json, 京东, 爬虫

目标：爬京东任意商品评论

一、首先打开京东任意商品的评论

1、我用的是QQ浏览器，右击检查，在Network下选择JS，在搜索框里输入productPageComments(如果出不来记得F5刷新一下）

如图:

2、双击productPageComments会得到以下页面

评论就在其中啦

二、找到想要的东西就要写代码啦

上代码

# -*- coding:utf-8 -*-
import urllib
import json
import sys
reload(sys)
sys.setdefaultencoding( "gbk" )  #注意编码

f=open("PL.txt","w+")
def get_evaluate(url):    #打开网页
    page = urllib.urlopen(url).read().decode('gbk')
    page=page.replace('fetchJSON_comment98vv19563(','')  #替换，也可以使用sub
    page=page.replace(');','')
    data = json.loads(page) #decode的过程，将json对象转换成python对象
    for p in data["comments"]:  #data是个字典，content是data的key值
         content = p["content"].encode('utf-8')
         time = p["referenceTime"].encode('utf-8')
         name = p["referenceName"].encode('utf-8')
         f.write("评价内容"+'\n'+content+'\n'+"类型:"+name+'\n'+"评论时间:"+time+'\n')


for i in range(0,10):#爬取一到十页的评论（可以自己任意设置）
    print("正在获取第{}页评论数据!".format(i+1))
    url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv19' \
          '563&productId=781490&score=0&sortType=5&page=' + str(i) +'0&pageSize=10&isShadowSku=0&fold=1'
          #注意URL的值

    get_evaluate(url)
f.close

三、成果

然后写入文件的格式啊什么的，可以按自己的喜好改改

http://www.niftyadmin.cn/n/787750.html

相关文章

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——工程搭建-准备工作

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——工程搭建-准备工作

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。公共模块搭建-1

阅读更多...

CSP 2017_9_4 通信网络

CSP 2017_9_4 通信网络

题目链接 DFS（AC） import java.util.ArrayList; import java.util.Scanner;public class Main {static ArrayList<Integer> []adj;static int n, m;static int tol;static boolean []vis;static boolean [][]isLinked;public static void main(S…

阅读更多...

使用Spark SQL的临时表解决一个小问题

使用Spark SQL的临时表解决一个小问题

最近在使用spark处理一个业务场景时，遇到一个小问题，我在scala代码里，使用spark sql访问hive的表，然后根据一批id把需要的数据过滤出来，本来是非常简单的需求直接使用下面的伪SQL即可： select * from tabl…

阅读更多...

idea maven配置_IDEA2020.1不能自动导包，需要手动添加依赖,idea修改maven配置总是恢复默认配置...

idea maven配置_IDEA2020.1不能自动导包，需要手动添加依赖,idea修改maven配置总是恢复默认配置...

由于换了一台新电脑，安装了最新的2020.1版本的IDEA，发现添加maven依赖，不能直接导入包，需要每次点击Reload All Maven Projects。并且也发现每次local repository maven都update error，于是百度总结了如下一些解决方法…

阅读更多...

SeasLog-An effective,fast,stable log extension for PHP

SeasLog-An effective,fast,stable log extension for PHP

github: https://github.com/Neeke/SeasLog author Chitao.Gao [neekephp.net] 交流群 312910117 简介为什么使用SeasLog目前提供了什么目标是怎样的安装编译安装 SeasLogseaslog.ini的配置使用常量与函数常量列表函数列表SeasLog Logger的使用获取与设置basePath设置logg…

阅读更多...

hdoj 1026 搜索

hdoj 1026 搜索

题目链接、 #include<iostream> #include<queue> #include<cstring> using namespace std;const int INF 9999999; const int MAX 102;struct Node{int x, y;int step;int prex, prey;char c; }; struct cmp{bool operator () (const Node &a, const N…

阅读更多...

python scrapy框架爬艺龙动态评论

python scrapy框架爬艺龙动态评论

python scrapy框架爬艺龙动态评论本人用的是python2.7 1、安装好scrapy 安装scrapy 网上都有教程（附：http://cuiqingcai.com/912.html） 安装好scrapy之后，在cmd命令行代码的目录下运行 scrapy startproject yourprojectname该命…

阅读更多...

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——注册中心搭建

企业级实战——畅购商城SpringCloud-JAVA实战商城管理后台——注册中心搭建

QQ 1274510382 Wechat JNZ_aming 商业联盟 QQ群538250800 技术搞事 QQ群599020441 解决方案 QQ群152889761 加入我们 QQ群649347320 共享学习 QQ群674240731 纪年科技aming 网络安全 ,深度学习,嵌入式,机器强化,生物智能,生命科学。 https://blog.csdn.net/qq_39505065/article…

阅读更多...

最新文章