爬虫项目(四)之京东评论

爬虫项目(四)之京东评论

在这里插入图片描述
最近,出了小米9,听说可以拍月亮,好像挺酷的。就来JD看看网友们是怎么评论的。

经过爬取信息总结得到,小米还是挺不错的。

方法就是通过一个url链接获取评论信息字符串,然后转成json,然后分词,获取词频最多的关键词。

这样你可以收集电影影评,餐店点评等。

 JSONObject jsonObject =parseJSONP(html);

            JSONArray comments = jsonObject.getJSONArray("comments");
            for (int j = 0, k=comments.size(); j<k; j++){
                JSONObject jo = comments.getJSONObject(j);
                String content = jo.getString("content");
                //去除非中文
                String rex = "[^\\u4e00-\\u9fa5]";
                Pattern compile = Pattern.compile(rex);
                Matcher matcher = compile.matcher(content);

                content = matcher.replaceAll("");
                sb.append(content);
            }

爬虫不一定用框架,只要思路正确,怎么方便就怎么爬取。想学习的,下载源码如下:
http://47.98.237.162/detail/1/197


http://www.niftyadmin.cn/n/785323.html

相关文章

软考知识点梳理--软件测试

软件测试是在将软件交付给客户之前所必须完成的重要步骤。软件测试仍是发现软件错误&#xff08;缺陷&#xff09;的主要手段。软件测试的目的是验证软件是否满足软件开发合同或 项目开发计划、系统/子系统设计文档、SRS、软件设计说明和软件产品说明等规定的软件质量要求。通过…

人工智能,百度AI人脸识别java版

人工智能&#xff0c;百度AI人脸识别java版 需求&#xff1a;人脸识别登录&#xff0c;人脸就需要有人脸的照片&#xff0c;数据库建一个字段face保存用户人脸的照片&#xff0c;jquery.webcam.js实现调用摄像头拍照&#xff0c;然后后端接受base64图片&#xff0c;然后与数据…

js获取图片的尺寸

$("<img/>").attr("src", "http://www.example.com/images/bag001.jpg").load(function() {imgWidth this.width;imgHeight this.height;}); 如果是设定了宽度获取高度,或者是,设定了高度获取宽度,那么只要知道真实的图片尺寸,然后获得百…

实战:mapper文件转sql语句

实战&#xff1a;mapper文件转sql语句实战&#xff1a;mapper文件转sql语句实战&#xff1a;mapper文件转sql语句 最近看码云的项目&#xff0c;优秀的开源项目&#xff0c;有表结构sql&#xff0c;有说明文档&#xff0c;也不妨有些半开源的项目&#xff0c;有实体类&#xf…

自媒体视频封面图自动生成

最近看了下自媒体的创作&#xff0c;其中上传一段视频&#xff0c;自动能生成视频中前几秒的封面图&#xff0c;由于网上生成的慢&#xff0c;也没有时间倒数提示的人性化&#xff0c;我还是自己做了个比较简单的&#xff0c;快速的例子&#xff0c;用于快速生成视频中前5秒的图…

艳辉网5.0改版任务启动

艳辉网5.0改版任务启动艳辉网5.0改版任务启动艳辉网5.0改版任务启动 需求&#xff1a;硬盘坏了&#xff0c;没备份。备份就是备份到硬盘上。资金有限&#xff0c;只备份到一个硬盘上。因此&#xff0c;开发5.0务必提前。选用架构是springboot2.0&#xff0c;后台继续使用layui。…

阿里云服务器tomcat启动慢解决方案

yum -y install rng-tools( 熵服务) cp /usr/lib/systemd/system/rngd.service /etc/systemd/system vim /etc/systemd/system/rngd.service 修改&#xff1a; ExecStart/sbin/rngd -f -r /dev/urandom 重新载入服务&#xff1a; systemctl daemon-reload…

java web景点规划导航

需求&#xff1a;有起点&#xff0c;终点&#xff0c;可随意输入不同的地方名&#xff0c;根据百度地图计算&#xff0c;规划出由起点到终点的路径&#xff0c;且需经过输入的地方。输入的地方是普通文字&#xff0c;而不是经纬度。所以需要调用百度的地址转经纬度&#xff0c;…