基于百度AI的自然语言处理文字分类

news/2024/7/19 12:36:36 标签: 人工智能, 爬虫, python

前言:

需要在百度AI平台注册登录并创建项目。

爬虫代码

 1 import scrapy
 2 from BaiDuAi.items import  BaiduaiItem
 3 
 4 class AiSpider(scrapy.Spider):
 5     name = 'ai'
 6     # allowed_domains = ['www.xxx.com']
 7     #人民网url
 8     start_urls = ['http://politics.people.com.cn/n1/2018/1217/c1001-30470023.html']
 9 
10     def parse(self, response):
11         title=response.xpath('/html/body/div[4]/h1/text()').extract_first()
12         content=response.xpath('//*[@id="rwb_zw"]//text()').extract()
13         content=''.join(content).strip('\n \t')
14         item=BaiduaiItem()
15         item['title']=title
16         item['content']=content
17 
18         yield  item
爬虫代码

管道代码

 1 from aip import AipNlp
 2 
 3 """ 你的 APPID AK SK """
 4 APP_ID = '15198150'
 5 API_KEY = 'jaObSr6rmSmqsjWfKGGpmwxB'
 6 SECRET_KEY = '808Eiz4FPkfMwS2ajClXYhKrcFMN1YUN'
 7 
 8 client = AipNlp(APP_ID, API_KEY, SECRET_KEY)
 9 
10 class BaiduaiPipeline(object):
11     keys=[]
12     def process_item(self, item, spider):
13         title=item['title'].replace('\xa0','')
14         content=item['content'].replace('\xa0','')
15         keys_dict=client.keyword(title,content)
16         for dic in keys_dict['items']:
17             self.keys.append(dic['tag'])
18 
19 
20         keys="/".join(self.keys)
21         typec_dic=client.topic(title,content)
22         news_type=typec_dic['item']['lv1_tag_list'][0]['tag']
23 
24         with open('./xinwen.html','w',encoding='utf-8')as fp:
25             fp.write(title+'\n\n'+content+'\n\n'+keys+'\n\n'+news_type)
26         return item
管道

 

转载于:https://www.cnblogs.com/duanhaoxin/p/10138702.html


http://www.niftyadmin.cn/n/1171518.html

相关文章

wpf menu 菜单 快捷键

界面快捷键资源 CtrlF F3可加入其它&#xff0c;自行定义 Page可改为Windows xaml文件 <Page.Resources><RoutedUICommand x:Key"F3" Text"查找内容"/><RoutedUICommand x:Key"Search" Text"查找内容"/></Page.…

消息摘要和数字签名(Java简单实现)

摘要&#xff1a; 本文主要对数字签名和消息摘要进行简要介绍&#xff0c;并通过java实现基本流程。 概念介绍&#xff1a; 消息摘要 一个消息摘要是一个数据块的数字指纹。即对一个任意长度的一个数据块进行计算&#xff0c;产生一个唯一指印&#xff08;对于 SHA1 是产生…

Samba 系列(八):使用 Samba 和 Winbind 将 Ubuntu 16.04 添加到 AD 域

这篇文章讲述了如何将 Ubuntu 主机加入到 Samba4 AD 域&#xff0c;并实现使用域帐号登录 Ubuntu 系统。 要求&#xff1a; 在 Ubuntu 系统上使用 Samba4 软件来创建活动目录架构第一步&#xff1a; Ubuntu 系统加入到 Samba4 AD 之前的基本配置 1、在将 Ubuntu 主机加入到 AD …

luoguP4336 [SHOI2016]黑暗前的幻想乡 容斥原理 + 矩阵树定理

自然地想到容斥原理 然后套个矩阵树就行了 求行列式的时候只有换行要改变符号啊QAQ 复杂度为\(O(2^n * n^3)\) #include <cstdio> #include <cstring> #include <iostream> #include <algorithm> using namespace std;#define ri register int #define…

js变量值传到php(先把php解析成数据)

js变量值传到php&#xff08;先把php解析成数据&#xff09; 一、总结 一句话总结&#xff1a;传参数去后台&#xff0c;用ajax&#xff0c;或者原生js方式拼接url。明白原理&#xff0c;洞悉系统是先解析php&#xff0c;再执行html代码和js代码。 二、用ajax 1. 页面提交数据&…

C# 读取文件展示图片

读取文件显示图片 using (FileStream fs new FileStream(f.LocalPath, FileMode.Open, FileAccess.Read, FileShare.ReadWrite)) {byte[] buffer new byte[fs.Length];fs.Read(buffer, 0, buffer.Length);MemoryStream ms new MemoryStream(buffer);BitmapImage img new B…

IDEA通过Tomcat启动项目到一半卡住(JDK6、tomcat7)

如图&#xff0c;tomcat在一半卡住 先说下我的尝试步骤&#xff1a; 1.在file->Project Structure中把项目重新删除添加过&#xff0c;没效果 2.下了个tomcat8.5尝试&#xff0c;没效果 3.按网上说的注释tomcat bin目录下catlina.bat的JAVA_OPTS参数&#xff0c;没效果 …

android realm数据存储满了,Android Realm数据库使用总结及采坑记录

文章目录Realm使用注意事项Realm默认运行在主线程,使用时须开启异步任务Realm本身是单例类,可以多线程并发调用,但是RealmObject则不允许并发,每个RealmObject都绑定了一个TreadId,必须在创建该RealmObject的线程中使用它.在子线程查询出的数据无法在主线程使用,自己的方案是:子…