title: 中文文章分析
date: 2016-03-27 15:35:52
tags: qt
categories: qt


中文不像英文,一个单词就是一次单词,中文需要分段,一句话到底什么是主语,谓语,定语,动词,副词。需要分析和判断,我们学习中文都需要时日,计算机更需要了。而且关键词怎么分析,我们怎么知道一句话什么关键,什么不关键。所以我使用了
玻森专注中文语义分析技术,拥有丰富的经验积累。自主研发千万级中文语料库,为精准和深度的中文语义分析提供坚实基础,
可以实现对文章请感分析,文章关键词提取,文章主题句提取。
我也是基于玻森数据文章内容的。

<a href="http://bosonnlp.com/">玻森数据</a>
我在linux下用它们提供的pythonSDK制作完成。

#!/bin/env python
# -*- encoding: utf-8 -*-
from __future__ import print_function, unicode_literals
import json
import requests
KEYWORDS_URL = 'http://api.bosonnlp.com/keywords/analysis'
SUMMARY_URL = 'http://api.bosonnlp.com/summary/analysis'
CLASSIFY_URL = 'http://api.bosonnlp.com/classify/analysis'
import urllib
import os
import sys

reload(sys)
sys.setdefaultencoding( "utf-8" )

f = file("./datas","w")

text = sys.argv[1]
params = {'top_k': 3}
data1 = json.dumps(text)
headers1 = {'X-Token': 'TsjL7xQk.4726.T9ImfphHUZKm'}
resp = requests.post(KEYWORDS_URL, headers=headers1, params=params, data=data1.encode('utf-8'))
for word in resp.json():
    f.write(word[1])
    f.write("\n")
#文章的类型分类(新闻)
s = []
s.append(text)
data3 = json.dumps(s)
headers3 = {'X-Token': 'TsjL7xQk.4726.T9ImfphHUZKm'}
resp = requests.post(CLASSIFY_URL, headers=headers3, data=data3.encode('utf-8'))
f.write(resp.text)
f.write("\n")
# 提取文章关键词
headers2 = {'X-Token': 'TsjL7xQk.4726.T9ImfphHUZKm'}
source2 = {
'not_exceed': 0,
'percentage': 0.2,
'title': ''}
source2['content'] = text;
resp = requests.post(
SUMMARY_URL,
headers=headers2,
data=json.dumps(source2).encode('utf-8'))
f.write(json.loads(resp.text))

f.close 

<b>qt 提供了qproccess来实现对python代码的调用,据说可以用popen管道获取数据,我用的方式比较简单,将数据获取后写入文件,系统读取文件内容。</b>


1

从效果上看,文章分析的不错了,当然还有很大的提升空间。


2

当文章输入进数据库后,就可以索引了。
3

根据关键词,我们可以获取到文章全部内容。
我的数据库用的是简单的sqlite数据库,如果有条件可以考虑换换mysql,实现网络访问。
整体的调用就是如此,后续会添加其他的功能。希望能做得更牛一点。

本站以现代、古代情诗为主,情诗网创办于2013年,以原创爱情诗歌、经典情诗、现代情诗、古代情诗、英文情诗、情诗绝句为主并收集古诗、古诗词、诗歌大全、诗词名句的文学门户。方便您下次继续阅读;可以放在浏览器的收藏夹中(快捷键Ctrl+D);或者看到喜欢或者有趣的诗词可以通过分享按钮给你的好友分享;情诗网是目前最全情诗大全网站之一。并欢迎广大诗歌爱好者阅览投稿!喜欢本站的话请大家把本站告诉给你朋友哦!地址是 www.qingshiwang.com !