Skip to content

Commit e92a293

Browse files
Update README.md
1 parent 1f7366c commit e92a293

1 file changed

Lines changed: 5 additions & 13 deletions

File tree

README.md

Lines changed: 5 additions & 13 deletions
Original file line numberDiff line numberDiff line change
@@ -9,9 +9,7 @@ Sow with little data seed, harvest much from a text field.
99
## 用途
1010
HarvestText是一个专注无(弱)监督方法,能够整合领域知识(如类型,别名)对特定领域文本进行简单高效地处理和分析的库。
1111

12-
具体功能如下:
13-
14-
<a id="目录">目录:</a>
12+
<a id="目录">具体功能如下:</a>
1513
- [精细分词分句](#实体链接)
1614
- 可包含指定词和类别的分词。充分考虑省略号,双引号等特殊标点的分句。
1715
- [实体链接](#实体链接)
@@ -23,24 +21,18 @@ HarvestText是一个专注无(弱)监督方法,能够整合领域知识(
2321
- [关系网络](#关系网络)
2422
- 利用共现关系,获得关键词之间的网络。或者以一个给定词语为中心,探索与其相关的词语网络。
2523
- [内置资源](#内置资源)
26-
- 通用停用词,通用情感词,IT、财经、饮食、法律等领域词典。可直接用于以上任务。
24+
- 通用停用词,通用情感词,IT、财经、饮食、法律等领域词典。可直接用于以上任务,以简单清晰的方式与本库的分词、分析等流程结合
2725
- [新词发现](#新词发现)
2826
- 利用统计规律(或规则)发现语料中可能会被传统分词遗漏的特殊词汇。也便于从文本中快速筛选出关键词。
2927
- [文本摘要](#文本摘要)
3028
- 基于Textrank得到一系列句子中的代表性句子中。
3129
- [存取消除](#存取与消除)
3230
- 可以本地保存模型再读取复用(pickle),也可以消除当前模型的记录。
33-
34-
在很多领域文本分析中,我们往往已经了解其中的一些关键词语或实体,例如小说文本分析中的人物名,电影评论中的演员名、角色名、影片名,足球评论文本中的球员、球队、乃至一些术语。在后面的分析中,它们可能是我们的重点关注对象,或者是可以利用它们来改进分词等基础任务、提供机器学习的一些基础特征。
35-
36-
内置停用词,特殊类型词,情感词等资源,并以简单清晰的方式与本库的分词、分析等流程结合。
3731

38-
本库就旨在于提供解决这些问题的一个简单易用的方案。
32+
使用案例:
33+
- [《三国演义》中的社交网络](https://blog.csdn.net/blmoistawinde/article/details/85344906)(实体分词,文本摘要,关系网络等)
34+
- [2018中超舆情展示系统](https://blmoistawinde.github.io/SuperLegal2018Display/index.html)(实体分词,情感分析,新词发现\[辅助绰号识别\]等)
3935

40-
## 依赖
41-
- jieba
42-
- numpy, pandas
43-
- networkx
4436

4537
## 用法
4638

0 commit comments

Comments
 (0)