服务器之家:专注于VPS、云服务器配置技术及软件下载分享
分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - C# - C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

2022-11-27 14:45time-flies C#

之前一篇文章介绍的是使用Python的jieba、wordcloud的库生成词云图,本文则介绍在C#中如何使用jieba.NET、WordCloudSharp库生成词云图,感兴趣的朋友一起看看吧

词云简介

“词云”由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于2006年最先使用,是通过形成“关键词云层”或“关键词渲染”,对文本中出现频率较高的“关键词”的视觉上的突出。
网上大部分文章介绍的是使用Python的jieba、wordcloud的库生成词云图,本文则介绍在C#中如何使用jieba.NET、WordCloudSharp库生成词云图,后者是前者的.NET实现。

准备工作

创建一个C#的控制台项目,通过NuGet添加引用对jieba.NET、WordCloudSharp的引用,使用方法可以参考以下链接:

安装之后,在packages\jieba.NET目录下找到Resources目录,将整个Resources目录拷贝到程序集所在目录,这里面是jieba.NET运行所需的词典及其它数据文件。

基本算法

算法主要步骤如下:

  • 提取关键词:基于TF-IDF算法、TextRank算法提取文本的关键词,按权重大小选取部分关键词。
  • 统计关键词词频:先将文本分词,统计每个词的词频,再筛选出关键词的词频。
  • 生成词云图:根据关键词及其词频信息在蒙版图片的基础上生成词图。

注:本文采用TF-IDF算法提取关键词,蒙版图目前只支持黑白图片。

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

算法实现

使用JiebaNet.Analyser.TfidfExtractor.ExtractTagsWithWeight(string text, int count = 20, IEnumerable allowPos = null)从指定文本中抽取关键词的同时得到其权重,代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
/// <summary>
/// 从指定文本中抽取关键词的同时得到其权重
/// </summary>
/// <param name="text"></param>
/// <returns></returns>
static WordWeightPair[] ExtractTagsWithWeight(string text)
{
    var extractor = new TfidfExtractor();
    var wordWeight = extractor.ExtractTagsWithWeight(text, 50);
    StringBuilder sbr = new StringBuilder();
    sbr.Append("词语");
    sbr.Append(",");
    sbr.Append("权重");
    sbr.AppendLine(",");
    foreach (var item in wordWeight)
    {
        sbr.Append(item.Word);
        sbr.Append(",");
        sbr.Append(item.Weight);
        sbr.AppendLine(",");
    }
    string filename = "关键词权重统计.csv";
    File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
    Console.WriteLine("关键词提取完成:" + filename);
    return wordWeight.ToArray();
}

使用JiebaNet.Segmenter.Common下的Counter类统计词频,其实现来自Python标准库的Counter类(具体接口和实现细节略有不同),代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
/// <summary>
/// 分词并统计词频:默认为精确模式,同时也使用HMM模型
/// </summary>
/// <param name="text"></param>
/// <param name="wordWeightAry"></param>
/// <returns></returns>
static KeyValuePair<string, int>[] Counter(string text, WordWeightPair[] wordWeightAry)
{
    var segmenter = new JiebaSegmenter();
    var segments = segmenter.Cut(text);
    var freqs = new Counter<string>(segments);
    KeyValuePair<string, int>[] countAry = new KeyValuePair<string, int>[wordWeightAry.Length];
    for (int i = 0; i < wordWeightAry.Length; i++)
    {
        string key = wordWeightAry[i].Word;
        countAry[i] = new KeyValuePair<string, int>(key, freqs[key]);
    }
    StringBuilder sbr = new StringBuilder();
    sbr.Append("词语");
    sbr.Append(",");
    sbr.Append("词频");
    sbr.AppendLine(",");
    foreach (var pair in countAry)
    {
        sbr.Append(pair.Key);
        sbr.Append(",");
        sbr.Append(pair.Value);
        sbr.AppendLine(",");
    }
    string filename = "词频统计结果.csv";
    File.WriteAllText(filename, sbr.ToString(), Encoding.UTF8);
    Console.WriteLine("词频统计完成:" + filename);
    return countAry;
}

使用WordCloudSharp生成词云图,蒙版图必须使用黑白图片,记得手动引用System.Drawing,代码如下:

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
/// <summary>
/// 创建词云图
/// </summary>
/// <param name="countAry"></param>
static void CreateWordCloud(KeyValuePair<string, int>[] countAry)
{           
    string markPath = "mask.jpg";
    string resultPath = "result.jpg";
    Console.WriteLine("开始生成图片,读取蒙版:" + markPath);
    Image mask = Image.FromFile(markPath);
    //使用蒙版图片
    var wordCloud = new WordCloud(mask.Width, mask.Height, mask: mask, allowVerical: true, fontname: "YouYuan");
    //不使用蒙版图片
    //var wordCloud = new WordCloud(1000, 1000,false, null,-1,1,null, false);
    var result = wordCloud.Draw(countAry.Select(it => it.Key).ToList(), countAry.Select(it => it.Value).ToList());
    result.Save(resultPath);
    Console.WriteLine("图片生成完成,保存图片:" + resultPath);
}

运行测试

以本文为分析文本生成词云图,代码如下:

?
1
2
3
4
5
6
7
8
static void Main(string[] args)
{
    string text = File.ReadAllText("待处理数据.txt");
    var wordWeight = ExtractTagsWithWeight(text);
    var wordFreqs = Counter(text, wordWeight);
    CreateWordCloud(wordFreqs);
    Console.Read();
}

蒙版图如下:

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

词云图如下(使用蒙版):

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

词云图如下(不使用蒙版):

C#中使用jieba.NET、WordCloudSharp制作词云图的步骤

在得到关键词的词频信息后,通过在线工具网站生成词云图片会更加方便一点,如词云文字、图悦等。

参考资料

jieba.NET是jieba中文分词的.NET版本(C#实现)

TF-IDF算法和TextRank算法的分析比较

Python生成词云图

到此这篇关于C#中使用jieba.NET、WordCloudSharp制作词云图的文章就介绍到这了,更多相关C#制作词云图内容请搜索服务器之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持服务器之家!

原文链接:https://www.cnblogs.com/timefiles/p/WordCloudCSharp.html

延伸 · 阅读

精彩推荐
  • C#WinForm绘制圆角的方法

    WinForm绘制圆角的方法

    这篇文章主要介绍了WinForm绘制圆角的方法,涉及C#中GraphicsPath模块的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下...

    我心依旧10412021-10-20
  • C#C#设置文件权限的方法

    C#设置文件权限的方法

    这篇文章主要介绍了C#设置文件权限的方法,文中讲解非常细致,帮助大家更好的理解和学习c#,感兴趣的朋友可以了解下...

    彭泽090210462022-09-29
  • C#c#实现字符串反序输出字符串的实例

    c#实现字符串反序输出字符串的实例

    下面小编就为大家分享一篇c#实现字符串反序输出字符串的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    梦想起航我起床5272022-02-16
  • C#C#中一个高性能异步socket封装库的实现思路分享

    C#中一个高性能异步socket封装库的实现思路分享

    下面小编就为大家分享一篇C#中一个高性能异步socket封装库的实现思路,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧...

    源之缘8662022-02-13
  • C#C# Ado.net实现读取SQLServer数据库存储过程列表及参数信息示例

    C# Ado.net实现读取SQLServer数据库存储过程列表及参数信息示例

    这篇文章主要介绍了C# Ado.net实现读取SQLServer数据库存储过程列表及参数信息,结合实例形式总结分析了C#针对SQLServer数据库存储过程及参数信息的各种常见操...

    linFen7452022-03-09
  • C#详解C# 虚方法virtual

    详解C# 虚方法virtual

    这篇文章主要介绍了C# 虚方法virtual的相关资料,帮助大家更好的理解和学习使用c#,感兴趣的朋友可以了解下...

    五维思考11332022-11-14
  • C#实例代码讲解c# 线程(下)

    实例代码讲解c# 线程(下)

    这篇文章主要介绍了c# 线程的的相关资料,文中示例代码非常细致,对大家的学习有很大帮助,感兴趣的朋友可以了解下...

    HueiFeng9042022-09-20
  • C#C#/VB.NET 给Excel添加、删除数字签名的方法

    C#/VB.NET 给Excel添加、删除数字签名的方法

    这篇文章主要介绍了C#/VB.NET 给Excel添加、删除数字签名的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需...

    E-iceblue11132022-10-14