基于python的自然语言处理NLP详细教程（一）

2025-01-28

1.相关第三包的筹备
2.获与语料库及停用词信息
3.分词
4.词频统计
5.去停用词
6.基于TF-IDF真践、词袋模型等的文原向质化办理
7.呆板进修、激情阐明
8.简略可室化

一、相关第三方包的筹备

对于NLP局部的包次要是分词局部的包和可室化局部的包，呆板进修局部我次要就用sk-learn了。

分词局部：

将语料库停行分词并去掉停用词，可以运用的分词工具有：

StandardAnalyzer（中英文）、ChineseAnalyzer（中文）、CJKAnalyzer（中英文）、IKAnalyzer（中英文，兼容韩文，日文）、paoding（中文）、MMAnalyzer（中英文）、MMSeg4j（中英文）、imdict（中英文）、NLTK（中英文）、Jieba（中英文），那几多种分词工具的区别，可以拜谒：

应付初学要求不高的，中文可以用结巴分词和哈工大的LTP，NLTK用于激情阐明也不错。
分词局部的包次要用pip就止了，我没有逢到什么坑。

可室化局部：
可室化的包各类bug比较多，放到背面一起讲，那里先引见一下要用到的一些包：
networkV
Pyecharts
Igraph
pyLDAZZZis，那个包实的神仙包，可以快捷出图，坑又少hts://ss.machinelearningplusss/nlp/topic-modeling-gensim-python/
它的图长那样，可以详细调理λ来调解显示，也可以快捷显示每个类其它比重，类别内分布等

在这里插入图片描述

假如不出不测，运气够好，以上的包pip一下还是可以pip的，假如有不测（debug总是常态嘛，不要怕）可以拜谒我另一篇讲作做语言初学逢到的问题的博客。假如你有用得顺手的可室化的包也可以自界说写，技能花腔可以多样呀。

二、获与语料库及停用词信息

语料库信息先放一个，有机缘再补充，语料库的获与不是很难。假如是商用须要原人爬数据的话另当别论
hts://githubss/codemayq/chinese_chatbot_corpus

三、分词

分词的难点不正在于分，正在于分得精确。英文的分词用空格就能分好，所以那一步往往比较简略，中文分词会波及到专有名词、新兴词语等，所以须要导入专有词文档，同时须要一定的手动监视能否分对，所以中文文原办理中，分词是预办理当中较为重要的一个局部，也比较耗损光阳，工做质也较大。
分词的一些本理：
hts://blog.csdn.net/nawenqiang/article/details/80847087?depth_1-utm_source=distribute.pc_releZZZant.none-task-blog-BlogCommendFromBaidu-16&utm_source=distribute.pc_releZZZant.none-task-blog-BlogCommendFromBaidu-16
以jieba分词为例

分词的收配还是很简略的：

import jieba segments = [] for seg_origin in data_res

随机推荐

AI可创作与人类画作“难以分别”的艺术品？...
浏览：13 时间：2025-01-18
国货美妆比拼：业绩两极分化，大单品成关键...
浏览：37 时间：2024-05-07
62岁叶倩文亲身示范：满头白发，穿衣不花，到老都没有“大妈感...
浏览：38 时间：2024-05-26
【深度学习】理解鲁棒性和泛化能力...
浏览：24 时间：2025-01-10
美妆出海：品牌与代工厂的双向奔赴...
浏览：34 时间：2024-08-22

出售本站【域名】【外链】

基于python的自然语言处理NLP详细教程（一）

猜你喜欢

热门文章

随机推荐

推荐文章