python文本分析与挖掘(一)-构建语料库

liftword5个月前 (02-19)技术文章77

实现功能：

python文本分析与挖掘（一）-构建语料库

实现代码：

1	import os
2	from warnings import simplefilter
3	simplefilter(action='ignore', category=FutureWarning)
4	import os.path
5	import codecs
6	import pandas
7
8	#==========词料库构建=================
9	def Create_corpus(file):
10	filePaths = []
11	fileContents=[]
12	for root, dirs, files in os.walk(file):
13	print(root)
14	print(dirs)
15	print(files)
16	# os.path.join()方法拼接文件名返回所有文件的路径，并储存在变量filePaths中
17	for name in files:
18	filePath=os.path.join(root, name)
19	filePaths.append(filePath)
20	print(filePaths)
21	f = codecs.open(filePath, 'r', 'utf-8')
22	print(f)
23	fileContent = f.read()
24	print(fileContent)
25	f.close()
26	fileContents.append(fileContent)
27	#codecs.open()方法打开每个文件，用文件的read()方法依次读取其中的文本，将所有文本内容依次储存到变量fileContenst中，然后close()方法关闭文件。
28	#创建数据框corpos，添加filePaths和fileContents两个变量作为数组
29	corpos = pandas.DataFrame({'filePath': filePaths,'fileContent': fileContents})
30	print(corpos)
31
32	Create_corpus("F:\医学大数据课题\AI_SLE\AI_SLE_TWO\TEST_DATA")

实现效果：

喜欢记得点赞，在看，收藏，

关注V订阅号：数据杂坛，获取数据集，完整代码和效果，将持续更新！

相关文章

Python脚本之文本处理和操作_python文本处理教程

Python脚本之文本处理和操作计算文本文件中的字数#计算文本文件的数字 def count_words(file_path): with open(file_path, 'r', encod...

开通头条号|Python文本分析情感分析四种算法比较|案例

随着信息大爆炸时代的到来，我们可以参与发表评论、日志，观影弹幕，微博等等，这些庞大的信息会使人迷惑从而失去判断力。但是随时计算机软件技术等的发展，文本分析方法的问世，使得我们所面对的海量信息得以提炼，...

教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

作者：Python进阶者来源：Python爬虫与数据挖掘前言前几天有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题。他要构建语料库，目前通过Python网络爬虫抓到的数据存...

20000字!一文学会Python数据分析_如何入门python数据分析

近年来，随着数据科学的逐步发展，Python语言的使用率也越来越高，不仅可以做数据处理，网页开发，更是数据科学、机器学习、深度学习等从业者的首选语言。TIOBE Index for October 2...

一文看懂怎么用 Python 做数据分析

01 生成数据表第一部分是生成数据表，常见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入...

Python文本处理的利器:Textblob库详解

Python，作为一门多用途的编程语言，在数据分析、自然语言处理（NLP）和机器学习等领域的重要性日益凸显。在这些领域中，文本处理是一个不可或缺的环节。本文旨在深入探讨Textblob库——一个Pyt...