python文本分析与挖掘(一)-构建语料库

liftword5个月前 (02-19)技术文章77

实现功能:

python文本分析与挖掘(一)-构建语料库


实现代码:

1

import os

2

from warnings import simplefilter

3

simplefilter(action='ignore', category=FutureWarning)

4

import os.path

5

import codecs

6

import pandas

7


8

#==========词料库构建=================

9

def Create_corpus(file):

10

filePaths = []

11

fileContents=[]

12

for root, dirs, files in os.walk(file):

13

print(root)

14

print(dirs)

15

print(files)

16

# os.path.join()方法拼接文件名返回所有文件的路径,并储存在变量filePaths中

17

for name in files:

18

filePath=os.path.join(root, name)

19

filePaths.append(filePath)

20

print(filePaths)

21

f = codecs.open(filePath, 'r', 'utf-8')

22

print(f)

23

fileContent = f.read()

24

print(fileContent)

25

f.close()

26

fileContents.append(fileContent)

27

#codecs.open()方法打开每个文件,用文件的read()方法依次读取其中的文本,将所有文本内容依次储存到变量fileContenst中,然后close()方法关闭文件。

28

#创建数据框corpos,添加filePaths和fileContents两个变量作为数组

29

corpos = pandas.DataFrame({'filePath': filePaths,'fileContent': fileContents})

30

print(corpos)

31


32

Create_corpus("F:\医学大数据课题\AI_SLE\AI_SLE_TWO\TEST_DATA")

实现效果:


喜欢记得点赞,在看,收藏,

关注V订阅号:数据杂坛,获取数据集,完整代码和效果,将持续更新!

相关文章

Python脚本之文本处理和操作_python文本处理教程

Python脚本之文本处理和操作计算文本文件中的字数#计算文本文件的数字 def count_words(file_path): with open(file_path, 'r', encod...

开通头条号|Python文本分析情感分析四种算法比较|案例

随着信息大爆炸时代的到来,我们可以参与发表评论、日志,观影弹幕,微博等等,这些庞大的信息会使人迷惑从而失去判断力。但是随时计算机软件技术等的发展,文本分析方法的问世,使得我们所面对的海量信息得以提炼,...

教你对抓取的文本进行分词、词频统计、词云可视化和情感分析

作者:Python进阶者来源:Python爬虫与数据挖掘前言前几天有个叫【小明】的粉丝在问了一道关于Python处理文本可视化+语义分析的问题。他要构建语料库,目前通过Python网络爬虫抓到的数据存...

20000字!一文学会Python数据分析_如何入门python数据分析

近年来,随着数据科学的逐步发展,Python语言的使用率也越来越高,不仅可以做数据处理,网页开发,更是数据科学、机器学习、深度学习等从业者的首选语言。TIOBE Index for October 2...

一文看懂怎么用 Python 做数据分析

01 生成数据表第一部分是生成数据表,常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入...

Python文本处理的利器:Textblob库详解

Python,作为一门多用途的编程语言,在数据分析、自然语言处理(NLP)和机器学习等领域的重要性日益凸显。在这些领域中,文本处理是一个不可或缺的环节。本文旨在深入探讨Textblob库——一个Pyt...