Python 和 R 数据分析/挖掘工具互查

写在前面

在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中。

如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。python在下表中以模块 .的方式引用,部分模块并非原生模块,请使用

pip install *

安装;同理,为了方便索引,R中也以 ::表示了函数以及函数所在包的名字,如果不含::表示为R的默认包中就有,如含::,请使用

install.packages("*")

安装。

连接器与io

数据库

IO类

类别PythonR
excelxlsxWriter, pandas.(from/to)_excel, openpyxlopenxlsx::read.xlsx(2), xlsx::read.xlsx(2)
csvcsv.writerread.csv(2), read.table
jsonjsonjsonlite
图片PILjpeg, png, tiff, bmp

统计类

回归(包括统计和机器学习)

类别PythonR
普通最小二乘法回归(ols)statsmodels.ols, sklearn.linear_model.LinearRegressionlm,
广义线性回归(gls)statsmodels.glsnlme::gls, MASS::gls
分位数回归(Quantile Regress)statsmodels.QuantRegquantreg::rq
岭回归sklearn.linear_model.RidgeMASS::lm.ridge, ridge::linearRidge
LASSOsklearn.linear_model.Lassolars::lars
最小角回归sklearn.linear_modle.LassoLarslars::lars
稳健回归statsmodels.RLMMASS::rlm

假设检验

类别PythonR
t检验statsmodels.stats.ttest_ind, statsmodels.stats.ttost_ind, statsmodels.stats.ttost.paired; scipy.stats.ttest_1samp, scipy.stats.ttest_ind, scipy.stats.ttest_ind_from_stats, scipy.stats.ttest_relt.test
ks检验(检验分布)scipy.stats.kstest, scipy.stats.kstest_2sampks.test
wilcoxon(非参检验,差异检验)scipy.stats.wilcoxonwilcox.test
Shapiro-Wilk正态性检验未知shapiro.test
Pearson相关系数检验scipy.stats.pearsonrcor.test

时间序列

生存分析

机器学习类

回归

参见统计类

分类器

LDA、QDA

SVM(支持向量机)

类别PythonR
支持向量分类器(SVC)sklearn.svm.SVCe1071::svm
非支持向量分类器(nonSVC)sklearn.svm.NuSVC未知
线性支持向量分类器(Lenear SVC)sklearn.svm.LinearSVC未知

基于临近

类别PythonR
k-临近分类器sklearn.neighbors.KNeighborsClassifier未知
半径临近分类器sklearn.neighbors.RadiusNeighborsClassifier未知
临近重心分类器(Nearest Centroid Classifier)sklearn.neighbors.NearestCentroid未知

贝叶斯

类别PythonR
朴素贝叶斯sklearn.naive_bayes.GaussianNBe1071::naiveBayes
多维贝叶斯(Multinomial Naive Bayes)sklearn.naive_bayes.MultinomialNB未知
伯努利贝叶斯(Bernoulli Naive Bayes)sklearn.naive_bayes.BernoulliNB未知

决策树

类别PythonR
决策树分类器sklearn.tree.DecisionTreeClassifiertree::tree, party::ctree
决策树回归器sklearn.tree.DecisionTreeRegressortree::tree, party::tree
随机森林分类器sklearn.ensemble.RandomForestClassifierrandomForest::randomForest, party::cforest
随机森林回归器sklearn.ensemble.RandomForestRegressorrandomForest::randomForest, party::cforest

聚类

类别PythonR
kmeansscipy.cluster.kmeans.kmeanskmeans::kmeans
分层聚类scipy.cluster.hierarchy.fcluster(stats::)hclust
包聚类(Bagged Cluster)未知e1071::bclust
DBSCANsklearn.cluster.DBSCANdbscan::dbsan
Birchsklearn.cluster.Birch未知
K-Medoids聚类pyclust.KMedoids(可靠性未知)cluster.pam

文本、NLP

基本操作

类别PythonR
tokenizenltk.tokenize(英), jieba.tokenize(中)tau::tokenize
stemnltk.stemRTextTools::wordStem, SnowballC::wordStem
stopwordsstop_words.get_stop_wordstm::stopwords, qdap::stopwords
中文分词jieba.cut, smallseg, Yaha, finalseg, geniusjiebaR

主题模型

相关文章

Python 裸体检测

人脑知道如何区分穿衣服的人、穿比基尼的人和裸体的人。然后我有一个我无法立即回答的问题:一个简单的程序,几行代码就能知道照片是否裸体吗?让我们进入正题……一个可以知道你是否裸体的人工智能?Nudity...

化学方向:EI源刊实验数据写法

推荐期刊:Journal of Analytical Chemistry- 刊号:ISSN 1061-9348,CN 11-2345/O6- 影响因子:2.1(最新版)- 分区:中科院3区,JCR...

想学好Python数据分析,一定要掌握的重要模块之Statsmodels

Statsmodels是Python中一个功能强大且广泛使用的统计建模和经济计量学库。它允许用户构建各种统计模型,执行假设检验,进行预测,并对模型结果进行详细的诊断和可视化。以下是statsmodel...

「医学统计学之二」卡方检验之独立性检验:python的scipy实现

△ 概念:1 独立性检验:是对两个或两个以上因子彼此之间是否相互独立做检验时,就要用到卡方检验。2 列联表中变量独立性的卡方检验,采用python中scipy包的scipy.stats.chi2_co...

R数据分析:倾向性评分匹配实例操作

倾向性评分匹配是一种控制混杂的技巧,本文主要写操作,具体原理大家自己摸索哈。propensity score matching (PSM) is a “statistical matching tec...