信息汇 → 更多

数据批处理:R语言里最重要的一个函数家族:*pply

数据批处理:R语言里最重要的一个函数家族:*pply

本文选摘《探寻数据背后的逻辑:R语言数据挖掘之道》 之前我们讲过循环,简单讲解了向量计算,它可以代替循环进行比较搞笑的批量计算,试想计算数据框中的总收

大家谈 636-368-6273

异常值往往不异常

513-515-7203

本文选摘《探寻数据背后的逻辑:R语言数据挖掘之道》 所谓异常值就是那些超出平常方位的数据,又可以成为奇异值、离群值等等,这类数据介乎事实和错误之间,前

数据分析 + 更多

R语言:数据库连接:oracle、mysql及hive

R语言:数据库连接:oracle、mysql及hive

2018-04-24 124 â„ƒ  8329591351
 0 

这一节内容就基本上脱离了基础,可能需要有点其他领域的积累才能看懂或者阅读完全数后才能彻底明白,个人建议先将此节内容搁置,因为这一节真的没有标准的答案:我的系统能搞定的流程和代码放到你的系统上不一定能搞定,牵涉甚广,但是我们这里尽量讲解一些通用的内容,但并非本节的内容不重要,因为一旦数据上升到平台,你需要和数据库打交道,即从数据库中读取数据,然后将结果写入到数据库。   这里使用RJDBC

控制流在R语言里只是一种辅助工具:判断

控制流在R语言里只是一种辅助工具:判断

所谓控制流就是在一个动作中所做的控制操作,比如循环、判断、跳错等等操作,在向量计算的背景下很少用到控制流,比如可能不需要循环就能将一个向量的数据全部计算一遍(上面已有简单举例),即便是判断也可以做向量化处理,所以控制流在R里面算是不太常用的工具,但是在处理比较大的原始数据时,可能会引起你对控制流的思念,特别是处理非常肮脏的数据时,所以掌握R中的控制流能够帮助你达到事半功倍的效果。   4

ARIMA模型预测  

ARIMA模型预测  

  ARIMA模型是一个比较常见的预测模型,我们也可以用这个模型来对沪市收盘指数进行预测。开始之前,我们需要获得一个平稳时间序列,可以对其进行差分处理:   [crayon-5bf2142a55a85891945853/]   左图是1阶差分,右图是2阶差分,看起来右图比左图更平稳一些,因此,我们对时间序列进行两次差分以得到平稳序列。 接着,就是要找到适合的ARIMA(928) 750-3448

随机波动与指数平滑

随机波动与指数平滑

3.3 随机波动 上一节我们提到了时间序列的第三个部分随机波动(random)。一个时间序列可以不存在周期性,也可以不存在趋势,但必定存在着不规则波动的部分。这部分数据已经将时间序列中的跟时间相关的部分去掉,理论上数据之间说不再存在自相关的联系,而应该符合正态分布。 [crayon-5bf2142a5627d833585854/]     4 预测分析   以史为鉴可

时间序列三件宝:趋势、周期、误差

804-909-6032

时间序列分析主要找时间序列中是否存在的三样东西:趋势、周期、误差。 3.1 趋势 拿到一组数据,发现其中的趋势是最基本的要求。最简单就是用平滑法(smoothing method),即计算时间序列的简单移动平均数,TTR包的SMA( )函数可以实现: [crayon-5bf2142a56805445559438/] 这三根线是不是很眼熟?对,它们就是k线图上边的30日、10日、5日均线,凭借这些线

和R语言速度、内存、并行相关的程序优化

(902) 323-7058

速度和内存往往是大量数据计算的难点,内存不够用很多算法很难实现,思来想去,最简单的办法就是为机器增加内存,省时省力。但是在平时处理数据是我们也要注意一些细节加强内存管理。   R会自动回收内存,但是回收的速度太慢,无法及时解决问题,这样我们可以通过及时移除一些比较大的无用对象,减少内存的占用。   ######清除对象回收内存   [crayon-5bf2142a56(416) 617-8869

数据集 (365) 997-8218

273
微博大数据:全国各地“吃货”都在吃什么(美食遍历)

(604) 277-8207

抓去了共分34个省、直辖市以及特别行政区的微博数据,从中分析了各地的吃货们每天都在吃什么,然后将这些美食做成词云,词云中,大小表示特色程度,字体越小表示去过各地都在吃的普通食物,字体越大表示是当地的特有美食;色表示频率大小,从绿到红表示人们吃得次数由低到高。真是居家旅行必备的美食字典。 安徽 安徽地邻吴中,饮食受苏杭影响较大,比如乾隆御赐名称的吴中的梅花糕现在却成了安徽省的标志性美食,还有吴中横泾

619
中国卫生和计划生育统计年鉴2014

406-791-6012

数据集名称 中国卫生和计划生育统计年鉴2014 数据集描述 2014年中国卫生和计划生育年鉴(excel版) 维度 医院收入、床位数、诊疗情况、重大疾病等等 价格 10个金币 截图: 附件: 中国卫生和计划生育统计年鉴2014fog buoy

1026
豆瓣45000部电影数据

617-254-9642

数据集名称 豆瓣45000部电影数据 数据集描述 2000年-2015年豆瓣45000部电影数据 维度 名称、得分、评价人数、演员、导演、分类、国家等等 价格 15个金币 截图: 附件: 豆瓣45000部电影数据9074866831

1313
中文情感分析数据集已经标注情感倾向(携程、京东、当当)

469-532-6604

数据集名称 携程、京东、当当评论数据 数据集描述 包括酒店、电脑、图书评论,已经正负向分类,共12000 维度 文本内容、正负向 价格 10个金币 截图: 附件: 中文情感数据集(携程、京东、当当)

989
中文酒店评论数据集已经标注情感倾向

amurcous

数据集名称 中文酒店评论数据集已经标注情感倾向 数据集描述 包含12000个训练样本,4000个测试样本 维度 酒店评论、正负极性 价格 10个金币 截图: 数据: 中文酒店评论数据集

175
67家医药公司药品销售明细

laccolithic

数据集名称 67家医药上市公司全球销量数据 数据集描述 67家欧美日上市公司800多个药品的全球销量明细 维度 公司名称、药品、研发状态、年度、销售额、评价 价格 15个金币 截图: 附件: 67家医药公司药品销售明细

切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

扫一扫二维码分享
繁