摘要:
资讯: Python超过R,成为数据科学和机器学习的最常用语言 近期,数据挖掘资讯网站KDnuggets开展了一项调查,问题是“2016年和2017年,在数据分析、数据科学和机器学习工作中,你使用R、Python、两者都用,还是其他工具?”。 资讯:
近期,数据挖掘资讯网站KDnuggets开展了一项调查,问题是“2016年和2017年,在数据分析、数据科学和机器学习工作中,你使用R、Python、两者都用,还是其他工具?”。2017年Python生态系统已经超越了R,成为数据分析、数据科学和机器学习领域领先的平台,同时也在迅速吸引其他平台的用户。复制代码
8月24日,中国电子信息产业发展研究院在工业和信息化部信软司指导下发布了《中国大数据产业发展水平评估报告(2017年)》。作为《大数据产业发展规划(2016—2020年)》颁布后的第一个年度大数据产业评估报告,为我国大数据产业健康发展和相关产业管理工作提供了有力支撑。复制代码
近日,中国管理科学学会大数据管理专委会、国务院发展研究中心产业互联网课题组、社会科学文献出版社共同举办的《大数据应用蓝皮书:中国大数据应用发展报告No.1(2017)》发布会在北京举行。本书是国内首本研究大数据应用的蓝皮书。复制代码
技术
本文介绍Kafka Cruise Control的开发动机、一般用途和其在LinkedIn的用途、体系结构,以及开发它时面临的一些独特挑战。复制代码
Kafka的作者Neha Narkhede在Confluent上发表了一篇博文,介绍了Kafka新引入的KSQL引擎——一个基于流的SQL。推出KSQL是为了降低流式处理的门槛,为处理Kafka数据提供简单而完整的可交互式SQL接口。KSQL目前可以支持多种流式操作,包括聚合(aggregate)、连接(join)、时间窗口(window)、会话(session),等等。复制代码
Apache Kylin使用“空间换时间”极大提高了查询效率,但“空间”也并非无限,因此,在保持查询效率不变的前提下,减少存储占用显得尤为重要。本文介绍如何使用KyBot优化存储资源。复制代码
Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。这篇文章将复制代码