`
文章列表
Python有两个著名的包管理工具easy_install.py和pip。在Python2.7的安装包中,easy_install.py是默认安装的,而pip需要我们手动安装。 一、pip安装 1、使用脚本安装 访问官网http://pip-cn.readthedocs.io/en/latest/installing.html#get-pip 下载 get-pip.py 文件, 然后运行以下命令 (需要管理员权限)::python  get-pip.py 新版本的pip安装,不需要手动安装 setuptools,在装pip时会自动安装 setuptools, 但是老版本的pip时,是需要先装好 ...
     Superset是由Airbnb(知名在线房屋短租公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询等,原来是用于支持Druid的可视化分析,后面发展为支持很多种关系数据库及大数据计算框架,如:mysql, oracle, Postgres,Presto,sqlite, Redshift,Impala, SparkSQL, Greenplum, MSSQL. 其安装部署请看:http://daizj.iteye.com/a ...
    Superset是由Airbnb(知名在线房屋短租公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询等,原来是用于支持Druid的可视化分析,后面发展为支持很多种关系数据库及大数据计算框架,如:mysql, oracle, Postgres,Presto,sqlite, Redshift,Impala, SparkSQL, Greenplum, MSSQL. 说明:此部署方式在服务器可以联网的方式,对于离线安装的话,依赖很多 ...
作为一名新手Python程序员,你首先需要学习的内容之一就是如何导入模块或包。但是我注意到,那些许多年来不时使用Python的人并不是都知道Python的导入机制其实非常灵活。在本文中,我们将探讨以下话题: 常规导入(regular imp ...
每个人在使用python的过程中都会遍历list和dict. List遍历 最常用最简单的遍历list的方法 1 2 3 4 5 a = ["a", "b", "c", "d"] # simple iterate for i in a:     print i 但是, 如果我需要拿到list的index, 很多人可能会这样写 1 2 3 4 5 a = ["a", "b", "c", "d"] # index & ...
mysql修改表、字段、库的字符集(转) 原文链接:http://fatkun.com/2011/05/mysql-alter-charset.html MySQL中默认字符集的设置有四级:服务器级,数据库级,表级 。最终是字段级 的字符集设置。注意前三种均为默认设置,并不代码你的字段最终会使用这个字符集设置。所以我们建议要用show create table table ; 或show full fields from tableName; 来检查当前表中字段的字符集设置。 如果两个表的字段字符集不一致会报如下错误: ERROR 1267 (HY000): Illegal mix ...
split命令 split命令可以将一个大文件分割成很多个小文件,有时需要将文件分割成更小的片段,比如为提高可读性,生成日志等。 -b:值为每一输出档案的大小,单位为 byte。 -C:每一输出档中,单行的最大 byte 数。 -d:使用数字作为后缀。 -l:值为每一输出文档的行数大小。 实例 1、生成一个大小为100KB的测试文件: [root@localhost split]# split -b 10k date.file [root@localhost split]# ls date.file xaa xab xac xad xae xaf xag xah xai ...
作为管理N台服务器,而又要执行相同命令又不想用脚本来执行,只有利用工具来执行,可以利用SecureCRT的 Chat Windows选项Send chat to all tabs来同时在服务器上执行相同的命令,记录下方法,希望提供给有需要朋友。 一、首先在SecureCRT里同时打开多个服务器session二、选择菜单栏View -->Chat Windows  对号,此时所有服务器连接下方应该有个空白的部分 三、在空白的部分(Chat Windows)右键鼠标, 选上Send Chat to All Tabs, 这样Chat Windows里会有"<Send ch ...
要想知道每个数据库的大小的话,步骤如下: 1、进入information_schema 数据库(存放了其他的数据库的信息) use information_schema;   2、查询所有数据的大小: select concat(round(sum(data_length/1024/1024),2),'MB') as data from tables;   如有 ...
lsof简介 lsof(list open files)是一个列出当前系统打开文件的工具。在linux环境下,任何事物都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件。所以如传输控制协议 (TCP) 和用户数据报协议 (UDP) 套接字等,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何,该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。因为应用程序打开文件的描述符列表提供了大量关于这个应用程序本身的信息,因此通过lsof工具能够查看这个列表对系统监测以及排错将是很有帮助的。 lsof使用   lsof输出信息含义 ...
在linux系统上有时发现使用df 查看磁盘已使用空间和使用du统计的不相等,例如: [running]root@slave11:/$ df -h Filesystem            Size  Used Avail Use% Mounted on /dev/sda1             9.9G  4.0G  5.4G  43% / /dev/sda3              20G  1.4G   18G   8% /usr/local /dev/sda4             244G  215G   17G  93% /data tmpfs         ...
一、总体思想 http://blog.csdn.net/u011750989/article/details/12024301 1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标 再好的硬件没有充分利用起来,都是白扯淡。 比如: (1)  启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做  通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要. (2) 合理设置reduce个数
hive在跑数据时经常会出现数据倾斜的情况,使的作业经常reduce完成在99%后一直卡住,最后的1%花了几个小时都没跑完,这种情况就很可能是数据倾斜的原因,解决方法要根据具体情况来选择具体的方案   1、join的key值发生倾斜,key值包含很多空值或是异常值 这种情况可以对异常值赋一个随机值来分散key 如: select userid,name  from user_info a join(     select case when userid is 
抽样的类型  根据抽取对象的具体方式,人们把抽样分为许多不同的类型。总的来说,各种抽样都可以归为概率抽样与非概率抽样两大类。这是两种有着本质区别的抽样类型。概率抽样是依据概率论的基本原理,按照随机原 ...
hive中有许多配置将帮助我们提升性能,其详细配置如下:   1、hive.auto.convert.join  默认值为true 是否根据输入小表的大小,自动将 Reduce 端的 Common Join 转化为 Map Join,从而加快大表关联小表的 Join 速度。    2、hive.groupby. ...
Global site tag (gtag.js) - Google Analytics