技术文章推荐-技术掘金

Impala实践之六：使用Rest Api

作者：JerryXia | 发表于 2017-12-20 23:57:57, 阅读 (23)

前言上次的impala状况出现后，决定自己做一套impala的管理系统，那么首先面临的一个问题就是获取impala的各种状态，比如任务执行状态。经过一天多的尝试，总结一下。
hue：可以使用hue的脚本，hue使用python编写，其中有一个beeswax模块，负责任务的执行等。缺点是没发现java的api。cloudera manager java api：java可以调用cm原生的api，需要导入jar包。跑是跑通了，但是资料太说，目前只能通过这个接口获取集群的基本情况，不想再折腾impala那快了。cloudera manager 的api：cm提供了rest的api供别人调用，经过接近一天的折腾，跑通了这一块。Cloudera Manager APIimpala相关和impala相关的api有下面这几个，能用上的主要是最下面带queries的几个接口：
/clusters/{clusterName}/services/{serviceName}/commands/hueSyncDb/clusters/{clusterName}/services/{serviceName}/...阅读全文

[ 技术文章推荐 ]

python实现Kindle笔记（标注）导出工具

作者：JerryXia | 发表于 2017-12-20 10:50:50, 阅读 (20)

if __name__ == '__main__':main()总结发点牢骚，和这个程序没关系，主要是在写爬虫时候。我是长记性了，以后再也不会一会跨操作系统写程序了。家里面的机器是linux，公司是windows，结果同样的程序，在公司就是有几个字段爬不下来，然后开了个虚拟机测了一才发现程序没问题，然后改着改着忘掉了，在windows下调程序了，能爬到所有字段了，又放到linux上，发现少字段了，我就是贱，以后不会再这样折腾了。
2016-04-18 22:44:00 hnds
作者：dantezhao| 简书| CSDN| GITHUB文章推荐：http://dantezhao.com/readme个人主页：http://dantezhao.com文章可以转载, 但必须以超链接形式标明文章原始出处和作者信息...阅读全文

[ 技术文章推荐 ]

一次集群硬盘故障记录

作者：JerryXia | 发表于 2017-12-19 13:05:05, 阅读 (25)

执行hadoop fsck /
会发现报错很多缺失块的问题，因为还抱有幻想希望盘能修好，因此没有执行hadoop fsck --delete操作。
/user/root/test.txt: Under replicated BP-1069288-141-1454466502803:blk_1074786045275. Target Replicas is 2 but found 1 replica(s)./user/root/test1.txt: Under replicated BP-10619288-10.54466502803:blk_1091327_2852203. Target Replicas is 3 but found 2 replica(s).........Status: HEALTHYTotal size: 6478807583062 B (Total open files size: 12661477 B)Total dirs: 74799Total files: 1028230Total symlinks: 0 (Files currently be...阅读全文

[ 技术文章推荐 ]

Python实现csdn博客爬虫之2：抓取所有用户名

作者：JerryXia | 发表于 2017-12-19 04:20:20, 阅读 (26)

前言按照之前我的思路，第一步就是先获取所有的用户名。在下载了csd被黑客脱裤的600w数据并且没法使用后，只有自己写程序了。
下面这个程序细节没有怎么注意，反正能正常的运行，目前在电脑试过跑了三天还没问题，截止现在已经为了抓了60多w的用户名了。
程序程序的整体思路很简单，就是一个简单的广度优先遍历，一个queue存放待爬的url，一个set()来存放已经爬过的url，一个set存放爬下来的用户名。平均没抓取100个用户名统一写入一次文件。代码有些地方还没有修缮，目前也就是能跑通功能的阶段。
import osimport reimport socketimport urllib.requestfrom bs4 import BeautifulSoupfrom collections import deque#根据url获取用户名def get_username(url_):#pattern = re.compile('.*blog\.csdn\.net/([\w\-\_]*)/?')pattern = re.compile('.*csdn\.net/([\w\-\_]*)/?'...阅读全文

[ 技术文章推荐 ]

Hive：一次错误解决的详细记录（关于内存和权限）

作者：JerryXia | 发表于 2017-12-18 19:35:35, 阅读 (22)

前言有那么一些大大的sql，是用来建各种宽表的。这些操作对impala来说，压力还是比较大的，而且在这个时候正好有别人的impala查询什么的，经常会报错。这是背景，因此我尝试用hive看能不能解决。
下面这个错误，之前解决过，但是随着数据量的增大，即使扩大了impala的内存限制，早晚还是会出问题了。
Memory limit exceeded Cannot perform hash aggregation. Partitioned input data too many times. This could mean there is too much skew in the data or the memory limit is set too low....阅读全文

[ 技术文章推荐 ]