Spark 编程指南 (一) [Spark Programming Guide] | logging.DEBUG 

作者:JerryXia | 发表于 , 阅读 (0)
Python Programming Guide - Spark
Spark应用基本概念每一个运行在cluster上的spark应用程序,是由一个运行main函数的driver program和运行多种并行操作的executes组成
其中spark的核心是弹性分布式数据集(Resilient Distributed Dataset—RDD)
Resilient(弹性):易变化、易计算Distributed(分布式):可横跨多台机器,集群分布Dataset(数据集):大批量数据的集合RDD基本概念RDD是逻辑集中的实体,代表一个分区的只读数据集,不可发生改变
【RDD的重要内部属性】
分区列表(partitions)对于一个RDD而言,分区的多少涉及对这个RDD并行计算的粒度,每一个RDD分区的计算都会在一个单独的任务中执行,每一个分区对应一个Task,分区后的数据存放在内存当中
计算每个分区的函数(compute)对于Spark中每个RDD都是以分区进行计算的,并且每个分区的compute函数是在对迭代器进行复合操作,不需要每次计算,直到提交动作触发才会将之前所有的迭代操作...阅读全文

 Spark 历史记录 Web 监控 [Spark JobHistory Web UI] | logging.DEBUG 

作者:JerryXia | 发表于 , 阅读 (0)
4040端口只能看到正在运行App的情况,并不能看到App运行结束后的各项数据
Mesos或YARN模式下可以通过各自的Web UI看到JobHistory情况的,但是在Standalone模式下是有自己的JobHistory Web UI
以下内容主要是怎样开启Standalone模式下的JobHistory Web UI
测试环境12345678910测试环境:  Ubuntu 14.04 LTS x64  Hadoop:hadoop-2.7.1.tar.gz  Spark:spark-1.5.2-bin-hadoop2.6.tgz  Scala:scala-2.11.7.tgz    伪分布式 + Yarn    hostname IP  role  spark-master: 192.168.108.20   master & worker概述翻译:运行结束后监控 [Viewing After the Fact]在Spark的 Standalone 模式下,有它自己的web UI监控界面,如果一个应用程序已经记录了它的生命周期,在程序运行结束后,Standalone模...阅读全文

 Debian安装VMwareTools | logging.DEBUG 

作者:JerryXia | 发表于 , 阅读 (0)
刚开始接触Debian,在VM里安装后发现不能从Win下复制粘贴内容原来是没有安装VMware Tools,下面是如何在Debian下安装VMware Tools的教程
测试环境1234测试环境:  debian-8.3.0-amd64  VMware 11.0.0 build-2305329  VMwareTools-9.9.0-2304977.tar.gz安装sudo、vim12345# 切换rootsu rootapt-get install sudoapt-get install vim123456789101112# 设置用户权限vim /etc/sudoers# 添加用户名   ALL=(ALL:ALL) ALL# 强制保存退出wq!# 退出rootexit载入光驱,复制压缩包并解压在VM虚拟机菜单上选择:虚拟机—安装VMware Tools此时会在桌面上显示VMware Tools的加载镜像
打开虚拟光驱,右键打开终端
1234567mkdir /home/用户名/softwarecp VMwareTools-9.9.0-2304977.tar.gz /home/用...阅读全文

 Python基础-异常处理(except) | logging.DEBUG 

作者:JerryXia | 发表于 , 阅读 (0)
异常处理完整形式12345678910111213try:      有异常语句...except <name1>:      处理name1异常的语句 except <name2>:      处理name2异常的语句    .    .    .else:      没有触发异常执行的语句finally: 无论有没有异常都会执行的语句实例12345678910111213141516171819202122232425try:    x = input("Enter the first number: ")    y = input("Enter the second number: ")    print x / yexcept TypeError, e:    print "Type Error " + e.messageexcept ZeroDivisionError, e:    print "ZeroDivisionError " + e.messageelse:    print "No Error"finally:    print "Finish"# 结果#(输入5...阅读全文

 Sublime Text3 问题汇总 | logging.DEBUG 

作者:JerryXia | 发表于 , 阅读 (0)
刷新DNS123456# 打开终端win + Rcmd# 输入以下内容ipconfig /flushdnsps: 到这里问题可能就解决了,如果还没有继续往下看
查看错误原因12# sublime中快捷键ctrl + ~错误如下:1234Package Control: Channel https://packagecontrol.io/channel_v3.json does not appear to be a valid channel file because  the "schema_version" is not a valid number.error: Package ControlThere are no packages available for installation
利用同样方法,将packagecontrol.io域名和对应的IP加入hosts,并刷新DNS在浏览器中打开https://packagecontrol.io/channel_v3.json,是否能看到如下内容:
123{"dependencies_cache": {"https://pac...阅读全文