技术文章推荐-技术掘金

Spark 编程指南 (一) [Spark Programming Guide] | logging.DEBUG

作者：JerryXia | 发表于 2019-03-14 07:37:37, 阅读 (0)

Python Programming Guide - Spark
Spark应用基本概念每一个运行在cluster上的spark应用程序，是由一个运行main函数的driver program和运行多种并行操作的executes组成
其中spark的核心是弹性分布式数据集（Resilient Distributed Dataset—RDD）
Resilient（弹性）：易变化、易计算Distributed（分布式）：可横跨多台机器，集群分布Dataset（数据集）：大批量数据的集合RDD基本概念RDD是逻辑集中的实体，代表一个分区的只读数据集，不可发生改变
【RDD的重要内部属性】
分区列表(partitions)对于一个RDD而言，分区的多少涉及对这个RDD并行计算的粒度，每一个RDD分区的计算都会在一个单独的任务中执行，每一个分区对应一个Task，分区后的数据存放在内存当中
计算每个分区的函数(compute)对于Spark中每个RDD都是以分区进行计算的，并且每个分区的compute函数是在对迭代器进行复合操作，不需要每次计算，直到提交动作触发才会将之前所有的迭代操作...阅读全文

[ 技术文章推荐 ]

Spark 历史记录 Web 监控 [Spark JobHistory Web UI] | logging.DEBUG

作者：JerryXia | 发表于 2019-03-13 22:52:52, 阅读 (0)

4040端口只能看到正在运行App的情况，并不能看到App运行结束后的各项数据
Mesos或YARN模式下可以通过各自的Web UI看到JobHistory情况的，但是在Standalone模式下是有自己的JobHistory Web UI
以下内容主要是怎样开启Standalone模式下的JobHistory Web UI
测试环境12345678910测试环境： Ubuntu 14.04 LTS x64 Hadoop：hadoop-2.7.1.tar.gz Spark：spark-1.5.2-bin-hadoop2.6.tgz Scala：scala-2.11.7.tgz 伪分布式 + Yarn hostname IP role spark-master： 192.168.108.20 master & worker概述翻译：运行结束后监控 [Viewing After the Fact]在Spark的 Standalone 模式下，有它自己的web UI监控界面，如果一个应用程序已经记录了它的生命周期，在程序运行结束后，Standalone模...阅读全文

[ 技术文章推荐 ]

Debian安装VMwareTools | logging.DEBUG

作者：JerryXia | 发表于 2019-03-13 01:07:07, 阅读 (0)

刚开始接触Debian，在VM里安装后发现不能从Win下复制粘贴内容原来是没有安装VMware Tools，下面是如何在Debian下安装VMware Tools的教程
测试环境1234测试环境： debian-8.3.0-amd64 VMware 11.0.0 build-2305329 VMwareTools-9.9.0-2304977.tar.gz安装sudo、vim12345# 切换rootsu rootapt-get install sudoapt-get install vim123456789101112# 设置用户权限vim /etc/sudoers# 添加用户名 ALL=(ALL:ALL) ALL# 强制保存退出wq!# 退出rootexit载入光驱，复制压缩包并解压在VM虚拟机菜单上选择：虚拟机—安装VMware Tools此时会在桌面上显示VMware Tools的加载镜像
打开虚拟光驱，右键打开终端
1234567mkdir /home/用户名/softwarecp VMwareTools-9.9.0-2304977.tar.gz /home/用...阅读全文

[ 技术文章推荐 ]

Python基础-异常处理(except) | logging.DEBUG

作者：JerryXia | 发表于 2019-03-12 16:22:22, 阅读 (0)

异常处理完整形式12345678910111213try: 有异常语句...except <name1>: 处理name1异常的语句 except <name2>: 处理name2异常的语句 . . .else: 没有触发异常执行的语句finally: 无论有没有异常都会执行的语句实例12345678910111213141516171819202122232425try: x = input("Enter the first number: ") y = input("Enter the second number: ") print x / yexcept TypeError, e: print "Type Error " + e.messageexcept ZeroDivisionError, e: print "ZeroDivisionError " + e.messageelse: print "No Error"finally: print "Finish"# 结果#（输入5...阅读全文

[ 技术文章推荐 ]

Sublime Text3 问题汇总 | logging.DEBUG

作者：JerryXia | 发表于 2019-03-12 09:47:47, 阅读 (0)

刷新DNS123456# 打开终端win + Rcmd# 输入以下内容ipconfig /flushdnsps: 到这里问题可能就解决了，如果还没有继续往下看
查看错误原因12# sublime中快捷键ctrl + ~错误如下：1234Package Control: Channel https://packagecontrol.io/channel_v3.json does not appear to be a valid channel file because the "schema_version" is not a valid number.error: Package ControlThere are no packages available for installation
利用同样方法，将packagecontrol.io域名和对应的IP加入hosts，并刷新DNS在浏览器中打开https://packagecontrol.io/channel_v3.json，是否能看到如下内容：
123{"dependencies_cache": {"https://pac...阅读全文

[ 技术文章推荐 ]