技术文章推荐-技术掘金

Python实现csdn博客爬虫之3：抓取所有博文

作者：JerryXia | 发表于 2017-12-15 20:42:42, 阅读 (30)

def get_random_sleep() :time.sleep(random.randint(0,2))#抓取一个用户有几页博客listdef get_page_count(username):print('开始抓取用户：' + username + '的博客list页数')code=requests.get(url_prefix + username ,headers=headers).status_codeif code == 200:have_blog = Trueelse:hava_blog = Falsereturn 0try:url = url_prefix + username + '/article/list'req = urllib.request.Request(url, headers=headers)data = urllib.request.urlopen(req).read()data = data.decode('utf-8')soup = BeautifulSoup(data)page_content = soup.find(class_ = 'p...阅读全文

[ 技术文章推荐 ]

Golang之旅2：工程结构

作者：JerryXia | 发表于 2017-12-15 11:57:57, 阅读 (28)

0x02 代码主程序calc.gopackage mainimport "os"// 用于获得命令行参数os.Argsimport "fmt"import "simplemath"import "strconv"var Usage = func() {fmt.Println("USAGE: calc command [arguments] ...")fmt.Println("\nThe commands are:\n\tadd\tAddition of two values.\n\tsqrt\tSquare root of a non-negative value.")}func main() {args := os.Argsif args == nil || len(args) < 2 {Usage()return}fmt.Println(args[1])switch args[1] {case "add":if len(args) != 4 {fmt.Println("USAGE: calc add <integer1><integer2>")return}v1, err1 := ...阅读全文

[ 技术文章推荐 ]

Scala学习笔记1：基本概念和用法

作者：JerryXia | 发表于 2017-12-14 14:12:12, 阅读 (22)

0x00 前言昨晚睡觉的时候梦到scala的map和reduce方法很好玩，能不能移植到别的语言里面，早上起来就翻了一下scala的源码，发现我居然看不懂下面一段程序的语法（scala里面map的源码），感觉很惭愧。于是翻出来之前搞spark时候顺便学scala的笔记，回顾一下。
def map[B, That](f: A => B)(implicit bf: CanBuildFrom[Repr, B, That]): That = {def builder = { // extracted to keep method size under 35 bytes, so that it can be JIT-inlinedval b = bf(repr)b.sizeHint(this)b}val b = builderfor (x <- this) b += f(x)b.result...阅读全文

[ 技术文章推荐 ]

Golang之旅3：三种读文件方式

作者：JerryXia | 发表于 2017-12-14 05:27:27, 阅读 (0)

...阅读全文

[ 技术文章推荐 ]

Impala实践之十：impala最佳实践（转、译、整理）

作者：JerryXia | 发表于 2017-12-13 16:21:21, 阅读 (39)

前言最近在看impala原理时候翻出来的一些tip，帮助更好地使用impala，自己整理一下。
0x01 杂项1. Impala 使用缓存吗？Impala 不会缓存数据，但它缓存一些表和文件的元数据。尽管因为数据集被缓存到 OS 的缓冲区中，接下来的重复查询可能运行的更快，Impala 不会明确的控制这些。
0x02 Impala任务失败1. 为什么 SELECT 查询会失败？当一个 SELECT 语句失败了，原因通常是以下类别之一：
因为性能、容量、或网络问题影响了特定的节点导致的超时连接查询的过多内存数用，这一查询的结果会自动取消处理查询中特定的 WHERE 子句时，影响到每一节点上本地代码如何生成的底层问题。例如，特定节点上可能会生成它的处理器不支持的机器指令。假如日志中的错误信息猜测是无效指令(illegal instruction)，考虑临时关闭生成本地代码，并重试这个查询异常的输入数据，例如包含一个巨大的长行的文本数据文件(a text data file with an enormously long line)，或者使用了没有在 CREATE TABLE 语句中 ...阅读全文

[ 技术文章推荐 ]