Python实现csdn博客爬虫之3:抓取所有博文

作者:JerryXia | 发表于 , 阅读 (30)
def get_random_sleep() :time.sleep(random.randint(0,2))#抓取一个用户有几页博客listdef get_page_count(username):print('开始抓取用户:' + username + '的博客list页数')code=requests.get(url_prefix + username ,headers=headers).status_codeif code == 200:have_blog = Trueelse:hava_blog = Falsereturn 0try:url = url_prefix + username + '/article/list'req = urllib.request.Request(url, headers=headers)data = urllib.request.urlopen(req).read()data = data.decode('utf-8')soup = BeautifulSoup(data)page_content = soup.find(class_ = 'p...阅读全文

Golang之旅2:工程结构

作者:JerryXia | 发表于 , 阅读 (28)
0x02 代码主程序calc.gopackage mainimport "os"// 用于获得命令行参数os.Argsimport "fmt"import "simplemath"import "strconv"var Usage = func() {fmt.Println("USAGE: calc command [arguments] ...")fmt.Println("\nThe commands are:\n\tadd\tAddition of two values.\n\tsqrt\tSquare root of a non-negative value.")}func main() {args := os.Argsif args == nil || len(args) < 2 {Usage()return}fmt.Println(args[1])switch args[1] {case "add":if len(args) != 4 {fmt.Println("USAGE: calc add <integer1><integer2>")return}v1, err1 := ...阅读全文

Scala学习笔记1:基本概念和用法

作者:JerryXia | 发表于 , 阅读 (22)
0x00 前言昨晚睡觉的时候梦到scala的map和reduce方法很好玩,能不能移植到别的语言里面,早上起来就翻了一下scala的源码,发现我居然看不懂下面一段程序的语法(scala里面map的源码),感觉很惭愧。于是翻出来之前搞spark时候顺便学scala的笔记,回顾一下。
def map[B, That](f: A => B)(implicit bf: CanBuildFrom[Repr, B, That]): That = {def builder = { // extracted to keep method size under 35 bytes, so that it can be JIT-inlinedval b = bf(repr)b.sizeHint(this)b}val b = builderfor (x <- this) b += f(x)b.result...阅读全文

Impala实践之十:impala最佳实践(转、译、整理)

作者:JerryXia | 发表于 , 阅读 (39)
前言最近在看impala原理时候翻出来的一些tip,帮助更好地使用impala,自己整理一下。
0x01 杂项1. Impala 使用缓存吗?Impala 不会缓存数据,但它缓存一些表和文件的元数据。尽管因为数据集被缓存到 OS 的缓冲区中,接下来的重复查询可能运行的更快,Impala 不会明确的控制这些。
0x02 Impala任务失败1. 为什么 SELECT 查询会失败?当一个 SELECT 语句失败了,原因通常是以下类别之一:
因为性能、容量、或网络问题影响了特定的节点导致的超时连接查询的过多内存数用,这一查询的结果会自动取消处理查询中特定的 WHERE 子句时,影响到每一节点上本地代码如何生成的底层问题。例如,特定节点上可能会生成它的处理器不支持的机器指令。假如日志中的错误信息猜测是无效指令(illegal instruction),考虑临时关闭生成本地代码,并重试这个查询异常的输入数据,例如包含一个巨大的长行的文本数据文件(a text data file with an enormously long line),或者使用了没有在 CREATE TABLE 语句中 ...阅读全文