技术文章推荐-技术掘金

Ubuntu安装Opencv记录（附人脸识别和人眼识别例子）

作者：JerryXia | 发表于 2017-11-18 11:57:57, 阅读 (49)

至此，opencv安装配置完毕，下面开始测试
测试网上的例子很多都没说清楚步骤。
识别人脸新建一个目录，找到源码里面的sample中的例子，copy过来。/opt/opencv-3.1.0/samples/cpp/facedetect.cpp
然后新建一个CMakeLists.txt文件，写入下面内容。
cmake_minimum_required(VERSION 2.8)project( FaceDetect )find_package( OpenCV REQUIRED )include_directories( ${OpenCV_INCLUDE_DIRS} )add_executable( FaceDetect facedetect.cpp )target_link_libraries( FaceDetect ${OpenCV_LIBS} )然后执行
cmake .make就可以运行了，在网上下载个图片瞄一眼。
./FaceDetect --cascade="/usr/local/share/OpenCV/haarcascades/haarcascade_frontal...阅读全文

[ 技术文章推荐 ]

漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

作者：JerryXia | 发表于 2017-11-17 16:22:22, 阅读 (48)

全文由下面几个部分组成：
先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释，以及拉链表和常用的切片表的区别。举一个具体的应用场景，来设计并实现一份拉链表，最后并通过一些例子说明如何使用我们设计的这张表（因为现在Hive的大规模使用，我们会以Hive场景下的设计为例）。分析一下拉链表的优缺点，并对前面的提到的一些内容进行补充说明，比如说拉链表和流水表的区别。0x01 什么是拉链表拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。
我们先看一个示例，这就是一张拉链表，存储的是用户的最基本信息以及每条记录的生命周期。我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。
...阅读全文

[ 技术文章推荐 ]

漫谈并发编程：Future模型（Java、Clojure、Scala多语言角度分析）

作者：JerryXia | 发表于 2017-11-17 07:37:37, 阅读 (41)

0x00 前言其实Future模型离我们并不远，如果你接触过Spark、Hadoop这些优秀的开源项目，那么在运行程序的时候关注一下他们的输出日志，一不小心你就会发现Future的身影。
在并发编程领域有很多优秀的设计模式，比如常见的Producer-Consumer模式、Pipeline模式和Future模式，这些模式都有其适用的场景，并且能够高效地解决并发问题。
这篇文章会着重分享和Future模式相关的一些知识点。
文章结构本文的结构如下：
先解释一下什么是Future模型Java不可避免的是最流行的语言之一，因此我们会用Java自己实现一个Future的场景。由于Java在concurrent包已经提供了对Future的支持，因此这里我们演示一下使用concurrent包的例子。除了Java之外，很多语言已经在语言层面上对Future模型提供了支撑，这一部分我们用不同语言来演示Future模型。0x01 Future模型简介什么是Future模型？我们可以这样大致理解：Future模型是将异步请求和代理模式结合的产物。
为了方便理解，我们举一个场景来说明。还是假设我们...阅读全文

[ 技术文章推荐 ]

漫谈千亿级数据优化实践：一次数据优化实录

作者：JerryXia | 发表于 2017-11-16 16:24:24, 阅读 (30)

本文会限定一些业务场景和技术架构，因此解决方法会局限于此。很多问题可以通过换架构或者引入新的组件来解决，但是成本可能会很高，因此暂不考虑。本文不是一篇Hive使用和优化文档，更侧重于梳理笔者的思路，让大家少走些坑。文章主题在流行的大数据领域中，Hive绝对占据了很大的一片天地，不管是数据仓库和数据分析，还是数据挖掘和机器学习，凡是需要和大数据量打交道的童鞋们，基本上都要接触Hive。因此，本文将侧重于千亿级数据在Hive中的使用，并通过一个典型的数据使用难题来总结一些在大规模数据场景下的优化方式。
本文主要以一个具体的使用场景为切入点，为了解决该场景下的使用难题，笔者经理了一次次的尝试+失败，最终找到了一种相对比较合适的方式。
文章结构本文可以看过是一种记录和思考，完全还原笔者在遇到问题时的解决方式。因此全文会以事情的发展为主线，每次尝试一种解决方法，失败后继续查找新的方法，中间会穿插一些技术细节。
文章主线如下：
明确使用场景和困难。如何解决，这是一个不断推翻重来的过程。回顾总结0x01 问题来了！本章作用主要有二：
明确业务背景和使用场景明确困难所在1. 业务背景和使用场...阅读全文

[ 技术文章推荐 ]

漫谈千亿级数据优化实践：数据倾斜（纯干货）

作者：JerryXia | 发表于 2017-11-16 05:27:27, 阅读 (41)

两个公司都部署了Hadoop集群。假设现在遇到了数据倾斜，发生什么？
公司一的数据分时童鞋在做join的时候发生了数据倾斜，会导致有几百万用户的相关数据集中到了一台服务器上，几百万的用户数据，说大也不大，正常字段量的数据的话64G还是能轻松处理掉的。
公司二的数据分时童鞋在做join的时候也发生了数据倾斜，可能会有1个亿的用户相关数据集中到了一台机器上了（相信我，这很常见），这时候一台机器就很难搞定了，最后会很难算出结果。
0x02 数据倾斜长什么样笔者大部分的数据倾斜问题都解决了，而且也不想重新运行任务来截图，下面会分几个场景来描述一下数据倾斜的特征，方便读者辨别。
由于Hadoop和Spark是最常见的两个计算平台，下面就以这两个平台说明：
一、Hadoop中的数据倾斜Hadoop中直接贴近用户使用使用的时Mapreduce程序和Hive程序，虽说Hive最后也是用MR来执行（至少目前Hive内存计算并不普及），但是毕竟写的内容逻辑区别很大，一个是程序，一个是Sql，因此这里稍作区分。
Hadoop中的数据倾斜主要表现在、ruduce阶段卡在99.99%，一直99....阅读全文

[ 技术文章推荐 ]