Fedora 安装后需要做的第一件事 | little boy 

作者:JerryXia | 发表于 , 阅读 (50)
一直以来,Red Hat 系的许多教程,都会建议你关闭 SELinux。确实,启用 SELinux 可能会造成许多莫名其妙的错误。但在实际生产环境,甚至是用户工作站,Red Hat 都建议将 SELinux 设为 enforcing 模式,因为它在关键时候可以成为你系统安全的最后一道防线。
程序是不可信的技术的发展日新月异,我们的系统安全却不容乐观。wooyun.org时不时爆出的各种漏洞,都在提醒我们 程序总是存在缺陷的。
传统的操作系统采用 DAC 机制,它针对用户进行访问控制,系统会信任用户执行的所有程序,但往往用户无法判断程序是否存在安全问题。
后来,出现了 MAC 机制,它以进程为访问控制的首要目标,通过规则严格限制程序运行时可以执行的系统调用。
另外,在保密级别较高的地方,根据资源的机密程度结合 MAC 又衍生出了 MLS 多级安全策略。
我们的主角 SELinux 是 MAC+MLS 的实现方案之一,它最初由 NSA 基于 flask 框架开发,目前主要由 Tresys 和 Red Hat 进行维护。
用户与隐私自 1987 年 9 月 20 日,CANET ...阅读全文

 MongoDB mapReduce 小坑 | little boy 

作者:JerryXia | 发表于 , 阅读 (45)
自从用 Scrapy 抓到了淘宝数据,就想着结合 Flask 写个搜索服务,可以聚合搜索淘宝、京东等电商的商品。说干就干,几天就写了一个 Demo,见 taobaobao。数据库使用 MongoDB,这期间遇到一个 mapReduce 的小坑。记录之~
Map-ReduceMap-Reduce 是一种计算模型,将大量数据分解 (Map) 执行,然后再将结果合并成最终结果 (Reduce)。MongoDB 提供mapReduce数据库命令。
mapReduce Format123456789101112131415db.collection.mapReduce(  <map function>,             // 分解数据,发出键值对  <reduce function>,          // 汇总数据  {    out: <collection>,        // 可输出至collection或inline    query: <document>,        // 符合条件的文档,将传入map函数    sort: <document>,        ...阅读全文

 抓取淘宝商品数据 | little boy 

作者:JerryXia | 发表于 , 阅读 (61)
昨天,看 OSChina 新闻,瞄到了 Scrapy 爬虫框架。由于之前就听说过大名,自己又空闲,因此决定尝试一下。框架的优势就是使用方便,不用自己处理 request,HTTP header 等细节。代码量较使用 urllib等库的爬虫又少了不少。经过今天的试验,感觉挺好,因此决定尝试爬淘宝商品信息。
安装 Scrapy1$ sudo pip install ScrapyNote: 如果需要爬取 ajax,js 等动态内容,需要配合 PhantomJS,scrapy-splash 等 Headless Broswer;或使用脚本模拟 ajax 行为发送数据。
创建项目1$ scrapy startproject taobao编写 Spider爬取流程:Scrapy 使用 Twisted 异步网络框架。Spider 生成 Request 由调度器执行 Downloader,爬虫继续执行。调度器完成后向 Spider 返回 Response,并调用 parse 方法解析。解析完成后,交由 Pipeline进行后处理(进行数据过滤,保存至数据库等)。
为了简单起见,这里只编写 Spi...阅读全文