Kafka是如何实现高吞吐率的 -

aoyouzi

浏览: 1914783 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

zhaoshijie

lbq136957978

juzhibest

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Kafka是如何实现高吞吐率的

博客分类：

技术总结
其他开源框架

Kafka是如何实现高吞吐率的

Kafka是分布式消息系统，需要处理海量的消息，Kafka的设计是把所有的消息都写入速度低容量大的硬盘，以此来换取更强的存储能力，但实际上，使用硬盘并没有带来过多的性能损失

kafka主要使用了以下几个方式实现了超高的吞吐率

顺序读写

kafka的消息是不断追加到文件中的，这个特性使kafka可以充分利用磁盘的顺序读写性能

顺序读写不需要硬盘磁头的寻道时间，只需很少的扇区旋转时间，所以速度远快于随机读写

Kafka官方给出了测试数据(Raid-5，7200rpm)：

顺序 I/O: 600MB/s

随机 I/O: 100KB/s

零拷贝

先简单了解下文件系统的操作流程，例如一个程序要把文件内容发送到网络

这个程序是工作在用户空间，文件和网络socket属于硬件资源，两者之间有一个内核空间

在操作系统内部，整个过程为：

在Linux kernel2.2 之后出现了一种叫做"零拷贝(zero-copy)"系统调用机制，就是跳过“用户缓冲区”的拷贝，建立一个磁盘空间和内存的直接映射，数据不再复制到“用户态缓冲区”

系统上下文切换减少为2次，可以提升一倍的性能

文件分段

kafka的队列topic被分为了多个区partition，每个partition又分为多个段segment，所以一个队列中的消息实际上是保存在N多个片段文件中

通过分段的方式，每次文件操作都是对一个小文件的操作，非常轻便，同时也增加了并行处理能力

批量发送

Kafka允许进行批量发送消息，先将消息缓存在内存中，然后一次请求批量发送出去

比如可以指定缓存的消息达到某个量的时候就发出去，或者缓存了固定的时间后就发送出去

如100条消息就发送，或者每5秒发送一次

这种策略将大大减少服务端的I/O次数

数据压缩

Kafka还支持对消息集合进行压缩，Producer可以通过GZIP或Snappy格式对消息集合进行压缩

压缩的好处就是减少传输的数据量，减轻对网络传输的压力

Producer压缩之后，在Consumer需进行解压，虽然增加了CPU的工作，但在对大数据处理上，瓶颈在网络上而不是CPU，所以这个成本很值得

http://it.dataguru.cn/article-9855-1.html

分享到：

Kafka图文详解 | Gradle 简介及Maven 和 Gradle 对比

2016-09-05 10:55
浏览 6387
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Kafka是如何实现高吞吐率的

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Kafka是如何实现高吞吐率的

评论

发表评论

相关推荐

万字总结Java 9~15新特性

架构制图：工具与方法论

性能优化

【冬察冬见】FFmpeg系列学习笔记

有关创新的一些思考

浅谈面试官的培养

冬察冬见·全视角再议晋升

冬察冬见·晋升-晋升的那些事儿1

物联网MQTT实战

大小公司都适用的架构选型工具箱（涵盖上百个组件）

elasticsearch使用踩坑

【冬察冬见】读书日话高效读书

【冬察冬见·荐书】4·23世界读书日 80本书单推荐承包你一年的书单

分布式系统ID的生成方法之UUID、数据库、算法、Redis、Leaf方案

快速上手 AB Test

优雅的微服务架构下的鉴权

知识图谱的构建

宜信微服务架构落地及其演进

MySQL性能优化神技

REST协议解密(原创)

最近访客更多访客>>