Hadoop在线备份的应用与挑战

Country.Road · 发表于 2014-2-25 15:18:15

Hadoop在线备份的应用与挑战

文档节选：分布式数据库：关系数据库与非关系型数据库(NoSql)集群解决结构化数据的海量存储和高效访问
•MySQL
•HBase
分布式文件系统：以文件为存储单位的非结构化数据存储
•HDFS
•MongoDB
前端应用负载均衡
•LVS
•Ngnix/Jetty
成熟度比较高，目前已有多个著名公司在使用
•Taobao
•Facebook
•Adobe
•Twitter
•Yahoo!
•Trend Micro
•广告分析公司
行强一致性
•同一行数据的读写只在同一台RS（RegionServer）机器上进行
•同一行的列的写入是原子操作
水平自动伸缩
•Region的自劢分裂(生产系统需要看具体情况)
•Master的自劢均衡
•增加RegionServer机器即增加读写吞吐量及处理能力
•增加DataNode机器可增加容量
任意增加列
高性能随机写
支持Thrift框架
合理设计RowKey 和 Pre-Sharding
•尽量避免只操作少数几台机器；
•根据数据量、RegionServer个数合理Pre-Sharding。
充分利用Filter功能
•SingleColumnValueFilter
•SubstringComparator
•BinaryPrefixComparator
•FamilyFilter
•QualifierFilter
•ColumnPrefixFilter
•ColumnPaginationFilter
可根据应用需求重写某些方法
•SubstringComparator
@Override
public int compareTo(byte[] value) {
String laststr = Bytes.toString(value).toLowerCase();
return laststr.contains(substr) ? 0 : 1;
}
考虑容量开启压缩
•目前主要是lzo方式
提高随机读性能
•前端增加一个分布式缓存Radis系统
系统参数优化
•GC策略：-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70
•读写策略优化

购买主题本主题需向作者支付 3 金币 才能浏览

jordwad · 发表于 2014-3-20 14:35:41

三通IT学院是个学习技术的好地方，加油吧各位！

viceto · 发表于 2014-4-3 10:35:33

三通IT学院是个学习技术的好地方，加油吧各位！

偶偶看看 · 发表于 2014-4-8 14:05:38

这个你能信？反正我信了！

敬干寿 · 发表于 2014-4-13 14:38:18

微软,Linux,操作系统技术尽在www.santongit.com！

爱都爱了 · 发表于 2014-4-17 18:40:14

爱技术,爱实验,尽在三通IT学院!

维维 · 发表于 2014-4-22 08:09:18

什么？你说的这个是真的？

我爱思科 · 发表于 2014-5-23 13:41:01

感谢卤煮的大恩大德！

zhu833 · 发表于 2014-6-29 10:48:51

lijinlei521 · 发表于 2014-10-15 13:51:36

五体投地的佩服楼主中！

三通IT学院

Hadoop在线备份的应用与挑战

售前咨询

售后服务