1478| 13
|
Hadoop在线备份的应用与挑战 |
Hadoop在线备份的应用与挑战
文档节选:分布式数据库:关系数据库与非关系型数据库(NoSql)集群解决结构化数据的海量存储和高效访问 •MySQL •HBase 分布式文件系统:以文件为存储单位的非结构化数据存储 •HDFS •MongoDB 前端应用负载均衡 •LVS •Ngnix/Jetty 成熟度比较高,目前已有多个著名公司在使用 •Taobao •Facebook •Adobe •Twitter •Yahoo! •Trend Micro •广告分析公司 行强一致性 •同一行数据的读写只在同一台RS(RegionServer)机器上进行 •同一行的列的写入是原子操作 水平自动伸缩 •Region的自劢分裂(生产系统需要看具体情况) •Master的自劢均衡 •增加RegionServer机器即增加读写吞吐量及处理能力 •增加DataNode机器可增加容量 任意增加列 高性能随机写 支持Thrift框架 合理设计RowKey 和 Pre-Sharding •尽量避免只操作少数几台机器; •根据数据量、RegionServer个数合理Pre-Sharding。 充分利用Filter功能 •SingleColumnValueFilter •SubstringComparator •BinaryPrefixComparator •FamilyFilter •QualifierFilter •ColumnPrefixFilter •ColumnPaginationFilter 可根据应用需求重写某些方法 •SubstringComparator @Override public int compareTo(byte[] value) { String laststr = Bytes.toString(value).toLowerCase(); return laststr.contains(substr) ? 0 : 1; } 考虑容量开启压缩 •目前主要是lzo方式 提高随机读性能 •前端增加一个分布式缓存Radis系统 系统参数优化 •GC策略:-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:CMSInitiatingOccupancyFraction=70 •读写策略优化
购买主题
本主题需向作者支付 3 金币 才能浏览
| |
发表于 2014-3-20 14:35:41
|
显示全部楼层
| ||
发表于 2014-4-3 10:35:33
|
显示全部楼层
| ||
发表于 2014-4-8 14:05:38
|
显示全部楼层
| ||
发表于 2014-4-13 14:38:18
|
显示全部楼层
| ||
发表于 2014-4-17 18:40:14
|
显示全部楼层
| ||
发表于 2014-4-22 08:09:18
|
显示全部楼层
| ||
发表于 2014-5-23 13:41:01
|
显示全部楼层
| ||
发表于 2014-10-15 13:51:36
|
显示全部楼层
| ||