论文类的阅读与分析 http://t.cn/zHFP5Yj 云存储环境下的低成本虚拟机数据去重,Hong Tang与其在Ask.tom的前同事现伯克利圣芭芭拉分校的Tao Yang合作撰写的论文,对于在云环境下的备份方式(Sharding Meta 信息),先计算指纹再去重,虽然整体算法上的改进不
http://t.cn/zHFP5Yj 云存储环境下的低成本虚拟机数据去重,Hong Tang与其在Ask.tom的前同事现伯克利圣芭芭拉分校的Tao Yang合作撰写的论文,对于在云环境下的备份方式(Sharding Meta 信息),先计算指纹再去重,虽然整体算法上的改进不大,不过由于拆分+并行处理,总体的效率与开销还不错。
http://t.cn/zHF7hqo Facebook推出的修正版RS code来缓解传统的RS code恢复导致的网络带宽问题,在基本的10+4的RS code模式下,他们平均每天会消耗180TB的网络带宽用于进行数据恢复,使用新的修正版RS code从理论上可以降低30%左右的网络带宽需求,主要思路为计算校验码时附带一份上一个条带的数据。
http://t.cn/zQZCowQ Murat Demirbas对Google Spanner Paper的解读(博客中有大量经典论文的解读), 重点解读了这篇论文章TrueTime API的实现与作用, 实现: 依赖于原子钟, 通过比较Paxos以及2PC Prepare的时间戳来获得Snapshot Time,作用: 简化Snapshot Read时的设计,实现类似于Oracle闪回Time->SCN.
http://t.cn/zHFKAKr Velocity 2013 上几个不错的主题推荐, 除前几天已经发在微薄的部分内容,还有Performance Methodologies for Production Systems (Brendan Gregg),Quantifying Abnormal Behavior(Baron Schwartz), A Systematic Approach to Capacity Planning in the Real World (Twitter)
http://t.cn/zQZNFxc Baron Schwartz的新公司博客, 解释统计过程控制的4个基本规则,1.有指标超出3个标准差的范围,2.连续3个点中的2个在2-3个标准差之间,3.连续5个点中的4个在2个标准差之外,4.连续9个点在平均数的一侧. Etsy的Skyline(http://t.cn/zQZNFxV与oculus参考了统计过程控制的方法论.
http://t.cn/zQqS4OT 为什么平均数不好使, 而百分位(percentile)却很好用. 在图中同时显示avg/min/max的图表, 没有显示50%,75%,90%等几个百分位的延时信息的图表, 后者可以显著的提高分析/定位问题的效率.
http://t.cn/zQZCDkp Lars Hofhansl 介绍HDFS(HBase同)的一个设计缺陷, 在极端情况下,当机房突然掉电时, HBase不仅可能丢失最新更新的数据, 如果刚好又在做Compact,也可能丢失较早之前更新的数据,此文中给出了他们的解决办法,通过调整 参数dfs.datanode.sync.behind.writes和dfs.datanode.synconclose
http://t.cn/zQZpWtF Oracle NoSQL database的访谈. 重点讨论了它的Major/Minor Key的设计(个人比较喜欢此设计,非常接近于DB Sharding);Master/Slave的Replication设计,通过Paxos以及简单多数仲裁来确保写一致性;对avro序列化的支持(更好的Json集成);支持简单转换后成为Oracle的外部表,便于数据互通.
http://t.cn/zQZWRaz 获得安静(没有输出)的Slow Query log在扩展性上就比较happy了. 作者的想法其实很简单, 大部分扩展性问题, 都是来自数据库的Query效率不够, 尤其是Query的索引设计不合理. 通过较好的SQL设计, 较好的索引设计, 大部分公司的Scalability都可解决. 还有一小部分,需要再配合Sharding
http://t.cn/zQbKq2g 从Brendan Gregg角度看,成为专家的一些基本原则:1. 严谨,2.世上无难事,不过从时间上看,有代价,3.使用科学方法,并注意其假设,4.不要(轻易)信任任何事情,尤其是压测,OS的指标也会撒谎,5.注意known knowns, known unknowns, and unknown unknowns的事情分类.
http://t.cn/zQbOYj8 Lessons from Building and Scaling LinkedIn By Jay Kreps . 很多经验都比较有参考意义. 1. Scale 系统大部分都与Scale State(或存储State的数据库)有关系,2. 如何Scale内部的开发能力, 3. 如何Scale 系统的规模, 4. 如何管理Large scale的SOA化的服务(Service).
http://t.cn/zQ55h2U Theo认为当Scale Up是可行的时候(满足未来1-2年的需求), 就不应该做Scale out.如果你的系统/项目的增长率低于摩尔定律, 应该始终考虑使用更大的机器(更好的廉价PC)来满足需求. Scale out需要耗费大量的工程师资源来解决基础设施的问题, 而工程师资源应该用在更高效的地方.
To be truly excellent,one must treat it as a craft.one must become a craftsman.through experience learn discipline. and through practice achieve excellence. By Theo. 《A Career in Web Operation》
step 1,educate yourself,step 2,be disciplined,step 3,learn from & share with your peers,step 4,be patient.experience takes time(and mistakes). Everyone in your organization needs Operational Mentality.operations is a state of mind it is a state of being it is a mentality.
http://t.cn/zQZYxn5 If you want to get the factor 50 speed-up of SSDs, you’d better avoid reading large chunks of sequential data, because that’s where you can only gain a factor five improvement. 非常有洞见的一句话.
http://t.cn/zHs11Jl 【周其仁】还是没有“公平”,因为还有将来增加的人口。无论未来新生的,还是下嫁到下营村的人口,因为没参与此次财富分配的存量,一定会引起未来村民家庭之间财富的不均等。那就等着吧,为了未来的“起点公平”,人们只好在永无宁日的冲突中,等待着诞生永恒公平的土地制度。
http://t.cn/zjz0p4F “特定的社会结构决定了一套陈述是否为谎言或知识。换句话说,知识不是客观的,它首先依赖于它所在社会的权力结构,这样的权力结构” . “费孝通命题”,大意就是:你有什么样的社会结构,你就积累什么样的知识结构。【汪丁丁:谎言与知识 自由是整体之事】
丹.艾瑞里 《不诚实的诚实真相》 从行为学的角度分析, 人类为什么会不诚实, 在哪些场景下会不诚实, 如何通过规则的控制来降低人的不诚实程度.
贾森·弗里德 《重来》37Signals的创始人介绍如何通过简单的思维来做系统的开发与处理,深入的内容,可以参考 @左耳朵耗子 的相关博客文章.
罗尔夫·多贝里 《清醒思考的艺术》 书中列举了52个人类常犯错误的思维陷阱,也即人类在认知上的一些缺陷,多读读有助于修正自己的思维缺陷。
Related posts:
原文地址:Jame’s Reading 07-25, 感谢原作者分享。