芯片设计公司如何设计自己的IT环境?

从2004年开始,我写过几次小型ic设计中心的it环境。比较多的论述了创业类型的芯片设计公司,应该怎么去设计自己的it环境。这10多年间,有不少初创型的公司来咨询过如何更好的规划it系统,我都尽力协助解决。
我本人也在这期间经历过各种类型的公司,包括提供eda平台的苏州icc,做交换机芯片的centecnetworks,已经被收购的broadcom,做嵌入式cpu的china-core,以及过去两年为其工作的初创大型cpu设计公司,ibm power8在中国的落地项目中晟宏芯。以上工作经历,给了我很多锻炼,让我在面对各种大小类型的ic设计公司的时候,变得更加成熟。但是,在这个过程中,深感国内的ic设计公司在it环境的建设方面,跟国际大公司比较,差距依然非常大。
如何将自己的经验分享出来,以提高中国ic设计公司的it水平,变得越来越重要,也越来越紧迫。希望本文有助于目前在中国逐渐兴起的ic设计行业,在国家的大基金项目下,少走弯路,缩小跟国外的大公司之间的差距。
全文分为11个章节论述:
1. 基础设施建设(机房,弱电间,接入机房,实验室机房及实验室)
2.网络结构
3.系统及存储布局
4.接入及登陆环境
5.设计job的管理
6.数据管理
7.版本管理
8.邮件系统
9.eda软件管理
10.多site协同
11.安全
基础设施建设
1.供电
2.制冷
3.布线(水、电、弱电)
4.环控
5.空间及位置考虑
6.交换机布局,ipmi布局
7.消防
基础设施主要包含网络、机房等方面,我这里主要介绍的是机房的建设。过去十多年,我建过几台服务器的小机房,也建过几百台服务器的小型数据中心。考量的东西很多,因为本篇主要论述大型ic设计中心的it环境,所以主要讲的是几百台服务器的机房。
首先,我们来看一张机房的示意图:
我们可以看到这个数据中心分成了多个部分:接入机房,实验室机房,消防钢瓶间,ups配电间,电池间,主机房,值班室。
供电
建设机房的首要任务是计算出你到底需要多少功率的负荷,然后对接入电源
跟供电方核对,是否有满足需求的电力接入。然后可以确定ups容量,最后通过设备的断电后备时间要求,计算出需要多少电池。供电系统是一个很复杂的设计,需要机房设计方认真核对,一旦错误,后期很难补救。
作为用户方:我们提供的信息主要有:总机房设备的最大负载、供电冗余要求、每机柜多少kw、电池的后备时间。
制冷
目前机房空调主要有两种类型:一种是大型的精密空调,通过上送风或者下
送风的方式,经过机房地板形成一个冷热回路。这种方式在很多地方使用,优点是送风集中,运维方便。缺点就是噪音大,空调冷热路径长,能耗损失多。另外一种,就是行间空调。行间空调顾名思义,就是空调就位于机柜旁边,空调出来的冷风就被机柜上放置的服务器吸入,然后从服务器后端排出热空调,形成循环。
水冷还是风冷?
这也是一个难以取舍的选择。整体来说,风冷技术成熟,能耗比水冷高。但是水冷风险高,因为管路的安装和维护要求高,一旦漏水,对机房来说都是大事故。但是,水冷真的可以很大程度降低能耗。
基于自己的条件,我们选择了行间空调风冷方式。
布线
机房布线的考虑,经常受到环境的限制,经常我们不得不取舍。主要需要考虑的是水管如何布置,包括加湿器的进水管和冷凝水的排水管。强电线缆如何布局以及弱电(双绞线及光纤线缆)布局。
水管的布局,需要考虑漏水的情况下,对机房的影响。机房漏水从来不是小问题,任何处置不当,就可能导致机房停止运行。主要有两方面的水路需要处理,一边为冷凝水的排出,另外就是加湿器的进水。建设机房的时候,建设方提出想把顶楼的排水管在中间开口,通过这个排水口去释放空调的冷凝水,听起来不错吧?可如果大雨的情况下,排水管堵塞或者来不及排出去的时候,水就会从排水管的开口处,直接往机房排放。加湿器进水一定要前置阀门,随时将其管理。否则,自来水的突然高压,可能会导致机房大面积过水。由于进水管的安装问题,我甚至不得不将加湿器进水管完全关闭,以免发生意外。水管一般都是从机房地板下走。
强电的安装需要注意跟弱电分开,因为强电会干扰弱电信号。这就提出了一个现实的问题:强电到底应该走顶部还是地下?因为顶部往往会走弱电线缆。弱电走顶部的一个好处是后期维护和排错更加方便。我这里设计方选择了走地下,地板下有40cm,强电在架设的桥架上走。但是,因为排水管需要有一定高度,不得不走了强电桥架的上部,这应该是一个失败的设计。但是,如果强电走顶部,弱电怎么办?两者之间需要隔离。整体的通道和机柜设计已经解决这个问题,所以建议选择冷通道和机柜的时候,选择好顶部可以分割强弱电布线的产品。这样可以很好的解决强弱电分离的问题,同时避免了强电跟水路一起走的尴尬。
环控
机房环控需要做到几个方面:视频监控,温湿度,漏水检测,电话报警,pue
的实时显示。
空间及位置考虑
为什么要将接入机房单独出来
接入机房负责跟外界的沟通,包括各家运营商的接入线路:电信的互联网,电信的电话,联通的互联网,专线等。这个地方经常要开放给电信联通的维护人员,办公网络的核心设备也需要放在这里。外网防火墙,门禁系统,oa服务器等都需要,类似一般公司的小机房。各办公楼层的汇聚。这个机房设计,一般可以考虑单独的ups,空调。
为什么要建一个单独的实验室机房?
我们都知道,ic设计公司是要做出硬件产品的,而很多工作需要的服务器,不是it人员去管理,而是设计人员自己做各种测试使用。如果没有一个独立的空间,是无法做好隔离的。这样测试环境会让整个it系统不稳定。仿真器等设备需要大功率的制冷和独立空间,所以实验室机房采取传统的精密空调,采用下送风的方式制冷。
主机房
我们主机房按照标准模式,设计了独立的消防管网系统,气体灭火。ups配电间跟电池间。ups设备目前有模块化的,可以考虑,避免机房设备不足的时候,ups浪费电力严重的情况发生。
机房的位置选择
这个涉及的考量很多,很多时候我们不得不折中考量,这让人感觉很无奈。比如,我们需要考虑楼层的承重,一旦我们考虑建设机房的地方,如果楼下是空的,就需要建筑设计单位拿出承重设计数据,不能满足我们需求的情况下,我们需要加固。一般情况下,都是不能满足的,没有哪家建筑设计院会将普通的办公楼设计为承重达到机房的要求,除非是厂房设计。一般建筑的承重为250kg—500kg,而我们机房一般要求1000kg-2000kg之间。特别是ups电池间,这个地方要求的承重非常高。
如果我们选择地下没有架空的一楼做机房,当然就不需要重新加固建筑承重了,但是一楼往往会面临另外一个问题。机房空调的外机往哪儿放?现在的建筑一般都是空调放在顶楼,如果一楼的机房到顶楼的距离过长,会影响制冷效果,能耗也会损失更多。另外,一楼还需要防水,特别是暴雨来临,如果地势低洼,很可能导致倒灌,一旦进入机房,整个机房就可能完全停止工作。
所以,机房的位置选择起来非常难。建议一定要提前选择好地方,且不可将就。
网络布局
机房网络设备主要是交换机,目前主要采用的有集中式布局和分布式布局。
两种各有优缺点。
集中式布局,一般在一个冷通道采用一台大型多插槽的交换机,这样的布局方式,机房布线是一个难点,因为几百根网线要布局到核心交换机处,线缆的连接非常麻烦,好处是解决问题的时候简单,且由于交换机多采用了个冗余部件,很少出现故障。各个机柜之间也基本是线速连接的。
分布式布局,多采用tor交换机模式,即每个机柜顶部安装一台交换机,然后各交换机通过上联到核心交换机处实现连接。这样的连接方式,交换机数量比较多,可能不得不浪费很多端口,因为我们一个机柜里边很难会完全用完交换机端口(现在一般交换机都是24口-48口)。这种方式的优点是:布线非常简洁,只要每机柜到核心交换机机柜布置2根6芯的光纤+2根六类线即可。
建议新建的机房采用10g tor交换机+40g上联,这是趋势,服务器之间采用10g连接的成本已经降到足够低了。可以满足一段时间的需求。
无论采用分布式还是集中式,都推荐在每个机柜上放一台简单2层交换机,用于设备的远程管理口,比如服务器的ipmi端口。这样可以不用随时进出机房去开启关闭服务器。
消防
机房的消防,目前主要采取的是七氟丙烷气体消防。主要考虑的是,提前在
消防部门审批方案和报备,必须是当地有资质的建设方。另外,气体释放的方式最好是经过监控室人工确认,否则可能导致机房人员没有按时撤离,窒息而死。
网络结构
首先让我们来看一个网络的结构示意图,因为这部分涉及到实际内容,我只能通过示意图的方式来简单讲一下基本的要求。无法提供真实的网络结构图给大家看了。
1.内外网隔离
2.研发网络跟办公网络隔离
3.研发网络客户端跟服务器隔离
4.mplsvpn网络
内外网络隔离
我们通过多层防火墙对网络进行了隔离,公司总出口有一个上网的防火墙,
用于隔离互联网跟办公网。我们对外提供的有限服务位于防火墙后面,这也是最容易被外部攻击的区域。在这里,我们通过acl等措施隔离办公网络流量,防火墙部署入侵检测和杀毒等服务。
研发网络跟办公网络隔离
研发网络指的是我们设计芯片的网络。这里一般采用两种方式隔离,一种
是物理隔离,另一种是逻辑隔离,各有优缺点,按需采用即可。物理隔离的优点是安全,任何通过网络入侵的机会将为零。但是缺点是实用性和方便性遇到困难,无法做到多个异地site协同工作。逻辑隔离是采用各种安全规范,严格限制研发网络跟办公网络的交互,实现即时办公网络被入侵,依然可以保证研发网络安全的网络设计。这种优点是可以多site协助,跟外部交流容易。缺点就是存在安全错误导致的安全风险存在可能。
研发网络的客户端跟服务器分离
研发网络的服务器端一般位于机房内,而客户端位于工位。两者之间如果不
能有效隔离,就会造成安全风险点大面积增加。同时,对内的安全防护就无从谈起。使用,我们一般会在登陆客户端跟设计服务器之间采用防火墙来隔离。同时,登陆服务器也需要采取各种安全措施,避免被内部用户入侵控制。
mpls vpn网络
专线网络有多种,常用的可能有mstp/sdhmpls。sdh专线主要用在国内
点对点电路上,相当于给提供物理链路给你。这种方式优点是点对点,只要电路不断,你的网络一定不会跟其他共享带宽。mpls vpn是用的更多的专线方式,其特点是环状组网,使用逻辑隔离,将数据从一个大的带宽网络中隔离出来,运营商采用各种方式尽量保证你的带宽符合你申请的带宽。
如果只是两点,可以考虑sdh,如果是多点,建议还是用mpls vpn比较合适。专线方式可以提供比互联网ipsec vpn更好的稳定性,建议研发的工作环境采用。而对于稳定性要求不高的应用,建议还是采用传统的ipsec vpn方式节省费用,比较专线每月都需要付出一大笔钱。
额外提示一点:目前研发设计网络,经常需要使用google等搜索引擎查询资料。国内的网络连接国外有防火墙封锁,同时两大运营商的问题导致访问国外异常慢,丢包率非常高。解决这类问题,目前有几个办法:方法一,购买一些vpn服务账号,适合个人使用。方法二、公司拉一条专线到香港,通过香港本地上internet。适合公司一起使用的,但是这种方式成本很高,差不多1000元/m,一条10m的线路需要每个月一万了。方法三、通过上面所述的mpls vpn,路由到国外再上internet,类似方法二,只是成本更高,如果刚好有上下线非对称应用,比如国外分部主要通过mpls访问总部资源的时候,主要是下行带宽,总部可以利用其上行带宽。方法四、采用sdn的方式和云计算结合,通过公有云实现这类应用,成本在100-300rmb/兆之间,非常适合小公司。
系统和存储布局
1. cpu架构及os考虑
2.认证(nis ad ldap及其他)
3.dns/ntp
4.email
5.存储:zfs/netapp
6.nfs v3/v4和afs gpfs之间的优缺点
cpu架构及os
看过我以前文章的朋友,一定会记得,2004年,我推荐solaris8。2008年推荐的os是rhel3和rhel4,到了2013年我写的文章,已经推荐rhel5了。今天(2015年底)我推荐的是rhel6.7。推荐os必须跟当时所处的情况有关,目前三大软件商cadence synopsys mentor都已经支持rhel6,所以采用rhel6毫无问题。我们目前全部都采用的是rhel6.7的os。
cpu架构方面,依然推荐intel的e5-2600v3和v4双路服务器,特殊情况可以考虑e7的4路服务器。作为一家主要引入ibm power8处理器设计的公司来说,采用intel的cpu是不是有些特别的意味?一点也不奇怪,因为eda vendor的主要软件都是支持x86的处理器,只有少量软件会支持aix+power。而从性价比来说,显然x86更有优势。
os安装需要采用kickstart实现一致性安装,即所有服务器跑的系统和软件包都一样。实现本地的os image和epel库,然后通过pssh等分布式管理工具实现软件安装的一致性要求。
认证
用户认证,必须实现统一账号,在任何系统下,最好是同一个账号和密码。
目前能够实现这个条件,需要windows的active directory和nis或者ldap统一。
我这里采用了windows 2008r2 + nis来实现,使用nis这么古老的认证技术主要是考虑了其简单方便性,没有过多考虑其他如安全等特性。
windows 2008r2,集成可sfu的功能,可以为unix用户设置一些特性,比如uid gid shell home,另外,还提供nis服务器功能,可以实现windows账号和unix账号的统一。
采用nis的原因是我们会在后面实现autofs功能,这样pxe安装的linux服务器就不需要挂载很多文件系统,而直接采用autofs的方式挂载。
在未来,unix下认证应该会跟逐步ldap集成。
dns/ntp
实现内部dns服务功能可以提供内部服务器之间的便捷访问,从而摆脱记忆
ip地址的麻烦。某些服务器在采用了内部dns后,可以更容易使用。目前提供dns服务器的主要有两个程序:bind和dnsmasq。前者是传统的dns服务器,功能强大。后者是简单的dns+dhcp服务,一般用于小型环境。优点就是便捷,使用方便。具体服务器搭建,这里不再详细介绍,提醒一点是dnsmasq默认不提供跨vlan的dns服务,需要绑定interface。
内部ntp服务在这种环境下几乎是必须的。ntp可实现内部时间的统一,避免认证失败或者文件时间冲突等问题。ntp服务器的实现非常简单,不做介绍,注意要周期性跟ntp服务器同步时间。
email系统
email依然是当前企业通信的最主要方式,所以email系统的选择也是一个重
要的工作。由于我们公司采用了内外网隔离的方式,所以我们的平时跟外部联系的邮件系统跟内部邮件系统是完全独立的两套。
外部邮件系统主要考虑的是防病毒,防垃圾邮件,安全,可维护性及尽量少的中断时间。基于以上考虑,我们最终选择了托管出去的方式。以前在多家公司,都用了自己搭建的邮件系统,包括exchange或者其他专业的邮件软件,开放25端口来跟外部通信。其中最麻烦的事情不是安全,而是垃圾邮件太多。如果公司自己购买一台垃圾邮件过滤系统,费用很高且可能一定程度误报误删,这样对公司来说是无法接受的。由于新建公司没有多少邮件迁移的任务,我们最终采用了托管出去的方式,按用户付费,这样完全避免了垃圾邮件的困扰。
内部邮件系统,我们采用了postfix来自己搭建一套。考虑到有需求,我们采取措施,让托管出去的邮件可以直接转发到内部邮件服务器上。这里涉及到了一个中转服务器。
存储
存储系统的选择非常重要,几乎决定了后期整个系统性能的关键因素。在ic
设计行业中,有几个重要因素需要考虑:实时压缩、高速ssd做缓存、重复数据删除、snapshot、nfs v4 acl、backup。
对于以上特点,我这里简要介绍需要的原因:
实时压缩,可以很大程度减少存储容量的使用。在ic设计中,经常可以做到2倍的压缩率,即容量提升了一倍。同时,还提升了io能力,因为压缩后的数据更小,有利于读写。现代的cpu都很快,压缩不会带来太大的负担。所以,可以放心使用。
高速ssd缓存,全闪存太贵,而采用ssd做缓存的方案,可以很大程度上将热点数据放在高速ssd上,遇到调用的时候不再去磁盘中寻找,这样可以很大程度上提供iops,是一种利用较低成本提供了较大效益的方案。
重复数据删除,重复数据删除功能可以在很大程度上减少磁盘空间的使用量,特别是针对某些应用,比如虚拟化及多版本开发环境。
snapshot,这里的snapshot一定要跟san盘阵的区分开来,也跟lvm的不一样。基于netapp和zfs的snapshot功能,允许用户自我管理不小心删除的数据,随时自己去恢复,减少管理员的麻烦。提高了用户的满意度。
nfsv4 acl,由于其提供了很多高级特性,可以实现项目的管理方式,让项目经理去管理目录的权限,将it从权限管理的繁琐中解脱,同时,给项目经理足够大的自由度,让他们更快捷的实现自己的要求。
备份,是一个重要的话题,数据备份可能永远都是在做后备,但是一旦需要恢复,备份就显得格外重要。目前主要考虑采用d2d的备份+磁带归档的方式实现长期的数据备份需求。
由于我们的环境主要是nas存储的nfs共享,满足以上要求的主要有netapp的存储及基于zfs的存储系统,如oracle zs4nexentastor等。
目前在国内做支持最好的依然是netapp存储,但是netapp的销售策略要小心,存在销售控制价格的行为特别严重,甚至可以做到价格差异30%-50%的情况。因为是区域控价,你如果选定了必须用它,几乎无任何的议价能力,被迫接受高价。在大厂商面前,用户很弱势。唯一的反击就是绝对不要选择某一家厂商的产品作为采购要求。
nfsv3/v4及afs gpfs文件系统的优缺点
nfs v3是过去和当前依然在大量使用的协议,几乎所有的系统都能支持,使
用和配置也很简单。但是,nfsv3缺乏一些特性,如安全性不足,缺乏更严格的acl支持,缺乏并行支持等。所以,后来开发了nfs v4,提供了更加先进的一些功能。我们主要会使用到nfs v4的功能就是nfs v4 acl支持。目前很多测试环境下,nfs v3的性能依然比nfs v4更快。所以,除了需要设置acl的时候,否则其他地方应该挂载nfs v3为主。
afs文件系统是另外一种主要的网络文件系统,其提供了很多优秀的功能,比如本地cache,acl,quota,分布式等。但是,国内很少用到,商业化支持也不足,所以不建议使用。
gpfs是ibm开发的商业产品,可以实现分布式,如果不考虑费用问题,可以考虑在某些关键的应用中采用。
--------------------------
网友提问:
ic行业中,存储对iops的要求是非常高的(实际生产环境中的发现),对存储容量要求相同的情况下,如果获得更高的iops,除了存储控制器的iops限制外,还要考虑单个硬盘的容量问题。一般情况下单盘更小容量,更多的盘,可以带来更高的iops。另外可以提一下存储的空间利用率,往往存储的利用率超过85%(有说90%),读写效率将大幅下降。实际生产环境中,磁带归档是否是一个效率(备份和恢复)很低的办法?
----------------------------------------
非常好的问题,你肯定是业内人士。-------------------------------------------------------------------------------------回复如下:要想获得高的iops,机械硬盘已经无法应对了。以前的做法一般是raid卡带cache(write back)+ 15000rpm的硬盘。cache的好处是写入小文件加速,因为直接返回,但是读取依然会很慢。现在大量采用的10000转 2.5 sas盘,已经算是不错的了,但是iops依然不高。唯一能解决iops的只有ssd,nvme的ssd会更快。存储超过85% 90%,读写效率大量下降的根本原因是写入算法的改变。以zfs文件系统举例,zfs文件系统在80%之前,是write anywhere,就是只要有空的地方就写。80%以后,马上改变算法,需要找一个比较合适的位置写,显然速度一下就下降了。netapp的walf也有一样的问题。我写的是磁带归档,而不是主要用于备份。磁带的缺点很多,比如速度慢,无法online方式查询恢复。最大的问题是:你需要找回数据的时候,可能根本读不出来!所以,它只适合归档,因为一盘一盘磁带,拿出去放银行保险柜,依然是最方便的做法。当然,如果你可以做到磁盘方式归档,更好。目前建议的是d2d2t(即磁盘到磁盘备份,然后从备份磁盘归档到磁带)。因为全闪存太贵,建议大家设计系统的时候,以project的方式分流。将iops要求很高的项目才放入ssd,而普通项目,依然放入大容量的7200rpm或者10000rpm的磁盘系统。备份系统则毫无疑问,采用7200rpm 3.5寸的大容量磁盘。
--------------------------
接入及登陆环境
1. vpn是否可以?vpn至少要做到双因素验证
2.如何避免设计人员copy&paste。
3.登陆软件的选择:vnc xenapp nx go-global eod等
4.桌面系统:gnome kde icewm fvwm xfce
如何考虑移动vpn接入
提供移动vpn接入就相当于在内部网络开放了一个接口,让外部的用户可以
随时随地访问内部网络。所以,首先要评估是否可以做到足够的安全级别,让非法的用户无法通过窃取账号等方式登录你的网络。
vpn接入,需要至少做到双因素的认证。主流的做法包括rsa secureid这种基于时间的双因素或者usb key基于证书的双因素。当前,还需要考虑vpn支持移动客户端和mac osx系统。因为,这两方面的用户越来越多了,有更多的接入需求。
如何避免设计人员copy&paste数据
ic设计中,一般都在服务器完成,但是也需要用户从终端登录服务器。如果用户可以将服务器的文本copy到本地终端,那么就存在带走的可能性。我对于数据安全的主要观点是:数据需要位于服务器上,用户无法物理接触的数据才是安全的。数据分级,防止一个用户拥有所有数据的权限,可以防止被某人获得全部数据。带出数据需要审核及归档,这样做到有据可查。
目前的登陆软件,很多可以禁止用户剪切板的数据copy到用户端。同时,采用防火墙,防止用户直接从内部服务器主动连接客户端获取数据。
登陆软件的选择
目前小公司普遍采用的登录软件有xmanager/exceed/vnc/freenx,而大公司普遍采用的有xenapp/nx/eod/go-global等。对于以上软件,我都有一定程度的接触,所以在此做一个简单评价。
xmanger和exceed,属于利用x协议,在windows平台实现的x server,优点是使用方便,使用的人很多,性能在局域网也不错。缺点就是,一旦用户端跟服务器之间的网络意外终端,或者客户端关机,所有正在服务器上运行的job丢失。
vnc免费版使用非常广泛,其实现了网络断开也不会丢失正在运行的工作。但是免费版限制很多,比如需要用户设置专用的vnc登陆密码,无法禁止用户copy&paste服务器数据到本地。另外,vnc协议实现对网络带宽消耗很大,不适合于wan网络连接。
freenx是基于no-machine免费开源的library实现的免费远程登陆软件。目前有另外一个如日中天的类似软件,叫做x2go。freenx基于ssh协议,实现了压缩传输等功能,效率比vnc提高很多。但是其基于ssh协议实现,给系统安全留下了隐患。
vnc enterprise,实现了更高级的功能,包括验证集成了系统验证,不需要额外设置vnc登陆密码,也可以禁用剪切板等高级功能,还可以通过policy设置。对于小型设计环节,目前是一个非常值得考虑的选择。
xenapp是citrix基于ica协议实现的登陆方式,最新的基于unix的是2008年前后发布的unix 4.0 fp2版本。citrix的中心已经转向了windows,及时是最新发布xendesktop linux版本,也并没认真去做,集成很困难。不过,当年broadcom是基于solaris 10+ citrix for unix fp2实现的登陆环境,不知道五年过去了,是否已经改变。
nomachine公司发布的nx商业版本可以支持更多功能,国内有几个公司在使用,具体功能不了解,比如如何实现及时采用ssh协议,也不担心被设置转发隧道,从而解决安全问题的。
eod的全称是exceed on demand。软件费用昂贵,国内使用的人很少,目前我知道的是ibm基于eod实现登陆。eod软件可以禁用copy&paste,同时gateway模式可以让用户无法直接在eod服务器上工作,让eod服务器实现gateway转发即可。eod可实现share桌面,对于远程会议共享桌面和需要远程协助debug的时候非常有用。推荐不差钱的大公司选择eod,是我见过最佳的登陆软件了。
go-global是另外一个登陆软件,分为for windows和for unix版本。实现上比vnc要快,国内也有商业支持,也比较成熟和稳定。不过其客户端目前只支持windows系统,这点需要注意。如果是中小型公司,可以考虑采用。
桌面系统的选择
我一直反对使用重型桌面环境,比如gnome和kde,毕竟几百人的公司,登陆服务器就那么两台,一旦使用gnome和kde,整个系统负载是非常高的。而我们的设计工程师,根本不需要那么复杂的桌面环境,最简单的才是最高效的。
在我的工作中,我推荐过使用fvwm,自定义过一个非常简洁的桌面环境,但是由于定制要求很高,用户使用起来感觉不是很好。不过fvwm可定制性很高,可实现非常棒的一些效果。
后来我选择使用过xfce,另外一个比较其gnome和kde较轻量级的桌面。在2008年-2013年,我都认为这是一个不错的桌面环境,在很多地方推荐使用过。但是,xfce的安装包很多,最好通过yum自动安装。我们也逐渐在考虑一个更加合适的窗口管理器。
2015年,一个新的同事推荐了icewm。我认为目前这个是最合适ic设计公司工程师的窗口管理器了。
可以实现多个桌面,添加需要的一些xterm和gnome-terminal firefox等工具。
推荐:大公司首选icewm,其次可以考虑xfce。小公司建议多考虑xfce。
设计job的管理(sge/lsf)
1. lsf
2. sge
3. openlava
lsf
lsf是目前主要采用的任务管理软件,目前归属于ibm,最新的版本是9。几乎所有大的ic设计公司都采用的是lsf的软件来做负载均衡。不过,这个软件是商业软件,授权费比较贵,大约要1-2万一台服务器(以core计费)。
下图为lsload命令所显示的结果,大家可以看到各台服务器的负载,cpu利用率,剩余内存等信息。
lsf会自动去调度,找出最佳的后台服务器,尽量做到负载均衡。所有的后台服务器,用户都不能直接登录去run,这是由系统和网络结构限制的。但是,对于用户,要让所有的操作做到最简单,用户不需要去了解复杂的后台设计。
这里介绍一下lsf的一些使用
提交job
$bsub my_jobjob is submitted to default queue 上面输出中1234是分配给my_job的id, normal即系统默认queue
提交并行job
$ bsub -n 8 myjobmyjob以并行job的方式执行,且需要8个cpu cores。比如在脚本中,hspice使用了-mt 8的情况下。用上面的命令会让lsf帮你找到空闲的8个cpu core之后才提交给具体执行的主机。
查看当前自己或者其他人的job
$bjobs(只查询自己的) $bjobs –u all(所有人的)
然后可以得到jobid
$ bjobs -u alljobid user stat queue from_host exec_host job_namesubmit_time1004 user1 run short hosta hosta job0 dec 16 09:231235 user3 pend priority hostm job1 dec 11 13:551234 user2 ssusp normal hostd hostm job3 dec 11 10:091250 user1 pend short hosta job4 dec11 13:59
kill掉自己的某个job
$ bkill 1234job is being terminated
挂起和恢复job
$ bstop 3421job is being stopped
$ bresume 3421job is being resumed
查看job的输出
$ bpeek 1234
查看服务器负载
$lsload
查看服务器状态
$bhosts
查看job的详细信息
$bjobs –l 1234
sge
目前sge是免费且开源的,国内也有不少公司在使用。但是使用起来,感觉差异很大,可能是习惯问题,我始终无法适应sge。我也不推荐使用sge。
openlava
前面介绍了lsf是商业软件,授权费比较昂贵。这里推荐一个兼容lsf命令的软件,openlava,其基于lsf 4.2发布的开源版本,目前最新的是3.3,由teraproc公司主要开发和支持。推荐国内的大公司采用,只需要少量的支持费即可。目前主要基于x86的linux环境,如果你有其他异构系统,需要联系厂家获取是否可以支持。如果大家对于采用openlava感兴趣,可以联系我,我可以协助测试。前面lsf的示例完全可以通过openlava实现。
设计job的管理(sge/lsf)
1. lsf
2. sge
3. openlava
lsf
lsf是目前主要采用的任务管理软件,目前归属于ibm,最新的版本是9。几乎所有大的ic设计公司都采用的是lsf的软件来做负载均衡。不过,这个软件是商业软件,授权费比较贵,大约要1-2万一台服务器(以core计费)。
下图为lsload命令所显示的结果,大家可以看到各台服务器的负载,cpu利用率,剩余内存等信息。
lsf会自动去调度,找出最佳的后台服务器,尽量做到负载均衡。所有的后台服务器,用户都不能直接登录去run,这是由系统和网络结构限制的。但是,对于用户,要让所有的操作做到最简单,用户不需要去了解复杂的后台设计。
这里介绍一下lsf的一些使用
提交job
$bsub my_jobjob is submitted to default queue 上面输出中1234是分配给my_job的id, normal即系统默认queue
提交并行job
$ bsub -n 8 myjobmyjob以并行job的方式执行,且需要8个cpu cores。比如在脚本中,hspice使用了-mt 8的情况下。用上面的命令会让lsf帮你找到空闲的8个cpu core之后才提交给具体执行的主机。
查看当前自己或者其他人的job
$bjobs(只查询自己的) $bjobs –u all(所有人的)
然后可以得到jobid
$ bjobs -u alljobid user stat queue from_host exec_host job_namesubmit_time1004 user1 run short hosta hosta job0 dec 16 09:231235 user3 pend priority hostm job1 dec 11 13:551234 user2 ssusp normal hostd hostm job3 dec 11 10:091250 user1 pend short hosta job4 dec11 13:59
kill掉自己的某个job
$ bkill 1234job is being terminated
挂起和恢复job
$ bstop 3421job is being stopped
$ bresume 3421job is being resumed
查看job的输出
$ bpeek 1234
查看服务器负载
$lsload
查看服务器状态
$bhosts
查看job的详细信息
$bjobs –l 1234
sge
目前sge是免费且开源的,国内也有不少公司在使用。但是使用起来,感觉差异很大,可能是习惯问题,我始终无法适应sge。我也不推荐使用sge。
openlava
前面介绍了lsf是商业软件,授权费比较昂贵。这里推荐一个兼容lsf命令的软件,openlava,其基于lsf 4.2发布的开源版本,目前最新的是3.3,由teraproc公司主要开发和支持。推荐国内的大公司采用,只需要少量的支持费即可。目前主要基于x86的linux环境,如果你有其他异构系统,需要联系厂家获取是否可以支持。如果大家对于采用openlava感兴趣,可以联系我,我可以协助测试。前面lsf的示例完全可以通过openlava实现。
数据管理
1.上传数据考虑因素
2.下载数据如何审核及自动备份归档数据
3.数据访问的audit
4.数据分级及权限控制
数据上传
在一个公司,内外网隔离的情况下,必然有大量的数据上传需求。如何实现
上传呢?这是一个大问题。我们设计了一个数据中转站,允许公司内的用户登录,将数据放入home目录下,然后每隔一个小时,内网服务器通过rsync去获取数据,并sync到内网。
这里主要的问题是:防火墙一定要严格过滤,只允许内网服务器sync中转站的某个模块数据。
upload.sh
#!/bin/bash
procnumber=`ps aux |grep rsync|grep -v grep|wc -l`
if [ $procnumber -eq 0 ];then
/usr/bin/rsync -acvz --delete --password-file=/root/rsync.passroot@10.x.x.100::home/exchange/upload/ >> /root/rsync.log
fi
下载数据如何审核及自动归档
对于下载数据,我们要求进行人工任何。分多个层级,每一步需要审核人写审核意见,批准还是拒绝。任何一步拒绝,都将无法完成。
主要实现是:用户准备数据,发邮件给ithelp,然后ithelp会根据情况,分配审核数据的人员,其审核完成后,将数据放在第一级审核的目录dira,然后由第二级审核人进行二次审核,完毕后将数据放入预备下载目录dirb,最后程序自动先备份数据,然后sync到数据中转站,并删除本地数据。dira和dirb通过acl设置了用户的访问权限,只有审核人员可以进入。
以上步骤,还可以插入数据检查及核实的程序,比如查看是否下载了源代码数据。
数据访问audit实现
使用audit实现任何人访问源代码都将被记录,通过程序每天统计一次用户的访问记录,排序统计后自动发送邮件给相关的人员。
目前测试环境实现了5万个源代码的控制,但是只能在本地文件系统实现。否则会带来性能的问题。这样可以实现某个人一直查看的记录追踪,以及一段时间内比如离职前一周或者某一天将所有允许查看的文件都copy到其他目录的行为,可以当天晚上发送邮件给其安全部门的人员。
[root@dcs004 audit]# cat audit.rules |wc -l
51573
[root@dcs004 audit]# cat audit.rules|more
# this file contains the auditctl rulesthat are loaded
-w/test/test/linux-4.3/.get_maintainer.ignore -p r-k kernelfiles
-w /test/test/linux-4.3/security/inode.c -pr-k kernelfiles
-w /test/test/linux-4.3/security/makefile-p r-k kernelfiles
-w /test/test/linux-4.3/security/selinux/makefile-p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/netlink.c -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/.gitignore -p r-k kernelfiles
-w /test/test/linux-4.3/security/selinux/hooks.c-p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/kconfig -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/selinuxfs.c -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/nlmsgtab.c -p r-k kernelfiles
-w /test/test/linux-4.3/security/selinux/netnode.c-p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/netif.c -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/netport.c -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/netlabel.c -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/exports.c -p r-k kernelfiles
-w/test/test/linux-4.3/security/selinux/xfrm.c -p r-k kernelfiles
audit结果如下,通过分析处理后可以实现监控的目的。
ype=path msg=audit(11/03/201510:43:13.610:198339) : item=0name=test/linux-4.3/drivers/infiniband/hw/cxgb4/t4fw_ri_api.hinode=73185587 dev=00:14 mode=file,664 ouid=root ogid=root rdev=00:00nametype=normal
type=cwd msg=audit(11/03/201510:43:13.610:198339) :cwd=/tools
type=syscall msg=audit(11/03/201510:43:13.610:198339) : arch=x86_64 syscall=open success=yes exit=3 a0=0x181ede0a1=o_rdonly|o_nofollow a2=0x0 a3=0x666e692f73726576 items=1 ppid=39759pid=40352 auid=rootuid=rootgid=root euid=rootsuid=root fsuid=root egid=root sgid=root fsgid=root tty=pts2 ses=13728 comm=mvexe=/bin/mvkey=kernelfiles
----
type=path msg=audit(11/03/201510:43:13.617:198340) : item=0 name=(null) inode=73185587 dev=00:14mode=file,664 ouid=root ogid=root rdev=00:00 nametype=normal
type=syscall msg=audit(11/03/201510:43:13.617:198340) : arch=x86_64 syscall=flistxattr success=noexit=-95(operation not supported) a0=0x3 a1=0x0 a2=0x0 a3=0x0 items=1ppid=39759 pid=40352 auid=root uid=root gid=root euid=root suid=root fsuid=rootegid=root sgid=root fsgid=root tty=pts2 ses=13728 comm=mv exe=/bin/mvkey=kernelfiles
数据分级及权限控制
主要是通过nfs aclv4来实现项目的权限控制,通过将特定人员加入访问许
可,项目经理可以自我控制任何公司的人员是否具有访问权限。但是,数据的分级,需要数据拥有人员去判断,it只是提供一种手段,并不具有分级的能力。
it提供合适的手段,让用户在系统内部,知道如何申请和如何控制权限即可。
以下是通过nfs v4设置权限示例:
$nfs4_setfacl -e/proj/xuesen
## editing nfsv4 acl for directory:/proj/xuesen
a::owner@:rwadxttnnccy
a:g:group@:tncy
a::everyone@:tncy
a::projectmanagera@powercore.com.cn:rwadxttnnccy
添加下面行即可
a::username@powercore.com.cn:rxtncy ###read only###
a::username@powercore.com.cn:rwadxttnncy ###rwx###
这里的projectmanager是由管理员设置的某个项目经理的账号,username是你期望设置的用户名
版本管理
1. cvs
2. subversion
3. clisoft sos
4. icmanage
5. git
cvs用于代码的管理
cvs作为unix系统下非常经典的版本管理系统,适合于代码的简单管理。对权限控制很差,基本上只能按照group的方式来控制谁可以check out,check in.cvs没有二进制管理能力,无法对各种非文本的文档,比如word进行管理,只能用于代码。
cvs是一个c/s模式的版本控制系统,用于在软件开发过程中记录文件版本,协调开发人员保证文件同步,从而保证项目正确的进行并行开发,并支持版本回滚、bug 跟踪和补丁生成。使用cvs可以有效地对软件开发的源代码和开发文档进行统一的管理和组织。
主要功能如下:
同步的最新修改
文件的版本回溯
多人同时修改同一个文件产生的冲突
项目的分支开发
文件权限控制
redhat enterprise默认安装有cvs,如果没有,请安装cvs的rpm包。
cvs的基本使用:
创建一个仓库
#groupadd cvs
#useradd –d /data/cvsroot -gcvs cvs
#cvs –d /data/cvsroot init
配置环境
$vi ~/.cshrc
$setenv cvsroot /data/cvsroot
项目的初始导入
进入到你准备到如的初始源代码目录
$cvs import -m somecomments project_name vendor_tag release_tag
执行后:会将所有源文件及目录导入到/data/cvsroot/project_name目录下
vender_tag:开发商标记
release_tag:版本发布标记
这个project可以给某个unix group授权chmod 775 root:asic/data/cvsroot/project_name,这样所有asic group的人都可以check in和check out了。
项目的checkout
$cvs co project_name
同步到最新
$cvs update
修改文件后checkin
$ cvs ci -m somecomments file_name
添加新文件
创建好新文件后,比如:touch newfile
cvs add newfile
对于图片,word文档等非纯文本的项目,需要使用cvs add –kb 按二进制文件方式导入(k表示扩展选项,b表示binary),否则有可能出现文件被破坏的情况
比如:
cvs add -kb newfile.gif
cvs add -kb readme.doc
查看修改历史
cvs log file_name
cvs history file_name
其实cvs还有一种pserver的方式,可以使用客户端来进行管理。这样,即时/data/cvsroot没有被nfs 共享出来在其他服务器上也可以通过cvs进行版本控制。
分两步建立:
首先,建立xinetd启动服务
cat >>/etc/xinetd.d/cvspserver < master
[git@eda proj]$
(7)查看变化是否提交
我们需要重新git clone一份
[git@eda ~]$ git clonegit@localhost:srv/proj.git
[git@eda ~]$ cd proj/
[git@eda proj]$ ls
abc.txt
[git@eda proj]$ git log
commit0455f7997a895e5ffea3f016ec04bf2bdb7b25ad
author: guanghui
date:fri apr 15 21:44:12 2016 +0800
test file
发现已经存在我们刚才添加进入的一个文件了。
权限管理
要方便管理公钥,用gitosis;
要像svn那样详细地控制权限,用gitolite

分析大型复杂数据集的三大实用建议
小型数据记录器的长寿命电源解决方案
沐天思考 | 客观看待中西电子工业的差距
独立光伏电源系统设计方法
万亿级工业互联网市场,无线通信技术如何去撬动
芯片设计公司如何设计自己的IT环境?
Qorvo邀您前往electronica China 2023,见证连接时代的“芯”力量
人工智能、5G等前沿技术深入应用 机器视觉产业机遇多多
如何用数学函数去理解机器学习的过程
选择有毒气体报警器必须要考虑的因素有哪些?
生物识别技术真的能将密码时代终结吗
一个电子助听器电路图
三星s8最新消息,三星s8推出三防版本,价格可能略有提高!
长期挣扎在生死线上的特斯拉,带来了一些电动汽车企业短期内的生存困境
梁孟松的中芯三年
荣耀9上手评测:华为荣耀9怎么样?国产旗舰手机王者,配置、价格超良心!
基于NI PXI-5105和虚拟仪器实现相控阵列数据采集系统的设计
CXL是什么?为什么它是各种应用程序的游戏规则改变者?
I2C基本的传输方式知识整理
光矢量分析系统测量法拉第旋光镜的偏转角度