
引言
从国家八五重点科技攻关项目“医院综合信息系统研究”和“军字一号工程”实施成功,到国家卫生部发布《全国卫生信息化发展规划纲要 2003-2010 年》,医院信息化建设发展快速,信息功能越发全面。医院内部网络系统主要服务于医院自建信息系统,其覆盖范围也逐步扩大,成为医院基础建设必不可少的一环。
医院网络系统从无到有,再到现在的规范化管理是医院积极开展以评促建的成果。《全国医院信息化建设标准与规范》、《电子病历系统应用水平分级评价标准》、《医院信息互联互通标准化成熟度测评方案》、《医院智慧服务分级评估标准体系》、《医院智慧管理分级评估标准体系》等标准对网络系统提出了规范建设指导意见,从机房物理安全到网络系统划分网络区域进行网络隔离,以及网络系统关键节点冗余建设与资源预留,配合现场测评环节,有效推动了医院信息网络系统的高质量发展。
第一阶段:医院网络系统的初期建设
内网核心改采用交换机堆叠的方式,提升网络核心的可用性。相对于采用VRRP虚拟路由器冗余协议进行网关冗余,堆叠的方式具有维护简单,集中管理的优势。VRRP需要检查协商状态并确保接口VLAN放行配置无误;大范围应用后,管理难度较大;同时VRRP网关切换后可能会发生客户端网卡不正常刷新ARP表的故障,需要重新激活网卡刷新ARP表解决;在发生网络环路的故障时,VRRP的协商交互报文无法正常工作,进一步增大网络故障解决难度。VRRP的优势在于每个节点独立工作,相对于堆叠方式的一个主控管理多个交换接口板,设备性能能够充分释放,在设备版本升级时,可以逐台停机进行,无需停止整个冗余组,再就是VRRP组成员型号版本兼容性要求低,不需要是相同型号产品也可以组建冗余组。数据中心场景下,M-LAG跨设备链路聚合技术也是因为这些优势得以推广。
在此阶段,一些问题的发生会导致网络系统宕机。一是未重视生成树管理,交换机的STP功能默认使用MSTP方式,在新增交换机配置了多实例,老旧交换机与临时增加的交换机却未修改STP配置,默认采用实例0管理所有VLAN,造成生成树防环机制失效,且生成树无法正常协商工作。二是门诊楼内使用VLAN1配置多个网段的子网地址接通了整个楼的内网,按业务类型划分网段而非楼宇楼层,导致出现VLAN网段跨楼宇使用的情况,三是多条骨干链路Trunk模式接口允许所有VLAN通过,一些列操作的后果是只要发生网络环路就会导致全院网络系统宕机。网络宕机导致患者挂号、就诊、缴费等环节出现严重延误,影响了医院的正常运转和患者的就医体验,可以将自己换位考虑一下,在就诊期间因为网络系统故障,导致长时间诊疗等待,周围人群密集夜都在抱怨,可想而知,意外事件引起的就诊等待产生的影响非常恶劣。
未引入专业网络系统管理员之前,面对网络环路最有效的处理办法就是采用拔线法,拔掉哪条骨干线路后网络恢复了,就可以判断环路发生在哪个区域,这个办法在现在也非常适合小型局域网使用,特别适合监控网络的故障排查。引入网络运维工程师后,可通过交换机的接口流量数据进行判断,异常流量的源头。
后续为了提升网络系统的稳定性,避免出现院区级别的网络瘫痪事件发生,对多处级联的网络系统进行了网络规划整治。主要动作有:
在执行网络改造计划时,我们首先对现有VLAN 的使用情况进行了全面梳理,然后制定了详细的缩小使用区域方案。通过与各科室的沟通协调,顺利将业务 VLAN 的使用从多个楼宇缩小到单个楼宇内,网络使用范围降低,提升了终端维护效率,也降低了网络故障的风险。
三层网络路由通讯经过多年的验证,稳定性不成问题,唯一的缺点是在削减了核心交换机性能压力的同时,无法通过核心交换机学习到区域终端的真实MAC地址,导致一些流量审计工具与准入系统的信息存在错误。虽然这些设备可以通过SNMP协议读取相关网关交换机的ARP表,受到交换机产品与SNMP协议的性能影响,读取效率会有下降,且交换机SNMP协议还需要配合网络监控系统交互,会出现信息延迟的现象。
第二阶段:规范建设医院网络系统
网络系统在引入专业的网络运维工程师后,基本可以有效的降低宕机事件的故障停机事件与发生频率,网络拓扑可视化透明化成为常态。在这一阶段,《中华人民共和国网络安全法》正式施行,《信息安全技术网络安全等级保护基本要求》2.0版 本生效,网络安全防护的建设受到高度重视,从网络到信息系统运行以及数据 保护等层面的全方位网络信息安全建设,致使网络安全防护架构脱胎于网络系统拓扑图成为重要的核心架构。
在此阶段,需要进行网络安全架构设计与安全策略落实,与网络路由系统相关的主要有四点:
在互联网出口与专线接入点部署防火墙进行NAT配置属于常规操作,这里主要说明一下防火墙设备双机工作的优化。出口防火墙是网络系统中的核心节点,关系着医疗系统的缴费、预约挂号与互联网医院等系统。运营商线路只会给我们提供1个接口连接,使用双机部署的防火墙当主节点宕机时,需要人工切换线路接口到备机完成设备与线路的切换,这个流程操作下来时间一般不会短于10分钟,对于双机部署的防火墙,我们考虑将运营商线路从防火墙上摘除,连接到防火墙外面的专线交换机上,使用交换机的万兆线路连接到两台防火墙设备,每个运营商线路使用不同的VLAN相互隔离,在防火墙不再使用物理接口标识专线,而是使用VLANIF接口,这样操作以后,当防火墙进行故障切换,线路上无需进行任何改动 。
在内外网核心中间部署网闸隔离相对来说是一个标准做法,网闸设备在网络传输层实现了TCP/UDP端口级别的代理通讯,明确网闸进出口的配置后一般不会有特殊问题。
旁路引流部署核心防火墙与透明串接防火墙 在核心与汇聚交换机中间是当时争议很大的一个技术问题,旁路部署方式的优点在于灵活上线与下线,防火墙升级维护时,网络系统毫无感知;防火墙宕机可无感停用策略路由自动切换回路由转发;不需要考虑物理接口数量,只需要配备高性能接口满足核心交换机流量转发吞吐即可。采用串联部署时,需要对每条物理线路单独进行透明传输,改造难度大,需要调整核心与汇聚的线路连接到防火墙再到目的设备;对设备性能要求较高,以防防火墙性能低下导致网络系统转发速度降低;接口数量占用多,每个线路要改造到防火墙上进出接口成对使用;防火墙bypass功能无法完全保证设备异常时网络系统正常转发,经测试在防火墙开关机时,bypass功能有一定的失效事件无法转发数据包。
在互联网出口区域通常需要配备防火墙、上网行为管理等设备,我们还配备了WAF、防毒墙系统,面对众多安全设备的网络通信需求,简单的做法是做成一个串联系统,每个设备都经过所有的出口流量,很是浪费设备性能,且单个设备故障导致整个互联网出口网络瘫痪,故障维修难度大。其中上网行为管理只面向访问互联网的用户流量,用户流量需要经过防火墙区访问业务专线时无需阻断;WAF面向互联网侧用户与内部前置机服务器的交互,无需处理普通用户访问互联网的交互流量。
为了解决以上问题,我们梳理了网络通讯需求,仅终端用户流量就分类成了用户访问内部服务器、用户访问互联网、用户访问业务专线等网络访问需求,采用同样的方式对服务器流量、互联网侧返回或主动访问的流量都进行了ACL分类标记。在外网核心交换机连接网络安全设备的接口使用多条策略路由匹配ACL强制转发 的方式,严格控制流量在相关接口的转发方向,形成安全设备旁路部署模式,实现精准引流转发。
第三阶段:个性化调优医院网络系统
在此阶段,开始注重防患于未然,发现问题及时整改,一切以业务可用性为主。当网络系统的配置相对完善以后,事故的发生往往来自于人为因素。施工挖断光缆,某个楼宇电力故障维修,桌面终端网络线路乱接等因素引起了多次业务停机。
为了规避单点故障导致的大范围网络停机,我们使用了 楼宇汇聚层环形组网 的想法。在初期的网络系统中,环路是网络系统宕机可能性最高的原因。在网络系统被深度管理,生成树真正成为了有效的防环机制后,环路就可以成为高可用性的一个保障手段。这样做的优势可想而知,楼宇拥有备用网络线路可以访问数据中心机房。也存在一些已知缺点:
最后是在组建汇聚层环网的同时,在院区内多处 使用OSPF动态路由,降低网络路由配置难度,减少二层网络的覆盖范围 。这样做同样提升了网络故障的排查效率,网络故障后,查看到目标网段消失,且相邻两边节点都出现接口DOWN的告警,可以快速的定位出原因大概率是对应的汇聚机房断电导致。
网络系统监控的定制化可以有效的提升故障发现、故障定位能力。我院在监控系统的维护中,从基本的网络设备监控,逐步增加了每条专线线路的对端IP状态监测,关键外部系统的可用性监测,可以在故障发生的第一时间做出故障点判断,确认时单条专线故障或某个运营商专项故障,或者是外部系统故障。