最近做了一個SCCM2012R2的項目,讓我真心是身心俱疲啊,遇到了各種的坑,今天就給大家分享下該項目遇到的一些坑與相關解決方案。
第一階段:PXE 啟動失敗排查
問題描述:
=========
跨網段做PXE的時候會有藍屏,同一個網段下PXE正常。

問題排查:
=========
從報錯來看,WDS no response,我們懷疑是WDS功能異常,我們嘗試以下步驟去重新啟用WDS,問題依舊:
--------------------------------------
登錄WDS服務器,停止Windows deployment services server服務;
找到RemoteInstall\Mgmt路徑,將該路徑下的文件都剪切到一個新建文件夾做備份用;
重啟Windows deployment services server服務,Mgmt路徑下的文件會重新被生成;
之后我們在DHCP服務器和SCCM DP上抓了網絡包,可以看到在讀取BCD文件的時候顯示找不到文件,而找不到BCD文件直接導致了最初的藍屏報錯(boot configuration data is missing or contains errors)。
--------------------------------------
正常PXE boot執行順序為:Wdsnbp.com--Pxeboot.com—Bootmgr.exe—BCD文件—Boot.wim
故障機器的網絡包中可以看到:Wdsnbp.com文件讀取成功;

Pxeboot.com文件讀取成功;
Bootmgr.exe文件讀取launch成功;

然后讀取bcd文件的時候,顯示找不到文件。

3. 經過溝通,我們了解到客戶配置了DHCP option 66,67,因為微軟不支持這種情形,所以我們建議客戶改為配置IP helper。在配置完IP helper之后,我們遇到以下新的報錯。

4. 對于新的報錯我們做了抓包分析,有以下分析發現;



5. 我們拿到客戶的網絡拓撲之后,給出了以下抓包方案:
--------------------------------------------
在客戶端接入S2126G-6交換機的接口上啟用端口鏡像并在對應機器上開啟netmon;
在WDS服務器連接核心S7806A交換機的接口上啟用端口鏡像并在對應機器上開啟netmon;
在核心S7806A的G1/42,G1/45以及匯聚S5750A的G0/24接口上啟用端口鏡像并在對應機器上開啟netmon;
在WDS以及DHCP服務器上開啟netmon。
注意:沒有在S5750A的G0/17以及接入層交換機上的端口一起抓包是因為我們考慮到問題出在這一段的可能性不是很大。

6. 之后等待4個月左右,貴方根據我們給出的方案做了抓包,并提交了日志。最新的網絡包中看到問題又有變化,與前兩次不同。
----------------------------------------
這次客戶端拿到wdsnbp.com之后,再次發送的DHCP請求返回的文件不是正常的Pxeboot.com,而是abortpxe.com,直接終止了PXE boot行為。

7. 之后我們一起做了遠程,有以下檢查發現:
-------------------------------------------------------------
在把 “廣東聯想MT4500T_Win7_X86_SP1” 部署給 ”所有未知計算機“時, 發現在這個任務序列都壞掉的, 其中的操作系統鏡像已經不存在。我們對這個任務序列做了修復,重新添加了Windows 7SP1 的系統景象。 在這之后, 我們成功的部署了此任務序列到 “所有未知計算機“ 集合。
之后, 我們找了兩臺物理筆記本做測試。在通過網絡啟動時,現在的報錯信息和之前的遇到錯誤已經完全不同,已經沒有藍屏( BCD Error)或者PXE -M0F 錯誤。當前的錯誤信息為:

因為客戶端需要向SCCM MP去請求policy,我們檢查MP相關日志發現:MP 一直無法正常連接到站點數據庫做查尋, 而且MP 的狀態不正常;也發現了mpcontrol.log 中有大量持續的 DB 無法連接的錯誤和Internal 500 的錯誤;我們在SCCM DP服務器上去連接站點數據庫的1433 端口, 發現無法連接,這就是MP工作異常的問題所在。
8. 根據遠程會話中我們發現的報錯,貴方將445以及1433端口做了開放。之后再次進行測試,發現客戶端依舊在向SCCM MP請求policy。我們建議按照以下步驟將PXE re-enable, 完成之后測試PXE boot成功。
----------------------
SCCM console --- 管理--- 分發點;
找到20GD 分發點, 打開基屬性, 取消PXE 相關的設置, 確認應用;
等15-20分鐘, 重啟服務器;
刪除原來的RemoteInstall 目錄 (確認各各分區下面都沒有這個目錄, 如果有請刪除或改名);
在SCCM 控制臺上, 找到20GD 分發點, 再啟用PXE. 系統會重裝PXE (WDS);
等5-10分鐘后, 確認 WDS服務是否裝好(確認系統服務deployment service 和 數據分區中 RemoteInstall 目錄 ),安裝完成后測試PXE boot。
針對這兩部分的排查,根據我的分析和經驗,之前發生PXE 啟動失敗的原因有以下:
a. PXE/WDS 節點上的啟動鏡像異常---我們在后續的PXE 重裝中, 專門刪除了之前的老的文件夾,確保了重新裝的PXE 不受之前老的文件影響。
b. 部署異常---之前并沒有部署給所有未知計算機的任務序列, 這樣也間接造成了PXE 啟動時, 找不到對應的任務。
c.端口異常關閉---造成了在PXE啟動階段,站點服務器無法正常的完成查詢,任務序列也無法被檢測到
第二階段:任務序列卡死
9. 在解決了PXE 啟動問題后, 系統已經可以成功的從PXE 啟動到WinPE 階段,但是在WinPE 階段卻沒有如預期的看到任務序列, 一直顯示一個空白界面如下:

由于無法從現場機器上獲取WinPE 階段的日志: smsts.log, 我們嘗試通過虛擬機測試這一問題。在這一過程中, 我們在DP 上調整了設置, 使之可以在WinPE 階段做調試 (通過F8 鍵調出命令控制臺)
10. 在通過虛擬機測試時,我們收到了如下的錯誤:
這個錯誤信息是由于損壞或有問題的WinPE 鏡像造成的, 我們通過重新建立Boot鏡像, 并調整了任務序列里的Boot鏡像設置,確保對應任務序列和操作系統匹配后,這個錯誤消失。但是WinPE階段還是如上圖一樣,不顯示任何任務序列。
11. 在虛擬機收集到的smsts.log日志中,我們的發現了如下的信息。顯示在WinPE 階段, 這臺客戶端機器無法正常的連接到對應的MP 和DP 服務器。
在網絡同事調整DNS 設置后, 這個問題很快的被解決。 也可以正常的看到任務序列了。
至此, 系統可以正常的部署, 在虛擬機上測試的結果也為正常。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。