基於REW-YOLO與RGB-D技術的通訊倉儲物品識別與定位系統

摘要：隨著通訊行業的迅猛發展，倉儲物流系統面臨日益複雜的執行環境與業務需求倉儲。通訊裝置種類繁多，包括路由器、交換機、光纖模組、室分裝置、電纜盤及天線等，其儲存形態呈現高密度堆疊、隨機旋轉與部分遮擋等特徵，導致傳統依賴人工盤點與條形碼掃描的管理方式效率低下、勞動強度大且差錯率高。針對這些痛點，本文提出一種面向通訊倉儲場景的物品識別與定位系統框架，綜合利用REW-YOLO（Rotation-Enhanced Weighted YOLO）目標檢測模型與RGB-D深度視覺技術，實現對倉儲物品的精確識別與三維定位。實驗結果表明，該系統可為通訊倉儲的智慧盤點與定位作業提供可行的技術路徑和工程實現參考。

關鍵詞：REW-YOLO倉儲；RGB-D；物體識別；通訊倉儲；深度學習；目標檢測；三維定位

一、引言

近年來，隨著5G網路大規模建設和“東數西算”等工程的推進，運營商通訊裝置的種類與數量呈爆發式增長倉儲。省、市級集中倉庫及片區中轉倉需同時管理上萬件不同型號的板卡、RRU、BBU、光模組、電源模組及各種輔材。這些物品外觀多樣、包裝形態複雜，且出入庫頻繁，給傳統倉儲管理模式帶來巨大壓力。目前，許多環節仍依賴人工肉眼識別與手持終端掃描條碼，不僅勞動強度大，而且在光照不足、標籤破損或箱體遮擋等場景下易出現漏掃、錯掃問題，直接影響庫存準確性和作業效率。

圖1 REW-YOLO（Rotation-Enhanced Weighted YOLO）模型

計算機視覺與深度學習技術的發展，為解決上述問題提供了關鍵手段倉儲。YOLO系列模型以其單階段、端到端的結構，在工業視覺檢測中得到廣泛應用。然而，傳統YOLO模型普遍假設目標邊界框為軸對齊矩形，對旋轉、傾斜或堆疊物體的檢測能力有限，在通訊倉儲這種存在大量傾斜紙箱、電纜卷軸及不規則器件的場景下，往往出現目標邊界框重疊嚴重、定位偏差大等問題。Wang等[1]提出REW-YOLO（Rotation-Enhanced Weighted YOLO）透過引入旋轉邊界框引數和加權損失設計（模型如圖1所示），結果表明該模型在不顯著增加計算量的前提下，提高了對旋轉目標的檢測效能，適合應用於通訊倉儲等複雜環境。

另一方面，傳統僅基於二維影像的檢測方法難以獲得目標在空間中的真實位置和高度資訊，在多層貨架或高密度堆疊環境中無法滿足三維定位和路徑規劃的需要倉儲。艾青林等[2]提出RGB-D技術透過在RGB彩色影像的基礎上增加深度通道，使得每個畫素都具備“顏色+距離”的資訊，為物體三維重建、位姿估計和空間測量等任務提供了重要支撐。將RGB-D與旋轉檢測框架結合，有望提高在重疊和遮擋場景中的感知精度。

展開全文

基於上述背景，面向通訊倉儲典型應用需求，本文設計並實現了一套基於REW-YOLO與RGB-D技術的物品識別與定位系統，旨在實現對倉儲物品的精確識別與三維定位，為通訊倉儲的智慧盤點與定位作業提供可行的技術路徑和工程實現參考倉儲。

二、系統設計與方法

基於REW-YOLO與RGB-D技術的通訊倉儲物品識別與定位系統以模組化架構為核心，首先透過REW-YOLO旋轉目標檢測框架處理複雜倉儲場景下的傾斜、堆疊與遮擋問題，實現高精度物體檢測；其次，融合RGB-D深度資訊進行三維定位，獲得目標在空間中的真實位姿；最後，構建完整的系統架構，確保資料流高效流通與實際部署的可行性倉儲。透過這些方法，該系統能有效適應通訊倉儲的動態環境，提供可靠的識別與定位支援。

1.REW-YOLO旋轉目標檢測框架

傳統YOLO系列模型透過對輸入影像進行網格劃分，預測每個網格中若干個候選邊界框的中心位置(x,y)、寬高(w,h)和類別機率，從而實現即時目標檢測倉儲。然而，在通訊倉儲場景中，物品經常以任意角度堆疊或傾斜放置，使用軸對齊邊界框進行擬合會導致以下問題：一是包圍盒面積被迫增大，引入大量背景噪聲，削弱特徵表達的判別性；二是在多目標緊密堆疊時，矩形框之間嚴重重疊，增加NMS（Non-Maximum Suppression）階段的誤抑制風險。

REW-YOLO在常規YOLOv8檢測頭基礎上增加了角度迴歸分支，引入旋轉邊界框引數θ，使每個目標的預測結果擴充套件為(x,y,w,h,θ)倉儲。為提高訓練穩定性，本文采用以下方式對角度進行編碼：

透過將角度對映到[0,1]區間，可有效緩解梯度震盪問題倉儲。

在損失函式設計方面倉儲，REW-YOLO將總損失表示為：

其中倉儲，Lcls為分類損失，採用Focal Loss以抑制易分類樣本的影響；Lbox為邊界框迴歸損失，採用基於旋轉IoU的損失形式；Lrot為角度迴歸損失，使用平滑L1損失：

λbox與λrot分別為平衡係數，參考實際情況本次設定為2.0與0.5倉儲。

透過上述設計，模型能夠對旋轉、傾斜及部分遮擋目標進行更精確的外接框擬合，提高整體檢測效能倉儲。為進一步提升在倉儲複雜場景下的魯棒性，本文還將例項分割演算法Mask R-CNN融入框架中，用於精確描繪物體輪廓，支援邊緣粘連和膠帶干擾的處理。

2. RGB-D三維定位方法

為了進一步獲得目標在空間中的真實位置，本文引入RGB-D深度相機，結合相機內參完成從畫素座標到相機座標的轉換倉儲。RGB-D相機在採集彩色影像的同時，為每個畫素提供深度值D(u,v)，表示相機到該點的距離。設相機內參矩陣為：

其中fx,fy為在水平方向和垂直方向上的焦距，(cx,cy)為主點座標倉儲。對檢測得到的旋轉邊界框，首先在其內部選取若干個畫素點（如中心點及四個頂點），根據深度圖讀取對應深度值z=D(u,v)，再依據透視投影關係將其對映至相機座標系：

由此便可獲得目標在相機座標系下的三維座標(x,y,z)倉儲。考慮到深度圖易受噪聲影響，本文對旋轉框內部深度值採用中值濾波與有效畫素剔除策略，僅保留可信度較高的深度資料用於計算，進一步提高三維定位的穩定性。

在倉儲實際應用中倉儲，若需要獲得相對於倉庫全域性座標系的位姿，還可結合外參矩陣[R|T]，完成從相機座標系到世界座標系的轉換：

其中R為旋轉矩陣，T為平移向量倉儲。主要關注相機座標系下的相對位置，因此在模擬實驗中未對外參進行擴充套件討論。為實現手眼標定，本文采用棋盤格方法確定相機座標系和機器人座標系的轉換關係，確保定位精度在1～5mm範圍內。

3.識別與定位系統架構

系統採用模組化設計，以方便部署和維護倉儲。整體資料流依次經過影像採集模組、物體檢測模組、三維定位模組、資料處理與輸出模組，各模組之間透過訊息佇列或共享記憶體進行解耦。

影像採集模組倉儲。參考馮仁宇等[3]安裝方式，此次使用Intel RealSense D435等RGB-D相機固定安裝在貨架正前方或頂部，按幀率30 FPS採集場景RGB影像及深度圖。為減小環境光變化的影響，相機開啟自動曝光與紅外補光功能。

物體檢測模組倉儲。接收採集到的RGB影像，經過歸一化與尺寸縮放後輸入REW-YOLO檢測網路，輸出每個目標的類別標籤、置信度以及旋轉邊界框引數，並透過旋轉NMS去除冗餘候選框。

三維定位模組倉儲。利用深度圖和相機內參矩陣，提取旋轉框中心點及頂點的深度值，完成從畫素座標到三維座標的轉換，輸出位姿資訊。

資料處理與輸出模組倉儲。將識別與定位結果按照通訊倉儲業務需求進行結構化封裝，生成“物品ID—位姿—置信度”三元組，並透過RESTful API或訊息匯流排推送給上層倉儲管理系統。該模組同時負責結果視覺化與日誌記錄，便於後續追蹤與分析。

圖2 系統總體架構示意圖

系統總體架構如圖2所示，左側為RGB-D攝像頭與採集模組，中部為REW-YOLO檢測與RGB-D融合定位模組，右側為資料輸出與系統介面模組，箭頭表示資料在各模組之間的流轉路徑倉儲。該系統支援柔性手爪適配，實現吸盤、夾持等多種抓取方式，適用於混碼組盤拆垛。

三、模擬與應用驗證

1.資料集獲取與預處理

為驗證所提方法的有效性，在某運營商集中倉庫內採集了5000幅RGB-D影像，覆蓋10類典型通訊產品，包括室外RRU箱體、室內分佈系統裝置、1U/2U機框、整箱光模組、電纜盤、天線元件等倉儲。其中約60%的樣本為單層擺放場景，40%為多層堆疊及混合遮擋場景。採集過程中刻意設定不同的光照條件（自然光、區域性遮擋、偏暗角落等），以增強資料多樣性。

在預處理階段，首先對深度圖執行中值濾波與孔洞填補，以緩解深度噪聲和缺失問題；其次在RGB影像上進行幾何與光照增強，包括隨機旋轉（±30°）、水平翻轉、亮度與對比度擾動、遮擋模擬等，以構造更多傾斜與區域性遮擋樣本，提升模型的泛化能力倉儲。隨後使用LabelImg工具對影像進行人工標註，採用旋轉邊界框形式記錄各目標的中心點、寬高及朝向角度，多數圖片包含2～6個目標例項。

圖3 部分倉儲場景照片

資料集按7∶2∶1比例劃分為訓練集、驗證集與測試集，保證各類別及不同堆疊場景在各子集中分佈均衡倉儲。模型訓練基於PyTorch框架實現，批次大小設為32，初始學習率0.001，訓練輪數300輪；在訓練過程中使用餘弦退火學習率排程策略，並啟用Early-Stopping機制，當驗證集損失在20輪內不再下降時提前終止訓練，以防止過擬合。

2.模擬平臺與實驗設定

為了系統評估演算法在不同遮擋程度、堆疊高度和光照條件下的效能，本文在實際資料之外，構建了一個基於Unity3D的通訊倉儲模擬環境倉儲。模擬平臺按照1∶10比例還原貨架尺寸與部分庫區佈局，並建立了多種典型裝置三維模型。透過設定虛擬RGB-D相機，可方便地控制相機高度、俯仰角、焦距以及環境光照，從而生成大量標註精確、可重複的模擬樣本。

圖4 模擬與實採資料聯合實驗平臺示意圖

模擬與實採資料聯合實驗平臺如圖4所示，左側為安裝在真實倉庫和模擬場景中的RGB-D相機，中間為多層貨架及隨機堆疊的裝置包裝箱，右側為GPU推理伺服器與演算法程式倉儲。系統在NVIDIA RTX 3080 GPU 與Intel Core i7處理器上執行，單次推理的平均延遲約22s。

評估指標主要包括mAP@0.5、FPS與RMSE倉儲。其中，mAP@0.5指在IoU閾值0.5下的平均精度，用於評價目標檢測效能；FPS指推理幀率，反映演算法的即時性；RMSE指三維定位的根均方誤差，定義為

（其中分別為第i個目標的真實與預測三維座標，N為樣本總數）倉儲。

為了進行對比實驗，本文選取YOLOv4和YOLOv8作為基線模型，在相同資料集和訓練策略下重新訓練，並在統一測試集上進行測試倉儲。實際平臺搭建包括KuKa 6軸機器人（KR C5 M6）和圖漾3D相機。

3.不同檢測模型效能對比

YOLOv4、YOLOv8與REW-YOLO模型在“真實+模擬”混合測試集上的效能對比結果參見表1倉儲。由表1可見，在綜合考慮檢測精度與即時性的前提下，REW-YOLO 在mAP@0.5指標上相較YOLOv4和YOLOv8分別提升了4.6和8.9個百分點，複雜場景下的mAP提升幅度更為顯著，說明旋轉邊界框與加權損失設計有效增強了對傾斜與堆疊物體的檢測能力。儘管引入旋轉分支導致FPS略低於YOLOv8，但45FPS的推理速度仍能滿足大部分通訊倉儲即時盤點業務的需求。

表1 不同檢測模型效能對比

在定位誤差方面，由於YOLOv4與YOLOv8在目標框迴歸上採用軸對齊矩形，導致部分高度傾斜目標的中心點偏移較大，從而影響三維座標計算；REW-YOLO 利用旋轉框更準確地擬合目標輪廓，使得RMSE 顯著降低至2.5cm，為後續機械臂或AGV裝置的精確抓取提供了更可靠的位姿輸入倉儲。

4.RGB-D融合效果對比

為量化RGB-D融合對三維定位精度的提升效果，在保持檢測網路不變的情況下對比了“純RGB+固定深度假設”和“RGB-D融合”兩種方案倉儲。其中，“純RGB+固定深度假設”方案是指在僅使用RGB影像進行目標檢測的基礎上，對檢測到的邊界框進行三維定位時，不依賴深度圖，而是採用經驗高度或貨架層高作為深度值的近似估計。具體而言，該方案假設所有目標位於已知的固定高度平面（如貨架的特定層高），或使用預設的平均經驗高度（如基於歷史資料或人工測量得到的典型物品高度）來代替真實深度值。這種方法簡單易實現，但忽略了實際場景中的高度變異（如堆疊導致的z座標差異或相機視角引起的透視distortion），容易在多層貨架或不規則堆疊環境中引入系統性誤差，導致定位精度下降。相反，“RGB-D融合”方案則直接使用深度圖測得的距離值，與檢測到的邊界框畫素座標結合，透過相機內參矩陣進行精確對映，實現真實的深度資訊整合。

表2 RGB與RGB-D融合前後效能對比

實驗結果表明，儘管兩種方案在檢測精度（mAP）上差距有限，但在三維定位誤差上差異明顯倉儲。純RGB方法在多層貨架和混合堆疊場景中常出現高度估計偏差，RMSE高達4.2cm；引入RGB-D深度資訊後，定位誤差降低約40%，且在不同光照條件下保持較為穩定的表現，證明深度資訊在提升整體空間感知能力方面具有關鍵作用。具體可參見表2。

5.遮擋與堆疊高度模擬實驗

為了進一步考察演算法在不同遮擋程度和堆疊高度下的魯棒性，本文在模擬環境中設計了單層無遮擋（貨物單層擺放，彼此間距較大）、兩層中度遮擋（上層紙箱覆蓋下層約30%面積）、三層高密度堆疊（多層紙箱隨機偏轉堆疊，遮擋比例超過60%）等三組場景倉儲。

具體設定為在Unity3D模擬平臺中，利用內建的Occlusion Culling功能來模擬現實中的視覺遮擋效應倉儲。該功能透過動態計算相機視錐體內可見物體，自動隱藏被遮擋的部分，從而生成更逼真的RGB-D影像。在場景構建時，採用物理引擎模擬物品堆疊的動態過程，例如使用Unity的Physics系統應用重力和碰撞力，確保堆疊形態符合現實物理規律，如紙箱在多層堆疊時的穩定性。具體場景設計如下：

單層無遮擋場景倉儲。物品均勻分佈於貨架平面，間距設定為10～20cm，無任何重疊。該場景作為基準，用於評估模型在理想條件下的效能上限。控制光照強度為標準自然光（約1000 lux），並新增輕微噪聲（高斯噪聲σ=0.01）以模擬相機感測器誤差。

兩層中度遮擋場景倉儲。上層物品隨機放置於下層上方，覆蓋面積控制在30%～50%。引入隨機旋轉（角度範圍±15°）來模擬實際倉儲中的不規則放置，並調整遮擋比例透過Unity的Mesh Collider來精確計算可見畫素比例。該場景代表典型出入庫後貨物臨時堆放的情況。

三層高密度堆疊場景倉儲。物品多層疊加，覆蓋率超過60%，並模擬隨機偏轉（角度20°～45°）和區域性光影變化（如使用Unity的Light Probes建立動態陰影）。該場景模仿高峰期倉庫擁擠狀態，測試模型對嚴重遮擋的魯棒性。還新增環境因素，如反射表面（金屬箱體）和噪聲增強（σ=0.05），以接近真實工業環境。

在資料生成過程中，每場景生成500幅影像，總計1500幅，每幅影像包含2～8個物品例項，使用虛擬RGB-D相機捕獲（解析度640×480，深度範圍0.5～5m）倉儲。標註透過Unity指令碼自動生成，確保畫素級精確。

表3 不同場景下模型效能對比

實驗結果表明，隨著遮擋程度的增加，三種模型的mAP均有所下降，但REW-YOLO下降幅度最小；在三層高密度堆疊場景中，YOLOv8的mAP降至72.4%，而REW-YOLO仍可保持在84.0%左右倉儲。此外，REW-YOLO在所有場景中的RMSE均控制在3cm以內，表明其在複雜堆疊環境下具備更強的空間感知能力。具體可參見表3。

實驗結果顯示，隨著複雜度增加，基線模型效能下降明顯倉儲。YOLOv4在高密度場景mAP降至68.2%，主要因軸對齊框無法有效處理重疊邊界，導致NMS誤判率升高（約25%例項被抑制）。YOLOv8雖最佳化了網路結構，但仍受限於傳統IoU損失，在遮擋>50%時召回率掉至60%。相比之下，REW-YOLO受益於旋轉IoU和加權損失，在中度遮擋場景mAP提升9.4%，高密度場景提升15.8%，召回率維持85%以上。這歸因於角度迴歸分支的顯式最佳化，能更好地擬合不規則輪廓，減少背景干擾。

此外，RMSE分析表明，REW-YOLO在所有場景中均<3cm，而基線模型在高密度堆疊時升至5.6cm，突出旋轉框在提升中心點準確性的作用倉儲。進一步視覺化結果顯示REW-YOLO在遮擋區域的邊界擬合更緊緻。

這些發現驗證了系統對倉儲複雜性的適應性，為實際部署提供閾值（如遮擋>60%時建議多相機融合）倉儲。

6.誤差來源分析與討論

綜合上述實驗結果可以看出倉儲，演算法誤差主要來源於以下幾個方面：

（1）深度噪聲與反射：在金屬材質或強反光包裝箱表面倉儲，RGB-D相機的紅外結構光易產生錯誤匹配，導致區域性深度值突變；

（2）旋轉框擬合誤差：當目標邊界與背景對比度較低或邊緣模糊時倉儲，旋轉角度預測存在一定偏差，進而影響三維中心座標；

（3）標註與模擬差異：手工旋轉框標註難以做到畫素級精確，一定程度上限制了上限效能；而模擬資料與真實物理紋理存在域差異，也會對泛化效果產生影響倉儲。

針對上述問題，可透過引入更高精度的ToF深度相機、採用多幀深度融合與時間濾波技術，以及結合例項分割或邊緣檢測結果對旋轉框進行二次最佳化等方式進一步降低誤差倉儲。

四、結論

面向通訊行業倉儲場景中物品種類多樣、堆疊複雜和定位精度要求高等特點，提出了一種結合REW-YOLO與RGB-D深度視覺技術的物品識別與三維定位系統倉儲。實驗結果表明該方法不僅為倉儲智慧化提供了高效、魯棒的技術路徑，還能顯著提升盤點效率、降低人工強度和庫存誤差，具有重要的工程應用價值和推廣潛力，未來透過與機器人、AGV及多模態感測器的整合，可進一步實現全流程自動化和多倉自適應部署。

參考文獻:

[1]Wang G,Li S,Zhu X,etal.REW-YOLO: A Lightweight Box Detection Method for Logistics[J].Modelling, 2025,6:76.

[2]艾青林,劉剛江,徐巧寧.動態環境下基於改進幾何與運動約束的機器人RGB-D SLAM演算法[J].機器人,2021,43(02):167-176.

[3]馮仁宇,夏凱,楊灝泉,等.3D視覺智慧拆垛系統關鍵技術研究[J].物流技術與應用,2025 30(09):114-122.

基於REW-YOLO與RGB-D技術的通訊倉儲物品識別與定位系統

小金泰網路

熱門標籤

相關詞彙

分站導航