Mam architekturę sieci z artykułu „uczenie się drobnoziarnistego podobieństwa obrazu z głębokim rankingiem” i nie jestem w stanie zrozumieć, w jaki sposób dane wyjściowe z trzech równoległych sieci są łączone za pomocą liniowej warstwy osadzania. Jedyne informacje podane na tej warstwie w artykule to
Na koniec normalizujemy osadzanie z trzech części i łączymy je z liniową warstwą osadzania. Wymiar osadzania wynosi 4096.
Czy ktoś może mi pomóc w zrozumieniu, co dokładnie autor ma na myśli, gdy mówi o tej warstwie?