simd

7गर्मी

3उत्तर

क्या सिमड फैशन में सरणी के तत्वों को जोड़ने के लिए वैसे भी "vectorize" है? की तरह कुछ में var a = new[] { 1, 2, 3, 4 }; var b = new[] { 1, 2, 3, 4 }; var c = new[] { 1, 2, 3, 4 }; var d = new[] { 1

9गर्मी

3उत्तर

वेक्टरराइजिंग (सिम) ट्री ऑपरेशंस

वेक्टरिंग पेड़ संचालन पर कुछ सामान्य सुझाव/पॉइंटर्स क्या हैं? मेमोरी लेआउट बुद्धिमान, एल्गोरिथ्म बुद्धिमान, आदि कुछ डोमेन विशिष्ट सामान: - बच्चे नोड्स प्रत्येक माता पिता नोड काफी कुछ (200 20) होगा। प्

7गर्मी

2उत्तर

Do OpenCL वेक्टर प्रकार SIMD

का उपयोग मैं वर्तमान में तैरता है कि मैं अपने OpenCL कर्नेल में कार्रवाई करता है, तो मैं इस सरणी विभाजित है और इसके बजाय एक OpenCL वेक्टर प्रकार सरणी का उपयोग करें, अगर यह प्रक्रिया में तेजी लाने जाएग

10गर्मी

4उत्तर

एसएसई माइक्रो-ऑप्टिमाइज़ेशन निर्देश ऑर्डर

मैंने देखा है कि कभी-कभी एमएसवीसी 2010 एसएसई निर्देशों को फिर से व्यवस्थित नहीं करता है। मैंने सोचा कि मुझे अपने लूप के अंदर निर्देश आदेश की परवाह नहीं है क्योंकि संकलक सबसे अच्छा संभालता है, जो ऐसा न

7गर्मी

3उत्तर

_mm_alignr_epi8 (PALIGNR) AVX2 में बराबर

SSE3 में, PALIGNR अनुदेश निम्नलिखित प्रदर्शन 128 बिट। नैवली, मुझे विश्वास था कि अंतर्निहित कार्य _mm256_alignr_epi8 (VPALIGNR) उसी ऑपरेशन को _mm_alignr_epi8 केवल 256 बिट रजिस्टरों पर करता है। अफसोस की

17गर्मी

3उत्तर

एसएसई रजिस्टर

के घटक जोड़ना मैं एक एकल फ्लोट प्राप्त करने के लिए एसएसई रजिस्टर के चार घटक जोड़ना चाहता हूं। इस तरह मैं इसे अब करता हूं: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];

11गर्मी

2उत्तर

एक __m128i परिवर्तनीय शून्य है?

मैं कैसे परीक्षण करूं कि __m128i परिवर्तक एसएसई-2-और-पहले प्रोसेसर पर कोई nonzero मान है?

8गर्मी

2उत्तर

SSE2 कोड अनुकूलन

मैं SSE2 intrinsics उपयोग कर रहा हूँ अपने आवेदन की बाधाओं का अनुकूलन और निम्नलिखित प्रश्न के लिए: ddata = _mm_xor_si128(_mm_xor_si128( _mm_sll_epi32(xdata, 0x7u), _mm_srl_epi32(tdata, 0x19u)), xda

6गर्मी

1उत्तर

आप एक्सएमएम रजिस्टरों के बीच 128-बिट मान कैसे ले जाते हैं?

असेंबली में मामूली मामूली समस्या: मैं पूरे एक्सएमएम 0 रजिस्टर को एक्सएमएम 3 में कॉपी करना चाहता हूं। मैं movdq xmm3, xmm0 की कोशिश की है लेकिन MOVDQ दो XMM रजिस्टरों के बीच मूल्यों को स्थानांतरित कर

11गर्मी

3उत्तर

एसएसई गुणा 16 x uint8_t

मैं एसएसई 4 के साथ __m128i ऑब्जेक्ट के साथ 16 हस्ताक्षरित 8 बिट पूर्णांक के साथ गुणा करना चाहता हूं, लेकिन मुझे केवल 16 बिट पूर्णांक गुणा करने के लिए एक आंतरिक मिल सकता है। क्या _mm_mult_epi8 जैसे कुछ