simd

    7गर्मी

    3उत्तर

    क्या सिमड फैशन में सरणी के तत्वों को जोड़ने के लिए वैसे भी "vectorize" है? की तरह कुछ में var a = new[] { 1, 2, 3, 4 }; var b = new[] { 1, 2, 3, 4 }; var c = new[] { 1, 2, 3, 4 }; var d = new[] { 1

    9गर्मी

    3उत्तर

    वेक्टरिंग पेड़ संचालन पर कुछ सामान्य सुझाव/पॉइंटर्स क्या हैं? मेमोरी लेआउट बुद्धिमान, एल्गोरिथ्म बुद्धिमान, आदि कुछ डोमेन विशिष्ट सामान: - बच्चे नोड्स प्रत्येक माता पिता नोड काफी कुछ (200 20) होगा। प्

    7गर्मी

    2उत्तर

    का उपयोग मैं वर्तमान में तैरता है कि मैं अपने OpenCL कर्नेल में कार्रवाई करता है, तो मैं इस सरणी विभाजित है और इसके बजाय एक OpenCL वेक्टर प्रकार सरणी का उपयोग करें, अगर यह प्रक्रिया में तेजी लाने जाएग

    10गर्मी

    4उत्तर

    मैंने देखा है कि कभी-कभी एमएसवीसी 2010 एसएसई निर्देशों को फिर से व्यवस्थित नहीं करता है। मैंने सोचा कि मुझे अपने लूप के अंदर निर्देश आदेश की परवाह नहीं है क्योंकि संकलक सबसे अच्छा संभालता है, जो ऐसा न

    7गर्मी

    3उत्तर

    SSE3 में, PALIGNR अनुदेश निम्नलिखित प्रदर्शन 128 बिट। नैवली, मुझे विश्वास था कि अंतर्निहित कार्य _mm256_alignr_epi8 (VPALIGNR) उसी ऑपरेशन को _mm_alignr_epi8 केवल 256 बिट रजिस्टरों पर करता है। अफसोस की

    17गर्मी

    3उत्तर

    के घटक जोड़ना मैं एक एकल फ्लोट प्राप्त करने के लिए एसएसई रजिस्टर के चार घटक जोड़ना चाहता हूं। इस तरह मैं इसे अब करता हूं: float a[4]; _mm_storeu_ps(a, foo128); float x = a[0] + a[1] + a[2] + a[3];

    11गर्मी

    2उत्तर

    मैं कैसे परीक्षण करूं कि __m128i परिवर्तक एसएसई-2-और-पहले प्रोसेसर पर कोई nonzero मान है?

    8गर्मी

    2उत्तर

    मैं SSE2 intrinsics उपयोग कर रहा हूँ अपने आवेदन की बाधाओं का अनुकूलन और निम्नलिखित प्रश्न के लिए: ddata = _mm_xor_si128(_mm_xor_si128( _mm_sll_epi32(xdata, 0x7u), _mm_srl_epi32(tdata, 0x19u)), xda

    6गर्मी

    1उत्तर

    असेंबली में मामूली मामूली समस्या: मैं पूरे एक्सएमएम 0 रजिस्टर को एक्सएमएम 3 में कॉपी करना चाहता हूं। मैं movdq xmm3, xmm0 की कोशिश की है लेकिन MOVDQ दो XMM रजिस्टरों के बीच मूल्यों को स्थानांतरित कर

    11गर्मी

    3उत्तर

    मैं एसएसई 4 के साथ __m128i ऑब्जेक्ट के साथ 16 हस्ताक्षरित 8 बिट पूर्णांक के साथ गुणा करना चाहता हूं, लेकिन मुझे केवल 16 बिट पूर्णांक गुणा करने के लिए एक आंतरिक मिल सकता है। क्या _mm_mult_epi8 जैसे कुछ