simd

6गर्मी

3उत्तर

128-बिट रजिस्टर में पैक किए गए मनमानी 16-बिट तत्वों तक पहुंच

इंटेल कंपाइलर इंट्रिनिक्स के साथ, 128-बिट रजिस्टर दिए गए, 8 16-बिट तत्वों को पैक करते हुए, मैं पंजीकरण के भीतर से (सस्ते) मनमानी तत्वों को कैसे एक्सेस करूं? _mm_cvtepi8_epi64 के बाद के उपयोग (हस्ताक्ष

10गर्मी

2उत्तर

कार्य समूहों की संख्या से संबंधित गणना इकाइयों की संख्या

मुझे कुछ स्पष्टीकरण की आवश्यकता है। मैं अपने लैपटॉप पर ओपनसीएल विकसित कर रहा हूं जो एक छोटा एनवीडिया जीपीयू (310 एम) चला रहा है। जब मैं CL_DEVICE_MAX_COMPUTE_UNITS के लिए डिवाइस से पूछता हूं, तो परिणा

6गर्मी

1उत्तर

सिम (AVX) तुलना

gcc का नाम __m256 और __m256i (AVX निर्देश सेट) की तुलना करने के लिए आंतरिक क्या है?

14गर्मी

3उत्तर

__builtin_clz

का कार्यान्वयन जीसीसी (4.6+) __builtin_clz का कार्यान्वयन क्या है? क्या यह इंटेल x86_64 (AVX) पर कुछ सीपीयू निर्देशों के अनुरूप है?

12गर्मी

1उत्तर

पुश एक्सएमएम स्टैक

पर एक्सएमएम रजिस्टर से पैक किए गए डबलवर्ड पूर्णांक को धक्का देने का कोई तरीका है? और फिर बाद में जरूरत पड़ने पर इसे वापस पॉप पर? आदर्श रूप में मैं PUSH या सामान्य प्रयोजन रजिस्टरों के लिए पॉप की तरह क

6गर्मी

1उत्तर

सिमड सरणी मनमानी सरणी लंबाई

के लिए जोड़ें I vector intrinsics का उपयोग करके मेरी व्यक्तिगत छवि प्रसंस्करण लाइब्रेरी को फिर से लिखकर सिम क्षमताओं का उपयोग करना सीख रहा हूं। एक बुनियादी कार्य एक सरल "सरणी +=," यानी void arrayAdd(u

15गर्मी

2उत्तर

_mm_load_ps बनाम _mm_load_pd बनाम आदि

निम्नलिखित दो पंक्तियों के बीच क्या अंतर है? __m128 x = _mm_load_ps((float *) ptr); __m128 y = _mm_load_pd((double *)ptr); दूसरे शब्दों में, क्यों एक सामान्य __m128 _mm_load(const void *) के बजाय ब

8गर्मी

2उत्तर

एसएसई के साथ लॉगरिदम, या एफपीयू पर स्विच?

मैं कुछ आंकड़े गणना कर रहा हूं। मुझे उन्हें तेजी से होने की जरूरत है, इसलिए मैं एसएसई का उपयोग करने के लिए इसे अधिकतर लिखता हूं। मैं इसके लिए बहुत नया हूं, इसलिए मैं सोच रहा था कि यहां सही दृष्टिकोण क

6गर्मी

1उत्तर

'long long' (या __int64) से __m64

कैसे परिवर्तित करें __int64 मान को __m64 एसएसई के साथ उपयोग के लिए मूल्य बदलने के लिए उचित तरीका क्या है?

5गर्मी

1उत्तर

एआरएम नियॉन: 128 बिट मानों की तुलना

मुझे कॉर्टेक्स-ए 9 कोर (वीएफपी निर्देशों की अनुमति) पर नियॉन रजिस्टरों (Q0 और Q3 कहें) में संग्रहीत मूल्यों की तुलना करने का सबसे तेज़ तरीका (निम्न चक्र गणना) खोजने में रूचि है। (1) VFP चल बिन्दु तुलन