خارطة الطريق لإتقان هندسة البيانات في عام 2024 و بعض المصادر التعليمية
خارطة طريق هندسة البيانات
1- تعلم SQL
- التجمعات مع GROUP BY
- Joins (INNER, LEFT, FULL OUTER)
- وظائف النافذة
- تعابير الجدول الشائعة
2- التعرف على نمذجة البيانات
- اقرأ عن تسوية البيانات والنموذج العادي الثالث
- اقرأ عن جداول الحقيقة والأبعاد والتجميع
- اقرأ عن تصميمات الجدول الفعالة مثل التراكمية
- تعرف على أنواع البيانات المعقدة مثل MAP وARRAY وSTRUCT
3- تعلم بايثون
- تعلم الحلقات و If
- جرب بعض المكتبات القوية مثل Pandas، وnumpy، وscikit-learn، وGreat Acceptations
4- التعرف على جودة البيانات
- كيف تكتب فحصًا جيدًا للبيانات؟
- كيف يمكنك تنفيذ نمط الكتابة والتدقيق والنشر في مساراتك؟
5- التعرف على الحوسبة الموزعة
- اقرأ عن MapReduce وشاهد كيف قام بتوجيه تصميم الحوسبة الموزعة اليوم
- تعرف على كيفية التقسيم والانحراف والسكب على القرص partitioning, skew, and spilling to disk
6- التعرف على تنسيق العمل
- اقرأ عن كرون - CRON
- جرب برنامج جدولة مثل Airflow أو Prefect
7- تطبيق مبادئ الحساب الموزعة
— تُعد النسخة التجريبية المجانية من Snowflake أو BigQuery مكانًا جيدًا للبدء
- أو جرب Spark + S3 إذا كنت تريد المغامرة
ما هي البيانات الضخمة - Big Data
يتم إنشاء المزيد من البيانات كل ساعة اليوم مقارنة بعام كامل قبل 20 عامًا فقط، وفقًا لاستطلاع الذي أجرته مؤسسة البيانات الدولية (IDC)، والذي تم إصداره في يناير 2020. ووفقًا للمنتدى الاقتصادي العالمي، فإن كمية البيانات الضخمة في العالم اليوم قُدِّر حجم العالم بـ 44 #زيتابايت فجر عام 2020. وفي بداية عام 2020، كان عدد البايتات في الكون الرقمي أكبر بـ 40 مرة من عدد #النجوم في الكون المرئي. اعتبارًا من أكتوبر 2020، كان هناك أكثر من 4 مليارات مستخدم للإنترنت في العالم. فلا عجب أن يُشار إلى هذا المصطلح بالبيانات "الكبيرة".
يتم تصنيف البيانات الضخمة بناءً على العناصر السبعة، والتي يشار إليها غالبًا بالميزات المختلفة لتحليلات البيانات الضخمة.
يتزايد حجم البيانات بشكل كبير مع مرور الوقت، وبالتالي يتم قياسها بالزيتابايت والإكزابايت واليوتابايت بدلاً من الجيجابايت.
السرعة - يشير مصطلح "السرعة" إلى السرعة التي يمكن بها تحليل البيانات واسترجاعها.
التنوع - يشير مصطلح "التنوع" إلى الأنواع المختلفة لمصادر البيانات المتاحة.
التباين - التباين ليس مثل التنوع، ويشير مصطلح "التباين" إلى البيانات المتطورة باستمرار.
الصدق - الصدق يتعلق بضمان موثوقية البيانات، وهو ما يستلزم تنفيذ سياسات لمنع تجمع البيانات غير المرغوب فيها في أنظمتك.
التصور - يشير مصطلح "التصور" إلى كيفية تمثيل بياناتك للإدارة لاتخاذ القرار.
القيمة - الغرض الأساسي من البيانات الضخمة هو خلق القيمة. يجب عليك التأكد من أن عملك يكتسب قيمة من البيانات.
أفضل 5 أفكار لمشاريع البيانات الضخمة لعام 2023:
1.) إنشاء مسار بيانات GCP قابل للتطوير قائم على الأحداث باستخدام DataFlow
2.) مشروع مستودع البيانات في الوقت الحقيقي لندفة الثلج للمبتدئين
3.) تصميم مستودع البيانات لموقع التجارة الإلكترونية
4). إنشاء توصيات للأفلام/الأغاني
5.) تحليل مشاعر تويتر باستخدام Spark Streaming
إذا أراد أحد بدء تشغيل شركة Carrier في big data، فهذا هو الوقت المناسب وهناك الكثير من البيانات المتداولة.
هندسة الهادوب - Hadoop Engineering
Hadoop مطلوب بشدة. يتطلب الأمر الكثير من الجهد لتصبح #مهندس_بيانات. إليكم بنية hadoop hdfs التي يجب أن يعرفها كل الطامح--
بنية HDFS- مجموعة لديها 4 العقد المتاحة.
إذا أردنا تمرير ملف بحجم 500 ميجابايت، فيمكن تقسيمه على جهاز واحد فقط إذا كان يستخدم بنية متجانسة.
ومع ذلك، في البنية الموزعة، يبلغ حجم الملف 500 ميجا بايت مقسمًا إلى 4 كتل، مع المساعدة في التقسيم بحجم الكتلة الافتراضي.
حجم الكتلة الافتراضي في Hadoop 1 هو 64 ميجابايت.
في Hadoop 2 تم تمديد حجم الكتلة إلى 128 ميجابايت.
تسمى العقدة الرئيسية باسم عقدة الاسم التي تحتوي على البيانات الوصفية الخاصة بملف البيانات المحفوظ في أي موقع.
تسمى جميع عقد البيانات بالعقد التابعة والتي تحتوي على البيانات الفعلية في شكل كتل.
يتم الاحتفاظ بالجدول التعريفي لعقدة الاسم في موقع الذاكرة بدلاً من القرص لتقليل وقت الوصول.
عندما يطلب العميل البيانات، فإنه ينتقل أولاً إلى Name Node للتحقق بسرعة من جدول بيانات التعريف لمعرفة موقع البيانات الفعلي.
ثم يطلب العميل البيانات من عقدة البيانات.
عقد البيانات مصنوعة من أجهزة سلعية (أجهزة رخيصة).
ومع ذلك، فإن عقدة الاسم تتكون من أجهزة عالية الجودة.
تفشل عقد البيانات بشكل متكرر، إلا أن عقدة الاسم تفشل بشكل أقل.
أوامر هادوب - Hadoop Commands
كتاب مختصر لأوامر Hadoop هنا
تعلم SQL
فيما يلي أفضل 6 مصادر مجانية لتعلم SQL مجانًا - باللغة الأنجليزية
- أكاديمية خان - هنا
- SQLZoo - هنا
- Codecademy - هنا
-SQLBolt - هنا
- يوداسيتي - هنا
- SQL for Web Nerds - هنا
- مصادر باللغة العربية على اليوتيوب هنا
تعلم Apache HIVE
1. Install Cloudera distribution from here - هنا
1.1 Practise in interactive IDE from HUE here - هنا
2. Learn Apache Hive Basics here - هنا
2.1 Learn from Youtube channels here
-Apache Hive Tutorial Videos [2022 Updated] هنا
- HIVE Tutorials For Beginners هنا
3. Learn HQL for Hive here - هنا
4. Work On Hive projects here- العمل التطبيقي على مشاريع - هنا
نعلم بالعربية هنا
تعلم بايثون
2. تعلم أساسيات بايثون من هنا
3. تحديات الممارسة من هنا
4. بمجرد التعرف على الأساسيات، ابدأ العمل على المشاريع ذات الكود المصدري من هنا:
5. أخيرًا قم بإدراج مشاريعك هنا github
- مصادر باللغة العربية على اليوتيوب هنا
تعلم Pyspark
Scala تحظى بشعبية واسعة بسبب
👍 أداء من الدرجة الأولى مقارنة ببايثون
👍 نسخة متقدمة من جافا
👍 أخطاء في وقت الترجمة أكثر من وقت التشغيل
👍سهلة التعلم.
👍وأخيرا Spark كتبت نفسها في سكالا.
1.1. تعلم من قنوات اليوتيوب من هنا
2. ممارسة التحديات هنا
تعلم Power BI
1. قم بتثبيت Power BI من هنا
2. ابدأ تشغيل أساسيات Power Bi من أفضل الموارد المجانية هنا
2.2 تعلم مباشرة من قناة اليوتيوب الرسمية هنا
3. إذا كنت من محبي المدونات فتعلم من هنا.....
4. أهم المشاريع. تحقق هنا لأفضل 3 مشاريع
5. أخيرًا أنشئ حساب على GITHUB وقم بإدراج مشاريعك فيه
إن الطلب الذي يجلبه Power BI إلى تحليلات البيانات أمر لا يمكن تصوره.
إذا كنت من محبي البيانات، فيجب أن تمتلك مجموعة مهاراتك في مجال Power BI.
تعلم Snowflake
1. تعلم Snowflake بالكامل مجانًا في مكان واحد هنا
مباشرة من الأساسيات إلى موارد الشهادات، وأسئلة الممارسة.
2. تعلم من المدونة هنا
3. لدى Snowflake نسخة تجريبية مجانية مدتها 30 يومًا حيث يمكنك الاشتراك والتدرب من هنا
4. توفر Snowflake شارات مجانًا. يمكنك التحقق هنا
استخدم هذه الخطوات الأربع لمساعدتك في رحلة Snowflake .
من المحتمل أن يصبح حل مستودع البيانات والتحليلات الخاص بـ Snowflake هو الحل الرابع للتوسع الفائق بعد 𝗔𝗪𝗦, 𝗔𝘇𝘂𝗿𝗲, 𝗮𝗻𝗱 𝗚𝗖𝗣.
نظرًا لأن Snowflake ينمو بشكل أسرع من AWS بنفس الحجم، فإن كل ممارس بيانات اليوم ينضم إلى العربة لتعلم Snowflake.
من المحتمل أن يصبح حل مستودع البيانات والتحليلات الخاص بـ Snowflake هو الحل الرابع للتوسع الفائق بعد 𝗔𝗪𝗦, 𝗔𝘇𝘂𝗿𝗲, 𝗮𝗻𝗱 𝗚𝗖𝗣.
نظرًا لأن Snowflake ينمو بشكل أسرع من AWS بنفس الحجم، فإن كل ممارس بيانات اليوم ينضم إلى العربة لتعلم Snowflake.
دليل مقابلات العمل الكامل
مصدر الكل في حل واحد لأسئلة مقابلات العمل في هندسة البيانات .
يتكون من -------- 👇
👍أسئلة مقابلة SQL
👍برمجة SCALA
👍أسئلة مقابلة SQOOP
👍أسئلة المقابلة HIVE
👍أسئلة المقابلة SPARK
لتحميله من هنا
كانت هذه أفضل الموارد المجانية التي قمت بإنشائها لمساعدة الجميع. لا تفوت للتحقق...
يتكون من -------- 👇
👍أسئلة مقابلة SQL
👍برمجة SCALA
👍أسئلة مقابلة SQOOP
👍أسئلة المقابلة HIVE
👍أسئلة المقابلة SPARK
لتحميله من هنا
كانت هذه أفضل الموارد المجانية التي قمت بإنشائها لمساعدة الجميع. لا تفوت للتحقق...
التعليقات على الموضوع