خارطة الطريق لإتقان هندسة البيانات في عام 2024 و بعض المصادر التعليمية

خارطة طريق هندسة البيانات
خارطة طريق هندسة البيانات

خارطة طريق هندسة البيانات


1- تعلم SQL

- التجمعات مع GROUP BY
- Joins (INNER, LEFT, FULL OUTER)
- وظائف النافذة
- تعابير الجدول الشائعة

2- التعرف على نمذجة البيانات

- اقرأ عن تسوية البيانات والنموذج العادي الثالث
- اقرأ عن جداول الحقيقة والأبعاد والتجميع
- اقرأ عن تصميمات الجدول الفعالة مثل التراكمية
- تعرف على أنواع البيانات المعقدة مثل MAP وARRAY وSTRUCT

3- تعلم بايثون

- تعلم الحلقات  و If
- جرب بعض المكتبات القوية مثل Pandas، وnumpy، وscikit-learn، وGreat Acceptations

4- التعرف على جودة البيانات

- كيف تكتب فحصًا جيدًا للبيانات؟
- كيف يمكنك تنفيذ نمط الكتابة والتدقيق والنشر في مساراتك؟

5- التعرف على الحوسبة الموزعة

- اقرأ عن MapReduce وشاهد كيف قام بتوجيه تصميم الحوسبة الموزعة اليوم
- تعرف على كيفية التقسيم والانحراف والسكب على القرص partitioning, skew, and spilling to disk

6- التعرف على تنسيق العمل

- اقرأ عن كرون - CRON
- جرب برنامج جدولة مثل Airflow أو Prefect

7- تطبيق مبادئ الحساب الموزعة

— تُعد النسخة التجريبية المجانية من Snowflake أو BigQuery مكانًا جيدًا للبدء
- أو جرب Spark + S3 إذا كنت تريد المغامرة

ما هي البيانات الضخمة  - Big Data

يتم إنشاء المزيد من البيانات كل ساعة اليوم مقارنة بعام كامل قبل 20 عامًا فقط، وفقًا لاستطلاع الذي أجرته مؤسسة البيانات الدولية (IDC)، والذي تم إصداره في يناير 2020. ووفقًا للمنتدى الاقتصادي العالمي، فإن كمية البيانات الضخمة في العالم اليوم قُدِّر حجم العالم بـ 44 #زيتابايت فجر عام 2020. وفي بداية عام 2020، كان عدد البايتات في الكون الرقمي أكبر بـ 40 مرة من عدد #النجوم في الكون المرئي. اعتبارًا من أكتوبر 2020، كان هناك أكثر من 4 مليارات مستخدم للإنترنت في العالم. فلا عجب أن يُشار إلى هذا المصطلح بالبيانات "الكبيرة".

يتم تصنيف البيانات الضخمة بناءً على العناصر السبعة، والتي يشار إليها غالبًا بالميزات المختلفة لتحليلات البيانات الضخمة.

يتزايد حجم البيانات بشكل كبير مع مرور الوقت، وبالتالي يتم قياسها بالزيتابايت والإكزابايت واليوتابايت بدلاً من الجيجابايت.

السرعة - يشير مصطلح "السرعة" إلى السرعة التي يمكن بها تحليل البيانات واسترجاعها.

التنوع - يشير مصطلح "التنوع" إلى الأنواع المختلفة لمصادر البيانات المتاحة.

التباين - التباين ليس مثل التنوع، ويشير مصطلح "التباين" إلى البيانات المتطورة باستمرار.

الصدق - الصدق يتعلق بضمان موثوقية البيانات، وهو ما يستلزم تنفيذ سياسات لمنع تجمع البيانات غير المرغوب فيها في أنظمتك.

التصور - يشير مصطلح "التصور" إلى كيفية تمثيل بياناتك للإدارة لاتخاذ القرار.

القيمة - الغرض الأساسي من البيانات الضخمة هو خلق القيمة. يجب عليك التأكد من أن عملك يكتسب قيمة من البيانات.

أفضل 5 أفكار لمشاريع البيانات الضخمة لعام 2023:

1.) إنشاء مسار بيانات GCP قابل للتطوير قائم على الأحداث باستخدام DataFlow

2.) مشروع مستودع البيانات في الوقت الحقيقي لندفة الثلج للمبتدئين

3.) تصميم مستودع البيانات لموقع التجارة الإلكترونية

4). إنشاء توصيات للأفلام/الأغاني

5.) تحليل مشاعر تويتر باستخدام Spark Streaming

إذا أراد أحد بدء تشغيل شركة Carrier في big data، فهذا هو الوقت المناسب وهناك الكثير من البيانات المتداولة.

- مصادر باللغة الإنجليزية على اليوتيوب هنا و هنا و هنا

- مصادر باللغة العربية على اليوتيوب هنا و هنا و هنا 

هندسة الهادوب  - Hadoop Engineering

Hadoop Engineering
Hadoop مطلوب بشدة. يتطلب الأمر الكثير من الجهد لتصبح #مهندس_بيانات. إليكم بنية hadoop hdfs التي يجب أن يعرفها كل الطامح--

بنية HDFS- مجموعة لديها 4 العقد المتاحة.

إذا أردنا تمرير ملف بحجم 500 ميجابايت، فيمكن تقسيمه على جهاز واحد فقط إذا كان يستخدم بنية متجانسة.

ومع ذلك، في البنية الموزعة، يبلغ حجم الملف 500 ميجا بايت مقسمًا إلى 4 كتل، مع المساعدة في التقسيم بحجم الكتلة الافتراضي.

حجم الكتلة الافتراضي في Hadoop 1 هو 64 ميجابايت.

في Hadoop 2 تم تمديد حجم الكتلة إلى 128 ميجابايت.

تسمى العقدة الرئيسية باسم عقدة الاسم التي تحتوي على البيانات الوصفية الخاصة بملف البيانات المحفوظ في أي موقع.

تسمى جميع عقد البيانات بالعقد التابعة والتي تحتوي على البيانات الفعلية في شكل كتل.

يتم الاحتفاظ بالجدول التعريفي لعقدة الاسم في موقع الذاكرة بدلاً من القرص لتقليل وقت الوصول.

عندما يطلب العميل البيانات، فإنه ينتقل أولاً إلى Name Node للتحقق بسرعة من جدول بيانات التعريف لمعرفة موقع البيانات الفعلي.

ثم يطلب العميل البيانات من عقدة البيانات.

عقد البيانات مصنوعة من أجهزة سلعية (أجهزة رخيصة).

ومع ذلك، فإن عقدة الاسم تتكون من أجهزة عالية الجودة.

تفشل عقد البيانات بشكل متكرر، إلا أن عقدة الاسم تفشل بشكل أقل.

- مصادر باللغة الإنجليزية على اليوتيوب هنا و هنا و هنا

- مصادر باللغة العربية على اليوتيوب هنا و هنا و هنا

أوامر هادوب - Hadoop Commands

Hadoop Commands

كتاب مختصر لأوامر Hadoop هنا

تعلم SQL

SQL

فيما يلي أفضل 6 مصادر مجانية لتعلم SQL مجانًا - باللغة الأنجليزية
- أكاديمية خان - هنا 
- SQLZoo - هنا 
- Codecademy - هنا
-SQLBolt - هنا
- يوداسيتي - هنا
SQL for Web Nerds  - هنا

- مصادر باللغة العربية على اليوتيوب هنا 

تعلم Apache HIVE
Apache HIVE

1. Install Cloudera distribution from here -  هنا

1.1 Practise in interactive IDE from HUE here - هنا
2. Learn Apache Hive Basics here - هنا
2.1 Learn from Youtube channels here
-Apache Hive Tutorial Videos [2022 Updated] هنا
 HIVE Tutorials For Beginners هنا

3. Learn HQL for Hive here - هنا

4. Work On Hive projects here- العمل التطبيقي على مشاريع - هنا

نعلم بالعربية هنا

تعلم بايثون

python

1. قم بتثبيت python IDE من هنا أو هنا 
 
2. تعلم أساسيات بايثون من هنا

3. تحديات الممارسة من هنا

4. بمجرد التعرف على الأساسيات، ابدأ العمل على المشاريع ذات الكود المصدري من هنا:

5. أخيرًا قم بإدراج مشاريعك هنا github

- مصادر باللغة العربية على اليوتيوب هنا 

تعلم Pyspark 

Pyspark

1. قم بتشغيل دفتر الملاحظات من Databricks هنا

1.1 أو تقوم بتثبيت توزيعة Anaconda من هنا

2. ابدأ في تعلم أساسيات Pyspark من هنا و هنا و هنا و هنا

3. قمت بالتعلم. ثم كيف يمكنك الممارسة؟ يمكنك أن تفعل ذلك من هنا

قم بتنزيل مجموعات البيانات النموذجية من أي موقع ويب مثل Kaggle وقم بالعمل عليها.

4. العمل على مشاريع Pyspark من هنا و هنا و هنا  و هنا و هنا و هنا

- مصادر باللغة العربية على اليوتيوب هنا و هنا

تعلم Scala Spark
Scala Spark

Scala تحظى بشعبية واسعة بسبب
👍 أداء من الدرجة الأولى مقارنة ببايثون
👍 نسخة متقدمة من جافا
👍 أخطاء في وقت الترجمة أكثر من وقت التشغيل
👍سهلة التعلم.
👍وأخيرا Spark كتبت نفسها في سكالا.

ابدأ مع Scala من هنا أو هنا

1.1. تعلم من قنوات اليوتيوب من هنا

2. ممارسة التحديات هنا

تعلم  Power BI

Power BI

1. قم بتثبيت Power BI من هنا

2. ابدأ تشغيل أساسيات Power Bi من أفضل الموارد المجانية هنا

2.1 تعلم من قنوات اليوتيوب هنا و هنا

2.2 تعلم مباشرة من قناة اليوتيوب الرسمية هنا 

3. إذا كنت من محبي المدونات فتعلم من هنا.....

4. أهم المشاريع. تحقق هنا لأفضل 3 مشاريع
أ. 𝗧𝘄𝗶𝘁𝘁𝗲𝗿 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 𝗗𝗮𝘀𝗵𝗯𝗼𝗮𝗿𝗱 هنا
ب. 𝑶𝑻𝑻 𝑴𝒆𝒅𝒊𝒂 𝑫𝒂𝒔𝒉𝒃𝒐𝒂𝒓𝒅  هنا
ج. 𝗔𝗱𝘃𝗲𝗻𝘁𝘂𝗿𝗲𝗪𝗼𝗿𝗸𝘀 𝗗𝗮𝘁𝗮𝗯𝗮𝘀𝗲 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀 هنا 

5. أخيرًا أنشئ حساب على GITHUB وقم بإدراج مشاريعك فيه

إن الطلب الذي يجلبه Power BI إلى تحليلات البيانات أمر لا يمكن تصوره.
إذا كنت من محبي البيانات، فيجب أن تمتلك مجموعة مهاراتك في مجال Power BI.

تعلم Snowflake 

Snowflake
1. تعلم Snowflake بالكامل مجانًا في مكان واحد هنا 

مباشرة من الأساسيات إلى موارد الشهادات، وأسئلة الممارسة.

2. تعلم من المدونة هنا

3. لدى Snowflake نسخة تجريبية مجانية مدتها 30 يومًا حيث يمكنك الاشتراك والتدرب من هنا

4. توفر Snowflake  شارات مجانًا. يمكنك التحقق هنا
شارات Snowflake

استخدم هذه الخطوات الأربع لمساعدتك في رحلة Snowflake .
من المحتمل أن يصبح حل مستودع البيانات والتحليلات الخاص بـ Snowflake هو الحل الرابع للتوسع الفائق بعد 𝗔𝗪𝗦, 𝗔𝘇𝘂𝗿𝗲, 𝗮𝗻𝗱 𝗚𝗖𝗣.
نظرًا لأن Snowflake ينمو بشكل أسرع من AWS بنفس الحجم، فإن كل ممارس بيانات اليوم ينضم إلى العربة لتعلم Snowflake.

دليل  مقابلات العمل الكامل 

data engineer interviews questions

مصدر الكل في حل واحد لأسئلة مقابلات العمل في هندسة البيانات .
يتكون من -------- 👇
👍أسئلة مقابلة SQL
👍برمجة SCALA
👍أسئلة مقابلة SQOOP
👍أسئلة المقابلة HIVE 
👍أسئلة المقابلة SPARK 
لتحميله من هنا 
كانت هذه أفضل الموارد المجانية التي قمت بإنشائها لمساعدة الجميع. لا تفوت للتحقق...

ليست هناك تعليقات