ما هو غراء AWS وكيف تستخدمه؟

جدول المحتويات:

ما هو غراء AWS وكيف تستخدمه؟
ما هو غراء AWS وكيف تستخدمه؟
Anonim

AWS Glue هي خدمة استخراج وتحويل وتحميل مُدارة (ETL) قادرة على معالجة البيانات المخزنة في S3 أو DynamoDB وتحويلها إلى تنسيقات أو مخططات مختلفة لتسهيل استخدامها في خدمات أخرى مثل Athena.

لماذا تستخدم AWS Glue؟

AWS Glue مخصص للأشخاص الذين لديهم الكثير من البيانات التي يجب معالجتها. ربما لديك أسطول كامل من الخوادم ، وكل واحد منهم يبصق ملفات السجل. أنت تستوعب هذه البيانات في S3 لسهولة التخزين ، ولكن هناك الكثير منها ، ويجب معالجتها أولاً قبل تحليلها مع Athena. ربما تكون مهتمًا فقط ببضعة أعمدة من البيانات وتريد تجاهل الباقي.

يمكن لـ AWS Glue التعامل مع ذلك ؛ إنه يقع بين بيانات S3 و Athena ، ويعالج البيانات مثل كيفية عمل أداة مثل

sed

أو

awkفي سطر الأوامر. من خلال إعداد الزاحف ، يمكنك استيراد البيانات المخزنة في S3 إلى كتالوج البيانات الخاص بك ، وهو نفس الكتالوج الذي تستخدمه Athena لتشغيل الاستعلامات. يمكنك بعد ذلك تعديل هذه البيانات لإزالة الأعمدة غير الضرورية أو التحويل بين التنسيقات.

يمكن لـ AWS Glue أيضًا تحويل CSV والتنسيقات المحددة الأخرى تلقائيًا إلى تنسيق عمودي Apache Parquet ، والذي يوصى به بشدة لأي شخص يعمل مع Athena ، حيث يمكن أن يخفض تكاليفك بترتيب كبير نظرًا لأنه يتطلب أقل بكثير البيانات المراد معالجتها.

كيف تبدأ

توجه إلى AWS Glue Console ، وحدد "البدء". من علامة التبويب "برامج الزحف" ، حدد "إنشاء برنامج تتبع الارتباطات" ، ثم قم بتسميته. اختر "مخازن البيانات" كنوع الاستيراد ، وقم بتكوينه لاستيراد البيانات من حاوية S3 حيث يتم الاحتفاظ ببياناتك.

وحدة تحكم AWS Glue
وحدة تحكم AWS Glue

بعد ذلك ، أنشئ مستخدم IAM جديدًا ليعمل الزاحف باسم. قم بإنشائه من مربع الحوار هذا ، ثم حدده في القائمة (قد تضطر إلى الضغط على زر التحديث بجوار القائمة).

اختر دورك في IAM
اختر دورك في IAM

يمكنك إعطاء الزاحف الخاص بك جدولاً باستخدام المعيار

cronبناء الجملة ، أو عن طريق تحديد أحد الخيارات المحددة مسبقًا. يمكنك أيضًا تشغيله يدويًا من وحدة التحكم إذا كنت ترغب في ذلك.

امنح الزاحف الخاص بك جدولًا زمنيًا
امنح الزاحف الخاص بك جدولًا زمنيًا

اختر قاعدة بيانات الإخراج من كتالوج البيانات الخاص بك. إذا كنت قد استخدمت Athena من قبل ، فقد يكون لديك قاعدة بيانات مخصصة ، ولكن إذا لم تكن كذلك ، فمن المفترض أن تعمل القاعدة الافتراضية بشكل جيد. ينشئ الزاحف جدولًا لنفسه لتخزين البيانات فيه.

تحويل البيانات

بمجرد استيراد بياناتك إلى قاعدة بيانات كتالوج البيانات ، يمكنك استخدامها في وظائف AWS Glue الأخرى. على سبيل المثال ، إذا كنت ترغب في معالجة بياناتك ، يمكنك إنشاء وظيفة جديدة من علامة التبويب "الوظائف" للتعامل مع تحويل البيانات.

امنح الوظيفة اسمًا ، وحدد دور IAM الخاص بك. حدد "برنامج نصي مقترح تم إنشاؤه بواسطة AWS Glue" باعتباره النص البرمجي الذي يتم تشغيل المهمة ، إلا إذا كنت تريد كتابته يدويًا.

امنح الوظيفة اسمًا ، وحدد دور IAM الخاص بك
امنح الوظيفة اسمًا ، وحدد دور IAM الخاص بك

من علامة التبويب التالية ، حدد الجدول الذي تم استيراد بياناتك إليه بواسطة الزاحف. انقر فوق التالي ، ثم حدد "تغيير المخطط" كنوع التحويل.

يمكنك اختيار إنشاء ملفات جديدة ، أو تحديث الملفات الحالية بالمخطط الجديد بدلاً من ذلك. إذا كنت تقوم بالتحويل إلى باركيه أو تنسيقات أخرى ، فأنت بحاجة إلى إنشاء ملفات جديدة.

من الصفحة التالية ، يمكنك تكوين مكان حدوث كل السحر. يتم تعيين كل عمود في الملف المصدر إلى عمود في ملف الإخراج. يمكنك حذف الأعمدة وإضافة أعمدة جديدة إذا كنت ترغب في ذلك. بشكل افتراضي ، يكون التعيين واحدًا لواحد ، لذلك إذا كنت تقوم بالتحويل بين التنسيقات فقط ، فيمكنك تجاهل هذه الصفحة.

التحويل بين الصيغ
التحويل بين الصيغ

بعد ذلك ، يتم إحضارك إلى محرر النص ، حيث قامت AWS بتحميل برنامج نصي مسبقًا ينفذ التحويل الصحيح نيابة عنك. يمكنك تشغيله يدويًا من علامة التبويب هذه في وحدة التحكم ، أو إعداده بمشغل للتشغيل وفقًا لجدول زمني ثابت.

يمكن أيضًا تكوين Athena لتحميل البيانات من زاحف AWS Glue ، بدلاً من تحميل البيانات من مسار ثابت في S3. يمكنك أيضًا استخدامه للتحكم بشكل أكثر دقة في البيانات التي يتم استيرادها.

موضوع شعبي