پلتفرم کلودرا (CLOUDERA)
آشنایی با Cloudera
شرکت Cloudera شرکتی مستقر در ایالات متحده که در سال 2008 تاسیس شده است رسالتی مشابه MapR و Hortonworks (که در حال حاضر با هم تلفیق شدند) را ایفا می کند. این شرکت یک پلتفرم مبتنی بر هدوپ ایجاد کرده اند که با محبوب ترین نرم افزارهای آپاچی هدوپ به منظور تحلیل بیگ دیتا یکپارچه شده است. هدوپ تنها یک نرم افزار یا پلتفرم نیست، هدوپ یک اکوسیستم است که قلب تپنده پروژه های مهم تحلیل بیگ دیتا تلقی می شود.
اما چرا سازمان ها از Cloudera استفاده می کنند؟
اساسا ایجاد و کانفیگ یک کلاستر به صورت دستی و نه خوکار کار زمان بری است، بررسی هر نُود در کلاستر به صورت تک به تک وقتی نودها و کلاسترهای زیادی داریم، کانفیگ هر یک از کلاسترها، استقرار سرویس های مدنظرمان و راه اندازی مجدد هر یک از سرویس ها در یک محیط توزیع شده اشکال عمده ای تلقی می شود و نیازمند حجم عظیمی از خودکار سازی فرآیندها به منظور مدیریت سرویس ها است. Cloudera به منظور حل این مشکلات و صرفه جویی در مصرف زمان، هزینه وحتی اعصاب 🙂 توزیع هدوپی اختصاصی را به منظور نصب سرویس های مدنظر و آپدیت کانفیگ کلاسترها ارائه کرده است که تنها با چند کلیک زیرساخت هدفمندی را به منظور تحلیل بیگ دیتا به ارمغان می آورد.
شرکت Cloudera با ارائه اولین پلتفرم یکپارچه برای بیگ دیتا ، انقلابی در مدیریت داده های سازمانی ایجاد می کند. نام محصول مهم این شرکت در عرصه بیگ دیتا، Enterprise Data Hub که به اختصار CDH نامیده می شود می باشد. Cloudera پلتفرم اختصاصی خود را به منظور ذخیره ، پردازش و تجزیه و تحلیل تمامی داده های خود در اختیار شرکت ها قرار می دهد و این امکان را فراهم می کند تا ارزش سرمایه گذاری های موجود را افزایش دهند و در عین حال راه های جدیدی را برای استخراج ارزش از مجموعه داده های عظیم خود فراهم کنند. درآمد اصلی این شرکت از راه سرویس های حرفه ای است که به منظور سهولت در یکپارچه سازی بیگ دیتا در شرکت ها ارائه می دهند. Cloudera سرویس هایی تحت عنوان Impala و Kudu را توسعه داده است که فرآیند یکپارچه سازی هدوپ و نِرخ پاسخگویی این چارچوب را بهبود بخشیده است. به عنوان جمع بندی می توان گفت مزیت رقابتی این شرکت ارائه یک پلتفرم یکپارچه به منظور تحلیل بیگ دیتا در سطح سازمان است هر چند شرکت های دیگری نظیر Databricks نیز با ارائه پلتفرم یکپارچه تحلیل داده که مبتنی بر Spark بر بستر Cloud می باشند در حال حاضر بسیار فعال هستند. CEO شرکت Databricks آقای دکتر علی قدسی فارغ التحصیل دانشگاه کالیفرنیا در برکلی می باشند. ان شاالله در مقاله ای مجزا به بررسی Databricks و نوآوری های این شرکت می پردازیم.
همانطور که مقاله انتشار نسخه 7 پلتفرم Cloudera بررسی کردیم و در تصویر فوق مشخص است، در لایه Data Consistency, Governance, Security ابزارهایی نظیر Apache Ranger, Apache Altas و Apache KNOX حضور دارند.
مطالب زیر را حتما مطالعه کنید
4 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.
سلام وقت بخیر
لطفا لینک دانلود نسخه جدید مربوط به vmware را قرار دهید.
سلام و وقت بخیر. متاسفانه در نسخه های جدید شما می بایست حتما CDH customer باشید تا بتوانید تحت لایسنس، محصولات کلودرا را دانلود و استفاده نمایید. پیشنهاد بنده کانفیگ نسخه 6.3.3 در لینوکس است.
با سلام. امکانش هست راهنماییم کنید چطور از ماشین مجازی آنلاین کلودرا میشود استفاده کرد؟ برای پیاده سازی مقاله ای نیاز دارم. در این مقاله دیتا ست مربوطه با استفاده از فایل زیلا روی کلودرا آپلود میشود و سپس این فایل به hdfs منتقل میشود و با انجام چند دستور دیگر عملیات map سپس naive bayes classification و سپس reduce انجام میشود. نحوه اجرای دستورات را بلدم. اما از آنجایی که تا بحال با هادوپ کار نکردم نحوه کار با ماشین مجازی کلودرا را بلد نیستم یه دنیا ممنون میشم اگر راهنماییم کنید
سلام. وقت بخیر. در حال حاضر دسترسی آنلاین برای ما که از سمت کلودرا تحریم هستیم فراهم نیست و می تونیم از ماشین مجازی کلودرا بصورت آفلاین روی Virtual Box یا VmWare استفاده کنیم و یا بیایم نسخه 6.3 رو روی لینوکس دانلود و کانفیگ کنیم. موفق باشید.