إشترك في قناتنا على اليوتيوب

السبت، 6 أبريل 2019

برنامج Octoparse لكشط مواقع الويب وعمل web scraping مجاناً

برنامج Octoparse هو الأداة الأقوى والأسهل عالمياً لكشط صفحات الويب التي يثق فيها مئات الآلاف حول العالم من الأفراد والشركات، للحصول على كافة خدمات الويب سكرابينج مجاناً. كلمة Octoparse هي مزيج من كلمتين، "الأخطبوط" و "تحليل"، وهذا يعني أن Octoparse يمكنه استخراج وتحليل البيانات بشكل واسع ومتشعب تماما مثل الأخطبوط.



ماهو كشط الويب؟
تقنية كشط صفحات الويب أو web scraping هى استخراج البيانات من مواقع الإنترنت عن طريق برامج مخصصة مثل برامج محاكاة تصفح الأشخاص للانترنت تعمل على مستوى منخفض من بروتوكول (HTTP) ، وهي واحدة من أهم أدوات الداتا ماينينج التي يعتمد عليها الكثير من المبرمجين والمحللين والإحصائيين لجمع البيانات الخام لأي موقع ويب وإعادة إستخدامها مرة أخرى في مقارنة الأسعار على الإنترنت، وتحليل الايميلات، ورصد بيانات الطقس على شبكة الإنترنت لكشف التغيرات، والبحوث، والمزج على شبكة الإنترنت وتكامل البيانات على شبكة الإنترنت وغيرها من الإستخدامات.
كشط الويب متعلق ايضا بفهرسة الويب الذى يعنى فهرسة معلومات الويب باستخدام بوت وهى تقنية عالمية تعتمدها أغلب محركات البحث، ويركز كشط الويب أكثر على تحويل البيانات غير المنظمة على الويب والتى عادة على شكل HTML إلى بيانات منظمة يمكن تخزينها وتحليلها في قاعدة بيانات محلية المركزية أو جدول البيانات.

برنامج Octoparse يحول محتوى الويب الغير منظم إلى بيانات منظمة، يمكنك الإحتفاظ بها في أكثر من نمط مثل Excel، TXT، HTML ، كذلك يمكنك تحميل البيانات مباشرة إلى خوادم قاعدة البيانات الخاصة بك، يتيح البرنامج ايضاً وضعين للاستخدام، وضع قياسي و وضع المتقدم،  الوضع القياسي يتم استخدامه مع صفحات الويب العادية، أما صفحات الويب الأكثر تعقيداً فتحتاج إلى الوضع المتقدم الذي يوفر الكثير من الميزات الأكثر تقدماً والمناسبة للمواقع المعقدة.
مع Octoparse، يمكنك بسهولة استخراج أي بيانات من على شبكة الإنترنت بشكل أوسع من أي برنامج آخر، على سبيل المثال، جمع المعلومات من بلوج أو منتدى أو مواقع إخبارية أو مواقع تجارية وغيرها من صفحات الويب المختلفة، وذلك مع خوادم البرنامج السحابية التي تعمل 24 ساعة في اليوم على مدار 7 أيام في الأسبوع للحصول على الخدمة بشكل مستمر طوال العام، ومساعدتك على تسريع عملية استخراج البيانات والحصول على بيانات صفحة الويب التي تريد بالضبط على نطاق واسع وبطريقة أسرع بكثير.


أهم الخدمات التي يقدمها Octoparse :
• الحصول على زاحف الشبكة Web Crawlers بسهولة، من خلال برنامج Octoparse المميز يمكن لأي شخص يعرف كيفية التصفح أن يقوم بكشط بيانات أي موقع بسهولة دون الحاجة إلى أكواد معقدة.
•  كشط البيانات من أي موقع ديناميكي - التمرير اللانهائي، مصادقة تسجيل الدخول، AJAX وغيرها.
• كشط عدد غير محدود من الصفحات، والحصول على البيانات بشكل مجاني.
•  خدمة Octoparse السحابية، من خلال منصة Octoparse السحابية سوف تحصل على أسرع عملية كشط ممكنة على مدار الـ 24 ساعة.
• جدولة عملية الكشط \ Schedule Scraping ، للحصول على البيانات عبر الخدمة السحابية في أي وقت تريده.
• تدوير IP  تلقائي - يقلل الكشط المجهول من فرص تتبعه وحظره.
• خدمات البيانات المهنية: وفر المال والوقت المستهلك في توظيف خبراء كشط الويب، حيث يقدم برنامج Octoparse خدمات كشط الويب المهنية المميزة من خلال فريق متخصص لتلبية احتياجات أصحاب العمل.
طريقة استخراج البيانات في ثلاث خطوات:
• الخطوة الأولى: أدخل عنوان URL لموقع الويب الذي ترغب في استخراج البيانات منه.

• الخطوة الثانية: انقر على البيانات المستهدفة لاستخراجها.
• الخطوة الثالثة: تشغيل عملية الإستخراج والحصول على البيانات.

 طريقة جمع البيانات من صفحات متعددة:
يمكنك جمع البيانات من صفحات ويب متعددة في آن واحد مع برنامج Octoparse، وذلك في خطوات سهلة وبسيطة من خلال إجراء ترقيم للصفحات والضغط على زر "Next" لاستخراج البيانات من جميع الصفحات المتاحة.
أولاً: إعداد ترقيم الصفحات لاستخراج البيانات من صفحة العنصر الفردية
بمجرد إنشاء مهمة لاستخراج حقول بيانات محددة من صفحة عنصر فردية ، يجب أن يحتوي سير العمل على خطوة "Go To Web Page"  "الانتقال إلى صفحة الويب" وخطوة "Loop Item"  للتنقل فوق كل رابط عنصر والتقاط المزيد من حقول البيانات المحددة من كل صفحة على حدى.

إذا لم تكن موجود في الصفحة التي تريدها اضغط على خطوة "Go To Web Page".
إنشاء حلقة ترقيم الصفحات:
• حدد موقع زر "Next"  وانقر عليه، من "Action Tips". 
• اختر "Loop click next page", لاحظ أنه يتم تلقائيًا إنشاء خطوة "Click to paginate" وإضافتها إلى سير العمل.

 •أعد ترتيب خطوات سير العمل عن طريق سحب وافلات "Loop Item"  إلى داخل "Pagination" "ترقيم الصفحات"، ضعه مباشرةً قبل الخطوة "Click to paginate" .
قم بإعداد مهلة AJAX من 2 إلى 4 ثانية لخطوة "Click to paginate" :
• حدد "Click to paginate"
• حدد "Load the page with AJAX"
• حدد 2-3 ثواني مهلة AJAX
• انقر فوق "OK" لحفظ أي تغييرات.

ملحوظة: لا تقم بإعداد مهلة AJAX في حالة عدم استخدام تقنية AJAX للعنصر.
ثانياً: إعداد ترقيم الصفحات لاستخراج قائمة من العناصر "تنزيل ملف المهمة":
إذا تم إعداد مهمتك لالتقاط قائمة بالعناصر، يجب أن يبدو سير عملك مشابهاً لما هو موضح أدناه ، ويتألف من خطوة "الانتقال إلى صفحة الويب" "Go To Web Page" و "Loop Item"  للتكرار خلال كل عنصر في القائمة.

الآن، حدد موقع زر "Next" وانقر عليه.
من "Action Tips" ، حدد "Loop click next page" لإنشاء حلقة ترقيم الصفحات.

 ملحوظة: أعد ترتيب الحلقات في سير العمل إذا تم إنشاء حلقة ترقيم الصفحات أسفل حلقة بيانات الاستخراج.
بمجرد إنشاء حلقة ترقيم الصفحات ، يجب أن يكون سير العمل الصحيح مثل هذه الصورة للحصول على البيانات:
لماذا يكون برنامج Octoparse خيارك الأول؟
• سهل الإستخدام: يمكنك كشط جميع البيانات التي تريدها بضغطات بسيطة على الماوس دون الحاجة إلى خطوات معقدة أو أكواد طويلة.
• يمكنه التعامل مع جميع المواقع: يتعامل برنامج Octoparse مع عدد لانهائي من المواقع والصيغ المختلفة.
•  إمكانية تنزيل النتائج: يمكنك تنزيل البيانات في أكثر من نمط مثل:  Excel، TXT، HTML ، كذلك يمكنك تحميل البيانات مباشرة إلى قواعد البيانات.
• ميزة الخدمات السحابية: يوفر برنامج Octoparse الخدمات السحابية بشكل متواصل على مدار اليوم وكل يوم دون توقف.
• ميزة تغيير IP : يتم تغيير الـ IP بشكر مستمر لمنع حجب الـ IP الخاص بك.
personكاتب المقال:

ليست هناك تعليقات:

إرسال تعليق