استيراد البيانات من PDF إلى Excel عبر Power Query

إن مهمة نقل البيانات من جدول بيانات في ملف PDF إلى ورقة Microsoft Excel هي دائمًا "ممتعة". خاصة إذا لم يكن لديك برنامج تعرف باهظ الثمن مثل FineReader أو شيء من هذا القبيل. النسخ المباشر عادة لا يؤدي إلى أي شيء جيد ، لأنه. بعد لصق البيانات المنسوخة على الورقة ، فمن المرجح أن "تلتصق ببعضها البعض" في عمود واحد. لذلك سيتعين بعد ذلك فصلهم بشق الأنفس باستخدام أداة نص حسب الأعمدة من علامة التبويب البيانات (البيانات - نص إلى أعمدة).

وبالطبع ، النسخ ممكن فقط لملفات PDF التي توجد بها طبقة نصية ، أي مع مستند تم مسحه للتو من الورق إلى PDF ، لن يعمل هذا من حيث المبدأ.

لكنها ليست حزينة حقًا 🙂

إذا كان لديك Office 2013 أو 2016 ، ففي غضون دقيقتين ، بدون برامج إضافية ، من الممكن تمامًا نقل البيانات من PDF إلى Microsoft Excel. وسيساعدنا Word و Power Query في ذلك.

على سبيل المثال ، لنأخذ تقرير PDF هذا مع مجموعة من النصوص والصيغ والجداول من موقع الويب الخاص باللجنة الاقتصادية لأوروبا:

استيراد البيانات من PDF إلى Excel عبر Power Query

... وحاول الخروج منه في Excel ، قل الجدول الأول:

استيراد البيانات من PDF إلى Excel عبر Power Query

لنذهب!

الخطوة 1. افتح ملف PDF في Word

لسبب ما ، قلة من الناس يعرفون ، ولكن منذ عام 2013 تعلم Microsoft Word فتح ملفات PDF والتعرف عليها (حتى الملفات الممسوحة ضوئيًا ، أي بدون طبقة نصية!). يتم ذلك بطريقة قياسية تمامًا: افتح Word ، وانقر فتح الملف (فتح الملف) وحدد تنسيق PDF في القائمة المنسدلة في الزاوية اليمنى السفلية من النافذة.

ثم حدد ملف PDF الذي نحتاجه وانقر ساعات العمل (افتح). يخبرنا Word أنه سيقوم بتشغيل OCR في هذا المستند إلى نص:

استيراد البيانات من PDF إلى Excel عبر Power Query

نتفق ، وفي غضون ثوانٍ قليلة ، سنرى ملف PDF الخاص بنا مفتوحًا للتحرير بالفعل في Word:

استيراد البيانات من PDF إلى Excel عبر Power Query

بالطبع ، التصميم والأنماط والخطوط والرؤوس والتذييلات وما إلى ذلك ستنتقل جزئيًا من المستند ، لكن هذا ليس مهمًا بالنسبة لنا - نحتاج فقط إلى البيانات من الجداول. من حيث المبدأ ، في هذه المرحلة ، من المغري بالفعل نسخ الجدول من المستند المعترف به إلى Word ولصقه ببساطة في Excel. يعمل أحيانًا ، ولكنه يؤدي في أغلب الأحيان إلى جميع أنواع تشوهات البيانات - على سبيل المثال ، يمكن أن تتحول الأرقام إلى تواريخ أو تظل نصًا ، كما في حالتنا ، لأن. يستخدم PDF غير الفواصل:

استيراد البيانات من PDF إلى Excel عبر Power Query

لذلك دعونا لا نقطع الزوايا ، ولكن نجعل كل شيء أكثر تعقيدًا ، لكن بشكل صحيح.

الخطوة 2: احفظ المستند كصفحة ويب

لتحميل البيانات المستلمة في Excel (عبر Power Query) ، يجب حفظ مستندنا في Word بتنسيق صفحة الويب - هذا التنسيق ، في هذه الحالة ، نوع من القاسم المشترك بين Word و Excel.

للقيام بذلك ، انتقل إلى القائمة ملف - حفظ باسم (ملف - حفظ باسم) أو اضغط على المفتاح F12 على لوحة المفاتيح وفي النافذة التي تفتح ، حدد نوع الملف صفحة ويب في ملف واحد (صفحة ويب - ملف واحد):

استيراد البيانات من PDF إلى Excel عبر Power Query

بعد الحفظ ، يجب أن تحصل على ملف بامتداد mhtml (إذا رأيت امتدادات الملفات في Explorer).

المرحلة 3. تحميل الملف إلى Excel عبر Power Query

يمكنك فتح ملف MHTML الذي تم إنشاؤه في Excel مباشرةً ، ولكن بعد ذلك سنحصل أولاً ، أولاً ، على جميع محتويات PDF دفعة واحدة ، جنبًا إلى جنب مع النص ومجموعة من الجداول غير الضرورية ، وثانيًا ، سنفقد البيانات مرة أخرى بسبب خطأ فواصل. لذلك ، سنقوم بالاستيراد إلى Excel من خلال الوظيفة الإضافية Power Query. هذه إضافة مجانية تمامًا يمكنك من خلالها تحميل البيانات إلى Excel من أي مصدر تقريبًا (الملفات والمجلدات وقواعد البيانات وأنظمة تخطيط موارد المؤسسات) ثم تحويل البيانات المستلمة بكل طريقة ممكنة ، مما يمنحها الشكل المطلوب.

إذا كان لديك Excel 2010-2013 ، فيمكنك تنزيل Power Query من موقع Microsoft الرسمي على الويب - بعد التثبيت سترى علامة تبويب استفسار الطاقة. إذا كان لديك Excel 2016 أو أحدث ، فلن تحتاج إلى تنزيل أي شيء - فكل الوظائف مضمنة بالفعل في Excel افتراضيًا وهي موجودة في علامة التبويب البيانات (تاريخ) في مجموعة تنزيل وتحويل (الحصول على وتحويل).

لذلك نذهب إما إلى علامة التبويب البياناتأو في علامة التبويب استفسار الطاقة واختيار فريق للحصول على البيانات or تكوين استعلام - من ملف - من XML. لجعل ملفات XML غير مرئية فقط ، قم بتغيير المرشحات في القائمة المنسدلة في الزاوية اليمنى السفلية من النافذة إلى جميع الملفات (كل الملفات) وحدد ملف MHTML الخاص بنا:

استيراد البيانات من PDF إلى Excel عبر Power Query

يرجى ملاحظة أن الاستيراد لن يكتمل بنجاح ، لأن. تتوقع Power Query منا XML ، لكن لدينا بالفعل تنسيق HTML. لذلك ، في النافذة التالية التي تظهر ، ستحتاج إلى النقر بزر الماوس الأيمن فوق الملف غير المفهوم لـ Power Query وتحديد تنسيقه:

استيراد البيانات من PDF إلى Excel عبر Power Query

بعد ذلك ، سيتم التعرف على الملف بشكل صحيح وسنرى قائمة بجميع الجداول التي يحتوي عليها:

استيراد البيانات من PDF إلى Excel عبر Power Query

يمكنك عرض محتويات الجداول بالنقر فوق زر الماوس الأيسر في الخلفية البيضاء (وليس في كلمة جدول!) للخلايا في عمود البيانات.

عندما يتم تحديد الجدول المطلوب ، انقر فوق الكلمة الخضراء طاولات ومكاتب - وأنت "تسقط" في محتوياتها:

استيراد البيانات من PDF إلى Excel عبر Power Query

يبقى القيام ببعض الخطوات البسيطة "لتمشيط" محتوياته ، وهي:

  1. احذف الأعمدة غير الضرورية (انقر بزر الماوس الأيمن فوق رأس العمود - حذف)
  2. استبدل النقاط بفاصلات (حدد الأعمدة ، انقر بزر الماوس الأيمن - استبدال القيم)
  3. إزالة علامات المساواة في الرأس (حدد الأعمدة ، انقر بزر الماوس الأيمن - استبدال القيم)
  4. إزالة السطر العلوي (الصفحة الرئيسية - حذف الأسطر - حذف الخطوط العليا)
  5. إزالة الأسطر الفارغة (الصفحة الرئيسية - حذف الأسطر - حذف الأسطر الفارغة)
  6. ارفع الصف الأول إلى رأس الجدول (الصفحة الرئيسية - استخدم السطر الأول كعناوين)
  7. تصفية البيانات غير الضرورية باستخدام عامل تصفية

عندما يتم إحضار الجدول إلى شكله الطبيعي ، يمكن تفريغه على الورقة باستخدام الأمر إغلاق وتحميل (إغلاق وتحميل) on الرئيسية التبويب. وسوف نحصل على مثل هذا الجمال الذي يمكننا العمل به بالفعل:

استيراد البيانات من PDF إلى Excel عبر Power Query

  • تحويل عمود إلى جدول باستخدام Power Query
  • تقسيم النص اللاصق إلى أعمدة

اترك تعليق