Посібник Semalt про розширення скрепера для Chrome

Щоб будь-який бізнес вижив і в кінцевому підсумку зростав, необхідно випереджати своїх конкурентів і різні ризики. Прийняття рішень на основі аналітичних даних - це вірний спосіб забути про ці проблеми. Такі дані можуть бути отримані за допомогою запису даних. Ось звідси надходить просте розширення скрепера для Chrome: воно не тільки полегшить процес збирання даних, але й дасть можливість скребки на ходу без складних налаштувань.

Як користуватися Scraper

    1. Перше, що вам потрібно зробити, це встановити розширення, тому перейдіть до веб-магазину Chrome, знайдіть "скребок" та натисніть кнопку "Додати" до Chrome.

    2. Перейдіть на веб-сайт, з якого ви маєте намір скребити дані , позначте запис, який вас цікавить, виділивши його. Клацніть правою кнопкою миші та виберіть у меню, що спливе, виберіть "скребок подібного".

    3. У цьому випадку запустіть окреме вікно консолі скрепера. Тут ви побачите список скреблених даних .

    4. Щоб зберегти вміст, натисніть «Зберегти в документи Google», це автоматично експортує дані в електронну таблицю Google.

Розширене вискоблювання

Якщо ви плануєте викреслити більше даних, ви можете скористатися розширеним підходом. Зауважте, працювати з інструментом буде набагато простіше, якщо ви володієте деякими знаннями HTML. Припустимо, ви хотіли викреслити дані з джерела, в якому є архів на основі даних часових рядів. У такому випадку, якщо ви спробуєте описаний вище метод, ви отримаєте приховані дані.

Щоб вирішити цю проблему, ви можете скористатися мовою запитів HTML та XML, відомою як XPath. Що це робить? XPath розпізнає дані про різні елементи, що містяться в кожному виді. Нижче наведено посібник про те, як це зробити:

1. Перейдіть до консолі Scraper, у верхньому лівому куті ви помітите кнопку "XPath", натисніть на неї та приступайте до збирання початкової таблиці.

2. Вам потрібно написати XPath для потрібного елемента. Поточний XPath, який включає всю інформацію, буде відображатися у такому форматі, як "// div [3] / div [3] / div [2] / div". Елементи <div> будуть розпізнані в документі HTML комп'ютером.

3. Щоб відокремити розпізнані дані, ви повинні використовувати стовпчики Скрепер. Для цього вам потрібно шукати різні види інформації, які у вас є. Залежно від даних, які ви робите, ви можете мати заголовки. Ці заголовки є поруч із кожним набором даних. Вони супроводжуються тегом, в цьому випадку тегом <b>.

4. За допомогою елемента перевірки знайдіть і додайте тег <b> у свій XPath. Тепер ви можете позначити цей перший стовпець як "стовпець заголовка", оскільки він буде містити список заголовків. Перейдіть до створення різних XPaths для кожного потрібного вам стовпця.

5. Клацніть на скріпі, і розширення автоматично збирає дані та організовує їх у різні стовпці, які ви встановили.