Semalt разработува на URLitor - Многу кул алатка за стружење на веб и екстракција на податоци

URLitor е нова, но ефективна алатка за стружење на веб и екстракција на податоци. За да користите URLitor, само треба да додадете список на сите УРЛ-адреси, содржината на која сакате да ја снимите на Интернет во дадениот образец. Потоа треба да го наведете елементот HTML што сакате да го извадите од веб-страниците и да кликнете на копчето за испраќање. Лесно е како тоа. Со оваа алатка, не треба повеќе да направите копија или залепување од прелистувачот.

xPath е јазик што се користи за пребарување на информации во XML-датотеки. Користи одредени изрази за да изберете сетови на јазли или јазли во XML-датотеките. Изразите што ги разбира XPath се доста слични на оние што се користат со нормални компјутерски датотеки или документи.

Иако XPath се користи со неколку програмски јазици, оваа алатка е изградена за корисници кои немаат никакво знаење за програмирање. Значи, не треба да бидете програмер за да го користите. Со оваа алатка, можете да извлечете податоци од неколку страници HTML и XML.

За едноставност на употреба, неколку често користени изрази XPath се претходно дефинирани во паѓачкото мени, така што корисниците ќе треба само да изберат кој било од нив во зависност од нивната цел. Сепак, високо искусните корисници на XPath имаат слобода да ги користат своите сопствени изрази секогаш кога сакаат.

Алатката е дизајнирана со капацитет од 100 УРЛ-адреси во една сесија за стружење и трае максимум 10 изрази одеднаш. Со други зборови, може да избие податоци од максимум 100 УРЛ-адреси истовремено.

Неколку важни изрази за вообичаени XPath кои можат да се менуваат или додаваат се прикажани подолу:

1. // div [2] - Овој израз ја избира втората поделба хиерархиски;

2. // link [@ rel = 'canonical'] / @ href - Овој израз ја избира локацијата (реф.) На ознаката што се користи за поставување на релативниот атрибут еднаков на канонски;

3. / html / head / meta [@ name = 'опис'] / @ содржина - Овој израз се користи за избор на содржина;

4. // * [@ class = 'class-name'] - можете да го користите овој израз за да ги изберете сите елементи со 'класа-име' како CSS класа;

5. // h2 | // наслов - Овој израз може да се користи за да го изберете и првиот H2 и насловот на страницата;

6. // * [name () = 'h1' или name () = 'title'] - Овој израз работи точно како оној погоре. Сепак, изразот претставен погоре е подобар бидејќи е пократок;

7. // * [содржи (@class, 'палец')] - Овој израз го избира секој елемент што има CSS класа и исто така содржи „палец“ за екстракција;

8. // родител :: * [текст () = 'Добредојдовте'] - Овој израз го избира родителот на кој било елемент што го содржи текстот 'Добредојдовте';

Оваа алатка е верзија на Бета и сè уште може да работи со некои грешки. Како и да е, сè уште е одлична алатка за корисниците со малку или никакво знаење за програмирање, бидејќи сите често користени изрази се претходно дефинирани во менито, како што споменавме порано.

mass gmail