Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

tweakers.net pattern doesn't work anymore #887

Open
CypherNL opened this issue May 30, 2021 · 1 comment
Open

tweakers.net pattern doesn't work anymore #887

CypherNL opened this issue May 30, 2021 · 1 comment

Comments

@CypherNL
Copy link

CypherNL commented May 30, 2021

Version of Full-Text RSS: 3.9.11
Version of Site Patterns: 2021-05-26T01:09:01Z

Most of the time i get [unable to retrieve full-text content] error using Tweakers.net. Since the script is from 2018 and the website got redesigned in that time, the pattern should be updated.

With the point-and-click interface, i could select the body in 3 types of articles on the site. Test links in the pattern here below:

News article:

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Fnieuws%2F182324%2Fgoogle-probeerde-telefoonmakers-privacy-instellingen-te-laten-verstoppen.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' article ')]
test_url: https://tweakers.net/nieuws/182324/google-probeerde-telefoonmakers-privacy-instellingen-te-laten-verstoppen.html

Multi-page articles (not every page can be parsed so i think the best is just do the first page one):

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Freviews%2F9040%2Fbluetooth-trackers-round-up-zoekt-en-gij-zult-niet-altijd-vinden.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' centeredContent ')]
test_url: https://tweakers.net/reviews/9040/bluetooth-trackers-round-up-zoekt-en-gij-zult-niet-altijd-vinden.html

Software updates:

# Generated by FiveFilters.org's web-based selection tool
# Place this file inside your site_config/custom/ folder
# Source: http://siteconfig.fivefilters.org/grab.php?url=https%3A%2F%2Ftweakers.net%2Fdownloads%2F56134%2Fparallels-desktop-160.html

body: //div[contains(concat(' ',normalize-space(@class),' '),' articleColumn ')]
test_url: https://tweakers.net/downloads/56134/parallels-desktop-160.html

I'm not sure how to edit the pattern for all the 3 types of articles and test it since i use an RSS reader that uses this service (Bazqux) and not self-hosting this service by myself. I hope this helps updating the pattern.

@HolgerAusB
Copy link
Collaborator

The config is doing nice at the moment, exept for images.
BUT it seems that the site insist, that you are grabing too many pages in little time. When I curl one of these links I got the following result after about the fifth try:

          <h1>Sorry, je gaat even iets te snel</h1>
           <div class=description>
               <p>Het komt geregeld voor dat vanaf een IP veel pageviews naar Tweakers.net worden gestuurd, meer dan
                   gebruikelijk - zelfs voor hele grote organisaties zoals KPN, de Belastingdienst en de diverse
                   ministeries. Om onszelf te behoeden tegen (verdere) overlast houden we deze request tegen.</p>

               <p>
                   In de meeste gevallen zal deze melding verdwijnen na een minuut.
               </p>

               <p>Hier staat een aantal gebruikelijke oorzaken:</p>
               <ul>
                   <li>Proxy-servers, linkcheckers of crawlers die foutief ingesteld zijn en/of onze robots.txt
                       negeren
                   </li>
                   <li>Te enthousiaste feed-readers die elke paar seconden een RSS-feed opvragen</li>
                   <li>Iets wat op je toetsenbord ligt en de F5-knop ingedrukt houdt (bijvoorbeeld een kat of een
                       koptelefoon)
                   </li>
               </ul>
               <p>Naast bovenstaande redenen zijn ook misdragingen op Tweakers.net aanleiding om een IP te blokkeren.
                   Dan gaat het meestal om zaken als het doen van hack-pogingen of herhaaldelijk lastigvallen van
                   medegebruikers.</p>

               <p>Als je deze melding gedurende langere tijd te zien krijgt en je weet niet waar dat aan ligt,
                   stuur ons dan een e-mail. Ook voor verdere vragen of opmerkingen kun je mailen. Dat doe je dan naar <i><a
                       href='mailto:gathering@tweakers.net?subject=Rate%20limit%20op%202003:d9:d71e:d400:b26e:bfff:fe1d:eeff%2007:59:04-2390A'>gathering@tweakers.net</a></i>,
                   <b>meld daarbij ook jouw IP: 2003:d9:d71e:d400:b26e:bfff:fe1d:eeff en deze string: 07:59:04-2390A</b>.</p>
           </div>

Translation by deepl.com:

Sorry, you're going a little too fast

It happens regularly that from an IP many pageviews are sent to Tweakers.net, more than usual - even for very large organizations like KPN, the Tax Office and the various ministries. To protect ourselves from (further) inconvenience, we block this request...

I can't see, how to prevent this.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants