ImgScroll/src/main/java/com/rarchives/ripme/utils/RipUtils.java

package com.rarchives.ripme.utils;

import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.log4j.Logger;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

import com.rarchives.ripme.ripper.AbstractRipper;
import com.rarchives.ripme.ripper.rippers.ImgurRipper;
import com.rarchives.ripme.ripper.rippers.VidbleRipper;
import com.rarchives.ripme.ripper.rippers.ImgurRipper.ImgurAlbum;
import com.rarchives.ripme.ripper.rippers.ImgurRipper.ImgurImage;
import com.rarchives.ripme.ripper.rippers.video.GfycatRipper;

public class RipUtils {
    private static final Logger logger = Logger.getLogger(RipUtils.class);

    public static List<URL> getFilesFromURL(URL url) {
        List<URL> result = new ArrayList<URL>();

        logger.debug("Checking " + url);
        // Imgur album
        if ((url.getHost().endsWith("imgur.com")) 
                && url.toExternalForm().contains("imgur.com/a/")) {
            try {
                ImgurAlbum imgurAlbum = ImgurRipper.getImgurAlbum(url);
                for (ImgurImage imgurImage : imgurAlbum.images) {
                    result.add(imgurImage.url);
                }
            } catch (IOException e) {
                logger.error("[!] Exception while loading album " + url, e);
            }
            return result;
        }
        else if (url.getHost().endsWith("gfycat.com")) {
            try {
                String videoURL = GfycatRipper.getVideoURL(url);
                result.add(new URL(videoURL));
            } catch (IOException e) {
                // Do nothing
                logger.warn("Exception while retrieving gfycat page:", e);
            }
            return result;
        }
        else if (url.toExternalForm().contains("vidble.com/album/")) {
            try {
                result.addAll(VidbleRipper.getURLsFromPage(url));
            } catch (IOException e) {
                // Do nothing
                logger.warn("Exception while retrieving vidble page:", e);
            }
            return result;
        }

        // Direct link to image
        Pattern p = Pattern.compile("(https?://[a-zA-Z0-9\\-\\.]+\\.[a-zA-Z]{2,3}(/\\S*)\\.(jpg|jpeg|gif|png|mp4)(\\?.*)?)");
        Matcher m = p.matcher(url.toExternalForm());
        if (m.matches()) {
            try {
                URL singleURL = new URL(m.group(1));
                result.add(singleURL);
                return result;
            } catch (MalformedURLException e) {
                logger.error("[!] Not a valid URL: '" + url + "'", e);
            }
        }
        
        if (url.getHost().equals("imgur.com") || 
                url.getHost().equals("m.imgur.com")){
            try {
                // Fetch the page
                Document doc = Jsoup.connect(url.toExternalForm())
                                    .userAgent(AbstractRipper.USER_AGENT)
                                    .get();
                for (Element el : doc.select("meta")) {
                    if (el.attr("name").equals("twitter:image:src")) {
                        result.add(new URL(el.attr("content")));
                        return result;
                    }
                }
            } catch (IOException ex) {
                logger.error("[!] Error", ex);
            }
            
        }
        
        logger.error("[!] Unable to rip URL: " + url);
        return result;
    }
    
    public static Pattern getURLRegex() {
        return Pattern.compile("(https?://[a-zA-Z0-9\\-\\.]+\\.[a-zA-Z]{2,3}(/\\S*))");
    }
}
Reddit support 2014-03-11 09:29:59 +01:00			`package com.rarchives.ripme.utils;`

			`import java.io.IOException;`
			`import java.net.MalformedURLException;`
			`import java.net.URL;`
			`import java.util.ArrayList;`
			`import java.util.List;`
			`import java.util.regex.Matcher;`
			`import java.util.regex.Pattern;`

			`import org.apache.log4j.Logger;`
Get proper imgur file extension when ripping reddit albums 2014-05-23 04:41:13 +02:00			`import org.jsoup.Jsoup;`
			`import org.jsoup.nodes.Document;`
			`import org.jsoup.nodes.Element;`
Reddit support 2014-03-11 09:29:59 +01:00
Get proper imgur file extension when ripping reddit albums 2014-05-23 04:41:13 +02:00			`import com.rarchives.ripme.ripper.AbstractRipper;`
Reddit support 2014-03-11 09:29:59 +01:00			`import com.rarchives.ripme.ripper.rippers.ImgurRipper;`
1.0.70 Reddit ripper retrieves gfycat and vidble links As requested in #8 2014-06-25 11:03:47 +02:00			`import com.rarchives.ripme.ripper.rippers.VidbleRipper;`
Imgur ripper overhaul, image titles saved to filename #17 Still no album title = directory yet 2014-04-13 01:53:49 +02:00			`import com.rarchives.ripme.ripper.rippers.ImgurRipper.ImgurAlbum;`
			`import com.rarchives.ripme.ripper.rippers.ImgurRipper.ImgurImage;`
1.0.70 Reddit ripper retrieves gfycat and vidble links As requested in #8 2014-06-25 11:03:47 +02:00			`import com.rarchives.ripme.ripper.rippers.video.GfycatRipper;`
Reddit support 2014-03-11 09:29:59 +01:00
			`public class RipUtils {`
			`private static final Logger logger = Logger.getLogger(RipUtils.class);`

			`public static List<URL> getFilesFromURL(URL url) {`
			`List<URL> result = new ArrayList<URL>();`

fix regex on reddit ripper & chan ripper closes #89 2014-07-20 09:45:40 +02:00			`logger.debug("Checking " + url);`
Reddit support 2014-03-11 09:29:59 +01:00			`// Imgur album`
1.0.70 Reddit ripper retrieves gfycat and vidble links As requested in #8 2014-06-25 11:03:47 +02:00			`if ((url.getHost().endsWith("imgur.com"))`
Fixed Imgur URLs not being recognized in some cases 2014-03-13 20:14:51 +01:00			`&& url.toExternalForm().contains("imgur.com/a/")) {`
Reddit support 2014-03-11 09:29:59 +01:00			`try {`
Imgur ripper overhaul, image titles saved to filename #17 Still no album title = directory yet 2014-04-13 01:53:49 +02:00			`ImgurAlbum imgurAlbum = ImgurRipper.getImgurAlbum(url);`
			`for (ImgurImage imgurImage : imgurAlbum.images) {`
			`result.add(imgurImage.url);`
			`}`
Reddit support 2014-03-11 09:29:59 +01:00			`} catch (IOException e) {`
			`logger.error("[!] Exception while loading album " + url, e);`
			`}`
1.0.70 Reddit ripper retrieves gfycat and vidble links As requested in #8 2014-06-25 11:03:47 +02:00			`return result;`
			`}`
			`else if (url.getHost().endsWith("gfycat.com")) {`
			`try {`
			`String videoURL = GfycatRipper.getVideoURL(url);`
			`result.add(new URL(videoURL));`
			`} catch (IOException e) {`
			`// Do nothing`
			`logger.warn("Exception while retrieving gfycat page:", e);`
			`}`
			`return result;`
			`}`
			`else if (url.toExternalForm().contains("vidble.com/album/")) {`
			`try {`
			`result.addAll(VidbleRipper.getURLsFromPage(url));`
			`} catch (IOException e) {`
			`// Do nothing`
			`logger.warn("Exception while retrieving vidble page:", e);`
			`}`
			`return result;`
Reddit support 2014-03-11 09:29:59 +01:00			`}`

			`// Direct link to image`
fix regex on reddit ripper & chan ripper closes #89 2014-07-20 09:45:40 +02:00			`Pattern p = Pattern.compile("(https?://[a-zA-Z0-9\\-\\.]+\\.[a-zA-Z]{2,3}(/\\S)\\.(jpg\|jpeg\|gif\|png\|mp4)(\\?.)?)");`
Reddit support 2014-03-11 09:29:59 +01:00			`Matcher m = p.matcher(url.toExternalForm());`
			`if (m.matches()) {`
			`try {`
			`URL singleURL = new URL(m.group(1));`
			`result.add(singleURL);`
			`return result;`
			`} catch (MalformedURLException e) {`
			`logger.error("[!] Not a valid URL: '" + url + "'", e);`
			`}`
			`}`

fix regex on reddit ripper & chan ripper closes #89 2014-07-20 09:45:40 +02:00			`if (url.getHost().equals("imgur.com") \|\|`
Fixed Imgur URLs not being recognized in some cases 2014-03-13 20:14:51 +01:00			`url.getHost().equals("m.imgur.com")){`
			`try {`
Get proper imgur file extension when ripping reddit albums 2014-05-23 04:41:13 +02:00			`// Fetch the page`
			`Document doc = Jsoup.connect(url.toExternalForm())`
			`.userAgent(AbstractRipper.USER_AGENT)`
			`.get();`
			`for (Element el : doc.select("meta")) {`
Get full-size imgur images when ripping reddit users Closes #142 2015-01-11 09:40:56 +01:00			`if (el.attr("name").equals("twitter:image:src")) {`
Get proper imgur file extension when ripping reddit albums 2014-05-23 04:41:13 +02:00			`result.add(new URL(el.attr("content")));`
			`return result;`
			`}`
			`}`
			`} catch (IOException ex) {`
			`logger.error("[!] Error", ex);`
Fixed Imgur URLs not being recognized in some cases 2014-03-13 20:14:51 +01:00			`}`

			`}`

Reddit support 2014-03-11 09:29:59 +01:00			`logger.error("[!] Unable to rip URL: " + url);`
			`return result;`
			`}`

			`public static Pattern getURLRegex() {`
			`return Pattern.compile("(https?://[a-zA-Z0-9\\-\\.]+\\.[a-zA-Z]{2,3}(/\\S*))");`
			`}`
			`}`