[mixcloud] improve extraction

- improve metadata extraction(closes #11721) - fix playlist extraction(closes #22378) - fix user mixes extraction(closes #15197)(closes #17865)
2019-11-06 20:41:49 +01:00
parent 55adb63e54
commit 5d92b407e0
2 changed files with 225 additions and 274 deletions
--- a/youtube_dl/extractor/extractors.py
+++ b/youtube_dl/extractor/extractors.py
@@ -639,7 +639,6 @@ from .mixcloud import (
    MixcloudIE,
    MixcloudUserIE,
    MixcloudPlaylistIE,
    MixcloudStreamIE,
 )
 from .mlb import MLBIE
 from .mnet import MnetIE
--- a/youtube_dl/extractor/mixcloud.py
+++ b/youtube_dl/extractor/mixcloud.py
@@ -1,6 +1,5 @@
 from __future__ import unicode_literals
 import functools
 import itertools
 import re
@@ -11,28 +10,37 @@ from ..compat import (
    compat_ord,
    compat_str,
    compat_urllib_parse_unquote,
    compat_urlparse,
    compat_zip
 )
 from ..utils import (
    clean_html,
    ExtractorError,
    int_or_none,
-    OnDemandPagedList,
+    parse_iso8601,
-    str_to_int,
+    strip_or_none,
    try_get,
    urljoin,
 )
-class MixcloudIE(InfoExtractor):
+class MixcloudBaseIE(InfoExtractor):
    def _call_api(self, object_type, object_fields, display_id, username, slug=None):
        lookup_key = object_type + 'Lookup'
        return self._download_json(
            'https://www.mixcloud.com/graphql', display_id, query={
                'query': '''{
  %s(lookup: {username: "%s"%s}) {
    %s
  }
 }''' % (lookup_key, username, ', slug: "%s"' % slug if slug else '', object_fields)
            })['data'][lookup_key]
 class MixcloudIE(MixcloudBaseIE):
    _VALID_URL = r'https?://(?:(?:www|beta|m)\.)?mixcloud\.com/([^/]+)/(?!stream|uploads|favorites|listens|playlists)([^/]+)'
    IE_NAME = 'mixcloud'
    _TESTS = [{
        'url': 'http://www.mixcloud.com/dholbach/cryptkeeper/',
        'info_dict': {
-            'id': 'dholbach-cryptkeeper',
+            'id': 'dholbach_cryptkeeper',
            'ext': 'm4a',
            'title': 'Cryptkeeper',
            'description': 'After quite a long silence from myself, finally another Drum\'n\'Bass mix with my favourite current dance floor bangers.',
@@ -40,11 +48,13 @@ class MixcloudIE(InfoExtractor):
            'uploader_id': 'dholbach',
            'thumbnail': r're:https?://.*\.jpg',
            'view_count': int,
            'timestamp': 1321359578,
            'upload_date': '20111115',
        },
    }, {
        'url': 'http://www.mixcloud.com/gillespeterson/caribou-7-inch-vinyl-mix-chat/',
        'info_dict': {
-            'id': 'gillespeterson-caribou-7-inch-vinyl-mix-chat',
+            'id': 'gillespeterson_caribou-7-inch-vinyl-mix-chat',
            'ext': 'mp3',
            'title': 'Caribou 7 inch Vinyl Mix & Chat',
            'description': 'md5:2b8aec6adce69f9d41724647c65875e8',
@@ -52,11 +62,14 @@ class MixcloudIE(InfoExtractor):
            'uploader_id': 'gillespeterson',
            'thumbnail': 're:https?://.*',
            'view_count': int,
            'timestamp': 1422987057,
            'upload_date': '20150203',
        },
    }, {
        'url': 'https://beta.mixcloud.com/RedLightRadio/nosedrip-15-red-light-radio-01-18-2016/',
        'only_matching': True,
    }]
    _DECRYPTION_KEY = 'IFYOUWANTTHEARTISTSTOGETPAIDDONOTDOWNLOADFROMMIXCLOUD'
    @staticmethod
    def _decrypt_xor_cipher(key, ciphertext):
@@ -66,177 +79,193 @@ class MixcloudIE(InfoExtractor):
            for ch, k in compat_zip(ciphertext, itertools.cycle(key))])
    def _real_extract(self, url):
-        mobj = re.match(self._VALID_URL, url)
+        username, slug = re.match(self._VALID_URL, url).groups()
-        uploader = mobj.group(1)
+        username, slug = compat_urllib_parse_unquote(username), compat_urllib_parse_unquote(slug)
-        cloudcast_name = mobj.group(2)
+        track_id = '%s_%s' % (username, slug)
        track_id = compat_urllib_parse_unquote('-'.join((uploader, cloudcast_name)))
-        webpage = self._download_webpage(url, track_id)
+        cloudcast = self._call_api('cloudcast', '''audioLength
    comments(first: 100) {
      edges {
        node {
          comment
          created
          user {
            displayName
            username
          }
        }
      }
      totalCount
    }
    description
    favorites {
      totalCount
    }
    featuringArtistList
    isExclusive
    name
    owner {
      displayName
      url
      username
    }
    picture(width: 1024, height: 1024) {
        url
    }
    plays
    publishDate
    reposts {
      totalCount
    }
    streamInfo {
      dashUrl
      hlsUrl
      url
    }
    tags {
      tag {
        name
      }
    }''', track_id, username, slug)
-        # Legacy path
+        title = cloudcast['name']
        encrypted_play_info = self._search_regex(
            r'm-play-info="([^"]+)"', webpage, 'play info', default=None)
-        if encrypted_play_info is not None:
+        stream_info = cloudcast['streamInfo']
-            # Decode
+        formats = []
            encrypted_play_info = compat_b64decode(encrypted_play_info)
        else:
            # New path
            full_info_json = self._parse_json(self._html_search_regex(
                r'<script id="relay-data" type="text/x-mixcloud">([^<]+)</script>',
                webpage, 'play info'), 'play info')
            for item in full_info_json:
                item_data = try_get(item, [
                    lambda x: x['cloudcast']['data']['cloudcastLookup'],
                    lambda x: x['cloudcastLookup']['data']['cloudcastLookup'],
                ], dict)
                if try_get(item_data, lambda x: x['streamInfo']['url']):
                    info_json = item_data
                    break
            else:
                raise ExtractorError('Failed to extract matching stream info')
-        message = self._html_search_regex(
+        for url_key in ('url', 'hlsUrl', 'dashUrl'):
-            r'(?s)<div[^>]+class="global-message cloudcast-disabled-notice-light"[^>]*>(.+?)<(?:a|/div)',
+            format_url = stream_info.get(url_key)
-            webpage, 'error message', default=None)
+            if not format_url:
        js_url = self._search_regex(
            r'<script[^>]+\bsrc=["\"](https://(?:www\.)?mixcloud\.com/media/(?:js2/www_js_4|js/www)\.[^>]+\.js)',
            webpage, 'js url')
        js = self._download_webpage(js_url, track_id, 'Downloading JS')
        # Known plaintext attack
        if encrypted_play_info:
            kps = ['{"stream_url":']
            kpa_target = encrypted_play_info
        else:
            kps = ['https://', 'http://']
            kpa_target = compat_b64decode(info_json['streamInfo']['url'])
        for kp in kps:
            partial_key = self._decrypt_xor_cipher(kpa_target, kp)
            for quote in ["'", '"']:
                key = self._search_regex(
                    r'{0}({1}[^{0}]*){0}'.format(quote, re.escape(partial_key)),
                    js, 'encryption key', default=None)
                if key is not None:
                    break
            else:
                continue
-            break
+            decrypted = self._decrypt_xor_cipher(
-        else:
+                self._DECRYPTION_KEY, compat_b64decode(format_url))
-            raise ExtractorError('Failed to extract encryption key')
+            if url_key == 'hlsUrl':
                formats.extend(self._extract_m3u8_formats(
                    decrypted, track_id, 'mp4', entry_protocol='m3u8_native',
                    m3u8_id='hls', fatal=False))
            elif url_key == 'dashUrl':
                formats.extend(self._extract_mpd_formats(
                    decrypted, track_id, mpd_id='dash', fatal=False))
            else:
                formats.append({
                    'format_id': 'http',
                    'url': decrypted,
                    'downloader_options': {
                        # Mixcloud starts throttling at >~5M
                        'http_chunk_size': 5242880,
                    },
                })
-        if encrypted_play_info is not None:
+        if not formats and cloudcast.get('isExclusive'):
-            play_info = self._parse_json(self._decrypt_xor_cipher(key, encrypted_play_info), 'play info')
+            self.raise_login_required()
            if message and 'stream_url' not in play_info:
                raise ExtractorError('%s said: %s' % (self.IE_NAME, message), expected=True)
            song_url = play_info['stream_url']
            formats = [{
                'format_id': 'normal',
                'url': song_url
            }]
-            title = self._html_search_regex(r'm-title="([^"]+)"', webpage, 'title')
+        self._sort_formats(formats)
            thumbnail = self._proto_relative_url(self._html_search_regex(
                r'm-thumbnail-url="([^"]+)"', webpage, 'thumbnail', fatal=False))
            uploader = self._html_search_regex(
                r'm-owner-name="([^"]+)"', webpage, 'uploader', fatal=False)
            uploader_id = self._search_regex(
                r'\s+"profile": "([^"]+)",', webpage, 'uploader id', fatal=False)
            description = self._og_search_description(webpage)
            view_count = str_to_int(self._search_regex(
                [r'<meta itemprop="interactionCount" content="UserPlays:([0-9]+)"',
                 r'/listeners/?">([0-9,.]+)</a>',
                 r'(?:m|data)-tooltip=["\']([\d,.]+) plays'],
                webpage, 'play count', default=None))
-        else:
+        comments = []
-            title = info_json['name']
+        for edge in (try_get(cloudcast, lambda x: x['comments']['edges']) or []):
-            thumbnail = urljoin(
+            node = edge.get('node') or {}
-                'https://thumbnailer.mixcloud.com/unsafe/600x600/',
+            text = strip_or_none(node.get('comment'))
-                try_get(info_json, lambda x: x['picture']['urlRoot'], compat_str))
+            if not text:
-            uploader = try_get(info_json, lambda x: x['owner']['displayName'])
+                continue
-            uploader_id = try_get(info_json, lambda x: x['owner']['username'])
+            user = node.get('user') or {}
-            description = try_get(info_json, lambda x: x['description'])
+            comments.append({
-            view_count = int_or_none(try_get(info_json, lambda x: x['plays']))
+                'author': user.get('displayName'),
                'author_id': user.get('username'),
                'text': text,
                'timestamp': parse_iso8601(node.get('created')),
            })
-            stream_info = info_json['streamInfo']
+        tags = []
-            formats = []
+        for t in cloudcast.get('tags'):
            tag = try_get(t, lambda x: x['tag']['name'], compat_str)
            if not tag:
                tags.append(tag)
-            def decrypt_url(f_url):
+        get_count = lambda x: int_or_none(try_get(cloudcast, lambda y: y[x]['totalCount']))
                for k in (key, 'IFYOUWANTTHEARTISTSTOGETPAIDDONOTDOWNLOADFROMMIXCLOUD'):
                    decrypted_url = self._decrypt_xor_cipher(k, f_url)
                    if re.search(r'^https?://[0-9A-Za-z.]+/[0-9A-Za-z/.?=&_-]+$', decrypted_url):
                        return decrypted_url
-            for url_key in ('url', 'hlsUrl', 'dashUrl'):
+        owner = cloudcast.get('owner') or {}
                format_url = stream_info.get(url_key)
                if not format_url:
                    continue
                decrypted = decrypt_url(compat_b64decode(format_url))
                if not decrypted:
                    continue
                if url_key == 'hlsUrl':
                    formats.extend(self._extract_m3u8_formats(
                        decrypted, track_id, 'mp4', entry_protocol='m3u8_native',
                        m3u8_id='hls', fatal=False))
                elif url_key == 'dashUrl':
                    formats.extend(self._extract_mpd_formats(
                        decrypted, track_id, mpd_id='dash', fatal=False))
                else:
                    formats.append({
                        'format_id': 'http',
                        'url': decrypted,
                        'downloader_options': {
                            # Mixcloud starts throttling at >~5M
                            'http_chunk_size': 5242880,
                        },
                    })
            self._sort_formats(formats)
        return {
            'id': track_id,
            'title': title,
            'formats': formats,
-            'description': description,
+            'description': cloudcast.get('description'),
-            'thumbnail': thumbnail,
+            'thumbnail': try_get(cloudcast, lambda x: x['picture']['url'], compat_str),
-            'uploader': uploader,
+            'uploader': owner.get('displayName'),
-            'uploader_id': uploader_id,
+            'timestamp': parse_iso8601(cloudcast.get('publishDate')),
-            'view_count': view_count,
+            'uploader_id': owner.get('username'),
            'uploader_url': owner.get('url'),
            'duration': int_or_none(cloudcast.get('audioLength')),
            'view_count': int_or_none(cloudcast.get('plays')),
            'like_count': get_count('favorites'),
            'repost_count': get_count('reposts'),
            'comment_count': get_count('comments'),
            'comments': comments,
            'tags': tags,
            'artist': ', '.join(cloudcast.get('featuringArtistList') or []) or None,
        }
-class MixcloudPlaylistBaseIE(InfoExtractor):
+class MixcloudPlaylistBaseIE(MixcloudBaseIE):
-    _PAGE_SIZE = 24
+    def _get_cloudcast(self, node):
        return node
-    def _find_urls_in_page(self, page):
+    def _get_playlist_title(self, title, slug):
-        for url in re.findall(r'm-play-button m-url="(?P<url>[^"]+)"', page):
+        return title
            yield self.url_result(
                compat_urlparse.urljoin('https://www.mixcloud.com', clean_html(url)),
                MixcloudIE.ie_key())
-    def _fetch_tracks_page(self, path, video_id, page_name, current_page, real_page_number=None):
+    def _real_extract(self, url):
-        real_page_number = real_page_number or current_page + 1
+        username, slug = re.match(self._VALID_URL, url).groups()
-        return self._download_webpage(
+        username = compat_urllib_parse_unquote(username)
-            'https://www.mixcloud.com/%s/' % path, video_id,
+        if not slug:
-            note='Download %s (page %d)' % (page_name, current_page + 1),
+            slug = 'uploads'
-            errnote='Unable to download %s' % page_name,
+        else:
-            query={'page': real_page_number, 'list': 'main', '_ajax': '1'},
+            slug = compat_urllib_parse_unquote(slug)
-            headers={'X-Requested-With': 'XMLHttpRequest'})
+        playlist_id = '%s_%s' % (username, slug)
-    def _tracks_page_func(self, page, video_id, page_name, current_page):
+        is_playlist_type = self._ROOT_TYPE == 'playlist'
-        resp = self._fetch_tracks_page(page, video_id, page_name, current_page)
+        playlist_type = 'items' if is_playlist_type else slug
        list_filter = ''
-        for item in self._find_urls_in_page(resp):
+        has_next_page = True
-            yield item
+        entries = []
        while has_next_page:
            playlist = self._call_api(
                self._ROOT_TYPE, '''%s
    %s
    %s(first: 100%s) {
      edges {
        node {
          %s
        }
      }
      pageInfo {
        endCursor
        hasNextPage
      }
    }''' % (self._TITLE_KEY, self._DESCRIPTION_KEY, playlist_type, list_filter, self._NODE_TEMPLATE),
                playlist_id, username, slug if is_playlist_type else None)
-    def _get_user_description(self, page_content):
+            items = playlist.get(playlist_type) or {}
-        return self._html_search_regex(
+            for edge in items.get('edges', []):
-            r'<div[^>]+class="profile-bio"[^>]*>(.+?)</div>',
+                cloudcast = self._get_cloudcast(edge.get('node') or {})
-            page_content, 'user description', fatal=False)
+                cloudcast_url = cloudcast.get('url')
                if not cloudcast_url:
                    continue
                entries.append(self.url_result(
                    cloudcast_url, MixcloudIE.ie_key(), cloudcast.get('slug')))
            page_info = items['pageInfo']
            has_next_page = page_info['hasNextPage']
            list_filter = ', after: "%s"' % page_info['endCursor']
        return self.playlist_result(
            entries, playlist_id,
            self._get_playlist_title(playlist[self._TITLE_KEY], slug),
            playlist.get(self._DESCRIPTION_KEY))
 class MixcloudUserIE(MixcloudPlaylistBaseIE):
-    _VALID_URL = r'https?://(?:www\.)?mixcloud\.com/(?P<user>[^/]+)/(?P<type>uploads|favorites|listens)?/?$'
+    _VALID_URL = r'https?://(?:www\.)?mixcloud\.com/(?P<id>[^/]+)/(?P<type>uploads|favorites|listens|stream)?/?$'
    IE_NAME = 'mixcloud:user'
    _TESTS = [{
@@ -244,68 +273,58 @@ class MixcloudUserIE(MixcloudPlaylistBaseIE):
        'info_dict': {
            'id': 'dholbach_uploads',
            'title': 'Daniel Holbach (uploads)',
-            'description': 'md5:def36060ac8747b3aabca54924897e47',
+            'description': 'md5:b60d776f0bab534c5dabe0a34e47a789',
        },
-        'playlist_mincount': 11,
+        'playlist_mincount': 36,
    }, {
        'url': 'http://www.mixcloud.com/dholbach/uploads/',
        'info_dict': {
            'id': 'dholbach_uploads',
            'title': 'Daniel Holbach (uploads)',
-            'description': 'md5:def36060ac8747b3aabca54924897e47',
+            'description': 'md5:b60d776f0bab534c5dabe0a34e47a789',
        },
-        'playlist_mincount': 11,
+        'playlist_mincount': 36,
    }, {
        'url': 'http://www.mixcloud.com/dholbach/favorites/',
        'info_dict': {
            'id': 'dholbach_favorites',
            'title': 'Daniel Holbach (favorites)',
-            'description': 'md5:def36060ac8747b3aabca54924897e47',
+            'description': 'md5:b60d776f0bab534c5dabe0a34e47a789',
        },
-        'params': {
+        # 'params': {
-            'playlist_items': '1-100',
+        #     'playlist_items': '1-100',
-        },
+        # },
-        'playlist_mincount': 100,
+        'playlist_mincount': 396,
    }, {
        'url': 'http://www.mixcloud.com/dholbach/listens/',
        'info_dict': {
            'id': 'dholbach_listens',
            'title': 'Daniel Holbach (listens)',
-            'description': 'md5:def36060ac8747b3aabca54924897e47',
+            'description': 'md5:b60d776f0bab534c5dabe0a34e47a789',
        },
-        'params': {
+        # 'params': {
-            'playlist_items': '1-100',
+        #     'playlist_items': '1-100',
        # },
        'playlist_mincount': 1623,
        'skip': 'Large list',
    }, {
        'url': 'https://www.mixcloud.com/FirstEar/stream/',
        'info_dict': {
            'id': 'FirstEar_stream',
            'title': 'First Ear (stream)',
            'description': 'Curators of good music\r\n\r\nfirstearmusic.com',
        },
-        'playlist_mincount': 100,
+        'playlist_mincount': 271,
    }]
-    def _real_extract(self, url):
+    _TITLE_KEY = 'displayName'
-        mobj = re.match(self._VALID_URL, url)
+    _DESCRIPTION_KEY = 'biog'
-        user_id = mobj.group('user')
+    _ROOT_TYPE = 'user'
-        list_type = mobj.group('type')
+    _NODE_TEMPLATE = '''slug
          url'''
-        # if only a profile URL was supplied, default to download all uploads
+    def _get_playlist_title(self, title, slug):
-        if list_type is None:
+        return '%s (%s)' % (title, slug)
            list_type = 'uploads'
        video_id = '%s_%s' % (user_id, list_type)
        profile = self._download_webpage(
            'https://www.mixcloud.com/%s/' % user_id, video_id,
            note='Downloading user profile',
            errnote='Unable to download user profile')
        username = self._og_search_title(profile)
        description = self._get_user_description(profile)
        entries = OnDemandPagedList(
            functools.partial(
                self._tracks_page_func,
                '%s/%s' % (user_id, list_type), video_id, 'list of %s' % list_type),
            self._PAGE_SIZE)
        return self.playlist_result(
            entries, video_id, '%s (%s)' % (username, list_type), description)
 class MixcloudPlaylistIE(MixcloudPlaylistBaseIE):
@@ -313,87 +332,20 @@ class MixcloudPlaylistIE(MixcloudPlaylistBaseIE):
    IE_NAME = 'mixcloud:playlist'
    _TESTS = [{
        'url': 'https://www.mixcloud.com/RedBullThre3style/playlists/tokyo-finalists-2015/',
        'info_dict': {
            'id': 'RedBullThre3style_tokyo-finalists-2015',
            'title': 'National Champions 2015',
            'description': 'md5:6ff5fb01ac76a31abc9b3939c16243a3',
        },
        'playlist_mincount': 16,
    }, {
        'url': 'https://www.mixcloud.com/maxvibes/playlists/jazzcat-on-ness-radio/',
        'only_matching': True,
    }]
    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        user_id = mobj.group('user')
        playlist_id = mobj.group('playlist')
        video_id = '%s_%s' % (user_id, playlist_id)
        webpage = self._download_webpage(
            url, user_id,
            note='Downloading playlist page',
            errnote='Unable to download playlist page')
        title = self._html_search_regex(
            r'<a[^>]+class="parent active"[^>]*><b>\d+</b><span[^>]*>([^<]+)',
            webpage, 'playlist title',
            default=None) or self._og_search_title(webpage, fatal=False)
        description = self._get_user_description(webpage)
        entries = OnDemandPagedList(
            functools.partial(
                self._tracks_page_func,
                '%s/playlists/%s' % (user_id, playlist_id), video_id, 'tracklist'),
            self._PAGE_SIZE)
        return self.playlist_result(entries, video_id, title, description)
 class MixcloudStreamIE(MixcloudPlaylistBaseIE):
    _VALID_URL = r'https?://(?:www\.)?mixcloud\.com/(?P<id>[^/]+)/stream/?$'
    IE_NAME = 'mixcloud:stream'
    _TEST = {
        'url': 'https://www.mixcloud.com/FirstEar/stream/',
        'info_dict': {
-            'id': 'FirstEar',
+            'id': 'maxvibes_jazzcat-on-ness-radio',
-            'title': 'First Ear',
+            'title': 'Ness Radio sessions',
            'description': 'Curators of good music\nfirstearmusic.com',
        },
-        'playlist_mincount': 192,
+        'playlist_mincount': 59,
-    }
+    }]
    _TITLE_KEY = 'name'
    _DESCRIPTION_KEY = 'description'
    _ROOT_TYPE = 'playlist'
    _NODE_TEMPLATE = '''cloudcast {
            slug
            url
          }'''
-    def _real_extract(self, url):
+    def _get_cloudcast(self, node):
-        user_id = self._match_id(url)
+        return node.get('cloudcast') or {}
        webpage = self._download_webpage(url, user_id)
        entries = []
        prev_page_url = None
        def _handle_page(page):
            entries.extend(self._find_urls_in_page(page))
            return self._search_regex(
                r'm-next-page-url="([^"]+)"', page,
                'next page URL', default=None)
        next_page_url = _handle_page(webpage)
        for idx in itertools.count(0):
            if not next_page_url or prev_page_url == next_page_url:
                break
            prev_page_url = next_page_url
            current_page = int(self._search_regex(
                r'\?page=(\d+)', next_page_url, 'next page number'))
            next_page_url = _handle_page(self._fetch_tracks_page(
                '%s/stream' % user_id, user_id, 'stream', idx,
                real_page_number=current_page))
        username = self._og_search_title(webpage)
        description = self._get_user_description(webpage)
        return self.playlist_result(entries, user_id, username, description)