狠狠色丁香婷婷综合尤物/久久精品综合一区二区三区/中国有色金属学报/国产日韩欧美在线观看 - 国产一区二区三区四区五区tv

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發文檔 其他文檔  
 
網站管理員

爬蟲實戰:從HTTP請求獲取數據解析社區

admin
2024年3月27日 0:3 本文熱度 1073

在過去的實踐中,我們通常通過爬取HTML網頁來解析并提取所需數據,然而這只是一種方法。另一種更為直接的方式是通過發送HTTP請求來獲取數據。考慮到大多數常見服務商的數據都是通過HTTP接口封裝的,因此我們今天的討論主題是如何通過調用接口來獲取所需數據。

目前來看,大多數的http接口數據都采用restful風格,通常使用JSON格式來發送和接收數據。對于那些對此不太了解的零基礎學者,建議先學習相關知識點。在本章學習過程中,我們將主要以騰訊云開發者社區作為主要平臺,練習爬取接口數據。

接口爬取

接口爬取并不復雜,首先需要在瀏覽器中打開騰訊云社區的網頁,然后按下F12打開控制臺,接著瀏覽控制臺中的請求數據接口,有些接口可能一眼難以識別,但通常可以跳過細致查看,因為在開發過程中,最關鍵的是能從名稱中直觀理解其作用,大型公司通常設計得相當清晰。我們首先嘗試爬取主頁的活動數據。

image

我們可以選擇使用XHR來單獨查看請求,這樣就能排除掉頁面、js、css等無關的請求,逐個檢查接口,找到我們需要的內容。這個特定接口就是我們必須記住的,其他的都是多余的。

便利工具

在這里,我們想向大家介紹一個非常實用的開發爬蟲工具,它就是https://curlconverter.com/

我是通過偶然的機會發現了這個工具的,它的確大大提升了我的爬蟲效率。通常情況下,當我們找到了需要爬取的接口時,我們需要編寫Python代碼來發起請求,可能還要處理各種請求頭和cookie,這一過程會消耗大量時間。而這個工具則幫助我們省去了這些繁瑣的步驟,使得整個過程變得更加高效。

首先,我們在后臺查找到目標請求,然后通過右鍵點擊復制該請求。以Edge瀏覽器為例,具體操作如下所示:

image

在將內容復制后,我們可以直接前往這個在線工具網站,將其粘貼進去,從而生成相應的Python代碼。這里以使用requests庫為例進行演示。當你瀏覽該網站時,你可以選擇你喜歡的任何編程語言進行相應代碼的生成。

image

我們只需簡單地將其復制粘貼到IDE中,然后便可直接運行代碼。

社區首頁

一旦我們掌握了這種方法,基本上就可以獲取想要爬取的所有數據,只要避免頻繁請求而被識別為機器人爬蟲。讓我們首先嘗試爬取社區首頁的文章,以了解今年哪些類別的文章備受關注。以下是示例代碼:

import datetime
import requests

ad_list = []
article_list = []
article_total = 0
def get_article_list(pageNumber):
    global article_total,article_list
    ## 這里不需要cookie也是可以的。
    headers = {
        'authority''cloud.tencent.com',
        'accept''application/json, text/plain, */*',
        'accept-language''zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'content-type''application/json',
        'cookie''qcloud_uid=3db7bb7a1663470df3290f692c4a7206; language=zh; lastLoginIdentity=e382a0dd45ecf7f063e05751e7321e14; _ga_6WSZ0YS5ZQ=GS1.1.1685003902.1.1.1685004114.0.0.0; loginType=email; _ga_7PG2H0XLX2=GS1.2.1705284469.2.1.1705284470.59.0.0; lastLoginType=email; _gcl_au=1.1.315225951.1705902067; _ga_95GG3X2GMT=GS1.1.1707206895.14.0.1707212112.0.0.0; _ga=GA1.2.100014169188; mfaRMId=0092627a989e3ef79957c2257ea910f8; qcloud_from=qcloud.google.seo-1709083904498; qcstats_seo_keywords=%E5%93%81%E7%89%8C%E8%AF%8D-%E5%93%81%E7%89%8C%E8%AF%8D-%E8%85%BE%E8%AE%AF%E4%BA%91; from_column=20421; cpskey=1f39dac98ac4cc96c6503bdb4f49994f; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%22100014169188%22%2C%22first_id%22%3A%221878e0e485111b-0be585a75d9ef-7e57547d-2073600-1878e0e4852ec0%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_utm_medium%22%3A%22ocpc%22%7D%2C%22identities%22%3A%22eyIkaWRlbnRpdHlfY29va2llX2lkIjoiMTg3OGUwZTQ4NTExMWItMGJlNTg1YTc1ZDllZi03ZTU3NTQ3ZC0yMDczNjAwLTE4NzhlMGU0ODUyZWMwIiwiJGlkZW50aXR5X2xvZ2luX2lkIjoiMTAwMDE0MTY5MTg4In0%3D%22%2C%22history_login_id%22%3A%7B%22name%22%3A%22%24identity_login_id%22%2C%22value%22%3A%22100014169188%22%7D%2C%22%24device_id%22%3A%221878e0e485111b-0be585a75d9ef-7e57547d-2073600-1878e0e4852ec0%22%7D; qcmainCSRFToken=NSsz_8Bfx1S_; qcloud_visitId=3e799aa8be55222ade40e7ab9b8be875; intl=; _gat=1; trafficParams=***%24%3Btimestamp%3D1710467373372%3Bfrom_type%3Dserver%3Btrack%3Da7699f0f-3309-4c6b-9740-475f6c5f11ba%3B%24***',
        'origin''https://cloud.tencent.com',
        'referer''https://cloud.tencent.com/developer',
        'sec-ch-ua''"Chromium";v="122", "Not(A:Brand";v="24", "Microsoft Edge";v="122"',
        'sec-ch-ua-mobile''?0',
        'sec-ch-ua-platform''"Windows"',
        'sec-fetch-dest''empty',
        'sec-fetch-mode''cors',
        'sec-fetch-site''same-origin',
        'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0',
    }

    json_data = {
        'pageNumber': pageNumber,
        'pageSize'100,
        'type''recommend'## 文章是否被推薦到首頁
    }

    response = requests.post(
        'https://cloud.tencent.com/developer/api/home/article-list',
        headers=headers,
        json=json_data,
    )
    news_list = response.json()
    for article in news_list['list']:
        ## 處理一下文章的類別
        handle_tag(article)
        ## 可以自己解析首頁的文章,只拿你想要的
        article_list.append({
            "article_title": article['title'],
            "article_date": article['createTime'],
            "article_summary": article['summary']
        })
    article_total = news_list['total']
    fixed_time = datetime.datetime(202311)
    timestamp = int(fixed_time.timestamp())
    print(f'{article_list[-1]["article_date"]}{timestamp}')
    ## 判斷一下是否已經是最后一頁
    return 0 if article_list[-1]['article_date'] < timestamp else 1

def handle_tag(article):
    # 遍歷解析后的數據,統計每個tagName的數據量
    for item in article['tags']:
        tag_name = item["tagName"]
        if tag_name in tag_counts:
            tag_counts[tag_name] += 1
        else:
            tag_counts[tag_name] = 1

def get_top_10():
    # 根據數據量對tagName進行排序
    sorted_tag_counts = sorted(tag_counts.items(), key=lambda x: x[1], reverse=True)

    # 取前10個tagName
    top_10_tags = sorted_tag_counts[:10]

    # 打印前10個tagName的數據量統計
    for tag, count in top_10_tags:
        print(f"{tag}{count}")

page_num = 1
while True:
    num = get_article_list(page_num)
    page_num = page_num + 1
    if num == 0:
        break
    
get_top_10()

代碼首先通過API獲取文章列表數據,然后遍歷每篇文章的標簽信息,統計每個標簽出現的次數,最后輸出每個標簽和其對應的數據量。這樣可以幫助用戶了解哪些標簽在文章中出現頻率較高。除了這些,我還額外處理輪播活動的數據,獲取更全面的活動信息。

import datetime
import requests

ad_list = []
def get_ads():
    global ad_list
    headers = {
        'authority''cloud.tencent.com',
        'accept''application/json, text/plain, */*',
        'accept-language''zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'content-type''application/json',
        'origin''https://cloud.tencent.com',
        'referer''https://cloud.tencent.com/developer',
        'sec-ch-ua''"Chromium";v="122", "Not(A:Brand";v="24", "Microsoft Edge";v="122"',
        'sec-ch-ua-mobile''?0',
        'sec-ch-ua-platform''"Windows"',
        'sec-fetch-dest''empty',
        'sec-fetch-mode''cors',
        'sec-fetch-site''same-origin',
        'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0',
    }

    json_data = {
        'cate''cloud_banner',
        'preview'False
    }

    response = requests.post('https://cloud.tencent.com/developer/api/common/getAds', headers=headers, json=json_data)
    news_list = response.json()
    ad_list = [{'pcTitle': item['content']['pcTitle'], 'url': item['content']['url']} for item in news_list['list']]
get_ads()
print(ad_list)

我的文章

如果我們希望對我們自己的文章進行分析和處理,首先需要進行登錄。原本我打算嘗試通過編寫代碼實現免登錄,但是仔細研究后臺 JavaScript 和登錄驗證后發現實現起來涉及的內容過多,對我們這樣以學習為主的學者來說并不適合。

確保我已經登錄的標識是通過 cookie 實現的。Cookie 在這里的作用是保持用戶登錄狀態,使用戶在不同頁面之間保持登錄狀態。由于 HTTP 是無狀態的,需要一種方法來保持會話連接,而這種方法就是使用 Cookie。對于請求來說,Cookie 就是一串字符串,服務器會自動解析它,無需我們手動管理。因此,我只需在網頁登錄后使用工具復制粘貼 Cookie 即可。盡管我花費了一整天,但仍未成功編寫代碼實現登錄并獲取 Cookie。因此,我們最好選擇最簡單的方法。

示例代碼如下:

import requests
def get_my_article(page_num):
    headers = {
        'authority''cloud.tencent.com',
        'accept''application/json, text/plain, */*',
        'accept-language''zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'content-type''application/json',
        'cookie''',# 這里需要復粘貼你自己的cookie。
        'origin''https://cloud.tencent.com',
        'referer''https://cloud.tencent.com/developer/creator/article',
        'sec-ch-ua''"Chromium";v="122", "Not(A:Brand";v="24", "Microsoft Edge";v="122"',
        'sec-ch-ua-mobile''?0',
        'sec-ch-ua-platform''"Windows"',
        'sec-fetch-dest''empty',
        'sec-fetch-mode''cors',
        'sec-fetch-site''same-origin',
        'user-agent''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0',
    }
    page_size = 20
    json_data = {
        'hostStatus'0,
        'sortType''create',
        'page': page_num,
        'pagesize': page_size,
    }

    response = requests.post(
        'https://cloud.tencent.com/developer/api/creator/articleList',
        headers=headers,
        json=json_data,
    )
    news_list = response.json()
    for article in news_list['list']:
        # handle_tag(article)
        # 這里我就不解析了,簡單打印一下吧。
        my_article_list.append({
            "article_title": article['title'],
            "article_date": article['createTime'],
            "article_summary": article['summary']
        })
    article_total = news_list['total']
    if page_num*page_size > article_total:
        return 0
    else:
        return 1

在這個函數中,參數page_num代表著要獲取的文章列表頁數。請務必留意,請求頭中的headers需要包含用戶自行提供的Cookie信息,這樣才能確保程序正常運行。您可以在這里獲取到Cookie信息,只需將其復制粘貼即可。詳見下圖:

image

總結

在過去的實踐中,我們常常通過爬取HTML網頁來解析和提取數據,因此今天我們討論了如何通過調用接口來獲取所需數據。本文通過示例代碼展示了如何爬取社區首頁的文章和活動數據,以及如何爬取自己的文章列表。通過這些實踐,我們可以更好地理解和運用接口爬取技術。


該文章在 2024/3/27 8:59:04 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。
點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理,結合碼頭的業務特點,圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業的高效ERP管理信息系統。
點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。
Copyright 2010-2025 ClickSun All Rights Reserved