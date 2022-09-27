この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。
import requests # 「pip install requests」などが必要
# GETメソッドによるWebページの取得
url = 'https://atmarkit.itmedia.co.jp/ait/articles/2209/20/news032.html'
res = requests.get(url)
# Webページの内容
print(res.text) # 出力結果は省略
# ステータスコード
print(res.status_code) # 200
# エンコーディング
print(res.encoding) # ISO-8859-1
print(res.apparent_encoding) # SHIFT_JIS
# レスポンスヘッダー
print(res.headers)
# 出力結果：
#{'Date': 'Thu, 22 Sep 2022 01:23:30 GMT', 'Content-Type': 'text/html',
# 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive',
# 'Server': 'nginx', 'Vary': 'Accept-Encoding',
# 'X-Frame-Options': 'SAMEORIGIN',
# 'Strict-Transport-Security': 'max-age=31536000', 'Content-Encoding': 'gzip'}
# レスポンスヘッダーの値は大文字小文字を区別しない辞書形式
print(res.headers['Content-Type']) # text/html
print(res.headers['content-type']) # text/html
# URLパラメーター
url = 'https://httpbin.org/get'
payload = {'key1': 10, 'key2': 'string'}
res = requests.get(url, params=payload)
print(res.url) # https://httpbin.org/get?key1=10&key2=string
# カスタムヘッダー
headers = {'user-agent': 'Mozilla/5.0'}
res = requests.get(url, headers=headers)
print(res.text)
# 出力結果：
#{
# "args": {},
# "headers": {
# "Accept": "*/*",
# "Accept-Encoding": "gzip, deflate",
# "Host": "httpbin.org",
# "User-Agent": "Mozilla/5.0",
# "X-Amzn-Trace-Id": "Root=1-632cee08-20fc52704bd03e22193dd675"
# },
# "origin": "YYY.YYY.YYY.YYY",
# "url": "https://httpbin.org/get"
#}
# JSONデータ
url = 'https://httpbin.org/json'
res = requests.get(url)
print(res.text)
# 出力結果：
#{
# "slideshow": {
# "author": "Yours Truly",
# "date": "date of publication",
# "slides": [
# {
# "title": "Wake up to WonderWidgets!",
# "type": "all"
# },
# {
# "items": [
# "Why <em>WonderWidgets</em> are great",
# "Who <em>buys</em> WonderWidgets"
# ],
# "title": "Overview",
# "type": "all"
# }
# ],
# "title": "Sample Slide Show"
# }
#}
jsondata = res.json()
print(jsondata['slideshow'])
# 出力結果：
#{'author': 'Yours Truly', 'date': 'date of publication',
# 'slides': [{'title': 'Wake up to WonderWidgets!', 'type': 'all'},
# {'items': ['Why <em>WonderWidgets</em> are great',
# 'Who <em>buys</em> WonderWidgets'], 'title': 'Overview', 'type': 'all'}],
# 'title': 'Sample Slide Show'}
# リダイレクト
url = 'https://www.atmarkit.co.jp/ait/articles/2008/21/news017.html'
res = requests.get(url)
print(res.url) # https://atmarkit.itmedia.co.jp/ait/articles/2008/21/news017.html
print(res.history) # [<Response [301]>, <Response [301]>]
for hist in res.history:
print(hist.url)
print(hist.headers['location'])
# 出力結果：
#https://www.atmarkit.co.jp/ait/articles/2008/21/news017.html
#https://atmarkit.itmedia.co.jp/ait/articles/2008/21/news017.html
Pythonには標準でURLを扱うためのurllibモジュールが付属している。だが、人にとってより自然な形でHTTPリクエストを実行可能なライブラリもある。それがRequestsモジュールだ。RequestsモジュールはPythonには標準で付属していないので、「pip install requests」コマンドなどを実行して別途インストールした上でインポートする必要がある。
RequestsモジュールはHTTPのGET／POSTなどのメソッドに対応した関数や、HTTPリクエスト／HTTPレスポンスを表すクラスなどを提供しており、これらを使うことで人が読みやすく、何を意図しているのかが分かりやすいコードの記述が可能になっている。
RequestsモジュールにはHTTPメソッドに応じた次の関数がある。本稿ではrequests.get関数を主な例として、Requestsモジュールの基本的な使い方を紹介する。
これらの関数にURLやリクエストに必要なパラメーターを渡して呼び出すと、リクエストがそのURLに送信され、呼び出し先が返したレスポンスがrequests.Responseクラスのインスタンスとして返される。
requests.get関数の構文を以下に示す。
requests.get(url, params=None, **kwargs)
urlパラメーターにはリクエストを送信するURLを指定する。paramsパラメーターにはURLに「?key=value」形式で付加するパラメーターを指定する（省略可能）。**kwargsパラメーターに指定できるキーワード引数としてはカスタムヘッダーを指定するheadersキーワード引数、クッキーを指定するcookiesキーワード引数、タイムアウトを指定するtimeoutキーワード引数などがある。これらについてはRequestsモジュールのドキュメントなどを参照されたい。
requests.get関数の呼び出し例を以下に示す。
ここでは本連載の「ラムダ式（lambda）を記述して使うには」のURLを指定して、Webページの内容を取得し、そのテキスト（HTML）を表示している。
上のコードに示すようにrequests.get関数の使い方はとても簡単で、基本的にはURLを指定するだけだ。また、関数の戻り値（上述のrequests.Responseクラスのインスタンス）はtext属性を持っていて、これを読み込むことでWebページの内容が表示できる。
text属性以外にもrequests.Responseクラスには以下のような属性がある（一部）。
|属性
|説明
|text
|レスポンスの内容（content属性）を文字列にデコードしたもの
|content
|レスポントの内容（バイト列）。テキスト表現ではなくバイナリデータを扱うときにはこちらを使用する
|encoding
|content属性をtext属性にデコードする際に使用したエンコーディング
|apparent_encoding
|charset_normalizerもしくはchardetによって推測されたエンコーディング。encoding属性の値とapparent_encoding属性の値が異なることもある
|headers
|レスポンスヘッダーを大文字小文字の区別をしない辞書の形式で格納したもの
|url
|リクエストしたURL。リダイレクトが発生した場合には、リダイレクト先のURL
|history
|get関数でリクエストしたURLがリダイレクトされた場合に、リダイレクトされた結果を示すrequests.Responseクラスのインスタンスを古いものから順に並べたリスト
|requests.Responseクラスのインスタンスが持つ属性（一部）
例えば、ステータスコードを調べるにはrequests.Responseオブジェクトのstatus_code属性を参照すればよい。
print(res.status_code) # 200
また、エンコーディングを調べるにはencoding属性かapparent_encoding属性を参照する。
print(res.encoding) # ISO-8859-1
print(res.apparent_encoding) # SHIFT_JIS
これら2つの属性の値は異なることもある。encoding属性はcontent属性の内容をデコードしてtext属性にする際に使用される。これに対して、apparent_encoding属性はcharset_normalizerもしくはchardetにより推測されたエンコーディングを示すものだ。
例えば、この例で取得したコンテンツのURLは「https://atmarkit.itmedia.co.jp/ait/articles/2209/20/news032.html」だった。これは＠ITの連載記事のURLだ。そして、res.encoding属性の値は「ISO-8859-1」となっている。これはアルファベットや西欧諸国で使われる文字を集めたものなので、res.text属性に格納されているテキストでは日本語をうまくデコードできていない。
こうしたときには、以下のようにapparent_encoding属性を使ってデコードできる。
text = res.conent.decode(encoding=res.apparent_encoding)
res.apparent_encoding属性の値である「SHIFT-JIS」を指定してデコードした結果を以下に示す。
