Pythonで文字数制限日本語文字列の長さ取得と切り詰め方法

2021年9月29日

文字列の処理は特に重要なテクニックですが、言語によって少しずつ仕様が異なります。

Pythonでも、特に日本語などの全角文字を扱う際に、文字列の処理で覚えておいたほうがいいポイントがあります。

今回の記事ではPythonで日本語文字列の

長さを取得する（カウント）方法
文字数制限する（スライス、部分文字列を抽出）方法

をまとめています。日常的に使える知識を再確認しておきましょう。

文字列の長さを取得

全角・半角を区別しない（len）

文字列の長さを数えるなら、len関数を使います。

Pythonのlen()は、全角２バイト文字）・半角（１バイト文字）を区別せず、すべて１文字としてカウントします。

# カウント（1バイト文字・2バイト文字を区別しない）
print(len('abcあいう'))  # 6

特殊文字も１文字としてカウントされます。

# 特殊文字
print(len('\n'))    # 1
print(len('\r\n'))  # 2

print(len('\t'))    # 1
print(len('あい\tうえお'))  # 6

例として使っている各文字の意味は以下の通り。

\n　改行コード（LF）改行を表す
\r　改行コード（CR）Windowsなどで改行コードに使われる
\t　タブを表す

※バックスラッシュはスラッシュの逆の形であり、違うものなので注意（MacではOptionを押下しながら¥キー）

全角・半角を区別する

Pythonの標準関数len()では、全角と半角を区別しないのでした。

全角文字（２バイト）と半角文字（１バイト）を区別するには、unicodedata モジュールを用いて各文字の幅をチェックします。

unicodedataモジュールは、その名の通りユニコード（Unicode）に関するデータセットを持つ。

unicodedata.east_asian_width(chr=[文字])

は、渡した文字のeast asian width（東アジアの文字幅）を返す。

返ってくるのは'Na'や'A'といった文字列の形であり、これを元に文字が全角（２バイト）なのか半角（１バイト）なのか判断する。

unicodedata Docs

サンプルとしていくつかの文字を渡したときにどんな値が返ってくるか確認しましょう。

print(unicodedata.east_asian_width('A'))
# Na

print(unicodedata.east_asian_width('あ')) # 全角ひらがな
# W

print(unicodedata.east_asian_width('ｱ')) # 半角カタカナ
# H

このunicodedata.east_asian_widthを使って、全角・半角を区別しながら文字列の長さを返す関数を作ると以下のようになります。

import unicodedata

def length_double_byte_str(text):
    """ 全角・半角を区別して文字列の長さを返す
        """
    count = 0
    for c in text:
        # 全角文字などの２バイト文字は'F','W','A'のいずれかに当てはまるとする
        if unicodedata.east_asian_width(c) in 'FWA':
            count += 2
        else:
            count += 1
    return count

呼び出し側

len_str = length_double_byte_str('abcあいう')
print(len_str)      # 9

このサンプルでは
‘abc’は半角文字なので合計３、
‘あいう’は全角文字なので合計６としてカウントされています。

文字数を制限する（切り詰める）

全角・半角を区別しない

文字列の一部を抽出するのに、最もシンプルなやり方はスライスをつくることです。

text_after = text[start:end]

text：文字列の全体
start: 開始位置
end: 終了位置の一つ後
text_after: スライスされた文字列

text = '012345'
s_text = text[1:5]
print(s_text)
# 1234

文字数を制限（先頭から一定の文字数を数え、それを超えたらカットする）する場合は、単に開始位置を 0 とすればOKです。

text_after = text[0:制限文字数-1]

なお、len()と同じように、Pythonはスライスでも全角（２バイト文字）・半角（１バイト文字）を区別せず、どちらも１文字として扱います。

# 一般的な文字列スライス（1バイト文字・2バイト文字を区別しない）
text = 'abcdef'
s_text = text[0:4]  # 添字４の一つ前まで（３）の文字列をスライスで取得
print(s_text)
# abcd

# 半角英数字なら大文字でももちろん同じ結果に
text = 'ABCDEF'
s_text = text[0:4]  
print(s_text)
# ABCD

# スライスは２バイト文字も１文字とカウントされる
text = 'あいうえおかき'
s_text = text[0:4]
print(s_text)
# あいうえ

# 特殊文字も１文字としてカウントされる
text = 'あいう\nえお'
s_text = text[0:5]
print(s_text)
# あいう
# え

全角・半角を区別する

Pythonのスライスは全角・半角文字を区別しません。

全角、半角を区別しながら、文字列を切り抜くには unicodedata.east_asian_width を活用します。

unicodedata.east_asian_width は渡した文字の幅を返すので、これで１文字ずつチェックし、所望の長さの文字列を取得します。

以下は全角・半角を区別して文字数制限（切り詰め）をするサンプルです。

def truncate_double_byte_str(text, len):
    """ 全角・半角を区別して文字列を切り詰める
        """
    count = 0
    sliced_text = ''
    for c in text:
        if unicodedata.east_asian_width(c) in 'FWA':
            count += 2
        else:
            count += 1

        # lenと同じ長さになったときに抽出完了
        if count > len:
            break
        sliced_text += c
    return sliced_text

呼び出し側

# １バイト文字は１文字、２バイト文字は２文字としてスライスする場合
text = 'abcあいう'
s_text = truncate_double_byte_str(text, len=5)
print(s_text)
# abcあ

text = 'abcあいう'
s_text = truncate_double_byte_str(text, len=6)
print(s_text)
# abcあ

上記サンプルでは、半角を１、全角を２とカウントします。

そのため、len=5でもlen=6でも同じ結果となります。

Pythonの学習法について

Python の勉強が辛くなっていませんか？

Pythonは比較的取り組みやすい言語と言われていますが、プログラミング初心者にとっては分からないことだらけ。

ゼロから独学で勉強するのは厳しい道のりです。

今回、様々な現場、システム、言語を経験してきた現役エンジニアの立場から、初心者でも挫折しない学習方法を解説する記事を書きました。もちろん、お金をかけずに習得できる方法も解説しています。

プロが実践するPythonの挫折しない学習法

できるだけストレスがかからない勉強法を解説しているので、ぜひ参考にしてみてくださいね。

まとめ

Pythonのlen()では全角・半角を区別せずに１文字として文字数をカウントします。一方、全角・半角を区別して文字数を数えるにはunicodedata.east_asian_width を活用します。

日本語の２バイト文字を２文字として文字数制限をするには上記テクニックを使うといいでしょう。

この記事タイトルとURLをコピー

次世代ペンギン

長いのでペンギンとお呼びください。システム開発・プログラミングのお仕事をしています。甘味とコーヒーは生命線。多くの人に役立つ情報のシェアが目標です。

comment コメントをキャンセル

: Python SQLAlchemy Tech
Python NaNを含むデータをMySQLに保存したいとき（コードとエラー対処）
Pythonでデータ処理した後にMySQLなどのデータベースに保存する操作の話題です。 Pythonにまだ慣れていないという人でも、Pandasなどで処理したデータをデー ...

: Tech Vue/Nuxt.js
Vue RouterでVuex(store)のstateデータを取得する方法 [Vue.js/Nuxt.js]
Vue Router (vue-router) はVue.js (Nuxt.js)に標準で組み込まれたルーターで、アプリケーションのページ間遷移で役立っています。一方、 ...

: Tech
【Node.js+RDB】Sequelize使い方まとめ
こんにちは！データベースの構築・管理の仕事をしていた元インフラエンジニアの管理人です。 Node.jsでデータベースMySQL, MariaDB, PostgresSQL ...

: Python Tech xlwings
Python xlwings 行方向にデータ入力する方法
xlwings はPythonからExcelを操作できるフリーライセンスのライブラリです。一部機能はプロ版（xlwings PRO）でないと利用できませんが、データ更新 ...

: Tech Vue/Nuxt.js
Vuetify v-progress-circularでロード中表示をする書き方まとめ
Vuetifyの v-progress-circular コンポーネントは、数値データや処理状況を環状（円状）のデザインで教えてくれるUIデザインです。ローディングのス ...

MT5をPythonで操作してレート取得・注文する方法まとめ

Python NaNを含むデータをMySQLに保存したいとき（コードとエラー対処）

Pythonで文字数制限日本語文字列の長さ取得と切り詰め方法

文字列の長さを取得

全角・半角を区別しない（len）

全角・半角を区別する

文字数を制限する（切り詰める）

全角・半角を区別しない

全角・半角を区別する

Pythonの学習法について

まとめ

フリーランスのプログラマーになるには？現役のプロがまとめました

【2021年】プログラミングスクール厳選３校とおすすめの選び方現役エンジニアが教える失敗を避けるテクニック

フリーランスのプログラマーに必要なスキル一覧【これがないから稼げない】

Vuetify v-progress-circularでロード中表示をする書き方まとめ

vuexで１つのwatchハンドラで複数のstate変更を監視する方法 [$store.watch()] Vue2

Pythonで文字数制限 日本語文字列の長さ取得と切り詰め方法

文字列の長さを取得

全角・半角を区別しない（len）

全角・半角を区別する

文字数を制限する（切り詰める）

全角・半角を区別しない

全角・半角を区別する

Pythonの学習法について

まとめ

Pythonで文字数制限日本語文字列の長さ取得と切り詰め方法