雨のち植える

うぇるあめの雑記帳

【Wordle攻略法】5文字の英単語のデータ分析表、およびそれを用いた位置推測

最近、「Wordle」という単語当てゲームをよく遊んでいる。
www.powerlanguage.co.uk

Wordleは答えとなる5文字の英単語を6回以内の解答チャンスで導き出すWebゲームだ。
プレイヤーは各チャンスごとに実在する5文字の英単語を入力する。各解答ごとにゲーム側から「位置が合っている文字は緑色」「含まれるが位置の違う文字は黄色」という形でフィードバックが示されるので、それを参考にしながら徐々に答えに近づいていく。

本記事ではこのゲームの攻略のために作成したデータ表について、その詳細と活用法を記す。

基本的な攻略法

このゲームの攻略法としてすぐ思いつくのは、「英単語に出てきがちなアルファベットをなるべく優先的に使う」という頻度分析の考え方だ。自分は以下のサイトを使用し、頻度上位のアルファベットから使用可能なものを組み合わせて単語を作る戦略をとっていた。
(Wordleの性質を考え、分析データには英文ではなく英単語のものを用いている。英文だと特定のアルファベット、例えばaやtheに含まれるものが有利になると予想される。)

www.gaoshukai.com

具体的には、以下のような手順を取っていた。

1.頻度上位のa,s,i,eを含むASIDEを初手に選ぶ。
2.ヒントを参考にしつつ、次に頻度上位のr,o,t,n,c,l等を優先的に使って語を形成する。(tr, cr, orなど使い勝手の良いパーツも多く作れるので適宜活用する。すでに含まれないことが分かった文字は極力避ける。)
3.ここまでの二~三手でほぼ十分なヒントが得られるため、英和辞典などの助けを借りつつ直感で残りを詰める。(特にWeb上で文字数縛りの検索ができる「特定の語頭で始まる英単語やカタカナ語」のサイトがきわめて有用である。)

この方法でとりあえずこのような成績を収めた。
f:id:welch2929:20220125023339p:plain

2手はほぼ全くの偶然パターン、5手は1文字目だけ分からず総当たりになったパターンであり、基本は3手か4手で探索が終了している。

改良案

さて、この戦略にはまだ改良する余地が残っている。その一つが、特定のアルファベットが英単語の「どの位置に」出てくるかという、いわば位置に関しての頻度分析だ。

例として、自分のASIDE戦略では中央の"I"の一発正答率が高かった。このことから、「5文字の単語では3文字目にI(ないし特定の母音)が出やすい」という仮説を立てることが可能である。
他の位置についても、例えばE以外の母音は頻度上位のわりに5文字目には来なさそうだとか、辞典を見た感じ1文字目にS,Cあたりを据える単語が多そうだとか、Qは来たとして1文字目だろうとか、様々な仮説が立てられる。

ここに、「5文字の英単語専用の分析表」という非常にニッチなデータを作成する需要が生じる。幸いなことに先述のアルファベット頻度表のサイトはデータをCC-BYで公開してくださっているため、これを用いて分析を行おうと思う。

5文字の英単語分析

英単語データには「英単語115088個のアルファベットの出現回数」のTXTファイルを使用。5文字のものを抽出してExcel上で各位置のアルファベットを頻度別に並べた。
サイト運営者の高樹凱氏には感謝を申し上げたい。

※5文字の英単語はデータ上に6112個存在した。うち詳細不明の「ma?na」「se?ra」「se?rs」の3語を除外し、残りの6109語を用いた。


まずはアルファベット順に並べたデータを以下のスプレッドシートに掲載する。

docs.google.com

(xlsxダウンロード版:
https://docs.google.com/spreadsheets/d/e/2PACX-1vSr7ALFPawKRH8NLoARoh6lgUdieLHp7jcLZ1n_HbIynwkJrkRlkfoCwCOuqNgbmEj6OTpENGQrGeEM/pub?output=xlsx

続いて、各文字の位置についてアルファベットをソートする。

ソート:1文字目

1文字目 2文字目 3文字目 4文字目 5文字目
s 725 55 269 271 1738
c 487 96 209 230 72
b 432 36 142 93 25
p 404 111 173 187 84
t 377 125 309 451 374
a 370 1057 629 436 280
f 340 10 75 88 36
m 322 81 213 181 111
d 314 49 201 212 429
l 293 398 431 366 267
r 292 478 538 321 409
g 279 28 175 173 58
h 246 261 34 83 185
w 196 73 92 64 27
e 151 713 409 1246 697
n 142 177 461 397 283
v 140 32 132 75 0
o 118 905 480 297 152
k 109 26 78 204 135
i 97 693 547 422 113
j 93 2 9 3 0
u 80 560 306 225 20
q 40 9 5 1 0
y 33 90 73 46 570
z 21 13 46 31 6
x 8 31 73 6 38

一文字目として多いのは上から順にS,C,B,P,Tあたりの子音だった。必ずしも頻度分析で上位でなかったBやPのようなアルファベットも含まれていることが示唆的である。

ソート:2文字目

1文字目 2文字目 3文字目 4文字目 5文字目
a 370 1057 629 436 280
o 118 905 480 297 152
e 151 713 409 1246 697
i 97 693 547 422 113
u 80 560 306 225 20
r 292 478 538 321 409
l 293 398 431 366 267
h 246 261 34 83 185
n 142 177 461 397 283
t 377 125 309 451 374
p 404 111 173 187 84
c 487 96 209 230 72
y 33 90 73 46 570
m 322 81 213 181 111
w 196 73 92 64 27
s 725 55 269 271 1738
d 314 49 201 212 429
b 432 36 142 93 25
v 140 32 132 75 0
x 8 31 73 6 38
g 279 28 175 173 58
k 109 26 78 204 135
z 21 13 46 31 6
f 340 10 75 88 36
q 40 9 5 1 0
j 93 2 9 3 0

先ほどとは打って変わって、上位5つはA,O,E,I,Uと子音のオンパレード。1文字目のソート結果と合わせ、基本的には「母音→子音」の流れで始まる語が多いと推測できる。

ソート:3文字目

1文字目 2文字目 3文字目 4文字目 5文字目
a 370 1057 629 436 280
i 97 693 547 422 113
r 292 478 538 321 409
o 118 905 480 297 152
n 142 177 461 397 283
l 293 398 431 366 267
e 151 713 409 1246 697
t 377 125 309 451 374
u 80 560 306 225 20
s 725 55 269 271 1738
m 322 81 213 181 111
c 487 96 209 230 72
d 314 49 201 212 429
g 279 28 175 173 58
p 404 111 173 187 84
b 432 36 142 93 25
v 140 32 132 75 0
w 196 73 92 64 27
k 109 26 78 204 135
f 340 10 75 88 36
y 33 90 73 46 570
x 8 31 73 6 38
z 21 13 46 31 6
h 246 261 34 83 185
j 93 2 9 3 0
q 40 9 5 1 0

上位5つはA,I,R,O,N。ここまでくると傾向はややばらけてくるが、これまで上位にこなかったRNが上位に来ていることは特徴的だといえるだろう。


ソート:4文字目

1文字目 2文字目 3文字目 4文字目 5文字目
e 151 713 409 1246 697
t 377 125 309 451 374
a 370 1057 629 436 280
i 97 693 547 422 113
n 142 177 461 397 283
l 293 398 431 366 267
r 292 478 538 321 409
o 118 905 480 297 152
s 725 55 269 271 1738
c 487 96 209 230 72
u 80 560 306 225 20
d 314 49 201 212 429
k 109 26 78 204 135
p 404 111 173 187 84
m 322 81 213 181 111
g 279 28 175 173 58
b 432 36 142 93 25
f 340 10 75 88 36
h 246 261 34 83 185
v 140 32 132 75 0
w 196 73 92 64 27
y 33 90 73 46 570
z 21 13 46 31 6
x 8 31 73 6 38
j 93 2 9 3 0
q 40 9 5 1 0

上位5つはE,T,A,I,N。特にEが極めて多い(全体の20%)ことは特筆に値するだろう。早めにここを潰しておくことも有効な戦略になりうる。

※追記:このEの比率だが、改めて元の単語群を見直すと-es(複数形)や-ed(過去形)によるものが多く混じっていたため、必ずしもゲーム上で似た比率になるとは限らないことを書き添えておく。もちろん-erや-et、-elなどの使われ方もあるため、この位置に出やすいアルファベットであること自体は確かである。

ソート:5文字目

1文字目 2文字目 3文字目 4文字目 5文字目
s 725 55 269 271 1738
e 151 713 409 1246 697
y 33 90 73 46 570
d 314 49 201 212 429
r 292 478 538 321 409
t 377 125 309 451 374
n 142 177 461 397 283
a 370 1057 629 436 280
l 293 398 431 366 267
h 246 261 34 83 185
o 118 905 480 297 152
k 109 26 78 204 135
i 97 693 547 422 113
m 322 81 213 181 111
p 404 111 173 187 84
c 487 96 209 230 72
g 279 28 175 173 58
x 8 31 73 6 38
f 340 10 75 88 36
w 196 73 92 64 27
b 432 36 142 93 25
u 80 560 306 225 20
z 21 13 46 31 6
v 140 32 132 75 0
j 93 2 9 3 0
q 40 9 5 1 0

上位5つはS,E,Y,D,R。Sが極めて多いのは複数形の影響だろうか。明確な傾向は見えないが、SやEに狙いを定めるのは有効といえる。

総括

このように分析表を作成すると、文字の位置ごとに明確な出現頻度の違いがみられることが分かった。まとめると、

1文字目:S,C,B,P,T
2文字目:A,O,E,I,U
3文字目:A,I,R,O,N
4文字目:E,T,A,I,N
5文字目:S,E,Y,D,R

となる。太字は全体の10%を超えるものである。


実際には黄色ヒント(文字だけが合っている)の存在ゆえ、通常のアルファベット頻度分析を用いて使用文字を割り出す作業が優先となる。しかし、随所のアレンジにこの位置推測を使用することは有効な手立てになりうる。具体例は以下の通りである。

・最初の語としてASIDEの代わりにCORES, SAINT, SPRAY, BARESのような語を選び緑を狙う(それぞれゲーム上で通るか未確認)
・迷ったら2文字目に母音をあてはめる、Eを4文字目に置く、Sを5文字目に置くなど、文字の位置に迷った場合の参考にする
・母音→子音→?→?→子音/E/Yという基本パターンをなんとなく意識して直感の足しにする

※追記:最初の語を変える戦略は体感であまり効果がなかった。ASIDEを改善したAISLEあたりが結局一番強いかもしれない。


分析は以上となる。プレイしていて何か新しい発見があったら書き加えるかもしれない。
より質の高い戦略を編み出すためにはいわゆる連接(Qの次にUが来やすいとか)や有名語幹(ST-, DE-とか)を考える必要もあるだろうが、今回は踏み込まない。