nachaのブログ

音を調べます。

フーリエ変換で“視る” 4弦5フレットと3弦開放の音の違い(1/2)

はじめに

nacha(ナチャ)です。
タイトル通り、異弦同音について調べていきます。

このブログの目標は、耳で捉えている「音」を、周波数などの面から視覚的に捉えよう、というものです。

動機や目指すべきものなどは、こちらの記事に書きましたので是非読んでいただければと思います(すぐ読めます)。

nacha-th.hatenablog.com

さて、今回の目的は「ベースの異弦同音はどのように違うのか」です。

同じ音(ピッチの意味で)なのにどうしてこうも聴こえ方が違うのか、その違いは何から来るのか、音作りにどう影響するのかを解析し、考えていければと思います。

全ての音について調べたいのはやまやまですが、量が半端ないことになってしまうので、幾つか抜粋してやっていきます。

今回はフーリエ変換で、「基本周波数55Hzの音」を調べます。フーリエ変換とは?基本周波数とはなんのこっちゃ、という人でも大丈夫です。一から順に説明していきます。
少し冗長に感じるかもしれませんがどうぞよろしくお願いいたします。

 

準備

解析に入る前に基本的な事柄について説明しておきます。
ここではフーリエ変換と基本周波数について説明します。

これらの単語は解析の時にたくさん出てくるので、知っておいた方が分かりやすいかもです。

まあわかるな、って方は軽~く流してください。ではいきます。

フーリエ変換とは?

数式並べてもわかりづらいだけですし、簡単に説明すると、フーリエ変換とは「ある音の波を様々な正弦波の和で表すこと」です。

音を含めた波は、様々な周波数(振動数)の正弦波を合成したものであるといえます。

周波数とは単位時間に含まれる波が何回振動するかを表すもので、周波数の小さい音の波は低い音に、周波数の大きい音の波は高い音に聴こえます。

正弦波とは、音でいえば音叉の音といった純音のことです。

 

つまりフーリエ変換をすると、

「この音は、こういう大きさの周波数の正弦波が、こういう割合で合成されてできているんだな」

というのがわかります。次の図が分かりやすいと思います。$ f(t)$というのが音の波です。

f:id:nacha_th:20210228090835j:plain



 *1

解析ではデジタル信号を扱うので、このフーリエ変換をいろいろして発展させた高速フーリエ変換FFT)というのを使います。

今回は、プログラミング言語Pythonを用いてFFTを行いました。 

基本周波数とは?

基音のことです。音というのは基音と倍音からなっています。例として1弦2フレットの音αの最初の5秒間をFFTして周波数スペクトルを表示して説明していきます。

音源はこんな感じ


f:id:nacha_th:20210314123400p:plain

横軸が周波数、縦軸が音のレベルを表しています。このようなグラフを周波数スペクトルといいます。横軸は対数表示になっています。

110Hz付近に大きな周波数成分があることが分かります。これより下の周波数成分はノイズです。なぜそういえるのかというのも含めて説明していきます。

先ほども言った通り、弦楽器の音は基本的に基音と倍音からなっているわけです。
基本周波数より高い周波数で次に大きな成分は220Hzあたりにあります。その次は330Hz、またその次は440Hzとなっていますね。

それぞれ110の倍数となっています。これが倍音です。順に2倍音、3倍音、4倍音という感じです。

倍音が110Hzごとなのですから、基音は当然110Hzとなります。実際に人の耳も倍音から基本周波数を特定しているといわれています。


さて、この基本周波数は何なのかというと、音のピッチ(高さ)を決定するものです。例として、先ほどの 1弦2フレットの音αと1弦14フレットの音βを比較してみましょう。

これがβの音源です。

f:id:nacha_th:20210314123431p:plain


βの音はαの音の1オクターブ上と呼ばれる音です。実際に高く聴こえますよね。

含まれている周波数の面から見てみると、βの基本周波数は220Hz、倍音も220Hzごととなっているのがわかります。基音が2倍になることでオクターブ上の音になるわけです。
αの2倍音とβの基音、αの4倍音とβの倍音がピッタリ重なっていますね。

両方ともA(ラ)と呼ばれる音です。例えば今回使用する5弦ベースには全部で9つのAの音が出るポジションがあります。でも、同じピッチの音は基本周波数が、55Hz、110Hz、220Hzの3種類しかありません。

同じピッチなのに違って聴こえる音、これが今回調べていく内容です。異弦同音といえばオクターブ違いの音は含まないと思いますが、念の為。

レベルの話

レベルといっても音の大きさのことです。

先ほど出てきた周波数スペクトルですが、縦軸はLEVEL(dB)となっていました。dBは音圧などを表す単位です。

よく聞く音圧レベル(SPL)$ L $ は、測定音圧$ p$ 、基準音圧$ p_0$ として

$$ L = 10\log_{10}\frac{p^2}{p_0^2} = 20\log_{10}\frac{p}{p_0} $$

と表されます。

普通、基準音圧は最小可聴音圧($ 2 \times 10^{-5}$ [Pa])が用いられます。

しかしながら、SPLの算出のためにはスピーカーから出た音を測定しなくてはならず、コンピューター内で完結させられません。

そこで、振幅から音圧レベルを考えます。音の波の振幅は音圧と比例するので、音圧と同様にして音圧レベルを求められます。音圧レベルといっても、基準となるものが異なるので、音圧で考えた音圧レベルとは異なります。

振幅はデジタル信号において、量子化ビット数が関係してきます。

例えば16bitの音は$ 2^{16} = 65,536$ 段階で振幅が表されます。実際はコンピューターが読む形で表されますが、これを10進数に直せば-32,768~32,768の値となります。

 絶対値が327,68を超えるデータは(オーバフローするので)存在しえません。ですので、この327,68を基準の振幅として音圧レベルを求めます。

恐らくDAWもこの方法で求めていると思います。

最小可聴音圧を基準としたものと逆に、とりうる最大値を基準としているので音圧レベルは0以下になります。

しかしながら、それぞれの基音や倍音のレベルの比自体は一般的な音圧レベルと同様です。

 

そもそも何故、dB表示にするのかということですが、人間の感覚量は刺激の強度の対数に比例するという、ウェーバー・フェヒナーの法則によるものです。

基本周波数で解析したαの音ですが、振幅で見ると次のようになっています。

f:id:nacha_th:20210314120310p:plain

それぞれの音(基音や倍音)の差は、振幅の方が明らかに大きくなっています。

しかし、人の耳には音圧レベルで表示したときと同じくらいの差にしか感じないというわけです。

 

解析

お待たせしました。本題です。

異弦同音を調べるよ、と何度も述べていますが、今回調べるのは「基本周波数55HzのAの音」です。

タイトルでもお気付きだとは思いますが、今回調べる音の弦やフレットを纏めました

次の表です。

No. フレット 基本周波数(Hz)
11 5 10 55
12 4 5 55
13 3 0 55

なんで番号がいきなり11からなんだよ、と感じた方も多いかとは思いますが、順次説明していきますのでしばしお待ちを。

 

さて、同じ音(同弦同フレットという意味)でも弾き方や聴くタイミングによってかなり聴こえ方は違いますよね。

今回は、時間経過による音の違いについても調べます。ベースを弾いた瞬間の音を解析するのか、伸ばした音を解析するのか、です。

図で説明すると次のような感じ。

f:id:nacha_th:20210228190458p:plain

ですので、ベースを弾いた瞬間の音というのを10番台、伸ばした音を20番台とします。
具体的にはどういう音か説明します。

ベースを弾いた瞬間の音は、BPM150の8ビートの音源の、最初の40秒(25小節分)を用います。テンポ150の8ビートは1音あたり0.2秒(60/(150×2))ですから、ほぼ弾いた瞬間の音であるといえます。

音源全体をフーリエ変換することで、人差し指と中指の違いなどによる誤差やノイズを減らすことができます。

伸ばした音は、弾き始めてから24秒間分の音源です。BPM150では15小節分になります。

弾き方の違いについても含めた、今回扱う音は次の通りです。

No. フレット 基本周波数(Hz)
11 5 10 55 弾いた瞬間の音
12 4 5 55
13 3 0 55
21 5 10 55 伸ばした音
22 4 5 55
23 3 0 55

音源はこんな感じです。

 

続いて、解析手法についてです。
簡単にいえば、ベースを弾く→録音→FFT→スペクトル図示
という流れです。アンプなどは通しません。

録音にはStudio one
音源の解析(FFT)やそのプロットにはPython3.8を使いました。

使用した機材については次のとおりです。
ベース:WOODLINE 517AC/AL/E-MF'18
シールド:CANARE GS-6 3m
オーディオインターフェース:PreSonus STUDIO1810c

 

一応、シールドやオーディオインターフェースも音に影響するので、シールドとオーディオインターフェースを合わせた周波数特性を示しておきます。

流れとしてはオーディオインターフェースのlineアウトとインプットをつないで、ホワイトノイズを流し、録音。それをfftするという感じです。

f:id:nacha_th:20210228111706p:plain

GS-6の周波数特性

さて、結果はほぼほぼフラットであるといえます。20kHz 以上が急激に落ち込んでいますが、ベース音の音域的にそこまで影響しないといえるので無視します。

Python を使って解析しました。この辺りはまた別の機会に詳しく説明しようと思います。

前提だったり、解析手法がわかったところでベースの音について、結果を見ていきましょう。

 

結果

弾いた瞬間の音についての結果です。一つだけをみてもよくわからないので、まずは2つづつ比較していきましょう。

No.については上記の表を確認してください。No.11が5弦10フレット、No.12が4弦5フレット、No.13が3弦開放です。

 

はじめにNo.11とNo.12です。

f:id:nacha_th:20210314123530p:plain

 なんといってもNo.11は基本周波数が大きいですね。実際に音源を聴き比べても、No.11の方が低くて太い、ズンとくる感じがあります。しかしその反面、ボアボアとした感じもして、聴き心地はあまりよくありませんでした。No.11を聴いた後にNo.12を聴くと何だか音が軽い感じがします。

基本周波数はNo.11の方が大きいものの、2倍音、3倍音ではほぼ同じに、4倍音、5倍音になるとNo.12の方が大きくなっています。しかしながら、6、7、8倍音ではまたNo.11の方が大きくなっており、更に高い周波数になっても所々でNo.11の方が大きい箇所が見られます。

 

続いてNo.11とNo.13です。

f:id:nacha_th:20210314123546p:plain

No.13はNo.11に比べて圧倒的に基本周波数の割合が小さいですね。2倍音もNo.13の方が明らかに小さいですが、3、4、5倍音ではNo.13の方がその割合は大きくなっていることがわかります。

また、No.12と比較したときと同様に、7、8倍音などNo.11の方がNo.13よりも大きくなっている部分もあります。しかしながら、全体的に見れば、No.13はNo.11に比べて倍音成分が非常に多く、No.11では5000Hz以上の成分はほぼなくなっているのに対して、No.13では7000、8000Hz付近まで倍音成分を持っています。

この倍音成分の多さが、No.13のきらびやかな感じを生み出しているといえます。

 

最後にNo.12とNo.13です。

f:id:nacha_th:20210314123603p:plain

No.12とNo.13に共通していえるのは、基音より倍音の方が大きいということでしょうか。すでにNo.11との比較でも触れましたが、No.11は基音の成分が最も大きかったのに対し、No,12、No.13では2倍音や3倍音までの成分が基音とほぼ同じ、または少し大きくなっていることがわかります。

No.12とNo.13は両者とも倍音成分が豊富ですが、基音に近い成分はNo.13の方が小さく、No.13は豊富な成分をより万遍なく持っているといえます。

基音や2倍音の差は5dB程度ですが、No.12では、No.11と比較すると乏しいものの、「音の芯」のようなものを感じるのに対し、No.13ではそれがあまり感じられず、音が薄い印象を受けます。


次に、3つ全てを見てみましょう。

f:id:nacha_th:20210314123627p:plain

やはり、No.13の倍音が圧倒的だと感じられます。グラフを見て数えることはできませんが、2000Hz付近であれば35~40倍音、3000Hz付近であれば55~60倍音の成分が多いといえます。

 また、3つ全てにおいて、倍音の成分は小さい周波数から順に見ていくと、周期的に大きくなったり小さくなったりしていることがわかります。

その周期は、長さについては一概に言えませんが、No.13、12、11の順に高周波数に寄っています。

No.11~No.13を順にgif画像にしました。

f:id:nacha_th:20210314131018g:plain

順に見ていくと、1つ1つの概形は似ていて、周波数が高い方に波が進んでいるようにも見えますね。

 

以上より、同じピッチの音でも含まれる周波数の成分はかなり異なっていることがわかりました。

また、それぞれ固有の、倍音がほとんど含まれていない周波数帯域を持ち、それらはある程度、周期的に現れていました。

 

Aの音しか弾かないって事はあまりないと思いますが、一番おいしくしたい音に対して最適なイコライジングを施すといったことも考えられますね。

その他にも、例えば、ギターと同時に音を鳴らしたとき、No.13(3弦開放の音)ではその豊富な倍音成分も、ギターの音域と被ってしまい、No.11(5弦10フレット)やNo.12(4弦5フレット)と比べるとあまり音が聴こえないとなってしまうということが考えられます。

一方、No.11は低い周波数成分が多く、どっしりとしたサウンドですが、場合によっては、圧迫感によって聴きづらさを感じるかもしれません。

 

次回予告

今回は3つの音についてベースを弾いた瞬間の音を見てきました。次回(2/2)では伸ばした音について解析していきます。伸ばした音というのは今回の弾いた瞬間の音も含んだ、その延長線にあるものです。


時間経過とともに音がどう変わっていくのか、ぜひお楽しみに…。

 

それでは!

音を解析するブログをはじめます

はじめに

はじめまして。nacha(ナチャ)と申します。 ベースを弾いたり Python で遊んでたりします。

よく聞く音楽はDream Theater と Iron maiden です。ハマったのは最近です。

ベースのテクニックだったりサウンドだったりの目指す先にはジョンマイアングとスティーブンハリスがいます

目的

まずはこのブログの道標を示しておきたいと思います。

このブログでは、いつも耳で捉えている「音」を、周波数などの面から視覚的に捉えたい!という目標のもと、色々な音を解析していきます。
 

巷では音について様々な言説が飛び交ってますが、その人にしかわからない表現が多いように思います。

例えば、ミッドと一言でいったって、物凄い幅があるわけです。他にも、ローとローミッドとミッドって境目は一体どこなんだ、ってなりませんか?

何 Hz~何 Hz がロー、などとはっきりと定義されていない(できない)わけで、音についての表現は、人や状況によってあやふやになってしまいます。

 

このブログの目的は、そうした感覚的な表現を科学的な測定値と結びつけること、それによって音作りなどにおける再現性を持たせることです。

(つまり、「この音は Mid がかなり上がってて~」より「500Hz を中心に 20dB 上がってて~」の方がわかりやすいよね、ってことです。)

 
自分も音作りに関しては色々な言説に惑わされた記憶があります。エフェクターを同じにしたところで、ベースが違えば音は違うし、弦の太さや温度によって音が変わってしまうこともあります。また、演奏する環境によって音の響きは全く違うわけです。

しかし、その音の違いが何からできているのかを見極めること、そしてそれに応じた最適な調整を考えることによって、自分の理想の音に近づきやすくなると考えました。

 
そもそも、ぼくは音の解析がとても面白いなという性質(たち)なので、この楽しさを是非とも共有したい!という気持ちがあります。

解析手法の技術的な部分もなるべく丁寧に伝えていければと思っているので、実際に自分で好きなように解析してみることで、音の解析って面白いな、と思ってくれる人が増えると嬉しいです。

具体的には?

目的は分かったけど、具体的にどういう事をするんだよ、となりますよね。

  
今考えていることは

  • 移弦同音は何が違うのか?

  • ディストーションの周波数特性の違いを見る!

  • ベースによる音の違いとは?

といったところです。
 
自分がベースを弾いている中で感じた疑問であったり、音作りで役立ちそうだと思ったことを書き連ねていく所存であります。
ベースがメインになってしまうとは思いますが、ほかの楽器にも挑戦してみたいです。  

最後に

ブログを書くにあたって、自分だけでは思いつかないアイデアだったり、持っていない機材についてであったり、不完全な部分もたくさんあると思います。

何かこれいいんじゃない?という提案や、これってこうなんじゃない?という疑問、ご意見があれば是非ともコメントやTwitterなどで教えて頂けると助かります。
(あとぼくはエフェクター系の機材を殆どといっていいほど持っていないので貸していただけたり、音源を頂けるとありがたいです。)

 
このブログが多くの人の音作りに役立つことを願っています。
  
それではまた!近いうちに…