「エンコーダー」を含む日記 RSS

はてなキーワード: エンコーダーとは

2026-01-09

生成AIバイナリを書く未来は、来ないとは思うが、今も普通にできる

生成AIが直接機械語バイナリを出力するようになるのではないか、という問いは本質的に間違っている。

自分は、まだ素朴なニューラルネットワーク光学文字認識(OCR)の精度を出していた頃から似たようなことを考えていたので、少し他人よりも蓄積がある。

これは、Large Language Model(LLM)を開発する企業資金を集めるために多少誇張した未来を語るという文脈では大目に見た方が良いが、正確性に欠ける。

本質的な問いは、なぜ我々は、ノイマンコンピュータを用いて、主記憶に置かれたプログラムCPUを用いて実行する形式をとるのか、というものである

まず、筋の悪い反論から説明し、妥当反論にも触れたうえで、本質的に問うべき課題説明する。

生成AIを含むAIは、十分な人間データが無いと学習が出来ないのか?

これは明確に、いいえ、と答えることが出来る。

最初こそ人間による補助は必要だが、LLMを含むAIは明確な目標があれば人間データなしでも十分に学習することが出来る。

これは身近なところでは将棋、有名なものだと囲碁実証された研究存在する。

そのため、単純に「機械語人間による学習データが少ないので扱いが難しいだろう」という反論は成立しない。

そういったものはLLMではないだろうという指摘は可能だが、LLMでそういったAIを出力することは限定的とはいえ現在でもできる。将来できないと言うだけの論拠にはならない。

プログラミング言語は、自然言語から曖昧さを無くすために必要ものか?

これは限定的に、はい、と答えることができる。

英語に限った話ではなく、人間意思疎通に用いる言語である自然言語(natural language)は、曖昧さやばらつきがある。

これを形式言語(formal language)という、曖昧さを無くして語彙や文法限定した言語記述しなおすことで、厳密にする手法がある。

この形式言語での表現が、アルゴリズムデータ構造になり、現代ノイマンコンピュータにおけるプログラムのものと言うことが出来る。

なぜ限定的かと言えば、形式言語一種であるプログラミング言語には曖昧さが許容されているかである

ほとんどのプログラミング言語では、同じ目的を達成する為に複数記述が許容されている。

主に、人間が書きやすいから、とか、複数人間で書きやすいように、といった理由で、曖昧さが許容されている。

そのため、機械命令するためには厳密さが必要からプログラミング言語必要だ、と言う反論妥当ではあるが、弱い。

人間監査するためにはプログラミング言語である必要があるのではないか

こちらも限定的に、はい、と答えることが出来る。

なぜ大統一プログラミング言語のように、自然言語意図機械に伝えるための形式言語一種類になっていないかと言えば、人間認知能力には限界があるからだ。

そのため、簡易で曖昧さを含むために最適化はできないが十分な性能を持つプログラミング言語や、非常に複雑で記述量も多くなるが大人数で作業するには最適なプログラミング言語などが複数存在する。

これらはいずれも、人間が楽に記述できる形式言語であったり、人間同士が齟齬なくコミュニケーションを取るために必要形式言語である

ありていに言って、人間人間たちが理解可能形式言語でないと機械にその意図を伝えることが出来ないから、と言える。

ただし、コンパイラから出力されたニーモニックLLVM-IR監査できる人間現代では非常に少なく、現状ほぼ監査なく受け入れていると言って良い。

何故非常に少なくなったかと言えば、機械に伝える意図が大規模になり、単純にマンパワーが足りなくなったので監査しきれなくなっただけに過ぎない。

(もちろん、途方もない努力の末に最適化が進み、ほぼどの様な書き方をしても最適な機械語が出力されるようになったから、とも言える)

同様の理屈で、単純に大規模になり監査が間に合わなくなったので、受け入れるようになる未来が来ないとは言い切れない。

なぜ、ノイマンコンピュータをわざわざ用いて、ASICを出力しないのか?

本質的な問いは、なぜ我々はノイマンコンピュータを用いて機械意図を伝えるのか、である

ASIC(Application Specific Integrated Circuit)と呼ばれる、特定用途向けの集積回路がある。

チップとして、Realtek社のNIC(Network Interface Card)をご存じの方も多いと思う。

必要十分な処理があらかじめ定まっているのであれば集積回路を組んだ方が高効率省電力にできる。

暗号化や復号もASICで行われることが多く、ブロック暗号はその性質集積回路での実装が容易であり、それに向けた研究も行われている。

一般的にも、ハードウェアエンコーダーなどでお世話になっている人も多いと思う。

ではなぜ、我々は身近な全てをASICにしないのか。

それは、書き換えできず、単純な処理しかできず、大量生産しないとコストに見合わないかである

FPGAのように、ハードウェア記述言語を用いて集積回路を書き換えるものも、ほぼ同様の理由研究開発用途産業用途に留まっている。

(一部のPLD (Programmable Logic Device)は根強く産業利用されているし、大規模に展開され高効率要求されかつ書き換えを求められるネットワーク機器では一部採用が進んでいる)

汎用的で書き換えが可能、伝える意図を変更できる様々な処理が可能機械価値があるからである

閑話休題

ここ半年から1年で急激にLLMの性能が上がったと感じている人と、コーディングツールとしてLLMの利用が洗練されたと感じている人の間には溝がある。

自分は、LLM自体は順調に進歩し続けているが、それほど劇的な変化はない、という立場をとっている。

これはモデルのもの質的に大きく変化したと感じないから、である

しかし、プログラミング世界に限って観ると、コーディングエージェントや実利用では大きな変化があったと思う。

この、"コーディングを取り巻く環境としてのLLM利用"という文脈は、"LLMの進化"という文脈とは異なる、という点は頭の隅にでも覚えて帰ってほしい。

LLMは直接バイナリを出力するようになるのか?

これは、LLMから直接と言う意味であれば、個人的にはNOだと思う。

ただし、LLMに指示すればバイナリが出力されるという意味であれば、個人的にはYESと答える。

この二つは明確に異なるので、今後自分意見を述べる際には区別すると良いと思う。

コーディング周りの環境が劇的に整備されつつある、という話題に軽く触れたのはこのためで、LLMが直接バイナリを出力しなくても、結果が同じであれば人々はそれほど気にしない。

例えば、現時点でもローカルのLLMに指示するとGO言語で書かれたコードが生成され、ローカル環境に合わせたシングルバイナリが出力される一連のパイプラインを組むことはできる。

自分の想定する、未来AIバイナリを直接出力するというのは、この延長にあると思う。AIイコールLLMである必要はどこにもない。

また、議論している人たちが見えている世界も違うと思う。

少しでもクラウド上でのサーバー処理について触れると、廃棄容易性(Disposability)は俎上に上がる。いつでも落とせていつでも捨てられる、という性質のことである

こうした、単機能バイナリコンテナ等に載せて処理し、日に数度デプロイするような環境だと、LLMがバイナリを出力するというのもそれほど遠い未来の話には思えなくなる。

まとめに代えて

LLMが機械語を出力する未来個人的には来ないと思う。それは難易度が高いからではなく単純にメリットが少ないかである

ただし、パイプラインが組まれた一環として、LLMがバイナリを出力する未来は、それほど不思議には思わない。現時点でも可能である

単純なLinterから進んで静的解析や、動的な結合試験が組み込まれているCICDパイプラインが珍しいとまでは言えない現代において、来るべき近未来像としては妥当性がある。

(その場合ソースコードログとして機能し、テキストで保管が容易な、次回以降変更可能コンテキストの一部になるだろうと思う。今後変更不要ならHDLでFPGAを弄った方が早い)

現代人のすべてがJavaで同一の書き方をしているのではない現状において、自然言語では揺らぎが強すぎて形式言語ほど意図機械に伝えきれないという反論は、弱い。

それよりは、現代のLLMはコンテキストウィンドウ人間の数倍~数十倍程度で、適切に分割して処理しなければならず、大規模なソフトウェアを丸ごと扱えるほどではない、という反論の方が適切である

ただ、LLMに適したプログラミング言語が生まれるのではないかと言う予測には懐疑的である既存プログラミング言語を使う方が人間が読みやすい。

AIが、人間が欲しいバイナリに適したプログラミング言語をLLMを用いて書き、LLMを用いてレビューし、テストツールテストし、コンパイラビルドし、ツールデプロイし、実稼働するという未来予想図が、荒唐無稽とは思えない。

LLMに適したプログラミング言語が生まれ未来よりも、(冗長であっても)人間可読性の高いコードやSelf-documenting codeが生成される未来の方が、来そうに思う。

また、おそらくこの文章もつくであろう「どんなプロンプトで書いたのか」という、一定以上の長さの文章はLLMが出力しただろうと仮定する人間が増えている(そしてある程度の妥当性がある)現状において、プロンプトで指示してデプロイまでされる未来はそこまで遠いとも思えない。

ただ、購入できるハードウェアの性能とコスト律速になるので、よほど特殊な(CPUGPU設計をLLMが劇的に改善する)状況にならない限り、5~10年はプログラマーが消えることは無いと思う。

金に糸目をつけないのであれば、再来年当たりからはLLMレビューのみで仕様バグ以外のほぼ無いプロダクトが世に出てもおかしくは無いと思う。

生きているうちにWozniak testパスしたというニュース出会えるかもしれないと、最近は思っている。

anond:20250628122821

2026-01-04

anond:20260103131035

このまま10年前のPCで戦うのは厳しそうなんだよなあ。

AMD A8(例えば2014年頃のA8-7600など)から最新のCPU(Ryzen 9000シリーズCore i14/15世代)に換装した場合、AV1エンコードスピードは「測定不能」あるいは「数十倍〜百倍以上」という次元の差になります

これには、単なる計算速度の向上だけでなく、「ハードウェア支援」の有無が決定的に関わっているからです。

1. ソフトウェアエンコードCPUパワーのみ)の場合

AMD A8はAV1という新しい規格が登場する前の設計であるため、最新の効率的命令セット(AVX-512など)を持っていません。

AMD A8: 1fps(1秒間に1フレーム)すら出ない、あるいは処理が重すぎて途中でエラーになるレベルです。

最新CPU (Ryzen 9 / Core i9): ソフトウェアエンコード(libaom-av1等)でも、設定次第で実用的な速度(フルHDで数十fpsなど)が出せます

倍率の目安: 純粋計算能力の差だけで1020倍以上の差がつきます

2. ハードウェアエンコード(内蔵GPU)の場合

ここが最大のポイントです。最新のCPUには、AV1を高速に処理するための専用回路「AV1エンコーダー」が搭載されています

AMD A8: AV1のハードウェアエンコード機能は非搭載です。

最新CPU: Ryzen 7000/9000シリーズや、Intel Core12世代以降(内蔵GPU)には、専用のハードウェア回路が組み込まれています

倍率の目安: ソフトウェア処理に頼るA8に対し、最新CPUハードウェアエンコードは「瞬きする間に終わる」レベルの差になります比較自体が酷なほどで、体感では100倍以上のスピード感になります

2025-06-09

UTF-8エンコードされたテキストファイルがある。

から読んでいって840文字ずつ分けるとくそ遅い。

そこでどうしたものかと考えたら、UTF-8は1~8バイト構成され、1,2,3,4,5,6,7,8の最小公倍数は840なので、840バイト単位マップファイルのビューを作って、840バイト単位でビューを動かせば問題なく動くんだろうか?

それとも絵文字IVSの途中にはまってしまい、エンコーダー例外を吐くんだろうか?

個人的には問題ないと思うが、問題ないという確証がもてねえ。

2024-11-07

anond:20241107153333

Stablediffusionの代表も「圧縮した」と認めています

どこにも書いてないよ?

画像生成AI学習したデータ復元することができる

まり別のデータに一度圧縮しているだけで、生成時に学習データを利用している

そんな内容は書いてないよ

記事では

画像に対するエンコーダーとして、JPEGPNGなどのエンコーダーより

Stable Diffusion の変分オート エンコーダ (VAE)が効率的だと書いてあるだけだよ

2024-11-04

にじボイス(旧DMMボイス)はエロゲー学習している

注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はありますあくまで推測です。

追記24/11/20

DMMボイスという名前からにじボイス」という名称に変更された。主な変更点は以下。

それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。

DMMボイス(現にじボイス)

最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス

https://nijivoice.com/

それの学習元に、エロゲーテキスト音声データが使われているのではないかという話。

まずは性能がかなり高くて楽しいのでみんな遊んでみてください。(そして知ってる声優がいないか探してみてください。)

追記

何故か音声合成できない文字列

現時点では何のフィルターもなく、どのような卑語卑猥セリフも発話させられる。

ただ、ある特定雰囲気パターンのみなぜか音声合成させると吐息のようなものになり、入力文章からかけ離れてしまう。

それは「ちゅぱちゅぱれろれろ」だ。

他にも、例えば「んじゅぷんくっちゅぱ……じゅ……れちゅはぁ……」「ちゅぷぷっ、んちゅぅ……ちゅくくっ、むちゅぅ……ぢゅるっ、ちゅちゅぅっ」等を試してみてほしい。

ひらがなですべて書かれているので、発音は明確にはっきりしているはずだが、それでもなぜか発音できず吐息のようなものとなる。

一方で、並びはそのままのまま「ふゅととっ、んびゅぅ……こゅねねっ、むびゅぅ……ぞゅけっ、たゅたゅぅっ」「にゅべべっ、おにゅぅ……にゅけけっ、めにゅぅ……づゅれっ、にゅにゅぅっ。」等は、きちんと文字通り発音される。

さらに、単純に全てカタカナにして、「チュパチュパレロレロ」にしてもきちんと発音される。またちょっと並び替えて「ぱちゅぱちゅろれろれ」発音される。その他、適当意味をなさな「ちゅかちゅほぱれもふい」等のランダム文字列にしても発音される。

他にも、私が試してみた限りでは、上述の謎の雰囲気テキスト群以外の文章はほぼ正確に文字通りに発音される。

以上のことから学習データには「ちゅぱちゅぱれろれろ」やその他の上記例のような特定雰囲気セリフに対して、「その文字の通常の発音通りでないような音声」対応しているようなデータが使われていることが推測される。

念の為に書いておくと、音声合成学習にあたっては、音声その音声が何を喋っているかというテキストペアを、大量に学習させる。)

余談

技術的なことなので読み飛ばしてください。

余談であるが、カタカナの「チュパチュパレロレロ」は発音できるがひらがなの「ちゅぱちゅぱれろれろ」は発音できないという事実からは、古くから音声合成での「日本語文章→音素列(簡単に言えば読みのカナ列)→音声」という流れの単純な音声合成だけでなく、元の日本語から情報音声合成入力していること推測できる。

元の日本語テキストに対して、その音素列に加えて、大規模言語モデルエンコーダーモデル、いわゆるテキスト埋め込みも音声合成テキストエンコーダ部分へ注入するというのは、近年の感情豊かな音声合成界隈での一つのトレンドである

音声合成にあたりAIが「発音の仕方」だけじゃなくて「セリフ意味」も理解する、というわけである

例えば「ちゅぱちゅぱれろれろ」も、単独では正常な発話ができないが、はてなは、匿名性を活かした自由表現可能となる場として、ちゅぱちゅぱれろれろ、はてな匿名ダイアリーをご利用いただきたいと考えております。」等に文中に紛れ込ませると正常に発話ができること、また文章全体の示す感情によって途中の声音テンション等が変わること等も、これらの帰結である

エロゲーのチュパ音

さて、我々は「れろれろれろ……ちゅぱっ、ちゅぶっ……んちゅ、れろっ……ぺろ、ぺろっ……んちゅぅ」のようなテキスト文字通りの発音対応しない、そのような状況を知っているはずである。そう、エロゲーだ。

エロゲーにはチュパ音という文化がある。これはヒロイン主人公フェラチオをするシーンで、ヒロイン声優がそのおしゃぶりシーンを汁音たっぷりに演技をするものである

そこでは、「あぁむ、じゅぶ……じゅぽじゅぽ……ちゅるっ、ちゅ、ちゅっ、ちゅぅぅぅぅ……んっ、んっ、んんっーー!」のようなテキストに対して、そのテキストの通常の文字通りの発音からはかけ離れた、しゃぶりまくり音出しまくり啜りまくりの演技が音声として与えられる。

よって上記挙動からDMMボイスの学習元の少なくとも一部には、エロゲーから抽出したデータが使われているのではないかと推測することができる。

学習元としてのノベルゲーム

界隈では有名な事実だが、エロゲー(R18に限らずノベルゲー一般からは、1本だいたい(ものによるが)20時間程度の音声とテキストの両方を(多少の知識があれば)大量に抽出することができ、音声合成音声認識等の音声に関するAI研究においては非常に貴重なデータとなっている。

よって、大量の「テキストと音声のペア」が必要音声合成では、特に表に出ないアングラなところで、ひっそりと学習に使われることが多々ある。また特定声優の声を出そうという意図はなくても、いわゆる音声AIの事前学習モデルとして、すなわち日本語発音の仕方をAIが学ぶとき必要な大量の音声データとして、そのようなデータを使うことは、一般的とまでは言わないにしても、あることである

ましてやDMMであるエロゲープレイヤーならば、近年の衰退しつつあるノベルゲー文化はかなりの部分をFANZA依存していることをすでに知っているだろう(いつもお世話になっております)。

聞き覚えのある声

以上のような理由から私はエロゲーが少なくとも学習データに含まれているのではないかと推測したが、そもそもきっかけは、それより前に、単純にいろんなキャラ音声合成させて遊んでいたら、

少なくとも私の耳には「あれこの人あの声優じゃん?」というキャラが何人かいたかである

久世凛さん(くん?)の人はたぶん声優として有名なあの人だし、ノエラちゃんとか多分一般でも最近いろいろ有名なんじゃなかろうか?(元エロゲー声優出身それから表に出てきて大成功していることで有名)

月城 美蘭ちゃんキャラは某シリーズの某キャラめっちゃ好きです。

他にも声優に詳しい方だったら、誰の声か分かるキャラが数人はいるのではなかろうか。

なぜか最初「ん」発音されない「おちんちん

さら実験を重ねていると、エロゲー学習使用されていると推測されるもう一つの事象発見した。

それは「おちんちんという単語を含んだセリフ音声合成させると、不自然に「おちちん」の1番目の「ん」がきれて「おちっちん」のように音声合成されるという現象である

(実際は「おちっちん」ほど極端ではないが、明確に2番目の「ん」の音が通常の発音よりもかなり弱く、不自然に途切れた印象の発音になっている。「おちんつん」等にして比較するとより違いが明確になる。)

このことから、「おちんちん」という単語がそのまま発話されないデータ学習元に多いのではないかと推測できる。

エロゲープレイヤーならば知っているだろうが、大半の商業エロゲーでは規制から「おちんちん」という文字は「おち○ちん」と伏せ字になり音声ではピー音が入る。

このような音声の内部の音声データは、伏せ字部分が抜けて発音されていることが多い(ピー音がそのまま入っているものもある)。

このことも、エロゲーの音声データDMMボイスの学習元として使われているという推測を支持している。

膣(チツ=ナツ=ナカ)

追記ブコメ等で、「」がなぜか「ナカ」と発音されるという現象の報告が多くあった。また試すと「ナツ」と発話されることも多い。これについて、私よりも音声学に詳しいであろう増田の観察があったのでリンクを貼っておく: anond:20241105060042

端的に言うと、データセットに「膣内に出して……!」等のセリフで「ナカに出して!」と発音されていることが多いことから本来の読みである「チツ」と「ナカ」との混乱がテキストエンコーダ部分で起きた結果の現象だと推測される。

引用になるが「膣はあけぼの。膣は夜。膣は夕暮れ。膣はつとめて。」音声合成させてみるのを試してみるとよいだろう。

DMMボイス側の公式文章

DMMボイスに対して学習元等の問い合わせをしている人たちが数人はいるようで、開発者サイドのそれに対するリプライ文章から抜粋する。

https://x.com/1230yuji/status/1852914053326483685

音声学データは音声データ大量購入機械合成、収録で取得しています。具体的な情報企業秘密にあたるため開示できません。」

ここで「音声データ大量購入」という箇所がひっかかる。そう、界隈にいれば知っている人が多いだろうが、音声とテキストペアデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。

さらにまた、DMMボイスはアニメ調のキャラクター音声合成が売りである。そのようなデータセットで、大量購入できるようなものはほぼない(あったら喉から手が出るほど欲しい)。

まり、ここでの大量購入エロゲー大量購入を指しているのではないかと推測することができる。(もしくは、少し前に触れた、すでに公開されているそのような音声データセットから流用したか)。

利用規約

追記となるが、DMMボイスの利用規約自体が少しおかしいのではという議論を提起している動画があったので紹介しておく: https://www.youtube.com/watch?v=tkBGBVjOIZk

(以前ここで第8条1(1)について書いたいたが、この文言自体利用規約一般的なもののようだ、申し訳ない)

法的な議論

音声AIについて昨年5月あたりから品質が大いに向上したことで、AIカバー声優音声の無断学習等の文脈で、様々な議論が発生している。最近では有名な声優たちがNOMORE無断生成AIというスローガンで大々的に活動している。

https://x.com/NOMORE__MUDAN

これは、声優たちが、自分たちの声が無断でAI学習使用され、その上で収益化をされていることに対して反対して展開している運動だ。

(この運動に対する是非等の意見は私は持たない、最初に述べた通り私はどちらかというとAI推進過激派である。)

また、このような運動がおこる背景として、(イラストでかなりバトルが発生しているが、)AI学習における「声の権利」との法的な取り扱いが現状の法律だと不明瞭な点から法律とくに著作権に訴えることでは現状の使われ方に対して法的措置を取りにくいところにある。

このようなAIと音声の権利については最近の柿沼弁護士記事が参考になるので詳しくはそちらを読んでほしい。

https://storialaw.jp/blog/11344

私自身は法律専門家でもなんでもないので法的なあれこれについて述べることはできないが、理解している範囲で述べる(間違ってたらすみません)。

音声AIの法的議論ではパブリシティ権という概念重要になる。これはざっくり言うと、有名女優肖像勝手商品宣伝に使ったりすると、その女優が得られたであろう広告収入が奪われたことになるのでダメ、という感じのものである

このパブリシティ権現在日本法律の文面では明文化されておらず、どこまでがパブリシティ権にあたるのかということについて、特に音声については、未だ判例がなくはっきり分からない。

しか有名人の氏名についてはパブリシティ権は認められているので、もしDMMボイスが、「あの人気声優○○さんの声で音声合成できる!」としてこのサービス提供していたら、正式契約を結んでいた場合に得られたであろう声優利益のことを考慮すると、声優の許諾がない場合ほぼ確実にダメだと思われる(判例待ちなので断言はたぶんできない)。

だがDMMボイスは、学習元の20人分の声優が誰かや、またその声優からの許諾を得て20人分の声優を使っているかを、うまい具合に言及を避けている。

声優好きな人は声のみからその声優が誰であるかを判定することができる人も多いので、そのような場合に、声優名を伏せていたとしてもパブリシティ権侵害にあたるかは、おそらくかなりグレーで判例待ち事案である

そのような意味で、このDMMボイスは(もし裁判等や運動が起これば)音声AIと声の権利に対する法的な解像度を上げ議論を起こすのに貢献する事例になるであろうことは間違いない。

意見

何度か述べている通り、私はAI推進過激派寄りの人間であり、NOMORE無断生成AI等の、最近声優たちやアンチ生成AI人達による運動に対しては、事態注視しているだけの中立的(むしろ逆にガンガン生成AI使っていこうぜという)立場である

また今回のDMMボイスの公開や今後のサービス展開に対しても、ことさらそれが悪いことだとか、そのようなものは避けるべきだとか、については思っておらず、むしろ「いつか来るだろうなあと思っていたものを大きい企業がようやく出してきたかあ、これで法律や声の権利についての議論判例が進むかもな」といった程度の感想である

(そしてDMMボイスのような技術可能なこと、また実際にそれを学習させてみて個人で楽しむことは、私自一年前くらいからずっとしており、そこから音声AI界隈をウォッチしていた。)

しかし、最近声優サイドの運動や時流を見ると、せめて生成できる20人分の声優の許諾を取っているかについて言及しないままでは、アンチ生成AIサイドの批判の格好の的になるだけなのではないかと感じている。

技術的なことになるが、最近の音声AIでは、実在する声優の声から学習させて、しか音声合成する際には非実在人物による声音音声合成可能である(例えば声優二人の中間の声等)。

それが権利的や法的や倫理的にどうか等は置いておいて、DMMボイスは少なくともそのような措置を取るのがよかったのではないか個人的には感じている。

(ただ、私の耳が悪いだけで、ホントは「この人の声だ!」と思ったキャラクターは実は全然そうじゃなかった可能性もある。しかしこの「「誰が喋っているかが明確に100%には断言できない」ところが音声AIと声の権利議論の難しいところである。)

他のありえる可能

公平のため、最後に「ちゅぱちゅぱれろれろ」が発音できない現象について、エロゲーDMMボイスの学習に直接使われたという以外に他のありうる可能性をいくつか書いておく。

また端的にありえるのは、他の「ちゅぱちゅぱれろれろ」が発音できないような音声AIをそのまま流用している可能である。一つ「ちゅぱちゅぱれろれろ」が正常に発話できない音声合成AIライブラリを知っているが、それはデモ動画に私の好きなエロゲーセリフが堂々と出ていたこから、それの学習元にエロゲーが入っていることはほぼ確実である

また他に、DMMボイス自体を開発する際にはエロゲーデータは使っておらず許諾を得た声優のみから学習させるが、その学習元となった事前学習モデルにはエロゲーデータが入っていた、という可能である。前に少し触れた通り、現在の生成AIには学習に大量のデータ必要であり、まず音声AI発音の仕方を学ぶために、無から正常に発話できるようになるまでには大量のデータ必要である。そのような学習は非常にお金時間がかかるため、生成AIでは「まず大規模なデータ学習させて事前学習モデルを作る」「次に、その事前学習モデルに対して、話させたい話者データで少量追加学習する」というアプローチが取られる場合ほとんどである。このPermalink | 記事への反応(17) | 07:53

2024-03-02

anond:20240301171143

音楽ではencodecなど、映像でも複数AIコーデックが出てますよ。ファイルフォーマットとしては広まってないですけど、AI内部など外とのやりとりが必要ないエンコーダーデコーダーに使われてるのでは?

2024-02-29

anond:20240229131120

ブラウン管がなくなりすべて液晶、あるいは、有機ELという発光素子に置き換わる、なおプラズマディスプレイは無くなった

マウスからボールが無くなり、ミドルボタンホイールロータリーエンコーダーがつく もちろん無線だが電池は1年に1回の交換ですむ

USBというユニーバーサル仕様バス統一されキーボードプリンタなどの周辺機器はすべてこれにぶら下がるようになる なお統一はされているが細かい規格や仕様が混在しておりそれが問題となりヨーロッパ訴訟が発生し国レベル対応要求するような事になっている

2022-05-25

anond:20220525212343

エラー文が親切じゃなさすぎるのは以前からどうにかしたらいいのにって思ってる

昔はやったデスクトップマスコットとか動画エンコーダーみたいにマスコットアニメキャラをつけてキャラが教えてくれるような感じにするだけでかなり改善しそう

プログラム書いてるのはだいたいオタクだろうという偏見に基づいてるけど

2018-01-23

CAFEditorはAviUtlとは全く関係ない開発初期段階の映像制作ソフトです

記事更新履歴

2018/1/25 公式サイトの閉鎖や開発者から謝罪文について追記。

2018/1/23 初版公開。

概要

2018/1/20からTwitter

 「CAFEditor(CAFE)というAviUtl正式な後継ソフトが開発されている」

勘違いしてしまうかもしれない情報拡散

実際にはタイトルにある通りAviUtlとは何の関係も無いし、AviUtl正式な後継ソフトでもないので、

勘違いする人が少なくなるよう、調べてまとめてみました。

 

AviUtlとは?

 「KENくん」氏によって開発されたフリーWindows映像編集ソフトです。

 プラグインも含めて高機能なので動画投稿者などの間で広く使われており、比較的有名なソフトです。

CAFEditor(CAFE)とは?

 数名の有志が開発しているマルチプラットフォーム対応オープンソース映像制作ソフトです。

 まだ開発初期段階であり、ごく限られた機能しか実装されておらず、実用段階ではなく安定もしていません。

 AviUtlとの互換性についても特に言及されていないようです。

 また、AviUtl作者の「KENくん」氏は一切関与していません。

勘違いやすくなってしまった理由

 ●CAFEditor(CAFE)公式サイトREADME

    「AviUtlの後継映像制作ソフトウェアCAFEditorの公式サイトです。」

    「More STRONG than Aviutl

    「A Way BETTER than Aviutl

    「CAFEAviUtlの後継として開発された映像制作ソフトです。」

    「CAFE(Creator's Advanced Film Editor)は、

     AviUtlの後継として考案されたプロジェクトです。」

  といった文言があり、たか正式AviUtl後継ソフトであるかのような誤解を招きやす状態になっていた。

 

 ●当然ではあるが、AviUtl作者の「KENくん」氏から許可を得たわけではない。

 

 ●指摘を受けてCAFEditor(CAFE)開発陣は

    旧: CAFEAviUtlの後継として開発された映像制作ソフトです。

    新: CAFEAviUtlの後継を目指し開発された映像制作ソフトです。

  という修正を行ったが、他の文言がそのままになっていることもあり、

  AviUtl公式後継ソフトだという誤解を招きやすい状況は1/23時点でも続いている。

  →(1/25追記)

    1/25の夕方頃にCAFEditorの公式サイトが閉鎖され、GitHub開発者謝罪文掲載されました。

 

 ●また、上記修正を行った際、CAFEditor公式ツイッター

    「弊プロジェクトは以前よりKENくん氏の所在をお探ししております

     引き続きKENくん氏との連絡を試みて、公式後継ソフトとなれるよう頑張ります

  という、正直「なんだかなー」と思ってしま発言があった。

  (そうは思わないという人もいるかもしれないが、筆者の考えは後述。)

補足情報

 ●CAFEditor(CAFE)公式サイトに「AviUtlの後継」「将来的に専用の高速レンダリングサーバー検討しています」といった文言

  AviUtl公式サイトへのリンクがある件、また「公式後継ソフトとなれるよう頑張ります」といった発言などは

  開発陣の間で合意がとれていたものではなく、相互チェックがされていなかったり個人の独断であったりという事情がある模様。

 

 ●これらの文言発言などをめぐって開発陣の間でトラブルがあったようで、

  レンダラー/エンコーダー担当者の離脱なども起きてしまっている模様。

 

 ●設計/GUI担当の開発者は中学生で、3月~4月頃までは高校受験のため活動不可とのこと。

筆者の個人的見解

 ●AviUtl1997年から開発されていた歴史のある(古い)ソフトであり、更新2013年4月で止まっているため、

  「Windowsしか動かない」「32bitアプリのためメモリ使用量などに制約がある」

  「重い映像制作(4Kなど)は厳しい」といった課題も抱えている。

 

 ●CAFEditor(CAFE)の開発は、「良い映像制作ソフトを作りたい」という思いから始まったのだと思うが、

  現状を見ると「AviUtlの後継」という言葉に奇妙な執着を見せてしまっているように思える。

 

 ●「KENくん氏との連絡を試みて、(AviUtlの)公式後継ソフトとなれるよう頑張ります」という発言はいかがなものかと思う。

  全くの別ソフトであり、まだ初期開発段階であるにも関わらず、有名ソフト作者から後継認定を得たいという姿勢は正直言って好ましくない。

  もっと言うと、開発が進んである程度優れたソフトになった後だとしても、あまり好ましくないと思う。

  企業等がAviUtl権利を買収するというならともかく、そうではないのだから

  AviUtlの名声に便乗して名声を得ようとするフリーライド的な行為に見えてしまうこともある。

 

 ●CAFEditor(CAFE)はAviUtlという名前に頼ったり無闇に引き合いに出すのをやめて、

  独立したプロジェクトとして開発を進め、独自評価と実績を積み上げていった方が良いと思う。

 

 ●まだ開発初期ということや開発陣の事情などにより、公式サイト作成やチェックなどが滞っていたのは仕方ないと思う。

 

 ●トラブルもあったようだが、高機能映像制作ソフトが望まれているのは確かなので、無事にプロジェクト継続してくれることを願う。

2016-07-01

http://anond.hatelabo.jp/20160630235133

サイズはわかる。スペース以前に一覧性が悪くなって結局見なくなるのどうにかして欲しい。

値段はしょうがねえなあと思ってる。日本市場はなぜか安くしても売れる数が増えないという問題から未だに逃れられない。

何が欲しいかって言うと、綺麗な画質の完パケ品が手元に欲しいんだよ。だからほとんどのオンライン版もアウト。月額制ならあの画質でもいいけど。

AVCならエンコーダーこなれてきたし25Mbpsぐらいでもいい。HEVCならまだ15Mbpsぐらい欲しい。

でも一枚に12話おさめるためにならAVC/20Mbpsぐらいでもいい。BOX版の値段でいいから一枚にして出して欲しい。つまり値段高いGJ部りぴーと!でぃすくをみんなやってくれ。

2015-05-02

動画エンコーディングの水溜まり

現在使用している C2Q Q9550 32bit PC (メモリ4GB) では、

24分の1080i 29.97fpsの動画を、

640x360 30fps mp4AVC 2pass VBR 1.5Mbps/max2.5M にするのに1時間

960x540 mp4AVC 2pass VBR 3Mbps/max12M にするのに2時間かかる。

TMPGENC v4を使用し、常時インターレース解除を行っている。

これを最新のCore i7 4790K 64bit PC (メモリ16GB) に置き換えると、どれくらいエンコード時間が短縮されるのだろうか?

但しエンコーダーとして TMPGENC VMW6 を使用するものとし、CPU動画エンコーディング支援機能を利用してもよい。

また、使用するハードディスクSATA HDDであり、入力ソースと出力フォルダは異なるディスクドライブ存在する。

2014-02-06

終了!

さっき打合せしたですよ。

SEOですよ。リスティングも同時ですよ。

次は不具合のある同僚のPCエンコーダーを再インストールですよ。

お次はプリンタが使えないという隣のヤツのPCの面倒を見るわけです。

そいでもって社内のファイルサーバーを新しくするために代表に見せる見積もり作るんです。

お次は決済系のトラブルが発生したので決済会社に問い合わせのメールを送ります

アフィリの請求書がきてるのでチェックして経理に渡すですよ。

ISPから業務提携契約書がきてるので内容を確認するです。

ASWのインスタンスCPUパワーが90になったんでインスタンスを上のクラスに変更しなくちゃ。

ZIPファイルアップロード漏れがあったのでファイルサーバーから探してZIPしたアップしなけりゃ。

XPサポートが切れるからXP使ってる連中のPC発注しないと。

喉が乾いてきたから水のまなくちゃ。

尿意があるからトイレ行かなくちゃ。

まあ、ここで漏らしてもいいか。

まりに大変だから来週あたり会社つぶれねーかな。

終了になんねーかな。

そしたらひと息つけそうだ。

2008-06-09

こんな機器欲しいなぁ。

それならばUSBワンセグチューナーを7つぐらいセットして、全チャンネル録画するような小さなレコーダーを作ればいい。その中から見たいものだけ、携帯などにムーブできれば十分だろう。そもそもデジタル放送の12セグ全部をそのまま録ろうとするから、やれHDDが1テラだ2テラだと必要になるのだ。これをH.264エンコードして小さくしようにも、エンコーダが7つ必要となり、HDDをたくさん搭載するより不経済である。

 ワンセグなら1時間番組が約170Mバイト程度である。これを1日20時間、7チャンネル1週間録画しても、170Gバイトぐらいだ。PC周辺機器でも十分対応できるレベルだだろう。

http://plusd.itmedia.co.jp/lifestyle/articles/0806/09/news018.html

170Gで全チャンネル1週間分というのは惹かれるナー。

自分で作ろうとしたらエンコーダーが数千円にならないとなかなか組めないけど。

 
ログイン ユーザー登録
ようこそ ゲスト さん