inteligência artificial generativa e proteção de dados pessoais |
生成的人工知能と個人データ保護 |
A Lei Geral de Proteção de Dados Pessoais – LGPD (Lei n°. 13.709, de 14 de agosto de 2018) tem como objetivo proteger os direitos fundamentais de privacidade, liberdade e o livre desenvolvimento da personalidade (LGPD, art. 1º, caput), ao mesmo tempo em que tem por fundamento o desenvolvimento econômico e tecnológico e a inovação (LGPD, art. 2º, V). Portanto, a inovação tecnológica deve estar em harmonia com a proteção de dados pessoais. Para a adequada proteção de dados pessoais18, torna-se necessário compreender como os dados são tratados em sistemas de IA Generativa. A recente disponibilização de tais sistemas para uso pela sociedade demonstrou sua rápida popularização e utilização para diferentes propósitos. |
一般個人データ保護法(LGPD)(2018年8月14日法律第13,709号)は、プライバシー、自由、人格の自由な発展という基本的権利(LGPD第1条caput)を保護すると同時に、経済的・技術的発展とイノベーション(LGPD第2条V)を支えることを目的としている。したがって、技術革新は個人情報の保護と調和していなければならない。個人データ18 を適切に保護するためには、 生成的AIシステムでデータがどのように処理されるかを理解する必要がある。最近、このようなシステムが社会で利用できるようになったことで、その急速な普及とさまざまな目的への利用が実証された。 |
Sistemas de IA Generativa apresentam como características fundamentais: (i) necessidade de grandes volumes de dados para seu treinamento; (ii) capacidade de inferência que permite a geração de novos dados semelhantes aos dados de treinamento; e (iii) adoção de um conjunto diversificado de técnicas computacionais, como, por exemplo, as arquiteturas de transformadores para o Processamento de Linguagem Natural (PLN)[19] e algoritmos de AM, como as redes adversariais generativas para a geração de conteúdos visuais. |
生成的AIシステムの基本的な特徴は、(i)学習のために大量のデータが必要であること、(ii)学習データに類似した新たなデータの生成を可能にする推論能力があること、(iii)自然言語処理(NLP)[19]のための変換器アーキテクチャや、映像コンテンツの生成のための生成的敵対的ネットワークなどのMLアルゴリズムなど、多様な計算技法の採用である。 |
Tais características afetam diretamente o tratamento de dados pessoais20 e os princípios que regem a LGPD. A necessidade de grandes volumes de dados pode resultar no tratamento tanto de dados pessoais quanto não pessoais. A coexistência desses dois tipos de dados eleva os riscos relacionados à proteção de dados pessoais, pois aumenta a probabilidade de que dados pessoais sejam tratados sem as devidas salvaguardas e que o princípio da necessidade não seja atendido. Além disso, a capacidade de geração de novos dados, ou conteúdo sintético, coloca em risco a proteção de dados pessoais, uma vez que o conteúdo sintético gerado pode ser indistinguível de dados pessoais e se relacionar a uma pessoa natural identificada ou identificável, bem como ser erroneamente associado a pessoas reais. Por fim, o conjunto de técnicas computacionais ensejam em metodologias complexas e opacas, de modo que o baixo nível de transparência não se deve necessariamente à natureza da técnica utilizada, mas à dificuldade em interpretar suas operações e compreender os processos realizados para a obtenção de resultados. |
これらの特性は、個人データの処理20 とLGPDを管理する原則に直接影響する。大量のデータを必要とする場合、個人データと非個人データの両方が処理されることになる。これら2種類のデータが共存すると、個人データが適切な保護措置なしに処理され、必要性の原則が満たされない可能性が高まるため、個人データの保護に関するリスクが高まる。さらに、新しいデータ、すなわち合成コンテンツを生成する能力は、個人データの保護を危うくする。なぜなら、生成された合成コンテンツは、個人データと区別がつかず、識別された、または識別可能な自然人に関連し、また実在の人物と誤って関連付けられる可能性があるからである。最後に、一連の計算技法は複雑で不透明な方法論に帰結するため、透明性の低さは必ずしも使用される技法の性質によるものではなく、その操作を解釈し、結果を得るために実施されたプロセスを理解することの難しさによるものである。 |
Assim, os titulares21 e agentes de tratamento22 se encontram diante de sistemas de IA que apresentam desafios significativos para a proteção de dados pessoais. Os riscos vão desde o potencial tratamento de dados pessoais e a geração de conteúdo sintético até a dificuldade de assegurar |
このように、データ主体21と処理機関22は、個人データ保護に重大な課題をもたらすAIシステムに直面している。そのリスクは、個人データの潜在的処理や合成コンテンツの生成から、透明性などの原則を確保することの難しさまで多岐にわたる。 |
princípios como a transparência. Tais condições exigem atenção aos princípios e regras estabelecidas pela LGPD e impõem desafios relacionados ao risco de violações de direitos fundamentais. |
透明性などの原則を確保することの難しさにまで及ぶ。このような状況下では、LGPDが定めた原則やルールに注意を払う必要があり、基本的権利の侵害リスクに関連する課題を課している。 |
A seguir, analisa-se a relação da IA generativa com diferentes operações de tratamento de dados pessoais. Além disso, ao final deste capítulo, serão trazidas breves reflexões sobre a IA generativa e alguns princípios da LGPD. Para tanto, adotou-se o seguinte conjunto de referências: CNIL (2023), Glenster; Gilbert (2023), ABNT NBR ISO/IEC 22989 (2023), AEPD (2023), OPC (2023), Solove (2024), Rana et al., (2022), Teffé (2017). |
次に、 生成的AIとさまざまな個人データ処理業務の関係を分析する。さらに、本章の最後に、 生成的AIとLGPDの原則のいくつかについて簡単な考察を行う。そのために、以下の参考文献を採用した: CNIL(2023)、Glenster; Gilbert(2023)、ABNT NBR ISO/IEC 22989(2023)、AEPD(2023)、OPC(2023)、Solove(2024)、Ranaら(2022)、Teffé(2017)。 |
18 Dados pessoais: informação relacionada a pessoa natural identificada ou identificável. |
18 個人データ:識別された、または識別可能な自然人に関する情報。 |
19 Processamento de Linguagem Natural: é uma área interdisciplinar que envolve o campo da ciência da computação dedicado à interação entre computadores e a linguagem humana, por meio de programas capazes de processar, analisar, interpretar e gerar dados de linguagem natural. Isso inclui o resumo de textos, tradução automática, reconhecimento da voz, análise de sentimentos, geração de texto e voz, entre outros. A linguagem natural é qualquer língua humana, que pode ser expressa em texto, fala, linguagem de sinais etc. |
19 自然言語処理:自然言語データを処理、分析、解釈、生成できるプログラムによって、コンピュータと人間の言語との相互作用に特化したコンピュータ科学の分野を含む学際的分野である。これには、テキストの要約、機械翻訳、音声認識、感情分析、テキストと音声の生成などが含まれる。自然言語とは、テキスト、音声、手話などで表現されるあらゆる人間の言語である。 |
20 Tratamento de dados pessoais: toda operação realizada com dados pessoais, como as que se referem a coleta, produção, recepção, classificação, utilização, acesso, reprodução, transmissão, distribuição, processamento, arquivamento, armazenamento, eliminação, avaliação ou controle da informação, modificação, comunicação, transferência, difusão ou extração. |
20 個人データの処理:収集、作成、受領、分類、使用、アクセス、複製、送信、配布、処理、保管、保存、削除、情報の評価または管理、変更、通信、移転、普及または抽出に関するものなど、個人データを用いて行われるあらゆる操作。 |
21 Titulares: pessoa natural a quem se referem os dados pessoais que são objeto de tratamento. |
21 情報主体:処理される個人データが関係する自然人。 |
22 Agentes de tratamento: o controlador e o operador. |
22 処理代理人:管理者および運営者。 |
A relação entre o tratamento de dados pessoais e os sistemas de IA Generativa |
個人データ処理と生成的AIシステムの関係 |
A fim de evidenciar a relação entre o tratamento de dados pessoais e os sistemas de IA Generativa, este estudo delimitou 04 (quatro) conjuntos de elementos que fazem parte do tratamento de dados pessoais. São eles: (i) coleta e armazenamento, (ii) processamento, (iii) compartilhamento e (iv) eliminação. |
個人データの処理と 生成的AIシステムの関係を明らかにするために、本研究では個人データの処理に含まれる要素を4つに分類した。すなわち、(i)収集と保管、(ii)処理、(iii)共有、(iv)削除である。 |
i) Coleta e Armazenamento de dados para treinamento |
i) 学習用データの収集と保存 |
O desenvolvimento de modelos de IA Generativa envolvem várias etapas e um dos primeiros passos é a coleta de dados que posteriormente são armazenados e usados para treinar o modelo. |
生成的AIモデルの開発にはいくつかの段階があり、最初の段階のひとつがデータの収集である。 |
Uma das maneiras de coletar dados para a formação de grandes bases para treinamento e testes de sistemas de IA Generativa, é por meio da técnica de raspagem de dados da web (data scraping ou web scraping). Essa técnica utiliza programas para navegar pela web que realizam a coleta, extração e/ou cópia automatizada de dados criados e disponibilizados pelos usuários da web ou por terceiros. Os dados coletados podem incluir qualquer informação presente na web como nomes, sobrenomes, endereços, endereços de e-mail, vídeos, áudios, imagens, comentários, opiniões, preferências, entre outros dados e identificadores, disponíveis em diferentes sítios eletrônicos ou em bases de dados. |
生成的AIシステムのトレーニングやテストのための大規模なデータベースを形成するためのデータ収集方法のひとつに、データスクレイピング(ウェブスクレイピング)という手法がある。この手法では、ウェブ・ユーザーや第三者によって作成され利用可能になったデータを収集、抽出、コピーするウェブ閲覧プログラムを使用する。収集されるデータには、氏名、姓名、住所、電子メールアドレス、動画、音声、画像、コメント、意見、嗜好など、ウェブ上に存在するあらゆる情報が含まれる。 |
A raspagem de dados, a depender do método de automação utilizado, pode selecionar dados específicos, como por exemplo, coletar apenas opiniões e até mesmo definir um intervalo de tempo regular para realizar uma nova coleta. Em outros casos, a raspagem pode operar em uma escala significativa e percorrer bilhões de páginas da web. A dinamicidade e a velocidade de disponibilização de novos dados na web permite o desenvolvimento de diferentes sistemas para realizar a atividade de raspagem e agregação de dados (data aggregators)23. |
データスクレイピングは、使用される自動化方法によって、意見のみを収集したり、再収集のための定期的な時間間隔を設定するなど、特定のデータを選択することができる。また、何十億ものウェブページを対象とした大規模なスクレイピングも可能である。新しいデータがウェブ上で利用可能になるダイナミズムとスピードは、データのスクレイピングと集約を行うさまざまなシステム(データ・アグリゲータ)の開発を可能にしている23。 |
Como exemplo de grandes bases de dados disponíveis e utilizadas no treinamento de modelos de IA24 pode ser destacada a Common Crawl. Essa é uma organização sem fins lucrativos que realiza o rastreamento e a coleta regular de dados na web, por meio de crawlers, ou seja, programas automatizados, com o objetivo de gerar repositórios. Trata-se de uma infraestrutura centralizada que reúne dados de diferentes fontes, agregados e armazenados de forma gratuita e aberta, disponível para qualquer pessoa que deseja realizar pesquisas e desenvolver inovações que requerem grandes conjuntos de dados, inclusive no campo da IA25. |
AIモデルの学習に利用可能な大規模データベースの例24として、Common Crawlがある。これは非営利団体で、リポジトリを生成する目的で、クローラー(自動プログラム)を使ってウェブ上のデータを定期的にクロールし、収集している。これは、さまざまなソースからのデータを集約し、自由でオープンな方法で保存する集中型のインフラであり、AI25の分野を含め、大規模なデータセットを必要とする研究やイノベーションの開発を望む誰もが利用できる。 |
A natureza abrangente da coleta massiva de dados possibilita que repositórios, como os da Common Crawl, ofereçam uma fonte de dados ampla e diversificada obtidos por meio de raspagem a agregação de dados. Para o treinamento de modelos de IA, os desenvolvedores podem mesclar a raspagem de dados realizada de forma direta pelo próprio desenvolvedor, com fontes de outra organização como a Common Crawl, bem como com dados de fontes diversas como livros, artigos e publicações científicas, dissertações e teses, transcrições de áudio e vídeo, tabelas, códigos, legislações, entre outros. |
大量データ収集の包括的な性質により、コモン・クロールのようなリポジトリは、データスクレイピングと集約によって得られた、広範で多様なデータソースを提供することが可能になる。AIモデルを訓練するために、開発者は、開発者が直接実施したデータスクレイピングと、Common Crawlのような別の組織からのソース、さらに書籍、科学論文や出版物、学位論文や学位論文、音声やビデオのトランスクリプト、表、コード、法律などの様々なソースからのデータを混在させることができる。 |
A operação de raspagem e agregação de dados em larga escala amplia os riscos em relação à possibilidade de incluir dados pessoais. O amplo escopo de dados que podem ser coletados para o desenvolvimento de modelos, também apresenta a mesma preocupação. |
大規模なデータのスクレイピングと集計の作業は、個人データを含む可能性に関するリスクを増大させる。モデル開発のために収集できるデータの範囲が広いことも、同様の懸念を引き起こす。 |
A ausência de etapas de pré-tratamento adequadas para a eliminação ou anonimização26 de dados pessoais possibilita a existência de riscos significativos relacionados ao tratamento indevido de dados pessoais. Os riscos apresentam agravantes nos casos que incluem o tratamento de dados pessoais sensíveis27 e dados de crianças e adolescentes. |
個人データの削除または匿名化26 のための適切な前処理ステップがないことは、個人データの不適切な処理に関連する重大なリスクが存在することを意味する。このリスクは、機微な個人データ27 や児童・青少年のデータ処理に関わる場合に悪化する。 |
É importante destacar que o conteúdo de sites públicos ou acessíveis publicamente estão sujeitos à LGPD, visto que empresas que disponibi-lizam tais informações possuem obrigações em relação à proteção de dados pessoais em suas plataformas. Da mesma forma, desenvolvedores e empresas que realizam a raspagem na web devem garantir a conformidade com a proteção de dados pessoais. |
公開されているウェブサイトや一般公開されているウェブサイトの内容は、LGPDの対象となることを強調しておくことが重要である。なぜなら、そのような情報を公開している企業は、自社のプラットフォーム上の個人データの保護に関して義務を負っているからだ。同様に、ウェブスクレイピングを実施する開発者や企業も、個人データの保護に関するコンプライアンスを確保しなければならない。 |
O tratamento de dados pessoais sem o conhecimento dos titulares envolvidos limita o controle destes sobre os seus dados pessoais. A limitação do controle pode ocorrer mesmo após a eliminação dos dados pelos titulares na web em virtude da possibilidade de raspagem anterior e seu armazenamento em repositórios. |
データ主体の知らないところで個人データを処理すると、データ主体の個人データに対する管理が制限される。過去のスクレイピングやリポジトリへの保存の可能性により、データ主体がウェブ上でデータを削除した後でも、管理の制限は起こりうる。 |
A operação de raspagem deve indicar a hipótese legal para o tratamento de dados pessoais, de modo que empresas que realizam essa atividade precisam considerar uma das hipóteses legais presentes nos arts. 7 º e 11 da LGPD. Adicionalmente, conforme o art. 7º, §§ 3º e 4º, existe a expressa menção à aplicação dos princípios de proteção de dados nos casos em que os dados pessoais são tornados públicos pelo próprio titular ou de acesso público. Logo, o uso de dados pessoais raspados deve atentar sobretudo aos princípios da boa-fé, finalidade, adequação e necessidade. |
そのため、この活動を行う企業は、個人情報の処理に関する法的仮説を、導出法第7条および第11条にある法的仮説のいずれかを考慮する必要がある。さらに、第7条第3項および第4項によれば、個人データがデータ主体によって公開される場合、または一般にアクセス可能な場合におけるデータ保護原則の適用について明示的に言及されている。したがって、スクレイピングされた個人データの利用は、善意、目的、適切性、必要性の原則に特に注意を払わなければならない。 |
Dessa forma, são necessários mecanismos que assegurem a transparência adequada nas etapas de coleta e armazenamento de dados para a forma-ção de grandes bases de dados. |
したがって、大規模なデータベースを形成するためには、データ収集と保存の段階で十分な透明性を確保する仕組みが必要である。 |
23 Agregação de dados: é uma técnica que por meio de sistemas computacionais agrupa dados coletados de uma grande variedade de fontes em um repositório centralizado para acesso e tratamento. |
23 データ集約:コンピュータシステムを用いて、さまざまな情報源から収集したデータを一元化されたリポジトリにまとめ、アクセスや処理を行う技術。 |
24 Modelos de IA: representação matemática e lógica de um sistema, entidade, fenômeno, processo ou dados. O modelo permite a IA processar, modelar, adaptar-se, interpretar e gerar dados para interagir com o mundo, com capacidade de generalizar o aprendizado para diferentes contextos. Os modelos podem ser divididos em diferentes tipos, de acordo com a sua função ou aplicação, por exemplo, modelos de aprendizado de máquina, modelos baseados em regras, modelos de redes neurais artificiais, entre outros. |
24 AIモデル:システム、実体、現象、プロセス、またはデータの数学的・論理的表現。モデルにより、AIはデータを処理、モデル化、適応、解釈、生成して世界と相互作用することができ、異なる文脈に学習を汎化する能力を持つ。モデルはその機能や用途によって、例えば機械学習モデル、ルールベース・モデル、人工ニューラルネットワーク・モデルなど、さまざまなタイプに分けることができる。 |
25 Maiores informações em: https://commoncrawl.org. |
25 詳細はhttps://commoncrawl.org。 |
26 Anonimização: utilização de meios técnicos razoáveis e disponíveis no momento do tratamento, por meio dos quais um dado perde a possibilidade de associação, direta ou indireta, a um indivíduo. |
26 匿名化:データ処理時に利用可能な合理的な技術的手段を使用し、データから個人との直接的または間接的な関連付けの可能性をなくすこと。 |
27 Dados pessoais sensíveis: dado pessoal sobre origem racial ou étnica, convicção religiosa, opinião política, filiação a sindicato ou a organização de caráter religioso, filosófico ou político, dado referente à saúde ou à vida sexual, dado genético ou biométrico, quando vinculado a uma pessoa natural. |
27 機微(センシティブ)個人データ:自然人に関連する場合、人種的または民族的出身、宗教的信念、政治的意見、労働組合または宗教的、哲学的または政治的団体の会員であること、健康または性生活に関するデータ、遺伝的またはバイオメトリックなデータに関する個人データ。 |
ii) Processamento |
ii) 処理 |
O processamento de dados envolve etapas do ciclo de vida de sistemas de IA28 Generativa. A atividade de processar dados é iniciada na fase anterior ao treinamento do modelo, ou seja, durante a formação da base de dados de treinamento e teste e percorre o ciclo de vida dos sistemas de IA Generativa. |
データ処理には、AI28システムのライフサイクルにおける段階が含まれる。データを処理する活動は、モデルをトレーニングする前の段階、すなわちトレーニング・データベースとテスト・データベースを形成する段階から始まり、生成的AIシステムのライフサイクルを通じて実行される。 |
A utilização de dados de repositórios originados de processos de raspagem da web, bem como a mesclagem com dados raspados de forma direta pelo próprio desenvolvedor com outras fontes podem implicar no uso e reuso de dados para o treinamento e refinamento de diferentes modelos em IA. Na existência de dados pessoais, isso pode conduzir a um tratamento contínuo, irrestrito e ilimitado de dados pessoais em diferentes sistemas de IA Generativa. |
ウェブのスクレイピング処理に由来するリポジトリからのデータの使用や、開発者が直接スクレイピングしたデータと他のソースとのマージは、さまざまなAIモデルの訓練と改良のためのデータの使用と再利用を意味する。個人データの場合、これはさまざまなジェネレーティブAIシステムにおける個人データの継続的、無制限、無制限の処理につながる可能性がある。 |
A capacidade de sistemas de IA Generativa de gerar novo conteúdo sintético vai além do processamento básico de dados e abrange o aprendizado e a modelagem para gerar novas representações com base nos dados de treinamento. |
新しい合成コンテンツを生成する 生成的AIシステムの能力は、基本的なデータ処理にとどまらず、学習データに基づいて新しい表現を生成するための学習とモデリングを包含する。 |
Durante o treinamento, os parâmetros do modelo recebem seus respectivos valores que representam os pesos29 em relação à capacidade do modelo de gerar, por exemplo, linguagem natural precisa. Os pesos refletem padrões e relações aprendidas, ou seja, como o modelo responde e aprende a partir dos dados de treinamento. |
学習中、モデルのパラメータには、例えば正確な自然言語を生成するモデルの能力との関係で、重み29を表すそれぞれの値が与えられる。重みは、学習されたパターンと関係、すなわちモデルが学習データにどのように反応し、学習するかを反映する。 |
Os modelos não processam e armazenam informações específicas, pois sua característica matemática invisibiliza os dados, ou seja, a existência de dados pessoais nas bases de dados pode ser ocultada por meio de processos matemáticos durante o treinamento. Desta forma, os dados pessoais podem não ser diretamente identificados no modelo. Cumpre ressaltar, que recentes estudos colocam em discussão a possibilidade de pessoas naturais serem identificáveis em razão de vulnerabilidades a ataques do tipo de inversão de modelo (model inversion) e de membership inference (VEALE, BINNS, EDWARDS, 2018) |
モデルの数学的特性はデータを不可視にするため、モデルは特定の情報を処理・保存しない。つまり、データベース内の個人データの存在は、学習中の数学的処理によって隠すことができる。このように、個人情報はモデル内で直接特定されることはない。最近の研究では、モデルの反転やメンバーシップ推論攻撃に対する脆弱性により、自然人が特定される可能性が議論されていることに留意すべきである(VEALE, BINNS, EDWARDS, 2018)。 |
Porém, os sistemas de IA Generativa permitem interações dos usuários em linguagem natural com o modelo treinado para a geração de respostas. Desta forma, a depender da forma de interação, instruções e o contexto informado pelo usuário por meio do prompt30, dados pessoais podem ser gerados como resposta em MLLE. |
しかし、 生成的AIシステムでは、ユーザが訓練されたモデルと自然言語で対話し、回答を生成することができる。したがって、インタラクションの形式、指示、およびプロンプトを通じてユーザーが提供するコンテキスト30に応じて、MLLEでは個人データを回答として生成することができる。 |
O conteúdo31, embora sintético, ou seja, gerado pelo modelo, apresenta narrativas que podem resultar na produção de conteúdo falso ou inverídico sobre uma pessoa real. Essa possibilidade apresenta riscos em relação à proteção de dados e ao livre desenvolvimento da personalidade, especialmente no que tange ao direito de imagem do titular. |
コンテンツ31は、モデルによって生成された合成的なものではあるが、実在の人物に関する虚偽または真実でないコンテンツが生成される可能性のある語りを提示する。この可能性は、データ保護と人格の自由な発展、特に保有者の肖像権との関係でリスクをもたらす。 |
Neste ponto, não se trata apenas da fisionomia e retrato da pessoa, ou seja, sua imagem-retrato como uma expressão externa da pessoa humana, mas também de sua imagem-atributo que está relacionada com um conjunto de características que podem ser associadas a uma pessoa em sua representação no meio social, como a honra, reputação, dignidade ou prestígio. |
この時点では、人相や肖像、すなわち人間の外見的表現としてのイメージ・ポートレートだけでなく、名誉、名声、威厳、威信など、社会環境における表現において個人と関連付けられ得る一連の特徴に関連するイメージ・アトリビュートも含まれる。 |
Por exemplo, em uma interação com o prompt para análise de currículos, o sistema pode gerar conteúdo sintético que apresente fatos infundados e inverídicos sobre a vida pessoal do candidato, interpretações errôneas de opiniões, informações inverídicas e qualquer outro conteúdo que pode disseminar informações falsas ou prejudicar a reputação de alguém. Outro exemplo é o caso ocorrido com a atriz Taylor Swift que foi alvo de disseminação viral de imagens sexuais falsas geradas por deepfakes32. |
例えば、履歴書を分析するためのプロンプトとのインタラクションにおいて、システムは、候補者の私生活に関する根拠のない事実、意見の誤った解釈、真実でない情報、その他虚偽の情報を広めたり誰かの評判を傷つけたりする可能性のあるあらゆるコンテンツを提示する合成コンテンツを生成することができる。別の例としては、女優のテイラー・スウィフトが、ディープフェイク32 によって生成された偽の性的画像のウイルス拡散の標的になったケースがある。 |
Daniel Solove (2024) se refere a esses conteúdos inverídicos gerados pela IA generativa como “materiais malevolentes”, devido à sua capacidade de amplificar casos de fraudes e outros golpes. Ele alerta, contudo, que nem sempre esses materiais são gerados de forma intencional pelo operador da IA Generativa, devido ao fenômeno da alucinação33. A intenção pode ser um elemento importante em regimes de responsabilidade que se baseiam numa concepção de culpa subjetiva, contudo ela tem menor relevância em regimes de responsabilidade objetiva ou baseados na concepção normativa de culpa. |
Daniel Solove(2024)は、生成的AIによって生成されたこのような真偽不明のコンテンツを、詐欺などの事例を増幅させる能力から「悪意のある素材」と呼んでいる。しかし彼は、幻覚現象33 のために、こうした素材が必ずしも生成的AIのオペレーターによって意図的に生成されるとは限らないと警告している。故意は、主観的過失の概念に基づく責任体制においては重要な要素となりうるが、客観的責任体制や過失の規範的概念に基づく責任体制においては、あまり関係がない。 |
Assim, há um desafio em definir quem deve se responsabilizar pela geração de alucinações referentes a pessoas naturais que possuam efeito danoso. Outro desafio está na conformidade com a LGPD, visto que sistemas de IA Generativa podem gerar dados pessoais sem que tenham sido especificamente treinados para essa finalidade. |
したがって、有害な影響を及ぼす自然人に関する幻覚の発生について、誰が責任を負うべきかを定義することには課題がある。また、 生成的AIシステムはこの目的のために特別に訓練されることなく個人データを生成することができるため、GDPRの遵守も課題となる。 |
28 Ciclo de vida de sistemas de IA: é um modelo que descreve a evolução e etapas de um sistema de IA, desde o início de seu desenvolvimento até a sua desativação. As etapas não são sequenciais e podem ocorrer muitas vezes de forma iterativa, tais como, gestão de riscos, correções, refinamento do modelo, implementação de melhorias e atualizações do sistema. A decisão de desativar um sistema de IA pode ocorrer em qualquer momento durante a fase de operação e monitoramento. |
28 AIシステムのライフサイクル:これは、AIシステムの開発開始から廃止までの進化と段階を記述するモデルである。段階は連続的ではなく、リスク管理、修正、モデルの改良、改良の実施、システムの更新など、反復的に行われることが多い。AIシステムを廃止するという決定は、運用・監視段階であればいつでも起こりうる。 |
29 Pesos: variável interna de um modelo que afeta a forma de cálculo das saídas ou resultados. No caso de IA Generativa, os pesos determinam a importância relativa de diferentes entradas para o cálculo das saídas. Para isso, os pesos são ajustados iterativamente durante o processo de treinamento do modelo para capturar padrões e características dos dados de treinamento. |
29 重み:出力や結果の計算方法に影響を与えるモデルの内部変数。生成的AIの場合、重みは、出力を計算するための異なる入力の相対的な重要性を決定する。そのために、モデルの学習過程で重みが反復的に調整され、学習データのパターンや特性を把握する。 |
30 Prompt: pode ser traduzido como entrada ou comando. Na computação o prompt é uma mensagem ou uma linha de comando em uma interface de usuário. No contexto da IA Generativa, o prompt é uma entrada de texto usada para dar instruções ao modelo de IA sobre o que fazer ou qual pergunta esse deve responder. |
30 プロンプト:入力または命令と訳すことができる。コンピューティングでは、プロンプトとはユーザーインターフェイスのメッセージやコマンドラインのことである。ユーザーインターフェース。 生成的AIの文脈では、プロンプトはAIモデルに何をすべきか、あるいはどのような質問に答えるべきかの指示を与えるために使用されるテキスト入力である。 |
31 Conteúdo sintético: conjunto de informações composta por dados sintéticos. Nesta seção, optou-se por utilizar esta expressão, para frisar que o conteúdo gerado poderá incluir dados pessoais. É importante, ainda, ter em mente que o termo “dado sintético” é utilizado tanto no campo da computação quanto na área de privacidade e proteção de dados. Na computação, os dados sintéticos podem ser utilizados no desenvolvimento e testes de sistemas de IA quando os dados reais não estão disponíveis nas quantidades necessárias, não existem ou não podem ser tratados, e para o balanceamento de bases de dados. Na área de privacidade e proteção de dados, o uso de dados sintéticos costuma estar associado às Privacy Enhancing Technologies (PETs). Neste sentido, a AEPD destaca que o dado sintético será uma técnica de PET, se usada para gerar conjuntos de dados não pessoais com a mesma utilidade que os pessoais. Note, porém, que “conteúdos sintéticos” não são gerados com a finalidade de anonimização. |
31 合成コンテンツ:合成データで構成された情報の集合。このセクションでは、生成されるコンテンツに個人データが含まれる可能性があることを強調するために、この表現を使用することにした。また、「合成データ」という用語は、コンピューティングの分野でも、プライバシーとデータ保護の分野でも使われることを念頭に置くことも重要である。コンピューティングの分野では、実データが必要量入手できない場合、存在しない場合、処理できない場合、データベースのバランスをとる場合などに、AIシステムの開発やテストに合成データを使用することができる。プライバシーとデータ保護の分野では、合成データの利用はプライバシー向上技術(PETs)と関連付けられることが多い。この意味で、EDPSは、個人データと同じ有用性を持つ非個人データのセットを生成するために合成データが使用される場合、合成データはPET技術となることを強調している。ただし、「合成コンテン ツ」は匿名化を目的として生成されるものではないことに留意されたい。 |
32 Deepfakes: o termo deepfake é derivado do termo deep learning e fake, ou seja, aprendizado profundo e falso, em português. O termo descreve o conteúdo realístico manipulado como fotos e vídeos gerados pelo aprendizado profundo. |
32 ディープフェイク(Deepfake):ディープフェイクという用語は、ディープラーニング(深層学習) とフェイク(偽物)という用語に由来する。この用語は、ディープラーニングによって生成された写真や動画など、リアルに操作されたコンテンツを表す。 |
33 Alucinação: o termo alucinação em Modelos de Linguagem em Larga Escala (MLLEs) são caracterizados por conteúdo gerado que não é representativo, verídico ou não faz sentido em relação à fonte fornecida, por exemplo, devido a erros na codificação e decodificação entre texto e representações. No entanto, deve-se notar que a alucinação artificial não é um fenômeno novo (BEUTEL, GEERITS e KIELSTEIN, 2003). |
33 幻覚:大規模言語モデル(Large-Scale Language Models:LSML)における幻覚という用語は、例えばテキストと表 現の間の符号化および復号化におけるエラーのために、代表的でない、真実でない、または提供されたソースとの関連で意味をなさない、生成されたコンテンツによって特徴づけられる。しかし、人為的な幻覚は新しい現象ではないことに留意すべきである(BEUTEL, GEERITS and KIELSTEIN, 2003)。 |
iii) Compartilhamento |
iii) 共有 |
Em virtude da abrangência do conceito de compartilhamento no tratamento de dados pessoais, que pode ser visto por diferentes perspectivas, o estudo dividiu o compartilhamento em três etapas: (1) compartilhamento de dados pelo usuário do sistema de IA Generativa que pode ser ou não o titular de dados; (2) compartilhamento dos resultados obtidos por meio da interação com o prompt em sistemas de IA Generativa com dados pessoais por terceiros; e (3) compartilhamento do modelo pré-trei-nado com dados pessoais. |
個人データの処理における共有の概念は、様々な観点から捉えることができる範囲を考慮し、本研究では共有を3つの段階に分けた:(1)データ主体であるか否かを問わない生成的AIシステムのユーザーによるデータの共有、(2)生成的AIシステムにおけるプロンプトとの対話を通じて得られた結果の第三者による個人データとの共有、(3)事前学習済みモデルの個人データとの共有。 |
1. Compartilhamento de dados pelo usuário do sistema de IA Generativa que pode ser ou não o titular de dados |
1. データ主体であるか否かを問わない生成的AIシステムの利用者によるデータの共有 |
Em primeiro lugar, cabe aqui refletir sobre o compartilhamento de novos dados pessoais por usuários que interagem com esses sistemas (sejam usuários na posição de titular de dados ou na de agentes de tratamento34) a partir de prompts de comando. |
まず、コマンドプロンプトからこれらのシステムと対話するユーザー(データ主体の立場にあるユーザーであれ、処理代理人34の立場にあるユーザーであれ)による新たな個人データの共有について考察する価値がある。 |
O prompt dos atuais sistemas de IA Generativa possibilita compartilhar uma vasta gama de dados para a geração de respostas. Com a evolução dos sistemas, a funcionalidade do prompt foi aprimorada e passou a comportar a inclusão de anexos em diferentes formatos. Logo, os usuários podem fornecer instruções e adicionar documentos que implicam diretamente no compartilhamento e tratamento de dados. |
今日の 生成的AIシステムは、回答を生成するために様々なデータを共有することを可能にしている。システムの進化に伴い、プロンプトの機能は改善され、現在ではさまざまな形式の添付ファイルを含めることができる。ユーザーは、データの共有や処理に直接関わる指示を出したり、文書を追加したりすることができる。 |
As instruções fornecidas pelos usuários podem incluir uma diversidade de informações, como trechos de documentos, mensagens de texto, e-mails, comentários e opiniões disponíveis em diferentes plataformas, detalhes de experiências pessoais, pesquisas acadêmicas, histórico de compras, interações com clientes, registros médicos, dúvidas e relatos sobre procedimentos médicos, entre outros, que podem apresentar dados pessoais e dados pessoais sensíveis. |
ユーザーが提供する指示には、文書からの抜粋、テキストメッセージ、電子メール、さまざまなプラットフォームで利用可能なコメントや意見、個人的な経験の詳細、学術研究、購入履歴、顧客とのやりとり、医療記録、医療処置に関する質問や報告書など、さまざまな情報を含めることができ、個人データや機密性の高い個人データを提示することができる。 |
Adicionalmente, os usuários podem ter a opção de anexar diferentes tipos de documentos em sua integralidade de modo a ampliar a interação e a capacidade de tratamento de dados. Sendo assim, documentos empresariais confidenciais, receitas e laudos médicos, documentos públicos como escrituras e procurações, atas de reuniões, tabelas, figuras, entre outros, podem ser anexados a fim de receber como resultado uma análise, interpretação ou qualquer outro questionamento que o usuário considere pertinente. Assim, as informações disponibilizadas ao prompt são utilizadas para o aprendizado do contexto. |
加えて、ユーザーは、相互作用とデータ処理能力を拡大するために、さまざまな種類の文書をそのまま添付することができる。したがって、機密のビジネス文書、処方箋、医療報告書、証書や委任状などの公的文書、会議の議事録、表、図などを添付して、ユーザーが適切と考える分析、解釈、その他の質問を受けることができる。このようにして、プロンプトが利用可能にした情報は、文脈を知るために利用される。 |
Um aspecto relevante sobre os MLLE refere-se à geração de respostas personalizadas. As informações fornecidas no prompt são utilizadas para modelar as respostas dentro do contexto, de modo que o contexto da resposta anterior pode ser utilizado para responder uma pergunta posterior dentro do mesmo assunto. |
MLLEの関連する側面は、パーソナライズされた回答の生成である。プロンプトで提供された情報は、コンテキストの中で回答をモデル化するために使用され、前の回答のコンテキストが同じテーマに関する次の質問に回答するために使用できる。 |
O agente de tratamento e o titular de dados, em muitos casos, podem não ter o conhecimento sobre os riscos envolvidos neste compartilhamento de informações ou confiar no sistema em virtude dos benefícios proporcionados pelos resultados ou assistência recebida. Além disso, se uma pessoa natural, usuário do sistema de IA, compartilha dados pessoais de outros titulares com o sistema de IA Generativa, ele poderá, a depender do contexto, ser considerado um agente de tratamento. |
処理代理人およびデータ対象者は、多くの場合、このような情報共有に伴うリス クに気づいておらず、また結果や支援によってもたらされる利益のためにシス テムを信頼していない可能性がある。さらに、AIシステムのユーザーである自然人が、他のデータ主体の個人データを 生成的AIシステムと共有する場合、文脈によっては、そのデータ主体が処理エージェントとみなされる可能性がある。 |
Dentro desse aspecto, os sistemas devem ser desenvolvidos de modo a proteger a privacidade dos usuários em interações que podem envolver o compartilhamento de dados pessoais no prompt. Outro aspecto relevante é a ausência de informações claras e facilmente acessíveis sobre o tratamento dos dados pessoais disponibilizados no prompt. |
この点で、システムは、個人データを共有する可能性のあるインタラクションにおいて、ユーザーのプライバシーを保護するように開発されなければならない。また、プロンプトで利用可能な個人データの処理について、明確で簡単にアクセスできる情報が不足していることも問題である。 |
A transferência de responsabilidade sobre a proteção de dados pessoais para o usuário a fim de garantir o uso adequado de sistemas de IA Generativa que adotam MLLE não parece ser suficiente para lidar com as consequências atualmente existentes do compartilhamento de dados pessoais via prompt de comando. |
MLLEを採用した 生成的AIシステムの適切な使用を保証するために、個人データの保護に関する責任をユーザーに転嫁することは、コマンドプロンプトを介して個人データを共有することから現在存在する結果に対処するのに十分ではないように思われる。 |
34 Agentes de tratamento: o controlador e o operador. Controlador: pessoa natural ou jurídica, de direito público ou privado, a quem competem as decisões referentes ao tratamento de dados pessoais. Operador: pessoa natural ou jurídica, de direito público ou privado, que realiza o tratamento de dados pessoais em nome do controlador. |
34 処理代理人:管理者およびオペレーター。管理者:公法または私法に準拠する自然人または法人で、個人データの処理に関する決定 に責任を負う。オペレーター:管理者に代わって個人データの処理を行う、公法または私法に準拠する自然人または法人。 |
2. Compartilhamento dos resultados obtidos por meio da interação com o prompt em sistemas de IA Generativa com dados pessoais por terceiros |
2. 生成的AIシステムにおけるプロンプトとの対話によって得られた結果の第三者による個人情報の共有 |
Sistemas de IA Generativa podem permitir que dados pessoais sejam compartilhados com terceiros, quando esses dados compõem o conteúdo sintético gerado por estes sistemas. |
生成的AIシステムによって生成される合成コンテンツが個人データで構成されている場合、生成的AIシステムは個人データを第三者と共有することができる。 |
Nesse caso, as observações mencionadas na seção anterior (Processamento) devem ser observadas com atenção, principalmente considerando o risco de os dados compartilhados serem reutilizados para finalidades secundárias que dificilmente o desenvolvedor do sistema de IA Generativa conseguirá controlar. |
この場合、特に、共有されたデータが、 生成的AIシステムの開発者が管理しにくい二次的な目的に再利用されるリスクを考慮し、前節(処理)で述べた注意事項を注意深く守る必要がある。 |
Estabelecer uma cadeia de responsabilidade entre os diferentes agentes envolvidos nesse compartilhamento de dados pessoais se torna um ponto relevante para garantir conformidade à LGPD, embora desafiador. |
このような個人データの共有に関与する異なるエージェント間の責任の連鎖を確立することは、困難ではあるが、LGPDの遵守を確保するための関連事項となる。 |
3. Compartilhamento do modelo pré-treinado com dados pessoais |
3. 事前学習済みモデルと個人データの共有 |
Como os modelos pré-treinados podem ser considerados um reflexo da base de dados utilizada no treinamento, a popularização de criação de APIs35 que adotam modelos fundacionais como os MLLE pré-treinados, traz um novo desafio. O compartilhamento de modelos tende a envolver também os dados que estão matematicamente presentes neles. |
訓練済みモデルは、訓練に使用されたデータベースの反映であると考えられるため、訓練済みMLLEのような基礎モデルを採用するAPI35の作成が一般化することは、新たな課題をもたらす。モデルを共有することは、数学的に存在するデータも共有することになる。 |
Este tipo de compartilhamento permite o desenvolvimento de aplicações independentes que realizam um ajuste fino ou refinamento do modelo fundacional36, por meio do treinamento com um conjunto de dados específicos para o domínio pretendido. |
この種の共有は、意図された領域に特化した一連のデータで基礎モデル36 を訓練することで、基礎モデルの微調整や改良を行う独立したアプリケーションの開発を可能にする。 |
Ao relacionar o refinamento do modelo fundacional, com a possibilidade de uso dos resultados obtidos por meio da interação com o prompt para a geração de bases de treinamento para o refinamento, a existência de dados pessoais permite um ciclo contínuo de tratamento, como será descrito no tópico seguinte (Eliminação). |
基礎モデルの改良を、改良のための訓練ベースを生成するために、プロンプトとのインタラクションを通じて得られた結果を使用する可能性とリンクさせることによって、個人データの存在は、次のトピック(消去)で説明されるように、処理の継続的なサイクルを可能にする。 |
O compartilhamento de modelos fundacionais que foram treinados com dados pessoais, bem como o uso desses dados para seu refinamento, pode envolver riscos relacionados à proteção de dados a depender da finalidade desejada. |
個人データで訓練された基礎モデルを共有すること、およびこのデータを改良のために使用することは、意図する目的によってはデータ保護リスクを伴う可能性がある。 |
35 APIs: sigla para Application Programming Interface, em português, Interface de Programação de Aplicações; uma forma de permitir, por intermédio de programas de software, a interação entre diferentes aplicativos e extrair dados. |
35 API:Application Programming Interface(アプリケーション・プログラミング・インターフェース)の頭字語。ソフトウェア・プログラムを通じて異なるアプリケーション間の相互作用やデータの抽出を可能にする方法である。
|
36 Refinamento do modelo fundacional: Em inglês fine tuning é uma técnica que pode ocorrer no Aprendizado de Máquina para o ajuste de um modelo que já foi treinado por um grande conjunto de dados para seu uso em um domínio específico. O ajuste ocorre por meio de um novo treinamento com um conjunto de dados mais restrito. |
36 基礎モデルの改良:ファイン・チューニングとは、機械学習において、特定の領域で使用す るために大量のデータセットですでに訓練されたモデルを調整するために行われる技 術である。チューニングは、より限定されたデータセットで再トレーニングすることによって行われる。 |
iv) Eliminação |
iv) 削除 |
A etapa de eliminação é aquela na qual o dado pessoal ou o conjunto de dados armazenados em banco de dados são eliminados ao término do seu tratamento. |
削除段階は、データベースに保存された個人データまたは一連のデータが、その処理の終了時に削除される段階である。 |
A definição do término do tratamento de dados pessoais em sistemas de IA Generativa precisa considerar três novos elementos relevantes: a geração de conteúdo sintético, a interação com o prompt que permite o compartilhamento de novos dados e o refinamento contínuo do modelo. |
生成的AIシステムにおける個人データ処理の終了の定義は、3つの新たな関連要素、すなわち、合成コンテンツの生成、新たなデータの共有を可能にするプロンプトとの相互作用、モデルの継続的な改良を考慮に入れる必要がある。 |
Essa integração de elementos em um único sistema de IA Generativa pode apresentar dados pessoais. Esse novo contexto tecnológico pode resultar na possibilidade de tratamento contínuo de dados pessoais e exige novas abordagens. |
一つの 生成的AIシステムにおけるこの要素の統合は、個人データを提示することができる。この新たな技術的背景は、個人データの継続的処理の可能性をもたらし、新たなアプローチを必要とする。 |
Desse modo, há um desafio em delimitar o fim do período de tratamento, bem como se a finalidade ou necessidade foram alcançadas, além de dificuldades relacionadas com efetivação da revogação do consentimento do titular em sistemas de IA Generativa (caso essa hipótese legal seja utilizada). |
したがって、(この法的仮説が使用される場合)ジェネレーティ ブAIシステムにおけるデータ主体の同意の効果的な取り消しに関する困難さに加えて、処理期間の終 了の区切りや、目的または必要性が達成されたかどうかの課題がある。 |
Assim, é importante observar o princípio da responsabilização e prestação de contas (art. 6º, X) por todos os atores da cadeia produtiva de sistemas de IA Generativa, enquanto esses dados pessoais não tenham sido terminantemente eliminados. |
したがって、個人情報が完全に排除されていない限り、 生成的AIシステムの生産チェーンにおけるすべての関係者の責任と説明責任の原則(第6条X)を遵守することが重要である。 |
Em suma, todo o ciclo de vida do tratamento de dados pessoais e o uso de elementos da Inteligência Artificial Generativa devem ser compatíveis com direitos e liberdades dos indivíduos, de modo que os direitos e princípios que orientam a LGPD sejam observados. |
要するに、個人データ処理のライフサイクル全体と生成的人工知能の要素の使用は、個人の権利と自由に適合していなければならず、LGPDの指針となる権利と原則が遵守されなければならない。 |
A IA Generativa e os princípios da LGPD |
生成的AIとLGPDの原則 |
Em relação aos princípios é possível realizar alguns apontamentos. O princípio da transparência requer informações claras, precisas e facilmente acessíveis aos titulares de dados. É comum que os titulares de dados não sejam informados sobre a raspagem de seus dados na web, a inclusão de seus dados pessoais nas bases de treinamento dos modelos, bem como da possibilidade de que interações com o prompt envolvam o compartilhamento de seus dados pessoais ou de terceiros. Portanto, é comum observar a ausência de disponibilização de documentação técnica e não técnica detalhada sobre o tratamento de dados pessoais em diferentes sistemas de IA Generativa. |
原則に関しては、いくつかの指摘ができる。透明性の原則は、データ主体が明確で正確かつ容易にアクセスできる情報を必要とする。データ主体が、ウェブ上で自分のデータをスクレイピングすること、モデルの学習ベースに自分の個人データを含めること、プロンプトとのインタラクションが自分や第三者の個人データを共有する可能性について知らされていないことはよくあることである。そのため、さまざまな 生成的AIシステムにおける個人データの取り扱いに関する詳細な技術的・非技術的文書が存在しないことがよくある。 |
A existência de documentação técnica detalhada seria um ponto inicial para a verificação de conformidade em relação à proteção de dados e às fontes de dados utilizadas, agregadas e filtradas, de modo a evidenciar as técnicas ou práticas adotadas que podem conduzir a não utilização de dados pessoais. Da mesma forma, a produção de documentação adequada poderia auxiliar no monitoramento dos sistemas de IA Generativa em seu ciclo de vida, de modo a identificar melhorias e permitir o exercício de direitos, no caso de existência de dados pessoais. A documentação poderia reduzir os riscos relacionados a aplicações que envolvem o tratamento de dados pessoais e garantir a transparência. |
詳細な技術文書が存在すれば、データ保護に関するコンプライアンス、使用されるデータソース、集計、フィルタリングを検証するための出発点となり、個人データが使用されないことにつながる可能性のある技術や慣行が採用されていることを明らかにすることができる。同様に、適切な文書を作成することは、個人データが存在する場合に改善を特定し、権利行使を可能にするために、生成的AIシステムをそのライフサイクル全体を通して監視するのに役立つだろう。文書化は、個人データの処理を伴うアプリケーションに関するリスクを軽減し、透明性を保証することができる。 |
Por sua vez, o princípio da necessidade apresenta um desafio adicional relacionado ao uso de grandes bases de dados em modernos sistemas de IA Generativa no atendimento ao critério de limitação ao tratamento mínimo necessário para o alcance da finalidade. O princípio não indica uma proibição em relação ao treinamento de sistemas de IA Generativa com grandes volumes de dados, mas envolve reflexões e cuidados antes do treinamento, para evitar a existência de dados pessoais não úteis nas bases de treinamento, bem como inseridos posteriormente por meio do prompt ou de anexos. |
一方、必要性の原則は、目的を達成するために必要な最小限の処理に限定するという基準を満たす上で、現代の 生成的AIシステムにおける大規模なデータベースの使用に関連する新たな課題を提示している。この原則は、大量のデータを用いた 生成的AIシステムのトレーニングの禁止を示すものではないが、トレーニングベースでは有用でない個人データが存在し、プロンプトや添付ファイルを介して後から挿入されることを避けるために、トレーニングの前に熟慮と注意が必要である。 |
De maneira similar, embora os demais princípios da LGPD também não proíbam o crescimento e a inovação no campo da IA Generativa, trazem aspectos que precisam ser observados para o desenvolvimento e uso responsável dessas tecnologias. Afinal, é necessário garantir o desenvolvimento responsável e o pleno progresso da Inteligência Artificial Generativa em diferentes áreas em conjunto com o respeito à privacidade e proteção de dados em todo o seu ciclo de vida. |
同様に、LGPDの他の原則も、 生成的AIの分野における成長と革新を禁止するものではないが、これらの技術の開発と責任ある使用のために遵守すべき側面をもたらす。結局のところ、様々な分野におけるジェネレーティブ人工知能の責任ある発展と完全な進歩を、そのライフサイクル全体を通してプライバシーとデータ保護の尊重と合わせて保証することが必要なのである。 |
Recent Comments