Discusión:Unicode
Formato
[editar]UNICODE no especifica ningún formato de codificación, como se cita en el texto.
BMP es Basic Multilingual Plane y contiene todos los caracteres basicos para cubrir las lenguas en uso actual, (unicode tambien codifica alfabetos de interes historico, literario etc.), y en el articulo se hace referencia al formato BMP que no tiene nada que ver!!!
Codificación
[editar]Retiro el texto siguiente; al contrario de lo que pone en él y de los comentarios anteriores (que no están firmados) el estándar unicode propone las normas de codificación utf-8, utf-16 y utf-32:
..., pero no especifica cómo debe codificarse en un sistema informático, por lo que es posible establecer codificaciones de uno, dos o más bytes, convirtiendo a Unicode en un estandar extensible.
acreditaré este hecho en futuras ediciones del artículo con las referencias correspondientes.
Salu2 --Marco Antonio Regueira (discusión) 22:13 22 may 2009 (UTC)
Composición de símbolos
[editar]Retiro el texto siguiente porque Unicode no trata en ningún caso de cómo se dibujan los caracteres. El texto retirado parece erudito y lo dejo aquí con la esperanza de que sea útil en otro lugar.
Saludos. --Marco Antonio Regueira (discusión) 00:50 25 may 2009 (UTC)
- Combinar símbolos, como en el complejo método de moldeo de caracteres requerido para dibujar propiamente texto arábico y en muchos otros alfabetos, depende normalmente de tecnologías, como OpenType (de Adobe y Microsoft), Graphite (de Sil International) y AAT (de Apple), en los cuales un diseñador de fuentes incluye instrucciones en la fuente, explicándole al software como imprimir diferentes secuencias de caracteres corrrectamente. Las fuentes de tamaño fijo algunas veces emplean otro método: especificando el símbolo combinado a la izquierda de su propio espacio; este método, sin embargo, funciona solamente para algunos caracteres, y estos no se apilan adecuadamente.
- Incluso en la actualidad la mayoría del software aún no puede manejar confiablemente muchas características no aceptadas por los viejos formatos de fuentes, así que combinar caracteres frecuentemente no funciona de forma correcta. En teoría ḗ (caracter prediseñado con una "e" con macrón y acentuada, en un punto de código único) y ḗ (una "e" seguida de de la combinación de un macrón y un acento agudo arriba de la letra, especificada como dos puntos de código consecutivos) tienen una apariencia idéntica, ambas dando una "e" con macrón y tildada, pero en la práctica, sus apariencias pueden variar enormemente dependiendo del uso que le dé el software. También los puntos inferiores, que son necesarios en el alfabeto Indú romanizado, a menudo son desplegados incorrectamente. Por ejemplo:
- ṃ - ṇ - ḷ
- Incluso en la actualidad la mayoría del software aún no puede manejar confiablemente muchas características no aceptadas por los viejos formatos de fuentes, así que combinar caracteres frecuentemente no funciona de forma correcta. En teoría ḗ (caracter prediseñado con una "e" con macrón y acentuada, en un punto de código único) y ḗ (una "e" seguida de de la combinación de un macrón y un acento agudo arriba de la letra, especificada como dos puntos de código consecutivos) tienen una apariencia idéntica, ambas dando una "e" con macrón y tildada, pero en la práctica, sus apariencias pueden variar enormemente dependiendo del uso que le dé el software. También los puntos inferiores, que son necesarios en el alfabeto Indú romanizado, a menudo son desplegados incorrectamente. Por ejemplo:
- Por supuesto, tales problemas no muestran una debilidad del Unicode en sí, sino revelan los errores y debilidades en la tecnología aplicada al dibujado (rendering) y a las fuentes. Cabe por último mencionar también la existencia de símbolos preestablecidos para muchos de estos caracteres, por ejemplo: ṃ - ṇ - ḷ.
Nota
[editar]Según Unicode
The difference between identifying a character and rendering it on screen or paper is crucial to understanding the Unicode Standard’s role in text processing. [...] The Unicode Standard does not define glyph images. That is, the standard defines how characters are interpreted, not how glyphs are rendered. Ultimately, the software or hardware rendering engine of a computer is responsible for the appearance of the characters on the screen. The Unicode Standard does not specify the precise shape, size, or orientation of on-screen characters.
Más texto retirado
[editar]Sección WEB
Esta sección incorpora información sobre utf-8 sin citarlo directamente y de forma poco clara. Retiro dichas referencias y revisaré lo que queda.--Marco Antonio Regueira (discusión) 01:10 25 may 2009 (UTC)
Sección Correo electrónico
El contenido de esta sección no trataba sobre UNICODE, trataba sobre las cabeceras MIME en mensajes de correo electrónico.--Marco Antonio Regueira (discusión) 01:33 25 may 2009 (UTC)
Alfabetos soportados
[editar]Para mejorar la presentación reduzco la lista siguiente de alfabetos, que no es completa, a una muestra y una referencia a la lista completa. --Marco Antonio Regueira (discusión) 10:19 25 may 2009 (UTC)
- Árabe
- Armenio
- Bengalí
- Birmano
- Braille
- Sílabas aborígenes canadienses
- Cheroqui
- Copto
- Cirílico
- Devanāgarī
- Esperanto
- Etíope
- Georgiano
- Griego
- Guyaratí
- Gurmukhi
- Hangul (Coreano)
- Han (Kanji, Hanja y Hanzi)
- Japonés (Kanji, Hiragana y Katakana)
- Hebreo
- Jemer (Camboyano)
- Kannada (Canarés)
- Laosiano
- Latino
- Malabar
- Mongol
- Oriya
- Siríaco
- Tailandés (Thai)
- Tamil
- Tibetano
- Yi
- Zhuyin (Bopomofo)
Retirado texto (UTF-2000, tron, han antiguo)
[editar]Retiro el siguiente texto de la sección de discusión, motivado por falta de actualidad y referencias.
1. Símbolos antiguos de kanji. Unicode está en este momento incorporando las antiguas marcas de oráculo por fines académicos. La simbología han está altamente incorporada, incluyendo símbolos históricos.
2. UTF-2000. Este estándar alternativo a unicode nunca ha pasado de proyecto. Véase aquí.
3. TRON/BTRON/ITRON/... Es casi imposible encontrar información fideligna sobre estado de este proyecto, en particular sobre el grado de adopción. La documentación parece o antigua o en japonés. Y ninguna fechada. En 2001 en los foros de unicode se hablaba de ello pero sin concreción. 1 2. Si alguien encuentra algo, agradeceré que me lo comunique o que directamente lo incorpore al artículo, si es relevante. --Marco Antonio Regueira (discusión) 23:29 26 may 2009 (UTC)
Texto retirado:
Unicode es duramente criticado{{Cita requerida}}
por no permitir el uso de los símbolos alternos y antiguos del kanji, lo cual, se dice, complica el procesamiento del japonés antiguo y de nombres japoneses poco usuales. Estas críticas persisten aunque Unicode sigue completamente las recomendaciones de maestros del lenguaje japonés y del gobierno japonés. Incluso ha habido numerosos intentos de crear un Unicode alternativo. Entre los muchos propuestos se encuentra el TRON (aunque no es ampliamente adoptado en Japón, algunos, en especial aquellos que necesitan manejar texto escrito en japonés antiguo, favorecen este estándar); y el UTF-2000]. Aunque es verdad que muchos símbolos antiguos no fueron incluidos en las primeras versiones del Unicode estándar, Unicode 4.0 contiene más de 90,000 caracteres Han, muchísimos más que cualquier otro diccionario o estándar, y que el proceso de agregar caracteres de la temprana escritura de China, Corea y Japón continua.
Complot contra las culturas asiáticas
[editar]Retiro el siguiente texto. El mismo párrafo da la respuesta a la crítica. Como todos los países implicados integran el IRG, sería necesario conocer la representatividad de las críticas antes de incluir el comentario. Véase nota sobre BTRON. --Marco Antonio Regueira (discusión) 22:54 27 may 2009 (UTC)
Texto retirado:
Otras personas han denigrado el Unicode al afirmar que es un complot{{Cita requerida}}
contra las culturas asiáticas perpetrado por los occidentales sin ningún conocimiento de como son usados los caracteres en chino, coreano o japonés, a pesar de que un buen número de expertos de los tres continentes en el Grupo Ideográfico del Poniente (IRG por sus siglas en inglés). El IRG avisa al consorcio del Unicode y al ISO y a la Unificación Han de las nuevas adiciones al repertorio y de la identificación de símbolos en los tres lenguajes sobre cuales de ellos se pueden tratar como variaciones de estilo del mismo carácter histórico. La unificación Han se ha convertido en uno de los aspectos más controvertidos de Unicode.
Sin embargo, no todo son rechazos, pues algunos gobiernos, como el gobierno de India, han mostrado enorme interés en el proyecto, siendo miembro con derecho a voto en el consorcio de Unicode.
Más texto retirado
[editar]Retiro el siguiente texto, no he dado con ninguna cita adecuada. --Marco Antonio Regueira (discusión) 23:23 31 may 2009 (UTC)
No obstante, esta simplicidad se complica con las concesiones hechas por los diseñadores de Unicode, con la esperanza de animar una mayor "adopción" de Unicode{{Cita requerida}}
.
y este, bastante oscuro, que parece referirse a la forma en que se codifican caracteres en html
Web
[editar]Estos caracteres se manifiestan directamente como bytes de acuerdo a la documentación de cada codificacón, si ésta es compatible con Unicode, o bien el usuario puede escribirlos directamente como referencias numéricas de caracteres basado en el punto código de Unicode de cada carácter, siempre y cuando la codificación de cada documento permita utilizar los dígitos necesarios para escribir las referencias (todos los códigos aprobados para uso en el internet lo permiten). Por ejemplo, las referencias:
Δ
, Й
, ק
, م
, ๗
, あ
, 叶
, 葉
,
y
냻
( o el mismo valor numérico expresado en hexadecimal con &x como el prefijo) se muestran en el navegador como Δ, Й, ק, م, ๗, あ, 叶, 葉 y 냻.
Secciones anuladas
[editar]- Origen y desarrollo
He redistribuido parte del texto de esta sección agregándolo a otras secciones. Espero reducir el tamaño del artículo eliminando redundancias.
- Unicode en uso
En este momento solo quedaba referencia a que unos sistemas operativos utilizan utf-8 y otros utf-16 pero que la mayoría usan unicode. Dejaré una referencia sobre el tema, pero reduzco un poco el tamaño del artículo. La información original, que pego a continuación, puede ser interesante para agregar a los articulos sobre UTF-8 y 16. --Marco Antonio Regueira (discusión) 13:10 2 jul 2009 (UTC)
Unicode en uso
[editar]Sistemas operativos
[editar]Unicode se ha convertido en el esquema dominante para el procesamiento y en ocasiones para el almacenamiento de texto (aunque mucho del texto aún es almacenado en codificaciones heredadas). Los adaptadores iniciales utilizaban UCS-2 y después cambiaron a UTF-16 (debido a que esta era la única manera de agregar compatibilidad para caracteres que no eran bmp). El mejor ejemplo conocido de este sistema es Windows NT (y obviamente sus descendientes Windows 2000 y Windows XP). Aunque también los códigos de bytes de los ambientes Java y .NET lo utilizan. Por otro lado UTF-8 (desarrollado para Plan 9) se ha convertido en la codificación principal de la mayoría de los sistemas operativos similares o basados en Unix (aunque otros también son usados por algunas bibliotecas) debido a que es relativamente fácil hacer el reemplazo por caracteres de los juegos de caracteres extendidos ASCII.
- Discusión sobre ideogramas han/japonés
Retiro el siguiente texto, más que una discusión real, parece hablar de algunas confusiones que el mismo texto rebate. Con citas apropiadas, podría ser adecuado reincorporar al menos una parte. --Marco Antonio Regueira (discusión) 18:13 11 jul 2009 (UTC)
Discusiones
[editar]Algunas personas, principalmente en Japón, se opone al Unicode en general {{Cita requerida}}
, quejándose de las limitaciones técnicas y problemas políticos involucrados. Las personas que trabajan en el proyecto ven esas críticas como malentendidos del estándar Unicode y del proceso por el cual ha evolucionado{{Cita requerida}}
. El error más común, desde este punto de vista, tiene que ver con la confusión entre caracteres abstractos y sus formas visuales altamente variables. Por otro lado mientras que la población china puede leer fácilmente la mayoría de los símbolos utilizados por los japoneses o los coreanos, los japoneses muy a menudo reconocen sólo una variante en particular {{Cita requerida}}
(lo cual es un dato curioso, pues el japonés y el coreano son considerados como lenguas aisladas) {{Cita requerida}}
. El incluir el Lenguaje Thai también ha sido criticado por su orden ilógico de caracteres {{Cita requerida}}
. Esta complicación es debido a que el Unicode ha heredado el Estándar Industrial Thai 620, el cual funcionaba de la misma manera. Este problema de orden complica el proceso de comparación de Unicode.
Cierro tanda de ediciones
[editar]Finalizo esta tanda de ediciones.
Un saludo a todos.--Marco Antonio Regueira (discusión) 19:08 14 jul 2009 (UTC)
Desactualizado
[editar]Se hace referencia a que el codigo UTF 5.2 saldrá en Otoño de 2009, sin embargo ya estamos enn Verano/Invnierno de 2011 y no se a agregado información al respecto de lo sucedido ni de lo que sucede, se pide revisar y actualizar. — El comentario anterior sin firmar es obra de 190.20.25.178 (disc. • contribs • bloq).
Estado del artículo
[editar]El artículo no parece nada objetivo, con frases del estilo "futuro Unicode 7.0".
Restauración y puesta al día Mayo 2012
[editar]Saludos! En julio de 2009 redacté la mayor parte del artículo, a partir de la información oficial de unicode, la versión anterior, y la versión en inglés. En esa revisión se eliminó parte de la información anterior que no era relevante en unos casos por incluir valoraciones u opiniones o ser mero libelo en otras. Otras informaciones se eliminaron por estar relacionadas con el tema solo tangencialmente. En lo posible todo esto está documentado en esta página de discusión.
En octubre del mismo año el artículo fue vandalizado y no fue restaurado correctamente quedando mutilado. Gran parte del contenido eliminado es necesario para entender el estándar e incluso se referencia en las partes restantes... así que realmente se ha quedado con una fragción del contenido durante todo este tiempo.
Sorprendentemente y a pesar de ello, los porcentajes en la valoración de los usuarios no son malos del todo, aunque me sorprende la relativamente baja puntuación en objetividad en un artículo principalmente técnico que no incorpora valoraciones conscientes. Si alguien tiene objecciones en este sentido sería útil que las exponga para mejorar así el artículo.
Aunque ya no colaboro activamente con la wikipedia, intentaré poner el artículo al día con la versión 6.1 de unicode en los próximos días...
De acuerdo con la filosofía de la wikipedia invito a cualquier persona interesada a participar directamente, editando el artículo o indirectamente, avisándome de posibles fallos. Por favor, no borréis secciones de texto sin justificar el borrado, será en beneficio de todos...
--Marco Antonio Regueira (discusión) 15:36 15 may 2012 (UTC)
Desactualizado
[editar]Se hace referencia a que el codigo UTF 5.2 saldrá en Otoño de 2009, sin embargo ya estamos enn Verano/Invnierno de 2014 y no se a agregado información al respecto de lo sucedido ni de lo que sucede, se pide revisar y actualizar arriba a 6.0 & 6.1 & 6.2 & 6.3 & 7.0. Consultar y ver: http://en.wikipedia.org/wiki/Unicode
La palabra 'lenguaje'
[editar]Tanto en el artículo como en la discusión se usa frecuentemente la palabra lenguaje cuando debería usarse la palabra 'lengua'. Lenguaje es un concepto más extenso que lengua, así que utilizar 'lenguaje' produce ambigüidad. Ejemplos:
"La base de datos de caracteres CJK se denomina Unihan y contiene, además, información auxiliar sobre significado, conversiones, datos necesarios para utilizarlos en los diferentes lenguajes que los utilizan" (creo que se refiere a las lenguas que lo utilizan, no a ninguna de las otras acepciones de lenguaje)
"Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento informático, transmisión y visualización de textos de múltiples lenguajes y disciplinas técnicas". (idem)
Entiendo que esto se escribió así por influencia del inglés, y que no es del todo incorrecto, pero creo que queda mucho más claro utilizar la palabra lengua, porque seguramente en inglés se referirían a esta acepción.83.33.23.176 (discusión) 22:02 10 ene 2015 (UTC)
- Un anglicismo que ya tiene precedente en la RAE excepción 7 por lo cual la convierte en una palabra plenamente integrada y con un significado excluye de lengua, esperemos que nadie hable en unicode y que solo lo escriba. No hay nada que discutir realmente.--Marianov (discusión) 12:33 13 ene 2015 (UTC)
Enlaces externos modificados
[editar]Hola,
Acabo de modificar 1 enlaces externos en Unicode. Por favor tomaos un momento para revisar mi edición. Si tenéis alguna pregunta o necesitáis que el bot ignore los enlaces o toda la página en su conjunto, por favor visitad esta simple guía para ver información adicional. He realizado los siguientes cambios:
- Se añadió el archivo https://web.archive.org/web/20081117190357/http://www.unicode.org/book/appD.pdf a http://unicode.org/book/appD.pdf
Por favor acudid a la guía anteriormente enlazada para más información sobre cómo corregir los errores que el bot pueda cometer.
Saludos.—InternetArchiveBot (Reportar un error) 12:11 2 ago 2019 (UTC)
Enlaces externos modificados
[editar]Hola,
Acabo de modificar 1 enlaces externos en Unicode. Por favor tomaos un momento para revisar mi edición. Si tenéis alguna pregunta o necesitáis que el bot ignore los enlaces o toda la página en su conjunto, por favor visitad esta simple guía para ver información adicional. He realizado los siguientes cambios:
- Se añadió el archivo https://web.archive.org/web/20160303224618/http://www.unicode.org/alloc/nonapprovals.html a http://unicode.org/alloc/nonapprovals.html
Por favor acudid a la guía anteriormente enlazada para más información sobre cómo corregir los errores que el bot pueda cometer.
Saludos.—InternetArchiveBot (Reportar un error) 13:30 2 jul 2020 (UTC)