<div dir="ltr"><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)"><br></div><div class="gmail_extra"><br><div class="gmail_quote">On 27 September 2017 at 09:47, Toerless Eckert <span dir="ltr"><<a href="mailto:tte@cs.fau.de" target="_blank">tte@cs.fau.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Wed, Sep 27, 2017 at 08:32:15AM +1000, Matthew Kerwin wrote:<br>
> Emoji are astral codepoints, aren't they? ????????<br>
<br>
Thanks!<br>
<span class="gmail-"><br>
> If you mean font support (I'm not going to trip myself up over the<br>
> difference between character sets and encodings and all that, but I'm<br>
> pretty sure 'Unicode' has you covered for characters/codepoints) that's a<br>
> mostly-solved problem in the modern web, with webfonts and the like.<br>
<br>
</span>Sure, sitting in an airplane, trying to read a document and getting a<br>
pop-up window to go on the internet, create i think an apple-id to<br>
be able to download some asian character set (if i remember it correctly).<br>
<span class="gmail-"><br></span></blockquote><div><br></div><div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)">​I don't know about PDFs, but if you download the HTML version of a page there's usually an option to download all the linked resources (images, CSS, etc.) at the same time, so it should continue to work offline.  Although, I don't know if that includes fonts linked from CSS.​</div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span class="gmail-">
> So the useful words to put in the table would be basic document types<br>
> (PDF/text/HTML). We can bicker over what "text" means WRT UTF-8 elsewhere.<br>
<br>
</span>I definitely would like to have an indication if it's "more than ASCII" text<br>
(eg: foreign characters included).<br>
<br></blockquote><div><br></div><div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)">​Sure, I can understand the need for a multidimensional "requirements for accurately viewing this resource" description.  Soon enough it will have to be able to describe the basic format (PDF/HTML/plain text), the character range (7-bit ASCII, Latin-1[*], BMP, Supplementary[†]), and whether it includes embedded images.  A single-word description probably isn't enough, though.</div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)"><br></div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)">Meanwhile, I figured the words in that column were basically representative of the formats described in RFC 7990 (and its antecedents.)  In which case, all the rest is implied.</div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)"><br></div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)">Cheers</div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)"><br></div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)">[*] i.e. the Basic Latin + Latin-1 Supplement blocks; same as ISO-8859-1</div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)"><br></div><div class="gmail_default" style="font-family:georgia,serif;color:rgb(7,55,99)">[†] Some tools still have issues with characters that don't fit in UCS-2. There's also "includes four-byte UTF-8 sequences" which is a different thing, but has caused me issues in the past with some tools.​</div></div></div>-- <br><div class="gmail_signature"><div dir="ltr">  Matthew Kerwin<br>  <a href="http://matthew.kerwin.net.au/" target="_blank">http://matthew.kerwin.net.au/</a></div></div>
</div></div>