Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

16

Від автора: стаття нашого гостя Каталін Рошу, яка разом з колегами зібрала тонни даних про HTML контент на веб-сайтах. Дослідження було проведено зовсім недавно, не терпиться подивитися на результати. Хочеться порівняти кращі результати з моїми припущеннями та дізнатися, чи був я правий.

Всі ми брали участь у цьому дослідженні. Ми намагаємося поліпшити HTML-код, роблячи його чистіше, краще і більш читабельним. Ми женемося за семантикою і доступністю, щоб сайт був доступний абсолютно всім. І у нас завжди виникають питання:

Як краще структурувати розмітку?

Як це роблять інші розробники?

Попереднє дослідження

У 2005 Ян Хіксон, редактор по специфікації HTML5, провів аналіз понад мільйон зразків документів. Він хотів зрозуміти, з чого складається веб-сторінка. Мільйон – дуже велике число, але для Google немає нічого неможливого. Ян витягнув з усіх документів цінну інформацію про популярні імена класів, елементи, атрибути та метаданих. Пізніше ці результати були опубліковані на Web Authoring Statistics. Це дослідження дотепер залишається самим великим у сфері ПЗ для створення сайтів.

Трохи пізніше в 2008 році пошуковий робот Opera Metadata Analysis and Mining Application або MAMA закінчили аналіз 3,5 мільйонів адрес сайтів. Брайан Вілсон, автор цієї вражаючої роботи, розширив дослідження, опублікувавши дані про повну структурі сторінок, в тому числі HTML, CSS і JS код.

Список найпопулярніших імен класів у цих HTML документах був одним із тестів, що пізніше зробив величезний вплив на HTML5 розробку. Пошуковий робот Opera MAMA також визначив найпоширеніші імена класів. Крім даних від Google робот також опублікував дані про самих популярних значення атрибута ID.

Що дає нам це дослідження?

Дані були зібрані з 8,021,323 індекс сторінок з першої двадцятки пошукової видачі Google за приблизно 30 мільйонам ключових слів по їх важливості. Що це значить: у нас є 30 мільйонів ключових слів. Ми провели пошук в Google по кожному з них і зберегли URL перших двадцяти сайтів, видаливши повторювані.

Про те, що ці сторінки релевантні по відношенню до основної маси, можна тільки припустити. Таке припущення ми робимо на основі того, що ці сайти будуть самими популярними і будуть мати високу навантаження, що підніме їх у пошуковій видачі.

Свіжість даних

Останні дані були отримані 20 травня 2016 року. Нове дослідження ніколи не поб’є попередній, проведене Google в 2005 році. У цьому дослідженні також не стояло мети побити результати Opera. Метою був пошук нових та актуальних способів написання розмітки на основі популярних сайтів.

Так як же виглядає середньостатистична веб-сторінка зараз? Подивіться на скріншот нижче, повну статистику можна переглянути за посиланням на дослідження.

Статистика

Судячи з скріншоту, середньостатистична індекс сторінка використовує 26 різних типів тегів.

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Частотність вживання всіх 26 тегів на найпопулярніших сайтах:

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Не дивно, що теги head html використовуються на всіх сайтах. Трохи дивно, що тег body отримав 99% — може бути, на великих сайтах є помилки? Теги таблиць знаходяться в самому низу, що теж досить незвично. Вони використовуються на третині сайтів. Серед версій (X)HTML сторінок лідирує HTML5 Doctype.

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Якщо подивитися на теги, які відповідають за стилі і спілкуються і пошуковими движками, ви знайдете 175 мільйонів тегів. Їх частотність:

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Частотність вживання 105 мільйонів тегів для контенту:

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Частотність мільйона тегів з текстовим контентом:

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Що чекає на інтернет?

Нас, веб-розробників і творців контенту цікавить робота з сайтом, статистика і підтримка в браузерах. Саме це призвело до того, що після дослідження 2005 року саме ці імена класів стали популярні теги HTML5.

Інтернет швидко розвивається. Тут немає нічого нового, але це може приголомшити. Тренди змінюються щороку, і творцям контенту потрібна певна мотивація і зусилля, щоб залишатися на гребені хвилі. Подумайте, як середньостатистична веб-сторінка виглядала 10 років тому, і як виглядає сучасна веб-сторінка.

У цьому дослідженні ми також звернули увагу на нові технології типу Web Components. Web Components дозволяє створювати теги з довільними іменами, проте в самому коді даного інструменту можна знайти стандартні теги.

Середньостатистична веб-сторінка (дані отримані з аналізу 8 млн сайтів)

Майбутнє неможливо передбачити. Ми можемо тільки гадати, як середньостатистична сторінка буде виглядати через 10 років. Коли ми проведемо ще одне дослідження, чи побачимо ми ріст технології Web Components?