Recientes acuerdos de autorización de datos destacados, como los entre OpenAI y News Corp y Reddit, enfatizan la necesidad de datos de alta calidad en la inteligencia artificial. Los principales modelos de IA ya han sido entrenados en una parte significativa de Internet. Por ejemplo, Common Crawl ha indexado aproximadamente el 10% de las páginas web para el entrenamiento de modelos de lenguaje grandes, lo que incluye más de 100 billones de tokens.
para mejorar aún más los modelos de IA, es esencial ampliar y mejorar los datos disponibles para el entrenamiento. hemos estado discutiendo formas de agregar datos, especialmente a través de métodos descentralizados. estamos particularmente interesados en cómo los enfoques descentralizados pueden ayudar a crear nuevos conjuntos de datos y ofrecer incentivos económicos a los contribuyentes y creadores.
en los últimos años, uno de los temas candentes en el mundo de la criptografía ha sido el concepto de los DAO de datos, que son grupos de personas que crean, organizan y gestionan datos. Si bien este tema ha sido discutido por Multicoin y otros, el rápido avance de la IA plantea una nueva pregunta: "¿por qué es ahora el momento adecuado para los DAO de datos?"
En este artículo, compartiremos nuestra visión sobre los data daos para abordar la pregunta: ¿cómo pueden los data daos acelerar el desarrollo de la IA?
Hoy en día, los modelos de IA se entrenan principalmente con datos públicos, ya sea a través de asociaciones con empresas como News Corp y Reddit o mediante el raspado de datos de Internet. Por ejemplo, el Llama 3 de Meta fue entrenado con 15 billones de tokens de fuentes públicas. Si bien estos métodos son efectivos para recopilar rápidamente grandes cantidades de datos, tienen limitaciones con respecto a los tipos de datos que se recopilan y cómo se obtienen estos datos.
En primer lugar, en cuanto a los datos que se deben recopilar: el desarrollo de la IA se ve obstaculizado por cuellos de botella en la calidad y cantidad de los datos. Leopold Aschenbrenner habló sobre la "pared de datos" que limita futuras mejoras en los algoritmos: "pronto, el enfoque simple de preentrenar modelos de lenguaje más grandes con más datos recopilados puede enfrentar cuellos de botella significativos."
una forma de superar la barrera de datos es hacer nuevos conjuntos de datos disponibles. por ejemplo, las empresas modelo no pueden extraer datos protegidos por contraseña sin violar la mayoría de los términos de servicio de los sitios web, y no pueden acceder a datos que no se hayan recopilado. actualmente, hay una gran cantidad de datos privados a los que el entrenamiento de IA no puede acceder, como datos de Google Drive, Slack, registros de salud personales y otra información privada.
En segundo lugar, en cuanto a cómo se recopilan los datos: en el modelo actual, las empresas de recopilación de datos capturan la mayor parte del valor. La presentación del formulario S-1 de Reddit destaca la concesión de licencias de datos como una importante fuente de ingresos prevista: “Esperamos que nuestra creciente ventaja en datos y propiedad intelectual sigan siendo elementos clave en el futuro entrenamiento de LL.M.” Sin embargo, los usuarios finales que generan el contenido real no reciben ningún beneficio económico de estos acuerdos de licencia o de los propios modelos de IA. Esta falta de alineación podría desalentar la participación, ya que ya hay movimientos para demandar a empresas de IA generativa o para optar por no participar en conjuntos de datos de entrenamiento. Además, concentrar los ingresos en manos de empresas o plataformas de modelos sin compartirlos con los usuarios finales tiene importantes implicaciones socioeconómicas.
los problemas de datos mencionados anteriormente comparten un tema común: se benefician de contribuciones sustanciales de muestras de usuarios diversas y representativas. Si bien cualquier punto de datos individual puede tener un impacto insignificante en el rendimiento del modelo, colectivamente, un gran grupo de usuarios puede generar nuevos conjuntos de datos que son muy valiosos para el entrenamiento de la IA. Aquí es donde entran en juego las organizaciones autónomas descentralizadas de datos (Data DAOs). Con los Data DAOs, los contribuyentes de datos pueden ganar recompensas económicas por proporcionar datos y pueden controlar cómo se utilizan y monetizan sus datos.
¿En qué áreas pueden los DAO de datos tener un impacto significativo en el panorama de datos actual? Aquí hay algunas ideas, esta no es una lista exhaustiva, y los DAO de datos ciertamente tienen otras oportunidades:
(1) datos del mundo real
En el campo de la infraestructura física descentralizada (depin), redes como Hivemapper tienen como objetivo recopilar los últimos datos de mapas globales incentivando a los propietarios de cámaras de tablero a compartir sus datos y animando a los usuarios a proporcionar datos a través de sus aplicaciones (por ejemplo, información sobre cierres o reparaciones de carreteras). Depin se puede ver como un dao de datos del mundo real, donde los conjuntos de datos se generan a partir de dispositivos de hardware y/o redes de usuarios. Estos datos tienen valor comercial para muchas empresas y los contribuyentes son recompensados con tokens.
(2) datos de salud personales
La biohacking es un movimiento social donde individuos y comunidades adoptan un enfoque de hazlo tú mismo para estudiar la biología, a menudo experimentando en ellos mismos. Por ejemplo, alguien podría usar diferentes drogas nootrópicas para mejorar el rendimiento cerebral, probar varios tratamientos o cambios ambientales para mejorar el sueño, o incluso inyectarse con sustancias experimentales.
Los data daos pueden apoyar estos esfuerzos de biohackeo al organizar a los participantes en torno a experimentos compartidos y recopilar sistemáticamente los resultados. Los ingresos generados por estos daos de salud personales, como los de laboratorios de investigación o empresas farmacéuticas, pueden ser devueltos a los participantes que contribuyeron con sus datos de salud personales.
(3) aprendizaje por refuerzo con retroalimentación humana
El aprendizaje por refuerzo con retroalimentación humana (RLHF) implica el uso de la entrada humana para ajustar los modelos de IA y mejorar su rendimiento. Típicamente, la retroalimentación proviene de expertos en campos específicos que pueden evaluar eficazmente la salida del modelo. Por ejemplo, un laboratorio de investigación podría buscar la asistencia de un doctorado en matemáticas para mejorar las capacidades matemáticas de su IA. Las recompensas token pueden atraer e incentivar a los expertos a participar, ofreciendo valor especulativo y acceso global a través de sistemas de pago cripto. Empresas como Sapien, Fraction y Sahara están trabajando activamente en esta área.
(4) datos privados
a medida que los datos públicos disponibles para el entrenamiento de inteligencia artificial se vuelven más escasos, el enfoque puede cambiar a conjuntos de datos patentados, incluidos los datos privados del usuario. detrás de los muros de inicio de sesión se encuentra una gran cantidad de datos de alta calidad que siguen siendo inaccesibles, como mensajes y documentos privados. Estos datos pueden ser altamente efectivos para entrenar IA personalizada y contienen información valiosa que no se encuentra en Internet público.
acceder y utilizar estos datos presenta importantes desafíos legales y éticos. Los Data DAOs pueden ofrecer una solución al permitir que los participantes dispuestos carguen y monetizen sus datos mientras gestionan su uso. Por ejemplo, un DAO de datos de Reddit podría permitir a los usuarios cargar sus datos exportados de Reddit, incluidos comentarios, publicaciones e historial de votaciones, que podrían venderse o arrendarse a empresas de IA de manera que proteja la privacidad. Los incentivos de tokens permiten a los usuarios ganar no solo a partir de una transacción única, sino también del valor continuo generado por los modelos de IA entrenados con sus datos.
si bien los datos daos ofrecen beneficios potenciales significativos, hay varias consideraciones importantes y desafíos a abordar.
(1) distorsión de incentivos
una lección clave de la historia de uso de incentivos de tokens en criptomonedas es que las recompensas externas pueden alterar el comportamiento del usuario. esto tiene implicaciones directas para el uso de incentivos de tokens para recopilar datos: los incentivos podrían distorsionar el grupo de participantes y los tipos de datos que contribuyen.
La introducción de incentivos de tokens también abre la posibilidad de que los participantes exploten el sistema, como enviar datos de baja calidad o fabricados para maximizar sus ingresos. Esto es crítico porque el éxito de los data DAOs depende de la calidad de los datos. Si las contribuciones se desvían del objetivo deseado, el valor del conjunto de datos puede verse comprometido.
(2) medición y recompensa de datos
La idea central de los daos de datos es recompensar a los contribuyentes por sus envíos de datos con tokens, lo que generará ingresos para el dao a largo plazo. Sin embargo, debido a la naturaleza subjetiva del valor de los datos, determinar la recompensa adecuada para diferentes contribuciones de datos es muy desafiante. Por ejemplo, en el escenario de biohacking: ¿los datos de algunos usuarios son más valiosos que los de otros? Si es así, ¿qué factores determinan esto? Para los datos de mapas: ¿es más valiosa la información de ciertas áreas que de otras? ¿Cómo se deben cuantificar estas diferencias? (La investigación sobre la medición del valor de los datos en la IA mediante la evaluación de la contribución incremental de los datos al rendimiento del modelo está en curso pero puede ser computacionalmente intensiva.)
Además, es esencial establecer mecanismos robustos para verificar la autenticidad y precisión de los datos. Sin estas medidas, el sistema podría ser vulnerable a envíos de datos fraudulentos (por ejemplo, la creación de cuentas falsas) o ataques de Sybil. Las redes Depin abordan este problema al integrar la verificación a nivel de dispositivo de hardware, pero otros tipos de DAO de datos que dependen de las contribuciones de los usuarios podrían ser más susceptibles a la manipulación.
(3) valor incremental de nuevos datos
la mayoría de las redes abiertas ya se han utilizado con fines de entrenamiento, por lo que los operadores de data dao deben considerar si los conjuntos de datos recopilados de manera descentralizada realmente agregan valor incremental a los datos existentes en redes abiertas, y si los investigadores pueden acceder a estos datos desde la plataforma o a través de otros medios. Esta idea subraya la importancia de reunir datos completamente nuevos que superen lo que está disponible actualmente, lo que lleva a la siguiente consideración: la escala de impacto y oportunidades de ingresos.
(4) evaluación de oportunidades de ingresos
Fundamentalmente, los DAO de datos están construyendo un mercado de dos caras que conecta a los compradores de datos con los contribuyentes de datos. Por lo tanto, el éxito de un DAO de datos depende de su capacidad para atraer a una base de clientes estable y diversa dispuesta a pagar por los datos.
Los data DAOs deben identificar y confirmar la demanda de sus datos y asegurarse de que las oportunidades de ingresos sean lo suficientemente significativas (ya sea en total o por contribuyente) como para motivar la cantidad y calidad necesarias de datos. Por ejemplo, se ha discutido durante años el concepto de crear un DAO de datos de usuario para agrupar preferencias personales y datos de navegación con fines publicitarios, pero los posibles retornos para los usuarios pueden ser mínimos. (Para ponerlo en contexto, el ARPU global de Meta fue de $13.12 al final de 2023). Con las empresas de inteligencia artificial planeando invertir billones de dólares en capacitación, las posibles ganancias por datos podrían ser suficientes para incentivar contribuciones a gran escala, lo que plantea una pregunta intrigante para los data DAOs: '¿por qué ahora?'
Las data DAOs ofrecen una solución prometedora para crear conjuntos de datos nuevos y de alta calidad y romper la barrera de datos que desafía la inteligencia artificial. Aunque los métodos exactos para lograr esto aún están por determinarse, estamos emocionados de ver cómo evoluciona este campo.
Recientes acuerdos de autorización de datos destacados, como los entre OpenAI y News Corp y Reddit, enfatizan la necesidad de datos de alta calidad en la inteligencia artificial. Los principales modelos de IA ya han sido entrenados en una parte significativa de Internet. Por ejemplo, Common Crawl ha indexado aproximadamente el 10% de las páginas web para el entrenamiento de modelos de lenguaje grandes, lo que incluye más de 100 billones de tokens.
para mejorar aún más los modelos de IA, es esencial ampliar y mejorar los datos disponibles para el entrenamiento. hemos estado discutiendo formas de agregar datos, especialmente a través de métodos descentralizados. estamos particularmente interesados en cómo los enfoques descentralizados pueden ayudar a crear nuevos conjuntos de datos y ofrecer incentivos económicos a los contribuyentes y creadores.
en los últimos años, uno de los temas candentes en el mundo de la criptografía ha sido el concepto de los DAO de datos, que son grupos de personas que crean, organizan y gestionan datos. Si bien este tema ha sido discutido por Multicoin y otros, el rápido avance de la IA plantea una nueva pregunta: "¿por qué es ahora el momento adecuado para los DAO de datos?"
En este artículo, compartiremos nuestra visión sobre los data daos para abordar la pregunta: ¿cómo pueden los data daos acelerar el desarrollo de la IA?
Hoy en día, los modelos de IA se entrenan principalmente con datos públicos, ya sea a través de asociaciones con empresas como News Corp y Reddit o mediante el raspado de datos de Internet. Por ejemplo, el Llama 3 de Meta fue entrenado con 15 billones de tokens de fuentes públicas. Si bien estos métodos son efectivos para recopilar rápidamente grandes cantidades de datos, tienen limitaciones con respecto a los tipos de datos que se recopilan y cómo se obtienen estos datos.
En primer lugar, en cuanto a los datos que se deben recopilar: el desarrollo de la IA se ve obstaculizado por cuellos de botella en la calidad y cantidad de los datos. Leopold Aschenbrenner habló sobre la "pared de datos" que limita futuras mejoras en los algoritmos: "pronto, el enfoque simple de preentrenar modelos de lenguaje más grandes con más datos recopilados puede enfrentar cuellos de botella significativos."
una forma de superar la barrera de datos es hacer nuevos conjuntos de datos disponibles. por ejemplo, las empresas modelo no pueden extraer datos protegidos por contraseña sin violar la mayoría de los términos de servicio de los sitios web, y no pueden acceder a datos que no se hayan recopilado. actualmente, hay una gran cantidad de datos privados a los que el entrenamiento de IA no puede acceder, como datos de Google Drive, Slack, registros de salud personales y otra información privada.
En segundo lugar, en cuanto a cómo se recopilan los datos: en el modelo actual, las empresas de recopilación de datos capturan la mayor parte del valor. La presentación del formulario S-1 de Reddit destaca la concesión de licencias de datos como una importante fuente de ingresos prevista: “Esperamos que nuestra creciente ventaja en datos y propiedad intelectual sigan siendo elementos clave en el futuro entrenamiento de LL.M.” Sin embargo, los usuarios finales que generan el contenido real no reciben ningún beneficio económico de estos acuerdos de licencia o de los propios modelos de IA. Esta falta de alineación podría desalentar la participación, ya que ya hay movimientos para demandar a empresas de IA generativa o para optar por no participar en conjuntos de datos de entrenamiento. Además, concentrar los ingresos en manos de empresas o plataformas de modelos sin compartirlos con los usuarios finales tiene importantes implicaciones socioeconómicas.
los problemas de datos mencionados anteriormente comparten un tema común: se benefician de contribuciones sustanciales de muestras de usuarios diversas y representativas. Si bien cualquier punto de datos individual puede tener un impacto insignificante en el rendimiento del modelo, colectivamente, un gran grupo de usuarios puede generar nuevos conjuntos de datos que son muy valiosos para el entrenamiento de la IA. Aquí es donde entran en juego las organizaciones autónomas descentralizadas de datos (Data DAOs). Con los Data DAOs, los contribuyentes de datos pueden ganar recompensas económicas por proporcionar datos y pueden controlar cómo se utilizan y monetizan sus datos.
¿En qué áreas pueden los DAO de datos tener un impacto significativo en el panorama de datos actual? Aquí hay algunas ideas, esta no es una lista exhaustiva, y los DAO de datos ciertamente tienen otras oportunidades:
(1) datos del mundo real
En el campo de la infraestructura física descentralizada (depin), redes como Hivemapper tienen como objetivo recopilar los últimos datos de mapas globales incentivando a los propietarios de cámaras de tablero a compartir sus datos y animando a los usuarios a proporcionar datos a través de sus aplicaciones (por ejemplo, información sobre cierres o reparaciones de carreteras). Depin se puede ver como un dao de datos del mundo real, donde los conjuntos de datos se generan a partir de dispositivos de hardware y/o redes de usuarios. Estos datos tienen valor comercial para muchas empresas y los contribuyentes son recompensados con tokens.
(2) datos de salud personales
La biohacking es un movimiento social donde individuos y comunidades adoptan un enfoque de hazlo tú mismo para estudiar la biología, a menudo experimentando en ellos mismos. Por ejemplo, alguien podría usar diferentes drogas nootrópicas para mejorar el rendimiento cerebral, probar varios tratamientos o cambios ambientales para mejorar el sueño, o incluso inyectarse con sustancias experimentales.
Los data daos pueden apoyar estos esfuerzos de biohackeo al organizar a los participantes en torno a experimentos compartidos y recopilar sistemáticamente los resultados. Los ingresos generados por estos daos de salud personales, como los de laboratorios de investigación o empresas farmacéuticas, pueden ser devueltos a los participantes que contribuyeron con sus datos de salud personales.
(3) aprendizaje por refuerzo con retroalimentación humana
El aprendizaje por refuerzo con retroalimentación humana (RLHF) implica el uso de la entrada humana para ajustar los modelos de IA y mejorar su rendimiento. Típicamente, la retroalimentación proviene de expertos en campos específicos que pueden evaluar eficazmente la salida del modelo. Por ejemplo, un laboratorio de investigación podría buscar la asistencia de un doctorado en matemáticas para mejorar las capacidades matemáticas de su IA. Las recompensas token pueden atraer e incentivar a los expertos a participar, ofreciendo valor especulativo y acceso global a través de sistemas de pago cripto. Empresas como Sapien, Fraction y Sahara están trabajando activamente en esta área.
(4) datos privados
a medida que los datos públicos disponibles para el entrenamiento de inteligencia artificial se vuelven más escasos, el enfoque puede cambiar a conjuntos de datos patentados, incluidos los datos privados del usuario. detrás de los muros de inicio de sesión se encuentra una gran cantidad de datos de alta calidad que siguen siendo inaccesibles, como mensajes y documentos privados. Estos datos pueden ser altamente efectivos para entrenar IA personalizada y contienen información valiosa que no se encuentra en Internet público.
acceder y utilizar estos datos presenta importantes desafíos legales y éticos. Los Data DAOs pueden ofrecer una solución al permitir que los participantes dispuestos carguen y monetizen sus datos mientras gestionan su uso. Por ejemplo, un DAO de datos de Reddit podría permitir a los usuarios cargar sus datos exportados de Reddit, incluidos comentarios, publicaciones e historial de votaciones, que podrían venderse o arrendarse a empresas de IA de manera que proteja la privacidad. Los incentivos de tokens permiten a los usuarios ganar no solo a partir de una transacción única, sino también del valor continuo generado por los modelos de IA entrenados con sus datos.
si bien los datos daos ofrecen beneficios potenciales significativos, hay varias consideraciones importantes y desafíos a abordar.
(1) distorsión de incentivos
una lección clave de la historia de uso de incentivos de tokens en criptomonedas es que las recompensas externas pueden alterar el comportamiento del usuario. esto tiene implicaciones directas para el uso de incentivos de tokens para recopilar datos: los incentivos podrían distorsionar el grupo de participantes y los tipos de datos que contribuyen.
La introducción de incentivos de tokens también abre la posibilidad de que los participantes exploten el sistema, como enviar datos de baja calidad o fabricados para maximizar sus ingresos. Esto es crítico porque el éxito de los data DAOs depende de la calidad de los datos. Si las contribuciones se desvían del objetivo deseado, el valor del conjunto de datos puede verse comprometido.
(2) medición y recompensa de datos
La idea central de los daos de datos es recompensar a los contribuyentes por sus envíos de datos con tokens, lo que generará ingresos para el dao a largo plazo. Sin embargo, debido a la naturaleza subjetiva del valor de los datos, determinar la recompensa adecuada para diferentes contribuciones de datos es muy desafiante. Por ejemplo, en el escenario de biohacking: ¿los datos de algunos usuarios son más valiosos que los de otros? Si es así, ¿qué factores determinan esto? Para los datos de mapas: ¿es más valiosa la información de ciertas áreas que de otras? ¿Cómo se deben cuantificar estas diferencias? (La investigación sobre la medición del valor de los datos en la IA mediante la evaluación de la contribución incremental de los datos al rendimiento del modelo está en curso pero puede ser computacionalmente intensiva.)
Además, es esencial establecer mecanismos robustos para verificar la autenticidad y precisión de los datos. Sin estas medidas, el sistema podría ser vulnerable a envíos de datos fraudulentos (por ejemplo, la creación de cuentas falsas) o ataques de Sybil. Las redes Depin abordan este problema al integrar la verificación a nivel de dispositivo de hardware, pero otros tipos de DAO de datos que dependen de las contribuciones de los usuarios podrían ser más susceptibles a la manipulación.
(3) valor incremental de nuevos datos
la mayoría de las redes abiertas ya se han utilizado con fines de entrenamiento, por lo que los operadores de data dao deben considerar si los conjuntos de datos recopilados de manera descentralizada realmente agregan valor incremental a los datos existentes en redes abiertas, y si los investigadores pueden acceder a estos datos desde la plataforma o a través de otros medios. Esta idea subraya la importancia de reunir datos completamente nuevos que superen lo que está disponible actualmente, lo que lleva a la siguiente consideración: la escala de impacto y oportunidades de ingresos.
(4) evaluación de oportunidades de ingresos
Fundamentalmente, los DAO de datos están construyendo un mercado de dos caras que conecta a los compradores de datos con los contribuyentes de datos. Por lo tanto, el éxito de un DAO de datos depende de su capacidad para atraer a una base de clientes estable y diversa dispuesta a pagar por los datos.
Los data DAOs deben identificar y confirmar la demanda de sus datos y asegurarse de que las oportunidades de ingresos sean lo suficientemente significativas (ya sea en total o por contribuyente) como para motivar la cantidad y calidad necesarias de datos. Por ejemplo, se ha discutido durante años el concepto de crear un DAO de datos de usuario para agrupar preferencias personales y datos de navegación con fines publicitarios, pero los posibles retornos para los usuarios pueden ser mínimos. (Para ponerlo en contexto, el ARPU global de Meta fue de $13.12 al final de 2023). Con las empresas de inteligencia artificial planeando invertir billones de dólares en capacitación, las posibles ganancias por datos podrían ser suficientes para incentivar contribuciones a gran escala, lo que plantea una pregunta intrigante para los data DAOs: '¿por qué ahora?'
Las data DAOs ofrecen una solución prometedora para crear conjuntos de datos nuevos y de alta calidad y romper la barrera de datos que desafía la inteligencia artificial. Aunque los métodos exactos para lograr esto aún están por determinarse, estamos emocionados de ver cómo evoluciona este campo.